#52 Section８分類（５）モデルの分析(2)

>100 Views

February 06, 26

スライド概要

PyCaretのevaluate_model関数は、1行のコードで21種類もの評価グラフをインタラクティブに表示できる強力なツールです。

●Hyperparameters
●Threshold
●Precision-Recall
●Prediction Error
●Class Report
●Feature Selection
●Learning Curve
●Manifold Learning
●Calibration Curve
●Validation Curve
●Dimensions
●Feature Importance Plot
●Decision Boundary
●Lift Chart
●Gain Chart
●Decision Tree
●KS Statistic Plot

これらの機能は、専門家ではない「シチズンデータサイエンティスト」がモデルを深く理解し、現場で根拠のある提案を行うための強力な武器となります。まさに「習うより慣れろ」を体現する、実戦向けの機能と言えるでしょう。

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化（Socialization）からはじめていきます。下記のブログで、ここにアップしたスライド、動画を随時、公開中です。【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました！　　https://amzn.to/4ryVppn 　　https://amzn.to/4pGgFb1

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.6K

データサイエンス関連の資格_後編

猫のタロー 4.1K

データサイエンス関連資格_前編

猫のタロー 2K

#32 NDBオープンデータとは

猫のタロー 562

#33 URLからデータを読み込む

猫のタロー 397

#40 都道府県別人口データを作成

猫のタロー 334

各ページのテキスト

4th STEP 機械学習前処理 Section ８分類（５）モデルの分析（２） Setup Compare Models Analyze Model データサイエンスチュートリアル Prediction Save Model 1

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数 PyCaretでは、『plot_model関数』を使わなくても、下記の『evaluate_model関数』を使うことで、様々なモデルの評価を可視化（グラフ化）することができます。 evaluate_model(モデル名) ここをクリックすると、それぞれの評価を可視化したグラフが現れます出力は、下記のようになります。何もしない状態では、『Pipline Plot』が選択され、機械学習モデルを構築する際にPyCaretが自動的に行った前処理を視覚的に表現しています。 SimpleImputerは欠損値の補完、 CleanColumnNamesはデータセットの列名の整形をしたことを表しています。データサイエンスチュートリアル 2

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力各ボタンをクリックすると、それぞれの評価を可視化したグラフが現れます。下記は、『plot_model』関数を使って表示させたグラフですね。 AUC Feature Importance Confusion Matrix データサイエンスチュートリアル 3

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Hyperparameters Hyperparameters パラメーター（Parameter）は、モデルが訓練データから自動的に学習し、調整していく重みやバイアスなどの値です。それに対して、ハイパーパラメータ（Hyperparameter）は、学習前に人手で設定するアルゴリズムの挙動を制御する値です。つまり、パラメータはモデルが学習によって得たもの、ハイパーパラメータはモデルの学習の前に設定するものとなります。 Hyperparametersでは、PyCaretがハイパーパラメータをどのように設定したかを表示してくれます。本来、分析者が経験等に基づいて決めるものですが、PyCaretはいい感じに決めてくれます。次スライドでハイパーパラメーターの解説をしますが、PyCaretには、このハイパーパラメーターをチューニングして一番結果が良いものを選択してくれる機能（『tune_model』関数）がありますので、こだわって覚える必要はありません。この辺が、PyCaretは『シチズンデータサイエンティスト』にぴったりな分析環境と言える所以です。データサイエンスチュートリアル 4

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) 【参考】ハイパーパラメータの例 C:正則化の強度を制御するパラメータ。値が小さいほど正則化が強くなり、モデルはより単純になります。過学習を抑制するために使用されます。 class_weight:クラスの不均衡を扱うためのパラメータ。クラスに重みを付けることで、少数派のクラスを重視した学習ができます。 dual:線形SVMにおける最適化問題を、主問題として解くか双対問題として解くかを指定します。データセットのサイズによって、どちらが効率的かが変わります。 fit_intercept:モデルに切片（intercept）を含めるかどうかを指定します。切片は、特徴量がすべて0の場合の予測値です。 intercept_scaling:切片の大きさを調整するためのパラメータ。solverが"liblinear"の場合に有効です。 l1_ratio:Elastic Net正則化を使用する場合の、L1正則化とL2正則化の比率を指定します。 max_iter:solverが収束するまでの最大イテレーション数を指定します。 multi_class:多クラス分類を行う場合の戦略を指定します。 "ovr"（One-vs-Rest）や"multinomial"などがあります。 n_jobs:並列処理に使用するCPUコア数を指定します。-1 を指定すると、すべてのコアを使用します。 penalty:正則化の種類を指定します。"l1"（L1正則化）、 "l2"（L2正則化）、"elasticnet"などがあります。 random_state:乱数シードを指定します。実験の再現性を確保するために使用します。 solver:最適化アルゴリズムを指定します。"liblinear“、 "lbfgs"、"saga"など、様々なsolverがあります。 tol:収束判定の許容誤差を指定します。 verbose:学習中の詳細な情報を表示するかどうかを指定します。 warm_start:前の学習結果を初期値として使用するかどうかを指定します。大規模なデータセットで、段階的に学習する場合に有効です。データサイエンスチュートリアル 5

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Threshold 『Threshold』は、precision (適合率)、recall (真陽性率)、f1（F1-score）、および*queue rateの各数値を縦軸に、識別閾値を横軸にしたグラフを表します。 Threshold *ある特定の識別閾値において、モデルが positive クラスに分類したデータの割合各評価指標の値求められる予測特性に対して、識別閾値をどの程度に設定すればいいかの検討に利用できます。点線はf1 scoreが最大になる識別閾値を表していて最適な F1-scoreは『0.48』となります。例えば、真陽性率を重視する場合は、閾値を低く設定することで、より多くの陽性データを検出できます。逆に、適合率を重視する場合は、閾値を高く設定することで、誤って陽性と予測するデータを減らすことができます。識別閾値このグラフの形状からは、閾値を上げると精度が上がる傾向にありますが、再現率は下がる傾向にあることがわかります。逆に、閾値を下げると再現率は上がりますが、精度は下がる傾向にあります。また、 F1-scoreは、精度と再現率のバランスを取った指標であり、このグラフでは閾値が0.4〜0.6付近で最も高い値を示しています。したがって、このモデルにおいては、この付近の閾値が全体的な性能のバランスが良い可能性があります。データサイエンスチュートリアル 6

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Precision-Recall Precision-Recall PR曲線『Precision-Recall』は、適合率を縦軸に、真陽性率を横軸にしたグラフです。適合率正解データ数に偏りがある場合、モデルの性能をより詳細に把握するのに役立ちます（逆に正解データ数に偏りが無い場合、 ROC曲線を使うとより正しい評価を得ることができます）。このグラフの形状からは、曲線が右に向かって比較的高い位置を推移しているため、このモデルは、多くの閾値において比較的高い適合率と真陽性率を両立できていると言えます。ただし、再現率が0.6付近までは精度が比較的高い水準を維持していますが、それ以降は再現率が向上するにつれて精度が緩やかに低下しています。真陽性率データサイエンスチュートリアル 7

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Prediction Error Prediction Error 『Prediction Error』は、予測数を縦軸に、実際（診断）クラス（陰性:0、陽性:1）を横軸にしたグラフです。予測数（積上）モデルがどのクラスを混同しやすいか、誤分類がどの程度発生しているかを視覚的に把握するのに役立ちます。このグラフの形状からは、クラス『1』がクラス『0』に誤分類される傾向が、クラス『0』のデータポイントがクラス『1』に誤分類される傾向よりも顕著である可能性があることが示唆されます。クラス『0』の予測は比較的良好ですが、クラス『1』の予測には改善の余地があるかもしれません。しかし、クラス『1』のデータ数がクラス『0』よりも少ないために、誤分類の影響がより大きく見えているのかもしれません。実際のクラス（陰性:0、陽性:1）データサイエンスチュートリアル 8

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Class Report Class Report 『Class Report』は、予測数を縦軸（積上）に、各評価指数を横軸にしたグラフです。予測数（積上）各クラスごとにprecision、recall、f1、*supportを確認し、モデルがどのクラスの予測を得意とし、どのクラスの予測を苦手としているかを把握します。 *support:実際のデータのn数（サンプル数）を表しています。このグラフの形状からは、全体的に高いPrecision、Recall、F1-score を示しており、このロジスティック回帰モデルは今回の分類タスクにおいて良好な性能を発揮していることがわかります。また、クラス『0』の方がクラス『1』よりも、Precision、Recallともに高いという傾向が見られます。クラス『0』のn数がクラス『1』よりも多いため、クラス『1』の予測にばらつきが大きいことが推測されます。しかし、通常、陽性と診断される患者数は、陰性と診断される人よりも少ないことが多いので、このような事はよく見られます。各評価指標データサイエンスチュートリアル 9

10.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Feature Selection Feature Selection 『Feature Selection』は、F1-scoreを縦軸に、選択された特徴量の数を横軸にしたグラフです。 F1-score 特徴量の数を増やしていくにつれて、モデルの性能を表す指標F1-scoreがどのように変化するかを示しています。このグラフの形状からは、特徴量の数を増やしていくにつれて、F1-scoreが最初は大きく向上していることがわかります。これは、モデルが予測に必要な重要な情報を持つ特徴量を優先的に学習していることを示唆しています。さらに横軸を右に見ていくと、F1-scoreは、特徴量の数が3〜4個のあたりでピークに達しているように見えます。この付近の数の特徴量で、モデルは比較的高い性能を発揮できると考えられます。特徴量の数をさらに増やしていくと、F1-scoreの向上は緩やかになるか、わずかに低下する傾向が見られます。これは、追加された特徴量がノイズを含んでいたり、モデルの汎化性能を妨げたりする可能性があることを示唆しています。さらに、影の領域から、特定の特徴量数におけるモデルの性能のばらつきを確認できます。ばらつきが小さいほど、その特徴量数でのモデルの性能は安定していると言えます。選択された特徴量の数データサイエンスチュートリアル 10

11.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Learning Curve Learning Curve 『Learning Curve』は、F1-scoreを縦軸に、学習に使用したデータセットのn数を横軸にしたグラフです。このグラフは、モデルの訓練データサイズに対する性能の変化を示すもので、モデルが適切に学習できているか、過学習や学習不足に陥っていないかを診断するために役立ちます。 F1-score ●Training Score（学習曲線） →訓練データセットで評価したモデルの性能の変化を示す曲線 ●Cross Validation Score（検証曲線） →検証データセット（学習には使用していないデータ）で評価したモデルの性能の変化を示す曲線学習に使用したデータセットのn数このグラフの学習曲線（青色の線）を見ると、データサイズが増加するにつれて、比較的早い段階で高い値に達し、その後はわずかに上昇または安定していることがわかります。検証曲線（緑色の線）では、データサイズが増加するにつれて向上していますが、学習曲線よりも低い値で推移しています。学習曲線と検証曲線の間にギャップが見られますが、モデルが訓練データに対しては高い性能を発揮しているものの、未知の検証データに対してはやや性能が劣る、つまり過学習の兆候があることを示唆しています。ただし、そのギャップはそれほど大きくはないため、過学習の程度は軽微であると考えられます。データサイエンスチュートリアル 11

12.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Manifold Learning Manifold Learning 次元削減後の主要成分2 『Manifold Learning』の縦軸、横軸は、高次元データを2 次元に変換して可視化するための次元削減アルゴリズム t-SNEで算出された主要成分を表しています。点の色はクラスラベルを表しており、青色がクラス『0』、緑色がクラス『1』に対応しています。データのクラスタリングの傾向や、クラス間の分離度合いを視覚的に理解するために用いられます。このグラフの形状から、クラス『0』は比較的凝集性の高い1つの主要なクラスターを形成しているのに対し、クラス『1』は複数の小さなサブクラスターに分かれている可能性を見ることができます。全体的に見ると、完全には分離しておらず、一部の領域ではクラス『0』とクラス『1』のデータポイントが混在しています。これは、モデルがこれらの混在した領域のデータポイントを分類する際に、誤分類を起こしやすい可能性を示唆しています。次元削減後の主要成分1 データサイエンスチュートリアル 12

13.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Calibration Curve Calibration Curve 『Calibration Curve』は、モデルが予測した確率の平均値をX軸に、その予測確率帯において、実際に陽性クラスであった割合をY軸とするグラフです。実際に陽性クラスであった割合 ●青い実線（モデルの較正曲線） → モデルが予測した確率と実際の陽性割合を結んだ線 ●破線（理想的な較正曲線） →予測確率と実際の陽性割合が完全に一致する場合の線（y = x の直線）分類モデルが予測した確率と、実際にその確率でイベントが発生した頻度を比較することで、モデルの確率予測の信頼性（較正度合い）を評価するためのグラフです。モデルが予測した確率の平均値このグラフの形状を見ると、グラフの左側の青い実線が点線より低い部分は、モデルは低い確率で陽性と予測したが、実際はそれよりも陽性の割合が高くなっています。また、グラフの中央の青い実線が点線より高い部分は、モデルは低い確率で陽性と予測したが、実際はそれよりも陽性の割合が低くなっています。全体を見ると、モデルの較正曲線が滑らかな曲線ではなく、階段状になっているのは、データセットのサイズが比較的小さいか、モデルの出力する確率の分解能が低いことが原因かもしれません。データサイエンスチュートリアル 13

14.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Validation Curve 『Validation Curve』は、調整しているハイパーパラメータの値を横軸に、モデルの性能指標であるF1-score を縦軸にしたグラフです。 Validation Curve F1-score ●青い実線（学習曲線） →訓練データセットで評価したモデルの性能を、ハイパーパラメータの各値に対して示しています。 ●緑の実践（検証曲線） →検証データセットで評価したモデルの性能を、ハイパーパラメータの各値に対して示しています。このグラフは、ハイパーパラメータの調整がモデルの性能にどのように影響するか、そして過学習や学習不足に陥るハイパーパラメータの値を特定するために使用されます。あるハイパーパラメータの値このグラフの形状を見ると、学習曲線は検証曲線よりもわずかに高い位置にありますが、その差は非常に小さく、過学習の兆候はほとんど見られません。検証曲線の性能がl1_ratioの値に関わらずほぼ一定であるため、F1スコアの観点からは、l1_ratioのどの値を選んでもモデルの性能に大きな影響はないと言えます。データサイエンスチュートリアル 14

15.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Dimensions 『Dimensions』は、調整しているハイパーパラメータの値を横軸に、モデルの性能指標であるF1-score を縦軸にしたグラフです。 Dimensions F1-score ●青い実線（学習曲線） →訓練データセットで評価したモデルの性能を、ハイパーパラメータの各値に対して示しています。 ●緑の実践（検証曲線） →検証データセットで評価したモデルの性能を、ハイパーパラメータの各値に対して示しています。このグラフは、データセットの特徴量（説明変数）の数と、ターゲット変数（目的変数）の分布を視覚的に示し、データの基本的な特性を把握するのに役立ちます。しかし、二項分類では、直線になってしまってあまり役に立ちません。【極座標】円状のグラフで、中心から放射状に伸びる軸と、円周上の角度でデータ点を表現しています【角度】各カテゴリに対応する角度の範囲を示しています【扇形の大きさ】各扇形の中心角の大きさは、そのカテゴリのデータポイントの割合を示しています【色】各カテゴリは異なる色で塗り分けられています具体例は、下記の参考を参照してください。あるハイパーパラメータの値データサイエンスチュートリアル【参考】 https://www.scikityb.org/en/latest/api/features/radviz.html 15

https://www.scikit-yb.org/en/latest/api/features/radviz.html

16.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Feature Importance Plot Feature Importance Plot 下記のようなグラフが、表示されました…。バグですかね。ちなみに『Feature Importance』は、下記のようになります。 plot_model(best, plot = ‘feature’)と同じですね。データサイエンスチュートリアル 16

17.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Decision Boundary Decision Boundary 『Decision Boundary』は、モデルの学習に使用した2つの特徴量がX軸とY軸になります。通常、最も重要な2つの特徴量や、ユーザーが指定した2つの特徴量が選ばれます。特徴量２ ●グラフの背景色は、モデルがそれぞれの領域をどのクラスに予測するかを示しています。 ●データセットの各データが、その特徴量の値に基づいて 2次元空間にプロットされています。 ●異なるクラスを分離するためにモデルが学習した境界線を決定境界線（Decision Boundary）と言います。左図では、黄緑と青の境界線です。このグラフを見ることにより、モデルがどのように異なるクラスを区別しているか、その境界線がどのような形状をしているかを理解することができます。特徴量１このグラフの形状を見ると、決定境界が直線であることから、モデルは比較的単純な線形分離を行っていると言えます。決定境界線によって、大部分の青色の点（クラス『0』）は黄緑色の領域に、大部分の緑色の点（クラス『1』）は青緑色の領域に分類されています。しかし、完全に分離できているわけではなく、境界線の近くや、背景色とは異なる色の点も存在します。データサイエンスチュートリアル 17

18.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Lift Chart 『Lift Chart』のX軸は、モデルが「ランダムに選択した場合」に比べて、どれだけ効率的に目的のクラス（陽性クラス）を識別できるかを示します。下記の2つの部分から成り立っています。 Lift Chart ①リフトカーブ (Lift Curve)：モデルが予測した陽性クラスの確信度が高い順にデータを並べ、その中で実際に陽性であったケースの割合を示します。 Lift値 ②ベースライン (Baseline)：ランダムにデータを選択した場合のパフォーマンスを示します。通常は、データセット全体の陽性クラスの割合を示す直線になります。リフトカーブがベースラインよりも上に位置しているほど、モデルの予測性能が高いことを意味します。また、リフトカーブとベースラインの間の面積が大きいほど、モデルの「リフト（持ち上げ効果）」が大きいことを示します。モデルが陽性と予測した確率の高い順に累積したサンプルの割合このグラフの形状は、モデルが両クラスのインスタンスをランダムな選択よりも効率的に捉える能力を持っていることを示しています。特にクラス『1』において、モデルは非常に高いリフト値を達成しており、ターゲットマーケティングや意思決定において有用である可能性が高いことを示唆しています。データサイエンスチュートリアル 18

19.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Gain Chart 『Gain Chart』は、サンプルの割合をX軸に、累積正解率をY軸とするグラフです。 Gain Chart モデルが予測した確信度に基づいて母集団をターゲットにした場合に、実際にどれだけの陽性クラス（ターゲットとなる結果）を「獲得」できるかを視覚的に表しています。累積正解率【参考】 Lift Chartは、モデルがランダムな選択と比較して、どれだけ効率的にターゲットを識別できるかを「比率」で示します。Gain Chartは、「どれだけ多くの陽性ケースを捕捉できたか」を直接的に示しています。このグラフの形状は、このモデルが両クラスの陽性インスタンスをランダムな選択よりも効率的に捉える能力を持っていることを示しています。特にクラス『1』において、モデルは非常に高い累積ゲインを達成しており、ターゲットマーケティングや意思決定において有用である可能性が高いです。サンプルの割合（％）データサイエンスチュートリアル 19

20.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 Decision Tree Decision Tree エラーメッセージは、「決定木の図を描画しようとしているけど、指定されたものが決定木の図を描画できるタイプのモデルじゃないよ！」ということを意味しているようです…。バグです！これが使えないからと言って、致命的ではありませんので、無視していきましょう。データサイエンスチュートリアル 20

21.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) evaluate_model関数の出力 KS Statistic Plot KS KS Statistic Statistic Plot 『KS Statistic Plot』は、確率閾値（次スライド参照）をx軸に、閾値よりも低い確率で予測されたインスタンスの累積割合をy軸とするグラフです。閾値よりも低い確率で予測されたインスタンスの累積割合このグラフは、モデルが陽性クラスと陰性クラスをどれだけうまく分離できているかを視覚的に示します。良いモデルであればあるほど、2 つの累積分布曲線の間に大きなギャップ（差）が生じます。 KS統計量は、この2つの累積分布曲線の間の最大垂直距離として定義されます。この最大距離が発生するx軸上の点が、モデルのパフォーマンスを最大化する可能性のある最適な分類閾値（カットオフポイント）になります。確率閾値このグラフの形状は、青色の線（クラス『0』）と緑色の線（クラス『1』）は、特に閾値が低い領域で大きく乖離しています。これは、モデルがクラス『0』とクラス『1』のインスタンスに対して異なる確率分布を予測していることを示唆しています。また、 KS統計量の値は約0.498であり、これは医学の分野では比較的高い値です。 KS統計量は、モデルが陽性クラスと陰性クラスをどれだけうまく分離できているかの指標であり、一般的に0.4以上であれば良好な分離とされます。このモデルは、予測確率に基づいてクラスをかなり明確に区別できていると言えます。データサイエンスチュートリアル 21

22.

4th STEP 機械学習 Section8 分類（5）モデルの分析(2) 【参考】確率閾値（Probability Threshold）二項分類は、各データインスタンスに対して、それが陽性クラスに属する確率を予測します。この確率（『予測確率（prediction_score）』）は通常、0から1の間の値で表されます。例えば、『この顧客が商品を購入する確率は0.8 (80%)』、『このメールがスパムである確率は0.2 (20%)』といった具合です。モデルが予測した確率を、あらかじめ設定された確率閾値（Probability Threshold）と比較します。 ■閾値を低く設定した場合: ●モデルが陽性と予測するための基準が緩くなります。 ●再現率（Recall）が向上する傾向: 実際に陽性であるインスタンスをより多く捉えることができます（偽陰性が減ります）。 ●精度（Precision）が低下する傾向: モデルが陽性と予測したものが、実際には陰性である割合が高くなります（偽陽性が増えます）。 ●陽性と予測されるインスタンスの数が増えます。予測確率が閾値以上の場合、そのインスタンスは陽性クラスに分類されます。予測確率が閾値未満の場合、そのインスタンスは陰性クラスに分類されます。適切な確率閾値の設定は、ビジネスの目標や問題の特性によって非常に重要です。 ※ 多くの場合、デフォルトのProbability Thresholdは 0.5 に設定されています。これは、モデルが陽性である確率が50%以上と予測した場合に陽性と判断するという、直感的な設定です。 ■医療診断：病気の見逃し（偽陰性）を最小限に抑えたい場合、再現率を重視して低い閾値を設定することが考えられます。この場合、誤診（偽陽性）が増える可能性は許容されます。 Probability Thresholdを調整することで、モデルの予測結果（陽性と陰性のバランス）を意図的に変えることができます。 ■スパムフィルタリング：正常なメールをスパムと誤判定する（偽陽性）ことを避けたい場合、精度を重視して高い閾値を設定することが考えられます。この場合、一部のスパムメールを見逃す（偽陰性）可能性は許容されます。 ■閾値を高く設定した場合 ●モデルが陽性と予測するためには、より高い確信度が必要になります。 ●精度（Precision）が向上する傾向: モデルが陽性と予測したものが、実際に陽性である割合が高くなります（偽陽性が減ります）。 ●再現率（Recall）が低下する傾向: 実際に陽性であるインスタンスのうち、モデルが陽性と予測できる割合が低くなります（偽陰性が増えます）。 ●陽性と予測されるインスタンスの数が減ります。 ■不正検知：不正を見逃したくない（高い再現率）一方で、誤検知による顧客への影響も考慮する必要があるため、精度とのバランスを考えた閾値設定が必要です。データサイエンスチュートリアル 22

#52 Section８ 分類（５）モデルの分析(2)