Precision-Recall曲線のしきい値とは何ですか？

Question

精度の概念とリコールの概念を認識しています。しかし、P-R曲線を可能にする「しきい値」の概念を理解することは非常に難しいと感じています。

関連する機能で適切な分類アルゴリズムを使用して、患者のがんの再発（はいまたはいいえ）を予測するモデルを作成するとします。トレーニングとテストのためにデータを分割しました。トレインデータを使用してモデルをトレーニングし、テストデータを使用してPrecisionおよびRecallメトリックを取得したとします。

しかし、今どのようにP-R曲線を描くことができますか？何に基づいて？精度とリコールの2つの値があります。いくつかの精密リコールペアを取得できる「しきい値」だと読みました。しかし、そのしきい値は何ですか？私はまだ初心者であり、しきい値の概念そのものを理解することはできません。

以下のような非常に多くの分類モデルの比較を見ます。しかし、どうやってそれらのペアを手に入れるのでしょうか？

精密リコール曲線を使用したモデル比較

lnathan · Accepted Answer

まず、 'roc'と 'auc'を削除する必要があります精度-リコールカーブとしてのタグは異なるものです：

ROC曲線：

x軸：偽陽性率FPR = FP /（FP + TN）= FP/N

y軸：真の陽性率TPR =リコール= TP /（TP + FN）= TP/P

正確なリコール曲線：

x軸：リコール= TP /（TP + FN）= TP/P = TPR

y軸：精度= TP /（TP + FP）= TP/PP

あなたの癌検出の例は、バイナリ分類の問題です。予測は確率に基づいています。がんになる（しない）確率。

一般的に、インスタンスはP(A)> 0.5（しきい値）の場合、Aとして分類されます。この値の場合、True Positiveに基づいてRecall-Precisionペアを取得します。真のネガ、偽陽性、偽ネガ。

ここで、0.5のしきい値を変更すると、異なる結果（異なるペア）が得られます。 P(A)> 0.3の場合、患者を「癌にかかっている」と分類することができます。これにより、精度が低下し、想起率が向上します。これは、TPRとFPR、または精度とリコール、または感度と特異性の間の直感的なトレードオフを表しています。

生物統計学でよく見られるようにこれらの用語を追加しましょう。

感度= TP/P =リコール= TPR

特異性= TN/N =（1 – FPR）

ROC曲線とPrecision-Recall曲線は、分類器のこれらすべての可能なしきい値を視覚化します。

精度だけでは適切な品質指標でない場合は、これらのメトリックを検討する必要があります。すべての患者を「がんに罹患していない」と分類すると、最高の精度が得られますが、ROCおよびPrecision-Recall曲線の値は1と0になります。