web-dev-qa-db-ja.com

Precision-Recall曲線のしきい値とは何ですか?

精度の概念とリコールの概念を認識しています。しかし、P-R曲線を可能にする「しきい値」の概念を理解することは非常に難しいと感じています。

関連する機能で適切な分類アルゴリズムを使用して、患者のがんの再発(はいまたはいいえ)を予測するモデルを作成するとします。トレーニングとテストのためにデータを分割しました。トレインデータを使用してモデルをトレーニングし、テストデータを使用してPrecisionおよびRecallメトリックを取得したとします。

しかし、今どのようにP-R曲線を描くことができますか?何に基づいて?精度とリコールの2つの値があります。いくつかの精密リコールペアを取得できる「しきい値」だと読みました。しかし、そのしきい値は何ですか?私はまだ初心者であり、しきい値の概念そのものを理解することはできません。

以下のような非常に多くの分類モデルの比較を見ます。しかし、どうやってそれらのペアを手に入れるのでしょうか?

精密リコール曲線を使用したモデル比較

15
Mr.A

まず、 'roc' 'auc'を削除する必要があります精度-リコールカーブとしてのタグは異なるものです:

ROC曲線:

  • x軸:偽陽性率FPR = FP /(FP + TN)= FP/N
  • y軸:真の陽性率TPR =リコール= TP /(TP + FN)= TP/P

正確なリコール曲線:

  • x軸:リコール= TP /(TP + FN)= TP/P = TPR
  • y軸:精度= TP /(TP + FP)= TP/PP

あなたの癌検出の例は、バイナリ分類の問題です。予測は確率に基づいています。がんになる(しない)確率。

一般的に、インスタンスはP(A)> 0.5(しきい値)の場合、Aとして分類されます。この値の場合、True Positiveに基づいてRecall-Precisionペアを取得します。真のネガ、偽陽性、偽ネガ。

ここで、0.5のしきい値を変更すると、異なる結果(異なるペア)が得られます。 P(A)> 0.3の場合、患者を「癌にかかっている」と分類することができます。これにより、精度が低下し、想起率が向上します。これは、TPRとFPR、または精度とリコール、または感度と特異性の間の直感的なトレードオフを表しています。

生物統計学でよく見られるようにこれらの用語を追加しましょう。

  • 感度= TP/P =リコール= TPR
  • 特異性= TN/N =(1 – FPR)

ROC曲線とPrecision-Recall曲線は、分類器のこれらすべての可能なしきい値を視覚化します。

精度だけでは適切な品質指標でない場合は、これらのメトリックを検討する必要があります。すべての患者を「がんに罹患していない」と分類すると、最高の精度が得られますが、ROCおよびPrecision-Recall曲線の値は1と0になります。

16
lnathan