web-dev-qa-db-ja.com

Rランダムフォレスト変数の重要度

Rの分類にランダムフォレストパッケージを使用しようとしています。

リストされている変数の重要度の測定値は次のとおりです。

  • クラス0の変数xの生の重要度スコア
  • クラス1の変数xの生の重要度スコアの平均
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

今、私はそれらの定義を知っているようにこれらの「意味」を知っています。私が知りたいのは、それらの使い方です。

私が本当に知りたいのは、これらの値がどれだけ正確か、良い値、悪い値、最大値と最小値などのコンテキストでのみ意味するものです。

変数のMeanDecreaseAccuracyまたはMeanDecreaseGiniが大きい場合、それは重要であるか重要でないかを意味しますか?また、生のスコアに関する情報も役立ちます。私は、それらのアプリケーションに関連するこれらの数値について知っていることをすべて知りたいです。

「エラー」、「合計」、または「並べ替えられた」という言葉を使用する説明は、ランダムフォレストがどのように機能するかの説明を含まない簡単な説明よりも有用性が低くなります。

誰かにラジオの使い方を説明してもらいたいなら、ラジオが電波を音に変換する方法を説明することを期待しないでしょう。

46
thirsty93

「エラー」、「合計」、または「並べ替えられた」という言葉を使用する説明は、ランダムフォレストがどのように機能するかの説明を含まない簡単な説明よりも有用性が低くなります。

誰かにラジオの使い方を説明してもらいたいなら、ラジオが電波を音に変換する方法を説明することを期待しないでしょう。

WKRP 100.5 FMの数字の意味を、波の周波数の厄介な技術的な詳細に入らずに、どのように説明しますか?率直に言って、ランダムフォレストのパラメーターと関連するパフォーマンスの問題は、技術用語を理解していても頭を悩ますことはできません。

これが私の答えです。

-クラス0の変数xの生の重要度スコアの平均

-クラス1の変数xの生の重要度スコアの平均

ランダムフォレストからの簡略化 Webページ 、生の重要度スコアは、特定の予測変数がランダムにデータを正常に分類するのにどれだけ役立つかを測定します。

-MeanDecreaseAccuracy

これは Rモジュール のみにあると思います。この予測子をモデルに含めると分類エラーがどれだけ減少するかを測定すると考えています。

-MeanDecreaseGini

Gini は、社会の収入の分布を記述する際に使用される場合の「不公平」、またはツリーベースの分類における「ノードの不純性」の尺度として定義されます。 Giniが低い(つまり、Giniの減少が大きい)とは、特定の予測変数が、データを定義されたクラスに分割する際により大きな役割を果たすことを意味します。分類ツリーのデータが予測変数の値に基づいて個々のノードで分割されるという事実を語らずに説明するのは難しいものです。これがどのようにパフォーマンスを向上させるかについてははっきりしていません。

27
bubaker

差し迫った懸念:値が大きいほど、変数の重要性が高くなります。これは、言及するすべてのメジャーに当てはまります。

ランダムフォレストは非常に複雑なモデルを提供するため、重要度の測定値を解釈するのは難しい場合があります。変数が何をしているかを簡単に理解したい場合は、RFを使用しないでください。代わりに、線形モデルまたは(アンサンブルでない)決定木を使用してください。

あなたが言った:

「エラー」、「合計」、または「並べ替えられた」という言葉を使用する説明は、ランダムフォレストがどのように機能するかの説明を含まない簡単な説明よりも有用性が低くなります。

ランダムフォレストについて掘り下げて学習しない限り、上記よりもはるかに多くのことを説明するのは非常に困難です。私はあなたがマニュアル、またはBreimanのマニュアルのセクションについて不満を言っていると仮定します

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

変数の重要性を把握するために、ランダムなジャンク(「置換」)で変数を埋め、予測精度がどれだけ低下するかを確認します。 MeanDecreaseAccuracyとMeanDecreaseGiniはこのように機能します。生の重要度スコアが何であるかわかりません。

22
Brendan OConnor

ランダムフォレストでは、解釈がかなり困難です。 RFは非常に堅牢な分類器であり、予測を民主的に行います。これにより、変数のランダムサブセットとデータのランダムサブセットを取得して構築することにより、数百または数千の木を構築できます次に、選択されていないすべてのデータの予測を行い、予測を保存します。データセットの変動にうまく対処するため、堅牢です(つまり、ランダムに高い/低い値、偶然のプロット/サンプル、測定同じことが4つの異なる方法など)。ただし、いくつかの高度に相関する変数がある場合、両方が常に各モデルに含まれているわけではないため、両方が重要に思えるかもしれません。

ランダムフォレストの潜在的なアプローチの1つは、予測子を絞り込み、通常のCARTに切り替えるか、推論ベースのツリーモデルのPARTYパッケージを試すことです。ただし、その場合は、データマイニングの問題と、パラメーターに関する推論を慎重に行う必要があります。

6
kpierce8