web-dev-qa-db-ja.com

分類のための重要な特徴を見つける

ロジスティック回帰モデルを使用していくつかのEEGデータを分類しようとしています(これは私のデータの最良の分類を与えるようです)。私が持っているデータはマルチチャネルEEGセットアップからのものであるため、本質的には63 x 116 x 50のマトリックス(つまり、チャネルx時点x試行回数(50の2つの試行タイプがあります))があり、これを次のように再形成しました。長いベクトル、各試行に1つ。

私がやりたいのは、分類後に、どの機能が試験の分類に最も有用であったかを確認することです。どうすればそれを行うことができ、これらの機能の重要性をテストすることは可能ですか?例えば分類は主にN個の機能によって行われ、これらは機能xからzです。したがって、たとえば、時点90〜95のチャネル10は、分類にとって重要または重要であると言えます。

それで、これは可能ですか、それとも私は間違った質問をしていますか?

コメントや紙の参照は大歓迎です。

15
dYz

Scikit-learnには、特徴ランク付けのためのかなりの数の方法が含まれています。

(詳細については、 http://scikit-learn.org/stable/modules/feature_selection.html を参照してください)

その中で、ランダム化ロジスティック回帰を試してみることを強くお勧めします。私の経験では、それは一貫して他の方法を上回り、非常に安定しています。これに関する論文: http://arxiv.org/pdf/0809.2932v2.pdf

編集:さまざまな特徴選択方法とその長所と短所に関する一連のブログ投稿を書きました。これは、この質問にさらに詳しく答えるのにおそらく役立つでしょう。 :

36
Ando Saabas