web-dev-qa-db-ja.com

sklearnでのロジスティック回帰特徴係数値の解釈

データにロジスティック回帰モデルを適合させました。想像してみてください。4つの機能があります。1)参加者が受け取った条件、2)参加者がテストされた現象に関する事前の知識/背景を持っているかどうか(実験後のアンケートのバイナリ回答)、3)実験タスクに費やした時間、 4)参加者の年齢。参加者が最終的にオプションAとオプションBのどちらを選択したかを予測しようとしています。私のロジスティック回帰では、clf.coef_

[[-0.68120795 -0.19073737 -2.50511774  0.14956844]]

オプションAがポジティブクラスである場合、この出力は、機能3がバイナリ分類の最も重要な機能であり、オプションAを選択する参加者と否定的な関係があることを意味しますか(注:データを正規化/再スケーリングしていません)?係数の理解と、それらから抽出できる情報が正しいことを確認したいので、分析で一般化や誤った仮定を行わないようにします。

ご協力いただきありがとうございます!

5
Jane Sully

あなたはそこに正しい道を進んでいます。すべてが非常に類似した大きさである場合、pos/neg係数が大きいほど効果が大きくなり、すべてが等しくなります。

ただし、データが正規化されていない場合、Maratは係数の大きさが意味を持たない(コンテキストがない場合)という点で正しいです。たとえば、測定単位を大きくしたり小さくしたりして、さまざまな係数を取得できます。

ここにゼロ以外の切片を含めたかどうかはわかりませんが、ロジスティック回帰係数は実際にはオッズ比であり、何かをより直接解釈できるように確率に変換する必要があることに注意してください。

詳しい説明については、このページを確認してください。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in -logistic-regression /

1
rocksteady