preprocessing.scale（）は何をしますか？どのように機能しますか？

Question

Python 3.5、sklearnからの前処理

df = quandl.get('WIKI/GOOGL') X = np.array(df) X = preprocessing.scale(X)

Deepak M · Accepted Answer

Preprocessing.scale（）アルゴリズムは、データを1つのスケールに配置します。これは、ほとんどスパースなデータセットで役立ちます。簡単に言うと、データは非常に広がっています。たとえば、Xの値は次のようになります。

X = [1、4、400、10000、100000]

スパース性の問題は、非常に偏っている、または統計的にゆがんでいることです。したがって、データをスケーリングすると、すべての値が1つのスケールにまとめられ、スパース性が排除されます。数学的な詳細でどのように機能するかを知ることに関して、これは正規化と標準化の同じ概念に従います。それらを調査して、それがどのように機能するかを詳しく知ることができます。しかし、人生をよりシンプルにするために、sklearnアルゴリズムはあなたのためにすべてを行います！

T D Nguyen · Answer

データをスケーリングすると、すべての値が1つのスケールにまとめられ、スパース性が排除され、正規化と標準化の同じ概念に従います。効果を確認するには、処理の前後にデータフレームでdescribeを呼び出します。

df.describe() #with X is already pre-proccessed df2 = pandas.DataFrame(X) df2.describe()

各フィールドにdf2の平均と標準の1の変動があることがわかります。