web-dev-qa-db-ja.com

preprocessing.scale()は何をしますか?どのように機能しますか?

Python 3.5、sklearnからの前処理

df = quandl.get('WIKI/GOOGL')
X = np.array(df)
X = preprocessing.scale(X)
11
0x Tps

Preprocessing.scale()アルゴリズムは、データを1つのスケールに配置します。これは、ほとんどスパースなデータセットで役立ちます。簡単に言うと、データは非常に広がっています。たとえば、Xの値は次のようになります。

X = [1、4、400、10000、100000]

スパース性の問題は、非常に偏っている、または統計的にゆがんでいることです。したがって、データをスケーリングすると、すべての値が1つのスケールにまとめられ、スパース性が排除されます。数学的な詳細でどのように機能するかを知ることに関して、これは正規化と標準化の同じ概念に従います。それらを調査して、それがどのように機能するかを詳しく知ることができます。しかし、人生をよりシンプルにするために、sklearnアルゴリズムはあなたのためにすべてを行います!

13
Deepak M

データをスケーリングすると、すべての値が1つのスケールにまとめられ、スパース性が排除され、正規化と標準化の同じ概念に従います。効果を確認するには、処理の前後にデータフレームでdescribeを呼び出します。

df.describe()

#with X is already pre-proccessed 
df2 = pandas.DataFrame(X)
df2.describe()

各フィールドにdf2の平均と標準の1の変動があることがわかります。

0
T D Nguyen