web-dev-qa-db-ja.com

データフレームを一貫してスケーリングする方法MinMaxScaler()sklearn

MinMaxScaler()で個別にスケーリングされる3つのデータフレームがあります。

def scale_dataframe(values_to_be_scaled)
    values = values_to_be_scaled.astype('float64')
    scaler = MinMaxScaler(feature_range=(0, 1))
    scaled = scaler.fit_transform(values)

    return scaled

scaled_values = []
for i in range(0,num_df):
    scaled_values.append(scale_dataframe(df[i].values))

私が抱えている問題は、各データフレームが列の最小値と最大値の個別のセットに従ってスケーリングされることです。すべてのデータフレームが、データ全体で同じ列の最小値と最大値のセットを共有しているかのように、同じ値にスケーリングする必要があります。 MinMaxScaler()でこれを実現する方法はありますか? 1つのオプションは、1つの大きなデータフレームを作成し、分割する前にデータフレームをスケーリングすることですが、これは理想的ではありません。

9
xjtc55

Sklearnの優れた docs を確認してください。

ご覧のとおり、partial_fit()!がサポートされています。これによりonline-scaling/minibatch-scalingが可能になり、ミニバッチを制御できます!

例:

import numpy as np
from sklearn.preprocessing import MinMaxScaler

a = np.array([[1,2,3]])
b = np.array([[10,20,30]])
c = np.array([[5, 10, 15]])

""" Scale on all datasets together in one batch """
offline_scaler = MinMaxScaler()
offline_scaler.fit(np.vstack((a, b, c)))                # fit on whole data at once
a_offline_scaled = offline_scaler.transform(a)
b_offline_scaled = offline_scaler.transform(b)
c_offline_scaled = offline_scaler.transform(c)
print('Offline scaled')
print(a_offline_scaled)
print(b_offline_scaled)
print(c_offline_scaled)

""" Scale on all datasets together in minibatches """
online_scaler = MinMaxScaler()
online_scaler.partial_fit(a)                            # partial fit 1
online_scaler.partial_fit(b)                            # partial fit 2
online_scaler.partial_fit(c)                            # partial fit 3
a_online_scaled = online_scaler.transform(a)
b_online_scaled = online_scaler.transform(b)
c_online_scaled = online_scaler.transform(c)
print('Online scaled')
print(a_online_scaled)
print(b_online_scaled)
print(c_online_scaled)

出力:

Offline scaled
[[ 0.  0.  0.]]
[[ 1.  1.  1.]]
[[ 0.44444444  0.44444444  0.44444444]]
Online scaled
[[ 0.  0.  0.]]
[[ 1.  1.  1.]]
[[ 0.44444444  0.44444444  0.44444444]]
10
sascha