sklearn GradientBoostingClassifierでカテゴリ変数を処理する方法は？

Question

カテゴリ変数を使用して GradientBoostingClassifier でモデルをトレーニングしようとしています。

以下は、カテゴリ変数をGradientBoostingClassifierに入力しようとするための基本的なコードサンプルです。

from sklearn import datasets from sklearn.ensemble import GradientBoostingClassifier import pandas iris = datasets.load_iris() # Use only data for 2 classes. X = iris.data[(iris.target==0) | (iris.target==1)] Y = iris.target[(iris.target==0) | (iris.target==1)] # Class 0 has indices 0-49. Class 1 has indices 50-99. # Divide data into 80% training, 20% testing. train_indices = list(range(40)) + list(range(50,90)) test_indices = list(range(40,50)) + list(range(90,100)) X_train = X[train_indices] X_test = X[test_indices] y_train = Y[train_indices] y_test = Y[test_indices] X_train = pandas.DataFrame(X_train) # Insert fake categorical variable. # Just for testing in GradientBoostingClassifier. X_train[0] = ['a']*40 + ['b']*40 # Model. clf = GradientBoostingClassifier(learning_rate=0.01,max_depth=8,n_estimators=50).fit(X_train, y_train)

次のエラーが表示されます。

ValueError: could not convert string to float: 'b'

私が収集したものから、GradientBoostingClassifierがモデルを構築する前に、カテゴリ変数の One Hot Encoding が必要であるように思われます。

GradientBoostingClassifierは、1つのホットエンコーディングを行うことなく、カテゴリ変数を使用してモデルを構築できますか？

R gbmパッケージは、上記のサンプルデータを処理できます。同等の機能を備えたPythonライブラリを探しています。

user1045085 · Accepted Answer

pandas.get_dummies または statsmodels.tools.tools.categorical を使用して、カテゴリ変数をダミー行列に変換できます。次に、ダミー行列をマージしてトレーニングデータに戻すことができます。

以下は、上記の手順を実行した質問のコード例です。

from sklearn import datasets from sklearn.ensemble import GradientBoostingClassifier from sklearn.metrics import roc_curve,auc from statsmodels.tools import categorical import numpy as np iris = datasets.load_iris() # Use only data for 2 classes. X = iris.data[(iris.target==0) | (iris.target==1)] Y = iris.target[(iris.target==0) | (iris.target==1)] # Class 0 has indices 0-49. Class 1 has indices 50-99. # Divide data into 80% training, 20% testing. train_indices = list(range(40)) + list(range(50,90)) test_indices = list(range(40,50)) + list(range(90,100)) X_train = X[train_indices] X_test = X[test_indices] y_train = Y[train_indices] y_test = Y[test_indices] ########################################################################### ###### Convert categorical variable to matrix and merge back with training ###### data. # Fake categorical variable. catVar = np.array(['a']*40 + ['b']*40) catVar = categorical(catVar, drop=True) X_train = np.concatenate((X_train, catVar), axis = 1) catVar = np.array(['a']*10 + ['b']*10) catVar = categorical(catVar, drop=True) X_test = np.concatenate((X_test, catVar), axis = 1) ########################################################################### # Model and test. clf = GradientBoostingClassifier(learning_rate=0.01,max_depth=8,n_estimators=50).fit(X_train, y_train) prob = clf.predict_proba(X_test)[:,1] # Only look at P(y==1). fpr, tpr, thresholds = roc_curve(y_test, prob) roc_auc_prob = auc(fpr, tpr) print(prob) print(y_test) print(roc_auc_prob)

pandas Dataframeをscikit-learn推定量に使用しないように指示してくれたAndreasMullerに感謝します。