辞書に基づいてデータフレームに新しい列を追加する

Question

データフレームと辞書があります。新しい列をデータフレームに追加し、辞書に基づいてその値を計算する必要があります。

機械学習、いくつかのテーブルに基づく新しい機能の追加：

score = {(1, 45, 1, 1) : 4, (0, 1, 2, 1) : 5} df = pd.DataFrame(data = { 'gender' : [1, 1, 0, 1, 1, 0, 0, 0, 1, 0], 'age' : [13, 45, 1, 45, 15, 16, 16, 16, 15, 15], 'cholesterol' : [1, 2, 2, 1, 1, 1, 1, 1, 1, 1], 'smoke' : [0, 0, 1, 1, 7, 8, 3, 4, 4, 2]}, dtype = np.int64) print(df, '
') df['score'] = 0 df.score = score[(df.gender, df.age, df.cholesterol, df.smoke)] print(df)

私は次の出力を期待します：

 gender age cholesterol smoke score 0 1 13 1 0 0 1 1 45 2 0 0 2 0 1 2 1 5 3 1 45 1 1 4 4 1 15 1 7 0 5 0 16 1 8 0 6 0 16 1 3 0 7 0 16 1 4 0 8 1 15 1 4 0 9 0 15 1 2 0

ALollz · Answer

scoreはディクショナリであるため（キーは一意です）、MultiIndexアライメントを使用できます

df = df.set_index(['gender', 'age', 'cholesterol', 'smoke']) df['score'] = pd.Series(score) # Assign values based on the Tuple df = df.fillna(0, downcast='infer').reset_index() # Back to columns

 gender age cholesterol smoke score 0 1 13 1 0 0 1 1 45 2 0 0 2 0 1 2 1 5 3 1 45 1 1 4 4 1 15 1 7 0 5 0 16 1 8 0 6 0 16 1 3 0 7 0 16 1 4 0 8 1 15 1 4 0 9 0 15 1 2 0

Alexander · Answer

リスト内包表記でassignを使用し、score辞書から値のタプル（各行）を取得します。見つからない場合はデフォルトでゼロになります。

>>> df.assign(score=[score.get(Tuple(row), 0) for row in df.values]) gender age cholesterol smoke score 0 1 13 1 0 0 1 1 45 2 0 0 2 0 1 2 1 5 3 1 45 1 1 4 4 1 15 1 7 0 5 0 16 1 8 0 6 0 16 1 3 0 7 0 16 1 4 0 8 1 15 1 4 0 9 0 15 1 2 0

タイミング

さまざまなアプローチを考えると、いくつかのタイミングを比較するのは興味深いことですが。

# Initial dataframe 100k rows (10 rows of identical data replicated 10k times). df = pd.DataFrame(data = { 'gender' : [1, 1, 0, 1, 1, 0, 0, 0, 1, 0] * 10000, 'age' : [13, 45, 1, 45, 15, 16, 16, 16, 15, 15] * 10000, 'cholesterol' : [1, 2, 2, 1, 1, 1, 1, 1, 1, 1] * 10000, 'smoke' : [0, 0, 1, 1, 7, 8, 3, 4, 4, 2] * 10000}, dtype = np.int64) %timeit -n 10 df.assign(score=[score.get(Tuple(v), 0) for v in df.values]) # 223 ms ± 9.28 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) %%timeit -n 10 df.assign(score=[score.get(t, 0) for t in Zip(*map(df.get, df))]) # 76.8 ms ± 2.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) %%timeit -n 10 df.assign(score=[score.get(v, 0) for v in df.itertuples(index=False)]) # 113 ms ± 2.58 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) %timeit -n 10 df.assign(score=df.apply(lambda x: score.get(Tuple(x), 0), axis=1)) # 1.84 s ± 77.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) %%timeit -n 10 (df .set_index(['gender', 'age', 'cholesterol', 'smoke']) .assign(score=pd.Series(score)) .fillna(0, downcast='infer') .reset_index() ) # 138 ms ± 11.5 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) %%timeit -n 10 s=pd.Series(score) s.index.names=['gender','age','cholesterol','smoke'] df.merge(s.to_frame('score').reset_index(),how='left').fillna(0).astype(int) # 24 ms ± 2.27 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) %%timeit -n 10 df.assign(score=pd.Series(Zip(df.gender, df.age, df.cholesterol, df.smoke)) .map(score) .fillna(0) .astype(int)) # 191 ms ± 7.54 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) %%timeit -n 10 df.assign(score=df[['gender', 'age', 'cholesterol', 'smoke']] .apply(Tuple, axis=1) .map(score) .fillna(0)) # 1.95 s ± 134 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

YOBEN_S · Answer

reindex

df['socre']=pd.Series(score).reindex(pd.MultiIndex.from_frame(df),fill_value=0).values df Out[173]: gender age cholesterol smoke socre 0 1 13 1 0 0 1 1 45 2 0 0 2 0 1 2 1 5 3 1 45 1 1 4 4 1 15 1 7 0 5 0 16 1 8 0 6 0 16 1 3 0 7 0 16 1 4 0 8 1 15 1 4 0 9 0 15 1 2 0

またはmerge

s=pd.Series(score) s.index.names=['gender','age','cholesterol','smoke'] df=df.merge(s.to_frame('score').reset_index(),how='left').fillna(0) Out[166]: gender age cholesterol smoke score 0 1 13 1 0 0.0 1 1 45 2 0 0.0 2 0 1 2 1 5.0 3 1 45 1 1 4.0 4 1 15 1 7 0.0 5 0 16 1 8 0.0 6 0 16 1 3 0.0 7 0 16 1 4 0.0 8 1 15 1 4 0.0 9 0 15 1 2 0.0

Dani Mesejo · Answer

スコアは辞書なので、 map を使用できます。

df['score'] = df[['gender', 'age', 'cholesterol', 'smoke']].apply(Tuple, axis=1).map(score).fillna(0) print(df)

出力

 gender age cholesterol smoke score 0 1 13 1 0 0.0 1 1 45 2 0 0.0 2 0 1 2 1 5.0 3 1 45 1 1 4.0 4 1 15 1 7 0.0 5 0 16 1 8 0.0 6 0 16 1 3 0.0 7 0 16 1 4 0.0 8 1 15 1 4 0.0 9 0 15 1 2 0.0

別の方法として、リスト内包表記を使用できます。

df['score'] = [score.get(t, 0) for t in Zip(df.gender, df.age, df.cholesterol, df.smoke)] print(df)

Quang Hoang · Answer

理解度と地図をリストする：

df['score'] = (pd.Series(Zip(df.gender, df.age, df.cholesterol, df.smoke)) .map(score) .fillna(0) .astype(int) )

出力：

 gender age cholesterol smoke score 0 1 13 1 0 0 1 1 45 2 0 0 2 0 1 2 1 5 3 1 45 1 1 4 4 1 15 1 7 0 5 0 16 1 8 0 6 0 16 1 3 0 7 0 16 1 4 0 8 1 15 1 4 0 9 0 15 1 2 0 9 0 15 1 2 0.0

anky_91 · Answer

別の方法かもしれません.loc[]：

m=df.set_index(df.columns.tolist()) m.loc[list(score.keys())].assign( score=score.values()).reindex(m.index,fill_value=0).reset_index()

 gender age cholesterol smoke score 0 1 13 1 0 0 1 1 45 2 0 0 2 0 1 2 1 5 3 1 45 1 1 4 4 1 15 1 7 0 5 0 16 1 8 0 6 0 16 1 3 0 7 0 16 1 4 0 8 1 15 1 4 0 9 0 15 1 2 0

Vishnudev · Answer

簡単な1行のソリューション、getおよびTupleを行単位で使用します。

df['score'] = df.apply(lambda x: score.get(Tuple(x), 0), axis=1)

上記の解決策は、目的の列以外の列がないことを前提としています。そうでない場合は、列を使用してください

cols = ['gender','age','cholesterol','smoke'] df['score'] = df[cols].apply(lambda x: score.get(Tuple(x), 0), axis=1)