UserWarning：Pandasでは、新しい属性名で列を作成することはできません

Question

pandasスクリプト。

実際には、私は2つのcsvファイル（一方の入力ファイルと他方の出力ファイル）で作業しています。 2列のすべての行をコピーして計算を行い、それを別のデータフレーム（出力ファイル）にコピーしたい。

列は次のとおりです。

'lat', 'long','PHCount', 'latOffset_1', 'longOffset_1','PH_Lat_1', 'PH_Long_1', 'latOffset_2', 'longOffset_2', 'PH_Lat_2', 'PH_Long_2', 'latOffset_3', 'longOffset_3','PH_Lat_3', 'PH_Long_3', 'latOffset_4', 'longOffset_4','PH_Lat_4', 'PH_Long_4'.

「lat」列と「latOffset_1」列を取得し、計算を行って、すでに作成した別の新しい列（「PH_Lat_1」）に配置します。

私の機能は：

def calculate_latoffset(latoffset): #Calculating Lat offset. a=(df2['lat']-(2*latoffset)) return a

メインコード：

for i in range(1,5): print(i) a='PH_lat_%d' % i print (a) b='latOffset_%d' % i print (b) df2.a = df2.apply(lambda x: calculate_latoffset(x[b]), axis=1)

列名は（1,2,3,4）だけ異なるため。だから私は関数calculate_latoffsetを呼び出して、すべての列（PH_Lat_1、PH_Lat_2、PH_Lat_3、PH_Lat_4）のすべての行を一度に計算したい。

上記のコードを使用すると、このエラーが発生します：

basic_conversion.py:46: UserWarning: Pandas doesn't allow columns to be created via a new attribute name - see https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access df2.a = df2.apply(lambda x: calculate_latoffset(x[b]), axis=1)

出来ますか？親切に助けてください

AaronDT · Answer

単にdf2['a'] の代わりに df2.a

Ying Cai · Answer

私が考えることができる解決策は、.loc列を取得します。あなたが試すことができます df.loc[:,a] の代わりに df.a。 Pandasデータフレーム属性との潜在的な競合を避けるために、ドットメソッドを使用してデータフレーム列を作成することはできません。

YaOzI · Answer

これはエラーではなく警告であるため、コードは引き続き実行できますが、おそらく意図どおりではありません。

短い答え：DataFrameの新しい列を作成するには、属性accessを使用しないでください、正しい方法はを使用することです[]または.locインデックス付け：
```
>>> df a b 0 7 6 1 5 8 >>> df['c'] = df.a + df.b >>> # OR >>> df.loc[:, 'c'] = df.a + df.b >>> df # c is an new added column a b c 0 7 6 13 1 5 8 13 
```

さらに説明すると、SeiresとDataFrameはパンダのコアクラスとデータ構造であり、もちろんそれらはPythonクラスでもあるため、pandas DataFrameとnormal Pythonオブジェクト。しかし、それは十分に文書化されているであり、簡単に理解できます。

Pythonでは、ユーザーは属性アクセスを使用して、独自のデータ属性をインスタンスオブジェクトに動的に追加できます。

>>> class Dog(object): ... pass >>> dog = Dog() >>> vars(dog) {} >>> superdog = Dog() >>> vars(superdog) {} >>> dog.legs = 'I can run.' >>> superdog.wings = 'I can fly.' >>> vars(dog) {'legs': 'I can run.'} >>> vars(superdog) {'wings': 'I can fly.'}

パンダでは、indexおよびcolumnはデータ構造に密接に関連しているため、アクセスできますシリーズのインデックス、DataFrameの列属性として。

>>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(low=0, high=10, size=(2,2)) >>> df = pd.DataFrame(data, columns=['a', 'b']) >>> df a b 0 7 6 1 5 8 >>> vars(df) {'_is_copy': None, '_data': BlockManager Items: Index(['a', 'b'], dtype='object') Axis 1: RangeIndex(start=0, stop=2, step=1) IntBlock: slice(0, 2, 1), 2 x 2, dtype: int64, '_item_cache': {}}

ただし、pandas属性アクセスは、主に、シリーズまたは列の既存の要素の読み取りと変更の利便性ですDataFrame。
```
>>> df.a 0 7 1 5 Name: a, dtype: int64 >>> df.b = [1, 1] >>> df a b 0 7 1 1 5 1 
```
また、利便性は完全な機能のトレードオフです。例えば。列名['space bar', '1', 'loc', 'min', 'index']を使用してDataFrameオブジェクトを作成できますが、属性として有効なPython identifier 1、 space barまたは既存のメソッド名と競合します。
```
>>> data = np.random.randint(0, 10, size=(2, 5)) >>> df_special_col_names = pd.DataFrame(data, columns=['space bar', '1', 'loc', 'min', 'index']) >>> df_special_col_names space bar 1 loc min index 0 4 4 4 8 9 1 3 0 1 2 3 
```

これらの場合、.loc、.iloc、および[]インデックスは、定義された方法で、SeriesおよびDataFrameオブジェクトのインデックスと列に完全にアクセス/操作します。

>>> df_special_col_names['space bar'] 0 4 1 3 Name: space bar, dtype: int64 >>> df_special_col_names.loc[:, 'min'] 0 8 1 2 Name: min, dtype: int64 >>> df_special_col_names.iloc[:, 1] 0 4 1 0 Name: 1, dtype: int64

トピックについては、ご覧のとおり、DataFrameの新しい列を作成するには、df.c = df.a + df.b justがコアデータ構造と一緒に新しい属性を作成しました、そのためバージョン0.21.0以降から、この動作はUserWarning（無音）を発生させます。

>>> df a b 0 7 1 1 5 1 >>> df.c = df.a + df.b __main__:1: UserWarning: Pandas doesn't allow columns to be created via a new attribute name - see https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access >>> df['d'] = df.a + df.b >>> df a b d 0 7 1 8 1 5 1 6 >>> df.c 0 8 1 6 dtype: int64 >>> vars(df) {'_is_copy': None, '_data': BlockManager Items: Index(['a', 'b', 'd'], dtype='object') Axis 1: RangeIndex(start=0, stop=2, step=1) IntBlock: slice(0, 2, 1), 2 x 2, dtype: int64 IntBlock: slice(2, 3, 1), 1 x 2, dtype: int64, '_item_cache': {}, 'c': 0 8 1 6 dtype: int64}

最後に、短い答えに戻ります。

bowei · Answer

df2.apply(lambda x: calculate_latoffset(x[b]), axis=1)では、5列のデータフレームを作成しており、単一のフィールドに値を割り当てようとしました。代わりにdf2[a] = calculate_latoffset(df2[b])が目的の出力を提供する必要があります。