どのようにパンダDataFrameの「名前：0」列を取り除くには？

Question

csvからdfを読み込むと、unnamed:0という名前の不要なインデックスのような列が表示されることがあります。

file.csv

,A,B,C 0,1,2,3 1,4,5,6 2,7,8,9

これでCSVが読み取られます。

pd.read_csv('file.csv') Unnamed: 0 A B C 0 0 1 2 3 1 1 4 5 6 2 2 7 8 9

これはとても厄介です！これを取り除く方法について誰かが考えを持っていますか？

EdChum · Accepted Answer

これはインデックスカラムです。書き出さないようにするにはindex=Falseを渡してください。 docs を参照してください。

例：

In [37]: df = pd.DataFrame(np.random.randn(5,3), columns=list('abc')) pd.read_csv(io.StringIO(df.to_csv())) Out[37]: Unnamed: 0 a b c 0 0 0.109066 -1.112704 -0.545209 1 1 0.447114 1.525341 0.317252 2 2 0.507495 0.137863 0.886283 3 3 1.452867 1.888363 1.168101 4 4 0.901371 -0.704805 0.088335

と比べて：

In [38]: pd.read_csv(io.StringIO(df.to_csv(index=False))) Out[38]: a b c 0 0.109066 -1.112704 -0.545209 1 0.447114 1.525341 0.317252 2 0.507495 0.137863 0.886283 3 1.452867 1.888363 1.168101 4 0.901371 -0.704805 0.088335

read_csvを渡すことで、最初の列がインデックス列であることをindex_col=0にオプションで伝えることもできます。

In [40]: pd.read_csv(io.StringIO(df.to_csv()), index_col=0) Out[40]: a b c 0 0.109066 -1.112704 -0.545209 1 0.447114 1.525341 0.317252 2 0.507495 0.137863 0.886283 3 1.452867 1.888363 1.168101 4 0.901371 -0.704805 0.088335

cs95 · Answer

この問題は、CSVがRangeIndex（通常は名前を持たない）と一緒に保存されているために発生する可能性があります。 DataFrameを保存するときに修正を実際に行う必要がありますが、これは常に選択肢とは限りません。

問題を回避する：引数`read_csv`を持つ`index_col`

IMO、最も簡単な解決策は、名前のない列をインデックスとして読み取ることです。 index_col=[0] にpd.read_csv引数を指定すると、最初の列がインデックスとして読み込まれます。

df = pd.DataFrame('x', index=range(5), columns=list('abc')) df a b c 0 x x x 1 x x x 2 x x x 3 x x x 4 x x x # Save DataFrame to CSV. df.to_csv('file.csv')

pd.read_csv('file.csv') Unnamed: 0 a b c 0 0 x x x 1 1 x x x 2 2 x x x 3 3 x x x 4 4 x x x # Now try this again, with the extra argument. pd.read_csv('file.csv', index_col=[0]) a b c 0 x x x 1 x x x 2 x x x 3 x x x 4 x x x

注
最初にDataFrameにインデックスがない場合は、出力CSVを作成するときにindex=Falseを使用することで、これを最初から避けることができました。
df.to_csv('file.csv', index=False) 
しかし、前述のように、これは常に選択肢とは限りません。

ストップギャップソリューション：`str.match`によるフィルタリング

CSVファイルを読み書きするようにコードを修正できない場合は、をフィルタリングしてを で削除するだけで済みますstr.match ：

df Unnamed: 0 a b c 0 0 x x x 1 1 x x x 2 2 x x x 3 3 x x x 4 4 x x x df.columns # Index(['Unnamed: 0', 'a', 'b', 'c'], dtype='object') df.columns.str.match('Unnamed') # array([ True, False, False, False]) df.loc[:, ~df.columns.str.match('Unnamed')] a b c 0 x x x 1 x x x 2 x x x 3 x x x 4 x x x

Brendan · Answer

これが起きる可能性があるもう1つのケースは、各行の末尾がコンマで終わるようにデータがcsvに正しく書き込まれていない場合です。これをdfに読み込もうとすると、データの最後に名前のない列Unnamed: xが残ります。

どのようにパンダDataFrameの「名前：0」列を取り除くには？

問題を回避する：引数read_csvを持つindex_col

ストップギャップソリューション：str.matchによるフィルタリング

問題を回避する：引数`read_csv`を持つ`index_col`

ストップギャップソリューション：`str.match`によるフィルタリング