web-dev-qa-db-ja.com

パンダ:groupby 'date'の重複を削除

以下のデータフレームでは、重複するcid値を削除して、df.groupby('date').cid.size()からの出力がdf.groupby('date').cid.nunique()からの出力と一致するようにします。

私はこれを見てきました post が、問題に対する確実な解決策を持っているようには見えません。

_df = pd.read_csv('https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df')

df.groupby('date').cid.size()

date
2005       7
2006     237
2007    3610
2008    1318
2009    2664
2010     997
2011    6390
2012    2904
2013    7875
2014    3979

df.groupby('date').cid.nunique()

date
2005      3
2006     10
2007    227
2008     52
2009    142
2010     57
2011    219
2012     99
2013    238
2014    146
Name: cid, dtype: int64
_

私が試したもの:

  1. df.groupby([df['date']]).drop_duplicates(cols='cid')はこのエラーを示します:_AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method_
  2. df.groupby(('date').drop_duplicates('cid'))はこのエラーを示します:_AttributeError: 'str' object has no attribute 'drop_duplicates'_
9
Michael Perdue

いくつかの列に基づいて重複を削除するためにgroupbyは必要ありません。代わりにサブセットを指定できます。

df2 = df.drop_duplicates(["date", "cid"])
df2.groupby('date').cid.size()
Out[99]: 
date
2005      3
2006     10
2007    227
2008     52
2009    142
2010     57
2011    219
2012     99
2013    238
2014    146
dtype: int64
19
ayhan