Python

Question

辞書のリストをグループ化し、like-keysの値を集約（合計）する関数をエレガントな方法で記述しようとしています。

例：

my_dataset = [ { 'date': datetime.date(2013, 1, 1), 'id': 99, 'value1': 10, 'value2': 10 }, { 'date': datetime.date(2013, 1, 1), 'id': 98, 'value1': 10, 'value2': 10 }, { 'date': datetime.date(2013, 1, 2), 'id' 99, 'value1': 10, 'value2': 10 } ] group_and_sum_dataset(my_dataset, 'date', ['value1', 'value2']) """ Should return: [ { 'date': datetime.date(2013, 1, 1), 'value1': 20, 'value2': 20 }, { 'date': datetime.date(2013, 1, 2), 'value1': 10, 'value2': 10 } ] """

私はgroupbyにitertoolsを使用してこれを実行し、各like-key値のペアを合計しようとしましたが、ここで何か不足しています。これが私の関数が現在どのように見えるかです：

def group_and_sum_dataset(dataset, group_by_key, sum_value_keys): keyfunc = operator.itemgetter(group_by_key) dataset.sort(key=keyfunc) new_dataset = [] for key, index in itertools.groupby(dataset, keyfunc): d = {group_by_key: key} d.update({k:sum([item[k] for item in index]) for k in sum_value_keys}) new_dataset.append(d) return new_dataset

Ashwini Chaudhary · Accepted Answer

_collections.Counter_および_collections.defaultdict_を使用できます。

辞書を使用すると、これはO(N)で実行できますが、並べ替えにはO(NlogN)の時間が必要です。

_from collections import defaultdict, Counter def solve(dataset, group_by_key, sum_value_keys): dic = defaultdict(Counter) for item in dataset: key = item[group_by_key] vals = {k:item[k] for k in sum_value_keys} dic[key].update(vals) return dic ... >>> d = solve(my_dataset, 'date', ['value1', 'value2']) >>> d defaultdict(<class 'collections.Counter'>, { datetime.date(2013, 1, 2): Counter({'value2': 10, 'value1': 10}), datetime.date(2013, 1, 1): Counter({'value2': 20, 'value1': 20}) }) _

Counterの利点は、類似したキーの値を自動的に合計することです。：

例：

_>>> c = Counter(**{'value1': 10, 'value2': 5}) >>> c.update({'value1': 7, 'value2': 3}) >>> c Counter({'value1': 17, 'value2': 8}) _

Kyle Getrost · Answer

ありがとう、カウンターのことを忘れてしまいました。出力形式と返されたデータセットの並べ替えを維持したかったので、最終的な関数は次のようになります。

def group_and_sum_dataset(dataset, group_by_key, sum_value_keys): container = defaultdict(Counter) for item in dataset: key = item[group_by_key] values = {k:item[k] for k in sum_value_keys} container[key].update(values) new_dataset = [ dict([(group_by_key, item[0])] + item[1].items()) for item in container.items() ] new_dataset.sort(key=lambda item: item[group_by_key]) return new_dataset

pylang · Answer

more_itertools を使用する方法は次のとおりです。ここでは、出力の作成方法に焦点を当てています。

与えられた

import datetime import collections as ct import more_itertools as mit dataset = [ {"date": datetime.date(2013, 1, 1), "id": 99, "value1": 10, "value2": 10}, {"date": datetime.date(2013, 1, 1), "id": 98, "value1": 10, "value2": 10}, {"date": datetime.date(2013, 1, 2), "id": 99, "value1": 10, "value2": 10} ]

コード

# Step 1: Build helper functions kfunc = lambda d: d["date"] vfunc = lambda d: {k:v for k, v in d.items() if k.startswith("val")} rfunc = lambda lst: sum((ct.Counter(d) for d in lst), ct.Counter()) # Step 2: Build a dict reduced = mit.map_reduce(dataset, keyfunc=kfunc, valuefunc=vfunc, reducefunc=rfunc) reduced

出力

defaultdict(None, {datetime.date(2013, 1, 1): Counter({'value1': 20, 'value2': 20}), datetime.date(2013, 1, 2): Counter({'value1': 10, 'value2': 10})})

アイテムは日付でグループ化され、関連する値はCountersに削減されます。

詳細

ステップ

keys、valuesおよびreduced値の構成をカスタマイズするヘルパー関数を構築します最後の defaultdict 。ここでは、次のことを行います。
- 日付でグループ化（kfunc）
- "value *"パラメータ（vfunc）を保持する構築された辞書
- collections.Counters およびそれらを合計するに変換することにより、dicts（rfunc）を集約します。以下の同等のrfuncを参照してください⁺。
ヘルパー関数を more_itertools.map_reduce に渡します。

Simple Groupby

...その例で、IDと日付でグループ化したいと言いますか？

問題ない。

>>> kfunc2 = lambda d: (d["date"], d["id"]) >>> mit.map_reduce(dataset, keyfunc=kfunc2, valuefunc=vfunc, reducefunc=rfunc) defaultdict(None, {(datetime.date(2013, 1, 1), 99): Counter({'value1': 10, 'value2': 10}), (datetime.date(2013, 1, 1), 98): Counter({'value1': 10, 'value2': 10}), (datetime.date(2013, 1, 2), 99): Counter({'value1': 10, 'value2': 10})})

カスタマイズされた出力

結果のデータ構造は結果を明確かつ簡潔に示しますが、OPの予想される出力は、dictsの単純なリストとして再構築できます。

>>> [{**dict(date=k), **v} for k, v in reduced.items()] [{'date': datetime.date(2013, 1, 1), 'value1': 20, 'value2': 20}, {'date': datetime.date(2013, 1, 2), 'value1': 10, 'value2': 10}]

map_reduceの詳細については、 the docs を参照してください。 > pip install more_itertoolsからインストールします。

⁺同等の還元関数：

def rfunc(lst: typing.List[dict]) -> ct.Counter: """Return reduced mappings from map-reduce values.""" c = ct.Counter() for d in lst: c += ct.Counter(d) return c