python 3.7+辞書をソートする最速の方法

Question

Python辞書が保証されています Python 3.7（および CPython 3.6の場合 =）、辞書をソートするための最良/最速の方法は何ですか-値とキーの両方で？

それを行う最も明白な方法はおそらくこれです：

by_key = {k: dct[k] for k in sorted(dct.keys())} by_value = {k: dct[k] for k in sorted(dct.keys(), key=dct.__getitem__)}

これを行うための代替のより速い方法はありますか？

辞書を並べ替える方法に関する以前の質問は古くなっているので、この質問は重複していないことに注意してください（基本的に、答えはでした）できません。collections.OrderedDict代わりに）。

wim · Accepted Answer

TL; DR：CPython 3.7でキーまたは値（それぞれ）で並べ替える最良の方法：

{k: d[k] for k in sorted(d)} {k: v for k,v in sorted(d.items(), key=itemgetter(1))}

sys.versionを使用してMacbookでテスト：

3.7.0b4 (v3.7.0b4:eb96c37699, May 2 2018, 04:13:13) [Clang 6.0 (clang-600.0.57)]

1000フロートのdictを使用した1回限りのセットアップ：

>>> import random >>> random.seed(123) >>> d = {random.random(): random.random() for i in range(1000)}

キーによる数値の並べ替え（最も悪いものから）：

>>> %timeit {k: d[k] for k in sorted(d)} # 296 µs ± 2.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit {k: d[k] for k in sorted(d.keys())} # 306 µs ± 9.25 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit dict(sorted(d.items(), key=itemgetter(0))) # 345 µs ± 4.15 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit {k: v for k,v in sorted(d.items(), key=itemgetter(0))} # 359 µs ± 2.42 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit dict(sorted(d.items(), key=lambda kv: kv[0])) # 391 µs ± 8.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit dict(sorted(d.items())) # 409 µs ± 9.33 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit {k: v for k,v in sorted(d.items())} # 420 µs ± 5.39 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit {k: v for k,v in sorted(d.items(), key=lambda kv: kv[0])} # 432 µs ± 39.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

数値を値で並べ替える（最高から最低）：

>>> %timeit {k: v for k,v in sorted(d.items(), key=itemgetter(1))} # 355 µs ± 2.24 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit dict(sorted(d.items(), key=itemgetter(1))) # 375 µs ± 31.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit {k: v for k,v in sorted(d.items(), key=lambda kv: kv[1])} # 393 µs ± 1.89 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit dict(sorted(d.items(), key=lambda kv: kv[1])) # 402 µs ± 9.74 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit {k: d[k] for k in sorted(d, key=d.get)} # 404 µs ± 3.55 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit {k: d[k] for k in sorted(d, key=d.__getitem__)} # 404 µs ± 20.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) >>> %timeit {k: d[k] for k in sorted(d, key=lambda k: d[k])} # 480 µs ± 12 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

文字列の大きな辞書を使用した1回限りのセットアップ：

>>> import random >>> from pathlib import Path >>> from operator import itemgetter >>> random.seed(456) >>> words = Path('/usr/share/dict/words').read_text().splitlines() >>> random.shuffle(words) >>> keys = words.copy() >>> random.shuffle(words) >>> values = words.copy() >>> d = dict(Zip(keys, values)) >>> list(d.items())[:5] [('ragman', 'polemoscope'), ('fenite', 'anaesthetically'), ('pycnidiophore', 'Colubridae'), ('propagate', 'premiss'), ('postponable', 'Eriglossa')] >>> len(d) 235886

文字列の辞書をキーでソートする：

>>> %timeit {k: d[k] for k in sorted(d)} # 387 ms ± 1.98 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit {k: d[k] for k in sorted(d.keys())} # 387 ms ± 2.87 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit dict(sorted(d.items(), key=itemgetter(0))) # 461 ms ± 1.61 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit dict(sorted(d.items(), key=lambda kv: kv[0])) # 466 ms ± 2.62 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit {k: v for k,v in sorted(d.items(), key=itemgetter(0))} # 488 ms ± 10.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit {k: v for k,v in sorted(d.items(), key=lambda kv: kv[0])} # 536 ms ± 16.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit dict(sorted(d.items())) # 661 ms ± 9.09 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit {k: v for k,v in sorted(d.items())} # 687 ms ± 5.38 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

文字列の辞書を値でソートする：

>>> %timeit {k: v for k,v in sorted(d.items(), key=itemgetter(1))} # 468 ms ± 5.74 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit dict(sorted(d.items(), key=itemgetter(1))) # 473 ms ± 2.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit dict(sorted(d.items(), key=lambda kv: kv[1])) # 492 ms ± 9.06 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit {k: v for k,v in sorted(d.items(), key=lambda kv: kv[1])} # 496 ms ± 1.87 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit {k: d[k] for k in sorted(d, key=d.__getitem__)} # 533 ms ± 5.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit {k: d[k] for k in sorted(d, key=d.get)} # 544 ms ± 6.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) >>> %timeit {k: d[k] for k in sorted(d, key=lambda k: d[k])} # 566 ms ± 5.77 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

注：実際のデータには、多くの場合、すでにソートされたシーケンスの長いランが含まれています。どのTimsortアルゴリズムが利用できるか。辞書のソートが高速パスにある場合は、最善のアプローチについて結論を出す前に、独自の典型的なデータを使用して独自のプラットフォームでベンチマークすることをお勧めします。結果の各結果にコメント文字（#）を付加したので、IPythonユーザーはコードブロック全体をコピー/貼り付けして、独自のプラットフォームですべてのテストを再実行できます。