羽毛と寄木細工の違いは何ですか？

Question

どちらもデータ分析システムで使用するためのcolumnar（disk-）storage formatです。両方とも Apache Arrow （ pyarrow python用パッケージ）に統合されており、 Arrow に対応するように設計されています。

両方の形式はどう違うのですか？

可能な場合、pandasを使用するときは常にfeatherを好むべきですか？

feather が parquet よりも適切であり、逆の場合のユースケースは何ですか？

付録

ここにいくつかのヒントを見つけました https://github.com/wesm/feather/issues/188 ですが、このプロジェクトの若い時代を考えると、少し時代遅れかもしれません。

データフレーム全体をダンプしてロードするだけなので、深刻な速度テストではありませんが、以前にフォーマットについて聞いたことがない場合に印象を与えるためです：

 # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) print("pandas df to disk ####################################################") print('example_feather:') %timeit feather.write_feather(df, 'example_feather') # 2.62 ms ± 35.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) print('example_parquet:') %timeit pq.write_table(pa.Table.from_pandas(df), 'example.parquet') # 3.19 ms ± 51 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) print() print("for comparison:") print('example_pickle:') %timeit df.to_pickle('example_pickle') # 2.75 ms ± 18.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) print('example_fp_parquet:') %timeit fp.write('example_fp_parquet', df) # 7.06 ms ± 205 µs per loop (mean ± std. dev. of 7 runs, 1 loop each) print('example_hdf:') %timeit df.to_hdf('example_hdf', 'key_to_store', mode='w', table=True) # 24.6 ms ± 4.45 ms per loop (mean ± std. dev. of 7 runs, 100 loops each) print() print("pandas df from disk ##################################################") print('example_feather:') %timeit feather.read_feather('example_feather') # 969 µs ± 1.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) print('example_parquet:') %timeit pq.read_table('example.parquet').to_pandas() # 1.9 ms ± 5.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) print("for comparison:") print('example_pickle:') %timeit pd.read_pickle('example_pickle') # 1.07 ms ± 6.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) print('example_fp_parquet:') %timeit fp.ParquetFile('example_fp_parquet').to_pandas() # 4.53 ms ± 260 µs per loop (mean ± std. dev. of 7 runs, 1 loop each) print('example_hdf:') %timeit pd.read_hdf('example_hdf') # 10 ms ± 43.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) # pandas version: 0.22.0 # fastparquet version: 0.1.3 # numpy version: 1.13.3 # pandas version: 0.22.0 # pyarrow version: 0.8.0 # sys.version: 3.6.3 # example Dataframe taken from https://arrow.Apache.org/docs/python/parquet.html

Wes McKinney · Accepted Answer

寄せ木細工の形式は、Arrowが短期または一時的なストレージをより意図した長期ストレージ用に設計されています（1.0.0リリースが発生した後、バイナリ形式が安定するため、Arrowは長期ストレージに適している場合があります）
寄木細工は、より多くのエンコードと圧縮のレイヤーを備えているため、Featherよりも書くのに費用がかかります。羽は、未修正の未加工の円柱状の矢印メモリです。今後、Featherに単純な圧縮を追加する予定です。
辞書エンコード、RLEエンコード、およびデータページ圧縮のため、Parquetファイルは多くの場合、Featherファイルよりもはるかに小さくなります。
Parquetは、Spark、Hive、Impala、さまざまなAWSサービスなど、BigQueryによる将来の多くのさまざまなシステムでサポートされる分析用の標準ストレージ形式です。したがって、分析を行う場合、Parquetは複数のシステムによるクエリ

読み書きしたデータは非常に少ないため、示したベンチマークは非常にノイズが多くなります。少なくとも100MB以上のデータを1GB以上圧縮して、より有益なベンチマークを取得する必要があります。 http://wesmckinney.com/blog/python-parquet-multithreading/

お役に立てれば