python=

Question

Pythonを使用して、s3から複数のパーティションディレクトリからデータを読み取る方法を探しています。

data_folder/serial_number = 1/cur_date = 20-12-2012/abcdsd0324324.snappy.parquet data_folder/serial_number = 2/cur_date = 27-12-2012/asdsdfsd0324324.snappy.parquet

pyarrowのParquetDatasetモジュールには、パーティションから読み取る機能があります。だから私は次のコードを試しました：

>>> import pandas as pd >>> import pyarrow.parquet as pq >>> import s3fs >>> a = "s3://my_bucker/path/to/data_folder/" >>> dataset = pq.ParquetDataset(a)

次のエラーがスローされました。

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/home/my_username/anaconda3/lib/python3.6/site-packages/pyarrow/parquet.py", line 502, in __init__ self.metadata_path) = _make_manifest(path_or_paths, self.fs) File "/home/my_username/anaconda3/lib/python3.6/site-packages/pyarrow/parquet.py", line 601, in _make_manifest .format(path)) OSError: Passed non-file path: s3://my_bucker/path/to/data_folder/

Pyarrowのドキュメントに基づいて、ファイルシステムとしてs3fsを使用してみました、つまり：

>>> dataset = pq.ParquetDataset(a,filesystem=s3fs)

次のエラーがスローされます：

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/home/my_username/anaconda3/lib/python3.6/site-packages/pyarrow/parquet.py", line 502, in __init__ self.metadata_path) = _make_manifest(path_or_paths, self.fs) File "/home/my_username/anaconda3/lib/python3.6/site-packages/pyarrow/parquet.py", line 583, in _make_manifest if is_string(path_or_paths) and fs.isdir(path_or_paths): AttributeError: module 's3fs' has no attribute 'isdir'

ECSクラスターの使用に制限されているため、spark/pysparkはオプションではありません。

寄木細工のファイルを簡単に読むことができる方法はありますか？python s3のそのようなパーティション化されたディレクトリから？このリンクで、さらに処理するために読み取りデータをpandasデータフレームに変換する必要があるため、fastparquetまたはpyarrowに関連するオプションを選択します。 pythonのオプションも同様です。

stormfield · Accepted Answer

Fastparquetとs3fsの最新リリースでこれを機能させることができました。以下は同じコードです：

import s3fs import fastparquet as fp s3 = s3fs.S3FileSystem() fs = s3fs.core.S3FileSystem() #mybucket/data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquet s3_path = "mybucket/data_folder/*/*/*.parquet" all_paths_from_s3 = fs.glob(path=s3_path) myopen = s3.open #use s3fs as the filesystem fp_obj = fp.ParquetFile(all_paths_from_s3,open_with=myopen) #convert to pandas dataframe df = fp_obj.to_pandas()

会話を介して正しい方向に私を向けてくれたマーティンの功績

[〜＃〜] nb [〜＃〜]：これはベンチマークに基づいて、pyarrowを使用するよりも遅くなります。 ARROW-121 を介してs3fsサポートがpyarrowに実装されたら、回答を更新します

私は、pyarrowとfastparquetにglobとして送信されるファイルのリストを使用して、個々の反復に関する簡単なベンチマークを行いました。 fastparquetは、s3fs対pyarrow +ハックコードで高速です。しかし、pyarrow + s3fsは実装されると高速になると考えています。

コードとベンチマークは次のとおりです。

>>> def test_pq(): ... for current_file in list_parquet_files: ... f = fs.open(current_file) ... df = pq.read_table(f).to_pandas() ... # following code is to extract the serial_number & cur_date values so that we can add them to the dataframe ... #probably not the best way to split :) ... elements_list=current_file.split('/') ... for item in elements_list: ... if item.find(date_partition) != -1: ... current_date = item.split('=')[1] ... Elif item.find(dma_partition) != -1: ... current_dma = item.split('=')[1] ... df['serial_number'] = current_dma ... df['cur_date'] = current_date ... list_.append(df) ... frame = pd.concat(list_) ... >>> timeit.timeit('test_pq()',number =10,globals=globals()) 12.078817503992468 >>> def test_fp(): ... fp_obj = fp.ParquetFile(all_paths_from_s3,open_with=myopen) ... df = fp_obj.to_pandas() >>> timeit.timeit('test_fp()',number =10,globals=globals()) 2.961556333000317

2019年更新

すべてのPRの後、 Arrow-2038 ＆ Fast Parquet-PR＃182 などの問題は解決されました。

Pyarrowを使用して寄木細工のファイルを読む

# pip install pyarrow # pip install s3fs >>> import s3fs >>> import pyarrow.parquet as pq >>> fs = s3fs.S3FileSystem() >>> bucket = 'your-bucket-name' >>> path = 'directory_name' #if its a directory omit the traling / >>> bucket_uri = f's3://{bucket}/{path}' 's3://your-bucket-name/directory_name' >>> dataset = pq.ParquetDataset(bucket_uri, filesystem=fs) >>> table = dataset.read() >>> df = table.to_pandas()

高速寄木張りを使用して寄木細工ファイルを読む

# pip install s3fs # pip install fastparquet >>> import s3fs >>> import fastparquet as fp >>> bucket = 'your-bucket-name' >>> path = 'directory_name' >>> root_dir_path = f'{bucket}/{path}' # the first two wild card represents the 1st,2nd column partitions columns of your data & so forth >>> s3_path = f"{root_dir_path}/*/*/*.parquet" >>> all_paths_from_s3 = fs.glob(path=s3_path) >>> fp_obj = fp.ParquetFile(all_paths_from_s3,open_with=myopen, root=root_dir_path) >>> df = fp_obj.to_pandas()

クイックベンチマーク

これはおそらくベンチマークの最良の方法ではありません。スルーベンチマークについては、ブログ投稿をお読みください

#pyarrow >>> import timeit >>> def test_pq(): ... dataset = pq.ParquetDataset(bucket_uri, filesystem=fs) ... table = dataset.read() ... df = table.to_pandas() ... >>> timeit.timeit('test_pq()',number =10,globals=globals()) 1.2677053569998407 #fastparquet >>> def test_fp(): ... fp_obj = fp.ParquetFile(all_paths_from_s3,open_with=myopen, root=root_dir_path) ... df = fp_obj.to_pandas() >>> timeit.timeit('test_fp()',number =10,globals=globals()) 2.931876824000028

Pyarrowの速度に関する詳細情報

参照：

fastparquet
s3fs
pyarrow
discussion およびドキュメントに基づくpyarrow arrowコード
ディスカッションに基づくfastparquetコード PR-182 、 PR-182 およびドキュメント

Wes McKinney · Answer

https://issues.Apache.org/jira/browse/ARROW-1213 および httpsで議論しましょう： //issues.Apache.org/jira/browse/ARROW-1119 。 pyarrowがs3fsファイルシステムを認識できるようにいくつかのコードを追加し、Sym /互換性クラスを追加して、S3FSのわずかに異なるファイルシステムAPIをpyarrowに適合させる必要があります。

efbbrown · Answer

この問題は2017年に this pull request で解決されました。

Pyarrowのみを使用してS3から寄木細工を読みたい人のために、ここに例があります：

import s3fs import pyarrow.parquet as pq from pyarrow.filesystem import S3FSWrapper fs = s3fs.S3FileSystem() bucket = "your-bucket" path = "your-path" # Python 3.6 or later p_dataset = pq.ParquetDataset( f"s3://{bucket}/{path}", filesystem=fs ) df = p_dataset.read().to_pandas() # Pre-python 3.6 p_dataset = pq.ParquetDataset( "s3://{0}/{1}".format(bucket, path), filesystem=fs ) df = p_dataset.read().to_pandas()

Statmonger · Answer

パーティション化された寄木細工のファイルのpartsのみを読み取りたい場合、pyarrowはキーのリストとパーティションのすべての部分を読み取るための部分的なディレクトリパスのみを受け入れます。この方法は、寄木細工のデータセットを年や国などの意味のあるものに分割した組織に特に役立ち、ユーザーが必要なファイルの部分を指定できるようにします。 AWSは、データセットの読み取り時にバイトごとに課金されるため、長期的にはコストを削減します。

# Read in user specified partitions of a partitioned parquet file import s3fs import pyarrow.parquet as pq s3 = s3fs.S3FileSystem() keys = ['keyname/blah_blah/part-00000-cc2c2113-3985-46ac-9b50-987e9463390e-c000.snappy.parquet'\ ,'keyname/blah_blah/part-00001-cc2c2113-3985-46ac-9b50-987e9463390e-c000.snappy.parquet'\ ,'keyname/blah_blah/part-00002-cc2c2113-3985-46ac-9b50-987e9463390e-c000.snappy.parquet'\ ,'keyname/blah_blah/part-00003-cc2c2113-3985-46ac-9b50-987e9463390e-c000.snappy.parquet'] bucket = 'bucket_yada_yada_yada' # Add s3 prefix and bucket name to all keys in list parq_list=[] for key in keys: parq_list.append('s3://'+bucket+'/'+key) # Create your dataframe df = pq.ParquetDataset(parq_list, filesystem=s3).read_pandas(columns=['Var1','Var2','Var3']).to_pandas()