web-dev-qa-db-ja.com

Pyspark Save dataframe to S3

データフレームをs3に保存したいのですが、ファイルをs3に保存すると、${folder_name}で空のファイルが作成され、そこにファイルを保存します。

データフレームを保存する構文:-

f.write.parquet("s3n://bucket-name/shri/test")

テストフォルダにファイルを保存しますが、shriの下に$testを作成します。

その余分なフォルダーを作成せずに保存できる方法はありますか?

7
Shrikant

以下のコードを使用してそれを行うことができました。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")
7
Usman Azhar

スタックで同様の投稿を見つけました。こちらがリンクです。質問への回答があります。

ジャンクSparkドル記号付きのS3の出力ファイル

0
Shrikant

私の知る限り、実際の寄木細工のファイルの名前を制御する方法はありません。パーケットにデータフレームを書き込むときは、ディレクトリ名を指定し、sparkはそのディレクトリの下に適切なパーケットファイルを作成します。

0
Bob Swain