Pyspark Save dataframe to S3

Question

データフレームをs3に保存したいのですが、ファイルをs3に保存すると、${folder_name}で空のファイルが作成され、そこにファイルを保存します。

データフレームを保存する構文：-

f.write.parquet("s3n://bucket-name/shri/test")

テストフォルダにファイルを保存しますが、shriの下に$testを作成します。

その余分なフォルダーを作成せずに保存できる方法はありますか？

Usman Azhar · Answer

以下のコードを使用してそれを行うことができました。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")

Shrikant · Answer

スタックで同様の投稿を見つけました。こちらがリンクです。質問への回答があります。

Bob Swain · Answer

私の知る限り、実際の寄木細工のファイルの名前を制御する方法はありません。パーケットにデータフレームを書き込むときは、ディレクトリ名を指定し、sparkはそのディレクトリの下に適切なパーケットファイルを作成します。