web-dev-qa-db-ja.com

AmazonAthenaと圧縮されたS3ファイル

いくつかのzip形式のCSVファイル(使用ログ)を含むS3バケットがあります。このデータをAthenaでクエリしたいのですが、出力が完全に文字化けしています。

Athenaが最初に解凍せずにZipファイルを解析しようとしているようです。 Hiveにファイルを圧縮データとして認識させることはできますか?

12
MattY

Athenaの場合、圧縮はサポートされていますが、サポートされている形式は次のとおりです。

  • スナッピー(.snappy)
  • Zlib(.bz2)
  • GZIP(.gz)

これらの形式は、ファイル名のサフィックスによって検出されます。サフィックスが一致しない場合、リーダーはコンテンツをデコードしません。 test.csv.gzファイルでテストしたところ、すぐに機能しました。したがって、圧縮をZipからgzipに変更してみてください。うまくいくはずです。

23
jens walter