web-dev-qa-db-ja.com

Hadoopを解凍して出力ファイルの終わりをsnappyで減らす方法は?

デフォルトのコーデックとしてsnappyを使用するHadoopクラスター。 Hadoopジョブリデュース出力ファイル名はpart-r-00000.snappyのようなものです。 JSnappyがファイルの解凍に失敗するbczJSnappyでは、ファイルがSNZで始まる必要があります。どういうわけか、reduce出力ファイルはいくつかのバイト0で始まります。

ファイルを解凍するにはどうすればよいですか?

13
DeepNightTwo

「Hadoopfs-text」を使用してこのファイルを読み取り、txtファイルにパイプします。例:

hadoop fs -text part-r-00001.snappy> /tmp/mydatafile.txt

18
arviarya