web-dev-qa-db-ja.com

hadoop hdfsの/ tmpディレクトリとは何ですか?

4つのデータノードのクラスターがあり、各ノードのhdfs構造は次のとおりです

enter image description here

Hdfsの/ tmpフォルダーがより多くのスペース(217GB)を占有していることがわかるように、ディスクスペースの問題に直面しています。だから私は/ tmpフォルダーからデータを調査しようとしました。次の一時ファイルが見つかりました。これらの一時フォルダにアクセスしたところ、それぞれにサイズが10〜20 GBのパーツファイルがいくつか含まれています。この/ tmpディレクトリをクリアしたい。誰かこれらのtmpフォルダーまたはパーツファイルを削除した結果を教えてください。クラスターに影響しますか?

enter image description here

12
sandip divekar

HDFS/tmpディレクトリは、主にmapreduce操作中に一時的なストレージとして使用されます。 Mapreduceアーティファクト、中間データなどは、このディレクトリに保存されます。これらのファイルは、mapreduceジョブの実行が完了すると自動的に消去されます。この一時ファイルを削除すると、現在実行中のmapreduceジョブに影響を与える可能性があります。

一時ファイルはpigによって作成されます。一時ファイルの削除は最後に行われます。スクリプトの実行が失敗または強制終了された場合、Pigは一時ファイルの削除を処理しません。次に、この状況に対処する必要があります。この一時ファイルを処理する方が、スクリプト自体のアクティビティをクリーンアップできます。

次の記事はあなたに良い理解を与えます

http://www.lopakalogic.com/articles/hadoop-articles/pig-keeps-temp-files/

16
SachinJ