Spark糸モードの場合、「終了ステータス：-100。診断：*失われた*ノードでリリースされたコンテナ」で終了します "

Question

1TBデータのデータベースを最新のEMRを使用してAWSでsparkにロードしようとしています。実行時間が非常に長いため、6時間でも完了しませんが、6時間30分実行した後、コンテナがlostノードで解放され、ジョブが失敗したことを通知するエラーが発生します。ログは次のようになります：

16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144178.0 in stage 0.0 (TID 144178, ip-10-0-2-176.ec2.internal): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000006 on Host: ip-10-0-2-176.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144181.0 in stage 0.0 (TID 144181, ip-10-0-2-176.ec2.internal): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000006 on Host: ip-10-0-2-176.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144175.0 in stage 0.0 (TID 144175, ip-10-0-2-176.ec2.internal): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000006 on Host: ip-10-0-2-176.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144213.0 in stage 0.0 (TID 144213, ip-10-0-2-176.ec2.internal): ExecutorLostFailure (executor 5 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000006 on Host: ip-10-0-2-176.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 INFO scheduler.DAGScheduler: Executor lost: 5 (Epoch 0) 16/07/01 22:45:43 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed: container_1467389397754_0001_01_000007 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 INFO storage.BlockManagerMasterEndpoint: Trying to remove executor 5 from BlockManagerMaster. 16/07/01 22:45:43 INFO storage.BlockManagerMasterEndpoint: Removing block manager BlockManagerId(5, ip-10-0-2-176.ec2.internal, 43922) 16/07/01 22:45:43 INFO storage.BlockManagerMaster: Removed 5 successfully in removeExecutor 16/07/01 22:45:43 ERROR cluster.YarnClusterScheduler: Lost executor 6 on ip-10-0-2-173.ec2.internal: Container marked as failed: container_1467389397754_0001_01_000007 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 INFO spark.ExecutorAllocationManager: Existing executor 5 has been removed (new total is 41) 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144138.0 in stage 0.0 (TID 144138, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 6 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000007 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144185.0 in stage 0.0 (TID 144185, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 6 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000007 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144184.0 in stage 0.0 (TID 144184, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 6 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000007 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144186.0 in stage 0.0 (TID 144186, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 6 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000007 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed: container_1467389397754_0001_01_000035 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 INFO scheduler.DAGScheduler: Executor lost: 6 (Epoch 0) 16/07/01 22:45:43 INFO storage.BlockManagerMasterEndpoint: Trying to remove executor 6 from BlockManagerMaster. 16/07/01 22:45:43 INFO storage.BlockManagerMasterEndpoint: Removing block manager BlockManagerId(6, ip-10-0-2-173.ec2.internal, 43593) 16/07/01 22:45:43 INFO storage.BlockManagerMaster: Removed 6 successfully in removeExecutor 16/07/01 22:45:43 ERROR cluster.YarnClusterScheduler: Lost executor 30 on ip-10-0-2-173.ec2.internal: Container marked as failed: container_1467389397754_0001_01_000035 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144162.0 in stage 0.0 (TID 144162, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 30 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000035 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 INFO spark.ExecutorAllocationManager: Existing executor 6 has been removed (new total is 40) 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144156.0 in stage 0.0 (TID 144156, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 30 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000035 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144170.0 in stage 0.0 (TID 144170, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 30 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000035 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144169.0 in stage 0.0 (TID 144169, ip-10-0-2-173.ec2.internal): ExecutorLostFailure (executor 30 exited caused by one of the running tasks) Reason: Container marked as failed: container_1467389397754_0001_01_000035 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node 16/07/01 22:45:43 INFO scheduler.DAGScheduler: Executor lost: 30 (Epoch 0) 16/07/01 22:45:43 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed: container_1467389397754_0001_01_000024 on Host: ip-10-0-2-173.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node

非常に小さなテーブルの同じ環境でこのスクリプトを実行しようとしたので、ネットワーク設定が機能することはほぼ間違いありません。

また、誰かが同じ問題を尋ねる6か月前に質問を投稿したことを知っています： spark-job-error-yarnallocator-exit-status-100-diagnostics-container-released しかし、私はまだしなければなりません誰もこの質問に答えていなかったので聞いてください。

John Zeng · Answer

他の人々にも同じ問題があるように見えるので、私はコメントを書く代わりに答えを投稿するだけです。これで問題が解決するかどうかはわかりませんが、これはアイデアになるはずです。

スポットインスタンスを使用する場合、価格が入力よりも高いとスポットインスタンスがシャットダウンされることを知っておく必要があります。この問題が発生します。スポットインスタンスをスレーブとして使用している場合でも同様です。したがって、私のソリューションでは、長期実行ジョブにスポットインスタンスを使用していません。

別のアイデアは、ジョブを多くの独立したステップにスライスして、各ステップの結果をS3上のファイルとして保存できるようにすることです。エラーが発生した場合は、キャッシュファイルからそのステップを開始します。

sri hari kali charan Tummala · Answer

それはメモリの動的割り当てですか？同様の問題がありましたが、エグゼキューターメモリ、エグゼキューターコア、エグゼキューターを計算して静的割り当てを行うことで修正しました。 Sparkで巨大なワークロードの静的割り当てを試してください。

AmirMohammad Dadkhah · Answer

私は同じ問題にぶつかっていました。 DZoneに関するこの記事でいくつかの手がかりを見つけました：
https://dzone.com/articles/some-lessons-of-spark-and-memory-issues-on-emr

これは、DataFrameパーティションの数を増やすことで解決されました（この場合は、1,024から2,048に）。これにより、パーティションごとに必要なメモリが削減されました。

そこで、DataFrameパーティションの数を増やして問題を解決しました。

Thomas Decaux · Answer

これは、YARNコンテナーがダウンしていることを意味します。何が起こったかをデバッグするには、YARNログを読み取り、公式のCLIを使用する必要がありますyarn logs -applicationIdまたは、私のプロジェクトに自由に使用して貢献してください https://github.com/ebuildy/yoga WebアプリとしてのYARNビューア。

多くのワーカーエラーが表示されます。