web-dev-qa-db-ja.com

スナップショット(AWS)からボリュームを作成した後のIOPSが超低

EC2p2.xlargeインスタンスを使用して画像処理モデルをトレーニングしています。予測タスクのターゲットクラスはかなりの数(20)であり、最高の精度を得るために、ターゲットごとに1つのモデルをトレーニングします。

そこで、メインボリュームのスナップショットを作成し、4つの複製ボリューム(汎用SSD)を作成して、さらに4つのp2インスタンスを同時に実行できるようにしました。問題は、メインボリュームを除いて、パフォーマンスが非常に低いことですIOパフォーマンス。例を挙げると、メインインスタンスで200秒かかる1つのトレーニングエポックは「推定」されます。重複するインスタンスで10,000。

何が足りないのですか?

1
Md Oliya

EBSスナップショットはS3に保存されます。スナップショットからボリュームを作成すると、最初の読み取り操作でブロックが最初にS3からEBSに段階的にプルされ、その時点から、その特定のブロックに対する後続のすべての読み取りがEBSの低遅延インフラストラクチャに対して実行されます。

スナップショットからボリュームを作成した後に最適なEBSパフォーマンスを付与するには、すべてのボリュームブロックの完全な読み取りを実行してボリュームを「事前にウォームアップ」し、IO操作でS3へのリクエストが遅い。

新しい新しいEBSボリュームは、EBSで「生まれ」、S3からのデータプルを必要としないため、この動作の影響を受けません。

3
ma.tome