RAID再構築中に回復不能な読み取りエラーの確率を計算する式

Question

さまざまなRAIDシステムの信頼性をコンシューマー（URE /ビット= 1e-14）またはエンタープライズ（URE /ビット= 1e-15）ドライブと比較したいと思います。再構築が成功する確率を計算する式は単純です（機械的な問題は無視します。後で考慮します）。

error_probability = 1-（1-per_bit_error_rate）^ bit_read

覚えておくべき重要なことは、これはAT少なくとも1つのUREを取得する確率であり、必ずしも1つだけではないということです。

6 TB使用可能なスペースが必要だとしましょう。次の方法で取得できます：

6の1+ 1ディスクを備えたRAID1 TBそれぞれ。再構築中に6TBのディスクを1つ読み戻し、リスクは次のとおりです。1-（1-1e-14）^（6e12 * 8）=コンシューマードライブの場合は38％、エンタープライズドライブの場合は4.7％。
3の2+ 2ディスクを備えたRAID10 TBそれぞれ。再構築中に、3TBのディスクを1つだけ読み戻します（失敗したディスクとペアになっているものです！）。リスクは低くなります：1-（1 -1e-14）^（3e12 * 8）=コンシューマードライブの場合は21％、エンタープライズドライブの場合は2.4％。
それぞれ3TBの2+ 1ディスクを備えたRAID5/RAIDZ1。再構築中に、それぞれ3TBの2つのディスクを読み戻します。リスクは次のとおりです。1-（1-1e-14）^（2 * 3e12 * 8）=コンシューマードライブの場合は38％、エンタープライズドライブの場合は4.7％。
2つの3 + 1ディスクを備えたRAID5/RAID Z1 TBそれぞれ（SynologyなどのSOHO製品のユーザーが使用することが多い）。再構築中に、それぞれ2TBの3つのディスクを読み戻します。リスクは次のとおりです。1 -（1-1e-14）^（3 * 2e12 * 8）=コンシューマードライブの場合は38％、エンタープライズドライブの場合は4.7％。

単一ディスクの許容誤差のエラーを計算するのは簡単ですが、複数のディスクの障害に耐性のあるシステム（RAID6/Z2、RAIDZ3）で確率を計算するのはさらに困難です。

最初のディスクのみが再構築に使用され、2番目のディスクがケースまたはUREの場合に最初から再度読み取られる場合、エラー確率は平方根より上で計算されたものです（コンシューマーRAID5 2 + 1の場合は14.5％、コンシューマーの場合は4.5％） RAID1 1 + 2）。ただし、（少なくとも完全なチェックサムがあるZFSでは！）2番目のパリティ/使用可能なディスクは必要な場所でのみ読み取られると思います。つまり、必要なセクターはわずかです。最初のディスクで発生する可能性のあるUREはいくつですか。多くはありません。そうしないと、シングルディスクトレランスシステムのエラー確率が、私が計算したよりもさらに急上昇します。

私が正しければ、2番目のパリティディスクはリスクを極端に低い値に実質的に下げるでしょう。

質問はさておき、メーカーはマーケティング上の理由でコンシューマークラスのドライブのURE確率を上げる（より多くのエンタープライズクラスのドライブを販売する）ため、コンシューマークラスのHDDでも1E-15 URE /ビット読み取りを達成することが期待されることに留意することが重要です。。

一部のデータ： http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/

したがって、括弧内に示した値（エンタープライズドライブ）は、実際にはコンシューマードライブにも適用されます。また、実際のエンタープライズドライブの信頼性はさらに高くなります（URE /ビット= 1e-16）。

機械的な故障の可能性に関しては、それらはディスクの数に比例し、再構築に必要な時間に比例します。

FarO · Accepted Answer

これは、確率論も含めた最良の答えです。

http://evadman.blogspot.com/2010/08/raid-array-failure-probabilities.html?showComment=1337533818123#c7465506102422346169

Brad Patton · Answer

この質問に対処しようとするサイトや記事はたくさんあります。

この site には、RAID 0、5、10/50/60レベルの計算機があります。

RAIDレベルに関するウィキペディアの記事には、RAID0およびRAID1の故障率に関するセクションがあります。

RAID ：

特定のRAID0セットの信頼性は、各ディスクの平均信頼性をセット内のディスク数で割ったものに等しくなります。

つまり、信頼性（平均故障間隔（MTTF）または平均故障間隔（MTBF）で測定）は、メンバーの数にほぼ反比例します。したがって、2つのディスクのセットは1つのディスクの約半分の信頼性です。 2つのディスクアレイで3年以内にディスクが故障する確率が5％の場合、その確率は{P}（少なくとも1つは故障）= 1- {P}（どちらも故障しない）= 1に増加します。 1-0.05）^ 2 = 0.0975 = 9.75％。

---（RAID 1 ：

簡単な例として、ディスクドライブの2つの同一モデルを備えたRAID 1について考えてみます。それぞれ、ディスクが3年以内に故障する確率は5％です。障害が統計的に独立している場合、3年間の存続期間中に両方のディスクに障害が発生する確率は0.25％です。したがって、アレイに対して何も行われなかった場合、すべてのデータが失われる確率は3年間で0.25％です。

また、このテーマに関するいくつかのブログ記事を見つけました。これシステム内の独立したドライブ（RAID内のI）は、結局のところそれほど独立していない可能性があることを思い出させます。

ナイーブな理論では、ハードディスク1の障害の確率が1/1000で、ディスク2の障害の確率も同様である場合、両方の障害の確率は1/1,000,000です。これは、障害が統計的に独立していることを前提としていますが、そうではありません。失敗に相関関係がない限り、そのような確率を単純に乗算することはできません。独立性が確率を適用する際の一般的なエラーであると誤って想定することは、おそらく最も一般的なエラーです。

Joel Spolskyは、最新のStackOverflowポッドキャストでこの問題についてコメントしました。企業がRAIDを構築するとき、組み立てラインから外れた4つまたは5つのディスクを一緒に取得する場合があります。これらのディスクの1つにわずかな欠陥があり、たとえば10,000時間使用した後に障害が発生する場合は、すべて問題がある可能性があります。これは単なる理論上の可能性ではありません。企業は、ディスクのバッチがすべてほぼ同時に故障するのを観察しています。