web-dev-qa-db-ja.com

障害間の平均時間-SSD

this障害間の平均時間 、またはMTBFは、1,500,000 時間。

これはlot時間です。 1,500,000時間はおおよそ170年。この特定のSSDの発明は南北戦争後なので、MTBFが何であるかを彼らはどのように知るのですか?

私にとって意味のあるいくつかのオプション:

  • Neweggにはタイプミスがあります
  • 故障間の平均時間の定義は、私が考えているものではありません
  • 彼らはMTBFがどうなるかを推定するためにある種の統計外挿を使用しています

質問:

SSD/HDDの平均故障間隔(MTFB)はどのように取得されますか?

34
OSE

ドライブの製造元は、関連する2つの指標で製品の信頼性を指定します。年間故障率(AFR)は、テストで故障した母集団内のディスクドライブのパーセンテージであり、年間推定値にスケーリングされます。故障までの平均時間(MTTF)。

新製品のAFRは、通常、加速寿命およびストレステストに基づいて、または以前の製品のフィールドデータに基づいて推定されます。 MTTFは、年間の電源オン時間をAFRで割ったものとして推定されます。サーバー内のドライブの一般的な前提は、ドライブの電源が100%オンになっていることです。

http://www.cs.cmu.edu/~bianca/fast/

150万時間のMTTFは、もっともらしく聞こえます。

これは、およそ1000のドライブを6か月間実行し、3つのドライブが故障した場合のテストです。
AFRは、(2 * 6か月* 3)/(1000ドライブ)=年間0.6%、MTTF = 1年/0.6%=1,460,967時間、つまり167年です。

その数を見る別の方法は、167台のドライブがあり、それらを1年間稼働させたままにする場合です。メーカーは、平均して1台のドライブに障害が発生することを示しています。

しかし、それは単に一定の「ランダムな」機械的/電子的故障率であることを期待しています。

コメントに記載されているように、故障率が バスタブ曲線 であると仮定すると、製造元のマーケティングチームは、DOA(到着時のデッド、品質管理に合格したユニットなど)を含めないことで、信頼性の数値を少しマッサージできます。ただし、エンドユーザーがそれらをインストールすると失敗します)、DOA定義を拡張して、初期の障害スパイクの対象を除外します。また、テストが十分に長く行われないため、年齢の影響も見られません。

保証期間は、メーカーが実際にSSDが持続することを実際に期待する期間のより良い指標だと思います!
数十年または数世紀後には絶対に測定されません...


MTBF=に関連するのは、NANDセルがサポートできる書き込みサイクルの有限数に関連する信頼性です。一般的な測定基準は、合計書き込み容量(通常はTB)です。その他のパフォーマンス要件に加えて、 1つの大きなリミッター。

異なるメーカーと異なるサイズのドライブ間のより便利な比較を可能にするために、書き込み耐久性は、ディスク容量の一部として、毎日の書き込み容量に変換されることがよくあります。

ドライブが保証期間内であると見なされている場合:
100 GB SSDには、3年間の保証と50 TBの書き込み容量があります。

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

この数値が大きいほど、書き込み集中型IOに適したディスクになります。
現時点(2014年末)の値サーバーラインSSDの値は1日あたり0.3〜0.8で、ミッドレンジは1〜5から着実に増加しており、ハイエンドは書き込み耐久性で急上昇しているようです最大25のレベル* 3〜5年間の1日あたりのドライブ容量。

一部の 実世界のテスト は、ベンダーの主張を大幅に超える場合があることを示していますが、ベンダーの制限を超えて機器を運転することが必ずしも企業の考慮事項とは限りません...代わりに 目的に応じて、正しく指定されたドライブを購入します

35
HBruijn

残念ながら、MTBFは、ほとんどの人が考えるものではありません...

  • 個々のドライブがどれだけ長く続くかではありません

    製造元は、ドライブが保証期間中続くことを期待していますが、その後は問題ありません。古い電磁プラッターハードドライブは10年ほど後に焼き付きます。集積回路は非常に長時間持続しますが、他のコンポーネント(特にコンデンサ)は、ある程度予測可能なサイクル数の後に消耗します。

  • それはisこれらのドライブのうち、1時間に1台のドライブが故障すると予想するのに必要な数です。

    他の人が指摘したように、製造業者は妥当な期間にわたってさまざまなテストを行い、故障率を決定します。これらの種類のテストにはかなりのばらつきがあり、マーケティングでは最終的な数値がどうあるべきかについて「入力」されることがよくあります。いずれにせよ、1時間に1回の障害を平均化するために必要なドライブの数については、最善の努力を払って推測します。

    ドライブの数が少ない状況では、MTBFに基づいて障害の統計的確率を推測できますが、適切に設計された製品の障害は "bathtub" curve に従う必要があることに注意してください。最初にサービスを開始し、保証期間が終了すると、その間の故障率は低くなります。

19
Chris S

MTBF=についての悪いニュースは、一般的な評価手法では、すべてのNANDセル間で書き込み負荷が均等に分散されると想定されていることです。リザーブから新しいものと交換します。通常、リザーブはSSDボリュームの約20%です。リザーブがなくなると、SSD全体がデッドとしてマークされます。

IRL SSDには、揮発性だけでなく永続データも含まれています。 SSDの90%が静的データで満たされ、残りの10%が書き込み負荷が高い状況を想像してください。 SSDコントローラーは、利用可能な空きクラスター間で負荷を分散します。その10%は、予想よりも10倍速く寿命を使い果たします。それらは最後まで何度も予備から交換されます。

たとえば、永続的/揮発性のデータ量が30:1以上である本当に悪い場合-写真の山と人気のあるWebサイト用の比較的小さなデータベースの場合、SSDは1年で死亡します。

私の顧客の1人はSSDの特性に非常に感銘を受け、彼のDBMSサーバーにそれらのペアを装備するように強く要求しました。今後12か月で、両方とも2回交換しました。

しかし、SSDのマーケティング資料の寿命は170年です。承知しました。

2
Kondybas

それらは、小さいサンプルサイズと短い時間に基づく統計的評価に基づいています。普遍的に合意された方法やプロセスは本当にないので、それは本当にばかげた「マーケティング」です。

これ の記事では、もう少し詳しく説明しています。そして Wikipedia には、あなたが探している可能性のある公式がいくつかありますか?

基本的に、ほぼすべて(食器洗い機などの一般的な家庭用機械を含む)では、いくつかの製品がX時間実行されます。この期間中に発生した障害の数は、MTFBの計算に使用されます。

もちろん、SSDなどのライフサイクル全体で製品を実行することは、長期間続くことは現実的ではありません。それらは主に、MTFBの目的である機械的な障害ではなく、書き込みの量によって制限されます。

2
bhavicp

SSDは、通常の回転HDDドライブのように時間自体に敏感ではなく、SSDセルの再書き込み回数に敏感なので、MTBFはSSDドライブの耐久性の測定には関係ありません。詳細SSDに関連する測定は、1日あたりのドライブ書き込み(DWPD)です。たとえば、一部のエンタープライズクラスのSSDディスクの3.2 TB耐久性は、5年間で3 DWPDになります。

SSDベンダーは、(合計)テラバイト書き込み(TBW)または「書き込みサイクル」の観点から耐久性を提供する場合があります。これは、特定のSSDドライブの時間と最大スループットを知っているDWPDに簡単に変換できます。

3.2Tb SSDドライブを使用した例の場合:
TBW = DriveSize * Years * DWPD;
TBW = 3.2TB * 5 * 365 * 3d = 17520 TB 5年間

ドライブが1秒あたり80 MByteの持続可能な書き込みスループットを提供する場合、
WriteCycles = DWPD *年;
書き込みサイクル= 3 * 365 * 5 =指定されたディスクの合計書き込みサイクル5475

ドライブに100%の使用率スループットを提供する場合、最悪のケースを計算していることに注意することが重要です(これは非常に可能ではありません)。

1
BBK