web-dev-qa-db-ja.com

平均故障間隔(MTTF):ディスクメーカーがこれを投稿するとき、その数値をどのように解釈する必要がありますか?

平均故障間隔(MTTF)は通常、時間で表され、いくつかの計算を行うことにより、ディスクはかなりの年数が経過した後に故障するはずですのみ

ディスクはそれよりも頻繁に修復する必要があるようです。なぜそうなのか誰か知っていますか?

この測定基準には何か怪しいものがあると思いました。ここで何か間違っていると解釈していますか?

10

最初に:

MTTF =平均故障間隔
MTTR =平均修復時間
MTBF =平均故障間隔= MTTF + MTTR

修理には1時間かかる場合があり、MTTFは数万時間かかる場合があるため、MTBFはMTTFとほぼ同じであることがよくあります。ただし、MTBFは、欠陥のある製品は修理されないため、適用されないことがよくありますが、修理には交換よりも費用がかかるため、単に交換されます。

MTTF計算は、個々の部品が故障する確率を計算することを含む複雑な統計手法です。そして、人々が時々推測するように、それは直線的なものではありません。 MTTFが1000000時間の場合、1000デバイスで1000時間後に障害が発生する、または1時間後に1000000デバイスで障害が発生するという意味ではありません。
多くの電子機器は"バスタブ曲線"

enter image description here

早い段階で多くの障害が発生し、その後はほとんど障害が発生せず、寿命が近づくと障害の数が再び増加します。ハードディスクには、より直線的な故障曲線を持ついくつかの機械部品もあります。これは1日目からゆっくりと増加します。

たとえば、製造元が1000 000時間のMTTF(ほとんどの場合POH、または電源オン時間)と言った場合、それは平均ドライブが100年以上続く必要があることを意味します。一部のドライブは長持ちし、一部は早期に故障します。したがって、1000 000時間にもかかわらず、1000時間後に障害が発生する可能性は完全にあります。私はかつて1週間以内にドライブが故障したことがありましたが、それからあなたは浴槽のカーブを思い出さなければなりません。交換用ドライブは、5万時間以上正常に回転しています。

14
stevenvh

ある機器の使用量がMTBF 1,000,000時間である場合、それは、どの機器も1,000,000時間続くと予想できるという意味ではありません。むしろ、大まかに言って、定格耐用年数内の1,000,000個の機器をそれぞれ1時間、または100,000個を10時間(ただし定格寿命内)、または60,000,000個を1分間など、ロット内で約1回の故障が発生します。 。定格サービス寿命はMTBFと完全に直交していることに注意してください。次の2種類のウィジェットを検討してください。

  1. すべてのウィジェットは、年齢に関係なく、1時間ごとに0.1%の確率で失敗します。
  2. 10億個のウィジェットのうち、1つを除くすべてが正確に61分間動作し、その後死にます。その人は30分後に死ぬでしょう。ウィジェットには、60分の指定されたサービス寿命があります。

最初のタイプのウィジェットの平均寿命は約1,000時間で、MTBFは約1,000時間です。2番目のタイプのウィジェットの平均寿命は61分ですが、MTBFサービスライフタイム内で1,000,000,000時間。2番目のデバイスのMTBFは、予想されるライフタイムのほぼ10億倍の長さであると言うのは奇妙に思えるかもしれませんが、= MTBFはほとんど意味のない数字ではありません。

1,000,000台のデバイスがすべて1時間完全に機能することを要求する実験を実行しようとしていると仮定します。その後、それらはすべて廃棄されます。いずれかのデバイスに障害が発生すると、実験全体が台無しになります。これはより便利です-平均1,000時間持続するが、MTBFが1,000時間しかないデバイス、または最大61分持続するが、そのマークを満たさない可能性は10億分の1ですか?

4
supercat

Stevenvhの答えに加えて:有名なディスクメーカーはすべて、電子部品のメーカーと同様に、新しいデバイスのバーンインランを実行します。ハードディスクには、全体的なMTBFおよび [〜#〜] mttf [〜#〜] だけでなく、ディスクのブロックの個々の障害統計もあります。言い換えると、回転の一部であるディスクの「プラッター」が失敗する可能性がありますが、大部分はまだ読み取り/書き込みに問題はありません。いわゆる「不良セクター」は、ドライブ内のファームウェアによって検出され、マッピングされます。

今日のすべてのドライブには、欠陥セクターの代わりに使用できる予備の追加セクターが含まれています。これは単に製造元による予防策です。これを行わないと、宣言された容量でディスクを販売できません。隠れたセクターの追加のx%を予備として組み込む場合、コストはx%未満増加しますが、全体的な生産歩留まりははるかに高くなります。

今日のディスクは、適切なソフトウェアで読み取ることもできる不良セクタの数を保持しています。これと他のディスクヘルスパラメータ(温度など)は [〜#〜] smart [〜#〜] 値と呼ばれます。

ここで、製造元がドライブのバーンインテストを実行し、一部のセクターにほぼ障害が発生し、ドライブの内部ファームウェアによって再マップされると、「不良セクター数」SMART =パラメータは0に設定されます。その後、ドライブが顧客に配送されます。

通常、バーンインプロセスの後、すでに述べたバスタブ曲線の開始は顧客には見えなくなります。幸運なことに、時間の経過とともに障害の可能性が高まるだけです。

したがって、製造元によって見積もられているMTTFを見ると、実行したい障害モデリングについては、バスタブ曲線の開始を無視できます。

2
cfi