web-dev-qa-db-ja.com

RAID-5:2つのディスクで同時に障害が発生しましたか?

CentOSを実行するDell PowerEdge T410サーバーがあり、5つのSeagate Barracuda 3を含むRAID-5アレイを使用していますTB SATAディスク。昨日、システムがクラッシュしました(正確にはわかりません。ログがあります)。

RAIDコントローラのBIOSを起動すると、5つのディスクのうち、ディスク1には「欠落」、ディスク3には「劣化」というラベルが付いていることがわかりました。ディスク3を強制的にバックアップし、ディスク1を新しいハードドライブ(同じサイズ)に交換しました。 BIOSがこれを検出し、ディスク1の再構築を開始しましたが、%1でスタックしました。回転する進行状況インジケーターは一晩中動揺しませんでした。完全に凍結。

ここに私のオプションは何ですか?専門的なデータ復旧サービスを使用する以外に、再構築を試みる方法はありますか?このように2台のハードドライブが同時に故障するのはなぜですか。非常に偶然のようです。ディスク1が故障し、その結果ディスク3が「同期しなくなった」可能性はありますか?その場合、「同期」させるために使用できるユーティリティはありますか?

21
Mike Furlender

badの回答を受け入れた後、私は異端者の意見(そのような配列をすでに何度も保存している)に本当に残念です。

second障害のあるディスクには、おそらく小さな問題があり、おそらくブロックの障害です。これが原因ですbad raid5ファームウェアのbad同期ツールがクラッシュした理由です。

低レベルのディスク複製ツール(たとえばgddrescueはおそらく非常に便利です)でセクターレベルのコピーを簡単に作成し、このディスクを新しいdisk3として使用できます。この場合、アレイは軽微なデータ破損で生き残りました。

申し訳ありませんが、この場合の正解の本質は次のとおりです。「raid5での複数の失敗、これが黙示録です!」

非常に優れた冗長なRAIDが必要な場合は、LinuxのソフトウェアRAIDを使用してください。たとえば、レイドスーパーブロックのデータレイアウトは公開されており、文書化されています...申し訳ありませんが、これは異端的な意見です。

二重ディスク障害が発生しています。これは、データがなくなったことを意味し、バックアップから復元する必要があります。これが、大容量ディスクでRAID 5を使用することを想定していない理由です。 RAIDをセットアップして、特に大容量の低速ディスクで2つのディスク障害に常に耐えられるようにする必要があります。

38
Basil

オプションは次のとおりです。

  1. バックアップからの復元。
    • あなたはdoバックアップを持っていますね? RAIDはバックアップではありません。

  2. プロのデータ復旧
    • 非常に高価で保証されていませんが、専門のリカバリサービスがデータをリカバリできる可能性があります。

  3. データの損失を受け入れ、その経験から学ぶ。
    • コメントに記載されているように、再構築中に二重障害が発生してアレイに障害が発生する可能性があるため、RAID 5構成では大容量のSATAディスクは推奨されません。
      • パリティRAIDである必要がある場合は、RAID 6の方が適しています。次回はホットスペアも使用します。
      • SASディスクは、UREs(回復不能な読み取りエラー)を引き起こす可能性のある回復不能なビットエラーの発生率が低く、信頼性、回復力が高いなど、さまざまな理由で優れています。
    • 上記のように、RAIDはバックアップではありません。データが重要な場合は、データがバックアップされていることと、バックアップが復元テストされていることを確認してください。
37
HopelessN00b

他のユーザーが指定した理由により、同時障害が発生する可能性があります。もう1つの可能性は、ディスクの1つが少し前に故障しており、アクティブにチェックしていないことです。

監視が、低下モードで実行されているRAIDボリュームを迅速に取得することを確認してください。多分あなたは選択肢を得なかったかもしれませんが、BIOSからこれらのことを学ぶ必要があるのは決して良くありません。

4
richardb

スレッドは古いですが、を読んでいる場合は、RAIDアレイでドライブに障害が発生したときを理解し、ドライブの古さを確認してください。 RAIDアレイに複数のディスクがあり、それらが4〜5年以上経過している場合、別のドライブが故障する可能性が高くなります。 ***続行する前に、画像またはバックアップを作成してください**。バックアップがあると思われる場合は、それをテストして、読み取りおよび復元ができることを確認してください。

理由は、何時間もフルスピードで回転している残りのドライブに、通常の摩耗と損傷を何年もかけているということです。 6年前のドライブの数が多いほど、別のドライブがストレスで故障する可能性が高くなります。 RAID5でアレイをブローする場合は、バックアップがありますが、2 TBのディスクの復元には、RAIDコントローラとその他のハードウェアの種類によっては8〜36時間かかります。

すべてのドライブが古い場合、私たちは定期的に本番サーバーのRAIDハイブ全体を交換します。 1つのドライブを交換するのに時間を無駄にして、次のドライブが1日、1週間、1か月、または2か月で故障するまで待つのはなぜですか。ドライブと同じくらい安上がりですが、ダウンタイムの価値はありません。

2
Rickkee Ranton

「2台のハードドライブがどうしてそのように同時に故障するのでしょうか?」正確には、私は この記事 から引用したいと思います:

議論の核心はこれです。ディスクドライブがますます大きく(2年間で約2倍)なるにつれて、URE(回復不能な読み取りエラー)は同じ速度で改善されていません。 UREは、回復不能な読み取りエラーの発生頻度を測定し、通常は読み取りビットあたりのエラー数で測定されます。たとえば、UREレートが1E-14(10 ^ -14)の場合、統計的に、1E14ビットの読み取り(1E14ビット= 1.25E13バイトまたは約12TB)ごとに1回、回復不能な読み取りエラーが発生します。

...

議論は、ディスク容量が増加し、UREレートが同じレートで向上しない場合、RAID5再構築障害の可能性が時間とともに増加するということです。統計的には、2009年には、ディスク容量が十分に大きくなったため、意味のあるアレイにRAID5を使用しても意味がなくなったことを示しています。

そのため、RAID5は2009年には安全ではありませんでした。RAID6も間もなくリリースされます。 RAID1については、3枚のディスクから作り始めました。 4ディスクのRAID10も不安定です。

2
Halfgaar

Linuxでdmraid(たとえば here )によってコントローラーが認識されている場合は、 ddrescue を使用して、障害が発生したディスクを新しいディスクに復元し、dmraidを使用してハードウェアコントローラーの代わりにアレイを構築します。

1
Brian Minton

通常、評判の良いリセラーからドライブをまとめて購入する場合、ドライブが異なるバッチからのものであることを要求できます。これは、上記の理由から重要です。次に、これがまさにRAID 1 + 0が存在する理由です。 RAID 1 + 0で6台のドライブを使用していた場合、ボリュームの再構築が不要な9TBのデータがすぐに冗長化されます。

1
Payton Byrd