web-dev-qa-db-ja.com

RAID1アレイで障害が発生したデバイスを使用してシステムを起動する

3つのソフトウェアRAID1デバイスでセットアップされたLinuxシステムがあり、それぞれが2つの同一ディスク上の2つの同一パーティションで構成されています。最近、1つのディスク上の非ルートパーティションの1つでDMAエラーが発生し始めたため、失敗としてマークしました。マシンを再起動すると、カーネルが正常に起動しましたが、印刷が開始されましたDMAエラー(おそらく失敗したパーティションに関連する)はほぼ即座に発生します。問題のあるパーティションを失敗としてマークして、エラーなしでマシンを起動できるようにするべきではありませんか?そうでない場合、システムを起動するにはどうすればよいですか?Iマシンのブートイメージのmdadm.confファイルを変更して、それを構成するRAIDデバイスのデバイスリストに問題のあるパーティションがリストされないようにしましたが、効果がないようです。また、にアクセスできることにも注意してください。レスキューCDから起動し、残りの正常なパーティションからデバイスを手動でアセンブルすると、劣化したRAIDデバイス。

2
lebedov

LinuxソフトウェアRAIDを使用していて、RAIDデバイスがセットアップされているようです。ディスク全体ではなくパーティションを使用します。

この場合、パーティションに失敗しても役に立ちません:失敗したドライブ(ハードウェアコンポーネント)がエラーをスローしています。オペレーティングシステムがそのハードウェアコンポーネントにアクセスしようとすると、問題が発生します。ドライブは通常1つの場所で劣化しないため、ドライブが最終的にあきらめて死ぬまで、問題はすべてのパーティションに広がります。


あなたへの私の提案はあなたのデータをバックアップすることです[〜#〜]今[〜#〜]、レスキューCD(質問ごとに機能するようです)を使用してから、障害のあるハードウェアコンポーネントを交換し、必要に応じてRAIDアレイを再構築します。

長期的には、ハードウェアRAIDと同じようにソフトウェアRAIDを構築する必要があります(ドライブ全体を使用し、パーティションではなく)-必要に応じて、物理ドライブ全体にRAIDを作成します次に、仮想(RAID)デバイスをパーティション化します。これにより、死にかけているドライブ(ハードウェアコンポーネント)に障害が発生するか、必要に応じてドライブを削除して、既知の明確に定義された一連の副作用でシステムを起動できます。ドライブの絶えず増大するレベルの障害がますます多くのパーティションRAIDを不安定にするので驚かれるのではなく...

本番環境でソフトウェアRAIDを信頼している場合は、 smartmontoolsスイートのsmartd を実行し、ドライブが不安定になり始めたときに警告するように構成する必要があります...

4
voretaq7