mdadm raid1、ドライブ障害により14日分のデータが失われましたか？

Question

私はかなり混乱しています。ある晩、私は死んだサーバーを持っていました。再起動してみると、「GRUB」の起動画面で動かなくなっていることに気づきました。その後、ハードドライブに障害が発生したことに気付きました。新しいハードドライブを入れ、レスキューモードで起動し、grubを再インストールしました。

サーバーが起動し、mdadmに新しいドライブを再同期するように指示すると、すべてが再び正常になりました。

なんらかの理由でドライブに14日経過した4月26日のデータがあることに気付くまで、サーバーを最新の状態にするには、より新しいバックアップを復元する必要がありました。しかし、これは私がそこにいるのではないかと心配しています、なぜこれが起こったのですか？

ありがとう

ALex_hha · Answer

私の推測では、次の場合に発生する可能性があります。raid1に/ dev/sdaと/ dev/sdbの2つのディスクがある。たとえば、mbrレコードは/ dev/sdaにありました。 4月26日、システムは/ dev/sdbに障害があると見なし（誤って、またはプログラムの障害が原因で）、レイドから削除されました。 2週間で/ dev/sdaが失敗し、レイドが同期されませんでした。上で述べたように、mdadmをセットアップする必要があり、smartdをセットアップすることをお勧めします（smartmontoolsパッケージから）。 Smartdは数回「私の人生を救った」:)

P.S. raid1はバックアップではありません。2台のドライブが同時に故障し、それらからデータを回復する機会がない場合、いくつかのインシデントが発生しました。

tylerl · Answer

RAID1ミラーリングが設定されていて、ドライブの1つが14日前に故障しました。カードへの書き込みを停止するのに十分なほどハードに失敗しましたが、読み取り/書き込みを試みたときに実際には動作しないほどハードではありません。ただし、失敗としてマークされているため、RAIDカードはそれに触れなくなります。次に、14日後、おそらく別の問題に対応して、other（より新しい）ドライブを取り出し、空のドライブと交換しました。

故障したドライブは2週間で書き込まれなかったため、データは2週間前のものでした。これが、新しいドライブに同期したものです。そのため、サーバーが2週間使用されていないように見えます。

おそらくあなたの他のドライブ（2週間前に失敗しなかったもの）も

[〜＃〜] a [〜＃〜]：それでも問題はなく、最近のデータを復元するために使用できます。
[〜＃〜] b [〜＃〜]：最近ではありますが、おそらくより深刻ですが、失敗しました

RAID-1の単一ディスク障害は壊滅的ではないため、本質的な苦痛の兆候はありません。お使いのコンピュータは、残りの良好なドライブを動かし続けます。 RAIDアレイをアクティブに監視していない限り、otherドライブにも障害が発生してサーバーがクラッシュするまで、障害について知ることはできません（動作中のドライブが残っていません）。）。

一部のRAIDカードは、特定の条件下で再起動した後、ドライブの失敗/正常フラグをリセットします。それは愚かです、それは起こります。

これはあなたに起こったこととよく似ています。

espenfjo · Answer

おそらくあなたの/ bootはraid1にありませんか？ /（または他のパーティション）のみ。

一部の古いバージョンのgrub（0.9Xだと思います）は、mdadmデバイスから起動できませんでした。

LiveCDなどを起動できる場合は、レイドをマウントしてデータを保存できる可能性があります。