web-dev-qa-db-ja.com

mdadm raid1、ドライブ障害により14日分のデータが失われましたか?

私はかなり混乱しています。ある晩、私は死んだサーバーを持っていました。再起動してみると、「GRUB」の起動画面で動かなくなっていることに気づきました。その後、ハードドライブに障害が発生したことに気付きました。新しいハードドライブを入れ、レスキューモードで起動し、grubを再インストールしました。

サーバーが起動し、mdadmに新しいドライブを再同期するように指示すると、すべてが再び正常になりました。

なんらかの理由でドライブに14日経過した4月26日のデータがあることに気付くまで、サーバーを最新の状態にするには、より新しいバックアップを復元する必要がありました。しかし、これは私がそこにいるのではないかと心配しています、なぜこれが起こったのですか?

ありがとう

2
Sc0rian

私の推測では、次の場合に発生する可能性があります。raid1に/ dev/sdaと/ dev/sdbの2つのディスクがある。たとえば、mbrレコードは/ dev/sdaにありました。 4月26日、システムは/ dev/sdbに障害があると見なし(誤って、またはプログラムの障害が原因で)、レイドから削除されました。 2週間で/ dev/sdaが失敗し、レイドが同期されませんでした。上で述べたように、mdadmをセットアップする必要があり、smartdをセットアップすることをお勧めします(smartmontoolsパッケージから)。 Smartdは数回「私の人生を救った」:)

P.S. raid1はバックアップではありません。2台のドライブが同時に故障し、それらからデータを回復する機会がない場合、いくつかのインシデントが発生しました。

3
ALex_hha

RAID1ミラーリングが設定されていて、ドライブの1つが14日前に故障しました。カードへの書き込みを停止するのに十分なほどハードに失敗しましたが、読み取り/書き込みを試みたときに実際には動作しないほどハードではありません。ただし、失敗としてマークされているため、RAIDカードはそれに触れなくなります。次に、14日後、おそらく別の問題に対応して、other(より新しい)ドライブを取り出し、空のドライブと交換しました。

故障したドライブは2週間で書き込まれなかったため、データは2週間前のものでした。これが、新しいドライブに同期したものです。そのため、サーバーが2週間使用されていないように見えます。

おそらくあなたの他のドライブ(2週間前に失敗しなかったもの)も

[〜#〜] a [〜#〜]:それでも問題はなく、最近のデータを復元するために使用できます。
[〜#〜] b [〜#〜]:最近ではありますが、おそらくより深刻ですが、失敗しました

RAID-1の単一ディスク障害は壊滅的ではないため、本質的な苦痛の兆候はありません。お使いのコンピュータは、残りの良好なドライブを動かし続けます。 RAIDアレイをアクティブに監視していない限り、otherドライブにも障害が発生してサーバーがクラッシュするまで、障害について知ることはできません(動作中のドライブが残っていません)。 )。

一部のRAIDカードは、特定の条件下で再起動した後、ドライブの失敗/正常フラグをリセットします。それは愚かです、それは起こります。

これはあなたに起こったこととよく似ています。

0
tylerl

おそらくあなたの/ bootはraid1にありませんか? /(または他のパーティション)のみ。

一部の古いバージョンのgrub(0.9Xだと思います)は、mdadmデバイスから起動できませんでした。

LiveCDなどを起動できる場合は、レイドをマウントしてデータを保存できる可能性があります。

0
espenfjo