このraid1ソフトウェアアレイは失敗しましたか？（mdadm）

Question

長いバージョン：ソフトウェアraid1（mdadm）を搭載したRed Hat Enterprise Linux 5（REHL5）マシンを実行しています。

数日前、MySQLデータのバックアップに行きましたが、突然、マシンにログインできなくなりました。ログインするユーザー名を入力すると、そこに表示されます。押されたコントロールシーケンスの場合、それらは画面に表示されますが、ログインすることはありません。また、ctrl + alt + deleteに応答しませんでした。だから私はハードパワーダウンをしました。

私はそれをバックアップして起動し、次の方法でraid1アレイを監視しました。

mdadm --detail /dev/md1

この配列は、ルートマウントポイントを保持します。

アレイの再同期を開始しました。これがクラッシュが原因なのか、ハードパワーダウンしただけなのかはわかりません。いずれにせよ、私はそれを終わらせました：

[f@mysqldatanode ~]# mdadm --detail /dev/md1 /dev/md1: Version : 00.90.03 Creation Time : Thu Apr 19 15:28:52 2007 Raid Level : raid1 Array Size : 479893568 (457.66 GiB 491.41 GB) Device Size : 479893568 (457.66 GiB 491.41 GB) Raid Devices : 2 Total Devices : 2 Preferred Minor : 1 Persistence : Superblock is persistent Update Time : Fri Dec 25 10:03:50 2009 State : clean Active Devices : 2 Working Devices : 2 Failed Devices : 0 Spare Devices : 0 UUID : ab4849de:1f4f41c4:defd01e8:a4979ca6 Events : 0.78 Number Major Minor RaidDevice State 0 8 2 0 active sync /dev/sda2 1 8 18 1 active sync /dev/sdb2

いくつかのログ（/ var/log/messages *）を調べたところ、ハードドライブの問題を示す以下のようなメッセージがいくつか見つかりました。

Dec 21 11:39:47 localhost kernel: sd 0:0:1:0: SCSI error: return code = 0x08000002 Dec 21 11:39:47 localhost kernel: sdb: Current: sense key: Medium Error Dec 21 11:39:47 localhost kernel: Additional sense: Unrecovered read error Dec 21 11:39:47 localhost kernel: Info fld=0x3348912 Dec 21 11:39:47 localhost kernel: end_request: I/O error, dev sdb, sector 53774610 Dec 21 11:39:47 localhost kernel: raid1:md1: read error corrected (8 sectors at 53565760 on sdb2) Dec 21 11:39:48 localhost kernel: raid1: sdb2: redirecting sector 53565648 to another mirror

それで私はbadblocksを探しようとしました、そしてそれは同じ方法で再びロックされました。

[f@mysqldatanode ~]# badblocks -s /dev/md1 Checking for bad blocks (read-only test): 0/ 479893568

では、2つのドライブの状態をどのように評価すればよいでしょうか。問題のアレイはルートマウントポイントを保持しているので、それらを分析するために別のマシンに移動する必要がありますか？

Rune Nilssen · Accepted Answer

Mdadmを介して/ dev/sdbデバイスに障害を発生させることができます（デバイス全体、つまりデバイスから実行されるすべてのmdに障害が発生することを確認してください）、エラーがないか確認しますが、説明していることから、デバイスを交換するだけの方がよいでしょう。。

私は定期的に故障したIDEデバイスを持っていましたが、あなたが説明したように最終的にコンピュータがハングし始めるまで、拒否されたデバイスを再度追加し続けました。故障したデバイスを交換することで問題は解決しました。

いずれの場合も、できるだけ早くバックアップを作成する必要があります。

magmatrix · Answer

読み取りエラーは一般的ですが、ディスクはそれらのほとんどを自分で修正します。一部のディスクは嘘をつき、SMART info ％（またはそれ以上）ECCが回復しました。

ただし、今回は/ dev/sdb2が8セクターを正しく読み取ることができませんでした。

その後、ソフトレイドは、他のディスクから欠落しているセクターをフェッチして再書き込みすることにより、単純に回復しました。その後、すべてが再びうまくいくと判断しました。

これは、ドライブが不良であることを示している可能性がありますが、mtbfに1回のエラー、ほこりの粒子などが漂っている可能性もあります。このドライブを廃棄する前に、さらにエラーが表示されるかどうかを確認してください。

このraid1ソフトウェアアレイは失敗しましたか？ （mdadm）

このraid1ソフトウェアアレイは失敗しましたか？（mdadm）