web-dev-qa-db-ja.com

SMARTエラー率が低下するのはなぜですか?

Linuxソフトウェアのraid5アレイの一部であるハードドライブがあります。 SMARTは、multi_zone_error_rateが0、次に1、次に3であると報告しました。したがって、より頻繁にバックアップを開始し、ドライブを交換する準備をする方がよいと考えました。今日、そのmulti_zone_error_rateは非常に同じドライブが1に戻りました。私が見ていなかったときに2つのエラーが発生しなかったようです。

サーバー上のsyslogを検査することで、同様の動作を確認しました。

Jun  7 21:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  7 21:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  7 21:01:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  8 02:31:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun  8 03:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun  8 03:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200

これらは生の値であり、smartctl -aが生成する人間にとって有用な値ではありませんが、動作は似ています。エラー率が変化し、変更を元に戻します。これらのどれも、multi_zoneの奇妙さを持っていたドライブではありません。 RAIDからの問題は見られませんでした。その最新のスクラブ(<24時間前)は完全にきれいに戻ってきました。これらは、奇妙に動作する唯一のSMART値です。

私が考えることができる唯一のことは、ドライブのSMARTレポート回路が常に正しく機能していないということです。ケーブルはドライブとボードにしっかりと固定されています。ここで何が起こっているのですか?

3
Jeff Shattock

メジャーはレートと呼ばれるため、それ以上エラーが発生しなければ、時間の経過とともに低下すると予想される場合があります。ドライブのドキュメントを確認する必要があります。

メジャーが特定の時間以降の絶対カウントではなく「時間の経過に伴う発生」である場合、エラーが発生しなくなると、メジャーは低下します。おそらく、以前の増加は、気温の急激な上昇(異常な天候、空調の失敗)や振動の増加(その時期に同じラックで行われた作業によって物がノックされた可能性がある)などの環境条件の局所的な変化によるものでした。 、または影響を受ける地域にいる場合は、おそらく小さな地球の揺れ、または誰かが怒って サーバーに向かって叫ぶ )、そして元に戻って戻っていないので、一時的な状態の変化。

SMART名前の読み取りでの「エラー」は、必ずしも永続的および/または回復不能なエラーを意味するわけではありません。シークエラーは、振動のためにドライブヘッドがマークを失ったことが原因である可能性があります。この場合はドライブの電子機器は、位置を再調整し(または落ち着くまで放置し)、ディスクがスピンバックしてターゲットセクターが再び利用できるようになるのを待ちます。この種のことは、非常にタイトなタイミングと正確な位置決め要件で期待されます。最新のスピニングディスクベースのドライブでは、このようなエラーの数が少ないことは問題ではありません。

6
David Spillett

不良セクタの周りに割り当てられ、問題を「修正」した可能性があります。その一定量は、ドライブでは完全に許容できます。

2
Satanicpuppy