web-dev-qa-db-ja.com

ハードディスクが故障しているのはなぜですか?

2台のハードドライブを備えた小さなUbuntuサーバーを自宅で実行しています。ディスクには2つのソフトウェアraid(raid1)があり、mdadmによって管理されています。これは関係ないと思いますが、とにかくそれについて言及します。

どちらのハードドライブもWestern Digitalであり、そのうちの1つがクリック音を出し始めて亡くなった約2年間使用されています。 2年経っても自然だと思ったので、新しいものを購入し、レイドアレイを再同期しました。約1か月後、もう一方のドライブも死亡しました。

両方のドライブが同時に購入されたため、疑いはありませんでした。両方のドライブが互いに近くにあるのを見るのはそれほど驚くことではないので、別のドライブを購入しました。

これまでのところ、2つの古いドライブが故障しており、2つはシステムで新品です。 1か月後、新しいドライブの1つが死亡しました。これは、疑わしくなり始めたときです。 PCはいくつかの本当に古い部品(AthlonXPなど)から組み立てられたので、おそらくマザーボードのSATAコントローラが原因であると考えました。もちろん、このような古いPCでは簡単に部品を切り替えることができないので、システム全体、新しいMB、新しいCPU、新しいRAMを購入しました。保証期間中だったため、故障したドライブを元に戻し、交換しました。

つまり、古いドライブから最大2つの故障したドライブがあり、新しいドライブから最大1つの故障したドライブがあります。 1か月間問題ありません。その後、エラーは/ var/log/messagesに再び忍び寄り、mdadmはRAIDアレイの障害を報告していました。髪をちぎり始めました。システムのすべてが新しい、それは3番目のブランドの新しいハードドライブまで、私が購入したすべての新しいドライブが故障している可能性はありません。

まだ一般的なものを見てみましょう...ケーブル。さて、ロングショット、SATAケーブルを交換しましょう。ハードドライブを元に戻し、カウンターにいる男に笑顔で、私は本当に不運だと言います。彼はハードドライブを交換します。私が家に帰って1か月が経過し、ハードドライブの1つが再び故障しました。冗談じゃない。

新品のハードドライブのうち2台が故障しました。多分それはOSのバグです。製造元のテストツールの内容を見てみましょう。テストツールをダウンロードし、CDに書き込み、再起動して、ハードドライブのテストを一晩行います。テストによると、ドライブに障害があり、それでも可能であればすべてをバックアップする必要があります。何が起こっているのかはわかりませんが、ソフトウェアの問題のようには見えません。何かが間違いなくハードドライブを破壊しています。

ここで、システム全体が靴箱に入っていることを述べておきます。 「自分だけのイケアケースを作ろう」というものがたくさんあるので、箱に捨てたり、どこかに詰めたりしても問題ないと思いました。ボックスはよく換気されていますが、ドライブが過熱しているだけかもしれないと思いました。これに対する他の可能な答えはありません。だから私はハードドライブを取り戻し、それを交換して(3回目)、ハードドライブクーラーを購入しました。

そして今、私はドゥームの音を聞いた。 クリッククリックwhizzzzzzzzz。ボックスにSSH接続します。

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

dmesg出力:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

要約:

  1. 過熱の可能性なし
  2. 6台のドライブが故障し、そのうち4台は新品です。元の2つに障害があったか、新しい2つと同じ問題が発生したのか、今はよくわかりません。
  3. システムには、Ubuntu KarmicのOS(Jauntyで始まる)を除いて、一般的なものはありません。新しいMB、新しいCPU、新しいRAM、新しいSATAケーブル。
  4. いいえ、ハードドライブの小さな穴は覆われていません

私は泣いています。本当に。現在、店舗に戻る顔がありません。4か月以内に4台のドライブが故障することはありません。

私が考えていたいくつかのアイデア:ドライブをパーティション分割して再同期するときに、何かが台無しになる可能性はありますか?ドライブが物理的に破壊されるほどひどいのでしょうか。 (ドライブが破損しているとベンダー提供のツールが言っているため)私はfdiskでパーティションを作成し、raid1パーティションに同じブロックサイズを使用します(fdisk -luで正確なブロックサイズを確認します)

Linuxカーネルまたはmdadm、または何かがこのハードドライブのブランドと互換性がなく、それらをスラッシュする可能性はありますか?

それが靴箱である可能性はありますか?別の場所に配置してみますか?棚下なので湿度も問題ありません。通常のPCケースで問題が解決する可能性はありますか(私は自分で撃ちます)?明日写真を撮ります。

私はただのろわれただけですか?

どんな助けや推測も大歓迎です。

編集:電源タップは過電圧から保護されています。

Edit2:私はこの4か月の間に移動したので、原因が両方の場所で「汚れた」電気である可能性は非常に低いです。

Edit:私はBIOSで電圧をチェックしました(マルチメーターを借りることはできませんでした)。それらはすべて正しいように見えます。最大の差異は、12.3を供給しているため、12Vにあります。心配する必要がありますか?

Edit4:デスクトップPCのPSUをサーバーに入れました。 BIOSははるかに正確な電圧測定値を報告し、さらに3〜4時間かかったraid1アレイを正常に再構築したので、今は少し前向きに感じています。明日、新しいPSUでテストします。また、箱の写真を添付:(3番目のドライブは無視してください)

picture of box of Doom

23
K. Norbert

あなたの電源も古いですか?おそらく、障害の原因となっているドライブの電力不足/電力超過です。マルチメーターをお持ちの場合は、ハードドライブで実行されている電圧を測定し、一定期間監視します。別の原因は「汚れた」電気である可能性があるため、PSUに入る電力を「きれいにする」ためにUPSが正常に機能している可能性があります。

26
Wayne Hartman

私は他の人に同意します:力。

ただし、ひねりを加えています。

すべてのコンポーネントに共通のアースが必要です-シャーシは一般​​的ですが、あなたの場合は誰が知っていますか? 「漂流地」はこれを引き起こします、私はsure。です。

すべてのコンポーネントを単一のアースに接続し、さらにそのアースを施設の「送電網」のアースに接続する必要があります。これは重要。

ところで、それは可能すべての古いハードウェアが実際にまだ大丈夫であることです!フレーク状の電源が供給されていた機器は、適切な電源が供給されていれば問題なく存続することがあります。

これがお役に立てば幸いです。

RT

14
Richard T

これは古い投稿であり、元の質問は質問をしている人とは関係がない可能性があります。ただし、将来的に低価格のPCを構築する人々を参照する場合、ディスクドライブに関する問題はPowerだけではありません。 EMC認定の実装エンジニアとしての私の専門家の意見では、コンピューターがカードボードボックスの中にある場合、電源を唯一の責任者として責めるのは誤解を招く答えです。

ハードディスクは振動し、垂直または水平の特定の位置はありませんが、ディスクの寿命を増減しますが、スピンドルを備えたハードドライブが作成する振動要因があります。ここに表示されているドライブは、段ボール箱に入っています。これは予算エンジニアリングの例であり、振動するドライブが横になり、プラッターの共振がさらに増加し​​ます。これ自体は答えではありませんが、適切にマウントされていないハードディスクは、振動するプラッターが読み書きヘッドをプラッターに正しく接触させないため、ディスク障害を引き起こす可能性があります。

電力、安価な電源装置は、一般的にコンピューターにとって常に悪いものですが、このPSUがハードドライブを殺し、ボード上の他のより敏感なコンポーネントを殺すことはありません。このシステムは段ボール箱に入っているので、エンジニアリングと電力によって、さらに致命的な障害が発生する可能性がありますが、必ずしもディスクの障害ではありません。可能ですが、この場合は証明されていません。

熱:ディスクはディスクを破壊する可能性がありますが、故障時に熱くなかった場合は、熱が原因ではありません。段ボール箱は、PCやサーバーのエンジニアリングには適していません。コンピュータの机や作業台に部品をボルトで固定することをお勧めします。少なくともそれらは接地されます。

ソフトRAIDと安価なドライブ。写真に表示されている段ボール箱と古い部品を考えると、標準のデスクトップドライブとソフトRAIDを使用しているように見えます。デスクトップドライブはRAIDコントローラに配置できますが、ディスクのI/Oが増加すると、ディスク障害の可能性が増加します。この場合、イメージ化されたディスクはハードウェアRAIDコントローラー上にありませんが、マザーボード上のソフトウェアコンポーネントと共にグループ化されています。これはハードドライブには理想的ではありません。これにより、CPUのワークロードが増加します。ソフトRAIDにはエラーがあり、ハードドライブを早期に終了させることが知られています。ソフトRAIDがこれらのドライブを何よりも強制終了した可能性があります。

今後のビルドの防止:あなたがこれを読んでいて、Googleの質問を介してこの古いユーザーシナリオを見ている場合は、次のようになります。

-ディスクが安定したハードドライブシャーシに適切にマウントされていることを確認します。少なくとも4つのハードドライブネジでディスクをボルトで固定するか、シャーシに付属する特別なディスクスレッドを使用します。

-十分な空気の流れがあることを確認してください。RAIDのハードディスクは、ディスク上のI/Oが多くなる傾向があり、物理ボリュームが個別にマウントされている場合よりもはるかに高温になります。

・安価な電源は使用しないでください。汚れた電源は、高価なコンピュータ部品のキラーです。また、ご使用の電源が、必要な作業負荷を処理するのに十分なワット数を提供していることを確認してください。

-RAIDコントローラカードを使用してください!マザーボードでソフトRAIDを使用しないでください。ソフトRAIDはディスクパフォ​​ーマンスを低下させ、RAIDコントローラカードよりもディスク障害の可能性を高めます。

-RAIDは一般に、すべてのボリュームでI/Oが増加するため、ディスク障害の可能性が高くなります。参加するディスクのプールが大きいほど、ドライブが故障する可能性が高くなります。ドライブをRAID化する場合は、常にパリティドライブとホットスペアを使用してください。 RAID 0 2-3ディスクの場合、データを失う可能性があります。ディスクが3つある場合は、RAID 5を使用してください。ドライブが保証の対象である場合、ホットスペアを備えたRAID 5(4 + 1)上の6つのディスクが理想的です。ディスクを追加する余裕がない場合、またはディスクが保証対象外の場合は、RAIDを使用しないでください。

-デスクトップドライブはエンタープライズドライブではありません。デスクトップドライブはエンタープライズドライブに似ていますが、RAIDコントローラーによってもたらされる巨大なワークロードを処理するようには設計されていません。 neweggからデスクトップドライブを購入してマザーボードでRAID化すると、最初の1年で少なくとも1つのドライブ障害が発生する可能性があります。マシンをRAIDで操作する時間が長いほど、ディスクに書き込まれるI/Oが多くなり、ボリュームに障害が発生する可能性が高くなります。安価なドライブと安価なマザーボードのソフトRAIDを組み合わせると、問題が発生します。

このユーザーは、靴箱サーバーでこれらすべての要因を経験した可能性があります。電力が安い、空気の流れが悪い、シャーシに正しく取り付けられていない古い安価なドライブ、マザーボードのソフトRAID ...これはすべて、ディスク障害の可能性を高めます。

5
user2809007

靴箱の通気性と冷却の良さを想像できませんか?あなたは本当に本当のコンピュータケースのために50または60ドルをシェルアウトする必要がありますか?

電源タップは電力サージに対してのみ保護します。電子機器の一般的な問題は、電圧不足(ブラウンアウト)と過電圧(スパイク)です。また、よくあるのはEMIノイズです。しばらく前に不安定なコンピューターがありましたが、同じ回路にトレッドミルがあることが原因であることが判明しました(私はこれを疑いなく個人的に確認しました)。モデムがオフラインになり、システムが時々フリーズします。

また、ノイズや電源の変動に継続的にさらされると、最終的にはPSUが損傷し、時間の経過とともに、電子機器に供給される電力の品質が低下します。

編集:電力変動は特定の回路に分離できます。さらに重要なのは、電子レンジ、冷蔵庫、トレッドミル、ストーブなどの高消費電力の電気製品が、その回路の電力品質に大きな影響を与える可能性があることです。また、冷蔵庫のようなものにも、モーターの始動時および始動時に、電源が茶色になり、電源にスパイクが発生する連続的なオン/オフサイクルの動作があります。

また、同じ電力会社がサービスを提供している場合は、全面的に電圧を供給できないという問題が継続している可能性があります。 105Vと125Vの間で常に変動すると、電子機器に悪影響を及ぼします(私が理解しているように)。

4
Lawrence Dol

本当に電源の問題のように聞こえます。

電力サージがある場合、多くの安価な電源タップは1度しか機能しません。通常、それらが保護されなくなったことを示すものはありません。

優れたUPSが役立つ可能性があります。一部のハイエンドUPSは実際にバッテリーから電力を生成し、継続的に充電して完全に絶縁された電力を提供します。唯一の欠点は、それらが騒々しいことができるということです。

2
chris

実際、HDDの製造元はドライブの作業位置に関する情報を印刷していませんが、ハードドライブを側面に置いても問題ありません。前回、その情報を確認したところ、ドライブは平らに、または横にして、これらの位置から最大5度または10度の角度で配置できました。上下を逆にしたり、コネクタを上または下に向けたりすることは合法的な位置ではありません。 15年ほど前は、上向きまたは下向きのコネクタが輸送に最適な位置でした。これは私がこれについて持っている最新の情報です。

まったく新しい500 GB WDグリーンハードドライブで同じ種類のエラーが発生し、SATAケーブルが私のように見え、私はそれらをひどく疑っています。

接地の問題は適切な問題ではありません。コンポーネントは金属製のケースに正しく取り付けて接地する必要がありますが、すべてのコネクタとケーブルが100%正常であれば、これを行わなくても問題にはなりません。

もちろん、悪い電源はシステム全体に多くの悪いことをすることができます、私は新しいPSU ASAPで、できればすべてがまともなシャーシにマウントされた状態でテストします。

幸運を

2
Sérgio Gaspar

私は悪い地面が犯人である可能性があることに同意します。ただし、考えられる原因として過熱を検討してください。ドライブが触ると熱くなっている場合は、熱すぎます。それらにファンを置きます。

1
Chris Nava

S.M.A.R.T.の値を見て、過熱しているかどうかを確認できます。多くのホットスワップキャリアがプラスチックで接地されていないため、ケースの接地は不要です。SA​​TAケーブルによる接地は、それらがしっかりとマウントされていると、振動の問題を解決できます。ヘッドはプラッターに接触しませんが、少し上に乗ってプラッターに衝撃を与えると、小さな粒子が破壊され、最終的にヘッドがクラッシュする可能性があります。

1
disk guy

Ubuntuインストールを更新する必要があります。数か月(数年前)の前に、Ubuntuのインストールでハードドライブの磨耗を引き起こすバグが見つかりました。

この問題/バグについては、このリンクを確認してください: 一部のハードディスクでのロード/アンロードサイクルの頻度が高いと、寿命が短くなる可能性があります

0
cyclo

悪い地面があなたの貯蔵の悲劇の原因であるかもしれないことに私は同意します。ただし、振動は永久的な損傷を引き起こす可能性があるため、ハードディスクドライブをよりしっかりと「修正」します。

0
pistache

ドライブファンの電力を分割するパワースプリッターを確認します。コネクタが断続的であると、重要な瞬間にドライブの電源が切れてクラッシュする可能性があります。 MB、PSU、およびHDの間の強固な基盤のケースが間違いなく必要です。

0
Steve

(完全にシールドされていない)靴箱の横に大きなスピーカー、冷蔵庫、エアコン、電気モーター、またはその他の磁気源がありますか?

0
Console