web-dev-qa-db-ja.com

S.M.A.R.TとBadblocksの結果を解釈する方法

EBayで中古SSHD(Seagate Laptop SSHD --ST500LM000-1EJ162)を購入しました。 S.M.A.R.Tに関しては、ディスクが何らかの理由で破損している可能性がありますが、よくわかりません。 S.M.A.R.T値を正しく解釈するには、あなたの助けが必要です。

S.M.A.R.Tに関しては、Raw-Read-ErrorとSeek-Errorが大量にあります。私はこれまでこのトピックについて多くの異なるスレッドを読みましたが、これら2つの値を許可するために発生する必要のあるエラーの種類に関する標準化がないため、言及されたこれら2つの値はほとんど無関係であることがわかりました(Raw- Read-ErrorとSeek-Errorの)が発生します。これを決定するのはメーカーです-一般的に言って、SeagateはRaw-ReadとSeek-ErrorsのRAW値が高い傾向がありますが、WesternDigitalはこのセグメントのRAW値が低い傾向があります。この事実のために、これら2つの属性のRAW値を解釈しようとしても役に立たないことを読みました。代わりに、VALUEという名前の列をWORSTおよびTHRESHOLDと比較する必要があります。そして、ここで次の問題が発生します。これは逆です。THRESHOLDよりも高いVALUEが優先されます。

わかりやすくするために、以下のsmartctl -a /dev/sdb/スニペットをご覧ください。

 ID#ATTRIBUTE_NAMEフラグ値最悪のスレスタイプが更新されたときにRAW_VALUE 
 1 Raw_Read_Error_Rate 0x000f 120 099006事前失敗常に-237676480 

S.M.A.R.Tに関しては、RAW値が237676480のRaw_Read_Error_Rateがあります。これはそもそも危険に見えます。しかし、列VALUE WORST THRESHに関しては、actual(?)VALUEが120です。WORST-ケースは1回は099で、THRESH006を下回った場合はディスクが壊れていると見なされます。

同じことが再割り当てセクターにも当てはまります。THRESH値と比較して列値が低いほど、ディスクの状態は悪化します。

したがって、以下のS.M.A.R.Tスニペットに関しては、ディスクが何も再割り当てしたことはありません。

 ID#ATTRIBUTE_NAMEフラグ値最悪のスレッシュタイプが更新されたときにRAW_VALUE 
 5 Reallocated_Sector_Ct 0x0033 100 100010事前失敗常に-0 

ここで、Reported-Uncorrected-Error'sを見てみましょう。私が理解している限り、これらのエラーはカウントされます。ディスクが不良セクタの再割り当てに失敗し、その結果、そのようなセクタ内に保存されているデータが失われた場合は常にカウントされます。

 ID#ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 
 187 Reported_Uncorrect 0x0032 099 099 000 Old_age Always-1 

上記のS.M.A.R.Tスニペットに関して、ディスクにはその存続期間中に1つの未修正セクターがありました。 VALUE列とWORST列に関しては、ディスク障害について心配する必要はありません。

もう1つの属性は、Airflow-Temperature-Celです。まず、12年前のラップトップにディスクをインストールし、badblocksを実行してディスクをチェックしました。 badblocksが数時間実行されている間に、S.M.A.R.Tの温度値を確認したところ、列VALUEがWORSTに等しく、両方ともTHRESHを下回っていました。 RAW_VALUEとして、次のようなステートメントがありました。DISKIS FAILING。そこで、ラップトップの電源を切り、そのSSHDをホームサーバーにインストールして、空気の流れを改善し、badblocksを再起動することにしました。したがって、このSMART属性を今すぐ確認すると、WORST列は私のラップトップで前日に発生したケースを示し、VALUE列は実際の温度を示しています。VALUEとTHRESHを比較すると、温度は問題ありません。RAW_VALUEを解釈しようとするのは何かです。問題があります。ここにスニペットがあります

 ID#ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 
 190 Airflow_Temperature_Cel 0x0022 068 037 045 Old_age Always In_the_past 32(0 120 37 26 0 

大事なことを言い忘れましたが、私が生涯にわたってS.M.A.R.Tの出力で読んだことがないS.M.A.R.T情報がいくつかあり、これらをどのように解釈するかについての手がかりはまったくありません。

ディスクの電源投入時の有効期間でエラー4が発生しました:521時間(21日+ 17時間)
エラーの原因となったコマンドが発生したとき、デバイスはアクティブまたはアイドル状態でした。
 
コマンド完了後、レジスタは次のようになりました。
 ER ST SC SN CL CH DH 
 ------ --- ------ --- 
 04 71 03 80 04 11 40 
 
エラーの原因となったコマンドにつながるコマンドは次のとおりです。
 CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name 
 ---- --- --- --- -------------- -------- -------------------- 
 ea 00 00 00 00 00 00 00 00:13:30.508 FLUSH CACHE EXT 
 61 00 08 00 09 9c 40 00 00:13:30.507 WRITE FPDMA QUEUED 
 61 00 08 78 e1 42 40 00 00:13:30.507 WRITE FPDMA QUEUED 
 61 00 28 f0 44 9d 40 00 00:13:30.507 WRITE FPDMA QUEUED 
 61 00 08 00 6f 71 47 00 00:13:29.805 WRITE FPDMA QUEUED 
 
ディスク電源でエラー3が発生しました-生涯:519時間(21日+ 15時間)
エラーの原因となったコマンドが発生したとき、デバイスはアクティブまたはアイドル状態でした。
 
コマンド完了後、レジスタは次のとおりでした:
 ER ST SC SN CL CH DH 
 ------ --- ------ 
 04 51 00 a0 25 e7 06 
 
エラーの原因となったコマンドにつながるコマンドは次のとおりです。
 CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name 
 ---- --- --- --- ------------------ --------- ----------- 
 ea 00 00 00 00 00 00 00 00:11:47.000 FLUSH CACHE EXT 
 61 00 08 88 c4 a0 40 00 00:11:45.863書き込みFPDMAキュー
 60 00 08 40 d4 08 49 00 00:11:45.863読み取りFPDMAキュー
 61 00 08 00 09 9c 40 00 00:11:45.863書き込みFPDMAキュー
 60 00 12 19 47 5a 40 00 00:11:45.863 READ FPDMA QUEUED 
 
ディスクの電源投入時の有効期間でエラー2が発生しました:519時間(21日+ 15時間)
原因となったコマンドがエラーが発生した場合、デバイスはアクティブまたはアイドル状態でした。
 
コマンド完了後、レジスタは次のようになりました。
 ER ST SC SN CL CH DH 
 ---- --- ------ 
 40 51 00 40 d4 08 09エラー:WP at LBA = 0x0908d440 = 151573568 
 
エラーの原因となったコマンドにつながるコマンドは次のとおりです。
 CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name 
 ---- --- --- --- ------------------ --------- ----------- 
 61 00 08 78 e1 42 40 00 00:10:28.019書き込みFPDMAキュー
 61 00 08 e0 96 a0 40 00 00:10:27.914書き込みFPDMAキュー
 61 00 08 98 95 a0 40 00 00:10:27.914書き込みFPDMAキュー
 61 00 08 70 95 a0 40 00 00:10:27.914書き込みFPDMAキュー
 61 00 08 58 95 a0 40 00 00:10:27.914 WRITE FPDMA QUEUED 
 
ディスクの電源投入時の有効期間でエラー1が発生しました:426時間(17日+ 18時間)
エラーの原因となったコマンドが発生した場合、デバイスはアクティブまたはアイドル状態でした。
 
コマンド完了後、レジスタは次のとおりです。
 ER ST SC SN CL CH DH 
 ---- --- ------ 
 04 71 03 80 04 11 40 
 
エラーの原因となったコマンドにつながるコマンドは次のとおりです。 
 CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name 
 ------ ------。 ------ ------------------ -------------------- 
 ea 00 00 00 00 00 00 00 00:35:26.857 FLUSH CACHE EXT 
 61 00 08 00 09 9c 40 00 00:35:26.856 WRITE FPDMA QUEUED 
 61 00 08 ff ff ff 4f 00 00:35 :26.161 WRITE FPDMA QUEUED 
 61 00 08 ff ff ff 4f 00 00:35:26.161 WRITE FPDMA QUEUED 
 61 00 08 ff ff ff 4f 00 00:35:26.160 WRITE FPDMA QUEUED 
 

私がさまざまなフォーラムで読んだ投稿から、人々は事態が悪化し始める前にディスクを交換するようにアドバイスする傾向があります。また、数人の人々が、死ぬまで数年間そのようなディスクを使用できたとコメントしていることを読みました。私にとって、これは新しい土地です。これほど多くのエラーが発生したディスクはありませんでした。おそらく以前の所有者はそのディスクをうまく処理していませんでした。たとえば、ラップトップを大きく振ったり、SATAコネクタが完全に適合しなかったりして、エラーも発生しました。すでに述べたように、これらのパラメーターをどのように解釈するかについては、私にはわかりません。これは、このディスクを使って行う実験のようなものです。

badblocks -wvs -b 4096 -o badblox.result /dev/sdbでディスクをチェックしましたが、エラーはありませんでした-BADBLOCKSコマンドをコピーして貼り付けないでください!!!。しかし、badblocksを実行する前後のsmartctl -a /dev/sdbの結果を比較すると、Raw_Read_Error_RateとSeek_Error_Rateの数は大幅に増加しましたが、他のすべての属性値は同じままでした。以下のスニペットを確認してください。

badblocksを実行する前。

[。 

babdblocksが終了した後。

 ID#ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 
 1 Raw_Read_Error_Rate 0x000f 120 099 006 Pre-fail Always-237676480 
 7 Seek_Error_Rate 0x000f 059 0 

S.M.A.R.T出力全体をPastebinで確認できます:

だから私の質問は:

  • このディスクにはどのくらいの深刻な損傷がありますか?
  • Raw-ReadとSeek-Errorに関する私の解釈は正しいですか?
  • 再割り当てされたセクターがゼロであることは良いことですか?
  • 再割り当てされていないエラーが1つしかないことは、それほど悪くありませんか?
  • badblocksの実行時にエラーがゼロの場合は、ディスクの状態が良好であることを意味しますか?
  • エラー1からエラー4)をどのように解釈する必要がありますか?
  • 実際に実行されているセルフテストsmartctl -t long /dev/sdb以外に、これ以上テストを行う必要がありますか?
2
AlexOnLinux

非常に迅速に:

  • 生の値は何の意味もありません。それらはファームウェアごとに異なる可能性があり、特定のハードウェアにとって生の値が何を意味するかを正確に理解していない限り、それらを解釈しようとしないでください。明らかな場合もありますが(摂氏での温度)、そうでない場合もあります。

  • 値は100に標準化されており、低いほど悪いです。 100以上であれば、心配する必要はありません。 100未満の場合、ハードディスクは少し摩耗しています。それがしきい値に近づくか、その下に来ると、心配し始めます。

  • すべてのハードディスクに生の読み取りエラーがあります。これは、今日のドライブの高密度の結果であり、それが組み込みのエラー訂正の目的です。

  • だから:あなたの生の読み取り速度はうまく見えます。再割り当てされたセクター率は優れています。つまり、まだ深刻な事態は発生していません。いくつかの再割り当てされたセクターは心配する必要はありません。

  • 何らかの理由で温度が高すぎます。ハードドライブが適切に冷却されていることを確認してください。シークエラー率が高すぎます。これは、温度が高すぎて金属が少し膨張し、ヘッド位置が仕様から外れる可能性があるためです。

したがって、心配する必要があるのは、適切な冷却です。あなたがそれを機能させることができれば、シークエラーは下がるはずです、そしてあなたの代わりに私はハードディスクを保持します。 (しかし、もちろん、あなたはバックアップを行っていますね?)

編集

エラー1〜4は、ATAレイヤーで通信された最新の5つのエラーのログから発生します。通常、次のようなヘッダーが表示されます

SMART Error Log Version: 1
ATA Error Count: xxx (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]

したがって、ATA標準でコマンドと機能の値を調べて、何が起こったのかについての詳細を調べることができます。しかし、エラーが時々発生すること自体は心配する必要はありません。組み込みコントローラーは複雑で、ホストとの相互作用は複雑で、タイミングは複雑です。奇妙な状況が発生した場合、それがエラーを取得する1つの方法です。他の方法は、これらの奇妙な状況でのみトリガーされる組み込みコントローラーファームウェアのバグです。

エラーが頻繁に発生し、現在も発生し続けている場合にのみ、特にそれが常に同じエラーである場合は、心配する必要があります。

キャッシュフラッシュ後に3つのエラーが発生し、書き込み後に1つ発生しました(LBA =論理ブロックアドレス)。おそらく同じ問題の結果として、2つが一緒に発生し、そのために前の1つと後の1つが独立して発生しました。あなたの代わりに、私はそれらを完全に無視します:それらを引き起こしたものは何でも終わり、それは二度と起こりません。

3
dirkt