web-dev-qa-db-ja.com

smartctl -aの出力について

NAS=ボックスに6台のドライブがあります。そのうちの2台はSeagateで、エラーのために高いRAW_VALUESを返します。以下を参照してください。

私の他のドライブははるかに低い値を示しています。

これは警報の原因ですか?それともシーゲイツが報告する方法ですか?

見る Raw_Read_Error_RateおよびSeek_Error_Rate

# smartctl -a /dev/ada1
=== START OF INFORMATION SECTION ===
Device Model:     ST3000DM001-9YN166
Serial Number:    W1F09S26
LU WWN Device Id: 5 000c50 0456076fc
Firmware Version: CC4C
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Sat Aug 18 17:34:24 2012 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                    90% of test remaining.
Total time to complete Offline 
data collection:        (  575) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    ( 255) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.
SCT capabilities:          (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   111   099   006    Pre-fail  Always       -       34053632
  3 Spin_Up_Time            0x0003   093   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       32
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   060   055   030    Pre-fail  Always       -       21480133713
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       2696
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       32
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   064   061   045    Old_age   Always       -       36 (Min/Max 34/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       28
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       63
194 Temperature_Celsius     0x0022   036   040   000    Old_age   Always       -       36 (0 19 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       43748536879750
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2867098636991
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       17478042509157

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 90%      2696         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
13
Dan

SeagateはSER(Seek_Error_Rate)を使用して2つの異なるカウンターをコーディングします。シークエラーカウントには16の上位ビットが使用され、シークカウントには32の下位ビットが使用されます。これらの2つのカウンターの読み取りを容易にするために、16進表示をお勧めします(6ニブル= 2はエラーカウント+ 4はシークカウント)。

RRER(Raw_Read_Error_Rate)はインクリメンタルカウンターを表示しませんが、-10 log(エラーセクターの数/ディスク上の合計ビット数)などの結果です。最小値と最大値があることを説明しています。最大値の近くに滞在することをお勧めします。

これについての詳細な説明はこちら: http://www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html

4
svt

私が今まで見たすべてのSeagateドライブは、これら2つのフィールドの奇妙な生の値を報告します。

実行できることの1つは、ユーティリティ(およびドライブ)が内部的に行うのと同じことです。しきい値に対して正規化された値をチェックします。値がしきい値に下がると、属性は失敗(または失敗)として報告されます。

もう1つのことは、Seagateドライブをもう1つ購入しないことです。私はこのルートに行きました、そして彼らがファームウェアを書くことを学ぶまで、私は別のものを購入しません。

3
Michael Hampton

セルフテストの結果は非常に信頼できるものであり、結果は自明です(最後の1回の実行が失敗したか、成功したか)。

ベンダー固有のさまざまな属性はそれだけです。それらを解釈するための標準化された方法は実際にはありません(smartmonツールがこれらの値の解釈を含むドライブデータベースを維持するのはこのためです)。ここにフラグがあれば、多くの意味の説明を見つけることができます: http://en.wikipedia.org/wiki/S.M.A.R.T.#Known_ATA_S.M.A.R.T._attributes

この線 SMART overall-health self-assessment test result: PASSEDは、その下に印刷され、変換され、正規化され、ドライブデータベースによって指定されたしきい値から取得されます。

正規化された値の場合、通常は低い方が良いですが、すべてのフラグがそれ自体が機械的な障害の前兆となるものを示すわけではありません(しきい値のあるものはより可能性が高いです)。修正不可能な読み取りエラー、スピンアップの失敗などのようなものは、おそらく指標です。

これらの結果から、ドライブは良好な状態にあるように見えます。

3
Falcon Momot

私の箱のsmartctl manページは、その作者の1人へのリンクを提供します Linux Journalの記事 ;特に、リスト3はsmartctl -aの出力を説明しています。

それは10年以上前のものですが、読んでもまだ関連性があり、信頼できる説明を提供しています。

1
sxc731

私が行うことは、読み取りhweccをチェックしてエラー率を探すことです。また、再配置または保留中のセクターが存在しないことを確認します。最初の3つの#を取得した後、ドライブとの間で大量のコピーを行い、#をもう一度確認します。彼らが大幅に上がらなければ、私はドライブに目を離さない。彼らが撃たれた場合、私はベンダーに電話し、rmaを取得するために何をしなければならないかを確認します。

私は23441590読み取りエラー206428348シークと27659067 eccの3歳のドライブを持っています。それは時間あたりに動力を与えられたそれ。私の5.5年前のドライブには0 0 687123415 eccがあります。スマートな故障は、恐ろしい早期警告システムですが、この数字はドライブを監視するために使用できます。発生する前にスマートな予測障害が発生するドライブはほとんどありません。また、私の3歳のドライブはシーゲイトであり、5年間はシーゲイトです。シーゲイトは熱くなっています。

もう1つのことは、ドライブのベンチマークを時々保存することです。 hdd tuneはWindowsの良い例です。スワップファイルがないドライブで実行したり、グラフから起動したりすると、読み取りに問題のある領域があるかどうかがわかります。最近のドライブでは、読み取り速度が50mb +から25mb程度まで階段状になっていることがよくあります。急激な落ち込みがある場合は、その領域に弱いセクターまたは不良セクターがある可能性があります。ドライブのベンチマークを毎月または3か月間維持している場合は、何かが突然起こった場合に良い考えを持つことができます。 D4xx緯度は良い例です。ドライブコントローラーが失敗し始めると、読み取り速度は5MB程度から始まり、時々10MBを超えて急上昇するため、それらのドライブが原因で常にドライブがrma'dされていました。ただし、テストするときは、他に何もドライブを使用していないことを確認するために、Bartpeディスクなどから起動する必要がある場合があります。

私はしばしばこれらの結果とhddチューンなどを使用して、ドライブが完全に死ぬ前にドライブにrmaを取得します。

1
Kendrick