web-dev-qa-db-ja.com

3ware9690SA-8Iでのアレイの再構築

TL; DRバージョン

  1. RAID10アレイは正常に動作しています
  2. メンテナンスの一環としてサーバーを再起動します
  3. アレイが動作不能(アクセスなし)
  4. コントローラのログには、1台のドライブが不良であると記載されています
  5. ドライブを取り外してテストします-不良セクタは見つかりませんでした
  6. 注意してください、ドライブを既知の良好なものと交換してください
  7. コントローラはアレイを新しいドライブに再構築しません
  8. ドライブに1つの障害が発生しただけでも、コントローラーによってRAID10アレイ全体にアクセスできなくなりました

そして今では長くて詳細なバージョン:

Ubuntu1110サーバーで実行されている3ware9690カードにRAID10(8x1T​​B)アレイがあります。

カーネルの更新があったので、再起動をスケジュールしました。その後、アレイにアクセスできなくなりました。アレイ内でドライブが停止したステータスを確認しましたが、コントローラーがアレイ全体を単に劣化させるのではなく、「動作不能」状態にしました(RAIDの現在のポイントは何ですか;-)。

「デッド」ドライブを取り出した後、簡単なテストを実行して、不良セクタが見つからずに完全に機能していることを確認します。

ドライブを元に戻そうとしましたが、アレイはまだディスクを劣化としてマークし(シリアル番号などを覚えていますか??)、アレイ全体を動作不能としてマークします...

それで、私はそれを既知の動作中のドライブ(同じ容量ではありませんが、より高い-それでも動作するはずです)と交換し、新しいドライブを交換として再構築を開始します。これは、エラー「(0x0B:0x0033):ユニットビジー:ユニット0での再構築の開始に失敗しました」で即座に失敗します。ユニットはマウントされていないため、ビジー状態であってはなりません(カード自体はlshwでリストされていますが、提供されるアレイはそうではありません)。

私は今、ほとんど行き詰まっています。RAID10で単一のドライブに障害が発生し、アレイ全体にアクセスできなくなったり、劣化したりして、理解できてもアクセスできなくなった場合、どうすればよいかわかりません。再起動前は完全に機能していたので、コントローラーに障害はないと思います。


> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
2
Tim Jones

LSIサポートとその第2レベルの技術者の1人に連絡して、アレイを通常の劣化状態にするためのスクリプトとファームウェアのハックを作成しました。
そこから、通常どおり、新しいディスクをアレイに結合して再構築することがビジネスでした。

0
Tim Jones