web-dev-qa-db-ja.com

別のディスクのUREによるMSA20RAID5リカバリの失敗

12個のディスクに1つのディスクアレイと3つのLUNを備えたMSA20があります(各RAID 5)。数日前、いずれかのLUNの1つのディスクに障害が発生し、交換しました。しかし、raid5の回復は13%で失敗し、ADUレポートで、ディスクの1つに「ErrorsLogged = 5566」があり、SCSI仕様によるとURE(Sense Code = 0x11、Qualifier = 0x00)であることがわかります。シリアルログには、UREエラーも表示されます。このため、Raid5を再構築できないようです。だから私はいくつかの質問があります:

  1. まだraid5を回復する方法はありますか?

  2. 交換した新しいディスクを残して、ディスクをUREで取り外すと、他のLUNが破壊されたり、LUNに障害が発生したりしますか?すべてのLUNに障害が発生した場合、2つの障害のあるディスクがすべてを破壊する可能性がある場合、1つのディスクグループアレイで独自のRAIDを使用して各LUNを作成する意味は何ですか?

  3. 私が理解しているように、好ましい方法は、将来、1つのLUNに対して1つのディスクアレイを作成することであり、LUNが少ない1つのアレイではありませんか?

ありがとう。

1
Andrey

1)この特定のアレイを回復できる可能性はほとんどありません。 RAIDはバックアップではありません。これは、バックアップが必要な多くの理由の1つです。

2)LUNの設定方法によって異なります。 3つの論理ユニットに分割された12個のディスクすべてを備えた1つのRAID5アレイがある場合、アレイがなくなったため、そのすべての論理ユニットがなくなっています。それぞれが4つのディスクを持つ3つの別々のRAID5アレイがある場合、これら2つのディスクを含むアレイのみがなくなり、他のアレイ(したがってそれらの論理ユニット)は問題ありません。

3)それはあなたが何をしたいかに大きく依存します。別々のディスクに別々のアレイを配置するのには十分な理由があるかもしれません。たとえば、負荷の高いアレイが他のアレイの速度を低下させないようにすることができます。アレイが同じ物理ディスク上にある場合、これを行うことはできません。または、負荷の高いアレイがすべてのディスクのすべての帯域幅を取得できるようにすることもできます。別々のディスクに別々のアレイがある場合、それはできません。

また、同じアレイに複数の論理ユニットを配置したい理由もあります。ファイルシステムを分離して、一方がいっぱいになってももう一方がいっぱいにならないようにすることができます。

すべての論理ユニットを1つのアレイに配置すると、失われるスペースが少なくなります。 12個の1TBディスク上の単一のRAID5アレイにより、11TBが使用可能になり、3つの等しい部分に分割されます(それぞれ3.6TB)。それぞれが4つの1TBディスクを備えた3つの個別のアレイを作成する場合、それぞれ3TBになります。したがって、サイズをトレードオフして信頼性を高めることができます。

どのような柔軟性があり、どのような影響があるかについての詳細は、コントローラーの詳細によって異なります。

そして、将来へのアドバイス:

  1. RAID6を検討してください。2台のドライブの障害に耐えることができます。

  2. アレイが定期的にテストされ、故障したドライブがすぐに交換されることを100%確認してください。これにより、劣化状態でのドライブ障害の可能性が大幅に減少します。

  3. RAIDはバックアップではありません。物理的に離れたデバイスへの定期的なバックアップを保持します。

バックアップされていないデータがある場合は、できるだけ多くのデータをすぐに回復するようにしてください。ただし、アレイをマウントすることすらできない場合は、専門家による復旧が唯一の希望です。

2
David Schwartz

1)回復する方法はありますか?

  • アレイの電源を切ります。
  • 各ディスクを1つずつ取り付け直します。
  • アレイの電源を再度入れます。故障したディスクのいずれかがオンラインになるかどうかを確認します。

障害が発生したボリュームの処理については、コントローラーの保守および管理ガイドに従ってください。

アレイの電源がオフになっている間に、故障したドライブのS.M.A.R.Tデータを確認します。ドライブは故障とマークされる場合がありますが、たとえば、データ再配置用に予約されたセクターが不足している場合は、引き続き読み取り可能です。

MSA1500csでは、リカバリ手順は メンテナンスおよびサービスガイド の第9章で説明されています。

フォールトトレランスが損なわれている場合、交換用のハードドライブを挿入しても、論理ユニットの状態は改善されません。応答しないLUNを再度有効にするか受け入れる手順は、アレイ構成ユーティリティ(ACU)またはMSAコマンドラインインターフェイス(MSA-CLI)で実行されます。

  1. すべてのI/Oアクティビティを停止します。

  2. システムの電源を切ります

  3. すべてのハードリバーとコントローラーを取り外してから、再度挿入します。

  4. システムの電源を入れます

    5.1。次のメッセージがLCDディスプレイに表示されているかどうかを確認します:

     02 ENABLE VOLUME <n>?  '<'=NO, '>'=YES
     04 ENABLE VOLUMES ? '<'=NO, '>'=YES
    

    5.2。 ACUを使用している場合:障害のある論理ドライブを再度有効にするを選択します

    5.3。 MSA-CLIを使用する場合:accept unitsを入力して、障害が発生したすべてのLUNを有効にします。

MSA-CLIがアレイを管理するための最も便利な方法だと思います。

2)交換した新しいディスクを残し、UREを使用してディスクを取り外すと、他のLUNが破壊されるのでしょうか、それとも単に障害が発生したのでしょうか?

これは、アレイの論理的な構成によって異なります。

これは、2つのディスクアレイに分割されたディスクシェルフの例です。 1つのディスクアレイには4つの論理ボリュームがあり、別のディスクアレイには2つの論理ボリュームがあります。

# hpacucli controller csn=sga0xxxx0f array all show
MSA1500 CS in MSA1500
array A
  logicaldrive 1 (2.0 TB, RAID 6 (ADG), OK)
  logicaldrive 10 (2.0 TB, RAID 5, OK)
  logicaldrive 11 (2.0 TB, RAID 5, OK)
  logicaldrive 12 (1.3 TB, RAID 5, OK)
array B
  logicaldrive 2 (2.0 TB, RAID 6 (ADG), OK)
  logicaldrive 4 (2.0 TB, RAID 6 (ADG), OK)

アレイAの2つのディスクに障害が発生すると、論理ドライブ10、11、および12に障害が発生します。論理ドライブ1はRAID6であるため、障害は発生しません。

3)私が理解しているように、好ましい方法は、将来、1つのLUNに対して1つのディスクアレイを作成することであり、LUNが少ない1つのアレイではありませんか?

場合によります。 LUNを薄く分散すると、すべてのドライブに負荷が分散されるため、パフォーマンスが向上する可能性があります。 LUNを異なるアレイに分離すると、パフォーマンスと信頼性の両方の観点からLUN間の干渉から保護されますが、コストがかかります。多くの場合、複数の小さなプールを使用するよりも、単一の大きなプールから任意のサイズのLUNを切り取る方が簡単です。

2
Dmitri Chubarov