web-dev-qa-db-ja.com

再起動時にシステムが停止し、期待どおりにシャットダウンして再起動します

最近、Centos 6.4からCentos 6.5に移行しました。システムはDell T410 Towerです。再起動するたびに、システムはポストを実行し、IPv4設定を渡し、次のことをアナウンスします。

PCIe Training Error: Slot 1

system halted

ここからctrl+alt+delすると、同じエラーが発生します(毎回かなり確実です)。

Dell ESMログの表示:ビデオ後の一般的な障害

電源ボタンを押してから電源を入れると、システムは期待どおりに起動します。

スロット1には、システムが使用しているNICカードがあります。 (Centos 6.4の最初のインストール後、オンボードのBroadcom nicは速度と遅延の問題を引き起こし、ドライバーで解決しようとしましたが、運がなかったので、この他のnicカード(Realtekを使用)を追加しました。更新)

私はまだLinuxの初心者ですが、カーネルが次の画面までロードを開始するとは思わなかったので、これがカーネルに関連するとは思いませんでした。この時点では、kernelである必要があるようです。

2.6.32-431.5.1.el6.x86_64で同じ問題が発生し、さらにCIFSマウントの問題が発生したため、現在2.6.32-431.11.2.el6.x86_64を実行していますが、ダウングレードで解消されました。

uname -r
2.6.32-431.5.1.el6.x86_64

rpm -qa kernel 
kernel-2.6.32-358.23.2.el6.x86_64 
kernel-2.6.32-431.5.1.el6.x86_64 
kernel-2.6.32-358.el6.x86_64 
kernel-2.6.32-431.11.2.el6.x86_64 
kernel-2.6.32-358.14.1.el6.x86_64

再起動しても同じ結果が得られるかどうかを確認するために、さらに1を6.4カーネルに戻そうと考えていました。カーネルだけを以前のリリース(6.5-> 6.4)に戻そうとすると、どのような追加の問題が発生する可能性があるのか​​わかりません。他に理由がある場合は、そうすべきではありません。 BIOS(どこか)に停止メッセージの後で続行するオプションがあるかもしれないと思います...しかし、それを実行してエラーが発生した場合、nicが正しく機能しない可能性があります。

このサーバーは、ネットワーク上のほとんどのデスクトップのプロキシサーバーとして機能するため、電源を切って理論をテストできる時間枠は限られています。システムは現在正常に動作しているようです。手動で再起動しない限り、現在の状態では問題ないようですが、一体何が起こっているのかを知りたいと思います。

dmesgスニペット:

udev: starting version 147
EDAC MC: Ver: 2.1.0 Feb 12 2014
bnx2: Broadcom NetXtreme II Gigabit Ethernet Driver bnx2 v2.2.3 (June 27, 2012)
  alloc irq_desc for 36 on node -1
  alloc kstat_irqs on node -1
bnx2 0000:01:00.0: PCI INT A -> GSI 36 (level, low) -> IRQ 36
bnx2 0000:01:00.0: setting latency timer to 64
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.0: eth0: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem da000000, IRQ 36, node addr a4:ba:db:12:39:24
  alloc irq_desc for 48 on node -1
  alloc kstat_irqs on node -1
bnx2 0000:01:00.1: PCI INT B -> GSI 48 (level, low) -> IRQ 48
bnx2 0000:01:00.1: setting latency timer to 64
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.1: eth1: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem dc000000, IRQ 48, node addr a4:ba:db:12:39:25
r8169 Gigabit Ethernet driver 2.3LK-NAPI loaded
  alloc irq_desc for 41 on node -1
  alloc kstat_irqs on node -1
r8169 0000:02:00.0: PCI INT A -> GSI 41 (level, low) -> IRQ 41
r8169 0000:02:00.0: setting latency timer to 64
  alloc irq_desc for 62 on node -1
  alloc kstat_irqs on node -1
r8169 0000:02:00.0: irq 62 for MSI/MSI-X
r8169 0000:02:00.0: eth2: RTL8168c/8111c at 0xffffc90000c76000, 00:e0:4d:1a:12:76, XID 1c2000c0 IRQ 62
r8169 0000:02:00.0: eth2: jumbo features [frames: 6128 bytes, tx checksumming: ko]
ACPI Error: No handler for Region [IPMI] (ffff8801ad4ec420) [IPMI] (20090903/evregion-319)
ACPI Error: Region IPMI(7) has no handler (20090903/exfldio-295)
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._GHL] (Node ffff8801ad4eb4c0), AE_NOT_EXIST
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._PMC] (Node ffff8801ad4eb560), AE_NOT_EXIST
ACPI Exception: AE_NOT_EXIST, Evaluating _PMC (20090903/power_meter-759)
2
webaholik

システムのスロットに障害があるように聞こえるか、NIC自体が再起動時に問題が発生しています。ボードから電源が切断され、電源ボタンの再起動を開始すると、カードの状態は次のようになります。クリアされたので、この状態から正常に起動できます。

信じられないかもしれませんが、過去に「ウォーム」状態から抜け出すことはできないが、コールドブーツからは抜け出すことができるハードウェアで同様の問題が発生しました。

とにかく、私はハードウェアを後でではなく早く交換したいと思っています。

編集#1

Dell PowerEdge T410オーナーズマニュアル を見ると、さまざまなエラーメッセージとその解決方法に関する提案が表示されます。

50ページからの抜粋

ss #1

この表によると、私が提案したことに同意しているようです。システムの電源を切り、スロット1のNICをリセットして、エラー/問題が解決するかどうかを確認します。解決しない場合は、NICまたは、マザーボードのスロット#1に障害があります。

1
slm