最近、Centos 6.4
からCentos 6.5
に移行しました。システムはDell T410 Tower
です。再起動するたびに、システムはポストを実行し、IPv4設定を渡し、次のことをアナウンスします。
PCIe Training Error: Slot 1
system halted
ここからctrl+alt+del
すると、同じエラーが発生します(毎回かなり確実です)。
Dell ESMログの表示:ビデオ後の一般的な障害
電源ボタンを押してから電源を入れると、システムは期待どおりに起動します。
スロット1には、システムが使用しているNICカードがあります。 (Centos 6.4の最初のインストール後、オンボードのBroadcom nicは速度と遅延の問題を引き起こし、ドライバーで解決しようとしましたが、運がなかったので、この他のnicカード(Realtekを使用)を追加しました。更新)
私はまだLinuxの初心者ですが、カーネルが次の画面までロードを開始するとは思わなかったので、これがカーネルに関連するとは思いませんでした。この時点では、kernel
である必要があるようです。
2.6.32-431.5.1.el6.x86_64
で同じ問題が発生し、さらにCIFSマウントの問題が発生したため、現在2.6.32-431.11.2.el6.x86_64
を実行していますが、ダウングレードで解消されました。
uname -r
2.6.32-431.5.1.el6.x86_64
rpm -qa kernel
kernel-2.6.32-358.23.2.el6.x86_64
kernel-2.6.32-431.5.1.el6.x86_64
kernel-2.6.32-358.el6.x86_64
kernel-2.6.32-431.11.2.el6.x86_64
kernel-2.6.32-358.14.1.el6.x86_64
再起動しても同じ結果が得られるかどうかを確認するために、さらに1を6.4カーネルに戻そうと考えていました。カーネルだけを以前のリリース(6.5-> 6.4)に戻そうとすると、どのような追加の問題が発生する可能性があるのかわかりません。他に理由がある場合は、そうすべきではありません。 BIOS(どこか)に停止メッセージの後で続行するオプションがあるかもしれないと思います...しかし、それを実行してエラーが発生した場合、nicが正しく機能しない可能性があります。
このサーバーは、ネットワーク上のほとんどのデスクトップのプロキシサーバーとして機能するため、電源を切って理論をテストできる時間枠は限られています。システムは現在正常に動作しているようです。手動で再起動しない限り、現在の状態では問題ないようですが、一体何が起こっているのかを知りたいと思います。
dmesg
スニペット:
udev: starting version 147
EDAC MC: Ver: 2.1.0 Feb 12 2014
bnx2: Broadcom NetXtreme II Gigabit Ethernet Driver bnx2 v2.2.3 (June 27, 2012)
alloc irq_desc for 36 on node -1
alloc kstat_irqs on node -1
bnx2 0000:01:00.0: PCI INT A -> GSI 36 (level, low) -> IRQ 36
bnx2 0000:01:00.0: setting latency timer to 64
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.0: eth0: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem da000000, IRQ 36, node addr a4:ba:db:12:39:24
alloc irq_desc for 48 on node -1
alloc kstat_irqs on node -1
bnx2 0000:01:00.1: PCI INT B -> GSI 48 (level, low) -> IRQ 48
bnx2 0000:01:00.1: setting latency timer to 64
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.1: eth1: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem dc000000, IRQ 48, node addr a4:ba:db:12:39:25
r8169 Gigabit Ethernet driver 2.3LK-NAPI loaded
alloc irq_desc for 41 on node -1
alloc kstat_irqs on node -1
r8169 0000:02:00.0: PCI INT A -> GSI 41 (level, low) -> IRQ 41
r8169 0000:02:00.0: setting latency timer to 64
alloc irq_desc for 62 on node -1
alloc kstat_irqs on node -1
r8169 0000:02:00.0: irq 62 for MSI/MSI-X
r8169 0000:02:00.0: eth2: RTL8168c/8111c at 0xffffc90000c76000, 00:e0:4d:1a:12:76, XID 1c2000c0 IRQ 62
r8169 0000:02:00.0: eth2: jumbo features [frames: 6128 bytes, tx checksumming: ko]
ACPI Error: No handler for Region [IPMI] (ffff8801ad4ec420) [IPMI] (20090903/evregion-319)
ACPI Error: Region IPMI(7) has no handler (20090903/exfldio-295)
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._GHL] (Node ffff8801ad4eb4c0), AE_NOT_EXIST
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._PMC] (Node ffff8801ad4eb560), AE_NOT_EXIST
ACPI Exception: AE_NOT_EXIST, Evaluating _PMC (20090903/power_meter-759)
システムのスロットに障害があるように聞こえるか、NIC自体が再起動時に問題が発生しています。ボードから電源が切断され、電源ボタンの再起動を開始すると、カードの状態は次のようになります。クリアされたので、この状態から正常に起動できます。
信じられないかもしれませんが、過去に「ウォーム」状態から抜け出すことはできないが、コールドブーツからは抜け出すことができるハードウェアで同様の問題が発生しました。
とにかく、私はハードウェアを後でではなく早く交換したいと思っています。
Dell PowerEdge T410オーナーズマニュアル を見ると、さまざまなエラーメッセージとその解決方法に関する提案が表示されます。
50ページからの抜粋
この表によると、私が提案したことに同意しているようです。システムの電源を切り、スロット1のNICをリセットして、エラー/問題が解決するかどうかを確認します。解決しない場合は、NICまたは、マザーボードのスロット#1に障害があります。