web-dev-qa-db-ja.com

Ryzenベースのシステム、16.04 LTS以降のカーネルでの定期的なフリーズ

Ryzen 1700X CPUを実行して計算を行っています。 16.04 LTS(カーネル4.10)の実行中に、時々システムがクラッシュします。システムは再起動しません。ディスプレイに信号が表示されず、キーボードとマウスが機能しません。 SSHで接続できません。

16.04 LTSの実行中に kern.log および syslog ファイルを保存しました。

いくつかの投稿を読み、新しいアーキテクチャと問題に関する問題を読んだ後、最近のカーネルを試すことにし、 here から4.12.8(2017年8月16日付け)に移行しました。これを使用して AskUbuntuに投稿 カーネルを更新しました。システムは正常に起動し、アプリケーションは約10時間正常に実行されました。

約11時間後、システムが再びクラッシュし、以下に示すように、16.04 LTSのカーネル4.10で見られるのと同じメッセージがsyslogに表示されました。 {カーネルお​​よびsyslogファイル、4.12カーネル: kern.log with new kernel and syslog with new kernel }

Aug 18 17:27:13 vriksha systemd[1]: Starting Cleanup of Temporary Directories...
Aug 18 17:27:13 vriksha systemd-tmpfiles[4661]: [/usr/lib/tmpfiles.d/var.conf:14] Duplicate line for path "/var/log", ignoring.
Aug 18 17:27:13 vriksha systemd[1]: Started Cleanup of Temporary Directories.
Aug 18 17:28:25 vriksha ntpd[1516]: 209.242.224.117 local addr 192.168.2.15 -> <null>
Aug 18 17:35:01 vriksha CRON[4821]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:35:40 vriksha systemd[1]: Started Session 5 of user vani.
Aug 18 17:42:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 17:42:18 vriksha sensord: Adapter: PCI adapter
Aug 18 17:42:18 vriksha sensord:   fan1: 1423 RPM
Aug 18 17:42:18 vriksha sensord:   temp1: 43.0 C
Aug 18 17:42:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 17:42:18 vriksha sensord: Adapter: ISA adapter
Aug 18 17:42:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 17:45:01 vriksha CRON[6142]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:55:01 vriksha CRON[6431]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:05:01 vriksha CRON[6607]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:09:52 vriksha kernel: [ 3459.913711] perf: interrupt took too long (2529 > 2500), lowering kernel.perf_event_max_sample_rate to 79000
Aug 18 18:12:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 18:12:18 vriksha sensord: Adapter: PCI adapter
Aug 18 18:12:18 vriksha sensord:   fan1: 1431 RPM
Aug 18 18:12:18 vriksha sensord:   temp1: 40.0 C
Aug 18 18:12:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 18:12:18 vriksha sensord: Adapter: ISA adapter
Aug 18 18:12:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 18:15:01 vriksha CRON[6785]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:17:01 vriksha CRON[6825]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Aug 18 18:25:01 vriksha CRON[6967]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

上記のメッセージの最後の行(syslog内)の後、システムがフリーズしました。再起動するには、リセットする必要がありました。これは、新しいカーネルで再び起こりました。

システムの詳細:

CPU-1700X Ryzen, No SMT, BIOS version- 3401 dated 12/08/2017 (AGESA 1071)
RAM 32 GB
AMD RX 470 GPU 
Lubuntu 16.04 LTS, LXDE with Openbox

誰か助けてくれますか。


更新

私が実行しているアプリケーションは、gccg++を使用していません。

  1. lspci出力は here です。

  2. dmesg | egrep 'drm|radeon'出力は ここ です

  3. (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)は、削除したsysstatパッケージに関連しています。問題はまだ存在します。

  4. glxinfo | grep -i open AMD RX 470 GPUの出力は以下のとおりです

    glxinfo | grep -i open 
    OpenGL vendor string: X.Org
    OpenGL renderer string: Gallium 0.4 on AMD POLARIS10 (DRM 3.15.0 / 4.12.8-041208-generic, LLVM 4.0.0)
    OpenGL core profile version string: 4.5 (Core Profile) Mesa 17.0.7
    OpenGL core profile shading language version string: 4.50
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 3.0 Mesa 17.0.7
    OpenGL shading language version string: 1.30
    OpenGL context flags: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.1 Mesa 17.0.7
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.10
    OpenGL ES profile extensions:
    
  5. このコンピューターにディスプレイを1つだけ接続しました。クラッシュは、CPUを集中的に使用するタスクを長時間実行した場合にのみ発生します。 (ディスプレイをオフにしてシステムを制御し、SSH接続から確認します。5〜6時間後、SSH接続は使用できなくなります。マシンに戻った後、マウスとキーボードを動かしてもディスプレイは表示されません。ハードリセットが必要です)。

  6. これがGPUによるものかどうかを確認するために、独自のドライバーをインストールしたnVidia GTX 1080に変更しましたが、同様の負荷がかかったままシステムがフリーズします。私はAMD GPUに戻りましたが、問題は解決しません。 GPUビルドタイプのため、この動作を除外します。 nVidiaカードの場合、glxinfo | grep -i open出力は次のとおりです。

    OpenGL vendor string: NVIDIA Corporation
    OpenGL renderer string: GeForce GTX 1080/PCIe/SSE2
    OpenGL core profile version string: 4.5.0 NVIDIA 384.81
    OpenGL core profile shading language version string: 4.50 NVIDIA
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 4.5.0 NVIDIA 384.81
    OpenGL shading language version string: 4.50 NVIDIA
    OpenGL context flags: (none)
    OpenGL profile mask: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.2 NVIDIA 384.81
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.20
    OpenGL ES profile extensions:
    
    1. BIOSをバージョン3401(12/08/2017、AGESA 1071)に更新しましたが、問題は解決しません。
5
ankit7540

私は同じ問題を抱えていました...この問題を解決するために私がしたこと:

性能:

Sudo cpufreq-set -r -g performance

起動時に設定:

Sudo apt-get install cpufrequtils
echo 'GOVERNOR="performance"' | Sudo tee /etc/default/cpufrequtils
Sudo systemctl disable ondemand
4
Omar Palaming

あなたと同じような問題がありました。 Ryzen 1800x

私はあなたにお勧めします:

SMTを再度有効にします-無効にする必要はありません。

現在の4.4.0-93であるUbuntu 16.04の通常の現在のカーネルに戻ります

BIOSですべての「省電力」グローバルCステートオプションを無効にします。

Cool n quietオプションも無効にします。

安定性のためにSoCの電圧を1.1に上げます。これが推奨されます。このビデオで述べられているように: https://www.hardocp.com/news/2017/05/01/how_to_stabilize_your_AMD_ryzen_memory_cpu_overclocking_attempts

上記の推奨事項は、CPUに負荷がかかっている場合、またはアイドリングしている場合に有効です。

AMD Webサイトから最新のAMDドライバーをダウンロードしてください。 「ソフトウェアとアップデート」の下の「追加ドライバー」から最新のオープンソースドライバーを試すこともできます。最初にこのオプションをお勧めします。

上記を行う前に、BIOSをデフォルトにリセットし、利用可能な新しいバージョンがあるかどうかを確認してください。

1
User08721