web-dev-qa-db-ja.com

lspciは「/ sys / bus / pci / devices / xxxxx / resourceを開けません:そのようなファイルまたはディレクトリはありません」を返します

MS Azure(NV6シリーズ)のUbuntu 16.10サーバーVMが突然、不明な理由(私の作業なし)で接続を停止し、再起動する必要があり、オンラインに戻ったときに使用できなくなりましたマシン上のGPU。

Nvidia-smiアプリケーションがフリーズします。

コマンドlspciは次を生成します

lspci: Cannot open /sys/bus/pci/devices/7ec1:00:00.0/resource: No such file or directory

そしてもちろん、そのパス(もうない?)は存在します。存在するのは

$: ls /sys/bus/pci/devices/
0000:00:00.0/    0000:00:07.0/    0000:00:07.1/    0000:00:07.3/    0000:00:08.0/    b717ec1:00:00.0/

一部のグーグル検索では、私のようないくつかの同様の質問が出されました。その多くは this one のように、過去24時間以内に尋ねられました。

これはUbuntuまたはAzureが原因である可能性がありますが、この問題の原因がどれなのか、またはどのように解決するのか分かりません。

誰にもアイデアはありますか?

1
larslovlie

私は同じ問題を抱えていました(Azure NC24インスタンスを使用)で数時間働いた後、この投稿を見つけ、Microsoftにサポートリクエストを送信することにしました。彼らが私に言ったことは次のとおりです。

CanonicalはUbuntu 16.04向けにカーネル4.4.0-75を最近リリースしたようで、これはNCシリーズVM上のTesla GPUに悪影響を及ぼしています。 4.4.0-75をインストールすると、これらのシステムでの使用が現在推奨されているNVIDIA CUDAドライバーの8.0.61-1バージョンが破損し、nvidia-smiがアダプターとlspciを表示せず、次のようなエラーが返されます。

root@pd-nvtest2:~# lspci lspci: Cannot open /sys/bus/pci/devices/2baf:00:00.0/resource: No such file or directory

OSドライブをバックアップして実行することをお勧めします

apt-get remove linux-image-4.4.0-75-generic

その後

update-grub

再起動すると動作するはずです!少なくともそれを行うとlspciの出力が修正され、CUDAの一部を修正する必要がありましたが、それは以前のデバッグの試みによるものです。

1
Chris Gorman

これは、Azure VMを停止(割り当て解除)してからVMを再度起動したことが原因である可能性があります。 [1]によると、ハードウェアIP(gpu、cpuなど)は、VMを停止(割り当て解除)してから再起動すると変更されます。しかし、Ubuntuシステムは、新しいハードウェア(gpu、cpuなど)のIPアドレス用に更新されていません。したがって、lspciは、ハードウェアIPアドレスに関連するフォルダーを開けないことを通知します。

[1] https://blogs.technet.Microsoft.com/gbanin/2015/04/22/difference-between-the-states-of-Azure-virtual-machines-stopped-and-stopped-deallocated /

0
Evan