web-dev-qa-db-ja.com

カフェ|チェックに失敗しました:エラー== cudaSuccess(2 vs. 0)メモリ不足

Caffeでネットワークをトレーニングしようとしています。画像サイズは512x640です。バッチサイズは1です FCN-8s を実装しようとしています。

私は現在、これを4GBのGPUメモリを備えたAmazon EC2インスタンス(g2.2xlarge)で実行しています。しかし、ソルバーを実行すると、すぐにエラーがスローされます

Check failed: error == cudaSuccess (2 vs. 0)  out of memory
*** Check failure stack trace: ***
Aborted (core dumped)

ここから先に進むのを手伝ってくれる人はいますか?

10

あなたが得るエラーは確かにメモリ不足ですが、それはRAMではなく、むしろGPUメモリです(エラーはCUDAに起因することに注意してください)。
通常、カフェがメモリ不足の場合-最初に行うことは( 勾配精度 を犠牲にして)バッチサイズを減らすことですが、すでにバッチサイズ= 1になっているため...
both TRAINフェーズとTESTフェーズのバッチサイズは1ですか?

16
Shai

Caffeは複数のGPUを使用できます。これはC++インターフェースでのみサポートされており、python oneではサポートされていません。また、メモリフットプリントを低くするためにcuDNNを有効にすることもできます。

https://github.com/BVLC/caffe/blob/master/docs/multigpu.md

2
Simon

以下の構成のPCでDeeplab v2を実行すると、同様の問題に直面していました。

----------
OS: Ubuntu 18.04.3 LTS (64-bit)
----------
Processor: Intel Core i7-6700k CPU @ 4.00 GHz x 8
----------
GPU: GeForce GTX 780 (3022 MiB)
----------
RAM : 31.3 GiB
----------

テストバッチサイズとトレーニングバッチサイズの両方を1に変更しても、役に立ちませんでした。しかし、出力画像のサイズを変更しても、確かに変更されました。