カフェ|チェックに失敗しました：エラー== cudaSuccess（2 vs. 0）メモリ不足

Question

Caffeでネットワークをトレーニングしようとしています。画像サイズは512x640です。バッチサイズは1です FCN-8s を実装しようとしています。

私は現在、これを4GBのGPUメモリを備えたAmazon EC2インスタンス（g2.2xlarge）で実行しています。しかし、ソルバーを実行すると、すぐにエラーがスローされます

Check failed: error == cudaSuccess (2 vs. 0) out of memory *** Check failure stack trace: *** Aborted (core dumped)

ここから先に進むのを手伝ってくれる人はいますか？

Shai · Accepted Answer

あなたが得るエラーは確かにメモリ不足ですが、それはRAMではなく、むしろGPUメモリです（エラーはCUDAに起因することに注意してください）。
通常、カフェがメモリ不足の場合-最初に行うことは（勾配精度を犠牲にして）バッチサイズを減らすことですが、すでにバッチサイズ= 1になっているため...
both TRAINフェーズとTESTフェーズのバッチサイズは1ですか？

Simon · Answer

Caffeは複数のGPUを使用できます。これはC++インターフェースでのみサポートされており、python oneではサポートされていません。また、メモリフットプリントを低くするためにcuDNNを有効にすることもできます。

https://github.com/BVLC/caffe/blob/master/docs/multigpu.md

Gokulakrishnan CANDASSAMY · Answer

以下の構成のPCでDeeplab v2を実行すると、同様の問題に直面していました。

---------- OS: Ubuntu 18.04.3 LTS (64-bit) ---------- Processor: Intel Core i7-6700k CPU @ 4.00 GHz x 8 ---------- GPU: GeForce GTX 780 (3022 MiB) ---------- RAM : 31.3 GiB ----------

テストバッチサイズとトレーニングバッチサイズの両方を1に変更しても、役に立ちませんでした。しかし、出力画像のサイズを変更しても、確かに変更されました。