CUDAハードウェアQuadro 4000 Vとの違い。 GeForce 480

Question

私はワークステーションを構築していて、いくつかの重いCUDAプログラミングに入りたいと思っています。 Teslaカードの入手に全力を尽くしたくありません。Quadro4000とGeForce 480のどちらかにかなり絞り込んでいますが、違いはよくわかりません。紙では、480の方がコアが多いようです。 4000の480対256ですが、4000は480の価格のほぼ2倍です。より高い価格を正当化するために、誰かがここの違いを理解していますか？.

私はその上で科学計算を行うので、両者が異なる場合、すべてが倍精度になります。

pszilard · Accepted Answer

視覚化もレンダリングも（レイトレーシングなどの最終結果を画面に描画することも）気にしない場合、質問に対する答えは少し単純ですが、簡単ではありません。

QuadroカードとGeForceカードの違いについては詳しく説明しませんが、カードを選択する上で重要なポイントを強調します。

一般に：

TeslaやQuadroよりも多くのメモリが必要な場合。消費者向けカードのATMには最大1.5 Gb（GTX 480）が搭載されていますが、TeslasおよびQuadrosでは最大6 Gbです。
GF10xシリーズのカードは、倍精度（FP64）パフォーマンスが単精度（FP32）パフォーマンスの1/8に制限されていますが、アーキテクチャは1/2に対応しています。さらに別の市場セグメンテーショントリックは、今日、ハードウェアメーカーの間で非常に人気があります。 GeForceラインを不自由にすることは、TeslaラインにHPCでの利点を与えることを意図しています。 GTX 480は実際にはTesla 20x0より高速です-1.34TFlops対1.03 TFlops、177.4 Gb対144 Gb /秒（ピーク）。
TeslaとQuadroは（想定されている）より徹底的にテストされているため、ゲームではほとんど関係のないエラーが発生する可能性は低くなりますが、科学計算では、たった1ビットのフリップで結果が失われる可能性があります。 NVIDIAは、Teslaカードは24時間365日使用できるQC-dであると主張しています。

最近の論文（ Haque and Pande、Hard Data on Soft Errors：A Large-scale Assessment of Real-World Error Rate in GPGPU ））は、Teslaが実際にエラーを起こしにくいことを示唆しています。
私の経験では、GeForceカードは、特に一定の高負荷では信頼性が低くなる傾向があります。適切な冷却は非常に重要であり、工場でオーバークロッキングされたモデルを含むオーバークロックされたカードを回避することも重要です（前述のペーパーの図1を参照）。

したがって、経験則として：

開発用：GeForce（> 1.5 Gbのメモリが絶対に必要な場合を除く）
本番HPC /科学計算用：
- テスラ：大量のメモリまたはFP64が必要な場合（+信頼性？）
- QuadroFP64が必要な場合、および/または高度なレンダリング機能も必要な場合（新しい "Fermi" Teslasには、GeForceと同様のレンダリング機能があります）
  
  FP64を集中的に使用する場合は、GeForceを忘れてください。それ以外の場合
- **工場でオーバークロックされていない* GeForce *：お金を節約します;）

質問の詳細に戻ります。

あなたが言及する2枚のカードは完全に異なるリーグのものであり、そのため直接比較することはできません。 Quadroのレンダリング機能が必要な場合Quadroを取得します。それ以外の場合、Quadroは特に価値がありません。4000はGTX 460よりもさらに低速ですが、コストは3.5倍以上です。 GTX 470または480の方が良いと思います。標準の周波数のものを購入してください。

この比較では、不自由なGeForce倍精度のパフォーマンスは問題ではないことに注意してください。 Quadro 4000は、AFAIRのみの450 MHzシェーダーを備えたローエンドモデルであるため（リファレンスATMは見つかりませんが、513 MHzでクロックされる5000よりも明らかに低いはずです）、約115 GFlops FP64になります。同時に、キャップされたGTX 480は約168 GFlops FP64であり、GTX 460でさえ約113 GFlops（ピーク）です。
FPXのパフォーマンスとメモリ帯域幅の両方が、GTX 480に同時マッピングされたQuadro 4000でははるかに低い（86.9 vs 177.4 GB/s）！

理論上のピークパフォーマンスの観点から、GTX 480（データシート）は両方の Tesla C2050/2070 よりもかなり速いことに注意してください。 Quadro 6000 は、ほとんどのアプリケーションに反映されています。

johnthacker · Answer

上記以外のQuadro/Teslaカードには、いくつかの小さな利点があります。

ECCメモリ。ビットエラーが少ないという点に沿って、TeslaカードとハイエンドQuadros（.the 4000ではなく5000および6000）にはECCメモリが搭載されているため、ソフトエラーの発生率が低下します。
スロット数（および関連する電力と冷却の問題）。 Quadro 4000はシングルスロットカードです。 Quadro 2000は、シングルスロット3/4レングスカードです。 GeForce GTX 480、470、さらには460でもQuadro 4000を単精度で上回りますが、1つのスロットで見つけることはできません。つまり、1Uサーバーラックまたはブレードに配置する場合、またはGPGPU作業のために6台のGPUを1台のサーバーで並行して動作させたい場合、GeForceでは簡単ではない興味深いことができます。範囲。必要なブレードの数やラックスペースを大幅に削減できる場合は、個々のカードごとに追加料金を支払う価値があります。これはすべて、チップのビニングに関連しています。

確かに、これらの利点はほとんどの人にとって何の違いもありません。ただし、特定の用途では、それらは重要です。

Alexey · Answer

CUDAプログラミングの「プロフェッショナル」GPU（TeslaシリーズおよびQuadroシリーズ）に対する「ゲーマー」GPU（GTX 780などのGeForce GTXシリーズ）の利点は、次のとおりです。

GTXは単精度パフォーマンスが優れています
GTXはより高いメモリ帯域幅
GTXコストはるかに少ない

だが

QuadroとTeslaは通常、より多くのメモリ
QuadroとTeslaは、より良い倍精度パフォーマンスを提供します
一部のQuadro GPUは、（別の回答で述べたように）2つではなく1つのPCI-Eスロットしか使用しません。

明らかに、GPUの選択は、アプリケーションで必要なものに依存します。しかし、ほとんどのアプリケーションではGTXの方が適していると思います。たとえば、多くの画像処理アプリケーションでは、単精度で十分であり、パフォーマンスと価格を考慮すると、GTXの方が明らかに良い選択です。たとえば、OpenCV GPUライブラリの主な開発者によって書かれたこの記事で、著者はCPUに対する結果のベンチマークにNVidia GTX 580を使用しました。より良い倍精度のパフォーマンスまたはより多くのメモリが必要な場合は、QuadroまたはTeslaを使用するといいでしょう。

Drew Hall · Answer

仕様を見ても明らかではありませんが、倍精度が必要であることから、Quadro 4000の方が適していると考えられます。 GeForce 480はより多くのコアと2倍のメモリ帯域幅を備えていますが、その中心はゲーミングカードです。 Quadrosは専門的な仕事を対象としており、結果としてより適切にサポートされます。また、Quadroが64倍のアンチエイリアス（GeForceでは32倍）を実行できるという事実は、より高性能なカードを示唆しています。