web-dev-qa-db-ja.com

非常に長い間、GPUを100%の使用率に維持しても安全ですか?

現在、GPUであるNVIDIA GeForce GTX 1050 TiでCUDAを使用して数値計算を実行しています。これらの操作は完了するまでに数か月かかることが多く、その間、私は24時間年中無休でPCを離れます。

安全ですか? (最悪のシナリオ)火災の原因となる可能性のあるグラフィックカードの過熱の危険性はありますか?


PCは正しく換気されており、空気の流れを妨げるものがないことに注意してください。

49
Klangen

短い答え:これは、適切に設計されたハードウェアでは安全です。

長い答え:GPU(およびそのソフトウェア環境:ドライバー、OS、デーモン)は過熱から保護するように設計されています。GPUは、安全な温度を維持できない場合、最初にファンをより高いRPMに切り替える必要があります。ワークロード(通常はクロック周波数を下げることにより)。これにより、GPUに損傷を与えず、PC(または部屋)に損傷を与えない熱プロファイルが保証されます。

警告:ファームウェアはパフォーマンスの安全性を犠牲にするように特別に設計されている、安価な模造グラフィックカードが存在します。それらが1050に存在するとは思わないが、100%確実ではない。同じことを行う可能性のある「最適化された」ベンダードライバーよりも、WebサイトからダウンロードしたNvidiaドライバーを優先する必要があります。

57
Eugen Rieck

住宅火災が発生する可能性は非常に低いですが、カードの寿命が短くなる可能性があります。

GPUチップの長期的な過熱はおそらく火を起こしません。チップは劣化して誤動作を始めたり、完全に死ぬ可能性がありますが、シリコンチップは可燃性ではありません。電解コンデンサが故障して爆発した場合、通常、悪いことが起こりますが、カードが大量のクランチを実行しているため、これらが過熱することはありません。また、金属製のPCケースに、このような故障から生じる高温の破片を入れることもできます。 。

ただし、一般消費者向けの部品は、一般的に長期の24時間365日の負荷向けに設計されていません。したがって、カードがそのような負荷を受けない場合よりも早くカードが死ぬ可能性はかなりあります。与えられたモデルについて統計を追加しないと、どれほど早くそれを言うかは難しいです。 HPCコミュニティの一部の人々は、特別なHPCコンピューティングパーツの代わりにハイエンドのゲームGPUを使用することを提唱しており、その中には経済的な意味があるようです。商品の部品は1年ほどで死んでしまいますが、代替品よりも何倍も安いので、交換し続ける方が安価です。

11
TooTea

はい、カード一定の負荷がかかっている場合はすぐに消耗します。小さなジオメトリでは、 Electromigration はデバイス障害の重大な原因であり、デバイスは通常、特定のターゲット寿命を考慮して設計されます。これは、通常の操作(たとえば、5年間の連続操作)には寛大な場合がありますが、その間すべての最大操作点が100%であるとは限りません。オーバークロックを開始するとすぐに、そのターゲットが大幅に減少することが期待できます。 (同様に、わずか80%の負荷で実行すると、この障害メカニズムにより、寿命が2倍になる可能性があります)。

もちろん、コンポーネントの高温または熱サイクルに関連する他の障害もあります。これは、最新の電子機器(および1980年代の電子機器の設計が悪い場合でも)が「摩耗」しやすいことを指摘しているだけです。

7
Sean Houlihane

冷却システムが正常に動作し、ハードウェアがオンチ​​ップの温度監視やサーマルスロットリング/サスペンド/シャットダウンなどの漠然とした最新の設計であれば、完全に安全です。クーラーが作動し続ける限り、過熱することはできません。それが失敗した場合、チップは、受動的に消散することができるよりも多くの熱を生成しなくなるまでスロットルを戻します(つまり、完全に停止する必要があり、ハングのように見えます) /クラッシュ)。

最悪の場合、蓄積された熱負荷を補正するのに十分な速さで十分な速度でスロットルが作動しない場合、チップの一部が溶けたり燃え尽きたりして、ボードが死んでしまいますが、その時点までにスロットル回路が完全な緊急シャットダウンに突入し、おそらく電源レールの(一時的または永続的な)ヒューズをトリップさせて、ダイ全体の入力電圧全体のランダムなダンピングとランダムな実際の火災を防ぐ必要があります。

ありがたいことに、PCプラットフォームは、10〜15年前に、その種の熱保護システムのほとんどの問題を解決しました。その後、いくつかの中間世代のPIIIとAthlonがマイナースキャンダルで完全に自分自身を喫煙できることを証明しました。 CPUがフルティルトで動作しているときにクーラーが故障または脱落した場合。 1世代後のチップで、重いベンチマークの真ん中でヒートシンクとファンを切り離した場合、オーバークロックされたハイエンドプロセッサがヒートスプレッダー表面の最大定格温度をほとんど超えないことが簡単に示されます...コンピュータークロールが遅くなるか、「致命的な」(ソフトウェアにとってはハードウェアがHSFを交換して再起動するだけで済む)クラッシュが発生しましたが、チップは存続し、リスクは発生しませんでした。うまくいけば、その価値のあるすべてのGPUメーカーが、特に製品が既に定格制限にかなり近い温度で動作できる場合は、曲線から10年半遅れることはないでしょう。

ただし、これはこの種類の処理をチップ上のトランジスタに対して完全に「安全」にするわけではありません。 GPUを使用したヘビー級の「数値計算(ビットコイン?プロテインフォールディング?)」は、今や文字通りシリコンを使い果たすかなり悪名高い方法です。高電圧と電流の組み合わせ、毎秒数十億回の継続的なスイッチングに加えて、持続的な高温により、チップとコンデンサーのようなサポート部品の両方のコンポーネントにかなりのストレスがかかるため、動作寿命が一部でわずか2年に短縮される場合があります。ケース、少なくともフルスピードで。ディレーティング(最大クロック速度が制限されているなど)し、昨年のゲームのように要求の少ない目的で使用した場合、少し長く実行できますが、最大速度でエラーが発生し始めると借用時間になります。

だからそれは火につかないだろうが、私はその雇用の3歳の誕生日を過ぎてもまだ信頼できるカードに頼るつもりはない...

4
tahrey

あなたが述べたように、換気は良いので、この危険因子について心配する必要はありません。

GPUについて言えば、それはwill 1日8-16時間の通常のオフィスワークよりも強く着用されるため、100%24/7/365で使用する場合、unlikely5-10年以上働くことができます。ただし、GPUには、GPU自体の冷却システムの設計(PC全体ではない)、設計全体の不良、ソフトウェアとファームウェアのバグ、製造品質の不良、または重大度の異なる製造上の欠陥がある可能性があることも考慮する必要があります。欠陥率-単一インスタンスの欠陥から大規模な欠陥まで。これらの要因は、暖房を悪化させ、システム障害を引き起こし、寿命が短くなり、短絡したり、さらには発火したり、感電したりすることがあります。いくつかの要因はモデルとリビジョンに依存し、いくつかはソフトウェア/ファームウェアのアップデートで徐々に修正されています、いくつかは一つのアイテムから別のものに異なります。適切なリビジョン(通常は可能な限り最新のバージョン)で信頼性の評価が証明されているモデルを選択することをお勧めします。また、たとえば、余分な電気/電子信号ノイズを生成することにより、悪影響を及ぼし、他のコンポーネントに悪影響を与える可能性があります。また、サーマルペーストは徐々に品質を低下させ、冷却を悪化させる可能性があることを忘れないでください。

PCは複雑なシステムであり、正常に機能するかどうかは複数のコンポーネントの状態に依存するため、考慮すべきコンポーネントはグラフィックスカードだけではありません。 不要で未使用の不良コンポーネントであっても、フロッピードライブや装飾用のライトであっても PCが故障したり、GPUに関連する問題に近い問題が発生したりする可能性があります。たとえば、オン/オフボタンの不良により、シャットダウンまたは再起動が発生する場合があります。そして今、主要なコンポーネントについてより深く:

  • CPU:ユースケースでは、通常の日常の使用よりも難しくはなく、オーバークロックする必要はまったくない可能性があります。最近のCPUは、スロットルや緊急シャットダウンなどのすべての防御メカニズムを備えており、かなり耐久性があると見なされています。クーラーとサーマルペーストのことを忘れないでください。システムの最も弱い点はありそうもありません
  • マザーボード:CPUとほぼ同じですが、PCI-eが多用され、ディスク、ネットワーク、周辺機器も多用されますが、実績のあるモデルを選択することをお勧めします。
  • RAM:壊れる可能性は非常に低いので、このリスクは心配する価値がありません。良いものを使ってください。
  • ディスク:ディスクの使用に依存するタスク(データマイニング、データ処理、ディスク上のデータを使用したニューラルネットワークの学習など)では、HDDは信頼性の弱点になる可能性があります。サーバーやデータセンターでは、ディスクは1〜3年で、ごくまれに5年以上「生存」します。 RAID 1とバックアップシステムを使用して、24時間365日の使用で信頼性を高めることができます(RAID 0はパフォーマンスの信頼性を犠牲にします。他のRAIDはデータを復元するのに長い時間がかかる可能性があります。また、RAID!=バックアップなので、無視しないでください。バックアップ(必要な場合))。 SSDを使用する場合、ディスク書き込みに負荷のかかる操作は、テラバイト書き込み制限を使い果たし、ディスクを役に立たなくする可能性があります。他の機能よりもTBWを優先してください。 SSDを備えたRAID 1は、1つのディスクの突然の障害からシステムを防御できますが、TBWレートには役立ちません。 HDDまたはSSD-ニーズ、予算、および選択によって異なります。適切なリビジョン(通常は可能な限り最新のバージョン)で信頼性の評価が証明されているモデルを選択することをお勧めします。
  • パワーブロック:グラフィックスカードで頻繁に使用されるため、より集中的に着用されます-適切なリビジョン(通常は可能な限り最新)で信頼性が証明され、モデル全体のシステム消費量の1.5倍以上の電力を備えたモデルを選択してください。 (GPUおよびCPUとしての)主な電力消費量の2倍から2.5倍。 不良な220V ACケーブルは、短絡、電気的打撃または燃焼を引き起こす可能性があります(煙を発生させ、自己破壊するか、または本物の火災を起こす可能性があります)!のため、必ず良好な220V ACケーブルを使用してください!)= =
  • 換気装置:取るに足らないように思えるかもしれませんが、そのようなユースケースでは重要であり、その失敗は24時間年中無休のシステムにとって大きな問題です。一般的に、できるだけ多くインストールしますが、サイズも考慮してください。大きいものはより静かで効果的ですが、小さいものはより多くインストールできる場合があるため、1つの人工呼吸器の故障は、システム-選択はあなた次第です。
  • エキゾチックな冷却システム:水冷は高熱のオーバークロックシステムではコンパクトで効果的であると考えられていますが、水漏れはPCのコンポーネントに重大な損傷を与える可能性があります。冷凍窒素システムは非常に効果的ですが、必須ではない可能性がありますが、かさばり、高価です。

プロフェッショナルエンタープライズ24/7/365システムおよびコンポーネントは、そのために設計されており、CPUおよびBIOSを含むすべてのコンポーネントに予約があり、コンポーネントまたはモジュールのホット交換を備えていますが、100%の稼働時間を備えていません(閉じる同等ではありませんが)、専門のNvidiaカードはCUDA(特にニューラルネットワーク)の方が高速ですが、これはあなたの使用例ではないと思います。

システムの組み立ては、コンポーネント自体ほど重要ではありません。単一のアクションを忘れないでください、何かを間違えないでください、愚かなPCを作らないでください、そしてすべてがうまくいくはずです。

ソフトウェアが強制的にシャットダウン、PCを再起動、またはプロセスを強制終了しないことを確認してください。 Win10ユーザーの場合、更新を完全に無効にする方法はないと思われるかもしれませんが、そのための回避策とソフトウェアがWeb上にあります(警告:EULAに違反する可能性があります)。

PCのコンポーネントなど、周辺機器も問題を引き起こす可能性があります。たとえば、不良または摩耗したマウスは、ボタンが押されていないときにボタンの押下を登録できます。

主な外部状況について:

  • 電気:家の電気が非常に信頼でき、安定していることを願っています。電気をオフにすると作業結果が失われる可能性があるためです。 UPSは短時間の電気的な問題であなたを助けることができますが、より長い時間の問題では、システムを休止状態にするか、進行状況を正しく保存する時間しか与えられません。
  • ネットワーク:タスクがインターネットまたはネットワーク接続に依存している場合、wires/modem/routerに問題がないかどうかを確認します。

要約:すべてが良好であること(文字通り、死亡のみが保証される)の確実な保証はなく、とにかくリスクを受け入れる必要があります(それらのneverはゼロに等しくなります) )しかし、コンポーネントを適切に選択し、適切に組み立て、欠陥のあるコンポーネントを購入するのに不運がなければ、PCを低リスクで使用できるため、質問作成者は最初から想定していました5年、10年以上の信頼性を期待しています。

2
bpalij

非常に長い間、GPUを100%の使用率に維持しても安全ですか?

はい。たまにゲームをプレイするという目的に使用するよりも実際には安全です。

(電子機器の)ほとんどの摩耗は、温度変化による機械的ストレスに起因します。コンポーネントは異なる速度で加熱され、それらの熱膨張係数は異なります。したがって、すべての加熱、冷却サイクルにより、カードを引き裂こうとする力が発生し、多くの場合、微小な損傷が蓄積し、最終的には故障につながる可能性があります。心配しないでください、それは数十年かかるはずです。 (間違ったはんだを使用した悪名高い2006 nVidiaラップトップGPUとは異なり、障害はコンポーネントの寿命内で気付くのに十分なほど早く発生しました)

計算を開始して一定のレートで維持すると、サーマルサイクルなしでウォームアップしてそこに留まるため、実際にはカードへのストレスが少なくなります。

摩耗が増えるのはファンだけで、通常は交換が簡単です。

実際の100%使用率の計画について-100%は非効率的です。クリプトマイナーが私たちに教えた教訓から学んでください。あなたがカードを引き下げ、電圧を下げると、フロップは下がりますが、消費される電力はさらに下がります。ワットあたりのパフォーマンスが向上します。そしてさらに良い寿命。

0
Agent_L