問題
最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候,沒有問題,過一會(huì)再訓(xùn)練出現(xiàn)非??D,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU的風(fēng)扇和電源報(bào)錯(cuò):
解決方案
自動(dòng)風(fēng)扇控制
在nvidia論壇有人給出了解決方案,即問題的根源可能是風(fēng)扇轉(zhuǎn)速不足使GPU過熱導(dǎo)致的。
首先開啟GPU的persistent mode,再設(shè)置風(fēng)扇的功率,重啟即可生效。其中250代表的是風(fēng)扇的最大功率限制,可以將其設(shè)置為最大,這樣過熱的時(shí)候風(fēng)扇就會(huì)自動(dòng)加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動(dòng)風(fēng)扇控制
此外,還可以將GPU風(fēng)扇的手動(dòng)風(fēng)速控制打開。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開所有g(shù)pu在xserver中的設(shè)置(不使用sudo可能無權(quán)限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:
如果機(jī)器上有多塊gpu,在第一步命令執(zhí)行后,會(huì)在這個(gè)xorg.conf中出現(xiàn)多個(gè)DeviceSection,都依次執(zhí)行第三步操作
重啟機(jī)器后,命令行執(zhí)行nvidia-settings,會(huì)打開設(shè)置界面,在其中的會(huì)顯示所有GPU的設(shè)置選項(xiàng),每個(gè)GPU控制選項(xiàng)下面都有一個(gè)Thermal settings,進(jìn)入后打開enable GPU Fan Setting即可對(duì)風(fēng)扇進(jìn)行手動(dòng)風(fēng)速調(diào)整了。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5299瀏覽量
106301 -
gpu
+關(guān)注
關(guān)注
28文章
4937瀏覽量
131178
發(fā)布評(píng)論請(qǐng)先 登錄
風(fēng)扇燈PCBA方案開發(fā)原理及介紹

利用NVIDIA技術(shù)構(gòu)建從數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
NVIDIA GPU助力科研人員探索外星世界
0xmd公司通過NVIDIA GPU打造醫(yī)療AI解決方案
NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案
NVIDIA推出GeForce RTX 50系列臺(tái)式機(jī)和筆記本電腦GPU
NVIDIA和GeForce RTX GPU專為AI時(shí)代打造
借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計(jì)算效率
《CST Studio Suite 2024 GPU加速計(jì)算指南》
Supermicro推出直接液冷優(yōu)化的NVIDIA Blackwell解決方案

AMD與NVIDIA GPU優(yōu)缺點(diǎn)

NVIDIA全面轉(zhuǎn)向開源GPU內(nèi)核模塊

評(píng)論