面向 AI 基礎(chǔ)設(shè)施的液冷技術(shù)提升了數(shù)據(jù)中心和 AI 工廠的能效。
傳統(tǒng)上,數(shù)據(jù)中心依賴風(fēng)冷,也就是通過冷水機(jī)組循環(huán)輸送冷空氣來吸收服務(wù)器所產(chǎn)生的熱量,以使服務(wù)器保持最佳運(yùn)行狀態(tài)。但隨著 AI 模型的規(guī)模增加以及 AI 推理模型使用越來越廣泛,保持最佳運(yùn)行狀態(tài)不僅面臨更多困難、成本更昂貴,而且能耗也更大。
在數(shù)據(jù)中心內(nèi),每個(gè)機(jī)架的功率曾經(jīng)只有 20 千瓦,而在如今的超大規(guī)模設(shè)施內(nèi),每個(gè)機(jī)架的功率超過 135 千瓦。在這種情況下,高密度機(jī)架散熱的難度增加了一個(gè)量級。為了讓 AI 服務(wù)器保持峰值性能,就需要一種全新的散熱方法來提高能效和可擴(kuò)展性。
液冷技術(shù)是其中一個(gè)關(guān)鍵解決方案。通過減少對冷水機(jī)組的依賴并實(shí)現(xiàn)更高效的散熱,液冷技術(shù)正推動下一代高性能、高能效 AI 基礎(chǔ)設(shè)施的發(fā)展。
NVIDIA Grace Blackwell 機(jī)架式解決方案和 NVIDIA Grace Blackwell Ultra 機(jī)架式解決方案是機(jī)架級液冷系統(tǒng),專為要求嚴(yán)苛的任務(wù)而設(shè)計(jì),比如處理具有數(shù)萬億參數(shù)的大語言模型推理。它們的架構(gòu)還針對測試時(shí)擴(kuò)展的精度和性能進(jìn)行了專門優(yōu)化,使其成為運(yùn)行 AI 推理模型的理想選擇,同時(shí)還能有效地管理能源成本和散熱問題。
推動 AI 數(shù)據(jù)中心實(shí)現(xiàn)前所未有的用水效率提升和成本節(jié)約
過去,僅散熱冷卻一項(xiàng)就占數(shù)據(jù)中心用電量的 40%,這使其成為了提高能效、降低運(yùn)營成本和能源需求的關(guān)鍵因素之一。
液冷技術(shù)通過直接在熱源處吸收熱量,有助于降低成本和能耗。直接芯片(direct-to-chip)的液冷技術(shù)不再依賴空氣作為散熱媒介,而是通過技術(shù)冷卻系統(tǒng)回路傳遞熱量。這些熱量隨后通過液對液熱交換的液冷式換熱器而循環(huán)到冷卻液分配單元,最終轉(zhuǎn)移到設(shè)施冷卻回路中。由于這種熱傳遞的效率更高,數(shù)據(jù)中心和 AI 工廠可以在水溫更高的情況下有效地運(yùn)行,從而在許多氣候條件下可以減少甚至無需使用機(jī)械冷水機(jī)組。
NVIDIA Grace Blackwell 機(jī)架式解決方案機(jī)架級液冷系統(tǒng)基于 NVIDIA Blackwell 平臺構(gòu)建,在平衡能源成本和散熱的同時(shí),可提供卓越的性能。它將每個(gè)服務(wù)器機(jī)架的計(jì)算密度提升到了前所未有的高度,與傳統(tǒng)風(fēng)冷架構(gòu)相比,其營收潛力提高了 40 倍,吞吐量提高了 30 倍,能效提高了 25 倍,用水效率提高了 300 倍。對于基于 NVIDIA Blackwell Ultra 平臺構(gòu)建的 NVIDIA Grace Blackwell Ultra 機(jī)架式解決方案,其營收潛力更是提高了 50 倍,吞吐量提高了 35 倍,能效提高了 30 倍。
據(jù) CBRE 的一份報(bào)告,數(shù)據(jù)中心的年度支出大約為每兆瓦 190 萬至 280 萬美元,其中近 50 萬美元用于散熱相關(guān)的能源和水資源成本。通過部署液冷 NVIDIA Grace Blackwell 機(jī)架式解決方案,超大規(guī)模數(shù)據(jù)中心和 AI 工廠的成本可降至傳統(tǒng)方案的 1/25。對于一個(gè) 50 兆瓦的超大規(guī)模數(shù)據(jù)中心來說,每年可節(jié)約超過 400 萬美元。
對于數(shù)據(jù)中心和 AI 工廠運(yùn)營商而言,這意味著更低的運(yùn)營成本、更高的能效指標(biāo),以及面向未來的基礎(chǔ)設(shè)施,從而能夠高效地?cái)U(kuò)展 AI 工作負(fù)載,同時(shí)避免傳統(tǒng)散熱方法不可持續(xù)的水資源消耗問題。
將熱量排出數(shù)據(jù)中心
隨著計(jì)算密度上升以及 AI 工作負(fù)載產(chǎn)生前所未有的熱量負(fù)荷,數(shù)據(jù)中心和 AI 工廠必須重新思考如何從基礎(chǔ)設(shè)施中排出熱量。傳統(tǒng)散熱方法適用于可預(yù)測的 CPU 擴(kuò)展方案,但已經(jīng)無法獨(dú)立地滿足這種需求。如今,已有多種方法可以將熱量排出設(shè)施,但當(dāng)前和新興的部署方案主要采用了以下四大類方法。
主要散熱方法
機(jī)械冷水機(jī)組:機(jī)械冷水機(jī)組利用蒸汽壓縮循環(huán)來冷卻水,然后將冷卻后的水在數(shù)據(jù)中心內(nèi)循環(huán)以吸收熱量。這些系統(tǒng)通常采用風(fēng)冷或水冷方式,而水冷系統(tǒng)常與冷卻塔配合使用來散熱。雖然冷水機(jī)組在各種氣候條件下都可靠且有效,但其能耗極高。在極為重視能耗和可持續(xù)性的 AI 設(shè)施中,采用冷水機(jī)組會顯著影響運(yùn)營成本和碳排放量。
蒸發(fā)冷卻:蒸發(fā)冷卻利用水的蒸發(fā)來吸收和排出熱量,可通過直接、間接或混合系統(tǒng)實(shí)現(xiàn)。此類系統(tǒng)的能效遠(yuǎn)高于冷水機(jī)組,但耗水量大。在大型設(shè)施中,這些系統(tǒng)每年的每兆瓦用水量可能達(dá)到數(shù)百萬加侖。而且,其性能受氣候影響,在潮濕或水資源有限的地區(qū)效果較差。
干式冷卻器:干式冷卻器利用大型翅片管將封閉液體回路中的熱量散發(fā)到周圍空氣中(類似于汽車散熱器)。這些系統(tǒng)不依賴水,非常適合希望減少用水量或在干燥氣候下運(yùn)行的設(shè)施。然而,其效果在很大程度上取決于周圍空氣的溫度。在較熱的環(huán)境中,除非與能夠承受更高運(yùn)行溫度的液冷 IT 系統(tǒng)配合使用,否則干式冷卻器可能難以滿足高密度冷卻需求。
泵送制冷劑系統(tǒng):泵送制冷劑系統(tǒng)使用液體制冷劑將數(shù)據(jù)中心產(chǎn)生的熱量轉(zhuǎn)移到室外熱交換器。與冷水機(jī)組不同,這些系統(tǒng)無需在設(shè)施內(nèi)部署大型壓縮機(jī),且運(yùn)行過程中不消耗水。這種方法提供了一種熱力學(xué)效率高、緊湊且可擴(kuò)展的解決方案,尤其適用于邊緣部署和水資源有限的環(huán)境。雖然需要妥善處理和監(jiān)測制冷劑,但其在節(jié)能節(jié)水方面優(yōu)勢顯著。
這些方法各有優(yōu)勢,選擇時(shí)需考慮氣候、機(jī)架密度、設(shè)施設(shè)計(jì)和可持續(xù)發(fā)展目標(biāo)等因素。隨著液冷技術(shù)的普及以及服務(wù)器設(shè)計(jì)能夠適應(yīng)更高水溫,更高效、更環(huán)保的冷卻方案將逐漸變得可行,即在提升計(jì)算性能的同時(shí)還能降低能耗和用水量。
優(yōu)化面向 AI 基礎(chǔ)設(shè)施的數(shù)據(jù)中心
隨著 AI 工作負(fù)載呈指數(shù)級增長,運(yùn)營商們正在重新設(shè)計(jì)數(shù)據(jù)中心,構(gòu)建專為高性能 AI 和能效打造的基礎(chǔ)設(shè)施。無論是將整個(gè)設(shè)施轉(zhuǎn)變?yōu)閷S?AI 工廠,還是升級模塊化組件,優(yōu)化推理性能對于控制成本和提高運(yùn)營效率來說都至關(guān)重要。
為了實(shí)現(xiàn)最佳性能,僅配備高算力 GPU 是不夠的,這些 GPU 還需要能夠極速地相互通信。
NVIDIA NVLink 增強(qiáng)了 GPU 之間的通信,使它們能夠作為一個(gè)緊密集成的大規(guī)模處理單元運(yùn)行,在 120 千瓦的全機(jī)架功率密度下實(shí)現(xiàn)最高性能。這種緊密的高速通信對今天的 AI 任務(wù)至關(guān)重要,因?yàn)閿?shù)據(jù)傳輸每節(jié)省一秒都意味著更高的每秒 token 量和更高效的 AI 模型。
傳統(tǒng)風(fēng)冷方案難以應(yīng)對如此高的功率。為了滿足散熱需求,數(shù)據(jù)中心的空氣需要冷卻至冰點(diǎn)以下或以接近暴風(fēng)的速度流動才能帶走熱量,這使得僅靠空氣來冷卻高密度機(jī)架變得越來越不切實(shí)際。
液冷的密度幾乎是風(fēng)冷的 1000 倍,而且擁有卓越的熱容和熱導(dǎo)率,這使得液冷在散熱方面表現(xiàn)出色。通過有效地帶走高性能 GPU 產(chǎn)生的熱量,液冷減少了對噪音大、能耗高的冷卻風(fēng)扇的依賴,從而可將更多電力用于計(jì)算,而非散熱。
液冷技術(shù)的實(shí)際應(yīng)用
整個(gè)行業(yè)的創(chuàng)新者都正在利用液冷技術(shù)降低能源成本、提高密度并提升 AI 能效:
Vertiv 針對 NVIDIA Grace Blackwell 機(jī)架式解決方案服務(wù)器設(shè)計(jì)的參考架構(gòu)每年可降低 25% 的能耗,減少 75% 的機(jī)架空間需求,并降低 30% 的用電量。
施耐德電氣的液冷基礎(chǔ)設(shè)施支持的功率達(dá)到每個(gè)機(jī)架 132 千瓦,提高了 NVIDIA Grace Blackwell 機(jī)架式解決方案 AI 數(shù)據(jù)中心的能效、可擴(kuò)展性和整體性能。
CoolIT Systems 的高密度 CHx2000 液對液冷卻液分配單元在接近 5°C 的溫度下提供 2 兆瓦的冷卻能力,確保 NVIDIA Grace Blackwell Ultra 機(jī)架式解決方案部署實(shí)現(xiàn)可靠的散熱管理。此外,其采用專利分流技術(shù)的 OMNI 全金屬冷板可實(shí)現(xiàn)超過 4000 瓦熱設(shè)計(jì)功率的精準(zhǔn)冷卻,同時(shí)降低壓降。
Boyd 先進(jìn)的液冷解決方案融合了該公司在 HPC 行業(yè) 20 多年的經(jīng)驗(yàn),包含冷卻液分配單元、液冷回路和冷板,進(jìn)一步提高了高密度 AI 工作負(fù)載的能效和系統(tǒng)可靠性。
云服務(wù)提供商也正在積極地采用最先進(jìn)的冷卻和電力創(chuàng)新技術(shù)。下一代 AWS 數(shù)據(jù)中心采用聯(lián)合開發(fā)的液冷解決方案,在保持用水效率的同時(shí),其算力提高了 12%,能耗最多降低至原來的 46%。
為未來的 AI 基礎(chǔ)設(shè)施散熱
隨著 AI 不斷突破計(jì)算規(guī)模的極限,冷卻技術(shù)的創(chuàng)新對于應(yīng)對后摩爾定律時(shí)代的熱管理挑戰(zhàn)至關(guān)重要。
通過 COOLERCHIPS 等項(xiàng)目,NVIDIA 正在引領(lǐng)這場變革。COOLERCHIPS 項(xiàng)目致力于開發(fā)配備下一代散熱系統(tǒng)的模塊化數(shù)據(jù)中心,與傳統(tǒng)風(fēng)冷設(shè)計(jì)相比,其成本預(yù)計(jì)至少降低 5%,能效提高 20%。
展望未來,數(shù)據(jù)中心必須以可持續(xù)的方式滿足 AI 不斷增長的需求,在最大限度地提高能源和用水效率的同時(shí),盡可能減少對環(huán)境的影響。通過采用高密度架構(gòu)和先進(jìn)的液冷技術(shù),行業(yè)正在為未來更高效的 AI 發(fā)展鋪平道路。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5308瀏覽量
106346 -
服務(wù)器
+關(guān)注
關(guān)注
13文章
9791瀏覽量
87930 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5226瀏覽量
73501
原文標(biāo)題:散熱新突破:NVIDIA Blackwell 平臺將用水效率提升超 300 倍
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄

全球各大品牌利用NVIDIA AI技術(shù)提升運(yùn)營效率
NVIDIA Blackwell推動流式傳輸和數(shù)據(jù)分析的未來發(fā)展
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動的工程設(shè)計(jì)和科學(xué)應(yīng)用
英偉達(dá)GTC2025亮點(diǎn):NVIDIA Blackwell加速計(jì)算機(jī)輔助工程軟件,實(shí)現(xiàn)實(shí)時(shí)數(shù)字孿生性能數(shù)量級提升
NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構(gòu)技術(shù)解析
英偉達(dá)GTC25亮點(diǎn):NVIDIA Blackwell Ultra 開啟 AI 推理新時(shí)代
Supermicro提高NVIDIA Blackwell機(jī)架級解決方案產(chǎn)量
MediaTek與NVIDIA攜手打造GB10 Grace Blackwell超級芯片
Supermicro推出直接液冷優(yōu)化的NVIDIA Blackwell解決方案

評論