99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Spectrum-X網(wǎng)絡(luò)平臺(tái)助力提升AI存儲(chǔ)性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-02-15 11:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 工廠依靠的不僅僅是計(jì)算網(wǎng)。當(dāng)然,連接 GPU 的東西向網(wǎng)絡(luò)對(duì)于 AI 應(yīng)用的性能至關(guān)重要,而連接高速存儲(chǔ)陣列的存儲(chǔ)網(wǎng)也不容忽視。存儲(chǔ)性能在運(yùn)行 AI 業(yè)務(wù)過程中的多個(gè)階段中發(fā)揮著關(guān)鍵作用,包括訓(xùn)練過程中的 Checkpoint 操作、推理過程中的檢索增強(qiáng)生成(RAG)等。

為了滿足這些需求,NVIDIA 和存儲(chǔ)生態(tài)合作伙伴正在將NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)擴(kuò)展到數(shù)據(jù)存儲(chǔ)網(wǎng),從而帶來更高的性能和更快的實(shí)現(xiàn) AI 的時(shí)間。由于 Spectrum-X 動(dòng)態(tài)路由技術(shù)能夠緩解網(wǎng)絡(luò)中的流量沖突并增加有效帶寬,從而使存儲(chǔ)性能遠(yuǎn)高于 RoCE v2,RoCE v2 是大多數(shù)數(shù)據(jù)中心用于 AI 計(jì)算網(wǎng)和存儲(chǔ)網(wǎng)的以太網(wǎng)網(wǎng)絡(luò)協(xié)議。

Spectrum-X 將讀取帶寬加速了高達(dá) 48%,寫入帶寬加速了高達(dá) 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲(chǔ)相關(guān)的操作,從而縮短訓(xùn)練業(yè)務(wù)的完成時(shí)間,并降低推理過程中的 Token 分配延遲。

Spectrum-X 的主要存儲(chǔ)合作伙伴

隨著 AI 工作負(fù)載的規(guī)模和復(fù)雜性不斷增加,存儲(chǔ)解決方案也必須不斷發(fā)展,以跟上現(xiàn)代 AI 工廠的需求。DDN、VAST Data?和WEKA?等領(lǐng)先的存儲(chǔ)供應(yīng)商正與 NVIDIA 合作,利用 Spectrum-X 集成和優(yōu)化其解決方案,為 AI 存儲(chǔ)網(wǎng)帶來先進(jìn)的功能。

Spectrum-X 對(duì) Israel-1 超級(jí)計(jì)算機(jī)的大規(guī)模影響

NVIDIA 已經(jīng)搭建了生成式 AI 超級(jí)計(jì)算機(jī) Israel-1,用于對(duì)各種 AI 網(wǎng)絡(luò)解決方案進(jìn)行預(yù)測(cè)試和驗(yàn)證以優(yōu)化 Spectrum-X 性能和簡(jiǎn)化網(wǎng)絡(luò)部署。這使 Israel-1 成為測(cè)試 Spectrum-X 如何影響存儲(chǔ)工作負(fù)載的良好平臺(tái),展示了網(wǎng)絡(luò)在現(xiàn)實(shí)的超級(jí)計(jì)算機(jī)運(yùn)行狀態(tài)下對(duì)存儲(chǔ)性能的影響。

為了了解 Spectrum-X 對(duì)存儲(chǔ)網(wǎng)絡(luò)的影響,Israel-1 團(tuán)隊(duì)測(cè)量了從 NVIDIA HGX ?GPU 服務(wù)器客戶端訪問存儲(chǔ)時(shí)的讀寫帶寬。該測(cè)試(Flexible I/O Tester 基準(zhǔn)測(cè)試)在將網(wǎng)絡(luò)配置為標(biāo)準(zhǔn) RoCE v2 網(wǎng)絡(luò)的情況下執(zhí)行一次,然后在啟用 Spectrum-X 的動(dòng)態(tài)路由和擁塞控制后重新運(yùn)行。

這些測(cè)試使用了不同數(shù)量的 GPU 服務(wù)器作為客戶端運(yùn)行,覆蓋了從 40 個(gè) GPU 到 800 個(gè) GPU。在所有的測(cè)試中,Spectrum-X 都表現(xiàn)得更好。讀帶寬提升幅度在 20%到 48%之間,寫帶寬提升幅度在 9%到 41%之間,這些結(jié)果與 DDN、VAST?和 WEKA?等生態(tài)合作伙伴測(cè)到的加速性能一致。

存儲(chǔ)網(wǎng)絡(luò)性能對(duì)于 AI 性能至關(guān)重要

要想知道 Spectrum-X 為何會(huì)帶來如此大的影響,需要先了解存儲(chǔ)在 AI 業(yè)務(wù)中的重要性。AI 性能不僅僅受大語言模型(LLM)每一步完成時(shí)間的影響,還與許多其他因素有關(guān)。例如,由于模型訓(xùn)練通常需要幾天、幾周或幾個(gè)月才能完成,因此設(shè)置 Checkpoint 或保存部分訓(xùn)練模型的中間結(jié)果到存儲(chǔ)非常重要,通常需要每隔幾個(gè)小時(shí)操作一次。這意味著,萬一系統(tǒng)出現(xiàn)問題,訓(xùn)練進(jìn)度不會(huì)丟失。

對(duì)于具有數(shù)十億至數(shù)萬億參數(shù)的模型,這些 Checkpoint 的狀態(tài)變得越來越大,現(xiàn)在最大型 LLM 模型會(huì)生成高達(dá)數(shù) TB 的數(shù)據(jù),保存數(shù)據(jù)或恢復(fù)數(shù)據(jù)會(huì)產(chǎn)生多條“大象流”,這些突發(fā)的大象流,可能會(huì)淹沒交換機(jī)的緩沖和鏈路,所以網(wǎng)絡(luò)必須保證為訓(xùn)練工作負(fù)載提供最佳利用率。

檢索增強(qiáng)生成(RAG)是另一個(gè)存儲(chǔ)網(wǎng)可以影響工作負(fù)載性能的例子,借助 RAG,LLM 與不斷增長(zhǎng)的知識(shí)庫相結(jié)合,為模型添加特定領(lǐng)域的上下文,從而提供更快的響應(yīng)時(shí)間,而無需額外的模型訓(xùn)練或微調(diào)。RAG 的工作原理是獲取額外的內(nèi)容或知識(shí),并將其嵌入到向量數(shù)據(jù)庫中,從而使其成為可搜索到的知識(shí)庫。

輸入推理提示時(shí),系統(tǒng)會(huì)解析(嵌入)提示并搜索數(shù)據(jù)庫,檢索到的內(nèi)容會(huì)向提示添加上下文,以幫助 LLM 制定最佳答案。向量數(shù)據(jù)庫是多維的,可能非常龐大,尤其是由圖像和視頻組成的知識(shí)庫。

這些數(shù)據(jù)庫通過存儲(chǔ)網(wǎng)連接到推理節(jié)點(diǎn),網(wǎng)絡(luò)必須確??焖?a target="_blank">通信以盡可能降低延遲。對(duì)于多租戶生成式 AI 工廠而言,這一點(diǎn)變得尤為重要,因?yàn)檫@些工廠每秒要處理大量的查詢。

存儲(chǔ)中動(dòng)態(tài)路由和擁塞控制的應(yīng)用

Spectrum-X 平臺(tái)引入了 InfiniBand 網(wǎng)絡(luò)上的關(guān)鍵創(chuàng)新技術(shù),例如RoCE Adaptive Routing(動(dòng)態(tài)路由)和RoCE Congestion Control(擁塞控制)。NVIDIA 通過采用這些創(chuàng)新技術(shù)并將其與存儲(chǔ)網(wǎng)相結(jié)合,提高了存儲(chǔ)工作負(fù)載的性能和網(wǎng)絡(luò)利用率。

動(dòng)態(tài)路由

為了消除大象流之間的碰撞并減輕 Checkpoint 過程中產(chǎn)生的網(wǎng)絡(luò)流量,動(dòng)態(tài)路由可以對(duì)于網(wǎng)絡(luò)上的流進(jìn)行逐包的動(dòng)態(tài)負(fù)載平衡,Spectrum-4 以太網(wǎng)交換機(jī)根據(jù)實(shí)時(shí)擁塞狀況來選擇擁塞最低的路徑。由于數(shù)據(jù)包被噴灑到整個(gè)網(wǎng)絡(luò)中,到達(dá)目的地時(shí)它們可能會(huì)出現(xiàn)亂序,在傳統(tǒng)的以太網(wǎng)下,這將需要重新傳輸許多數(shù)據(jù)包。

借助 Spectrum-X,接收端主機(jī)里的 SuperNIC 或數(shù)據(jù)處理器(DPU)知道數(shù)據(jù)包的正確順序,可以在主機(jī)內(nèi)存中按序放置數(shù)據(jù)包,從而使動(dòng)態(tài)路由對(duì)應(yīng)用程序透明。這可提高網(wǎng)絡(luò)利用率,為 Checkpoint、數(shù)據(jù)獲取等實(shí)現(xiàn)更高的有效帶寬以及提供可預(yù)測(cè)、一致的結(jié)果。

擁塞控制

Checkpoints 和其它存儲(chǔ)操作通常會(huì)導(dǎo)致 Incast 擁塞,也稱為多對(duì)一擁塞。當(dāng)多個(gè)客戶端嘗試向單個(gè)存儲(chǔ)節(jié)點(diǎn)寫入數(shù)據(jù)時(shí),就會(huì)出現(xiàn)這種情況。Spectrum-X 引入了一種基于遙測(cè)的擁塞控制技術(shù),使用交換機(jī)中硬件遙測(cè)技術(shù)來通知 SuperNIC 或 DPU,以降低發(fā)送端的數(shù)據(jù)注入速率(即 RDMA 寫和讀)。從而防止出現(xiàn)擁塞熱點(diǎn),這些熱點(diǎn)可能會(huì)反向傳播,導(dǎo)致相鄰作業(yè)或進(jìn)程受到擁塞的不公平影響。

增強(qiáng)彈性

由于 AI 工廠通常由大量交換機(jī)、線纜和收發(fā)器組成,任何鏈路中斷都可能導(dǎo)致網(wǎng)絡(luò)性能的大幅下降,因此網(wǎng)絡(luò)彈性對(duì)于維護(hù)基礎(chǔ)設(shè)施的健康至關(guān)重要。Spectrum-X 全局動(dòng)態(tài)路由可在鏈路中斷時(shí)實(shí)現(xiàn)優(yōu)化、快速的重新收斂,從而充分利用存儲(chǔ)網(wǎng)。

NVIDIA 全棧集成

除了 Spectrum-X 為存儲(chǔ)網(wǎng)帶來的創(chuàng)新之外,NVIDIA 還提供并推薦使用多種 SDK、庫和軟件產(chǎn)品,以加速存儲(chǔ)到 GPU 數(shù)據(jù)通路,其中包括但不限于以下內(nèi)容:

NVIDIA Air:一款基于云的網(wǎng)絡(luò)仿真工具,用于對(duì)交換機(jī)、SuperNIC 和存儲(chǔ)進(jìn)行建模,可加速 Day 0、Day 1 和 Day 2 對(duì)于存儲(chǔ)網(wǎng)的操作。

NVIDIA Cumulus Linux:基于自動(dòng)化部署和 API 構(gòu)建的網(wǎng)絡(luò)操作系統(tǒng),可確保大規(guī)模網(wǎng)絡(luò)的平穩(wěn)運(yùn)營(yíng)和管理。

NVIDIA DOCA:面向 NVIDIA SuperNIC 和 DPU 的 SDK,可在存儲(chǔ)、安全等方面提供出色的可編程性和性能。

NVIDIA NetQ:一款網(wǎng)絡(luò)驗(yàn)證工具集,集成了交換機(jī)遙測(cè)技術(shù),可提供網(wǎng)絡(luò)的實(shí)時(shí)可見性。

NVIDIA GPUDirect Storage:一項(xiàng)在存儲(chǔ)和 GPU 顯存之間建立直接數(shù)據(jù)路徑的技術(shù),可提高數(shù)據(jù)傳輸效率。

開始使用 Spectrum-X

隨著模型越來越大,數(shù)據(jù)走向更多的多模態(tài),存儲(chǔ)將一直是生成式 AI 訓(xùn)練和操作的關(guān)鍵要素。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106412
  • 網(wǎng)絡(luò)平臺(tái)

    關(guān)注

    0

    文章

    20

    瀏覽量

    8150
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279979

原文標(biāo)題:NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)和合作伙伴提升 AI 存儲(chǔ)性能達(dá) 48%

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    下降。 InfiniBand助力AI性能提升AI工廠中,InfiniBand網(wǎng)絡(luò)技術(shù)因
    發(fā)表于 03-25 17:35

    英偉達(dá)GTC2025亮點(diǎn):NVIDIA認(rèn)證計(jì)劃擴(kuò)展至企業(yè)存儲(chǔ)領(lǐng)域,加速AI工廠部署

    ,現(xiàn)在已將企業(yè)存儲(chǔ)納入其中,旨在通過加速計(jì)算、網(wǎng)絡(luò)、軟件和存儲(chǔ)助力企業(yè)更高效地部署 AI 工廠。 在企業(yè)構(gòu)建
    的頭像 發(fā)表于 03-21 19:38 ?1095次閱讀

    英偉達(dá)GTC2025亮點(diǎn):NVIDIA與行業(yè)領(lǐng)先存儲(chǔ)企業(yè)共同推出面向AI時(shí)代的新型企業(yè)基礎(chǔ)設(shè)施

    存儲(chǔ)提供商構(gòu)建搭載 AI 查詢智能體的基礎(chǔ)設(shè)施,利用 NVIDIA 計(jì)算、網(wǎng)絡(luò)和軟件,針對(duì)復(fù)雜查詢進(jìn)行推理并快速生成準(zhǔn)確響應(yīng) NVIDIA
    的頭像 發(fā)表于 03-21 09:42 ?666次閱讀

    NVIDIA推出全新硅光網(wǎng)絡(luò)交換機(jī)

    NVIDIA 今天推出了 NVIDIA Spectrum-XNVIDIA Quantum-X 硅光
    的頭像 發(fā)表于 03-20 14:52 ?478次閱讀

    NVIDIA 與行業(yè)領(lǐng)先的存儲(chǔ)企業(yè)共同推出面向 AI 時(shí)代的新型企業(yè)基礎(chǔ)設(shè)施

    :即企業(yè)存儲(chǔ)平臺(tái),搭載由 NVIDIA 加速計(jì)算、網(wǎng)絡(luò)和軟件驅(qū)動(dòng)的 AI 查詢智能體。 ? NVIDIA
    發(fā)表于 03-19 10:11 ?244次閱讀
    <b class='flag-5'>NVIDIA</b> 與行業(yè)領(lǐng)先的<b class='flag-5'>存儲(chǔ)</b>企業(yè)共同推出面向 <b class='flag-5'>AI</b> 時(shí)代的新型企業(yè)基礎(chǔ)設(shè)施

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?721次閱讀
    使用<b class='flag-5'>NVIDIA</b>推理<b class='flag-5'>平臺(tái)</b>提高<b class='flag-5'>AI</b>推理<b class='flag-5'>性能</b>

    NVIDIA向開放計(jì)算項(xiàng)目捐贈(zèng)Blackwell平臺(tái)設(shè)計(jì)

    近日,在美國(guó)加利福尼亞州舉行的 OCP 全球峰會(huì)上,NVIDIA 宣布已把 NVIDIA Blackwell 加速計(jì)算平臺(tái)的一些基礎(chǔ)元素捐贈(zèng)給開放計(jì)算項(xiàng)目(OCP),并擴(kuò)大 NVIDIA
    的頭像 發(fā)表于 11-19 15:30 ?663次閱讀

    賴耶科技通過NVIDIA AI Enterprise平臺(tái)打造超級(jí)AI工廠

    NVIDIA 技術(shù)團(tuán)隊(duì)保持合作。賴耶科技通過NVIDIA AI Enterprise平臺(tái)打造的超級(jí) AI 工廠,致力于加速大模型場(chǎng)景應(yīng)用
    的頭像 發(fā)表于 11-19 14:55 ?1115次閱讀

    NVIDIA助力xAI打造全球最大AI超級(jí)計(jì)算機(jī)

    NVIDIA 宣布,xAI 位于田納西州孟菲斯市的Colossus 超級(jí)計(jì)算機(jī)集群達(dá)到了 10 萬顆 NVIDIA Hopper GPU 的巨大規(guī)模。該集群使用了NVIDIA Spectru
    的頭像 發(fā)表于 10-30 11:38 ?889次閱讀

    NVIDIA Colossus超級(jí)計(jì)算機(jī)集群突破10萬顆Hopper GPU

    的強(qiáng)大實(shí)力。 Colossus集群不僅規(guī)模龐大,更采用了NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)。該平臺(tái)專為多租戶、超大規(guī)模的
    的頭像 發(fā)表于 10-30 10:29 ?642次閱讀

    NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級(jí)計(jì)算機(jī)

    市的 Colossus 超級(jí)計(jì)算機(jī)集群達(dá)到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡(luò)
    發(fā)表于 10-30 09:33 ?357次閱讀
    <b class='flag-5'>NVIDIA</b> 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 <b class='flag-5'>AI</b> 超級(jí)計(jì)算機(jī)

    NVIDIA新增生成式AI就緒系統(tǒng)認(rèn)證類別

    借助全新的 NVIDIA Spectrum-X Ready 和 NVIDIA IGX 認(rèn)證,領(lǐng)先的制造業(yè)合作伙伴將提供高性能系統(tǒng),幫助客戶輕松部署
    的頭像 發(fā)表于 10-10 09:44 ?803次閱讀

    淺析以太網(wǎng)的發(fā)展走勢(shì)

    本月,NVIDIA創(chuàng)始人兼CEO黃仁勛在COMPUTEX 2024發(fā)表了主題演講,宣布NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)已被業(yè)
    的頭像 發(fā)表于 09-19 11:50 ?1140次閱讀

    簡(jiǎn)單認(rèn)識(shí)NVIDIA網(wǎng)絡(luò)平臺(tái)

    NVIDIA Spectrum-X800 平臺(tái)是業(yè)界第一代 800Gb/s 的以太網(wǎng)網(wǎng)絡(luò)平臺(tái),包括了 N
    的頭像 發(fā)表于 09-09 09:22 ?813次閱讀

    應(yīng)用NVIDIA Spectrum-X網(wǎng)絡(luò)構(gòu)建新型主權(quán)AI

    法國(guó)云服務(wù)提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái) 構(gòu)建區(qū)域性 GPU 集群,為用戶提供
    的頭像 發(fā)表于 07-26 18:58 ?1484次閱讀