99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

適用于數(shù)據(jù)中心和 AI 時代的網(wǎng)絡

NVIDIA英偉達 ? 來源:未知 ? 2023-10-27 20:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

十多年來,傳統(tǒng)的云數(shù)據(jù)中心一直是計算基礎設施的基石,滿足了各種用戶和應用程序的需求。然而,近年來,為了跟上技術(shù)的進步和對 AI 驅(qū)動的計算需求的激增,數(shù)據(jù)中心進行了發(fā)展。本文探討了網(wǎng)絡在塑造數(shù)據(jù)中心的未來和推動 AI 時代方面發(fā)揮的關鍵作用。

專用數(shù)據(jù)中心:AI 工廠和 AI 云

目前正在涌現(xiàn)兩類不同的數(shù)據(jù)中心:AI 工廠和 AI 云。這兩類數(shù)據(jù)中心都是為滿足 AI 工作負載的獨特需求而定制的,其特點是都依賴于加速計算。

AI 工廠旨在處理大語言模型(LLM)和其他基礎 AI 模型等大規(guī)模算法模型,這些模型是構(gòu)建更先進 AI 系統(tǒng)的基礎模組。因此,為了實現(xiàn)擁有數(shù)千個 GPU 的集群可以無縫擴展和資源的高效利用,強大的高性能網(wǎng)絡勢在必行。

AI 云擴展了傳統(tǒng)云基礎設施的功能,以支持大規(guī)模生成式人工智能應用程序。生成式 AI 超越了傳統(tǒng)的 AI 系統(tǒng),它基于其訓練的數(shù)據(jù)創(chuàng)建新的內(nèi)容,例如圖像、文本和音頻。管理擁有數(shù)千名用戶的 AI 云需要高級管理工具和網(wǎng)絡基礎設施,以便高效處理各種工作負載。

AI 和分布式計算

AI 工作負載具有計算密集型,尤其是涉及 ChatGPT 和 BERT 等大型復雜模型的工作負載。為了加速模型訓練和對大量數(shù)據(jù)集的處理,AI 從業(yè)者已轉(zhuǎn)向分布式計算。這種方法涉及將工作負載分配到多個通過高速、低延時網(wǎng)絡連接的服務器節(jié)點上。

分布式計算是 AI 取得成功的關鍵,而網(wǎng)絡的可擴展性和處理越來越多節(jié)點的能力至關重要。高度可擴展的網(wǎng)絡使 AI 研究人員能夠利用更多的計算資源,從而更快、更出色地提升性能。

在為 AI 數(shù)據(jù)中心構(gòu)建網(wǎng)絡架構(gòu)時,必須優(yōu)先創(chuàng)建以分布式計算為核心的集成解決方案。需要數(shù)據(jù)中心架構(gòu)師必須認真考慮網(wǎng)絡設計,根據(jù)他們計劃部署的 AI 工作負載的獨特需求定制解決方案。

NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 是兩個專為應對 AI 數(shù)據(jù)中心的網(wǎng)絡挑戰(zhàn)而設計的網(wǎng)絡平臺,每個平臺都有自己獨特的功能和創(chuàng)新。

InfiniBand 提升 AI 性能

InfiniBand 技術(shù)一直是大規(guī)模復雜分布式科學計算部署應用的驅(qū)動力。它已成為 AI 工廠網(wǎng)絡的事實標準。憑借超低延遲,InfiniBand 已成為加速當今主流高性能計算(HPC)和 AI 應用的關鍵。高效 AI 系統(tǒng)所需的許多關鍵網(wǎng)絡功能均原生于 NVIDIA Quantum-2 InfiniBand 平臺。

InfiniBand 的網(wǎng)絡計算是將基于硬件的計算引擎集成到網(wǎng)絡中,利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)(一種網(wǎng)絡內(nèi)聚合機制)。SHARP 支持多個并發(fā)集合操作,可將數(shù)據(jù)帶寬翻倍,以增強集群性能,卸載大量復雜的計算到網(wǎng)絡上來。

InfiniBand 自適應路由能夠以最佳方式分散流量,從而緩解擁塞并提高資源利用率。在子網(wǎng)管理器的管理下,InfiniBand 會根據(jù)網(wǎng)絡條件選擇無擁塞的路由,從而在不影響數(shù)據(jù)包到達順序的情況下最大限度地提高效率。

InfiniBand 擁塞控制架構(gòu)可確保確定性帶寬和延遲。它使用三個階段來管理擁塞,從而防止 AI 工作負載中遇到性能瓶頸。

這些固有的優(yōu)化使 InfiniBand 能夠滿足 AI 應用的需求,最終實現(xiàn)卓越的性能和效率。

以太網(wǎng)中探索 AI 部署

為 AI 基礎架構(gòu)部署以太網(wǎng)產(chǎn)品首先需要滿足以太網(wǎng)協(xié)議的特定需求。但是,隨著時間的推移,為了滿足各種網(wǎng)絡場景的需求,以太網(wǎng)融入了非常廣泛而復雜的功能。

因此,開箱即用的傳統(tǒng)以太網(wǎng)并非專為高性能而設計。使用傳統(tǒng)以太網(wǎng)絡搭建的 AI 云只能實現(xiàn)部署了優(yōu)化過以太網(wǎng)絡的 AI 云所能實現(xiàn)的一小部分性能。

在多個 AI 作業(yè)同時運行的多租戶環(huán)境中,性能隔離對于防止性能降低至關重要。如果出現(xiàn)鏈路故障,傳統(tǒng)以太網(wǎng)可能會導致 AI 集群性能減半。這是因為傳統(tǒng)以太網(wǎng)主要針對日常企業(yè)工作流程進行了優(yōu)化,而不是為了滿足那些依賴于 NVIIDA Collective Communication Library(NCCL)的高性能 AI 應用程序的需求而設計的。

這些性能問題是由傳統(tǒng)以太網(wǎng)的固有因素造成的,包括:

  • 更高的交換機延時,在其他商用的 ASIC 競品中很常見

  • 分立的交換機 Buffer 架構(gòu),這可能會導致帶寬不公平

  • 負載均衡缺乏針對 AI 工作負載生成的大型流進行了二次優(yōu)化

  • 缺乏性能隔離而導致相鄰噪聲問題嚴重

Spectrum-X 網(wǎng)絡平臺解決了這些問題以及更多其他問題。Spectrum–X 基于標準以太網(wǎng)協(xié)議構(gòu)建,支持 RDMA over Converged Ethernet(RoCE)協(xié)議,可提高 AI 的性能。Spectrum-X 網(wǎng)絡平臺利用 InfiniBand 原生的最佳實踐,并為以太網(wǎng)帶來了自適應路由和擁塞控制等創(chuàng)新。

Spectrum-X 是唯一一款能夠為多租戶生成式 AI 云提供高效帶寬和性能隔離的以太網(wǎng)平臺,這得益于 Spectrum-4 和 NVIDIA BlueField-3 DPU。

總結(jié)

AI 時代已然來臨,而網(wǎng)絡是其成功的基石。為了充分發(fā)揮 AI 的潛力,數(shù)據(jù)中心架構(gòu)師必須仔細考慮網(wǎng)絡設計,并根據(jù) AI 工作負載的獨特需求定制這些設計。解決網(wǎng)絡問題是釋放 AI 技術(shù)潛力和推動數(shù)據(jù)中心行業(yè)創(chuàng)新的關鍵。

NVIDIA Quantum InfiniBand 憑借超低延時、可擴展性能和先進的功能集,成為 AI 工廠的理想選擇。而 NVIDIA Spectrum-X 則憑借專為 AI 打造的技術(shù)創(chuàng)新,為構(gòu)建基于以太網(wǎng)的 AI 云的組織提供了突破性解決方案。

掃描下方二維碼,查看更多有關NVIDIA Spectrum-X 的信息。

wKgZomU7qJyAdshbAAAC82xYpcM888.png

掃描下方二維碼,查看更多有關NVIDIA Quantum-2 InfiniBand 的信息。

wKgZomU7qJyAAjJmAAAC_QZti7Q336.png


wKgZomU7qJyAUftJAABAFFJlyZc645.gif ?

更多精彩內(nèi)容 新的 MLPerf 推理網(wǎng)絡部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡和 GPUDirect RDMA 的強大能力
借助 NVIDIA Spectrum 以太網(wǎng)最大限度地提高存儲網(wǎng)絡性能
使用 NVIDIA Spectrum-X 網(wǎng)絡平臺加速生成式 AI 工作負載


原文標題:適用于數(shù)據(jù)中心和 AI 時代的網(wǎng)絡

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3953

    瀏覽量

    93791

原文標題:適用于數(shù)據(jù)中心和 AI 時代的網(wǎng)絡

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    中型數(shù)據(jù)中心應用平臺與差分晶體振蕩器參數(shù)對照中型數(shù)據(jù)中心應用平臺與差分晶體振蕩器參數(shù)對照

    : FCO-5L-UJ 適用于高速傳輸,保障數(shù)據(jù)穩(wěn)定性。 多通道網(wǎng)絡接口: FCO-3L-UJ 支持HCSL差分輸出,適配以太網(wǎng)控制器。 室外邊緣網(wǎng)關: FCO-7L-PG 能應對極端環(huán)境下低功耗的時鐘輸出需求。 總結(jié)
    發(fā)表于 07-10 14:11

    小型數(shù)據(jù)中心晶振選型關鍵參數(shù)全解

    的準確傳輸。 芯片型號 Intel I350-AM4:適用于10GbE和1GbE的網(wǎng)絡接口卡,廣泛應用于數(shù)據(jù)中心網(wǎng)絡交換設備中。 Broa
    發(fā)表于 06-11 13:37

    華為面向亞太地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡方案

    在華為數(shù)據(jù)通信創(chuàng)新峰會2025亞太站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能”為主題的分
    的頭像 發(fā)表于 06-11 11:11 ?541次閱讀

    華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡

    近日,在華為數(shù)據(jù)通信創(chuàng)新峰會2025中東中亞站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能”
    的頭像 發(fā)表于 05-21 15:49 ?317次閱讀

    適用于數(shù)據(jù)中心AI時代的800G網(wǎng)絡

    ,成為新一代AI數(shù)據(jù)中心的核心驅(qū)動力。 AI時代的兩大數(shù)據(jù)中心AI工廠與
    發(fā)表于 03-25 17:35

    華為全新升級星河AI數(shù)據(jù)中心網(wǎng)絡

    在華為中國合作伙伴大會2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能”為主題的數(shù)據(jù)中心
    的頭像 發(fā)表于 03-24 14:46 ?478次閱讀

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    數(shù)據(jù)中心廣泛采用高速線纜布線方案來連接機架內(nèi)服務器。高速線纜采用無源銅纜,無需額外供電即可確保高質(zhì)量連接。該線纜有兩種連接類型:直連和分支,分別適用于OSFP和QSFP-DD封裝。 飛速(FS)800G
    發(fā)表于 03-24 14:20

    Cadence顛覆AI數(shù)據(jù)中心設計

    日前舉辦的英偉達 GTC 2025 開發(fā)者大會匯聚了眾多行業(yè)精英,共同探討人工智能的未來。而人工智能正在重塑全球數(shù)據(jù)中心的格局。據(jù)預測,未來將有 1 萬億美元用于 AI 驅(qū)動的數(shù)據(jù)中心
    的頭像 發(fā)表于 03-21 15:43 ?451次閱讀

    國產(chǎn)高性能物理層以太網(wǎng)PHY收發(fā)器適用于數(shù)據(jù)中心、智能計算等應用市場

    國產(chǎn)高性能物理層以太網(wǎng)PHY收發(fā)器適用于數(shù)據(jù)中心、智能計算等應用市場
    的頭像 發(fā)表于 12-26 09:58 ?805次閱讀
    國產(chǎn)高性能物理層以太網(wǎng)PHY收發(fā)器<b class='flag-5'>適用于</b><b class='flag-5'>數(shù)據(jù)中心</b>、智能計算等應用市場

    簡述數(shù)據(jù)中心網(wǎng)絡架構(gòu)的演變

    隨著全球?qū)θ斯ぶ悄埽?b class='flag-5'>AI)的需求不斷增長,數(shù)據(jù)中心作為AI計算的重要基礎設施,其網(wǎng)絡架構(gòu)與連接技術(shù)的發(fā)展變得尤為關鍵。
    的頭像 發(fā)表于 10-22 16:23 ?838次閱讀

    適用于實現(xiàn)VR13.HC Vccin規(guī)范的數(shù)據(jù)中心應用的負載點解決方案

    電子發(fā)燒友網(wǎng)站提供《適用于實現(xiàn)VR13.HC Vccin規(guī)范的數(shù)據(jù)中心應用的負載點解決方案.pdf》資料免費下載
    發(fā)表于 09-21 10:09 ?0次下載
    <b class='flag-5'>適用于</b>實現(xiàn)VR13.HC Vccin規(guī)范的<b class='flag-5'>數(shù)據(jù)中心</b>應用的負載點解決方案

    數(shù)據(jù)中心應用中適用于Intel Xeon Sapphire Rapids可擴展處理器的負載點解決方案

    電子發(fā)燒友網(wǎng)站提供《數(shù)據(jù)中心應用中適用于Intel Xeon Sapphire Rapids可擴展處理器的負載點解決方案.pdf》資料免費下載
    發(fā)表于 09-03 11:20 ?0次下載
    <b class='flag-5'>數(shù)據(jù)中心</b>應用中<b class='flag-5'>適用于</b>Intel Xeon Sapphire Rapids可擴展處理器的負載點解決方案

    數(shù)據(jù)中心應用中適用于Intel? Xeon? Sapphire Rapids可擴展處理器的負載點解決方案

    電子發(fā)燒友網(wǎng)站提供《數(shù)據(jù)中心應用中適用于Intel? Xeon? Sapphire Rapids可擴展處理器的負載點解決方案.pdf》資料免費下載
    發(fā)表于 08-26 09:54 ?2次下載
    <b class='flag-5'>數(shù)據(jù)中心</b>應用中<b class='flag-5'>適用于</b>Intel? Xeon? Sapphire Rapids可擴展處理器的負載點解決方案

    適用于符合VR13.HC VCCIN規(guī)范的數(shù)據(jù)中心應用的負載點解決方案

    電子發(fā)燒友網(wǎng)站提供《適用于符合VR13.HC VCCIN規(guī)范的數(shù)據(jù)中心應用的負載點解決方案.pdf》資料免費下載
    發(fā)表于 08-26 09:39 ?0次下載
    <b class='flag-5'>適用于</b>符合VR13.HC VCCIN規(guī)范的<b class='flag-5'>數(shù)據(jù)中心</b>應用的負載點解決方案

    適用于數(shù)據(jù)中心應用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案

    電子發(fā)燒友網(wǎng)站提供《適用于數(shù)據(jù)中心應用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案.pdf》資料免費下載
    發(fā)表于 08-26 09:38 ?0次下載
    <b class='flag-5'>適用于</b><b class='flag-5'>數(shù)據(jù)中心</b>應用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案