99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

是德科技如何應對AI數據中心擴展瓶頸

是德科技KEYSIGHT ? 來源:是德科技KEYSIGHT ? 2025-07-11 14:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

三項創(chuàng)新首度公開!構建高效 AI 數據中心,從網絡仿真開始

AI 正以前所未有的速度重塑數據中心架構。每秒數萬億字節(jié)的訓練流量、數千 GPU 的并行通信,讓傳統(tǒng)測試方法陷入瓶頸——GPU 閑置、網絡擁塞、訓練失敗屢見不鮮。

AI 創(chuàng)新,正在重構數據中心基礎架構

近幾年,多模態(tài)學習、多智能體系統(tǒng)(Multi-agent Systems,MAS)和高速 GPU 互聯技術快速發(fā)展,推動 AI 應用在醫(yī)療、氣候建模、金融等多個領域實現飛躍。這些突破也帶來了前所未有的挑戰(zhàn),對網絡速度、吞吐量及計算性能的要求正持續(xù)飆升。

742df2d2-5c54-11f0-baa5-92fbcf53809c.png

圖 1. AI 正迎來技術爆發(fā)的關鍵轉折點,未來三年各項硬件標準與性能將實現跨代躍升。

動輒數十萬美金,AI 數據中心成本遠高于傳統(tǒng)數據中心架構

一臺 AI 訓練服務器通常配備 8 塊 GPU,總成本超過 40 萬美元。而這還不包括電力、冷卻、高速光互聯等運維成本,占運營支出的 30% 至 50%。

此外,每個 AI 模型的云端存儲成本,每月可能高達 1,000 至 10,000 美元。

模型訓練往往動輒耗時數周甚至數月,任何縮短訓練周期的機會都意味著數百萬美元的 GPU 運算資源釋放。

但問題來了:你的基礎設施是否真正高效,能支撐這樣的提速?

三大核心挑戰(zhàn),阻礙 AI 數據中心擴展

#挑戰(zhàn)一:

AI 流量密集度遠超傳統(tǒng)應用

AI 訓練負載需要在數千顆 GPU 之間高速傳輸 TB 級數據,通信模式集中且延遲敏感。例如,集合通信(如 all-to-all)容易引發(fā)入流擁塞,導致某些數據流延遲,從而拖慢整個訓練任務。網絡性能的關鍵不再是“平均帶寬”,而是“最長傳輸時間”。

如圖 2 所示,即使大多數 GPU 數據流能在 150 毫秒內完成,只要存在一個延遲至 190 毫秒的節(jié)點,整個算法執(zhí)行也必須等到這最后一個完成,最終總耗時拉長至 190 毫秒。

7445bb10-5c54-11f0-baa5-92fbcf53809c.png

圖 2. 即使大多數數據傳輸迅速,少數延遲較高的流也會決定 AI 訓練任務的整體完成時間。

#挑戰(zhàn)二:

系統(tǒng)高度互聯,風險被放大

在強耦合架構中,任一組件故障(如光模塊異常、網卡配置錯誤)都可能引發(fā)連鎖反應,導致任務失敗和資源浪費。如果沒有全棧可視性和真實世界的仿真,這些問題往往在傳統(tǒng)測試中難以被發(fā)現。

#挑戰(zhàn)三:

僅靠組件級驗證已無法保障系統(tǒng)穩(wěn)定

即使每個組件都符合標準,也可能因 AI 流量特性而在系統(tǒng)層級上失敗。盡管某些收發(fā)器在組件層面滿足 IEEE 合規(guī)性要求,但在系統(tǒng)級運行中,特別是在處理突發(fā) AI 流量時,仍可能出現性能問題。研究顯示,超過 40% 的 AI 訓練失敗歸因于網絡或組件效率不足。

745471be-5c54-11f0-baa5-92fbcf53809c.png

圖 3. 超過一半的 GPU 時間花在等待數據上,近一半的 AI 訓練任務失敗歸因于網絡與計算資源問題

系統(tǒng)級仿真是你的新的超能力

系統(tǒng)級仿真使網絡架構師能夠跳出理論假設,深入了解基礎設施在真實 AI 流量與控制機制下的實際運行行為。

數據中心的系統(tǒng)級性能依賴于系統(tǒng)級可視化能力——也就是模擬 GPU 之間的通信、觀察隊列對(Queue Pair)行為,并分析突發(fā)流量和擁塞點在整個技術棧中(從物理層到應用層)造成的影響。數據中心的性能優(yōu)化,離不開系統(tǒng)級可視化能力。通過模擬 GPU 通信、觀察隊列行為、識別流量突發(fā)點,才能在物理層到應用層之間全面掌控網絡運行狀況。

這一完整的測試流程通常包括:

?部署高密度網絡測試平臺。

?配置流量生成器,以太比特級速度模擬 AI 集合通信操作(如 all-reduce、broadcast、gather)的真實流量行為。

?使用性能分析工具,衡量系統(tǒng)級關鍵性能指標(KPI),例如任務完成時間、GPU 利用率、網絡吞吐量和延遲。

通過這一方法,網絡架構師可以快速定位 GPU 閑置時間積累的位置、識別次優(yōu)的擁塞控制設置,或發(fā)現引入延遲的網卡與收發(fā)器組合。此外,還可在無需部署大規(guī)模 GPU 集群的前提下,靈活測試路由策略、微調擁塞控制參數(如優(yōu)先級流控 PFC 和顯式擁塞通知 ECN),并評估新協議或架構變更的效果。

某大型云服務提供商已使用是德科技的Keysight AI(KAI)數據中心構建器對其新一代 AI 訓練集群的網絡設計進行基準測試,目標是確保其高速以太網不僅能夠支持當前的 GPU 型號,也能夠兼容即將發(fā)布的新一代 GPU。

746300d0-5c54-11f0-baa5-92fbcf53809c.png

圖 4. 是德科技 Keysight AI(KAI)數據中心構建器通過仿真 AI 工作負載以驗證系統(tǒng)級性能指標的界面截圖。

邁向 1.6T AI 數據中心:驗證方法必須與時俱進

為了支持下一代 AI 工作負載的規(guī)模和速度,數據中心正在向 1.6T 以太網過渡。

隨著 224 Gbps 電通道和 PAM4 調制成為常態(tài),這些高速鏈路引入了更嚴格的時序窗口、更低的信噪比以及對互連變化更高的靈敏度。在如此高的速度下,驗證信號完整性和端到端性能不能僅僅停留在組件級規(guī)格上。即使是符合標準的設備,在突發(fā)性 AI 工作負載下,也可能會遭遇邊緣 FEC 性能或間歇性故障。銅纜、光纖、有源電纜和無源 DAC 等互連的多樣性日益增加,使驗證變得更加復雜。

傳統(tǒng)的手動和基于腳本的驗證難以應對 1.6T 及以上速度的復雜性。全面的自動化測試策略對于識別僅在動態(tài)、高流量 AI 訓練工作負載下才會出現的系統(tǒng)級瓶頸至關重要。

Keysight 推出的 1.6T 互連和網絡性能測試儀 + ITS (Interconnect Test System) 自動化測試平臺,提供了完整的第1層到第3層全棧驗證能力,包含:

第 1 層 :FEC 前誤碼率(Pre-FEC BER)、FEC 裕度、抖動容限

第 2 層 :CMIS 協議兼容性、數字光學監(jiān)控(DOM)、通道映像完整性

第 3 層 :RoCEv2 流量建模、擁塞傳播、流量公平性

為了支持可重復、可擴展的測試,像1.6TE 互連和網絡性能測試儀這樣的集中式測試平臺可以重復使用配置、自動化通過/失敗分析并加快測試吞吐量。

是德科技1.6TE 互連和網絡性能測試儀具備全面的硬件功能,覆蓋第 1 層至第 3 層所需的各項測試能力,可廣泛應用于高速以太網、光纖與銅纜互連、網絡設備以及整體網絡基礎設施的驗證。

配套的互連測試系統(tǒng)(ITS)軟件可幫助架構師快速識別邊緣場景下的系統(tǒng)行為,并在實際大規(guī)模部署條件下,對各種電纜、網卡(NIC)、收發(fā)器和交換機進行壓力測試,確保系統(tǒng)穩(wěn)定可靠運行。

746f49f8-5c54-11f0-baa5-92fbcf53809c.png

圖 5. Keysight Interconnect Test System (ITS) 軟件數字光監(jiān)控頁面的屏幕截圖

構建面向未來的 AI 數據中心

構建一個真正具備大規(guī)模運行能力的人工智能數據中心,絕不僅僅是“完成檢查清單”那樣簡單,而是要為不可預測的挑戰(zhàn)做好設計準備,并應對未來指數級的增長需求。

隨著人工智能不斷重塑現代數據中心的架構,網絡架構師正是連接愿景與執(zhí)行的關鍵角色。無論您正在排查尾延遲、驗證光互連,還是規(guī)劃邁向 1.6T 的下一個飛躍,有一點是確定的:網絡是支撐 AI 創(chuàng)新的核心。

而您團隊是否具備對每條數據路徑進行仿真、基準測試與系統(tǒng)級可視化的能力,將直接決定基礎設施能否真正成功擴展。

關于是德科技

是德科技(NYSE:KEYS)啟迪并賦能創(chuàng)新者,助力他們將改變世界的技術帶入生活。作為一家標準普爾 500 指數公司,我們提供先進的設計、仿真和測試解決方案,旨在幫助工程師在整個產品生命周期中更快地完成開發(fā)和部署,同時控制好風險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導體和通用電子等市場。我們與客戶攜手,加速創(chuàng)新,創(chuàng)造一個安全互聯的世界。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 仿真
    +關注

    關注

    52

    文章

    4289

    瀏覽量

    135884
  • 數據中心
    +關注

    關注

    16

    文章

    5230

    瀏覽量

    73531
  • AI
    AI
    +關注

    關注

    88

    文章

    35164

    瀏覽量

    280073

原文標題:重新定義 AI 網絡測試:仿真+可視化,讓 1.6T 成為現實

文章出處:【微信號:是德科技KEYSIGHT,微信公眾號:是德科技KEYSIGHT】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    適用于數據中心AI時代的800G網絡

    模塊具備靈活的互聯能力,支持與現有400G和100G設備兼容,有助于數據中心平滑升級至更高帶寬,保護已有投資。 總結 AI時代對數據中心網絡提出了更高帶寬、低延遲和可擴展性要
    發(fā)表于 03-25 17:35

    數據中心的建設也看重風水

    相比中國傳統(tǒng)的風水理論,數據中心所看重的風水則更加貼合實際。以整體架構來劃分,目前的主流的數據中心已經進入第三代,并開始向第四代演進。第一代和第二代數據中心分別誕生于20世紀40和70年代,當時
    發(fā)表于 08-07 06:22

    未來數據中心與光模塊發(fā)展假設

    國內數據中心的發(fā)展經歷了由運營商主導的以通信機樓為主的分散、小規(guī)?;l(fā)展階段,逐步向市場驅動的規(guī)模化、標準化、高密度、綠色節(jié)能方向發(fā)展。隨著我們步入未來,數據中心的任務和概念還將繼續(xù)發(fā)展。而光模塊占
    發(fā)表于 08-07 10:27

    數據中心太耗電怎么辦

    ??????摘要:其實對于節(jié)能,傳統(tǒng)技術也是做了“十二分”的努力。但是在技術不斷演進的情況下,傳統(tǒng)節(jié)能技術還是存在問題,如何破?本文分享自華為云社區(qū)《數據中心節(jié)能?來試試華為NAIE數據中心節(jié)能技術
    發(fā)表于 06-30 06:27

    高效率的快速部署 玩轉模塊化數據中心 相關資料推薦

    當前,企業(yè)的快速增長都源于數字化的應用,而數字化的核心就是數據中心。如何應對數字化轉型對數據中心帶來的巨大壓力,這給傳統(tǒng)IT帶來了很大的挑戰(zhàn)。目前,傳統(tǒng)數據中心主要面臨以下三個困境。一
    發(fā)表于 07-05 07:31

    數據中心是什么

    數據中心是什么:數據中心是全球協作的特定設備網絡,用來在因特網絡基礎設施上傳遞、加速、展示、計算、存儲數據信息。數據中心大部分電子元件都是由低直流電源驅動運行的。
    發(fā)表于 07-12 07:10

    什么是數據中心

    數據中心是企業(yè)用來容納其關鍵業(yè)務應用程序和信息的物理設施。隨著它們的發(fā)展,重要的是要長期考慮如何保持它們的可靠性和安全性。什么是數據中心數據中心通常被稱為單個事物,但實際上它們由許多技...
    發(fā)表于 09-15 06:46

    AI數據中心是什么角色?

    無論是維護自身內部的數據中心,還是依賴異地數據中心運營,其實都需要確保服務器具備應對新型技術、適應日益增長需求、對抗大環(huán)境變化的能力。從大數據、云計算,再到人工智能,未來幾年的科技發(fā)展
    的頭像 發(fā)表于 10-31 16:34 ?3481次閱讀

    AI技術在數據中心有什么好處?

    隨著世界努力應對數據海嘯,數據中心也在快速發(fā)展。智能連接設備數量的快速增長和數據消耗的大量增加給基礎數據中心基礎架構帶來了巨大壓力。數據中心
    的頭像 發(fā)表于 12-07 16:09 ?3352次閱讀

    數據中心架構克服AI內存瓶頸的方法

    人工智能的懷疑論者批評了當前技術中存在的內存瓶頸,認為無法加速處理器和內存之間的數據移動阻礙了有用的實際應用程序。 用于在數據中心訓練 AI 模型的
    的頭像 發(fā)表于 07-18 15:52 ?1613次閱讀
    <b class='flag-5'>數據中心</b>架構克服<b class='flag-5'>AI</b>內存<b class='flag-5'>瓶頸</b>的方法

    科技推出AI數據中心測試平臺旨在加速AI/ML網絡驗證和優(yōu)化的創(chuàng)新

    2024年2月29日,是科技(Keysight Technologies,Inc.)宣布,針對人工智能(AI)和機器學習(ML)基礎設施生態(tài)系統(tǒng),推出了 AI數據中心測試平臺,旨在加
    的頭像 發(fā)表于 02-29 09:32 ?1021次閱讀
    是<b class='flag-5'>德</b>科技推出<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>測試平臺旨在加速<b class='flag-5'>AI</b>/ML網絡驗證和優(yōu)化的創(chuàng)新

    科技推出AI數據中心測試平臺

    科技近期宣布,針對蓬勃發(fā)展的AI和ML基礎設施生態(tài)系統(tǒng),隆重推出了全新的AI數據中心測試平臺。該平臺專為加速AI/ML網絡驗證與優(yōu)化而設
    的頭像 發(fā)表于 03-08 10:17 ?982次閱讀

    科技推出AI數據中心構建器

    科技(NYSE:KEYS)推出Keysight AI (KAI)數據中心構建器,這是一款先進的軟件套件,通過模擬真實工作負載來評估新算法、組件和協議對AI訓練性能的影響。KAI
    的頭像 發(fā)表于 04-07 11:06 ?506次閱讀

    科技推出AI數據中心構建器以驗證和優(yōu)化網絡架構和主機設計

    : KEYS )推出Keysight AI (KAI)數據中心構建器,這是一款先進的軟件套件,通過模擬真實工作負載來評估新算法、組件和協議對AI訓練性能的影響。KAI數據中心構建器的工
    的頭像 發(fā)表于 04-10 08:50 ?276次閱讀

    科技推出用于大規(guī)模AI數據中心的系列解決方案

    ·?為AI基礎設施提供商提供從物理層到應用層數據中心模擬和優(yōu)化解決方案 ·?驗證和優(yōu)化系統(tǒng)級性能,確保AI數據中心的無縫互操作性 ·?主動識別可能導致
    的頭像 發(fā)表于 04-10 08:51 ?264次閱讀
    是<b class='flag-5'>德</b>科技推出用于大規(guī)模<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>的系列解決方案