存儲(chǔ)與GPU性能皆已成倍增長,IO表現(xiàn)為何遲遲不見好轉(zhuǎn)?
伴隨著HPC、自動(dòng)駕駛、深度學(xué)習(xí)和VR/AR需求的不斷增加,IO性能也在逐步凸顯瓶頸,尤其是GPU與存儲(chǔ)之間的讀寫。處理器速度已經(jīng)從KHz進(jìn)化至了GHz,VRAM從KB進(jìn)化至了GB,IO速度也從KB/s進(jìn)化至了GB/s,然而GB/s的大幅度改善從直觀角度來看依然像是MB/s。
比如在有線連接的VR應(yīng)用中,圖形需要經(jīng)過電腦進(jìn)行處理,再經(jīng)有線傳輸顯示在VR屏幕上,這就引發(fā)了高延遲和長讀取時(shí)間等問題。這不禁讓人開始遐想,在CPU、GPU和存儲(chǔ)都已經(jīng)革新?lián)Q代的情況下,我們是否真正有效地應(yīng)用了硬件性能?為此微軟和英偉達(dá)都提出了直接存儲(chǔ)的概念來改善IO的現(xiàn)狀。
微軟:Windows上的DirectStorage
微軟在不久前的Windows 11發(fā)布會(huì)上重點(diǎn)提到了DirectStorage技術(shù),這是一個(gè)最初為主機(jī)設(shè)計(jì)的DirectX API,如今微軟也將把這一技術(shù)帶到PC上。
在當(dāng)前NVMe SSD和PCIe技術(shù)的演進(jìn)下,存儲(chǔ)帶寬遠(yuǎn)超舊式的硬盤存儲(chǔ)技術(shù),過去10MB每秒的速度已經(jīng)達(dá)到數(shù)GB每秒。但PC上的圖形工作量也在逐步進(jìn)化,數(shù)據(jù)量的增加對于讀取提出了更高的要求。過去大量數(shù)據(jù)的讀取只需要少量的IO請求,但如今的圖形渲染會(huì)將材質(zhì)等資源分成小塊,只有在場景提出要求時(shí)載入所需的部分,如此一來雖然提高了效率,卻引入了更多IO請求。

當(dāng)前的GPU資源讀取流程 / 微軟
而目前的存儲(chǔ)API并沒有對大量IO請求作出優(yōu)化,因此拖累了NVMe,使得讀寫瓶頸愈發(fā)明顯。即便采用高端的PC硬件,也無法飽和利用存儲(chǔ)帶寬優(yōu)勢。除此之外,這些數(shù)據(jù)往往需要經(jīng)過壓縮傳輸下一個(gè)環(huán)節(jié),傳入內(nèi)存后,還要CPU進(jìn)行一部分解壓工作,最后再傳入GPU顯存里,這樣一來每個(gè)節(jié)點(diǎn)都存在效率損失。
而DirectStorage采用了全新的路徑,從存儲(chǔ)讀取的數(shù)據(jù)傳給內(nèi)存后,直接傳給GPU顯存。而GPU對于這些數(shù)據(jù)的解壓速度遠(yuǎn)快于CPU,所以極大地優(yōu)化了IO性能。
英偉達(dá):RTX IO和Magnum IO GPUDirect Storage
英偉達(dá)在RTX 30系列顯卡上引入了RTX IO,面向消費(fèi)市場,提升游戲場景下的讀取速度。英偉達(dá)稱RTX IO將與微軟的DirectStorage結(jié)合,與傳統(tǒng)硬盤下的存儲(chǔ)API相比,可將IO性能提高百倍。過去需要數(shù)十個(gè)CPU內(nèi)核的工作全部交由RTX GPU來處理。
值得一提的是,英偉達(dá)的RTX IO雖然也用到了微軟的DirectStorage,但該技術(shù)并沒有將數(shù)據(jù)傳輸?shù)絻?nèi)存,而是直接由SSD轉(zhuǎn)向GPU。微軟一名圖形開發(fā)者在GSL 2021大會(huì)上表示,未來DirectStorage的目標(biāo)也是繞過系統(tǒng)內(nèi)存。

GDS技術(shù) / 英偉達(dá)
除了消費(fèi)市場外,英偉達(dá)在HPC市場也推出了對應(yīng)的直接存儲(chǔ)技術(shù),Magnum IO GPUDirect Storage(GDS)。GDS技術(shù)同樣是一個(gè)繞過CPU的技術(shù),與消費(fèi)級GPU不同,HPC場景下往往要用到多塊GPU,如此一來受IO延遲和CPU的影響更大。GDS在本地存儲(chǔ)與GPU顯存之間建立直接的數(shù)據(jù)通道,消除了CPU引入的延遲和讀寫瓶頸。

GDS與CPU傳輸至GPU讀取性能對比 / 英偉達(dá)
在運(yùn)用GDS后,帶寬提升達(dá)到1.5倍,與傳統(tǒng)CPU回彈緩沖的數(shù)據(jù)路徑相比,CPU利用率也有2.8倍的提升。
目前英偉達(dá)已經(jīng)將這一技術(shù)加入到其HGX AI超算中,DDN、VAST和WEKA三家公司已經(jīng)開始了相關(guān)產(chǎn)品的量產(chǎn),而IBM、美光等五家廠商也在積極引入這一技術(shù)。三星、鎧俠、西數(shù)和戴爾等廠商也開始了GDS的早期集成與認(rèn)證計(jì)劃。
小結(jié)
直接存儲(chǔ)技術(shù)進(jìn)一步放大了GPU廠商與存儲(chǔ)廠商的優(yōu)勢,目前HPC市場前景巨大,英偉達(dá)在相關(guān)業(yè)務(wù)上的盈利已經(jīng)讓其看到了商機(jī)。不僅是GPU,英偉達(dá)采用Arm架構(gòu)的Grace CPU同樣引入了NVLink這樣的數(shù)據(jù)傳輸改善方案。在這樣的性能改善下,即便存儲(chǔ)方案不同,英偉達(dá)的GPU也很可能成為HPC應(yīng)用的首選。
伴隨著HPC、自動(dòng)駕駛、深度學(xué)習(xí)和VR/AR需求的不斷增加,IO性能也在逐步凸顯瓶頸,尤其是GPU與存儲(chǔ)之間的讀寫。處理器速度已經(jīng)從KHz進(jìn)化至了GHz,VRAM從KB進(jìn)化至了GB,IO速度也從KB/s進(jìn)化至了GB/s,然而GB/s的大幅度改善從直觀角度來看依然像是MB/s。
比如在有線連接的VR應(yīng)用中,圖形需要經(jīng)過電腦進(jìn)行處理,再經(jīng)有線傳輸顯示在VR屏幕上,這就引發(fā)了高延遲和長讀取時(shí)間等問題。這不禁讓人開始遐想,在CPU、GPU和存儲(chǔ)都已經(jīng)革新?lián)Q代的情況下,我們是否真正有效地應(yīng)用了硬件性能?為此微軟和英偉達(dá)都提出了直接存儲(chǔ)的概念來改善IO的現(xiàn)狀。
微軟:Windows上的DirectStorage
微軟在不久前的Windows 11發(fā)布會(huì)上重點(diǎn)提到了DirectStorage技術(shù),這是一個(gè)最初為主機(jī)設(shè)計(jì)的DirectX API,如今微軟也將把這一技術(shù)帶到PC上。
在當(dāng)前NVMe SSD和PCIe技術(shù)的演進(jìn)下,存儲(chǔ)帶寬遠(yuǎn)超舊式的硬盤存儲(chǔ)技術(shù),過去10MB每秒的速度已經(jīng)達(dá)到數(shù)GB每秒。但PC上的圖形工作量也在逐步進(jìn)化,數(shù)據(jù)量的增加對于讀取提出了更高的要求。過去大量數(shù)據(jù)的讀取只需要少量的IO請求,但如今的圖形渲染會(huì)將材質(zhì)等資源分成小塊,只有在場景提出要求時(shí)載入所需的部分,如此一來雖然提高了效率,卻引入了更多IO請求。

當(dāng)前的GPU資源讀取流程 / 微軟
而目前的存儲(chǔ)API并沒有對大量IO請求作出優(yōu)化,因此拖累了NVMe,使得讀寫瓶頸愈發(fā)明顯。即便采用高端的PC硬件,也無法飽和利用存儲(chǔ)帶寬優(yōu)勢。除此之外,這些數(shù)據(jù)往往需要經(jīng)過壓縮傳輸下一個(gè)環(huán)節(jié),傳入內(nèi)存后,還要CPU進(jìn)行一部分解壓工作,最后再傳入GPU顯存里,這樣一來每個(gè)節(jié)點(diǎn)都存在效率損失。
而DirectStorage采用了全新的路徑,從存儲(chǔ)讀取的數(shù)據(jù)傳給內(nèi)存后,直接傳給GPU顯存。而GPU對于這些數(shù)據(jù)的解壓速度遠(yuǎn)快于CPU,所以極大地優(yōu)化了IO性能。
英偉達(dá):RTX IO和Magnum IO GPUDirect Storage
英偉達(dá)在RTX 30系列顯卡上引入了RTX IO,面向消費(fèi)市場,提升游戲場景下的讀取速度。英偉達(dá)稱RTX IO將與微軟的DirectStorage結(jié)合,與傳統(tǒng)硬盤下的存儲(chǔ)API相比,可將IO性能提高百倍。過去需要數(shù)十個(gè)CPU內(nèi)核的工作全部交由RTX GPU來處理。
值得一提的是,英偉達(dá)的RTX IO雖然也用到了微軟的DirectStorage,但該技術(shù)并沒有將數(shù)據(jù)傳輸?shù)絻?nèi)存,而是直接由SSD轉(zhuǎn)向GPU。微軟一名圖形開發(fā)者在GSL 2021大會(huì)上表示,未來DirectStorage的目標(biāo)也是繞過系統(tǒng)內(nèi)存。

GDS技術(shù) / 英偉達(dá)
除了消費(fèi)市場外,英偉達(dá)在HPC市場也推出了對應(yīng)的直接存儲(chǔ)技術(shù),Magnum IO GPUDirect Storage(GDS)。GDS技術(shù)同樣是一個(gè)繞過CPU的技術(shù),與消費(fèi)級GPU不同,HPC場景下往往要用到多塊GPU,如此一來受IO延遲和CPU的影響更大。GDS在本地存儲(chǔ)與GPU顯存之間建立直接的數(shù)據(jù)通道,消除了CPU引入的延遲和讀寫瓶頸。

GDS與CPU傳輸至GPU讀取性能對比 / 英偉達(dá)
在運(yùn)用GDS后,帶寬提升達(dá)到1.5倍,與傳統(tǒng)CPU回彈緩沖的數(shù)據(jù)路徑相比,CPU利用率也有2.8倍的提升。
目前英偉達(dá)已經(jīng)將這一技術(shù)加入到其HGX AI超算中,DDN、VAST和WEKA三家公司已經(jīng)開始了相關(guān)產(chǎn)品的量產(chǎn),而IBM、美光等五家廠商也在積極引入這一技術(shù)。三星、鎧俠、西數(shù)和戴爾等廠商也開始了GDS的早期集成與認(rèn)證計(jì)劃。
小結(jié)
直接存儲(chǔ)技術(shù)進(jìn)一步放大了GPU廠商與存儲(chǔ)廠商的優(yōu)勢,目前HPC市場前景巨大,英偉達(dá)在相關(guān)業(yè)務(wù)上的盈利已經(jīng)讓其看到了商機(jī)。不僅是GPU,英偉達(dá)采用Arm架構(gòu)的Grace CPU同樣引入了NVLink這樣的數(shù)據(jù)傳輸改善方案。在這樣的性能改善下,即便存儲(chǔ)方案不同,英偉達(dá)的GPU也很可能成為HPC應(yīng)用的首選。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報(bào)投訴
-
微軟
+關(guān)注
關(guān)注
4文章
6685瀏覽量
105741 -
gpu
+關(guān)注
關(guān)注
28文章
4944瀏覽量
131217 -
HPC
+關(guān)注
關(guān)注
0文章
333瀏覽量
24323 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3950瀏覽量
93724
發(fā)布評論請先 登錄
相關(guān)推薦
熱點(diǎn)推薦
芯朋微電子PN7885系列60A超大電流E-Fuse介紹
隨著人工智能(AI)浪潮的到來,數(shù)據(jù)中心迎來前所未有的變革。服務(wù)器的功率需求激增,超高的功率對供電系統(tǒng)的需求成倍增長,板上電源越來越多。防止輸入端涌入的電流使系統(tǒng)過載變得至關(guān)重要,否則高昂的停機(jī)成本變得不可接受!

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理
前言
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書中的芯片知識是比較接近當(dāng)前的頂尖芯片水平的,同時(shí)包含了芯片架構(gòu)的基礎(chǔ)知識,但該部分知識比較晦澀難懂,或許是由于我一直從事的事芯片
發(fā)表于 06-18 19:31
2024年GPU出貨量增長顯著,超越CPU
近日,根據(jù)知名市場研究機(jī)構(gòu)Jon Peddie Research(JPR)最新發(fā)布的報(bào)告,2024年全球GPU(包括集成顯卡和獨(dú)立顯卡)市場呈現(xiàn)出強(qiáng)勁的增長態(tài)勢。報(bào)告顯示,該年度GPU總出貨量實(shí)現(xiàn)了
λ-IO:存儲(chǔ)計(jì)算下的IO棧設(shè)計(jì)
動(dòng)機(jī)和背景? ? 存儲(chǔ)計(jì)算存儲(chǔ)資源的充分利用。IO棧是管理存儲(chǔ)器的的基本組件,包括設(shè)備驅(qū)動(dòng)、塊接口層、文件系統(tǒng),目前一些用戶空間IO庫(如S

GPU在虛擬現(xiàn)實(shí)中的表現(xiàn) 低功耗GPU的優(yōu)缺點(diǎn)
GPU在虛擬現(xiàn)實(shí)中的表現(xiàn) 虛擬現(xiàn)實(shí)(VR)技術(shù)的發(fā)展離不開高性能的圖形處理單元(GPU)。GPU在VR中扮演著至關(guān)重要的角色,它負(fù)責(zé)渲染復(fù)雜
NPU與GPU的性能對比
NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)與GPU(Graphics Processing Unit,圖形處理單元)在性能上各有千秋,它們各自的設(shè)計(jì)初衷和優(yōu)化方向決定了
DM6446+TLV320AIC33錄音功能不好,表現(xiàn)為能聽到錄制的聲音,但聲音小,是哪里出了問題?
我現(xiàn)在平臺是DM6446+TLV320AIC33,用來實(shí)現(xiàn)錄音和播放功能,輸入為麥克風(fēng),輸出為耳機(jī)?,F(xiàn)在播放功能是正常額,在耳機(jī)里能清楚地聽到播放的wav文件,問題是錄音功能不好,表現(xiàn)為能聽到錄制的聲音,但聲音小。請教大家有可能是哪里出了問題?
發(fā)表于 11-08 07:38
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU
本篇閱讀學(xué)習(xí)第七、八章,了解GPU架構(gòu)演進(jìn)及CPGPU存儲(chǔ)體系與線程管理
█從圖形到計(jì)算的GPU架構(gòu)演進(jìn)
GPU圖像計(jì)算發(fā)展
●從三角形開始的幾何階段
在現(xiàn)代圖形渲染中,三角形是最常用
發(fā)表于 11-03 12:55
如何提高GPU性能
在當(dāng)今這個(gè)視覺至上的時(shí)代,GPU(圖形處理單元)的性能對于游戲玩家、圖形設(shè)計(jì)師、視頻編輯者以及任何需要進(jìn)行高強(qiáng)度圖形處理的用戶來說至關(guān)重要。GPU不僅是游戲和多媒體應(yīng)用的心臟,它還在科學(xué)計(jì)算、深度
華納云監(jiān)視Linux磁盤IO性能命令:iotop,iostat,vmstat,atop,dstat,ioping
以下介紹6個(gè)監(jiān)視 Linux 磁盤IO性能的命令(工具),它們分別是iotop、iostat、vmstat、atop、dstat、ioping,以下將附上簡單的使用方法。 前言 磁盤IO
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽
經(jīng)典 GPU 算力芯片解讀
10.1 NVIDIAGPU芯片
10.2 AMDGPU芯片
10.3 IntelXeGPU架構(gòu)
10.3.4 超大芯片Ponte Vecchio
第11章 存儲(chǔ)與互連總線
發(fā)表于 10-15 22:08
TLV320AIC3100IRHBR的MIC接口功能異常,主要表現(xiàn)為MIC管腳對GND的阻抗非常低,為什么?
TLV320AIC3100IRHBR的MIC接口功能異常,主要表現(xiàn)為MIC管腳對GND的阻抗非常低,一般這個(gè)是由什么原因造成的?
發(fā)表于 10-15 07:12
韓企存儲(chǔ)芯片在華熱銷,營收翻倍增長
2024年上半年,韓國存儲(chǔ)芯片巨頭三星電子與SK海力士在中國市場的表現(xiàn)極為亮眼,營收均實(shí)現(xiàn)了超過100%的顯著增長。這一驕人成績主要得益于全球存儲(chǔ)芯片市場需求的強(qiáng)勁復(fù)蘇以及產(chǎn)品價(jià)格的持
探索存儲(chǔ)新未來:為何EVASH EV24C256A EEPROM成為市場新寵
探索存儲(chǔ)新未來:為何EVASH EV24C256A EEPROM成為市場新寵
名單公布!【書籍評測活動(dòng)NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析
設(shè)計(jì)。在GPU和NPU等加速器部分,介紹了GPU為何能從單純的圖形任務(wù)處理器變成通用處理器。GPU在設(shè)計(jì)邏輯、存儲(chǔ)體系、線程管理,以及面向A
發(fā)表于 09-02 10:09
評論