99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何處理SoC中的性能瓶頸呢?

數(shù)字芯片實(shí)驗(yàn)室 ? 來源:數(shù)字芯片實(shí)驗(yàn)室 ? 2024-05-01 09:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

SoC 中不斷添加處理核心,但它們不會(huì)都得到充分利用,因?yàn)檎嬲钠款i沒有得到解決。

SoC 需要處理的數(shù)據(jù)量激增,雖然處理核心本身可以處理這些數(shù)據(jù),但內(nèi)存和通信帶寬成為瓶頸?,F(xiàn)在的問題是可以采取什么措施解決這個(gè)問題。

內(nèi)存和 CPU 帶寬之間的差距(即所謂的內(nèi)存墻)不是一個(gè)新問題,還在繼續(xù)惡化。

早在 2016 年,德克薩斯州高級(jí)計(jì)算中心的研究科學(xué)家 John McCalpin 就發(fā)表了一次演講,研究了高性能計(jì)算 (HPC) 的內(nèi)存帶寬和系統(tǒng)資源之間的平衡。他分析了當(dāng)時(shí)排名前 500 的機(jī)器,并剖析了它們的核心性能、內(nèi)存帶寬、內(nèi)存延遲、互連帶寬和互連延遲。他的分析表明,每個(gè)插槽的峰值 FLOPS 每年增加 50% 到 60%,而內(nèi)存帶寬每年僅增加約 23%。此外,內(nèi)存延遲每年減少約 4%,互連帶寬和延遲每年增加約 20%。這些表明數(shù)據(jù)移動(dòng)方面存在持續(xù)且不斷擴(kuò)大的不平衡。

這意味著,如果我們傳輸數(shù)據(jù),則每次內(nèi)存?zhèn)鬏斔ㄙM(fèi)的時(shí)間相當(dāng)于 100 次浮點(diǎn)算術(shù)運(yùn)算。也就是說,如果無法預(yù)取并且錯(cuò)過了cache,你就失去了執(zhí)行超過 4,000 次浮點(diǎn)運(yùn)算的機(jī)會(huì)。

ba11294e-ffc7-11ee-a297-92fbcf53809c.png

系統(tǒng)性能要素的不平衡。

一個(gè)設(shè)計(jì)良好的系統(tǒng)是平衡的。大多數(shù)人想要的是更有效地使用晶體管,目標(biāo)每美元的吞吐量和每瓦特的吞吐量將會(huì)更高,總之利用率越高越好。

在考慮系統(tǒng)性能時(shí),要么受計(jì)算限制,要么受內(nèi)存限制,要么受 I/O 限制。隨著計(jì)算速度的加快,需要更加重視內(nèi)存是否能夠跟上計(jì)算速度,并且還需要更高的帶寬接口來將傳輸數(shù)據(jù)。

但業(yè)界對(duì)處理性能非常著迷。實(shí)際上,計(jì)算單元很重要,但它們通常不是實(shí)際系統(tǒng)速度的限制因素。系統(tǒng)速度和工作負(fù)載強(qiáng)相關(guān),它取決于數(shù)據(jù)從某個(gè)地方來、以某種方式處理并發(fā)送到數(shù)據(jù)被需要的地方有多快,并受到沿途亂七八糟事情的干擾。

這意味著不可能構(gòu)建一個(gè)適合所有任務(wù)的最佳系統(tǒng)。關(guān)鍵是要確保其均衡性良好,并且在任何區(qū)域都不會(huì)過度配置。

移動(dòng)數(shù)據(jù)

移動(dòng)數(shù)據(jù)肯定會(huì)影響系統(tǒng)性能,也與功耗有關(guān),因?yàn)橐苿?dòng)一段數(shù)據(jù)比對(duì)其執(zhí)行計(jì)算消耗的功耗高幾個(gè)數(shù)量級(jí)。完成一項(xiàng)任務(wù),一般意味著將數(shù)據(jù)通過外部接口移入內(nèi)存,從內(nèi)存到CPU,中間結(jié)果在內(nèi)存和CPU之間來回切換,最后結(jié)果通過外部接口推回。

無論你的計(jì)算速度有多快,或者你的內(nèi)存陣列有多大,最終決定芯片和系統(tǒng)性能的是連接兩者的總線帶寬。這就是最大的瓶頸所在,不僅僅是總線,還有高速接口,它們都為解決數(shù)據(jù)訪問瓶頸做出了自己的努力。

有效的內(nèi)存帶寬的提升是cache的采用。假設(shè)大多數(shù)內(nèi)存訪問來自cache而不是主存,這有效地使數(shù)據(jù)更接近處理器,并減少延遲。處理器性能的提高如此之快,主要是通過核心數(shù)量的快速增加。然而,cache性能一直在下降,這是導(dǎo)致延遲增加的主要原因之一。即使 HBM 的引入也未能扭轉(zhuǎn)這一趨勢(shì)。cache性能的降低是因?yàn)閏ache設(shè)計(jì)變得越來越復(fù)雜,特別是隨著更多核心保持cache coherent,并且多級(jí)cache串行l(wèi)ookup以節(jié)省功耗。

另一種選擇是將計(jì)算移至更靠近內(nèi)存的位置。in-memory computing的時(shí)代才剛剛開始,這可以通過三種方式實(shí)現(xiàn)。

1、通常,由于 DRAM 制造的經(jīng)濟(jì)性,我們不會(huì)在 DRAM 芯片上看到很多復(fù)雜的邏輯。我們可能會(huì)看到少量非常具體的函數(shù)被添加到這些芯片中,例如累加或乘累加函數(shù),這在許多 DSPAI 算法中很常見。

2、第二種可能是像 CXL.mem 這樣的技術(shù),在這種技術(shù)中,將計(jì)算功能添加到控制內(nèi)存陣列的邏輯芯片中是非??尚械?。從技術(shù)上講,這是在內(nèi)存附近處理而不是在內(nèi)存中處理。

3、第三個(gè)介于兩者之間。對(duì)于某些堆疊式存儲(chǔ)器(例如 HBM),通常有一個(gè)邏輯芯片與 DRAM 共同封裝在同一堆疊中,并且該邏輯芯片是面向 CPU 和 DRAM 設(shè)備的總線之間的接口。該邏輯芯片為邏輯芯片上的中低復(fù)雜度處理元件提供了空間。

HBM 的成功無疑幫助普及了chiplets的概念,曾經(jīng)受到光罩限制或產(chǎn)量限制的芯片現(xiàn)在可以在多個(gè)chiplets上制造并集成到一個(gè)封裝中。然而,現(xiàn)在需要的芯片間連接解決方案可能比單個(gè)芯片上的連接解決方案慢。當(dāng)公司將芯片分割成多個(gè)同質(zhì)芯片時(shí),希望在分割芯片上執(zhí)行相同的操作,又不會(huì)降低性能或準(zhǔn)確性。

實(shí)際上,這些chiplets是在系統(tǒng)環(huán)境中設(shè)計(jì)的,不僅僅是之前那樣的存儲(chǔ)器或控制器設(shè)計(jì)。封裝中的 IC 會(huì)引入其自身的寄生效應(yīng),因此你需要將其視為一個(gè)系統(tǒng),并查看眼圖,看看如何根據(jù)系統(tǒng)的運(yùn)行條件,信號(hào)的來源和接收方,對(duì)其進(jìn)行優(yōu)化,從而大幅增加帶寬并減少延遲。這些目的決定了接口和協(xié)議。USB、SATA、PCIe、CXL、DDR、HMC、AXUI、MIPI,這些不勝枚舉的協(xié)議都需要接口,業(yè)內(nèi)正在創(chuàng)建更新的協(xié)議,并且需要新的接收器來實(shí)現(xiàn)這些芯片到芯片的連接。

multi-die系統(tǒng)的一大優(yōu)勢(shì)是可用連接的數(shù)量變得更多。從 I/O 的角度來看,我們?cè)?jīng)擁有 1,024 位總線,然后我們轉(zhuǎn)向串行接口。但最近發(fā)生的情況是,那些串行接口現(xiàn)在已經(jīng)變成并行接口,例如 x32 PCIe,它由 32 通道超高速串行連接組成。

工作負(fù)載

如前所述,系統(tǒng)性能和工作負(fù)載強(qiáng)相關(guān)。不可能制造針對(duì)所有情況優(yōu)化的通用機(jī)器。找到PPA平衡迫使人們重新思考和定制芯片。

人工智能這樣的任務(wù)也存在著不同的工作負(fù)載。如果你觀察人工智能,就會(huì)發(fā)現(xiàn)它有兩個(gè)方面。一個(gè)是訓(xùn)練,在訓(xùn)練中你需要不斷地訪問內(nèi)存,因?yàn)闄?quán)重就在那里。而且你會(huì)不斷改變權(quán)重,此時(shí)內(nèi)存訪問是關(guān)鍵。然而,如果你看推理,模型已經(jīng)訓(xùn)練好了,你所要做的就是 MAC 操作,沒有訪問內(nèi)存去改變權(quán)重。

尋找適當(dāng)?shù)钠胶庑枰捎脜f(xié)同設(shè)計(jì)方法。在架構(gòu)階段,需要評(píng)估芯片的各種場(chǎng)景,關(guān)注芯片內(nèi)以及芯片外的吞吐量和帶寬。另一方面,物理設(shè)計(jì)團(tuán)隊(duì)必須找出芯片的最佳尺寸。由于產(chǎn)量和功率的原因,它不能太大,更不能太小。然后設(shè)計(jì)團(tuán)隊(duì)必須為他們構(gòu)建接口和協(xié)議。架構(gòu)團(tuán)隊(duì)、物理設(shè)計(jì)團(tuán)隊(duì)和設(shè)計(jì)團(tuán)隊(duì)不斷地進(jìn)行三方戰(zhàn)斗,以找到讓每個(gè)人都滿意的最佳點(diǎn)。當(dāng)然,少不了驗(yàn)證這個(gè)守門員。

計(jì)算范式

對(duì)于某些問題,使用傳統(tǒng)軟件可能會(huì)導(dǎo)致解決方案效率低下。這發(fā)生在從單核到多核的過渡以及 GPGPU 的采用期間。業(yè)界正在等待新一代人工智能硬件的實(shí)現(xiàn)。GPU 可以進(jìn)行大規(guī)模并行計(jì)算,除了渲染形狀之外還可以做各種事情。

結(jié)論

添加更多或更快的處理核心固然很棒,但除非你能讓它們保持忙碌,否則就是在浪費(fèi)時(shí)間、金錢和電力。

隨著 DRAM 遷移到封裝中,預(yù)計(jì)潛在帶寬將持續(xù)增加,但 DRAM 性能在過去 20 年里始終沒有跟上處理器,那么業(yè)界將不得不通過自身架構(gòu)來解決這個(gè)問題。

審核編輯:劉清
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19899

    瀏覽量

    235433
  • DRAM
    +關(guān)注

    關(guān)注

    40

    文章

    2349

    瀏覽量

    185678
  • SoC芯片
    +關(guān)注

    關(guān)注

    1

    文章

    646

    瀏覽量

    35839
  • Cache
    +關(guān)注

    關(guān)注

    0

    文章

    130

    瀏覽量

    29092
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    333

    瀏覽量

    24345

原文標(biāo)題:處理 SoC 中的性能瓶頸

文章出處:【微信號(hào):數(shù)字芯片實(shí)驗(yàn)室,微信公眾號(hào):數(shù)字芯片實(shí)驗(yàn)室】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    串口接收不等長的數(shù)據(jù)如何處理?

    串口是一個(gè)很重要的通信方式,但是要用好串口并不是那么簡單,比如如何接收不等長的數(shù)據(jù)等。你們是如何處理?大家來說說你們的做法。
    發(fā)表于 05-15 08:02

    DLPC3433的PCLK和PDATA【0~23】該如何處理?

    我們項(xiàng)目里面只用到了mipi接口,請(qǐng)問下如何處理不用的并口輸入? 規(guī)格書中在第7頁有描述PDM_CVS_TE,VSYNC_WE,HSYNC_CS,DATAEN_CMD需要下拉,但沒有明確說PCLK和PDATA【0~23】該如何處理
    發(fā)表于 02-27 08:43

    PCB電源部分如何處理?

    PCB電源部分如何處理?DDR的基本要求是什么啊 ?看了好多資料什么樣的說法都有
    發(fā)表于 03-14 14:51

    何處理好跨時(shí)鐘域間的數(shù)據(jù)

    跨時(shí)鐘域處理是什么意思?如何處理好跨時(shí)鐘域間的數(shù)據(jù)?有哪幾種跨時(shí)鐘域處理的方法?
    發(fā)表于 11-01 07:44

    TTL集成與非門電路不用的輸入端如何處理?

    TTL集成與非門電路不用的輸入端如何處理
    發(fā)表于 04-28 10:52

    NANO芯片系統(tǒng),其對(duì)應(yīng)的AVDD,VREF等引腳該如何處理?

    NANO芯片系統(tǒng),如果用不到ADC模數(shù)轉(zhuǎn)換模塊,其對(duì)應(yīng)的AVDD,VREF等引腳該如何處理?可以懸空或直接接地嗎?假使能懸空或直接接地,這樣能節(jié)省一部分不必要的功耗嗎?
    發(fā)表于 08-25 06:46

    SoC集成處理單元性能評(píng)估及功能劃分

    SoC集成處理單元性能評(píng)估及功能劃分
    發(fā)表于 01-12 22:09 ?2次下載

    SoC處理單元性能分析

    功能的劃分。 在準(zhǔn)備開發(fā)目前越來越復(fù)雜的便攜式系統(tǒng)時(shí),設(shè)計(jì)人員面對(duì)的最大挑戰(zhàn)之一就是采用什么樣的處理器組合來實(shí)現(xiàn)最優(yōu)化的3p指標(biāo),即系統(tǒng)性能最高、價(jià)格最低及功耗最小。系統(tǒng)級(jí)芯片(soc)集成使得今日的創(chuàng)新成為可能,但它常
    發(fā)表于 10-21 10:37 ?1次下載
    <b class='flag-5'>SoC</b><b class='flag-5'>中</b>的<b class='flag-5'>處理</b>單元<b class='flag-5'>性能</b>分析

    何處理電子污染

    電子垃圾污染給環(huán)境造成了巨大的壓力,當(dāng)今隨著電子產(chǎn)品廢棄量的增加他逐漸得到了社會(huì)各界的高度關(guān)注。如何處理電子垃圾帶來的污染?請(qǐng)看下文
    發(fā)表于 01-22 14:18 ?7258次閱讀

    處理DS2155性能報(bào)告消息

    本應(yīng)用筆記詳細(xì)介紹了如何處理DS2155性能報(bào)告消息(PRM)以及如何處理 通過 T1 設(shè)施數(shù)據(jù)鏈路 (FDL) 以 HDLC 消息的形式發(fā)送或接收 PRM。
    的頭像 發(fā)表于 02-22 09:41 ?1150次閱讀
    <b class='flag-5'>處理</b>DS2155<b class='flag-5'>中</b>的<b class='flag-5'>性能</b>報(bào)告消息

    何處理HTTP 503故障問題?

    HTTP 503故障問題在業(yè)務(wù)管理上很常見, 以問題的可能性也相當(dāng)多, 故障時(shí)除了503提示, 好像什么也沒有, 發(fā)生故障時(shí)應(yīng)如何處理? 文章內(nèi)會(huì)為大家詳細(xì)說明
    的頭像 發(fā)表于 04-12 10:05 ?1401次閱讀
    如<b class='flag-5'>何處理</b>HTTP 503故障問題?

    ttl與非門不用的輸入端如何處理?

    。但是有時(shí)候,輸入端的某些端口不需要使用,那么應(yīng)該如何處理? 首先,我們需要了解 TTL 芯片和非門芯片的內(nèi)部結(jié)構(gòu)和工作原理。TTL 芯片是由一些晶體管和電阻器組成的。它的輸入端接收高電平(1)或低電平(0)的電信號(hào),而輸出
    的頭像 發(fā)表于 09-17 15:42 ?7459次閱讀

    調(diào)試TrustZone時(shí),如何處理HardFault?

    調(diào)試TrustZone時(shí),如何處理HardFault?
    的頭像 發(fā)表于 09-27 16:33 ?1008次閱讀
    調(diào)試TrustZone時(shí),如<b class='flag-5'>何處理</b>HardFault?

    廣播系統(tǒng)出現(xiàn)噪音、嘯叫如何處理

    公共廣播系統(tǒng)目前是一個(gè)各行各業(yè)都會(huì)有需求的系統(tǒng),酒店、商場(chǎng)、公園、景點(diǎn)等場(chǎng)所都會(huì)用到。現(xiàn)實(shí)使用,我們會(huì)發(fā)現(xiàn)有的廣播系統(tǒng)是電聲悅耳、自然流暢,但是有一些則帶有些噪音、嘯叫。面對(duì)這種情況,我們?cè)撊?b class='flag-5'>何處理。
    發(fā)表于 11-08 09:41 ?2526次閱讀
    廣播系統(tǒng)出現(xiàn)噪音、嘯叫如<b class='flag-5'>何處理</b>?

    何處理同軸阻抗失配?如何避免阻抗失配這種風(fēng)險(xiǎn)?

    何處理同軸阻抗失配?如何避免阻抗失配這種風(fēng)險(xiǎn)? 同軸阻抗失配是電子通信領(lǐng)域中一種常見的問題,當(dāng)同軸電纜的輸出端口的阻抗與接收端口不匹配時(shí),就會(huì)發(fā)生阻抗失配。這種失配會(huì)導(dǎo)致信號(hào)反射、傳輸效率降低
    的頭像 發(fā)表于 11-28 14:18 ?1636次閱讀