物聯(lián)網(wǎng)端點(diǎn)位于嵌入式視覺(jué)的前沿。而且,與其他前沿領(lǐng)域一樣,也存在挑戰(zhàn),其中最重要的是電源效率。
機(jī)器視覺(jué)已經(jīng)迅速在世界上找到了自己的位置。從樹(shù)上看到和摘下橙子。注視檢測(cè)針對(duì)危險(xiǎn)的無(wú)意識(shí)駕駛員。在工廠(chǎng)車(chē)間內(nèi)移動(dòng)的工業(yè)機(jī)器人依靠它進(jìn)行安全的障礙物檢測(cè)。
物聯(lián)網(wǎng)端點(diǎn)位于嵌入式視覺(jué)的前沿。而且,與其他前沿領(lǐng)域一樣,也存在挑戰(zhàn),其中最重要的是電源效率。是否可以在不超出節(jié)點(diǎn)功率容量的情況下在極端邊緣進(jìn)行推理?
這個(gè)問(wèn)題值得考慮。這是因?yàn)樵谶吘夁M(jìn)行推理可以避免不分青紅皂白地將數(shù)據(jù)(其中只有一部分是可操作的)傳輸?shù)皆七M(jìn)行分析。這樣可以降低存儲(chǔ)成本。此外,訪(fǎng)問(wèn)云會(huì)損害延遲并抑制實(shí)時(shí)功能。傳輸數(shù)據(jù)是易受攻擊的數(shù)據(jù),因此最好進(jìn)行端點(diǎn)處理。這對(duì)于降低支付給網(wǎng)絡(luò)運(yùn)營(yíng)商的成本也是有利的。
全新的 SoC 架構(gòu)方法
然而,對(duì)于所有這些好處,一個(gè)主要的絆腳石已經(jīng)存在。使用傳統(tǒng)微控制器的設(shè)備的功耗限制阻礙了神經(jīng)網(wǎng)絡(luò)在極端邊緣的推理。
傳統(tǒng)的微控制器(MCU)性能無(wú)法滿(mǎn)足周期密集型操作。方法喚醒解決方案可能依賴(lài)于機(jī)器視覺(jué)進(jìn)行對(duì)象分類(lèi),這反過(guò)來(lái)又需要卷積神經(jīng)網(wǎng)絡(luò) (CNN) 執(zhí)行矩陣乘法運(yùn)算,這些運(yùn)算轉(zhuǎn)化為數(shù)百萬(wàn)乘法累加 (MAC) 計(jì)算(圖 1)。
圖1.到目前為止,微控制器不具備承擔(dān)大容量乘法累加(MAC)的效率的問(wèn)題一直是一個(gè)絆腳石。
MCU存在各種各樣的神經(jīng)網(wǎng)絡(luò)。但是,這些未能作為生產(chǎn)就緒型解決方案流行起來(lái),因?yàn)樗璧男阅軣o(wú)法超越電源障礙。
克服功耗-性能困境是為什么采用全新方法處理處理器角色和 SoC 架構(gòu)的解決方案是有意義的。采用這種新方法需要了解 IoT 終結(jié)點(diǎn)需要處理三個(gè)工作負(fù)載才能成功推理。一個(gè)是程序性的,一個(gè)是數(shù)字信號(hào)處理,一個(gè)是執(zhí)行大量MAC操作的。滿(mǎn)足每個(gè)工作負(fù)載獨(dú)特需求的一種方法是在 SoC 中組合一個(gè)用于信號(hào)處理和機(jī)器學(xué)習(xí)的雙 MAC 16 位 DSP,以及一個(gè)用于程序負(fù)載的 Arm Cortex-M CPU。
這種混合多核架構(gòu)充分利用了 DSP 雙存儲(chǔ)器組、零環(huán)路開(kāi)銷(xiāo)和復(fù)雜地址生成。有了它,可以處理工作負(fù)載的任何組合:例如,網(wǎng)絡(luò)堆棧、RTOS、數(shù)字濾波器、時(shí)頻轉(zhuǎn)換、RNN、CNN 以及傳統(tǒng)的類(lèi)似人工智能的搜索、決策樹(shù)和線(xiàn)性回歸。圖 2 顯示了當(dāng) DSP 架構(gòu)優(yōu)勢(shì)發(fā)揮作用時(shí),神經(jīng)網(wǎng)絡(luò)計(jì)算性能如何提高 2 倍甚至 3 倍。
圖2.矩陣乘法 (NxN) 基準(zhǔn)測(cè)試。
僅靠架構(gòu)更改是不夠的
無(wú)論是對(duì)于嵌入式視覺(jué)系統(tǒng)還是依賴(lài)于顯著提高神經(jīng)網(wǎng)絡(luò)效率的任何其他系統(tǒng),實(shí)施混合多核架構(gòu)都很重要。但是,當(dāng)目標(biāo)是將功耗降至mW范圍時(shí),必須做更多的工作。認(rèn)識(shí)到這一需求,Eta Compute獲得了連續(xù)電壓和頻率縮放(CVFS)的專(zhuān)利。
CVFS克服了動(dòng)態(tài)電壓頻率調(diào)節(jié)(DVFS)遇到的問(wèn)題。DVFS確實(shí)利用了降低功耗的選項(xiàng),即降低電壓。缺點(diǎn)是行使此選項(xiàng)時(shí)最大頻率會(huì)降低。這個(gè)問(wèn)題將DVFS的有效性鎖定在一個(gè)狹窄的范圍內(nèi) - 一個(gè)由嚴(yán)格限制數(shù)量的預(yù)定義離散電壓電平定義并限制在幾百mV的電壓范圍內(nèi)。
相比之下,為了在最有效的電壓下實(shí)現(xiàn)一致的SoC操作,CVFS使用自定時(shí)邏輯。通過(guò)自定時(shí)邏輯,每個(gè)器件都可以連續(xù)自動(dòng)調(diào)整電壓和頻率。CVFS比DVFS更有效,也比亞閾值設(shè)計(jì)更容易實(shí)施,CVFS在另一個(gè)重要方面也與這些不同。關(guān)鍵區(qū)別在于,上面提到的混合多核架構(gòu)使CVFS已經(jīng)做的好事成倍增加。
處于最前沿的生產(chǎn)級(jí)
最邊緣的終結(jié)點(diǎn)(例如用于人員檢測(cè)的終結(jié)點(diǎn))具有特定需求。雖然已發(fā)布的神經(jīng)網(wǎng)絡(luò)可供任何人用于這些物聯(lián)網(wǎng)端點(diǎn),但它們并沒(méi)有優(yōu)先針對(duì)這些需求。使用領(lǐng)先的設(shè)計(jì)技術(shù)優(yōu)化這些網(wǎng)絡(luò)可以解決這個(gè)問(wèn)題。
除了使用先進(jìn)的設(shè)計(jì)方法外,我們?cè)?Eta Compute 采用的神經(jīng)網(wǎng)絡(luò)優(yōu)化方法以生產(chǎn)級(jí)神經(jīng)傳感器處理器 ECM3532 為中心(圖 3)。它融合了混合多核架構(gòu)和 CVFS 技術(shù)的所有優(yōu)勢(shì)。
圖3.Eta Compute ECM3532神經(jīng)傳感器處理器的混合多核架構(gòu)將Arm Cortex-M3處理器、恩智浦CoolFlux DSP、512KB閃存、352KBSRAM和支持外設(shè)集成在SoC中,可實(shí)現(xiàn)mW范圍內(nèi)最邊緣的推理。
獲得的知識(shí)
如圖4所示的測(cè)試結(jié)果顯示,為了將深度學(xué)習(xí)引入嵌入式視覺(jué)系統(tǒng),電力成本不必上升到不可接受的水平。雖然沒(méi)有一根魔杖可以為高功耗的神經(jīng)網(wǎng)絡(luò)供電,但將MCU功耗效率和DSP優(yōu)勢(shì)與網(wǎng)絡(luò)優(yōu)化相結(jié)合的方法可以幫助應(yīng)用避免僅依賴(lài)云計(jì)算導(dǎo)致的安全性、延遲和低效率問(wèn)題。
圖4.在對(duì)人員檢測(cè)模型的測(cè)試中,包括相機(jī)在內(nèi)的平均系統(tǒng)功耗為5.6mW。對(duì)于此測(cè)試,速率為每秒 1.3 個(gè)審核編輯:郭婷
-
控制器
+關(guān)注
關(guān)注
114文章
17116瀏覽量
184437 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2931文章
46264瀏覽量
392891 -
機(jī)器視覺(jué)
+關(guān)注
關(guān)注
163文章
4598瀏覽量
122945
發(fā)布評(píng)論請(qǐng)先 登錄
物聯(lián)網(wǎng)技術(shù)促進(jìn)能量收集創(chuàng)新應(yīng)用落地

Aux-Think打破視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的常規(guī)推理范式

物聯(lián)網(wǎng)藍(lán)牙模塊有哪些優(yōu)勢(shì)?
物聯(lián)網(wǎng)的應(yīng)用范圍有哪些?
村田NPO電容在哪些頻率范圍內(nèi)具有較好的性能?
蜂窩物聯(lián)網(wǎng)怎么選
為什么選擇蜂窩物聯(lián)網(wǎng)
宇樹(shù)科技在物聯(lián)網(wǎng)方面
《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
ad7124上電開(kāi)啟診斷結(jié)果,顯示LDO不在范圍內(nèi),是哪里出錯(cuò)了?
ADS1230怎么處理才能使信號(hào)在芯片量程范圍內(nèi)?
ADS131A02 0-50的溫度范圍內(nèi),ADC輸出漂移0.1%是怎么回事?
中國(guó)蜂窩物聯(lián)網(wǎng)連接數(shù)領(lǐng)跑全球

全天候全覆蓋的衛(wèi)星通訊方案如何在物聯(lián)網(wǎng)系統(tǒng)中應(yīng)用

評(píng)論