99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VPU與NPU的協(xié)同創(chuàng)新簡析

LiveVideoStack ? 來源:LiveVideoStack ? 2023-08-04 09:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

-01-

總體介紹

fa8b76f4-325a-11ee-9e74-dac502259ad0.jpg 多媒體技術(shù)的發(fā)展歷程中,從最初的有線無線通訊容量,到2G、3G、4G,再到現(xiàn)在的5G,變化是顯而易見的。在這個過程中,人們會發(fā)現(xiàn)3G時代經(jīng)歷時間短,而4G則持續(xù)時間長。這是因?yàn)?G能夠更充分地容納對于生活體驗(yàn)或生活方式的需求。其中最重要的一點(diǎn)是可以更便捷地接入音視頻數(shù)據(jù)和信息,包括現(xiàn)在的短視頻。正是因?yàn)橛辛烁蟾鼘挼臄?shù)據(jù)通路,能夠?qū)⑽覀兿氤尸F(xiàn)的內(nèi)容傳輸?shù)接脩魝?cè)。

在3G和4G出現(xiàn)之前,包括在G出現(xiàn)之前,Codec技術(shù)一直存在,壓縮能力也并不是到4G之后才有突飛猛進(jìn)的。恰恰是因?yàn)楝F(xiàn)在隨著做管道的能力變寬后,可容納更多的數(shù)據(jù),這是從“不能”到“能”的過程。 現(xiàn)在有了AI技術(shù),更希望它能夠發(fā)揮出更好的作用,加速從“不能”到“能”的變化過程。以前需要1萬人干一年的工作,現(xiàn)在有了10萬人,只需要半年就可以完成。

這種技術(shù)的沖擊加速了中國市場的發(fā)展。在5G時代,有些人可能會感到疑惑“為什么沒有感受到5G帶來的翻天覆地的變化?”。其實(shí),需要的是找到或者說轉(zhuǎn)變用戶的需求,從以前的“不能”或者受限到現(xiàn)在的“能”。以前大家認(rèn)為WiFi是很重要的東西,但現(xiàn)在已經(jīng)不再關(guān)心飯店是否有WiFi,因?yàn)?a href="http://www.socialnewsupdate.com/v/tag/107/" target="_blank">手機(jī)已經(jīng)可以通過室內(nèi)小基站實(shí)現(xiàn)對應(yīng)的訴求。

下一步,需要確保用戶看到的內(nèi)容是否符合他們的需求,比如在延遲和畫質(zhì)量方面如何滿足用戶的訴求?除了娛樂生活中的短視頻,在工作中是否也和視頻息息相關(guān)?早些年,出現(xiàn)了多媒體技術(shù),但卻沒有相對應(yīng)的產(chǎn)品,因?yàn)槎嗝襟w技術(shù)已經(jīng)融入到了云或端的用戶體驗(yàn)當(dāng)中,不需要專門的技術(shù)。如果想要將“能”變得“更好”,需要逐步實(shí)現(xiàn)音視頻技術(shù)智能化。

faa9b9fc-325a-11ee-9e74-dac502259ad0.jpg

智能化的方向不僅僅是生活和娛樂,還包括交通、政務(wù)服務(wù)、出行、健康等領(lǐng)域。這些數(shù)據(jù)往往需要通過視頻作為媒介進(jìn)行傳輸,而不是單純的文字,例如企業(yè)的數(shù)字服務(wù)等?!拔覀兪强吹降拿恳槐緯鋵?shí)都是對人思想的一個裁剪”,所以視頻記錄的意義在于記錄人與信息所有者面對面交流的過程,因此視頻業(yè)務(wù)不僅僅是娛樂活動,還包括很多其他領(lǐng)域,之后也有很多機(jī)會去拓展這些領(lǐng)域。

fad3c99a-325a-11ee-9e74-dac502259ad0.jpg

這里有兩個案例。第一個案例是關(guān)于終端計(jì)算能力,比如手機(jī)和手表等邊緣設(shè)備,它們本身具有很強(qiáng)的計(jì)算能力,這對于完成業(yè)務(wù)非常有幫助。第二個案例是關(guān)于ADAS的,它的算力需求呈倍數(shù)增長,這意味著需要擁有更大的計(jì)算平臺來支持業(yè)務(wù),這是之前很少考慮到的。因?yàn)樵谥埃嗟仃P(guān)注于在CPU、GPUDSP上進(jìn)行計(jì)算。但是需要更深入地了解其計(jì)算邏輯,以便將編碼、解碼和增強(qiáng)等技術(shù)合理地交付到這些IP上。實(shí)際上,這些IP的能力非常強(qiáng)大,如果僅關(guān)注CPU的計(jì)算能力,會發(fā)現(xiàn)自己受到限制。

在最近的討論中發(fā)現(xiàn),人們更多地在關(guān)注應(yīng)用,那么,應(yīng)用如何去下沉到實(shí)際的計(jì)算平臺?就需要充分考慮的計(jì)算平臺有什么,首先運(yùn)行的平臺是CPU,但從計(jì)算能力的角度來看,CPU并不是最強(qiáng)的。對于視頻、圖像或音頻處理,DSP和GPU更有潛力,需要挖掘這些潛力。此外,NPU在峰值計(jì)算能力在各方面都比CPU強(qiáng)得多。

faf4f458-325a-11ee-9e74-dac502259ad0.jpg

上圖主要內(nèi)容是關(guān)于ChatGPT的發(fā)展。隨著算法不斷推進(jìn),計(jì)算能力和計(jì)算平臺也在提升。不必?fù)?dān)心計(jì)算平臺的浪費(fèi),或是不能自主對自身部署平臺進(jìn)行升級。因?yàn)殡S著算法的演進(jìn)帶來更高性能的同時,會關(guān)注其參數(shù),參數(shù)可能和神經(jīng)網(wǎng)絡(luò)的突觸是相關(guān)聯(lián)的。實(shí)際上,這也是提升計(jì)算能力和計(jì)算平臺的注解。

人們不應(yīng)該先框定應(yīng)用平臺,而是應(yīng)該從計(jì)算趨勢或算法性能出發(fā),考慮如何推動計(jì)算平臺的變化。這樣的思路會帶來很多選擇,也會有合理的理由要求計(jì)算平臺不斷演進(jìn),因?yàn)樗惴ɑ蛐阅艿奶嵘请S著計(jì)算能力的變化而帶來的。

關(guān)于計(jì)算平臺的演進(jìn),前面提到了數(shù)字化的方式。這些數(shù)字化方式對個體帶來了哪些影響呢?這些方式包括與家人、商業(yè)伙伴、同事以及虛擬人進(jìn)行交流和溝通。這樣的連接方式為此帶來了更多的溝通選擇,不再局限于聲音,而是可以通過視頻等方式進(jìn)行互動。

近些年已經(jīng)看到了技術(shù)的發(fā)展,從4K的普及到慢慢進(jìn)入視野的8K,這對音視頻編解碼帶來了很大的挑戰(zhàn)。雖然2K已經(jīng)相對容易實(shí)現(xiàn),但4K仍然具有一定挑戰(zhàn)性,那么對于8K又該如何解決呢?這是一個當(dāng)前面臨的問題,雖然可能并不緊迫,但已經(jīng)清晰可見。

面對這個問題,該如何解決?在虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)設(shè)備中,對延遲要求很低,數(shù)據(jù)從SOC加載到DDR內(nèi),然后再傳輸?shù)紺PU,然后反復(fù)在多層緩存中傳遞,能否保持低延遲?還是必須采用直接點(diǎn)對點(diǎn)的邏輯,避免經(jīng)過任何中間環(huán)節(jié)? 因此,在處理設(shè)計(jì)方案時,需要考慮到這些新的連接方式和連接數(shù)目帶來的影響。

例如,低延遲顯示、更大的數(shù)據(jù)量和吞吐量需求,這些方案將對處理平臺帶來變化。過去,人們幾乎不考慮語音的問題,但現(xiàn)在語音已成為一個不可忽視的關(guān)鍵詞。那么,如何合理分配云端和端側(cè)的工作任務(wù)?如何在保證延遲的同時降低有效負(fù)載?這些都是需要優(yōu)化和考慮的因素。

-02-

AI和Codec的趨勢

fb5753c8-325a-11ee-9e74-dac502259ad0.jpg

在面對這些新的變化趨勢和挑戰(zhàn)的情況下,人工智能(AI)和編解碼器(Codec)也在發(fā)生變化,這種變化包括兩個方面: 第一方面,隨著大模型的引入,不斷為其提供越來越多的數(shù)據(jù)。然而,這樣的數(shù)據(jù)本身存在兩個問題。第一點(diǎn),是數(shù)據(jù)的有效性。

在高級任務(wù)中,數(shù)據(jù)中可能存在臟點(diǎn),影響模型本身的準(zhǔn)確性,即使使用超出量級的模型,也很難達(dá)到百分之百準(zhǔn)確率,因此需要確保數(shù)據(jù)質(zhì)量,提高模型準(zhǔn)確性。第二點(diǎn),是在一些淺層任務(wù)中,可能存在天然的數(shù)據(jù)集構(gòu)建問題。例如,在進(jìn)行SR時,很難獲取點(diǎn)對點(diǎn)完全真實(shí)的Ground Truth。

因此,數(shù)據(jù)集可能存在缺陷或不足,但正在不斷努力彌補(bǔ)這些缺陷或不足,這樣的彌補(bǔ)其實(shí)是意味著“我們?nèi)绾稳グ盐覀冎翱吹降?,單純地通過模型數(shù)量的增加去解決問題”,變成需要綜合考慮模型、數(shù)據(jù)集、計(jì)算方式和訓(xùn)練方式等因素,而不是僅僅通過增加模型數(shù)量來解決問題。特別是在使用大模型時,需要考慮如何采用分布式訓(xùn)練來提高訓(xùn)練效率,這是現(xiàn)在需要解決的問題。

fb7aa922-325a-11ee-9e74-dac502259ad0.jpg

第二方面,如何有效提升數(shù)據(jù)計(jì)算的有效性,同樣存在三點(diǎn)問題。第一是對于NPU和AI來說,這是一個致命的問題。對于AI的幻滅,其中一個重要原因是雖然提升了計(jì)算容量,但是實(shí)際交付給用戶時,用戶發(fā)現(xiàn)容量很大,比如有10TOPS,但實(shí)際上每秒只能用到5TOPS,甚至只有2TOPS,這個問題在第一代NPU中非常普遍,那么如何充分調(diào)整計(jì)算維度呢?

第二是數(shù)據(jù)類型。在進(jìn)行AI算法時,很多計(jì)算類型是通過漸次的數(shù)據(jù)傳輸或數(shù)據(jù)近似來完成的,這本來就是一個近似過程,那么是否可以考慮引入一些與AI加速相關(guān)的計(jì)算維度,而不是僅僅做LP32或LP64這樣的計(jì)算維度。這樣的計(jì)算維度可以提高整個計(jì)算性能,特別是在進(jìn)行數(shù)據(jù)復(fù)用時。例如,可以將一個64bit乘法器簡單地折成兩個32bit乘法器,這樣的技術(shù)增加可以帶來可觀的算力膨脹。

fb9b0596-325a-11ee-9e74-dac502259ad0.jpg

第三點(diǎn)問題,是關(guān)于數(shù)據(jù)中心的能力激進(jìn)。圖片展示的是2023年ISSCC公布的“未來十年計(jì)算效率的改革”,可以看到數(shù)據(jù)量在不斷上升。這樣的上升意味著什么呢?如果回顧前面的內(nèi)容會發(fā)現(xiàn),首先,隨著單位算力成本的下降,計(jì)算中心或者所謂的算力焦慮會比預(yù)期的來得更早。再次,隨著計(jì)算中心的算力增加和計(jì)算效率提高,可以獲得更顯著的效益。

過去,訓(xùn)練大網(wǎng)絡(luò)模型可能最昂貴的不是采購GPU卡的問題,而是長時間的耗電費(fèi)用。如果能使計(jì)算變得更高效,即使節(jié)省1%或10%的能源消耗,對于進(jìn)行大模型訓(xùn)練或數(shù)據(jù)中心來說都將帶來質(zhì)的收益。此外,這種效益對于模型部署后的運(yùn)維非常重要,因?yàn)樗鼛淼氖情L期的收益。 開發(fā)一個模型可能是階段性的,訓(xùn)練模型時更注重精度,而在模型運(yùn)營階段時,更注重運(yùn)營成本。因此在運(yùn)營模型時,可以調(diào)整計(jì)算需求,以降低運(yùn)營成本。

fbc0e1ee-325a-11ee-9e74-dac502259ad0.jpg

這一部分,就是需要考慮拓展業(yè)務(wù)的多個維度。首先,隨著通道擴(kuò)展和參數(shù)增加,可以為用戶提供更多的數(shù)據(jù)維度,這些用戶不僅可以是人,還可以是機(jī)器或傳感器等級聯(lián)設(shè)備,把任務(wù)點(diǎn)打開。盡管最終的目標(biāo)是為人服務(wù),比如在港口或礦山等地方,面積極大,如果一直依賴人力,那么在布設(shè)視頻流等方面將面臨巨大的挑戰(zhàn)。因此,如何實(shí)現(xiàn)智能控制和交互成為關(guān)鍵,視頻信息中可能有效信息只有1%左右,對于最終進(jìn)行判斷來說并不都是有用的。這也是為什么VCM可以超過VVC50%以上收益的核心原因之一。

其次,在進(jìn)行控制算法時,數(shù)據(jù)控制并不需要人的主觀體驗(yàn)。這種主觀體驗(yàn)的需求往往是人的先入為主,但在設(shè)計(jì)系統(tǒng)方案時可以合理優(yōu)化。 第三,需要考慮特征傳遞的方案。對于人來說,可能對特征有精度的需求。但是對于機(jī)器來說,在數(shù)據(jù)變化或損失時,例如在后端恢復(fù)或機(jī)器判斷方面,可以接受一定程度的數(shù)據(jù)變化。因此,在進(jìn)行VCM和人類視覺方面會有顯著的差異。隨著智能水平的提高,更多的視頻數(shù)據(jù)或類似的數(shù)據(jù)表達(dá)應(yīng)該是為機(jī)器判斷而設(shè)計(jì)的,而人更關(guān)注結(jié)果。

fbdfb86c-325a-11ee-9e74-dac502259ad0.jpg

對于用戶體驗(yàn)的提升,無論是與機(jī)器相關(guān)的技術(shù)還是人類的感知,都在發(fā)生變化。以下是對于人類感知方面一些直觀的例子: 首先是8K大屏。在去年的世界杯中,進(jìn)行了一項(xiàng)調(diào)查,發(fā)現(xiàn)那些已經(jīng)體驗(yàn)過8K的人很難再回到4K的觀賽體驗(yàn),因?yàn)?K帶來的沉浸感和與之匹配的聲音設(shè)計(jì)給用戶帶來了不可逆轉(zhuǎn)的體驗(yàn)。因此,應(yīng)該嘗試拓寬用戶的需求,而不是被迫做出調(diào)整,要主動去關(guān)注這些變化。 第二個例子是元宇宙。這是一個大家都在討論的概念。在元宇宙中,需要考慮的是交互體驗(yàn)是什么,以及如何將這種交互體驗(yàn)傳遞給與之交互的人。

我認(rèn)為這是未來對于Codec和AI生成技術(shù)的一個重要挑戰(zhàn)和關(guān)注點(diǎn)。 第三個例子是"enjoy work"。作為技術(shù)開發(fā)人員,特別是音視頻開發(fā)人員,應(yīng)該提供一些產(chǎn)品,使工作變得更輕松。這不僅包括遠(yuǎn)程工作方式,還包括與客戶和同事溝通等方面。特別是在過去幾年的遠(yuǎn)程工作經(jīng)歷中,是否感覺到工作方式的流暢性?記得去年在疫情比較嚴(yán)重時,正好趕上業(yè)務(wù)高峰期,發(fā)現(xiàn)在連續(xù)與同事遠(yuǎn)程溝通的時候,效率實(shí)際上是下降的。這需要自己去調(diào)整和優(yōu)化?,F(xiàn)在很多跨國公司已經(jīng)開始簽署永久的“home office”協(xié)議,這種工作方式對于如何設(shè)計(jì)數(shù)據(jù)通路、用戶界面甚至是專用的硬件設(shè)備都有一定的關(guān)聯(lián)。

-03-

NPU與VPU的形態(tài)

需要考慮用戶的需求和變化,并希望這些變化能夠進(jìn)一步下沉到所提供的更高效的硬件方案中。

fc017254-325a-11ee-9e74-dac502259ad0.jpg

第一代NPU具有出色的“并行空間”和“堆疊計(jì)算”的能力。然而,隨著時間的推移,就需要思考如何將這些計(jì)算能力有效地應(yīng)用于所需的業(yè)務(wù)部署。因此,我們將進(jìn)一步對計(jì)算進(jìn)行抽象,包括一維、二維和三維計(jì)算的優(yōu)化。這為下一代NPU的架構(gòu)設(shè)計(jì)提供了契機(jī),以更好地滿足業(yè)務(wù)需求,并對現(xiàn)有的AI算法計(jì)算層進(jìn)行適當(dāng)?shù)闹С趾统橄?。致力于與業(yè)務(wù)緊密結(jié)合,并積極探索如何支持和優(yōu)化現(xiàn)有的AI算法計(jì)算層。 在這個方面,需要思考一個問題,即之前提到的計(jì)算抽象是否合理。對于每種計(jì)算類型,在不同的情況下,其優(yōu)化效率可能不同。

因此,需要如何充分利用當(dāng)前的資源,來實(shí)現(xiàn)最佳的優(yōu)化效果呢?舉個例子,假設(shè)有兩類任務(wù),它們可以映射為三維計(jì)算,可以將“低維”映射為“高維”,但這種映射可能導(dǎo)致計(jì)算資源的浪費(fèi)。然而,為了將所有計(jì)算任務(wù)都推送到專用硬件上,必然需要在一定程度上犧牲一些計(jì)算資源和代價。

fc2b7c5c-325a-11ee-9e74-dac502259ad0.jpg

在從單核任務(wù)向多核任務(wù)的轉(zhuǎn)變中,面臨一個問題:如何將高計(jì)算需求的任務(wù)推送到兩個適合的計(jì)算類型上?然而,這樣的計(jì)算類型可能存在一些不匹配,從而導(dǎo)致計(jì)算資源的浪費(fèi)。在這種情況下,可以考慮將計(jì)算核拆分或?qū)嵗鄠€case,針對不同的case部署不同的任務(wù),以充分利用整體的計(jì)算能力。 此外,還存在一些與同步相關(guān)的問題。在整個AI加速過程中,除了利用率之外,還會遇到一個瓶頸,即不是計(jì)算邏輯本身,例如卷積操作,現(xiàn)在已經(jīng)有一些較好的加速方法或近似手段。

相反,瓶頸主要出現(xiàn)在"前處理"和"后處理"階段,因?yàn)楸仨殞⑦@些計(jì)算邏輯遷移到GPU、DSP甚至是CPU上,這可能成為一個短板。 因此,需要考慮如何對當(dāng)前的計(jì)算任務(wù)進(jìn)行分割,將“前處理”和“后處理”分別抽象出來,先給到部分“前處理”邏輯,將“后處理”任務(wù)分為幾類,因?yàn)槟壳坝?jì)算邏輯主要偏向于一些Mac陣列,而“前處理”和“后處理”更多涉及數(shù)據(jù)重排和邏輯運(yùn)算。從這個角度來看,可以對其進(jìn)行功能性的劃分,從之前的“計(jì)算邏輯抽象”轉(zhuǎn)變?yōu)楝F(xiàn)在的“功能邏輯抽象”。

fc5a20fc-325a-11ee-9e74-dac502259ad0.jpg

另外一個重要的方面是關(guān)于當(dāng)前VPU架構(gòu)的一些特點(diǎn)??梢詫⑵鋭澐譃轭A(yù)測單元、濾波單元,以及語義解碼和pixel解碼等。在VSE中,進(jìn)行語法元素的反向解析,而在后續(xù)階段,對pixel進(jìn)行處理,形成了VPE和VSE的結(jié)構(gòu)。同時,還將一些后處理集成在其中。

例如,當(dāng)設(shè)計(jì)VPU時,如果只能按照原始分辨率進(jìn)行輸出,這與實(shí)際用戶需求很可能不符。一個最直接的例子就是家里的電視,近年來,國內(nèi)普遍采用的分辨率可能平均已達(dá)到了4K,然而海外用戶的情況卻千差萬別,許多用戶甚至仍然使用低分辨率的顯示設(shè)備。在這種情況下,如果VPU可以在這一階段支持不同顯示終端或顯示類型的需求,那么數(shù)據(jù)將會獲得很大的優(yōu)勢。如果沒有這樣一個單元,那么在數(shù)據(jù)輸出后,需要將其存儲到DDR中,然后在經(jīng)過額外的處理單元,無論是DSP、GPU還是NPU。

在經(jīng)過這一段之后,數(shù)據(jù)可能需要再次寫入DDR,然后發(fā)送到輸出接口上,整個延遲會比目前使用的方案要大得多。 另外一個需要考慮的因素是功耗的矩陣問題。對于用戶來說,頻繁的讀寫操作會導(dǎo)致功耗的不斷增加,因?yàn)樽x寫本身對功耗是不友好的。特別是在邊緣側(cè)的部署中,很多時候問題并不在于計(jì)算能力不足或算法映射能力不足,而是在于雖然可以將其部署并運(yùn)行,但它只能運(yùn)行5分鐘。這是因?yàn)樵?分鐘后,設(shè)備已經(jīng)過熱,我們不可能給一個成本為10美元的設(shè)備再加上5美元的散熱器,這不符合產(chǎn)品設(shè)計(jì)的原則。

因此,對于邊緣側(cè)來說,在設(shè)計(jì)初期如何考慮到產(chǎn)品各個方面的應(yīng)用需求非常重要。例如,在最初的設(shè)計(jì)階段,可以采用流式處理的方式來降低數(shù)據(jù)交互的需求。同時,還可以使用VME進(jìn)行內(nèi)存控制和重寫,以優(yōu)化內(nèi)存的讀寫操作。

從邏輯上來看,需要將硬件架構(gòu)與現(xiàn)有的軟件編解碼架構(gòu)相結(jié)合,可以看到它們之間有很多對應(yīng)的關(guān)系。從這個維度來看,這種方案在支持4K方面,大約在2017年左右已經(jīng)存在了成熟的解決方案。圖片展示的是2019年,一位同事撰寫的高效視頻處理報(bào)告??梢杂^察到,在VPU上出現(xiàn)了很多新的case,這些新case在計(jì)算方面有兩個主要方面。

在第一個主要方面,追求更精細(xì)化的管理。例如,將之前對于Y通道用的東西,現(xiàn)在作用在UV通道,以前認(rèn)為UV通道的影響不太重要,可以將其降低一個級別。這樣做可以減小整個計(jì)算邏輯的規(guī)模,使芯片對于邊緣側(cè)或用戶來說更加友好。然而,后來發(fā)現(xiàn),如果想提高質(zhì)量,這一部分是必不可少的。

因此,第一個方面是更全面、更充分地利用整個計(jì)算邏輯。 第二個重要的方面,是對參數(shù)進(jìn)行更精細(xì)的估計(jì)。我們也在嘗試使用AI的方法來優(yōu)化這些參數(shù)的估計(jì)過程。如果有足夠的數(shù)據(jù)量和適當(dāng)?shù)臄?shù)據(jù)類型,AI方法在這方面的效果是相當(dāng)不錯的。

這樣的精細(xì)參數(shù)估計(jì)可以提高視頻編碼的質(zhì)量和效率。 但存在一個問題,在剛才提到的兩個趨勢中,第一個是對于運(yùn)動參數(shù)的精細(xì)估計(jì),第二個是對以前認(rèn)為較邊緣的內(nèi)容質(zhì)量的提升。此外,如何支持并行計(jì)算也是一個重要的問題。在并行計(jì)算中,可以考慮在初代架構(gòu)中使用的關(guān)鍵邏輯,如VSE、VPE和VME,用于語法元素分析和像素級恢復(fù)。

然而,隨著輸入數(shù)據(jù)的急劇增大,尤其是在戶外大屏幕和未來家用終端的核心體驗(yàn)中,這些數(shù)據(jù)成為極其重要的數(shù)據(jù)來源,與解碼4K甚至2K相比,這些數(shù)據(jù)來源的數(shù)據(jù)通路要大得多,可能是2倍甚至8倍以上。因此,在軟件和硬件層面上,僅僅進(jìn)行橫向的加強(qiáng)或規(guī)模的擴(kuò)大已經(jīng)不夠了。

下一個維度就是需要支持并行解碼,但并行解碼對編碼過程也提出了一些要求。當(dāng)進(jìn)行第三行或第四行的解碼時,如果該行的語法元素與之前的行有很強(qiáng)的關(guān)聯(lián)性,那么解碼過程可能會受到限制,即使前面的解碼已經(jīng)進(jìn)行到較前面的位置,但如果前一級的解碼受阻,那么問題就會產(chǎn)生。

fcb414ea-325a-11ee-9e74-dac502259ad0.jpg

在之前的討論中,NPU從最初只能滿足基本功能,到之后通過NPU更好地支持相應(yīng)的任務(wù)。未來希望NPU能夠具備適應(yīng)各種任務(wù)的充分能力。包括VPU,它與之前的解碼流程相對應(yīng),但現(xiàn)在開始讓解碼反過來約束編碼過程,這是目前所看到的變革。那么對于這些變化,如何進(jìn)行融合或分解呢?

在之前做過的一次分享中,我將整個NPU部分放在了里面,將其視為整個流程的一部分。然而,后來仔細(xì)思考并與其他人討論后,發(fā)現(xiàn)這種邏輯可能會給人一種誤解,即認(rèn)為NPU只是處理pipe的一個環(huán)節(jié)。實(shí)際上,一個更合理的邏輯是,NPU應(yīng)該支持整個處理的全流程。這包括之前提到的使用NPU來增強(qiáng)對Codec參數(shù)估計(jì)的能力。此外,我認(rèn)為在下一代的VCM中,如果要實(shí)現(xiàn)一些硬件邏輯,從當(dāng)前的結(jié)構(gòu)來看,有可能將其置于NPU框架的下方,并進(jìn)行相應(yīng)的方案設(shè)計(jì)。

-04-

NPU與VPU的融合探討

fcc78fd4-325a-11ee-9e74-dac502259ad0.jpg

為了提供用戶更好的視覺和聽覺體驗(yàn),NPU應(yīng)該與如ISP和DPC這樣的邏輯進(jìn)行關(guān)聯(lián)。這種關(guān)聯(lián)可以帶來哪些收益呢?以手機(jī)為例進(jìn)行說明,在傳統(tǒng)的pipeline處理中,當(dāng)直接使用手機(jī)攝像頭獲取數(shù)據(jù)時,它通常能處理的亮度大約在1Lux以上。然而,當(dāng)結(jié)合了NPU的能力后,會發(fā)現(xiàn)可以相對容易地實(shí)現(xiàn)0.1Lux以上的處理?,F(xiàn)在,很多夜景拍攝都是通過這種邏輯實(shí)現(xiàn)的,這也解釋了為什么高端旗艦手機(jī)在拍照方面表現(xiàn)更好,而入門級手機(jī)的拍照效果較差。這其中存在一些邏輯,即有意地拉開了差距。但在另一方面,這也是因?yàn)樵谫Y源方面存在差異,受限于可用資源,很難提供一致性的解決方案。

fcf2c9e2-325a-11ee-9e74-dac502259ad0.jpg

此外,之前認(rèn)為的IaaS/AaaS,現(xiàn)在,在辦公維度上,可以拿PC作為一個基本的服務(wù)單元。從這個邏輯來看,未來的辦公可以變得更加便捷。因?yàn)閷€人PC打造成可移動的資源對于云辦公、家庭溝通、教育和遠(yuǎn)程醫(yī)療等領(lǐng)域具有重要意義。這樣做的好處在于,能夠通過在不同環(huán)境中接入特定的溝通環(huán)境來滿足各種需求,增加了在不同環(huán)境下接入特定溝通環(huán)境的便利性。此外,由于更多的數(shù)據(jù)存儲在云端且數(shù)據(jù)源位于云端,當(dāng)在邊緣設(shè)備上進(jìn)行接入時,它提供了更大的靈活性。 這個變化可能會對編碼方式產(chǎn)生影響。

以前認(rèn)為在辦公場景下進(jìn)行編碼時,使用420或者422已經(jīng)足夠。然而實(shí)際上,當(dāng)處理這類流時,會發(fā)現(xiàn)與傳統(tǒng)思維不同,如果按照傳統(tǒng)思維進(jìn)行編碼,視頻數(shù)據(jù)的質(zhì)量會變得非常差。這種情況很好模擬,只要拿現(xiàn)在的生成場景做一些數(shù)據(jù)生成,然后再反過來按照現(xiàn)在的編碼方式,去做編碼,再解出來會發(fā)現(xiàn)效果會變得很差。

fd153d4c-325a-11ee-9e74-dac502259ad0.jpg

對于Codec來說,這是一個需要思考的問題。如果僅使用4x4進(jìn)行編碼,會發(fā)現(xiàn)碼流的增加非??臁5?,如果將其與NPU結(jié)合起來,使用NPU來進(jìn)行恢復(fù)和增強(qiáng),實(shí)際上復(fù)雜度是非常可控的。另外在去解決前面提到的問題時,特別是在帶寬有限的情況下,由于當(dāng)前的網(wǎng)絡(luò)接入環(huán)境千差萬別,需要注意。之前為什么在3G時代一定要向國外學(xué)習(xí)?因?yàn)閲獾牟渴疬M(jìn)度更快,他們能夠看到更多的場景。但是在4G和5G時代,反倒是其他國家開始向我們學(xué)習(xí),為什么?中國接入5G的場景數(shù)量在全球遙遙領(lǐng)先。

在如此復(fù)雜的情況下,我們面臨著許多問題。舉個例子,我們應(yīng)該傳輸高分辨率低質(zhì)量的數(shù)據(jù),還是低分辨率高質(zhì)量的數(shù)據(jù)?此外,還可以利用邊緣計(jì)算和NPU進(jìn)行超分辨率處理,或者結(jié)合低分辨率低質(zhì)量的數(shù)據(jù)和all in one增強(qiáng)邏輯。這是一個非常值得思考的方向。 在第二個方面,我們也進(jìn)行了一些嘗試,主要是基于在端側(cè)進(jìn)行NPU增強(qiáng)的實(shí)踐,而它所帶來的收益也是顯而易見的。對于用戶體驗(yàn)和帶寬控制而言,與其將所有精力都集中在編解碼上會更好。以前可能認(rèn)為系統(tǒng)就像一個木桶,性能取決于最薄弱的一環(huán),即短板。但實(shí)際上,可以反過來思考,這個木桶效應(yīng)意味著什么?它意味著不僅有短板,還一定有長板,即整個系統(tǒng)中一定存在幾個相對優(yōu)勢的部分。為什么不利用這些長板來解決漏水問題呢?

fd2ae638-325a-11ee-9e74-dac502259ad0.jpg

這些是一些現(xiàn)有的VPU的替代方案,其中包括使用之前提到的VCM以及基于AI的方案。這些AI方案可以應(yīng)用于NPU,并引發(fā)一些新的思考??梢試L試調(diào)研當(dāng)前存在的幾種AI編解碼方案,它們可以分為不同類型。 第一種類型是端到端的方案,不再使用傳統(tǒng)的量化、殘差估計(jì)和MV估計(jì)等技術(shù)。相反,整個處理過程由端到端完成。 第二種類型是替代特定部分的方案,例如前面提到的MV估計(jì)。從邏輯上來說,如果可以替代掉,但整個輸出的碼流,仍按照H.264或H.265等編碼標(biāo)準(zhǔn)進(jìn)行編碼,甚至可以使用AV1去編碼方案。之后在云端解碼時,直接使用正常的解碼器進(jìn)行硬解或軟解。這是兩種不同的解決思路,選擇哪種思路實(shí)際上與具體的場景有關(guān)。如果場景相對封閉,例如只需端到端的方案,那么可以完全摒棄整個編碼器,并全部使用自己的解碼器方案。然而,如果要考慮更多的用戶場景,特別是在國內(nèi)外網(wǎng)絡(luò)環(huán)境不一致的情況下,后一種思路可能更為合適。

-05-

總結(jié)

fd512834-325a-11ee-9e74-dac502259ad0.jpg

對于音視頻領(lǐng)域,需要關(guān)注的是如何將自身的方案與計(jì)算能力結(jié)合起來,而不僅僅專注于云端,應(yīng)該適當(dāng)?shù)仃P(guān)注端側(cè),因?yàn)樵诙藗?cè)需要解決一些限制計(jì)算能力、功耗和計(jì)算平臺的問題,以便有效交付解決方案,這是一個非常重要的考慮因素。 另外,還需要考慮如何處理更多連接的問題。大會的其他演講也討論了解決萬人接入的問題,這是一個非常有意義的探討。此外,更好的性能反過來會給用戶提供更多機(jī)會和需求。 一個有趣的觀點(diǎn)是,我一直認(rèn)為所謂的云辦公實(shí)際上更多地是來源于對娛樂需求的遷移。因?yàn)閭€人可如果以很好地接入同一個視頻流,所以為什么還需要一定在現(xiàn)場進(jìn)行辦公呢?這是一個思考的角度。

fd71c698-325a-11ee-9e74-dac502259ad0.jpg

最后,和大家分享一些我認(rèn)為的未來趨勢。這些趨勢涵蓋了如何將計(jì)算能力與現(xiàn)有標(biāo)準(zhǔn)融合,因?yàn)楝F(xiàn)有標(biāo)準(zhǔn)主要定義了不同的profile。需要思考如何將這些profile與計(jì)算能力相匹配。另外,包括之前提到了幾種策略。 首先,直接使用AI網(wǎng)絡(luò)生成更多的數(shù)據(jù)。這種計(jì)算加速方式實(shí)質(zhì)上是對之前提到的流式編解碼架構(gòu)或混合編碼策略的一種完全顛覆。 第二種策略,涉及與AI Codec相關(guān)的一些策略。 第三種策略,是如何考慮相關(guān)成本,包括性能代價和有效利用率的問題。 第四個趨勢,是目前所見的一些硬件架構(gòu)的演進(jìn)。在支持8K的情況下,單路方案已經(jīng)不太合理,因?yàn)樵谶M(jìn)一步降低成本和功耗時,會遇到許多新的挑戰(zhàn)。 最后一點(diǎn),是關(guān)于軟件方面的問題,特別是在NPU的工具鏈中。需要思考如何映射不同的算子到現(xiàn)有的NPU計(jì)算單元上,同時又會反過來形成一個循環(huán)問題,即如何將相應(yīng)的功能整合到系統(tǒng)中,這是一個很好的嘗試思路。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • Codec
    +關(guān)注

    關(guān)注

    1

    文章

    71

    瀏覽量

    41024
  • ADAS技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    3435
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    326

    瀏覽量

    19654
  • ai技術(shù)
    +關(guān)注

    關(guān)注

    1

    文章

    1308

    瀏覽量

    25101
  • VPU芯片
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    1571

原文標(biāo)題:基于AI和NPU的Codec變革——VPU與NPU的協(xié)同創(chuàng)新

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    云知聲出席第四屆濱海中關(guān)村協(xié)同創(chuàng)新發(fā)展論壇

    近日,第四屆濱海中關(guān)村協(xié)同創(chuàng)新發(fā)展論壇在北京隆重舉行。本屆論壇以“協(xié)同創(chuàng)新智領(lǐng)未來”為主題,吸引了眾多行業(yè)領(lǐng)軍人物和前沿企業(yè)家參與。
    的頭像 發(fā)表于 04-22 16:17 ?282次閱讀

    會展動態(tài) | SiC“隱形心臟”引爆技術(shù)革命!TMC2025功率半導(dǎo)體論壇:以點(diǎn)帶面構(gòu)建全產(chǎn)業(yè)鏈協(xié)同創(chuàng)新

    并深度參與的 第四屆新能源汽車及功率半導(dǎo)體協(xié)同創(chuàng)新技術(shù)論壇將于2025年6月12-13日 與第十七屆國際汽車動力系統(tǒng)技術(shù)年會(TMC2025)在 江蘇·南通國際會展中心 同期同地舉辦。 屆時,全球3000+新能源汽車動力系統(tǒng)、車規(guī)級功率半導(dǎo)體相關(guān)技
    發(fā)表于 03-19 11:13 ?538次閱讀
    會展動態(tài) | SiC“隱形心臟”引爆技術(shù)革命!TMC2025功率半導(dǎo)體論壇:以點(diǎn)帶面構(gòu)建全產(chǎn)業(yè)鏈<b class='flag-5'>協(xié)同創(chuàng)新</b>

    FakeQuantize不支持VPU插件嗎?

    “FakeQuantize”層不受 VPU 插件支持。
    發(fā)表于 03-06 07:01

    軟硬協(xié)同優(yōu)化,安謀科技新一代“周易”NPU實(shí)現(xiàn)DeepSeek-R1端側(cè)高效部署

    ?近日,搭載安謀科技最新一代“周易”NPU處理器的硬件平臺成功運(yùn)行DeepSeek-R1系列模型,性能卓越、成本優(yōu)異,為用戶帶來了更高效、便捷的AI應(yīng)用體驗(yàn)。這款創(chuàng)新NPU處理器采用專為大模型特性
    發(fā)表于 02-14 10:52 ?181次閱讀
    軟硬<b class='flag-5'>協(xié)同</b>優(yōu)化,安謀科技新一代“周易”<b class='flag-5'>NPU</b>實(shí)現(xiàn)DeepSeek-R1端側(cè)高效部署

    華大北斗:硬科技實(shí)力彰顯,粵港協(xié)同創(chuàng)新引領(lǐng)北斗產(chǎn)業(yè)發(fā)展

    深圳華大北斗科技股份有限公司,作為衛(wèi)星導(dǎo)航定位芯片級解決方案的領(lǐng)先提供商,近期在科技創(chuàng)新和產(chǎn)業(yè)發(fā)展方面取得了顯著成就,連續(xù)獲得業(yè)界重要獎項(xiàng),彰顯了其強(qiáng)大的硬科技實(shí)力和粵港協(xié)同創(chuàng)新的成果。 首先,在
    的頭像 發(fā)表于 02-11 23:37 ?322次閱讀

    Allegro榮獲奇瑞汽車“協(xié)同創(chuàng)新特別貢獻(xiàn)獎”

    在近日奇瑞汽車舉辦的“奇聚九州勢,智領(lǐng)贏未來”2025年供應(yīng)鏈生態(tài)圈年會上,Allegro公司憑借與奇瑞汽車的緊密合作與卓越表現(xiàn),榮獲了由奇瑞汽車頒發(fā)的“協(xié)同創(chuàng)新特別貢獻(xiàn)獎”。 這一殊榮不僅彰顯了
    的頭像 發(fā)表于 01-22 14:40 ?433次閱讀

    Allegro榮獲奇瑞汽車“協(xié)同創(chuàng)新特別貢獻(xiàn)獎”

    近日,在奇瑞汽車舉行的“奇聚九州勢,智領(lǐng)贏未來”2025 年供應(yīng)鏈生態(tài)圈年會上,Allegro 榮獲由奇瑞汽車頒發(fā)的“協(xié)同創(chuàng)新特別貢獻(xiàn)獎”。這一殊榮不僅見證了 Allegro 與奇瑞汽車之間堅(jiān)實(shí)而
    的頭像 發(fā)表于 01-22 14:06 ?434次閱讀

    鯤云科技亮相北京智算協(xié)同創(chuàng)新大會

    2025 年 1 月 14 日,北京智算協(xié)同創(chuàng)新大會在在北京海淀區(qū)集智未來人工智能產(chǎn)業(yè)創(chuàng)新基地隆重舉行,會上成立北京智算創(chuàng)新研究院,正式肩負(fù)起推動跨界協(xié)同創(chuàng)新的使命,通過可重構(gòu)數(shù)據(jù)流技
    的頭像 發(fā)表于 01-14 18:10 ?682次閱讀

    大連理工和南信大-紫光同創(chuàng)FPGA創(chuàng)新實(shí)踐基地揭牌

    為了深化產(chǎn)教融合,加快推進(jìn)國產(chǎn)FPGA人才培養(yǎng),紫光同創(chuàng)與大連理工大學(xué)軟件學(xué)院及南京信息工程大學(xué)工程訓(xùn)練中心達(dá)成合作,共同建設(shè)FPGA聯(lián)合創(chuàng)新實(shí)踐基地。
    的頭像 發(fā)表于 12-06 09:25 ?1015次閱讀

    華為簽約南通數(shù)字經(jīng)濟(jì)創(chuàng)新協(xié)同中心項(xiàng)目

    2024南通科技產(chǎn)業(yè)協(xié)同創(chuàng)新季期間,在“數(shù)通江海 智領(lǐng)未來——華為生態(tài)伙伴南通行”活動上,華為與南通市通州區(qū)人民政府、南通高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)管理委員會、南通高新控股集團(tuán)有限公司共同簽署南通數(shù)字經(jīng)濟(jì)創(chuàng)新協(xié)同中心項(xiàng)目。
    的頭像 發(fā)表于 11-20 10:29 ?664次閱讀

    NPU的工作原理解析

    神經(jīng)網(wǎng)絡(luò)的計(jì)算流程,顯著提高了處理速度和能效。NPU通常集成在SoC(System on Chip)中,與CPU和GPU協(xié)同工作,共同完成復(fù)雜的計(jì)算任務(wù)。 NPU的架構(gòu) NPU的架構(gòu)設(shè)
    的頭像 發(fā)表于 11-15 09:17 ?2717次閱讀

    什么是NPU芯片及其功能

    在人工智能(AI)技術(shù)迅猛發(fā)展的今天,NPU芯片已經(jīng)成為推動這一領(lǐng)域進(jìn)步的關(guān)鍵技術(shù)之一。NPU芯片,即神經(jīng)網(wǎng)絡(luò)處理單元,是一種專門為深度學(xué)習(xí)算法設(shè)計(jì)的硬件加速器。 一、NPU芯片的概念 NPU
    的頭像 發(fā)表于 11-14 15:48 ?5073次閱讀

    紫光同創(chuàng)榮獲中興通訊“最佳服務(wù)支持獎”

    近日,以“智領(lǐng)興時代”為主題的中興通訊2025年度全球合作伙伴大會在深圳召開。本次大會邀請了中興通訊全球戰(zhàn)略合作伙伴、核心供應(yīng)商深入交流探討,進(jìn)一步強(qiáng)化產(chǎn)業(yè)鏈協(xié)同創(chuàng)新,合作共贏!
    的頭像 發(fā)表于 11-13 09:37 ?1333次閱讀

    科大訊飛擬在綿陽建設(shè)人工智能協(xié)同創(chuàng)新中心

    近日,科大訊飛與四川省綿陽市游仙區(qū)正式簽署投資協(xié)議,計(jì)劃在該市建設(shè)科大訊飛人工智能協(xié)同創(chuàng)新中心及機(jī)器人超腦平臺應(yīng)用分中心項(xiàng)目。
    的頭像 發(fā)表于 11-11 14:53 ?858次閱讀

    什么是NPU?什么場景需要配置NPU?

    在人工智能(AI)技術(shù)如火如荼的今天,NPU神經(jīng)處理單元(Neural Processing Unit)作為一種新興的硬件加速器,正在成為ARM主板配置中的新寵。與傳統(tǒng)的CPU和GPU相比,NPU
    的頭像 發(fā)表于 10-11 10:13 ?6109次閱讀
    什么是<b class='flag-5'>NPU</b>?什么場景需要配置<b class='flag-5'>NPU</b>?