99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)編碼端到端的解決方案

LiveVideoStack ? 來源:Coco Liang ? 作者:Coco Liang ? 2020-09-14 15:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

歸根結(jié)底,每一種視頻壓縮方法都要權(quán)衡利弊(trade-off):如果允許更大的文件大小,就可以擁有更好的圖像質(zhì)量;但如果想讓文件非常小,那就必須要容忍錯誤出現(xiàn)的概率。但現(xiàn)在(以及不久的將來),人們希望基于神經(jīng)網(wǎng)絡的方法能夠在視頻文件大小和質(zhì)量之間做出更好的權(quán)衡與交換(a better trade-off)。

凡是有AI加持的技術(shù)都被看作明日曙光,帶著神秘的未來感,讓人忍不住要靠近。所幸有南大馬展教授牽線搭橋,我們才得以采訪到南大在讀博士劉浩杰,后者參與發(fā)表的“端到端的神經(jīng)視頻編碼(Neural Video Coding using Multiscale Motion Compensation and Spatiotemporal Context Model)”在人工智能頂會AAAI 2020并被選為Poster Spotlight,改進之后的版本已上線GitHub,成為開源項目(鏈接:https://njuvision.github.io/Neural-Video-Coding/)。

劉浩杰目前在紐約大學坦頓工程學院交換,巧也不巧,他恰是在疫情初期、美國對國內(nèi)封關(guān)的前一天抵達的紐約。 以下內(nèi)容由LiveVideoStack與劉浩杰的采訪整理而成。

01

for Haojie Liu

LiveVideoStack:為什么選擇機器學習、神經(jīng)編碼作為研究方向?劉浩杰:首先我的導師多年從事傳統(tǒng)視頻編碼的研究,在視頻編碼這個領(lǐng)域有著豐富的經(jīng)驗和技術(shù)積累,2016年碩士入學期間,正好也是神經(jīng)網(wǎng)絡、深度學習逐漸火熱起來的階段,當時基于深度學習的編碼才剛開始起步。 在這樣一個雙重契機下,我開始嘗試將兩者結(jié)合,主要研究基于深度學習的圖像視頻編碼,我研究的主要方向及課題至今也都據(jù)此展開。 LiveVideoStack:目前在紐約大學的研究方向?劉浩杰:目前在紐約大學坦頓工程學院王瑤教授的視頻實驗室(Video Lab)進行訪問,主要是進一步深化端到端圖像視頻編碼算法,細化整個端到端視頻編碼框架中每一個模塊,同時更好地將神經(jīng)編碼和視覺任務相結(jié)合,能做出更加面向?qū)嶋H應用以及真實場景的研究成果。 當然,設(shè)計一些有趣的不同于傳統(tǒng)框架的神經(jīng)視頻編碼框架也是我一直在探索的課題。

02

For Neural-Video-Coding

LiveVideoStack:能具體聊一聊神經(jīng)編碼端到端的解決方案嗎?劉浩杰:1)從圖像編碼的角度,我們的方法引入了非局部模塊和自注意力機制,能更好地提取局部和非局部信息,同時隱式的自注意力機制能自適應地分配碼率。2)圖像編碼進一步地由實驗室的其余同學完成了網(wǎng)絡定點化、單模型多碼率點覆蓋等工作,這些更面向?qū)嶋H應用和落地。3)結(jié)合圖像分割我們也在我們自身的系統(tǒng)中融入了基于目標的圖像編碼以及分析,在極低碼率下我們的算法能得到極高的主觀視覺質(zhì)量。3)在端到端視頻編碼系統(tǒng)中,我們結(jié)合自身開發(fā)的非局部自注意力圖像編碼算法NLAIC,采用時域預測模型ConvLSTM來提取并聚合時域的先驗,并與空間先驗融合從而提供了一個更好的概率模型能顯著減少碼率。4)在幀間預測過程中,我們結(jié)合了多尺度的運動估計生成多尺度的運動場,同時對視頻特征域進行多尺度的運動補償,逐級優(yōu)化預測性能,這樣的方法能更好地解決視頻遮擋等較難預測的問題,得到更好的視頻預測性能。 LiveVideoStack:研究過程中印象最深的難點?劉浩杰:相比于一些純粹的圖像增強算法,視頻編碼涉及到的最重要的是對所編碼特征進行碼率估計并聯(lián)合視頻重建損失進行率失真優(yōu)化。 傳統(tǒng)視頻編碼中模式選擇如何很好地應用在端到端系統(tǒng)中進行多幀優(yōu)化的過程中,解決在訓練過程中多幀率失真優(yōu)化是一個比較困難的點。 LiveVideoStack:就目前研究而言,仍有哪些待解決的具體問題?劉浩杰:1)幀間編碼是視頻編碼的一個很重要組成部分,在有限的碼率約束下,基于已編碼的視頻幀得到更好的預測幀是一個很關(guān)鍵的問題。2)基于時空信息更好地設(shè)計概率預測模型。3)更好地設(shè)計多幀率失真優(yōu)化,多幀的率失真優(yōu)化問題能有效地解決實際編碼過程中的誤差累積和傳播的問題,對于最終的編碼性能有很大的影響。 LiveVideoStack:如何看待“神經(jīng)編碼有著better trade-off”的說法?劉浩杰:我認為這個是兩面性的。對于圖像編碼來說,端到端的圖像編碼技術(shù)日趨成熟,由于基于學習的算法能同時優(yōu)化編碼器和解碼器,并且在特征變換、概率估計、量化等方法的不斷優(yōu)化的情況下,使得整個端到端框架能很好地進行率失真優(yōu)化。而對于視頻編碼來說,傳統(tǒng)視頻編碼中有著復雜的塊劃分以及模式選擇等來優(yōu)化整個編解碼系統(tǒng),而目前端到端的視頻編碼系統(tǒng)很難用一個模型來完美地去解決所有的問題。如何在訓練中對多幀的視頻編碼器進行優(yōu)化,以及是否采用多模型,幀內(nèi)幀間的RD選擇等很多問題都需要在這樣的系統(tǒng)中解決。因此,如何在端到端視頻編碼中設(shè)計一個比較好的率失真優(yōu)化策略能帶來很大的性能增益。 LiveVideoStack:對國內(nèi)做相關(guān)研究的機構(gòu)、平臺有哪些了解?劉浩杰:國內(nèi)例如上海交通大學、中科大、北京大學、騰訊、阿里巴巴都在這個領(lǐng)域有著很多優(yōu)秀的研究成果。 上海交大提出了最早的端到端的視頻編碼框架DVC,并在此基礎(chǔ)上有提出了DVC_pro,進一步地提升了編碼的性能; 中科大劉東老師團隊在傳統(tǒng)視頻編碼框架上引入了很多深度學習算法來提升對應的模塊極大地提高了傳統(tǒng)編碼框架的性能,同時他們提出的基于神經(jīng)網(wǎng)絡小波變換的端到端圖像壓縮算法,利用集成學習的方法針對特定圖像紋理優(yōu)化特定壓縮模型,在端到端視頻編碼框架中利用多參考幀的MLVC有著很高的壓縮性能; 北京大學團隊提出了層級的概率先驗表達,進一步優(yōu)化了端到端系統(tǒng)中的概率模型,在更高效編碼圖像的同時也有著更低的編解碼復雜度。 工業(yè)界騰訊所提出的Multi-frequency的特征變換方法,在圖像編碼中有著比VVC更好的性能。 LiveVideoStack:對國外神經(jīng)編碼相關(guān)的研究有關(guān)注嗎?劉浩杰:Google的編碼團隊在整個端到端系統(tǒng)上做出了很多基礎(chǔ)性的工作,從最早的基于遞歸模型的圖像編碼開始,以及之后的基于Variational autoencoder (VAE) 變分自編碼器的壓縮模型成為了目前大多數(shù)工作的基礎(chǔ),在此基礎(chǔ)上很多工作對于特征變換、量化、以及多層級的概率模塊來得到更好的壓縮性能。 蘇黎世聯(lián)邦理工ETH的視覺實驗室所提出的很多工作,包括soft-to-hard的量化方法、3D概率模型、極低碼率的圖像壓縮方法以及他們所提出的端到端視頻編碼系統(tǒng)都對神經(jīng)編碼這個領(lǐng)域有著很大的貢獻,同時他們還復現(xiàn)并開源了端到端視頻編碼DVC的工作,給很多研究人員帶來了極大的便利。 我也有關(guān)注Disney的方法,他們發(fā)表于ICCV 2019的文章,利用視頻內(nèi)插(video interpolation)的思路,引入了編碼的約束來得到中間幀,同時他們提出了從特征域去做殘差補償?shù)木幋a方法,最終得到很好的編碼性能。 LiveVideoStack:有關(guān)中間編碼的應用?劉浩杰:由于神經(jīng)編碼的變換一般通過特征提取的方式得到量化的特征,而很多計算機視覺任務一般也通過特征提取和表達來進行一些視覺任務,因此在進行一些視覺任務時,可以通過中間編碼的特征直接去做一些視覺任務而極大減少解碼還原成圖像的時間成本和復雜度。這樣的方法能很好地應用在一些機器視覺的方法中,并提高這些方法的應用效率。

03

For Traditional Video Coding

LiveVideoStack:傳統(tǒng)編碼的局限性有哪些?劉浩杰:1)傳統(tǒng)視頻編碼框架延續(xù)了基于塊的混合編碼框架已經(jīng)近20多年了,并取得了很大的成功,其成功很大程度地受益于硬件的不斷發(fā)展。但受限于摩爾定律,硬件發(fā)展逐漸陷入瓶頸,通過計算復雜度來進一步換取編碼性能日益困難,硬件設(shè)計的成本和難度也不斷提高。2)此外,如今視頻編碼已經(jīng)不僅僅局限于滿足用戶端的觀看需求,在用戶需求不斷增長和變化的當下,視頻編碼傳輸后的分析和其他視覺應用也更加豐富,對于一些新穎的視頻編碼算法和框架的探索和發(fā)展顯得尤為重要。3)傳統(tǒng)編碼主要集中在基于像素的預測,無法更好利用特征域的相關(guān)性更好地解決數(shù)據(jù)間的去冗余,此外基于學習的視頻編解碼能端到端地優(yōu)化編解碼器以及相關(guān)的模塊。 LiveVideoStack:如何評價VVC等新一代的傳統(tǒng)編解碼器?劉浩杰:就整體上VVC仍然遵循著相同的混合編碼框架,包括塊劃分、幀內(nèi)預測、幀間預測、變換與量化、熵編碼、濾波等,在每一個特定的技術(shù)點上,VVC都比原有技術(shù)有著進一步的提升。 客觀質(zhì)量而言,對于SDR視頻能比HEVC最高節(jié)省超過40%的碼率,并且對HDR以及VR視頻也有著相同的增益,其主觀性能也明顯高于HEVC。 LiveVideoStack:神經(jīng)編碼與傳統(tǒng)編碼的相同與不同?劉浩杰:神經(jīng)編碼和傳統(tǒng)編碼從本質(zhì)上都是通過利用視頻的時空相關(guān)性和對應的先驗信息來去冗余,從而能更緊湊地表達視頻信息,通過率失真優(yōu)化盡可能用有限的信息來得到更高的視頻重建。 從復雜度方面來講,由于目前傳統(tǒng)編碼和神經(jīng)視頻編碼依賴的計算平臺有區(qū)別,同時神經(jīng)編碼在工程化和硬件化領(lǐng)域上的發(fā)展遠遠不夠成熟,相信隨著人工智能芯片的發(fā)展,神經(jīng)網(wǎng)絡量化定點化的成熟,神經(jīng)編碼在各方面的優(yōu)勢會逐漸體現(xiàn)。 目前已有很多研究成果在GPU上能實現(xiàn)實時的圖像編解碼算法,并有較好的主觀圖像重建性能。

01

For the Very Close Future

LiveVideoStack:端到端的神經(jīng)編碼的相關(guān)應用場景?劉浩杰:1)基于目標的端到端圖像編碼,我們在研究過程中發(fā)現(xiàn)其在監(jiān)控場景下的車牌識別、行人識別任務上有著很好的表現(xiàn)和性能。2)在極低碼率下得到很高精度的重建圖像視頻,能在一些帶寬極其受限的場景下有著廣闊的應用場景,例如深海探測,航空通信等。 LiveVideoStack:神經(jīng)編碼應用的落地及普及需要哪些條件?劉浩杰:1)有更多的團隊來共同來對神經(jīng)編碼去制定一些統(tǒng)一的標準。2)更多的代碼開源以及更多的開放接口便于其他模塊接入。3)神經(jīng)網(wǎng)絡硬件的成熟和發(fā)展。 LiveVideoStack:有關(guān)神經(jīng)編碼本身有哪些仍需要被解決的難題?劉浩杰:1)由于神經(jīng)編碼后續(xù)模塊的不斷增加,如何更好地對多模塊進行端到端訓練是一個需要解決的問題。2)神經(jīng)編碼目前性能比較的基準沒有一個比較好的統(tǒng)一標準。3)多幀間的率失真優(yōu)化和碼率分配問題在訓練過程中往往很難解決,一個模型很難在所有序列上達到整體的最優(yōu)性能,模式選擇以及訓練多模型對于性能來說也尤其重要。 LiveVideoStack:機器學習在視頻編解碼中的應用前景?劉浩杰:1)利用機器學習的方法替代傳統(tǒng)視頻編碼中的相關(guān)模塊,機器學習或者深度學習在圖像視頻預測、去噪去塊等方法都有著比傳統(tǒng)方法更優(yōu)越的性能,用相對應的模塊去做替換能極大的提升傳統(tǒng)編碼的性能。2)設(shè)計一個全新的端到端的基于學習的視頻編碼框架,如更好的圖像變換,幀內(nèi)幀間預測模塊、量化、概率模型等。3)機器學習能拓展視頻編碼應用的邊界,從最早的只服務于用戶端的觀看需求,到如今服務于各種機器視覺任務,以及面向更高效的客戶端的視頻處理和分析。 LiveVideoStack:如何看待神經(jīng)編碼未來的發(fā)展?劉浩杰:在研究端到端視頻編碼框架的同時,我們實驗室也提出了一些面向硬件的神經(jīng)網(wǎng)絡編碼定點化,同時我們的算法也有基于一些神經(jīng)網(wǎng)絡芯片進行簡化并在上面進行測試。AI芯片以及面向這些芯片如何去優(yōu)化設(shè)計端到端的編碼系統(tǒng)是一個重要的問題,這也關(guān)系到神經(jīng)編碼的未來落地應用。

此外,劉浩杰所在實驗室的端到端圖像編碼算法參加了Google舉辦的第二屆圖像編碼比賽(https://openaccess.thecvf.com/content_CVPRW_2019/papers/CLIC%202019/Liu_Practical_Stacked_Non-local_Attention_Modules_for_Image_Compression_CVPRW_2019_paper.pdf),其中MS-SSIM指標在所有提交算法中排名第二,后續(xù)開源模型在客觀和主觀指標上能穩(wěn)定超過BPG算法,在一定圖像上達到并超過VVC的性能。其相關(guān)成果支持基于目標的編碼、特征域的多種視覺任務(PCM best paper finallist)、極低碼率的高質(zhì)量圖像重建等,在對視頻預測方面也提出了多種方法進一步提升幀間預測的性能和效率。 編輯:Coco Liang

原文標題:端到端神經(jīng)視頻編碼=A Better Trade-off ?

文章出處:【微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35109

    瀏覽量

    279574
  • 視頻編碼
    +關(guān)注

    關(guān)注

    2

    文章

    114

    瀏覽量

    21330

原文標題:端到端神經(jīng)視頻編碼=A Better Trade-off ?

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    為什么自動駕駛大模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)落地,(End-to-End)大模型也成為行業(yè)研究與應用的熱門方向。相較于傳統(tǒng)自動駕駛系統(tǒng)中的模塊化結(jié)構(gòu),
    的頭像 發(fā)表于 07-04 16:50 ?211次閱讀
    為什么自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    數(shù)據(jù)標注方案在自動駕駛領(lǐng)域的應用優(yōu)勢

    10-20TB,其中需要標注的數(shù)據(jù)占比超過60%。在這樣的背景下,數(shù)據(jù)標注方案應運而生,正在重塑自動駕駛的數(shù)據(jù)生產(chǎn)范式。
    的頭像 發(fā)表于 06-23 17:27 ?272次閱讀

    為何成為各車企智駕布局的首要選擇?

    算法實現(xiàn)輸入輸出的整體映射,技術(shù)通過將原始傳感器數(shù)據(jù)直接輸入單一神經(jīng)網(wǎng)絡,并在網(wǎng)絡中經(jīng)
    的頭像 發(fā)表于 06-07 11:52 ?172次閱讀
    為何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>成為各車企智駕布局的首要選擇?

    中興通訊推出基于AI驅(qū)動的全新網(wǎng)絡解決方案

    在世界移動通信大會期間(MWC25巴塞羅那 當?shù)貢r間3月4日上午),中興通訊隆重舉辦了AIR DNA未來網(wǎng)絡發(fā)布會,正式推出基于AI驅(qū)動的全新網(wǎng)絡解決方案——AIR DNA。該
    的頭像 發(fā)表于 03-05 16:39 ?614次閱讀

    國產(chǎn)萬兆以太網(wǎng)通信芯片提供的車載網(wǎng)絡解決方案

    國產(chǎn)萬兆以太網(wǎng)通信芯片提供的車載網(wǎng)絡解決方案
    的頭像 發(fā)表于 02-28 10:01 ?453次閱讀
    國產(chǎn)萬兆以太網(wǎng)通信芯片提供<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的車載網(wǎng)絡<b class='flag-5'>解決方案</b>

    自動駕駛技術(shù)研究與分析

    傳遞和全局優(yōu)化的優(yōu)勢,成為智能駕駛技術(shù)發(fā)展的重要方向。與傳統(tǒng)模塊化架構(gòu)相比,技術(shù)通過深度神經(jīng)網(wǎng)絡實現(xiàn)從傳感器數(shù)據(jù)輸入車輛控制信號輸出
    的頭像 發(fā)表于 12-19 13:07 ?887次閱讀

    已來,智駕仿真測試該怎么做?

    智駕方案因強泛化能力、可持續(xù)學習與升級等優(yōu)勢備受矚目,但這對仿真測試帶來了巨大挑戰(zhàn)??抵\探索了一種有效的
    的頭像 發(fā)表于 12-04 09:59 ?3223次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>已來,智駕仿真測試該怎么做?

    黑芝麻智能算法參考模型公布

    黑芝麻智能計劃推出支持華山及武當系列芯片的算法參考方案。該方案采用One Model架構(gòu),并在決策規(guī)劃單元引入了VLM視覺語言大模型和
    的頭像 發(fā)表于 12-03 12:30 ?928次閱讀
    黑芝麻智能<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>算法參考模型公布

    爆火的如何加速智駕落地?

    自動駕駛,唯有?)技術(shù)通過消除模塊間數(shù)據(jù)傳遞中的信息損耗和延遲,以
    的頭像 發(fā)表于 11-26 13:17 ?1157次閱讀
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智駕落地?

    連接視覺語言大模型與自動駕駛

    自動駕駛在大規(guī)模駕駛數(shù)據(jù)上訓練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復雜罕見的駕駛場景,依然存在局限性,這是因為
    的頭像 發(fā)表于 11-07 15:15 ?705次閱讀
    連接視覺語言大模型與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛

    智己汽車“”智駕方案推出,老司機真的會被取代嗎?

    隨著智能駕駛技術(shù)的發(fā)展,行業(yè)已經(jīng)從早期基于簡單規(guī)則和模塊化邏輯的自動駕駛,逐步邁向依托深度學習的高復雜度智能駕駛解決方案,各車企也緊跟潮流,先后宣布了自己的智駕
    的頭像 發(fā)表于 10-30 09:47 ?832次閱讀
    智己汽車“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智駕<b class='flag-5'>方案</b>推出,老司機真的會被取代嗎?

    Mobileye自動駕駛解決方案的深度解析

    自動駕駛技術(shù)正處于快速發(fā)展之中,各大科技公司和汽車制造商均在爭相布局,試圖在這個新興領(lǐng)域占據(jù)一席之地。Mobileye作為全球自動駕駛技術(shù)的領(lǐng)軍企業(yè)之一,憑借其獨特的自動駕駛解決方案
    的頭像 發(fā)表于 10-17 09:35 ?833次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛<b class='flag-5'>解決方案</b>的深度解析

    測試用例怎么寫

    編寫測試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關(guān)鍵步驟。以下是一個詳細的指南,介紹如何編寫
    的頭像 發(fā)表于 09-20 10:29 ?971次閱讀

    恩智浦完整的Matter解決方案

    恩智浦為打造Matter設(shè)備,提供了完整的解決方案,從連接和安全解決方案到處理器和軟件,應有盡有,為Matter標準的規(guī)?;逃锰峁┯?/div>
    的頭像 發(fā)表于 08-26 18:04 ?3010次閱讀
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>

    實現(xiàn)自動駕駛,唯有?

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?1518次閱讀
    實現(xiàn)自動駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?