99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

華為云如何助力行業(yè)實現(xiàn)音視頻體驗升級

華為開發(fā)者社區(qū) ? 來源:華為開發(fā)者社區(qū) ? 作者:華為開發(fā)者社區(qū) ? 2022-04-14 11:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著5G的落地和消費終端的不斷升級,消費環(huán)節(jié)對視頻畫質(zhì)的要求也越來越高,為了給消費者帶來更清晰、更逼真和更具沉浸感的觀感體驗,對云端視頻處理技術也提出了更高的要求。在本次2022 LiveVideoStack線上公開課中,華為云媒體處理服務研發(fā)負責人查勇,結(jié)合華為云在超高清視頻轉(zhuǎn)碼領域的實踐經(jīng)驗,詳細介紹了云上使用AI技術提升視頻視聽體驗的關鍵技術,以及如何助力行業(yè)實現(xiàn)音視頻體驗升級。

公開課

大家晚上好,非常榮幸參加LiveVideoStack線上公開課。首先自我介紹下,我是查勇,來自華為云,是媒體處理服務的研發(fā)負責人。近10年我一直是在從事視頻編解碼產(chǎn)品的開發(fā)和架構(gòu)設計工作,我本人是非常熱愛媒體處理相關技術的研究的。

參與此次公開課分享的目的主要有兩方面,一方面是想通過本次分享,為大家介紹華為云媒體處理服務在視頻AI轉(zhuǎn)碼領域的一些技術實踐;另一方面是想與更多專家交流,互相學習,以促進下一代視頻轉(zhuǎn)碼技術的快速發(fā)展,助力行業(yè)實現(xiàn)音視頻體驗升級。

7a14a676-bb14-11ec-aa7f-dac502259ad0.png

本次分享的主題包括三個部分:首先介紹超高清視頻行業(yè)發(fā)展趨勢,以及這些趨勢為云轉(zhuǎn)碼帶來的機遇和挑戰(zhàn);其次從技術層面分析一下,在超高清視頻時代,通過云轉(zhuǎn)碼提升音視頻體驗的一些關鍵技術點;最后從華為云媒體處理服務自身的實踐出發(fā),詳細介紹一下華為云如何使用AI轉(zhuǎn)碼技術來打造視頻的超高清體驗,希望能給大家?guī)硪恍┦斋@和啟發(fā)。

01/超高清視頻行業(yè)發(fā)展的趨勢

在大視頻時代,隨著5G、AI以及云技術的發(fā)展,超高清視頻行業(yè)迎來了一個高速發(fā)展期。我們可以看到,在生產(chǎn)端,4K/8K超高清制播平臺正在加快建設中,超高清電視的制播模式也在不斷創(chuàng)新,當前超高清內(nèi)容的生產(chǎn)能力得到了極大提升。在消費端,隨著芯片技術的發(fā)展,4K/8K電視和沉浸式終端的逐漸普及,消費端體驗超高清內(nèi)容的媒介也在不斷豐富。

在傳輸環(huán)節(jié),5G高帶寬、低時延的特點,使得超高清內(nèi)容更容易獲取,互動性場景的體驗也越來越好。在處理環(huán)節(jié),借助云端的強大算力和AI技術,我們可以實現(xiàn)超高清內(nèi)容的極致壓縮和畫質(zhì)增強,在提升播放體驗的同時,可以極大地降低分發(fā)和制作的成本。另外借助邊緣云計算的技術和能力也可以進一步地降低超高清視頻的制作和分發(fā)成本。

在應用場景上,我們可以看到超高清視頻也逐步地在向直播、VR、多視角、自由視角等領域發(fā)展,應用范圍正在逐步擴展。

總的來說,超高清視頻行業(yè)的基礎設施正在逐步完善,應用場景也在逐步走向成熟。

7a3491ac-bb14-11ec-aa7f-dac502259ad0.png

大家都知道一個產(chǎn)業(yè)的快速發(fā)展,是和生態(tài)建設的成熟度息息相關的。下面我們一起看一下超高清視頻產(chǎn)業(yè)在標準生態(tài)建設以及政策方面的情況。

首先在組織層面,中國已經(jīng)成立了超高清產(chǎn)業(yè)聯(lián)盟。在標準方面,超高清視頻產(chǎn)業(yè)發(fā)展的白皮書和與之關聯(lián)的軟硬件諸多協(xié)議也都相繼出臺,這些都進一步促進了超高清視頻產(chǎn)業(yè)的健康有序發(fā)展。在政策方面,14省市發(fā)布了超高清視頻產(chǎn)業(yè)發(fā)展的行動計劃,為超高清產(chǎn)業(yè)消費體驗升級,行業(yè)創(chuàng)新提供指導意見。

在生態(tài)和政策的雙重驅(qū)動下,當前多地已經(jīng)啟動了超高清項目實驗基地,如成都的超高清基地、青島高清視頻基地、廣州花果山基地以及馬欄山內(nèi)容基地等,超高清產(chǎn)業(yè)實現(xiàn)進一步向縱深發(fā)展。

根據(jù)權威機構(gòu)預測,2022年中國超高清視頻產(chǎn)業(yè)總值將達到4萬億元,超高清用戶總數(shù)也將達到2億。我們可以看到,當前4K/8K電視已經(jīng)成為電視機廠商的旗艦標配,消費者對視頻畫質(zhì)的關注度也越來越高,HDR、高幀率、寬色域、高色深,這些指標都成為終端性能的一個新賣點。

另外隨著芯片技術的發(fā)展,沉浸式終端的種類也越來越多,消費者越來越追求高逼真、更加接近現(xiàn)實的視頻體驗,我們正面臨一個視頻消費體驗升級的時代。

7a5b3032-bb14-11ec-aa7f-dac502259ad0.png

超高清行業(yè)的高速發(fā)展以及消費體驗的升級,為云端視頻處理也帶來了更多的機會點:一是當前超高清內(nèi)容的供給跟不上硬件發(fā)展的速度,為了讓市場上非超高清視頻內(nèi)容帶來超高清的體驗,我們可以使用云端視頻處理的技術來解決;二是視頻在采集、制作和壓縮環(huán)節(jié)都會引入噪聲或者失真,我們可以借助云端視頻處理的能力來降低引入專業(yè)設備和人工處理的成本。

但很多時候機遇與挑戰(zhàn)是并存的,通過云端視頻處理來提升音視頻體驗,也面臨著幾方面的挑戰(zhàn):一方面,市場上存量的視頻內(nèi)容,例如老舊影片和電視劇,局限于當時的采集設備和制作技術,畫質(zhì)是參差不齊的,涉及畫質(zhì)修復的種類和場景非常多;另一方面,影響視頻體驗的客觀指標非常多,例如低分辨率、噪聲、模糊、低幀率、色彩灰暗、暗亮斑等等,當前無法使用單一技術來完成所有場景的體驗提升,這對技術的積累要求非常高。

02/云轉(zhuǎn)碼打造視頻超高清體驗的關鍵技術點

7a7d8308-bb14-11ec-aa7f-dac502259ad0.png

那么云端視頻處理需要具備哪些關鍵技術點來提升視頻的畫質(zhì)呢?要具備超高清視頻的體驗,從一些低質(zhì)量視頻的表現(xiàn)出發(fā)我們可以總結(jié)出影響體驗的一些關鍵特征,比如低分辨率、噪聲、模糊、劃痕、閃爍、低幀率、色彩灰暗等等。對應的我們在云端轉(zhuǎn)碼的系統(tǒng),就可以針對這些低質(zhì)視頻的特征,使用相應的技術來改善低質(zhì)視頻的畫質(zhì),主要技術包括超分、降噪、修復、插幀、SDR2HDR。

2.1 超分算法

7a9d7136-bb14-11ec-aa7f-dac502259ad0.png

首先來看一下超分,也叫空間分辨率增強。超分本質(zhì)上是指在單位空間內(nèi)生成更多的像素,增大像素的密度,來增強圖像細節(jié),提高視頻的清晰度。

深度學習網(wǎng)絡應用于超分之前,提升分辨率大多使用傳統(tǒng)的插值算法。如比較常用的雙線性插值,雙三次插值,lanczos插值等算法,我們在轉(zhuǎn)碼系統(tǒng)中經(jīng)常會用到這些算法做下采樣。如上圖(左)是一個雙三次插值的示例,該算法利用的是待采樣點周圍16個點的灰度值做三次差值,再通過選取適當?shù)牟逯祷瘮?shù)來擬合數(shù)據(jù)。

從算法的描述上我們能看出,傳統(tǒng)的插值算法一般是要預定義一個插值基函數(shù),也叫映射函數(shù),考慮到計算量,我們的映射函數(shù)一般不會太復雜,因此傳統(tǒng)算法在這種場景的泛化能力是比較差的。另外因為大多是幀內(nèi)插值,我們插入的值與前后幀是無時間關聯(lián)性的,與鄰近像素點空間關聯(lián)性也相對較少,因此效果一般不會太好。

當前要追求超分的效果,大家越來越傾向于選擇基于深度學習的超分算法。如圖(右)是一個簡單的超分網(wǎng)絡 — SRCNN,大家都很熟悉這個網(wǎng)絡模型。隨著SRCNN的出現(xiàn),我們真正地進入到了深度學習的超分時代,基本上每年都有一些新的研究方向出現(xiàn),超分神經(jīng)網(wǎng)絡也變得越來越強大。相比于傳統(tǒng)的超分算法,基于神經(jīng)網(wǎng)絡的超分映射函數(shù)是多層非線性且可以學習的,插入的值在時間和空間維度能夠關聯(lián)更多的周邊像素,細節(jié)上的體現(xiàn)更加精確,在超高清領域應用也越來越廣泛。

2.2 視頻插幀

7abbe6d4-bb14-11ec-aa7f-dac502259ad0.png

除了空間分辨率會影響畫質(zhì),時間分辨率也就是幀率對人的主觀體驗影響也很大。我們知道現(xiàn)在終端設備更新?lián)Q代的速度很快,支持的分辨率從480p、720p到1080p,再到現(xiàn)在的4K和8K。同樣的,終端支持的幀率也從25fps到60fps再到120fps甚至更高,高刷新率現(xiàn)在也是終端的一個重要賣點。

除了依賴采集的硬件來提高幀率,目前使用軟件的方法也逐步得到應用。大家都體驗過, 在一些劇烈的運動場景下,低幀率會帶來明顯的卡頓感,影響人的視覺感受。視頻插幀算法,就是在原始的視頻幀之間合成不存在的幀來提高畫面的流暢度,簡單來說就是提高幀率?;诓鍘惴ǖ难芯糠浅6啵鐐鹘y(tǒng)的基于光流的插幀算法。

傳統(tǒng)算法有什么缺點呢,現(xiàn)實畫面中存在一些大的物體快速運動或者遮擋的場景,基于傳統(tǒng)的光流插幀難以解決這種場景帶來的問題,因此插幀的質(zhì)量在這些場景無法得到改善。想要提升效果的話,我們就回歸到了基于AI的思路上面。

目前AI插幀的思路方法一般都是預訓練生成光流估計模型,算法實現(xiàn)上首先輸入兩幀,計算幀間的光流和提取特征金字塔,然后把warpping之后的圖、特征金字塔和原始圖像一起送入圖像合成網(wǎng)絡,生成插幀之后的圖像。目前這個方向上相關的論文也非常多,大家感興趣的可以去研究一下。

2.3 視頻降噪技術

7ad7570c-bb14-11ec-aa7f-dac502259ad0.png

接下來我們看一下視頻降噪技術,大家應該都體驗過視頻中的噪聲,我們經(jīng)??吹囊恍├掀械难┗ㄔ肼暫烷W爍噪聲是很明顯的,給人帶來的畫質(zhì)體驗是非常差的。我們知道在視頻采集到送顯的一個完整的周期內(nèi),涉及到的各個階段都會引入不同種類的噪聲,最終都會反饋到消費環(huán)節(jié)的播放體驗中。正因為噪聲引入的來源是多樣且廣泛的,所以視頻降噪是非常必要的。

通過降噪技術,我們可以在保持原始信息完整性的同時,又能夠去除無用的一些信息。當前各種圖像降噪算法非常多,比如基于空域像素特征去噪和變換域去噪的傳統(tǒng)降噪算法。傳統(tǒng)的降噪算法在降噪的同時往往會丟失圖像的一些細節(jié)或者邊緣信息,而且一般來說我們需要設置降噪?yún)?shù),效果受參數(shù)的影響也比較大,因此在通用場景上難以廣泛應用。

另一個快速發(fā)展的方向是基于神經(jīng)網(wǎng)絡的自適應降噪算法,算法可以根據(jù)輸入圖像噪聲的級別,自適應地調(diào)節(jié)降噪的強度,圖像的細節(jié)或邊緣信息損失也會相對較小,能夠最大程度的保留原始信息。

基于神經(jīng)網(wǎng)絡的自適應降噪算法,同樣也有自身的缺點。比如由于訓練的素材有限,場景無法全覆蓋,一些場景會超出網(wǎng)絡的學習能力,當然這也是采用深度學習算法遇到的普遍問題。因為噪聲來源的場景會更廣泛,所以對算法的考驗也更大。

2.4 視頻修復技術

7af181fe-bb14-11ec-aa7f-dac502259ad0.png

視頻修復分為狹義的修復和廣義的修復,狹義的修復是指針對視頻中存在的一些問題,比如劃痕、暗亮斑、閃爍等問題的針對性修復。廣義的修復是在修復視頻瑕疵的同時,對原視頻做一些增強。廣義的修復應用范圍會更廣一些,主要應用在老舊影片、老舊電視劇、一些低質(zhì)的UGC視頻等。

在AI智能修復老片技術出現(xiàn)以前,經(jīng)典老片修復通常是由人工逐幀修復的,效率低,許多大片修復的時間以年為單位。如果使用AI的智能修復技術框架,就可以基于海量的樣本去訓練和自動學習,可以大幅的提升老片修復的質(zhì)量和效率。人工無法做到的修復效果,借助當前的AI技術都可以輕松完成。

盡管目前可以使用AI技術修復老片,但修復經(jīng)典老片仍然不是一件容易的事情,最大的難度是在保留老片的藝術風格和美感的同時還要處理不同的問題和瑕疵。

2.5 SDR2HDR

7b128e94-bb14-11ec-aa7f-dac502259ad0.png

另外一個關鍵技術點,我們看一下近幾年發(fā)展較快的一項技術,SDR 2HDR 。HDR由于其相比SDR具有更高的亮度范圍、更廣的色彩范圍和更深的位深而被大家所熟知,對應帶來的是視頻具有更豐富的細節(jié),更寬廣的色域和更自然的色彩過渡。我們可以看到上圖中SDR和HDR的對比,在亮度、色彩飽和度以及對比度上,能明顯地感受到HDR的圖片帶來的視覺效果更好一些。另外,當前HDR領域也出現(xiàn)了不同的標準,從圖表中可以看到這些標準在不同維度的差異。

03/華為云在視頻AI轉(zhuǎn)碼領域的技術實踐

下面我們一起來看一下,在超高清視頻時代,華為云是如何使用AI技術來提升視頻畫質(zhì)并改善播放體驗的。

針對視頻體驗提升,華為云推出了智享超清技術,它是一套完整的視頻增強和修復的解決方案,主要的技術包括我們上文提到的超分、倍幀,SDR2HDR、HDRVivid、2D轉(zhuǎn)3D以及畫質(zhì)修復等。華為云智享超清技術是完全基于華為自研AI算法,采用多任務AI增強方式,通過智能修復和智能增強技術來打造視頻的超高清體驗,能夠更好地服務直播、點播和互動文娛等場景。

3.1 華為云智享超清技術總體架構(gòu)

7b31649a-bb14-11ec-aa7f-dac502259ad0.png

上圖是華為云智享超清技術的總體架構(gòu):基于AI Deep Learning的一個多任務畫質(zhì)增強。前面講到單一任務是很難解決畫質(zhì)的所有問題的,我們綜合分析后采用了圖中的pipeline架構(gòu),每一個增強模塊相當于一個算法插件,可以自由組合,使用起來也相對靈活。在處理之前我們會做一些基本的預分析,比如說噪聲強度分析、畫面亮度分析、ROI區(qū)域檢測等等,這些分析結(jié)果會用于指導后續(xù)模塊的智能化處理。

從圖中可以看出,畫質(zhì)增強的整體解決方案主要包括:基礎層的修復,時域、空域的清晰度增強,亮度和顏色增強,3D增強等。在實際的處理中也可以做一些選擇性的修復,選擇性修復主要包括去劃痕、去亮斑、去閃爍等。在算法設計上我們會更強調(diào)自適應能力,也就是在面對不同場景的畫質(zhì)損失時,視頻增強技術在盲修復時要有很強的泛化能力。

在實際應用過程中,這些模塊并不都是順序處理的,因為這樣時間花費很大,為了提高效率,我們也會將多個視頻增強的任務進行聯(lián)合優(yōu)化處理。

3.2 面向混合失真的AI畫質(zhì)修復

7b50a292-bb14-11ec-aa7f-dac502259ad0.png

眾所周知,真實的視頻源會包含多種混合失真,比如說噪聲、壓縮失真、模糊等等,并且這些失真程度會差異很大。如果僅考慮分辨率因素,假設我們對一個視頻進行超分,超分之后可能反而會引起瑕疵的放大,難以帶來顯著的視覺效果改善。

華為云智享超清技術通過構(gòu)建多任務的混合失真修復網(wǎng)絡,來實現(xiàn)更優(yōu)的主觀效果。我們使用了很多的步驟來模擬失真的視頻,通過多種途徑構(gòu)建生成更多用于畫質(zhì)修復的樣本,比如加上高斯噪聲,隨機加上一些運動模糊,加上一些彩色噪聲,降采樣來降低分辨率,壓縮時使用很高的壓縮率來產(chǎn)生壓縮噪聲等。構(gòu)建了這樣的一種數(shù)據(jù)集之后,我們通過混合失真的多任務視頻增強算法,自適應地去估計各種失真,這樣就可以增強算法對不同質(zhì)量視頻的泛化能力。

當然這里也會面臨許多挑戰(zhàn),比如在失真估計模塊中如何估計噪聲強度,因為不同圖像的噪聲不同,同一圖像的不同區(qū)域噪聲也不同。我們提出了AI自適應的降噪算法,對圖片不同區(qū)域主觀視覺的噪聲差異進行評估。首先會對噪聲明顯區(qū)域進行精準的定位,然后綜合考慮時域和空域的噪聲強度差異,進行不同區(qū)域的噪聲強度估計。

還有一個很大的挑戰(zhàn)就是噪聲的模擬,上面提到的方法模擬出的噪聲與真實噪聲還是有差異的。我們使用了AI網(wǎng)絡例如CycleGAN來模擬真實的噪聲,這樣訓練后我們就可以在畫面自然度和清晰度等維度實現(xiàn)一個更優(yōu)的主觀效果。

3.3 基于語義特征的視頻超分

7b728bb4-bb14-11ec-aa7f-dac502259ad0.png

我們再來看一下華為基于語義特征的視頻超分技術。對于畫質(zhì)的空間分辨率增強,我們提出了基于語義特征的視頻超分,即先根據(jù)語義對圖像進行分割,然后分區(qū)域進行處理,最后再對增強后的結(jié)果進行融合。例如針對大部分電影、電視劇中人眼關注較強的一些區(qū)域,像字幕、人臉、紋理等,基于人眼主觀的特點,使用單獨的算法模塊對這些關注區(qū)域進行重點處理,確保人眼關注區(qū)域可以達到比較好的增強效果,從多個局部最優(yōu)解獲得全局最優(yōu)解。

這種基于語義特征的視頻超分,一般可以獲得比盲超分更好的增強效果,因為它們具有較強的先驗,比如字幕增強,字幕和每個字大概是什么樣子是確定的;人臉增強,人臉都包含眼睛、嘴、鼻子、耳朵。我們可以收集很多字幕、紋理的數(shù)據(jù)庫,有了這種先驗,增強的效果會得到很大的提升。

3.4 基于耦合光流網(wǎng)絡的視頻插幀

7b9ade16-bb14-11ec-aa7f-dac502259ad0.png

大家應該都有過這種體驗,普通20fps或者30fps的視頻在手機上看很流暢,一旦放到大屏上,運動被放大,卡頓就會比較明顯,所以我們需要對時域進行增強,提高視頻的幀率。

針對視頻插幀的任務,華為云提出了一種耦合光流網(wǎng)絡模型,這種光流網(wǎng)絡模型可以準確地估計出前后兩幀之間的光流,在一些困難的場景,比如說小物體快速運動、遮擋等場景,光流估計都比較準確。如圖是一個例子,左邊是目前比較先進的視頻插幀算法RIFE估計的光流,右邊是華為云自研算法估計的光流。大家可以不關注這些顏色代表的含義,僅從形狀上來看,可以看出右邊的光流模型估計出的光流會更細膩一些,細節(jié)會更豐富一些。

3.5 基于場景自適應的SDR2HDR技術

7bc28f10-bb14-11ec-aa7f-dac502259ad0.png

大家都清楚從SDR到HDR轉(zhuǎn)換的時候會面臨許多挑戰(zhàn),比如亮場景和暗場景,我們要使用不同的方案來實現(xiàn)場景的自適應,實現(xiàn)最佳的亮度動態(tài)擴展;再比如說SDR中的綠色在轉(zhuǎn)換成HDR時,有時會出現(xiàn)綠色失真的問題;人臉的顏色可能因為背景色導致轉(zhuǎn)換后偏紅,這種情況需要做到色彩擴展的場景自適應,在擴展色彩時控制色偏;再比如有些噪聲或者失真,在轉(zhuǎn)換成HDR時被放大了,或者更容易被感知到了,這種情況下,我們就應該控制亮度提升導致的噪聲和失真。

華為云SDR2HDR的方案是基于AI技術來實現(xiàn)場景自適應的轉(zhuǎn)換,舉個例子:對于一個待處理的原視頻,首先會進行一個場景識別,分類出比如人臉、風景等類別,進行場景分類后,就可以實現(xiàn)自適應場景的亮度擴展和自適應場景的色彩擴展,對轉(zhuǎn)制過程中各場景的Tone Mapping算法進行優(yōu)化,來抑制8比特擴展到10比特后出現(xiàn)的失真。

在實際應用時,我們會對大量轉(zhuǎn)換后的視頻進行主觀評測,會針對不同場景轉(zhuǎn)換后視頻出現(xiàn)的一些問題做針對性調(diào)優(yōu),這樣做之后,算法當前在影視劇和電視劇場景都有非常好的效果。

3.6 基于CUVA HDR標準的場景自適應SDR2HDR技術

7bd833d8-bb14-11ec-aa7f-dac502259ad0.png

上面我們提到的華為云SDR2HDR技術轉(zhuǎn)換的是HDR10,前面的介紹中也列舉了HDR技術的不同標準。華為公司作為主要貢獻方深度參與了CUVA HDR技術標準的制定。HDR10采用的是靜態(tài)的色調(diào)映射,會有顯示設備兼容性的問題,比如原場景的亮度是1000nit,大于顯示屏500nit的最大亮度值,使用靜態(tài)的映射曲線映射后,視頻在500nit顯示屏上顯示時就容易出現(xiàn)過曝的問題,很多細節(jié)就消失了。

華為云當前基于CUVA HDR標準的 SDR2HDR技術采用的是動態(tài)元數(shù)據(jù)方案,會適應不同的亮度屏幕來達到最佳的顯示效果,能夠確保同一內(nèi)容在不同亮度屏上實現(xiàn)最優(yōu)的體驗,避免產(chǎn)生色彩變暗、過曝等問題。我們前面提到的場景自適應技術同樣也適用在CUVA HDR轉(zhuǎn)換中,這種多技術結(jié)合的方案,能夠帶來更好的設備兼容性和場景適應性。

04/總結(jié)

7bfe449c-bb14-11ec-aa7f-dac502259ad0.png

以上就是華為云媒體處理服務打造視頻超高清體驗的幾個關鍵技術。影響視頻體驗的指標是很多的,但提升體驗的方向是基本明確的,雖然這里面有很多的困難和技術層面的挑戰(zhàn),但相信我們技術人能夠直面挑戰(zhàn),用技術上的創(chuàng)新給用戶帶來極致的體驗。超高清視頻的時代已然到來,要打造極致的體驗,云上技術創(chuàng)新只是其中重要的一環(huán),唯有端管云協(xié)同服務、協(xié)同創(chuàng)新,才能給消費者帶來更真實的視頻感官享受。

本次分享全部內(nèi)容到此結(jié)束,謝謝大家。

Q&A

Q:HDRVivid標準的優(yōu)勢和前景在哪里?

HDR Vivid標準,是在現(xiàn)有HDR基礎上,通過增加動態(tài)元數(shù)據(jù),為不同亮度顯示終端提供更加準確的動態(tài)范圍映射方式,可以最大限度地還原HDR內(nèi)容原有藝術效果。因為采用的是動態(tài)元數(shù)據(jù)的方案,就可以有效解決SDR轉(zhuǎn)換成HDR后,在不同終端上顯示可能帶來的一些問題,比如暗場景產(chǎn)生色彩過暗,亮場景產(chǎn)生過曝的問題。HDR Vivid標準的呈現(xiàn)效果明顯優(yōu)于國際主流的靜態(tài)元數(shù)據(jù)HDR方案,在亮度適配和終端兼容性方面表現(xiàn)尤為出色。作為中國超高清視頻產(chǎn)業(yè)聯(lián)盟(CUVA)發(fā)布的中國首個高動態(tài)范圍視頻標準,提供了端到端媒體系統(tǒng)標準,并且采取了友好的知識產(chǎn)權政策,更容易推廣和產(chǎn)業(yè)化部署。

Q:在視頻增強和修復這塊,有沒有遇到一些比較有挑戰(zhàn)的點,具體是怎么解決的?

采用AI的技術遇到的問題和挑戰(zhàn)有時候會比傳統(tǒng)的算法更多,在視頻增強和修復這塊,最大的難題是如何做到場景自適應。今天我們講解中提到最多的也是場景自適應的技術,我們講神經(jīng)網(wǎng)絡的泛化能力,要做到全場景覆蓋是很難的。受限于訓練數(shù)據(jù)總有一些場景效果是不滿足的,依賴我們對特殊場景做針對性的優(yōu)化。

Q:視頻插幀,1080p分辨率視頻,速度怎么樣?

華為云的視頻插幀算法也在不斷地做性能優(yōu)化,目前視頻插幀結(jié)合超分已經(jīng)在1080p分辨率視頻實現(xiàn)商用,端到端性能還是可以滿足客戶訴求的。針對這些AI增強算法我們使用了GPU加速,對于不同的算法我們也會通過調(diào)整或者簡化模型結(jié)構(gòu)來降低算法復雜度。

Q:華為云官網(wǎng)哪個服務開放了智享超清能力,可以試用嗎?

華為云媒體處理服務官網(wǎng)有智享超清能力的介紹和效果示例的,大家可以上我們的官網(wǎng)去看一下。智享超清只是我們云轉(zhuǎn)碼其中的一個子能力,我們?nèi)A為云媒體處理服務對外開放了豐富的媒體處理能力,比如標準轉(zhuǎn)碼、高清低碼、截圖、水印、加密等等。

Q:基于光流的插幀算法目前咱們有哪些應用嗎?實際效果如何?

基于光流的插幀算法,目前我們已經(jīng)應用到超高清轉(zhuǎn)制場景了,華為云媒體處理服務的智享超清特性里面就包含了基于AI的插幀能力,對于30fps及以內(nèi)的普通幀率高清影片,可以生成60fps甚至120fps的高幀率視頻,讓普通影片在大屏上也能流暢播放。大家手機上如果有華為視頻APP,可以觀看AiMax專區(qū)的影片,在大屏上播放效果特別好。

Q:請問下,F(xiàn)Fmpeg本身也有一些視頻修復算法,華為云使用了FFmpeg的AI修復算法嗎?

FFmpeg基于AI框架的能力,比如超分、去雨等,給了我們基于FFmpeg的框架如何去集成深度學習算法的一個指導,主要是一個技術牽引,這些FFmpeg開放出來的示例距離商用還是有一定的GAP的。我們有專業(yè)的AI算法團隊,可以在技術上做持續(xù)的積累。

Q:AR視頻源比如高清4K、8K,對這些高分辨率素材處理有什么加速建議嗎?

針對4K、8K的超高清片源,首先在編解碼上使用CPU已經(jīng)有了一定的性能瓶頸,我們會使用硬件編碼卡來做加速;其次在AI增強上,我們會使用GPU來加速,但不是所有的算法都使用GPU,其中一部分也使用了 CPU的能力,比如說噪聲強度檢測、亮度檢測等模塊,因為其本身對性能消耗是不大的,我們就可以基于CPU去處理。對于算法是基于CPU還是GPU處理,可以根據(jù)算法的復雜度來決定。

Q:華為云的轉(zhuǎn)碼耗時比現(xiàn)狀是多少,在轉(zhuǎn)多格式的情況下,怎么提升耗時比呢?

目前我們轉(zhuǎn)碼分為標準轉(zhuǎn)碼和高清低碼,在標準轉(zhuǎn)碼和高清低碼上都是支持一入多出的。

在做長視頻轉(zhuǎn)碼的時候,我們會做并行轉(zhuǎn)碼,先對長視頻進行切片,然后進行分布式并行轉(zhuǎn)碼,最后做轉(zhuǎn)碼后分片的合并。華為云轉(zhuǎn)碼提供的是倍速轉(zhuǎn)碼模式,在長視頻場景下這種切轉(zhuǎn)合的模式都能提供很高的轉(zhuǎn)碼效率。

Q:字幕增強更多是構(gòu)造字幕數(shù)據(jù)集嗎?模型上有沒有針對文字進行特殊的設計?

字幕數(shù)據(jù)集達到一定的覆蓋即可,也不是越多效果就會越好。我們會利用華為已經(jīng)獲得版權的一些電視劇和電影中的實際字幕文本來做訓練集。因為字幕中的文字本身具有一定的先驗,而且文字結(jié)構(gòu)信息強,我們在模型上會針對文字結(jié)構(gòu)和loss函數(shù)進行針對性的設計。

原文標題:2022 LiveVideoStack 分享:華為云在視頻AI轉(zhuǎn)碼領域的技術實踐

文章出處:【微信公眾號:華為開發(fā)者社區(qū)】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    216

    文章

    35207

    瀏覽量

    255848
  • 音視頻
    +關注

    關注

    4

    文章

    525

    瀏覽量

    30498
  • 5G
    5G
    +關注

    關注

    1360

    文章

    48809

    瀏覽量

    573596

原文標題:2022 LiveVideoStack 分享:華為云在視頻AI轉(zhuǎn)碼領域的技術實踐

文章出處:【微信號:Huawei_Developer,微信公眾號:華為開發(fā)者社區(qū)】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    泰芯半導體推出星閃音視頻無線SOC芯片TXW828

    ,以技術創(chuàng)新突破行業(yè)邊界,為智能終端設備帶來革命性音視頻處理方案,標志著無線音視頻傳輸正式邁入“超高速、低時延、高可靠”的新紀元。
    的頭像 發(fā)表于 06-20 15:51 ?1140次閱讀

    達辰威執(zhí)法音視頻管理平臺全新升級

    在傳統(tǒng)執(zhí)法場景中,海量音視頻數(shù)據(jù)的存儲、分析和監(jiān)管一直是難題——無效視頻堆積如山、關鍵信息難以快速提取、執(zhí)法規(guī)范性缺乏實時監(jiān)督……在科技賦能執(zhí)法的時代背景下,達辰威科技集團推出全新升級的執(zhí)法
    的頭像 發(fā)表于 05-20 15:06 ?399次閱讀

    中國音視頻產(chǎn)業(yè)邁向高質(zhì)量發(fā)展

    隨著超高清先鋒計劃的逐步推進,截至2024年底,中國音視頻產(chǎn)業(yè)規(guī)模超5萬億,包括個人消費電子、家庭影音娛樂、行業(yè)多媒體應用及車載視聽產(chǎn)業(yè)和相關衍生應用等行業(yè)企業(yè)超過百萬家,音視頻產(chǎn)業(yè)已
    的頭像 發(fā)表于 04-24 11:10 ?644次閱讀

    音視頻一體化解決方案

    隨著數(shù)字化轉(zhuǎn)型加速,音視頻技術在各行業(yè)深度應用,傳統(tǒng)音視頻分散式管理系統(tǒng)面臨多源異構(gòu)設備接入困難、數(shù)據(jù)孤島林立、運維復雜、協(xié)作效率低下等挑戰(zhàn),各行業(yè)對信息技術的需求逐漸從單一化向集成化
    的頭像 發(fā)表于 04-24 09:14 ?438次閱讀

    華為星河AI廣域網(wǎng)助力行業(yè)數(shù)智化

    華為中國合作伙伴大會2025期間,華為星河AI廣域網(wǎng)在以 “星河AI廣域網(wǎng),助力行業(yè)數(shù)智化”為主題的廣域網(wǎng)絡分論壇上,面向政府、金融、能源、交通、大企業(yè)等行業(yè)
    的頭像 發(fā)表于 03-24 14:39 ?500次閱讀

    實用調(diào)試技能:全志T113-i 音視頻測試

    前言:音視頻功能是現(xiàn)代嵌入式系統(tǒng)中的核心應用之一,尤其在全志T113-i開發(fā)板中,其豐富的音視頻接口為開發(fā)者提供了強大的開發(fā)能力。本篇文章將帶你快速掌握T113-i平臺下音視頻模塊的調(diào)試技能,通過
    的頭像 發(fā)表于 03-06 08:31 ?1505次閱讀
    實用調(diào)試技能:全志T113-i <b class='flag-5'>音視頻</b>測試

    RCA接口音視頻傳輸?shù)脑?/a>

    RCA接口音視頻傳輸?shù)脑碇饕谀M信號的傳輸方式。以下是對其傳輸原理的介紹: 一、RCA接口的基本結(jié)構(gòu) RCA接口,又稱AV接口或蓮花插座,其結(jié)構(gòu)包括一個圓形的插頭和一個相應的插座。插頭上通常
    的頭像 發(fā)表于 02-17 15:36 ?1245次閱讀

    RK628H:高端音視頻處理與傳輸芯片詳解

    RK628H是一款集高清音視頻處理與傳輸功能于一體的高端芯片,專為滿足現(xiàn)代多媒體設備對高分辨率、高幀率視頻以及高質(zhì)量音頻的需求而設計。其強大的音視頻處理能力和多樣化的輸入輸出接口,使得RK628H在
    的頭像 發(fā)表于 02-10 17:56 ?1227次閱讀

    國科微榮獲音視頻領域關鍵技術突破一等獎

    近日,第五屆“馬欄山杯”國際音視頻算法大賽-2024音視頻領域關鍵技術突破獎揭曉,國科微8K超高清視頻系列芯片憑借優(yōu)異的產(chǎn)品性能及示范性應用獲評一等獎。
    的頭像 發(fā)表于 12-26 15:11 ?610次閱讀

    千視全新固件發(fā)布 | N60、N5、N6、E3 實力升級,助力音視頻行業(yè)高效創(chuàng)作

    音視頻行業(yè)追求高畫質(zhì)、低延時、高效率的傳輸制作環(huán)境中,技術創(chuàng)新始終是驅(qū)動進步的核心力量。千視秉承“以用戶為中心”的理念,再次從市場痛點出發(fā),為用戶提供更優(yōu)質(zhì)的解決方案。這一次,我們推出了針對N60
    的頭像 發(fā)表于 12-18 10:02 ?923次閱讀
    千視全新固件發(fā)布 | N60、N5、N6、E3 實力<b class='flag-5'>升級</b>,<b class='flag-5'>助力</b><b class='flag-5'>音視頻</b><b class='flag-5'>行業(yè)</b>高效創(chuàng)作

    AMS-HE200:HDMI音視頻網(wǎng)絡延長器,開啟傳輸新時代

    在數(shù)字化時代,高清音視頻傳輸已經(jīng)成為各行各業(yè)不可或缺的重要技術。無論是安防監(jiān)控、視頻會議,還是戶外廣告、家庭影院,高清音視頻信號的無縫傳輸都扮演著至關重要的角色。深圳市程達科技有限公司,作為高清
    的頭像 發(fā)表于 11-27 10:04 ?615次閱讀
    AMS-HE200:HDMI<b class='flag-5'>音視頻</b>網(wǎng)絡延長器,開啟傳輸新時代

    訊維分布式可視化綜合管理系統(tǒng)全系列國產(chǎn)化,助力信息安全再升級!

    在當前的全球音視頻芯片市場中,國外公司一直占據(jù)著主導地位,然而,近年來國外對中國芯片行業(yè)的打壓讓國內(nèi)音視頻行業(yè)的發(fā)展面臨了巨大的挑戰(zhàn)。在這樣的背景下,訊維作為國內(nèi)領先的
    的頭像 發(fā)表于 11-19 10:29 ?512次閱讀

    828 企業(yè)效率再升級華為會議 Flexus 版創(chuàng)新會議體驗!

    在當下計算技術飛速發(fā)展的時代,會議已經(jīng)不再是大企業(yè)的專屬,而是成為了中小企業(yè)提升溝通效率、降低運營成本的得力助手。面對中小企業(yè)日益增長的遠程視頻會議需求,華為
    的頭像 發(fā)表于 11-15 15:21 ?557次閱讀
    828 企業(yè)效率再<b class='flag-5'>升級</b>,<b class='flag-5'>華為</b><b class='flag-5'>云</b>會議 Flexus 版創(chuàng)新<b class='flag-5'>云</b>會議體驗!

    算力攻堅,誰是音視頻AIGC時代背后的「硬」核玩家?

    ,人類正式進入了音視頻時代。在人類漫長的歷史長河中,文字、圖畫是記錄和傳遞信息的主要方式,直到音視頻出現(xiàn),才將人類記錄信息的方式升級到了一個更高維度。從黑白電視再
    的頭像 發(fā)表于 10-29 08:03 ?712次閱讀
    算力攻堅,誰是<b class='flag-5'>音視頻</b>AIGC時代背后的「硬」核玩家?

    盤點那些常見音視頻接口

    我們熟知的一些常見音視頻接口,發(fā)展至今在日常使用中已經(jīng)漸漸少了。但是在工業(yè)領域的音視頻連接,依然能看到其身影。這些看似消失的接口,它們現(xiàn)在發(fā)展成什么樣子了?本期我們將做一個大盤點。
    的頭像 發(fā)表于 09-09 14:34 ?1226次閱讀