摘要:?本文作者阿里云視頻云高級技術(shù)專家??氯缡钦f:阿里云在屏幕視頻編碼技術(shù)和應(yīng)用上有世界領(lǐng)先的團(tuán)隊。6月中國AVS會議中,阿里云提出提案分析屏幕視頻編碼的應(yīng)用需求,引起AVS組織關(guān)注,采納阿里云的提案成為下一代AVS3的需求。
從應(yīng)用需求出發(fā),幫助標(biāo)準(zhǔn)組織制定出更貼近云端業(yè)務(wù)需求的標(biāo)準(zhǔn)
視頻壓縮標(biāo)準(zhǔn)是一個重要且深具挑戰(zhàn)的研究方向。從過去的存儲到當(dāng)前的網(wǎng)絡(luò)帶寬,視頻標(biāo)準(zhǔn)每一代的更新進(jìn)步對科技應(yīng)用都有很大的影響。但同時隨著幾十年來的發(fā)展,視頻壓縮標(biāo)準(zhǔn)的效率提升也變的越來越困難。為了能夠持續(xù)推進(jìn)視頻壓縮標(biāo)準(zhǔn)的進(jìn)步,在國際視頻標(biāo)準(zhǔn)組織中,各公司的專家通過不斷研究和貢獻(xiàn),使得每一代新的標(biāo)準(zhǔn)都能在同樣視頻質(zhì)量下達(dá)到50%左右的碼率降低??梢哉f現(xiàn)今互聯(lián)網(wǎng)上能夠有這么多影響每一個人生活的視頻應(yīng)用,背后都是因為視頻標(biāo)準(zhǔn)組織中這些專家們的付出。
現(xiàn)今視頻標(biāo)準(zhǔn)組織主要有三個:
(1) 由ISO/IEC的MPEG和ITU-T的VCEG專家共同組成的JVET,目前正在制定備受矚目的下一代國際視頻編解碼標(biāo)準(zhǔn)VVC(未來的H.266)。
(2) 國內(nèi)的視頻標(biāo)準(zhǔn)組織AVS,由中國最強(qiáng)的視頻編解碼技術(shù)專家團(tuán)隊組成,同時該標(biāo)準(zhǔn)也被輸出為國際標(biāo)準(zhǔn)IEEE1857。
(3) 世界上第一個由工業(yè)界主導(dǎo)并完全不收取專利費用的視頻標(biāo)準(zhǔn)組織AOM。
一個視頻標(biāo)準(zhǔn)的成功需要具備很多因素:貼近市場需求、先進(jìn)的技術(shù)、以及合理的授權(quán)制度。阿里巴巴加入標(biāo)準(zhǔn)會議后,除了貢獻(xiàn)技術(shù)提案外,更希望從應(yīng)用需求出發(fā),幫助標(biāo)準(zhǔn)組織制定出更貼近云端業(yè)務(wù)需求的標(biāo)準(zhǔn),進(jìn)而幫助未來標(biāo)準(zhǔn)能在云計算產(chǎn)業(yè)順利落地。阿里云具有最全面的視頻應(yīng)用場景,包含直播、點播、轉(zhuǎn)碼、音視頻通信、短視頻等。不同的應(yīng)用場景具有不同的需求和技術(shù)難點,尤其是隨著互聯(lián)網(wǎng)不斷的發(fā)展,很多新的應(yīng)用有與傳統(tǒng)視頻編解碼不一樣的需求。阿里云服務(wù)眾多的互聯(lián)網(wǎng)客戶,希望能夠幫助客戶將這些需求納入到標(biāo)準(zhǔn)組織中,使得下一代視頻編解碼標(biāo)準(zhǔn)在互聯(lián)網(wǎng)上能有更廣泛的應(yīng)用場景,解決客戶實際痛點。
1.屏幕編碼的應(yīng)用與挑戰(zhàn)
在現(xiàn)在的互聯(lián)網(wǎng)應(yīng)用中,有很多新的應(yīng)用正在變得越來越重要,如屏幕視頻編碼。在線上會議中的屏幕共享和共同編輯、線上教育、線上游戲直播、無線投屏以及云端桌面等應(yīng)用,都需要屏幕視頻編碼的技術(shù)支持。
圖1: 屏幕視頻的例子
屏幕視頻和傳統(tǒng)自然視頻的特性很不相同,因而在壓縮上會面臨到非常不一樣的挑戰(zhàn)。圖1是兩個屏幕視頻的例子。在屏幕視頻中,因為畫面是電腦渲染出來的,所以包含了很多銳利的物體邊界,這些銳利邊界含有大量的高頻成分,傳統(tǒng)的編碼工具很難達(dá)到有效的壓縮。同時,人類視覺對這些銳利邊界是非常敏感的,輕微失真所造成的模糊就能很容易被使用者感知到。以互聯(lián)網(wǎng)屏幕共享的應(yīng)用作為例子,在這類系統(tǒng)(線上教育和線上會議)中很常遇到的挑戰(zhàn)是:當(dāng)使用者在共享屏幕時,可能同時會有攝像頭視頻和報告屏幕內(nèi)容的共享,在有限的網(wǎng)絡(luò)環(huán)境下,使用者的帶寬是有限的,攝像頭視頻或許可以透過降低畫面品質(zhì)來提供穩(wěn)定的服務(wù),但是一旦加大報告屏幕內(nèi)容的壓縮率,失真會馬上導(dǎo)致字體的清晰度下降,這樣的用戶體驗是不能容忍的。
此外,在屏幕共享系統(tǒng)設(shè)計中,也會有很多挑戰(zhàn):線上會議中,不斷會有使用者隨機(jī)加入會議,一但有使用者加入會議,系統(tǒng)必須要重新編碼幀內(nèi)編碼圖像作為視頻的起始點,同時考慮到屏幕視頻中,幀內(nèi)編碼圖像和幀間編碼圖像的碼率差距會非常大,這就造成系統(tǒng)中碼率控制設(shè)計上的困難。另外,由于屏幕圖像渲染的特性和屏幕視頻系統(tǒng)的互動要求(如線上游戲和云端桌面),屏幕視頻往往需要非常高的幀率(大于30fps),這也更增加了系統(tǒng)設(shè)計的挑戰(zhàn)。
2.屏幕視頻編碼的歷史
屏幕視頻編碼研究可以追溯到90年代,ITU-T曾提出Mixed Raster Content (MRC)編碼標(biāo)準(zhǔn)。它采用分層編碼的方式來解決屏幕視頻編碼的問題。這樣的做法需要配合圖像分割的技術(shù),因而增加了系統(tǒng)設(shè)計的復(fù)雜度。相較之下,另一種較簡易的做法是如同H.264/AVC和HEVC/H.265一般,采用以區(qū)塊為基礎(chǔ)的編碼方式,針對屏幕視頻設(shè)計新的編碼工具。然而在H.264/AVC制定過程中,屏幕視頻編碼并沒有引起足夠的重視,當(dāng)然這也和當(dāng)時相關(guān)的應(yīng)用沒有大規(guī)模興起有關(guān)。
在HEVC/H.265 Main Profile中,針對屏幕內(nèi)容設(shè)計了一種新的編碼模式:變換跳過模式(Transform Skip)。這個模式就是針對屏幕視頻中銳利的物體邊界而設(shè)計的。這樣的內(nèi)容經(jīng)過變換后,在頻域引入的大量高頻信息反而無法得到有效的壓縮,因此變換跳過模式是一種簡單而有效的解決方法。在Main Profile的算法框架下,并沒有引入太多的復(fù)雜度。
HEVC/H.265初版定稿后,針對屏幕視頻編碼制定了一個標(biāo)準(zhǔn)擴(kuò)展(HEVC SCC Extension)。在這個標(biāo)準(zhǔn)擴(kuò)展中采納了更多屏幕視頻編碼的技術(shù)。其中有兩個重要的技術(shù)分別是:同幀參考(Current Picture Referencing)和調(diào)色盤模式(Palette Mode)。
同幀參考在概念上只是單純的把幀間預(yù)測擴(kuò)展到可以參考當(dāng)前幀內(nèi)已經(jīng)解碼的區(qū)域。雖然概念非常簡單,但是卻能有效的降低碼率。因為在屏幕視頻中常常會出現(xiàn)重復(fù)的內(nèi)容(例如:英文字母),例如圖2。這樣的內(nèi)容在同一幀中可以找到很好的預(yù)測,能夠有效降低碼率。
圖2: 同幀參考
屏幕編碼另一個重要的新技術(shù)是調(diào)色盤模式,這個工具能夠有效的描述屏幕視頻中主要的顏色,并利用這些顏色來編碼像素。特別的是,調(diào)色盤模式除了可以增進(jìn)客觀質(zhì)量外,對主觀質(zhì)量也非常有幫助,如之前所介紹的屏幕視頻中對字體邊界的銳利度的主觀要求就非常嚴(yán)。調(diào)色盤模式是一個對壓縮字體或銳利物體非常有效的工具。圖3是簡單舉例了調(diào)色盤模式,左上角是一個需要壓縮的屏幕內(nèi)容。右上角是屏幕像素的統(tǒng)計圖,橫軸是像素值,縱軸是像素數(shù)量。從統(tǒng)計圖中可以看到屏幕內(nèi)容只有三種主要的顏色:藍(lán)、紅和淺藍(lán)。我們可以把這三種主要顏色編碼入調(diào)色盤(圖3右下角),并且給每一個主要顏色一個索引值。然后我們利用這些顏色索引值去描述像素。在解碼端,解碼器先解出調(diào)色盤得到三個主要顏色,然后解出每個像素的顏色索引值,最后利用索引值去找到主要顏色來重建像素。研究發(fā)現(xiàn)這樣的編碼工具對屏幕視頻編碼相當(dāng)有幫助。
圖3: 調(diào)色盤(Palette Mode)
3.屏幕視頻編碼在下一代視頻標(biāo)準(zhǔn)中的研究
盡管屏幕編碼在過去標(biāo)準(zhǔn)中已經(jīng)有相關(guān)技術(shù)支持,但還是有很多技術(shù)值得進(jìn)一步研究。例如:在HEVC SCC定稿后,阿里云視頻云高級技術(shù)專家睿柯曾經(jīng)發(fā)表過一篇期刊論文,在論文中提出數(shù)個技術(shù)改進(jìn)HEVC SCC的調(diào)色盤模式和同幀參考,可以在不增加解碼復(fù)雜度的情況下更進(jìn)一步降低碼率。另外還有一些非常有潛力的研究,例如字串復(fù)制(string copy),雖然在上一代標(biāo)準(zhǔn)沒有被采納,但是還是值得繼續(xù)深入研究。這些技術(shù)都有可能為下一代的標(biāo)準(zhǔn)進(jìn)一步提升屏幕編碼的效率。
阿里云在屏幕視頻編碼技術(shù)和應(yīng)用上有世界領(lǐng)先的團(tuán)隊。由于屏幕視頻編碼的重要性,阿里云在加入標(biāo)準(zhǔn)組織后,首先積極推動屏幕視頻編碼的進(jìn)展。
在今年4月第10次JVET會議時,標(biāo)準(zhǔn)組織成立屏幕視頻編碼工作組,阿里云擔(dān)任工作組聯(lián)席主席。6月中國AVS會議中,阿里云提出提案分析屏幕視頻編碼的應(yīng)用需求,引起AVS組織關(guān)注,采納阿里云的提案成為下一代AVS3的需求。7月第11次JVET會議時,阿里云是世界上第一個將Palette Mode引進(jìn)VVC(未來的H.266)的技術(shù)團(tuán)隊,會議中引起廣泛關(guān)注,JVET標(biāo)準(zhǔn)組織決定成了一個Palette Mode工作組,下次會議專門討論這個議題,阿里云也擔(dān)任這個工作組的主席。
隨著國際視頻標(biāo)準(zhǔn)會議對屏幕編碼的關(guān)注逐漸增加,相信未來通過各公司專家組的共同努力,下一代標(biāo)準(zhǔn)可以對屏幕編碼有更好的技術(shù)支持,進(jìn)而創(chuàng)造出互聯(lián)網(wǎng)和云端上更多應(yīng)用,讓使用者有更好更方便的體驗。
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
評論