99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何為實(shí)時音視頻設(shè)計(jì)小且優(yōu)的深度學(xué)習(xí)模型?

BYXG_shengwang ? 來源:lq ? 2018-12-05 15:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在11月25日,DevFest 2018 在上海如期舉行。聲網(wǎng)Agora 首席科學(xué)家鐘聲與在座的上千位開發(fā)者分享了演講《Deep Learning for MobilePlatforms: Complexity and Performance Analysis》。以下是由 GDG 整理發(fā)布的演講實(shí)錄。

1

關(guān)于演講者

2

演講實(shí)錄

開場白

最近在微信群里看到一張很有意思的圖,大家應(yīng)該都見過大街小巷地鐵站旁邊的手機(jī)貼膜吧?但這張圖的牌子上寫的不是「手機(jī)貼膜」而是「模型調(diào)參」。用這個例子雖然有些不恰當(dāng),但人工智能學(xué)習(xí)算法確實(shí)正在成為我們生存的必殺技,可見人工智能有多火。

AI 的應(yīng)用開始

回到我們今天的主題,我想問,今天的午餐和深度學(xué)習(xí)有什么共同之處?餐盒和黑盒,都是盒子。餐盒有一個沙拉、主菜和餐后的水果。黑盒子打不開、看不到。

今天的演講試圖稍稍進(jìn)入黑盒里能看一下,作為工程師,我們都想知其然,也知其所以然。我就基于我們所做的工作稍稍解密一下深度學(xué)習(xí)某些方面。

聲網(wǎng)主要提供實(shí)時音視頻通信傳輸服務(wù)、編解碼及前后處理等等,我們更多的聚焦在通信實(shí)時交互領(lǐng)域。

現(xiàn)在的社交娛樂應(yīng)用里面有很多 AI 的應(yīng)用。美顏,貼紙,包括一些交互動作的識別,變臉、變聲都是屬于風(fēng)格轉(zhuǎn)換,AI 算法在這些方面有很好的應(yīng)用。

除了這些,AI 在后處理端也有很多應(yīng)用。比如如何提升比較模糊的圖像的細(xì)節(jié),更清晰地呈現(xiàn)給大家,提高收視的體驗(yàn);又比如由于網(wǎng)絡(luò)傳輸線路上有丟包,接收的數(shù)據(jù)有失真,這個也可以利用 AI算法來補(bǔ)償。

AI 在云端也有更多的應(yīng)用,比如內(nèi)容的監(jiān)管,比如黃色圖片的鑒別,以及識別暴力圖像,還有語音變成文本,以及情感計(jì)算等等,這些很多在實(shí)時通信領(lǐng)域里有非常好的應(yīng)用。

超分辨率恢復(fù)模糊圖像

下面以恢復(fù)模糊圖像作為一個例子,介紹人工智能的深度算法和應(yīng)用。

我們都知道超分辨率(超分,SR)對恢復(fù)細(xì)節(jié)有幫助。在我們的場景下,由于網(wǎng)絡(luò)帶寬受限,會產(chǎn)生丟包,因而此時會以低碼率壓縮和傳輸圖像,解碼出來的圖像通常是會模糊一點(diǎn),影響收視體驗(yàn)。尤其是在直播應(yīng)用里,用戶希望看到清晰的面容和聽到清晰的聲音。

超分是我們后處理的一步,作為跟前面的處理不相關(guān)的一個處理,這一步放在最后。視頻源經(jīng)過編碼在網(wǎng)絡(luò)上傳輸,解碼器收到后經(jīng)過解碼出來是一個模糊的圖像,經(jīng)過超分辨率處理把細(xì)節(jié)提升或者放大,再顯示出來。

深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明了可以較好地生成圖像的細(xì)節(jié)。GAN 模型是一個非常有效的模型,它也是我們超分算法的基礎(chǔ)模型,接下來主要是以 GAN 來做性能和復(fù)雜度的分析。

GAN 模型

下面介紹一下GAN的基本思路。它通常包含兩個網(wǎng)絡(luò),一個是生成器,一個是判別器,這兩個模型以又合作又對抗的方式運(yùn)作,最后達(dá)到一個平衡,使得生成器能夠產(chǎn)生以假亂真的數(shù)據(jù),例如:

當(dāng)判別器接收到的是真實(shí)的圖像數(shù)據(jù),判別器會把它接受為一個真實(shí)的數(shù)據(jù)。

當(dāng)生成器輸入的是一個低分辨率的數(shù)據(jù),我們想生成高清的數(shù)據(jù),希望生成器出來的數(shù)據(jù)像真的一樣。但判別器的任務(wù)正好相反,它盡量不讓生成的數(shù)據(jù)蒙混過關(guān),并且要把它踢出去。

一旦被區(qū)別出來之后,生成器會反復(fù)訓(xùn)練、調(diào)參,使得生成的數(shù)據(jù)更像真的;判別器也會反復(fù)訓(xùn)練、努力提高自己的能力,鑒別假數(shù)據(jù)的能力越來越強(qiáng)??芍^道高一尺魔高一丈,最后二者收斂的時候判別器再也不能區(qū)分生成器生成出來的數(shù)據(jù)是真的還是假的,這個時候的結(jié)果就被判別器接受了。

最近幾年在頂級 AI 會議上,三分之二以上的文章可能跟GAN有關(guān)的。

如何設(shè)計(jì)小且優(yōu)的深度學(xué)習(xí)模型?

眾所周知深度學(xué)習(xí)最好的結(jié)果是采用比較大的模型,在比較大的機(jī)器平臺,比如說服務(wù)器,有成千上萬的 GPU作并行處理來訓(xùn)練,并且需要有非常大量的訓(xùn)練數(shù)據(jù)集。

但是現(xiàn)在針對移動設(shè)備的應(yīng)用很多,我們做移動社交、做直播、通訊,面臨的挑戰(zhàn)是要設(shè)計(jì)一個小的模型,最好能滿足下面三個條件:

這個小模型能夠在移動設(shè)備上實(shí)時地跑,并且不會消耗太多功耗,不會引起發(fā)熱等等問題。

另外它的結(jié)果還要足夠好,不能因?yàn)槟P妥鲂×硕鴽]有效果,這個沒有意義。

訓(xùn)練要能夠基于比較合理數(shù)量的數(shù)據(jù)集就能夠取得好的效果,要上百萬個甚至上千萬個數(shù)據(jù)往往不夠現(xiàn)實(shí),因?yàn)閿?shù)據(jù)收集的成本太高。

接下來我們作復(fù)雜性分析,我們的目標(biāo)是縮小模型。來看一些典型的模型,經(jīng)典的一些作圖像分析和識別的深度神經(jīng)網(wǎng)絡(luò),像 VGG 模型,是很大的模型,它的參數(shù)個數(shù),也就是權(quán)重的個數(shù),是衡量這個模型復(fù)雜性的一個重要指標(biāo)。

VGG16模型有一億多個參數(shù)。為了在移動平臺能夠運(yùn)行,業(yè)界做了大量的工作,這些工作包括把這個模型做剪枝、壓縮和重新訓(xùn)練模型等,也有通過更復(fù)雜的技術(shù),比如通過強(qiáng)化學(xué)習(xí)來達(dá)成一個更小的模型。這些方法都有一些潛在的問題,比如最終出來的結(jié)構(gòu)不夠簡單,計(jì)算量仍然不夠少,或者不易于并行實(shí)現(xiàn)等。

谷歌在這方面也做了很好的工作,最新的結(jié)果是MobileNet v2的 340 萬個參數(shù),不到 VGG16 參數(shù)個數(shù)的3%,縮小了很多,將近兩個數(shù)量級,非常小。但是對我們來說,340 萬個參數(shù)的模型還是很大,尤其在移動設(shè)備上以軟件實(shí)現(xiàn)仍不是很理想,當(dāng)然我們的任務(wù)有點(diǎn)不一樣,我們是做圖像超分,而上述模型是做做物體識別的。

基于 ReLU 的 CNN

我們來看一下基于 ReLU 的 CNN,實(shí)際上是分段線性函數(shù),這個很容易理解,尤其是當(dāng)stride 為1的時候,分段線性的映射還是保持的。

為了更好地理解下面的內(nèi)容,我再介紹一個概念,就是流型。舉個例子來說流型比較容易理解,比如關(guān)于人臉的圖像,雖然可以是在 1000×1000 個大的尺寸上,有一百萬個像素點(diǎn),但真正表征人臉不需要一百萬個點(diǎn),一兩百個參數(shù)就可以,實(shí)際上在比較低維的一個空間里即可以表征出來,這個過程就是從它的背景空間映射到它的參數(shù)空間,或者稱為隱空間的過程,這實(shí)際上是一個編碼的過程,是一個降維處理。

反過來從這個低維空間到高維空間是一個解碼的過程,是一個生成器。一般來說編碼是把數(shù)據(jù)壓縮到更低維的參數(shù)空間,叫隱空間。存在一個映射,從高維流型到低維的空間之間,正映射和逆映射都是連續(xù)的,這就是同胚映射。我們想隱空間這個低維的參數(shù)空間里做些操作。

剛才說過深度學(xué)習(xí)實(shí)際上是一個分段線性的映射,它是對流型的一個分段線性的逼近,比如這個模型比較簡單的時候,它是以兩條線來逼近,模型復(fù)雜的時候以四條線來逼近,這時逼近的程度更高。實(shí)際上一個更復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò)能產(chǎn)生的效果更好,逼近的精度更高,當(dāng)然它的復(fù)雜度也更高。

另外,不同的逼近方法達(dá)到的效果也不一樣,換一個方式可能逼近的更好,實(shí)際上不同的權(quán)重對應(yīng)不同的映射,對應(yīng)不同的逼近效果,我們訓(xùn)練的過程就是在找一個最優(yōu)化的逼近,至少是找一個局部最優(yōu)化的逼近過程,使得它達(dá)到的效果某種意義上是最優(yōu)的。精度是由逼近的質(zhì)量來衡量的。

我把我們的結(jié)果報(bào)告一下,最后做到了只有萬級的參數(shù)個數(shù),比谷歌的用于移動設(shè)備的 MobileNet v2 模型還小了兩個多數(shù)量級。聲網(wǎng)模型不到它的 1%,進(jìn)一步小了非常多。通常模型變小之后會有一個問題,GAN 本身隱含的問題就變得更突出,模式坍塌就是其中一個問題。

模式坍塌

模式坍塌是什么問題?生成器很難學(xué)習(xí)多模態(tài)的分布。舉一個在圓環(huán)上的八個高斯分布的例子。生成器想學(xué)習(xí)這個分布,但是在一個簡單模型的訓(xùn)練的過程及最后結(jié)果都只能收斂到其中一個高斯分布。用在實(shí)際應(yīng)用的例子上,比如生成數(shù)字,我們期望它像第一行圖像中這樣能生成 0-9 的各個數(shù)字,但是很容易它就像第二行這樣只能生成其中一個數(shù)字,比如總生成 1 或者某個含混難辯的數(shù)字,因?yàn)?1 容易在判別器那里蒙混過關(guān),這雖然做對了,但是它生成不了別的數(shù)字,用處不大。

如何解決這個問題或者緩解這個問題呢?我們做了一系列的工作,簡單來說,我們加了一些約束,加了對局域的約束,加了對切空間的約束,再加了對隱空間的優(yōu)化,接下來不能一一講述,就簡單講解一下對隱空間的優(yōu)化。

隱空間的優(yōu)化

剛才我提到過DNN 實(shí)際上是把一個流型往隱空間或者參數(shù)空間做映射。一個圖像通常被編碼到一個低維的空間,就是隱空間。這里給大家做一個直觀的解釋,我們直接在這個編碼空間,即隱空間里來做恢復(fù),先在隱空間里均勻的去采樣一些點(diǎn),然后再通過這些點(diǎn)輸入到生成器,生成器重構(gòu)出來的圖像點(diǎn),把它們重疊到原來的圖像上,有些恢復(fù)出來的點(diǎn)很密,但是有些地方比如頭部臉部就很稀疏,這就意味著頭部的恢復(fù)很差。生成器坍塌到一個局部最優(yōu),這個重構(gòu)是很難或者不太容易得到很好的結(jié)果。當(dāng)然我們可以更密集的取些采樣點(diǎn),最終頭部也被覆蓋到,但是代價(jià)會很大。

我們可以把這個隱空間先做優(yōu)化,再在上面做均勻抽樣,再把它輸入進(jìn)生成器,生成器出來,抽樣點(diǎn)還是這么多,重構(gòu)圖像出來的重構(gòu)點(diǎn)也是均勻的,也就是從這個點(diǎn)云里出來的東西也是均勻的。

打個比方,我們拿一張平的紙,使用各種不規(guī)則的方式任意折疊起來很多遍,你被要求在折疊起來的一團(tuán)紙上抽取一定的采樣點(diǎn),然后把紙展開恢復(fù)平整后要求這些采樣點(diǎn)是均勻的。這個很難,一般做不到,除非用暴力取足夠多的點(diǎn)出來。但那樣復(fù)雜性很高,與我們的目標(biāo)相悖。我們想同時控制復(fù)雜性又控制效果。我們把類似的隱空間優(yōu)化應(yīng)用到了我們的模型訓(xùn)練里。因?yàn)槲覀冏罱K模型的參數(shù)非常小,所以功耗在 iPhone7 上很少,另外手機(jī)也不會發(fā)熱。效果基本上我們能做到,比如說一個 360P 的視頻,出來的效果能夠達(dá)到在 720P 的效果,能得到一個高清的效果。

我們未來還想從數(shù)學(xué)更多的理解一些深度網(wǎng)絡(luò),對某個點(diǎn)、某個問題上能夠用數(shù)學(xué)的方式來描述,來進(jìn)一步提高圖像清晰度。這是我們未來要做的工作,謝謝大家。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49011

    瀏覽量

    249341
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122789
  • AI算法
    +關(guān)注

    關(guān)注

    0

    文章

    263

    瀏覽量

    12691

原文標(biāo)題:如何為實(shí)時音視頻設(shè)計(jì)小且優(yōu)的深度學(xué)習(xí)模型?

文章出處:【微信號:shengwang-agora,微信公眾號:聲網(wǎng)Agora】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    下一代網(wǎng)絡(luò)音視頻實(shí)時傳輸技術(shù):Ethernet AVB

    以太網(wǎng)音視頻橋接技術(shù)(Ethernet AVB)關(guān)注于增強(qiáng)傳統(tǒng)以太網(wǎng)的實(shí)時音視頻性能,同時又保持了100%向后兼容傳統(tǒng)以太網(wǎng),是極具發(fā)展?jié)摿Φ南乱淮W(wǎng)絡(luò)音視頻
    發(fā)表于 04-26 11:09 ?1.3w次閱讀
    下一代網(wǎng)絡(luò)<b class='flag-5'>音視頻</b><b class='flag-5'>實(shí)時</b>傳輸技術(shù):Ethernet AVB

    音視頻社交背后技術(shù)深度解析

    伴隨智能硬件設(shè)備快速發(fā)展和網(wǎng)絡(luò)條件提升,實(shí)時音視頻的應(yīng)用越來越廣泛,如何保障實(shí)時互動過程流暢不卡頓、如何消除回聲成為關(guān)鍵。即構(gòu)科技聯(lián)合創(chuàng)始人蔣寧波在LiveVideoStack Meet上以語
    的頭像 發(fā)表于 12-15 08:05 ?7229次閱讀
    語<b class='flag-5'>音視頻</b>社交背后技術(shù)<b class='flag-5'>深度</b>解析

    【RTC程序設(shè)計(jì):實(shí)時音視頻權(quán)威指南】新書一瞥

    本人從事音視頻領(lǐng)域的開發(fā),經(jīng)常接觸實(shí)時音視頻處理相關(guān)的技術(shù),看到這本書非常有興趣閱讀,這本書全面介紹實(shí)時音視頻(RTC)技術(shù)的權(quán)威著作,該書
    發(fā)表于 04-22 09:09

    音視頻開發(fā):實(shí)時傳輸與處理音視頻流的技術(shù)與應(yīng)用

    音視頻
    YS YYDS
    發(fā)布于 :2023年06月27日 18:20:58

    26個英語字母學(xué)習(xí)的FLASH發(fā)音視頻

    26個英語字母學(xué)習(xí)的FLASH發(fā)音視頻[hide][/hide]
    發(fā)表于 01-25 18:59

    什么是音視頻同步?音視頻同步的影響因素有哪些?

    什么是音視頻同步?有什么要求?音視頻同步的影響因素有哪些?音視頻同步的常見技術(shù)有哪些?
    發(fā)表于 06-15 08:48

    音視頻

    音視頻技術(shù)都喜歡深究內(nèi)部最核心的原理和機(jī)制,尤其是ffmpeg這個編解碼庫,可以說是音視頻領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)。語音智能算法,語言語義分析和理解,流媒體服務(wù)器等高端技術(shù)也都基于它而構(gòu)建。希望有幸獲得本書,深度
    發(fā)表于 11-23 08:51

    基于Z1510的音視頻壓縮卡的設(shè)計(jì)

    隨著數(shù)字音視頻日益廣泛的應(yīng)用,解決音視頻數(shù)據(jù)的存儲和傳輸,唯一的途徑就是對音視頻數(shù)據(jù)進(jìn)行壓縮?;赯1510編碼芯片設(shè)計(jì)了實(shí)時MPEG-1音視頻
    發(fā)表于 11-19 14:49 ?29次下載

    音視頻/信號分配器,音視頻/信號分配器是什么意思

    音視頻/信號分配器,音視頻/信號分配器是什么意思     音視分配器專為音視頻信號在傳播中進(jìn)行分配而設(shè)計(jì),適用于KTV、MTV
    發(fā)表于 03-26 09:51 ?2960次閱讀

    實(shí)時音視頻邁向“普惠化” 助音視頻社交發(fā)掘更多可能

    從去年到今年,以音遇、吱呀語音、Soul為代表的聲音社交應(yīng)用屢屢登上APP社交排行榜前列。音視頻社交崛起的背后,是作為底層支撐技術(shù)的實(shí)時音視頻走向成熟。
    發(fā)表于 05-31 10:22 ?867次閱讀

    實(shí)時音視頻邁向普惠化 助音視頻社交發(fā)掘更多可能

    從去年到今年,以音遇、吱呀語音、Soul為代表的聲音社交應(yīng)用屢屢登上APP社交排行榜前列。音視頻社交崛起的背后,是作為底層支撐技術(shù)的實(shí)時音視頻走向成熟。
    發(fā)表于 06-05 09:37 ?886次閱讀

    實(shí)時音視頻何為傳統(tǒng)行業(yè)賦能

    近年來,終端用戶已習(xí)慣在金融、醫(yī)療、教育、O2O、出行等多元化場景中從各類入口隨時調(diào)用實(shí)時音視頻功能,進(jìn)行遠(yuǎn)程開卡、多方會診、在線學(xué)習(xí)等,終端用戶實(shí)時
    發(fā)表于 06-06 10:01 ?1706次閱讀

    華為云實(shí)時音視頻服和云會議發(fā)布,帶來全新互動實(shí)時音視頻體驗(yàn)

    7月20日,華為云聯(lián)接與協(xié)同業(yè)務(wù)總裁薛浩在“華為云TechWave技術(shù)峰會”發(fā)表題為“實(shí)時音視頻,激蕩數(shù)字時代”的主題演講,正式發(fā)布華為云實(shí)時音視頻服和云會議。薛浩表示,華為云
    的頭像 發(fā)表于 07-21 16:45 ?2868次閱讀

    華為云實(shí)時音視頻應(yīng)用開發(fā)大賽

    華為云實(shí)時音視頻應(yīng)用開發(fā)大賽抽取垂直技術(shù)領(lǐng)域賽道,面向所有優(yōu)秀的個人開發(fā)者、企業(yè),發(fā)布RTC場景痛點(diǎn),以懸賞揭榜的形式征集行業(yè)應(yīng)用解決方案。實(shí)時音視頻行業(yè)目前快速發(fā)展,在遠(yuǎn)程醫(yī)療、在線
    的頭像 發(fā)表于 03-09 14:09 ?1995次閱讀

    音視頻集成是什么 音視頻視頻有什么區(qū)別

    音視頻集成是將音頻和視頻設(shè)備、系統(tǒng)和技術(shù)進(jìn)行整合,以實(shí)現(xiàn)全面的音視頻功能和體驗(yàn)的過程。
    發(fā)表于 06-19 17:14 ?3294次閱讀