99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌擬用WaveNetEQ技術(shù)提高Duo的通話質(zhì)量 可自動(dòng)判斷且替換丟失的音頻數(shù)據(jù)

工程師鄧生 ? 來(lái)源:雷鋒網(wǎng) ? 作者:雷鋒網(wǎng) ? 2020-04-08 16:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著 4G5G通信技術(shù)發(fā)展,網(wǎng)絡(luò)通話越來(lái)越盛行。但是網(wǎng)絡(luò)不穩(wěn)定是常態(tài),所以通話中我們時(shí)不時(shí)可能會(huì)蹦出一句,“你能再重復(fù)一遍嗎,剛剛網(wǎng)絡(luò)不太好?!睘榱颂?a href="http://www.socialnewsupdate.com/tags/高通/" target="_blank">高通話質(zhì)量,谷歌近期在視頻聊天應(yīng)用 Duo 中應(yīng)用了一種新技術(shù) WaveNetEQ ,在出現(xiàn)音頻丟包情況時(shí),該技術(shù)會(huì)判斷丟失的音頻數(shù)據(jù)可能是什么,并替換掉它。

背后的技術(shù)支持來(lái)自谷歌聲名在外的 DeepMind 團(tuán)隊(duì)。

一個(gè)完整的在線呼叫,數(shù)據(jù)經(jīng)常會(huì)被分成多個(gè)小塊,每小塊就是一個(gè)數(shù)據(jù)包 packet 。然而,在這些“數(shù)據(jù)包”從發(fā)送方傳輸?shù)浇邮辗降倪^(guò)程中,數(shù)據(jù)包通常會(huì)以錯(cuò)誤的順序到達(dá),從而產(chǎn)生抖動(dòng)相關(guān)問(wèn)題,或者直接丟失,造成音頻空白。

谷歌給出一份資料顯示, Duo 99% 的通話都有數(shù)據(jù)包丟失、過(guò)度抖動(dòng)或網(wǎng)絡(luò)延遲情況。20% 的通話丟失了超過(guò) 3% 的音頻,10% 的通話丟包率超過(guò) 8% ,也就是說(shuō)每次通話都有很多音頻需要替換。

每個(gè)視音頻 app 都會(huì)用某種方式處理丟包。谷歌表示,這些數(shù)據(jù)包丟失隱藏 (PLC) 過(guò)程可能很難更好地填補(bǔ) 60 毫秒或更長(zhǎng)時(shí)間的空白。過(guò)去常用算法是 NetEQ ,這是 webRTC 中音頻技術(shù)方面的兩大核心技術(shù)之一(另一核心技術(shù)是音頻的前后處理,包括AEC、ANS、AGC等)。webRTC 是谷歌收購(gòu) GIPS 再開(kāi)源的,是目前影響力極大的實(shí)時(shí)音視頻通信解決方案,但用它處理丟包,大多情況下聽(tīng)起來(lái)像機(jī)器人機(jī)械重復(fù)。

谷歌就用了大量的語(yǔ)音數(shù)據(jù),訓(xùn)練出了基于 DeepMind WaveRNN 技術(shù)的 WaveNetEQ 模型。訓(xùn)練數(shù)據(jù)集來(lái)自 100 多名、48 種不同語(yǔ)言的志愿者,也就是說(shuō)它可以自動(dòng)填補(bǔ) 48 種語(yǔ)言的丟包情況。

WaveNetEQ 是一種用于語(yǔ)音合成的遞歸神經(jīng)網(wǎng)絡(luò)模型,由兩部分組成,即自回歸網(wǎng)絡(luò)(autoregressive network)和條件網(wǎng)絡(luò)(conditioning network)。自回歸網(wǎng)絡(luò)的作用是保持信號(hào)的平穩(wěn)流動(dòng),而條件網(wǎng)絡(luò)控制和影響自回歸網(wǎng)絡(luò)以保持音頻一致性。

谷歌用 WaveNetEQ 取代了原來(lái)的 NetEQ PLC 組件,相對(duì)于 NetEQ ,它在聲音質(zhì)感方面無(wú)疑有提升,而且 WaveNetEQ 模型跑得足夠快,可以在手機(jī)上運(yùn)行,如此也可以規(guī)避用戶可能擔(dān)心的數(shù)據(jù)隱私問(wèn)題。谷歌稱所有的處理都是在設(shè)備上進(jìn)行,因?yàn)?Duo 的通話默認(rèn)情況下就是端到端加密。一旦通話的真實(shí)音頻恢復(fù),將無(wú)縫地切換到現(xiàn)實(shí)對(duì)話。

不過(guò),WaveNetEQ 替換的內(nèi)容和時(shí)長(zhǎng)有限制。目前是支持在 120 毫秒以內(nèi)的空白,之后會(huì)逐漸消失并歸零;WaveNetEQ 不是生成完整的單詞,而是簡(jiǎn)單的音節(jié)。

目前 WaveNetEQ 已經(jīng)應(yīng)用到 Pixel 4 手機(jī)上的 Duo APP 中,谷歌表示,它正在將其推廣到其他安卓手機(jī)上。

當(dāng)然用機(jī)器學(xué)習(xí)處理音頻丟包并不是頭一遭,許多公司都在研究相關(guān)技術(shù),以國(guó)內(nèi)公司為例,有些是自身業(yè)務(wù)本就涉及視音頻,比如騰訊;有些是音視頻云服務(wù)商,比如阿里,還有一些是專門的音視頻第三方服務(wù)商如聲網(wǎng)等。
責(zé)任編輯:wv

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108115
  • 通話
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    9728
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    11572
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LE-Audio是什么?

    音頻編解碼、音頻數(shù)據(jù)傳輸和音頻控制方面進(jìn)行了優(yōu)化。與傳統(tǒng)藍(lán)牙音頻相比,LE-Audio通過(guò)采用更高效的編碼算法和改進(jìn)的數(shù)據(jù)壓縮
    發(fā)表于 06-28 21:32

    請(qǐng)問(wèn)AD7768-4、ADAU1979的配套Evaluation Software能否進(jìn)行原始音頻數(shù)據(jù)?

    請(qǐng)問(wèn)AD7768-4、ADAU1979的配套Evaluation Software能否進(jìn)行原始音頻數(shù)據(jù)? 另外請(qǐng)問(wèn)有沒(méi)有MCU+AD架構(gòu)的高精度、多通道的聲卡的解決方案?
    發(fā)表于 04-15 07:53

    如何提高嵌入式代碼質(zhì)量?

    嵌入式系統(tǒng)的發(fā)展已經(jīng)深刻地影響了我們?nèi)粘I畹姆椒矫婷妫瑥闹悄芗揖拥狡嚳刂葡到y(tǒng),再到醫(yī)療設(shè)備和工業(yè)自動(dòng)化等領(lǐng)域,嵌入式系統(tǒng)無(wú)處不在。嵌入式軟件的質(zhì)量直接關(guān)系到系統(tǒng)的安全性、穩(wěn)定性和性能。因此,提高
    發(fā)表于 01-15 10:48

    判斷膨脹石墨好壞的方法

    ,使其成為眾多工業(yè)應(yīng)用中的優(yōu)選材料。然而,如何確定膨脹石墨的好壞,成為許多采購(gòu)商和制造商關(guān)注的焦點(diǎn)。以下是一些判斷膨脹石墨好壞的方法: 外觀檢測(cè):初步判斷
    的頭像 發(fā)表于 01-09 15:09 ?565次閱讀

    即時(shí)通話軟件音頻傳輸質(zhì)量測(cè)試方案

    使用過(guò)程中的音頻傳輸質(zhì)量。即時(shí)通話軟件基于移動(dòng)網(wǎng)絡(luò)鏈路傳輸信號(hào),通過(guò)本套測(cè)試方案中配套的網(wǎng)絡(luò)損傷仿真設(shè)備對(duì)傳輸鏈路添加不同的網(wǎng)絡(luò)影響,模擬軟件在不同網(wǎng)絡(luò)環(huán)境下的使用情況,進(jìn)而測(cè)得更接近真實(shí)應(yīng)用場(chǎng)景下的
    的頭像 發(fā)表于 12-03 14:34 ?729次閱讀
    即時(shí)<b class='flag-5'>通話</b>軟件<b class='flag-5'>音頻</b>傳輸<b class='flag-5'>質(zhì)量</b>測(cè)試方案

    請(qǐng)問(wèn)TLV320AIC3254EVM-K怎么讀取音頻數(shù)據(jù)流?

    您好,我在學(xué)習(xí)TLV320AIC3254EVM-K開(kāi)發(fā)板的過(guò)程中碰到一個(gè)這樣的問(wèn)題,TI提供的軟件是否具備讀取I2S的音頻數(shù)據(jù)流的功能,或者是否有PC機(jī)軟件可以讀取音頻數(shù)據(jù)流,或者其它方法?請(qǐng)高手幫忙解決,萬(wàn)分感謝!
    發(fā)表于 10-31 06:14

    請(qǐng)問(wèn)TLV320AIC3254采樣后的音頻數(shù)據(jù)如何在電腦上播放?

    TLV320AIC3254采樣后的音頻數(shù)據(jù)如何在電腦上播放
    發(fā)表于 10-25 07:58

    使用兩片TLV320ADC3101芯片接到同一條i2s總線上,能實(shí)現(xiàn)音頻數(shù)據(jù)的同時(shí)采集嗎?

    我想 請(qǐng)問(wèn)一下,使用兩片TLV320ADC3101芯片接到同 一條 i2s總線上,能實(shí)現(xiàn)音頻數(shù)據(jù)的同時(shí)采集嗎?目前只實(shí)現(xiàn)了兩個(gè)芯片音頻數(shù)據(jù)的分時(shí)采集,需要做到實(shí)時(shí)同步采集。
    發(fā)表于 10-24 07:03

    使用PCM4204進(jìn)行音頻數(shù)據(jù)采集的過(guò)程中,如何把采集到的音頻數(shù)據(jù)通過(guò)USB傳輸?shù)絇C上呢?

    在使用PCM4204進(jìn)行音頻數(shù)據(jù)采集的過(guò)程中,如何把采集到的音頻數(shù)據(jù)通過(guò)USB傳輸?shù)絇C上呢?USB控制命令和音頻數(shù)據(jù)如何做,麻煩大佬指點(diǎn)一下,謝謝!
    發(fā)表于 10-15 06:44

    PCM1860音頻數(shù)據(jù)傳輸格式不可控怎么處理?

    一.問(wèn)題:PCM1860音頻數(shù)據(jù)傳輸格式不可控,音頻傳輸格式具有隨機(jī)性。 在使用PCM1860+TI28335電路板,采集駐極體麥克信號(hào)(連接pcm1860的VINL1和VINL2接口
    發(fā)表于 10-10 06:12

    PCM1865能否通過(guò)配置,同時(shí)采集4個(gè)立體聲(即8個(gè)聲道)的音頻數(shù)據(jù)?

    一片PCM1865,能否通過(guò)配置,同時(shí)采集4個(gè)立體聲(即8個(gè)聲道)的音頻數(shù)據(jù)?
    發(fā)表于 09-29 07:32

    假如服務(wù)器的數(shù)據(jù)丟失,如何快速恢復(fù)丟失數(shù)據(jù)?

    在服務(wù)器數(shù)據(jù)丟失后,快速恢復(fù)丟失數(shù)據(jù)是至關(guān)重要的,以避免業(yè)務(wù)中斷和數(shù)據(jù)損失。以下是一些方法和步驟,可以幫助企業(yè)快速有效地恢復(fù)
    的頭像 發(fā)表于 08-08 16:59 ?1015次閱讀

    TAS3108/TAS3108IA音頻數(shù)字信號(hào)處理器數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《TAS3108/TAS3108IA音頻數(shù)字信號(hào)處理器數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 08-02 11:47 ?0次下載
    TAS3108/TAS3108IA<b class='flag-5'>音頻數(shù)</b>字信號(hào)處理器<b class='flag-5'>數(shù)據(jù)</b>表

    怎么判斷PLC程序丟失

    PLC(Programmable Logic Controller,可編程邏輯控制器)是一種廣泛應(yīng)用于工業(yè)自動(dòng)化領(lǐng)域的控制器。PLC程序丟失可能會(huì)導(dǎo)致設(shè)備無(wú)法正常運(yùn)行,甚至造成生產(chǎn)中斷。因此,判斷
    的頭像 發(fā)表于 07-25 10:01 ?2579次閱讀

    如何設(shè)置I2S寄存器以接收32位字的24位音頻數(shù)據(jù)?

    。I2S_FIFO_CONF寄存器的第 16-18 位的 Rx FIFO 模式設(shè)置為 2 (= 每通道 24 位,全數(shù)據(jù)中斷)。從從ADC接收的數(shù)據(jù)來(lái)看,當(dāng)我將I2S_BITS_MOD設(shè)置為15時(shí),似乎丟失了最高有效位。 如何設(shè)
    發(fā)表于 07-19 10:14