99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究SoundStream神經(jīng)音頻編解碼器

Tensorflowers ? 來(lái)源:TensorFlow ? 作者:TensorFlow ? 2021-09-23 09:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

發(fā)布人:Google Research 研究員 Neil Zeghidour 和 Marco Tagliasacchi

音頻編解碼器通??梢杂行У貕嚎s音頻,以此減少對(duì)存儲(chǔ)空間的需求或網(wǎng)絡(luò)帶寬。理想情況下,音頻編解碼器對(duì)最終用戶(hù)來(lái)說(shuō)應(yīng)是透明的,這樣解碼后的音頻在感覺(jué)上便可與原始音頻幾無(wú)差別,且編碼/解碼過(guò)程不會(huì)存在感知延遲。

在過(guò)去的幾年里,我們已經(jīng)成功開(kāi)發(fā)出不同的音頻編解碼器,如 Opus 和增強(qiáng)型語(yǔ)音服務(wù) (Enhanced Voice Services,EVS),以此滿(mǎn)足這些要求。Opus 是一種多功能的語(yǔ)音和音頻編解碼器,支持 6 kbps(每秒千比特)到 510 kbps 的比特率。

目前它已被廣泛部署在視頻會(huì)議平臺(tái)(如 Google Meet)和在線(xiàn)媒體服務(wù)(如 YouTube)等各種應(yīng)用中。EVS 則是由 3GPP 標(biāo)準(zhǔn)化組織開(kāi)發(fā)、針對(duì)移動(dòng)電話(huà) (Telephony) 的最新編解碼器。與 Opus 一樣,它也是多功能編解碼器,可在 5.9 kbps 至 128 kbps 之間的多個(gè)比特率下運(yùn)行。

這兩種編解碼器,無(wú)論使用哪一種,只要是在中低比特率(12 至 20 kbps)下重建的音頻,其質(zhì)量都很好。但是若在非常低的比特率 (?3 kbps) 下運(yùn)行時(shí),音頻質(zhì)量便會(huì)急劇下降。雖然這些編解碼器通過(guò)利用人類(lèi)感知方面的專(zhuān)業(yè)知識(shí),以及精心設(shè)計(jì)的信號(hào)處理流水線(xiàn),能夠最大限度地提高壓算法效率,但人們?nèi)韵M?a target="_blank">機(jī)器學(xué)習(xí)方法來(lái)取代這些人工流水線(xiàn),通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式對(duì)音頻進(jìn)行編碼。

今年早些時(shí)候,我們發(fā)布了 Lyra,一個(gè)用于低比特率語(yǔ)音的神經(jīng)音頻編解碼器。在“SoundStream:一個(gè)端到端神經(jīng)音頻編解碼器”一文中,我們介紹了一個(gè)新穎的神經(jīng)音頻編解碼器,它能提供更高質(zhì)量的音頻,并擴(kuò)展至編碼不同的聲音類(lèi)型(包括干凈的語(yǔ)音、噪音和混響的語(yǔ)音、音樂(lè)和環(huán)境聲音),這推動(dòng)了進(jìn)一步的發(fā)展。

SoundStream 不僅是第一個(gè)用于語(yǔ)音和音樂(lè)的神經(jīng)網(wǎng)絡(luò)編解碼器,還能在智能手機(jī) CPU 上實(shí)時(shí)運(yùn)行。此外,它還具備在廣泛比特率范圍內(nèi),以單一訓(xùn)練模型呈現(xiàn)最高質(zhì)量的能力這代表著可學(xué)習(xí)編解碼器方面的一個(gè)重大進(jìn)步。

SoundStream:一個(gè)端到端神經(jīng)音頻編解碼器

https://arxiv.org/abs/2107.03312

從數(shù)據(jù)中學(xué)習(xí)音頻編解碼器

雖然人們可以毫不費(fèi)力地推理如,話(huà)題持續(xù)時(shí)間、頻率或?qū)υ?huà)中事件先后順序等日常的時(shí)間概念,但這類(lèi)任務(wù)對(duì)于對(duì)話(huà)代理而言則具有較大的挑戰(zhàn)。例如,目前的 NLP 模型在執(zhí)行填空任務(wù)時(shí),經(jīng)常會(huì)做出糟糕的決定(如下圖所示),因?yàn)槲覀兺ǔ?huì)假設(shè)其在推理方面僅具備基本的世界知識(shí)水平,或者需要理解整個(gè)對(duì)話(huà)回合中時(shí)間概念之間顯性和隱性的相互依賴(lài)關(guān)系。

SoundStream 訓(xùn)練和推理。在訓(xùn)練過(guò)程中,使用重建和對(duì)抗性損失的組合對(duì)編碼器、量化器和解碼器參數(shù)進(jìn)行優(yōu)化,這些損失是由判別器(訓(xùn)練后用于區(qū)分原始輸入音頻和重建的音頻)計(jì)算得出。在推理過(guò)程中,發(fā)射器客戶(hù)端上的編碼器和量化器將壓縮的比特流發(fā)送到接收器客戶(hù)端,然后接收器客戶(hù)端就能對(duì)音頻信號(hào)進(jìn)行解碼

利用殘差向量,量化學(xué)習(xí)可

擴(kuò)容的編解碼器

SoundStream 的編碼器可產(chǎn)生無(wú)限多值的向量。為了用有限的比特?cái)?shù)將這些向量傳輸至接收器,需要用一個(gè)與有限的集合(稱(chēng)為碼本)接近的向量來(lái)代替它們,這個(gè)過(guò)程被稱(chēng)為向量量化 (Vector quantization)。這種方法在比特率為 1 kbps 左右或更低的情況下效果很好,但在使用更高的比特率時(shí),很快就會(huì)達(dá)到極限。例如,即使比特率低至 3 kbps,且假設(shè)編碼器每秒產(chǎn)生 100 個(gè)向量,也需要存儲(chǔ)一個(gè)包含超過(guò) 10 億向量的碼本,這在實(shí)踐中并不可行。

在 SoundStream 中,我們提出一個(gè)新的殘差向量量化器 (RVQ) 來(lái)解決這個(gè)問(wèn)題,該量化器由多層組成(在我們的實(shí)驗(yàn)中多達(dá) 80 層)。第一層以中等分辨率對(duì)代碼向量進(jìn)行量化,接下來(lái)的每一層都對(duì)前一層的殘差錯(cuò)誤進(jìn)行處理。通過(guò)將量化過(guò)程分為幾層,可以讓碼本的大小縮減很多。舉例來(lái)說(shuō),在比特率為 3 kbps、每秒產(chǎn)生 100 個(gè)向量的情況下,如果使用 5 個(gè)量化器層,碼本大小會(huì)從 10 億變成 320。此外,通過(guò)增加或刪除量化器層,我們可以輕松地分別提高或降低比特率。

由于網(wǎng)絡(luò)條件在傳輸音頻時(shí)可能會(huì)發(fā)生變化,理想情況下,編解碼器應(yīng)是“可擴(kuò)容的”,這樣它就可以根據(jù)網(wǎng)絡(luò)狀態(tài)提高其比特率。雖然大多數(shù)傳統(tǒng)的編解碼器都是可擴(kuò)容的,但以前的可學(xué)習(xí)編解碼器需要針對(duì)每個(gè)比特率專(zhuān)門(mén)進(jìn)行訓(xùn)練和部署。

為了規(guī)避這一限制,我們利用 SoundStream 中量化層的數(shù)量來(lái)控制比特率,并提出了一種稱(chēng)為“量化器丟棄”的新方法。在訓(xùn)練期間,我們隨機(jī)丟棄一些量化層來(lái)模擬不同的比特率。這能夠讓解碼器在任何比特率的輸入音頻流中展現(xiàn)出良好的性能,從而幫助 SoundStream 形成“可擴(kuò)容性”。如此一來(lái),單一的訓(xùn)練模型可以在任何比特率下運(yùn)行,并且與針對(duì)這些比特率專(zhuān)門(mén)訓(xùn)練的模型具有同樣好的性能。

SoundStream 模型之間的比較(越高越好):在 18 kbps 下對(duì)這些模型進(jìn)行訓(xùn)練,分為采用量化器丟棄(比特率可擴(kuò)容)、不借助量化器丟棄(比特率不可擴(kuò)容)并用可變數(shù)量的量化器評(píng)估,或在固定比特率下訓(xùn)練和評(píng)估(特定比特率)。與特定比特率的模型(每個(gè)比特率都有不同的模型)相比,由于采用量化器丟棄,可擴(kuò)容比特率模型(針對(duì)所有比特率使用單一模型)并沒(méi)有損失任何質(zhì)量

最先進(jìn)的音頻編解碼器

3 kbps 下的 SoundStream 優(yōu)于 12 kbps 下的 Opus,且在 9.6 kbps 下與 EVS 的質(zhì)量接近,而且使用的比特少了 3.2 倍至 4 倍。這意味著用 SoundStream 編碼的音頻可以提供相似的質(zhì)量,而使用的帶寬卻大大降低。此外,在相同的比特率下,SoundStream 的性能優(yōu)于當(dāng)前版本的 Lyra(基于自回歸網(wǎng)絡(luò))。Lyra 已針對(duì)生產(chǎn)使用進(jìn)行部署和優(yōu)化,與之不同的是,SoundStream 仍然處于實(shí)驗(yàn)階段。在未來(lái),Lyra 將整合 SoundStream 的組件,以提供更高的音頻質(zhì)量并降低復(fù)雜性。

SoundStream 與 Opus、EVS 和原始的 Lyra 編解碼器相比,性能的優(yōu)越性在這些音頻實(shí)例中得到了體現(xiàn),以下是其中的一部分。

音頻實(shí)例

https://google-research.github.io/seanet/soundstream/examples

聯(lián)合音頻壓縮和增強(qiáng)

在傳統(tǒng)的音頻處理流水線(xiàn)中,壓縮和增強(qiáng)(去除背景噪音)通常由不同的模塊執(zhí)行。例如,可以在音頻壓縮之前,在發(fā)射器端應(yīng)用音頻增強(qiáng)算法,或者在音頻解碼之后,在接收器端應(yīng)用此算法。在這樣的設(shè)置中,每個(gè)處理步驟都會(huì)造成端到端的延遲。

與之相反,我們采用獨(dú)特的方式設(shè)計(jì) SoundStream,使得壓縮和增強(qiáng)可以由同一個(gè)模型聯(lián)合執(zhí)行,而不增加整體延遲。在下面的例子中,我們證明,通過(guò)動(dòng)態(tài)地啟用和停用去噪(5 秒不去噪,5 秒去噪,5 秒不去噪,以此類(lèi)推),可以將壓縮和背景噪音抑制結(jié)合起來(lái)。

原始的有噪音音頻

https://www.gstatic.com/soundstream_examples/ai_blog/soundstream_controllable_enhancement_noisy.wav

去噪輸出*

https://www.gstatic.com/soundstream_examples/ai_blog/soundstream_controllable_enhancement_denoised.wav

*通過(guò)間隔 5 秒啟用和停用去噪功能來(lái)演示

結(jié)論

在需要傳輸音頻時(shí),無(wú)論是在線(xiàn)播放視頻,還是在電話(huà)會(huì)議期間,都需要高效的壓縮。對(duì)于改善機(jī)器學(xué)習(xí)驅(qū)動(dòng)的音頻編解碼器來(lái)說(shuō),SoundStream 是非常重要的一步。它的性能優(yōu)于最先進(jìn)的編解碼器(如 Opus 和 EVS),可以按需增強(qiáng)音頻,并且只需部署一個(gè)可擴(kuò)容的模型,而不需要部署很多。

SoundStream 將作為下一次改進(jìn)版 Lyra 的一部分發(fā)布。通過(guò)集成 SoundStream 和 Lyra,開(kāi)發(fā)者可以利用現(xiàn)有的 Lyra API 和工具進(jìn)行開(kāi)發(fā)工作,既獲享靈活性,也擁有更好的音質(zhì)。我們也會(huì)將其作為一個(gè)單獨(dú)的 TensorFlow 模型發(fā)布,供實(shí)驗(yàn)使用。

致謝

TimeDial 研究是 Lianhui Qi、Luheng He、Yenjin Choi、Manaal Faruqui 和本文作者共同努力的結(jié)果。Disfl-QA 研究是 Jiacheng Xu、Diyi Yang 和 Manaal Faruqui 的合作成果。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1173

    瀏覽量

    41949
  • 噪音
    +關(guān)注

    關(guān)注

    1

    文章

    170

    瀏覽量

    24212
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8501

    瀏覽量

    134563

原文標(biāo)題:SoundStream 神經(jīng)音頻編解碼器,無(wú)損音樂(lè)頃刻入耳

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Texas Instruments TAC5x42接口編解碼器數(shù)據(jù)手冊(cè)

    Texas Instruments TAC5x42接口編解碼器包括低功耗立體聲音頻模數(shù)轉(zhuǎn)換 (ADC) 和音頻數(shù)模轉(zhuǎn)換器 (DAC),集成了豐富的功能。這些支持時(shí)分復(fù)用 (TDM)、
    的頭像 發(fā)表于 07-14 14:43 ?55次閱讀
    Texas Instruments TAC5x42接口<b class='flag-5'>編解碼器</b>數(shù)據(jù)手冊(cè)

    Texas Instruments TAC5311-Q1汽車(chē)單聲道音頻編解碼器數(shù)據(jù)手冊(cè)

    Texas Instruments TAC5311-Q1汽車(chē)單聲道音頻編解碼器是一款低功耗單聲道編解碼器,具有10V~RMS ~差分輸入、104dB ADC和2V~RMS~ 差分輸出、114dB
    的頭像 發(fā)表于 07-09 15:35 ?110次閱讀
    Texas Instruments TAC5311-Q1汽車(chē)單聲道<b class='flag-5'>音頻</b><b class='flag-5'>編解碼器</b>數(shù)據(jù)手冊(cè)

    CYW20721內(nèi)置的所有編解碼器類(lèi)型有哪些?

    您能告訴我們 CYW20721 內(nèi)置的所有編解碼器類(lèi)型嗎? LDAC、LC3(LE 音頻)、AAC、SBC 等。
    發(fā)表于 06-27 08:03

    AI玩具爆發(fā),音頻編解碼器如何滿(mǎn)足語(yǔ)音交互需求

    電子發(fā)燒友網(wǎng)綜合報(bào)道,在A(yíng)I玩具已經(jīng)開(kāi)始逐漸爆發(fā)的當(dāng)下,人機(jī)交互已經(jīng)成為標(biāo)配功能,而最重要的便是語(yǔ)音控制。而語(yǔ)音控制的第一步,便需要讓AI玩具聽(tīng)懂你在說(shuō)什么這就需要用到音頻編解碼器。 ? 音頻
    的頭像 發(fā)表于 06-20 01:07 ?6278次閱讀

    TWL6040 用于便攜式應(yīng)用的 8 通道高質(zhì)量低功耗音頻編解碼器數(shù)據(jù)手冊(cè)

    TWL6040 設(shè)備是具有高集成度的音頻編碼/解碼器編解碼器),可為便攜式應(yīng)用程序提供模擬音頻編解碼
    的頭像 發(fā)表于 04-27 17:52 ?414次閱讀
    TWL6040 用于便攜式應(yīng)用的 8 通道高質(zhì)量低功耗<b class='flag-5'>音頻</b><b class='flag-5'>編解碼器</b>數(shù)據(jù)手冊(cè)

    國(guó)芯思辰| 單聲道音頻編解碼器SC2601應(yīng)用于錄音筆,替換ES8311

    國(guó)芯思辰| 單聲道音頻編解碼器SC2601應(yīng)用于錄音筆,替換ES8311
    的頭像 發(fā)表于 01-07 10:33 ?707次閱讀
    國(guó)芯思辰| 單聲道<b class='flag-5'>音頻</b><b class='flag-5'>編解碼器</b>SC2601應(yīng)用于錄音筆,替換ES8311

    TLV320AIC28音頻編解碼器評(píng)估模塊

    電子發(fā)燒友網(wǎng)站提供《TLV320AIC28音頻編解碼器評(píng)估模塊.pdf》資料免費(fèi)下載
    發(fā)表于 12-20 16:02 ?0次下載
    TLV320AIC28<b class='flag-5'>音頻</b><b class='flag-5'>編解碼器</b>評(píng)估模塊

    替換ES8311,音頻編解碼器SC2601在行車(chē)記錄儀中的應(yīng)用

    替換ES8311,音頻編解碼器SC2601在行車(chē)記錄儀中的應(yīng)用
    的頭像 發(fā)表于 11-29 10:07 ?951次閱讀
    替換ES8311,<b class='flag-5'>音頻</b><b class='flag-5'>編解碼器</b>SC2601在行車(chē)記錄儀中的應(yīng)用

    配置I2S以從編解碼器設(shè)備生成BCLK

    電子發(fā)燒友網(wǎng)站提供《配置I2S以從編解碼器設(shè)備生成BCLK.pdf》資料免費(fèi)下載
    發(fā)表于 10-21 10:30 ?0次下載
    配置I2S以從<b class='flag-5'>編解碼器</b>設(shè)備生成BCLK

    TMS320F2833x與AIC23B立體聲音頻編解碼器的接口

    電子發(fā)燒友網(wǎng)站提供《TMS320F2833x與AIC23B立體聲音頻編解碼器的接口.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 09:21 ?0次下載
    TMS320F2833x與AIC23B立體聲<b class='flag-5'>音頻</b><b class='flag-5'>編解碼器</b>的接口

    Linux上的編解碼器移植TMS320DM365預(yù)覽版

    電子發(fā)燒友網(wǎng)站提供《Linux上的編解碼器移植TMS320DM365預(yù)覽版.pdf》資料免費(fèi)下載
    發(fā)表于 10-14 10:53 ?0次下載
    Linux上的<b class='flag-5'>編解碼器</b>移植TMS320DM365預(yù)覽版

    TMS320DM365中的智能編解碼器功能

    電子發(fā)燒友網(wǎng)站提供《TMS320DM365中的智能編解碼器功能.pdf》資料免費(fèi)下載
    發(fā)表于 10-14 10:24 ?0次下載
    TMS320DM365中的智能<b class='flag-5'>編解碼器</b>功能

    音頻編解碼器和ADC中有哪些常見(jiàn)噪聲問(wèn)題,如何幫助避免這些問(wèn)題?

    音頻編解碼器和 ADC 中有哪些常見(jiàn)噪聲問(wèn)題,如何幫助避免這些問(wèn)題?
    發(fā)表于 10-10 08:09

    音頻編解碼器中的常見(jiàn)噪聲問(wèn)題

    電子發(fā)燒友網(wǎng)站提供《音頻編解碼器中的常見(jiàn)噪聲問(wèn)題.pdf》資料免費(fèi)下載
    發(fā)表于 10-09 10:19 ?1次下載
    <b class='flag-5'>音頻</b><b class='flag-5'>編解碼器</b>中的常見(jiàn)噪聲問(wèn)題

    帶你探索HiFi智能編解碼器的奇妙世界

    HiFi智能編解碼器就像是音頻世界的魔法師,它讓我們能聽(tīng)到最真實(shí)、最動(dòng)人的聲音。無(wú)論是家庭音響、智能音箱,還是無(wú)線(xiàn)耳機(jī)和專(zhuān)業(yè)設(shè)備,這個(gè)小小的設(shè)備都能帶來(lái)巨大的音質(zhì)提升。讓我們一同期待,未來(lái)HiFi智能編解碼器為我們帶來(lái)的更多驚喜
    的頭像 發(fā)表于 07-18 17:20 ?1317次閱讀
    帶你探索HiFi智能<b class='flag-5'>編解碼器</b>的奇妙世界