Facebook Research最近發(fā)布了Demucs,這是一種用于音樂(lè)源分離的新型深度學(xué)習(xí)系統(tǒng)。根據(jù)人類(lèi)對(duì)分離后聲音總體質(zhì)量的評(píng)估,Demucs的性能優(yōu)于先前報(bào)道的結(jié)果。
音樂(lè)源分離是經(jīng)過(guò)大量研究的一種應(yīng)用,稱(chēng)為盲源分離。該過(guò)程包括在不借助元信息的情況下從一組混合信號(hào)中分離出一組源信號(hào)。對(duì)于音樂(lè),各個(gè)組成部分可能包括人聲或其他樂(lè)器軌道。當(dāng)空中交通管制員開(kāi)始在單個(gè)揚(yáng)聲器上聽(tīng)到多個(gè)飛行員的混合聲音時(shí)出現(xiàn)問(wèn)題時(shí),源分離領(lǐng)域首先受到了廣泛關(guān)注。這導(dǎo)致英國(guó)科學(xué)家科林·切里(Colin Cherry)在1953年將這種效應(yīng)稱(chēng)為“雞尾酒會(huì)問(wèn)題”。
在源分離領(lǐng)域的現(xiàn)有研究的推動(dòng)下,研究科學(xué)家于2000年代初開(kāi)始使用AI分離音樂(lè)中的聲音。如今,短時(shí)傅立葉變換產(chǎn)生的頻譜圖(STFT)是最新音樂(lè)源分離的核心。這些系統(tǒng)在每個(gè)幀和每個(gè)源的幅度譜上產(chǎn)生一個(gè)掩碼,并且通過(guò)在掩碼頻譜圖上運(yùn)行逆STFT的同時(shí)重新使用輸入混合相位,來(lái)生成輸出音頻。
建立在頻譜圖分析基礎(chǔ)上的系統(tǒng)在諸如中音鋼琴或連奏小提琴之類(lèi)的樂(lè)器的源分離方面表現(xiàn)出色,因?yàn)樗鼈兛梢援a(chǎn)生一致的頻率和振鈴。但是,這些系統(tǒng)很難隔離敲擊聲音,因?yàn)榍脫魳?lè)器所產(chǎn)生的殘留噪聲會(huì)產(chǎn)生更寬的頻率范圍,并且當(dāng)與多個(gè)樂(lè)器的重疊相結(jié)合時(shí),信息就會(huì)丟失,并且掩蓋操作將使信息不再可逆。
Demucs是一種深度學(xué)習(xí)模型,可直接對(duì)原始輸入波形進(jìn)行操作并為每個(gè)源生成一個(gè)波形。U-net體系結(jié)構(gòu)使用卷積編碼器和解碼器,該解碼器和解碼器基于跨步卷積較大的步幅。波形模型的工作方式與常見(jiàn)的計(jì)算機(jī)視覺(jué)模型相似,因?yàn)樗鼈兌际褂?a href="http://www.socialnewsupdate.com/tags/神經(jīng)網(wǎng)絡(luò)/" target="_blank">神經(jīng)網(wǎng)絡(luò)在推斷更高級(jí)別的模式之前先檢測(cè)基本模式。
基于頻譜圖的模型優(yōu)于Wave-U-Net,后者是Demucs之前最先進(jìn)的基于波形的模型。Demucs建立在Wave-U-Net體系結(jié)構(gòu)的基礎(chǔ)上,具有可調(diào)整的超參數(shù)和較長(zhǎng)的短期內(nèi)存,允許網(wǎng)絡(luò)處理整個(gè)數(shù)據(jù)序列,而不是單個(gè)數(shù)據(jù)點(diǎn)。
這些改進(jìn)幫助系統(tǒng)解決了一個(gè)聲音超過(guò)另一個(gè)聲音的問(wèn)題,因?yàn)榻獯a器足夠聰明,可以填充柔和的音符。
人類(lèi)在MusDB數(shù)據(jù)集上評(píng)估Demucs,并將其與其他最新的源分離系統(tǒng)的結(jié)果進(jìn)行比較。
-
傅立葉變換
+關(guān)注
關(guān)注
3文章
105瀏覽量
32896 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122781
發(fā)布評(píng)論請(qǐng)先 登錄
一種新型激光雷達(dá)慣性視覺(jué)里程計(jì)系統(tǒng)介紹

一種新型直流電機(jī)控制器
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
NPU在深度學(xué)習(xí)中的應(yīng)用
pcie在深度學(xué)習(xí)中的應(yīng)用
一種基于深度學(xué)習(xí)的二維拉曼光譜算法

GPU深度學(xué)習(xí)應(yīng)用案例
激光雷達(dá)技術(shù)的基于深度學(xué)習(xí)的進(jìn)步
AI大模型與深度學(xué)習(xí)的關(guān)系
FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?
一種新型全光學(xué)智能光譜儀

評(píng)論