99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

盤點(diǎn)語音識別技術(shù)在人工智能中的應(yīng)用

傳感器技術(shù) ? 來源:未知 ? 作者:胡薇 ? 2018-10-08 15:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音是人類最自然的交互方式。計(jì)算機(jī)發(fā)明之后,讓機(jī)器能夠“聽懂”人類的語言,理解語言中的內(nèi)在含義,并能做出正確的回答就成為了人們追求的目標(biāo)。這個(gè)過程中主要涉及3種技術(shù),即自動(dòng)語音識別;自然語言處理(目的是讓機(jī)器能理解人的意圖)和語音合成(目的是讓機(jī)器能說話)

與機(jī)器進(jìn)行語音交流,讓它聽明白你在說什么。語音識別技術(shù)將人類這一曾經(jīng)的夢想變成了現(xiàn)實(shí)。語音識別技術(shù)就是“機(jī)器的聽覺系統(tǒng)”,該技術(shù)讓機(jī)器通過識別和理解,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。

現(xiàn)代智能語音識別技術(shù)的起源及發(fā)展

在1952年的貝爾研究所,Davis等人研制了世界上第一個(gè)能識別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國的Denes等人研制了第一個(gè)計(jì)算機(jī)語音識別系統(tǒng)。

大規(guī)模的語音識別研究始于上世紀(jì)70年代以后,并在小詞匯量、孤立詞的識別方面取得了實(shí)質(zhì)性的進(jìn)展。上世紀(jì)80年代以后,語音識別研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。

同時(shí),語音識別在研究思路上也發(fā)生了重大變化,由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù)思路。此外,業(yè)內(nèi)有專家再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別問題的技術(shù)思路。

上世紀(jì)90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如,DARPA是在上世界70年代由美國國防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃,旨在支持語言理解系統(tǒng)的研究開發(fā)工作。進(jìn)入上世紀(jì)90年代,DARPA計(jì)劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識別裝置中的自然語言處理部分,識別任務(wù)設(shè)定為“航空旅行信息檢索”。

我國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別10個(gè)元音。由于當(dāng)時(shí)條件的限制,中國的語音識別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國科學(xué)院聲學(xué)所開始了計(jì)算機(jī)語音識別。

進(jìn)入上世紀(jì)80年代以來,隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進(jìn)一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時(shí),國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點(diǎn)。在這種形式下,國內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。

1986年,語音識別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專門列為研究課題。在“863”計(jì)劃的支持下,中國開始組織語音識別技術(shù)的研究,并決定了每隔兩年召開一次語音識別的專題會(huì)議。自此,我國語音識別技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。

自2009年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進(jìn)的發(fā)展。

將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語音識別聲學(xué)模型訓(xùn)練,使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學(xué)模型的準(zhǔn)確率。在此方面,微軟公司的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN)后,語音識別錯(cuò)誤率降低了30%,是近20年來語音識別技術(shù)方面最快的進(jìn)步。

2009年前后,大多主流的語音識別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)(WFST)的解碼網(wǎng)絡(luò),該解碼網(wǎng)絡(luò)可以把語言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個(gè)大的解碼網(wǎng)絡(luò),提高了解碼的速度,為語音識別的實(shí)時(shí)應(yīng)用提供了基礎(chǔ)。

隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機(jī)等移動(dòng)終端的普及應(yīng)用,可以從多個(gè)渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語言模型和聲學(xué)模型成為可能。

在語音識別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語料的標(biāo)注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。

現(xiàn)如今,語音識別在移動(dòng)終端上的應(yīng)用最為火熱,語音對話機(jī)器人、語音助手、互動(dòng)工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開此方面的研究和應(yīng)用,目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。

語音識別技術(shù)的主要方法

目前具有代表性的語音識別方法主要有動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)等方法。

動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping,DTW)是在非特定人語音識別中一種簡單有效的方法,該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別技術(shù)中出現(xiàn)較早、較常用的一種算法。在應(yīng)用DTW算法進(jìn)行語音識別時(shí),就是將已經(jīng)預(yù)處理和分幀過的語音測試信號和參考語音模板進(jìn)行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。

隱馬爾可夫模型(HMM)是語音信號處理中的一種統(tǒng)計(jì)模型,是由Markov鏈演變來的,所以它是基于參數(shù)模型的統(tǒng)計(jì)識別方法。由于其模式庫是通過反復(fù)訓(xùn)練形成的與訓(xùn)練輸出信號吻合概率最大的最佳模型參數(shù)而不是預(yù)先儲存好的模式樣本,且其識別過程中運(yùn)用待識別語音序列與HMM參數(shù)之間的似然概率達(dá)到最大值所對應(yīng)的最佳狀態(tài)序列作為識別輸出,因此是較理想的語音識別模型。

矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將若干個(gè)語音信號波形或特征參數(shù)的標(biāo)量數(shù)據(jù)組成一個(gè)矢量在多維空間進(jìn)行整體量化。把矢量空間分成若干個(gè)小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)代表矢量,量化時(shí)落入小區(qū)域的矢量就用這個(gè)代表矢量代替。矢量量化器的設(shè)計(jì)就是從大量信號樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量實(shí)現(xiàn)最大可能的平均信噪比。

在實(shí)際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。

人工神經(jīng)網(wǎng)絡(luò)(ANN)是20世紀(jì)80年代末期提出的一種新的語音識別方法。其本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機(jī)制的工程模型,它與HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認(rèn),但它對動(dòng)態(tài)時(shí)間信號的描述能力尚不盡如人意,通常MLP分類器只能解決靜態(tài)模式分類問題,并不涉及時(shí)間序列的處理。盡管學(xué)者們提出了許多含反饋的結(jié)構(gòu),但它們?nèi)圆蛔阋钥坍嬛T如語音信號這種時(shí)間序列的動(dòng)態(tài)特性。由于ANN不能很好地描述語音信號的時(shí)間動(dòng)態(tài)特性,所以常把ANN與傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識別而克服HMM和ANN各自的缺點(diǎn)。近年來結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識別算法研究取得了顯著進(jìn)展,其識別率已經(jīng)接近隱含馬爾可夫模型的識別系統(tǒng),進(jìn)一步提高了語音識別的魯棒性和準(zhǔn)確率。

支持向量機(jī)(Support vector machine)是應(yīng)用統(tǒng)計(jì)學(xué)理論的一種新的學(xué)習(xí)機(jī)模型,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理(Structural Risk Minimization,SRM),有效克服了傳統(tǒng)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法的缺點(diǎn)。兼顧訓(xùn)練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方面有許多優(yōu)越的性能,已經(jīng)被廣泛地應(yīng)用到模式識別領(lǐng)域。

語音識別技術(shù)模型在中深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用

深度學(xué)習(xí)是指利用多層的非線性信號和信息處理技術(shù),通過有監(jiān)督或者無監(jiān)督的方法,進(jìn)行信號轉(zhuǎn)換、特征提取以及模式分類等任務(wù)的機(jī)器學(xué)習(xí)類方法的總稱。因?yàn)椴捎蒙顚咏Y(jié)構(gòu)模型對信號和信息進(jìn)行處理,所以這里稱為“深度”學(xué)習(xí)。傳統(tǒng)的機(jī)器學(xué)習(xí)模型很多屬于淺層結(jié)構(gòu)模型,例如支持向量機(jī)、GMM、HMM、條件隨機(jī)場、線性或者非線性動(dòng)態(tài)系統(tǒng)、單隱層的神經(jīng)網(wǎng)絡(luò)等。

原始的輸入信號只經(jīng)過比較少的層次(通常是一層)的線性或者非線性處理以達(dá)到信號與信息處理,是這些結(jié)構(gòu)模型的共同特點(diǎn)。淺層模型的優(yōu)點(diǎn)在于在數(shù)學(xué)上有比較完善的算法,并且結(jié)構(gòu)簡單、易于學(xué)習(xí)。但是淺層模型使用的線性或者非線性變換組合比較少,對于信號中復(fù)雜的結(jié)構(gòu)信息并不能有效地學(xué)習(xí),對于復(fù)雜信號的表達(dá)能力有局限性。而深層結(jié)構(gòu)的模型則更適合于處理復(fù)雜類型的信號,原因在于深層結(jié)構(gòu)具備多層非線性變換,具有更強(qiáng)的表達(dá)與建模能力。

人類語音信號產(chǎn)生和感知就是這樣一個(gè)極其復(fù)雜的過程,并且在生物學(xué)上被證明具有明顯的多層次甚至深層次的處理結(jié)構(gòu),所以,對于語音識別任務(wù),采用淺層結(jié)構(gòu)模型明顯有很大的局限性。利用深層次結(jié)構(gòu)中的多層非線性變換進(jìn)行語音信號中的結(jié)構(gòu)化信息和更高層信息的提取,是更加合理的選擇。

DNN在語音識別系統(tǒng)中的應(yīng)用和局限性

從2011年之后,基于DNN-HMM聲學(xué)模型在多種語言、多種任務(wù)的語音識別上取得了比傳統(tǒng) GMM-HMM 聲學(xué)模型大幅度且一致性的效果提升。基于DNN-HMM語音識別系統(tǒng)的基本框架如圖所示,采用DNN替換GMM模型來建模語音觀察概率,是其和傳統(tǒng)的 GMM-HMM 語音識別系統(tǒng)最大的不同。前饋型深度神經(jīng)網(wǎng)絡(luò)由于比較簡單,是最初主流的深層神經(jīng)網(wǎng)絡(luò)。

語音識別的特征提取需要首先對波形進(jìn)行加窗和分幀,然后再提取特征。訓(xùn)練 GMM 模型的輸入是單幀特征,DNN則一般采用多個(gè)相鄰幀拼接在一起作為輸入,這種方法使得語音信號更長的結(jié)構(gòu)信息得以描述,研究表明,特征拼接輸入是DNN相比于GMM可以獲得大幅度性能提升的關(guān)鍵因素。由于說話時(shí)的協(xié)同發(fā)音的影響,語音是一種各幀之間相關(guān)性很強(qiáng)的復(fù)雜時(shí)變信號,正要說的字的發(fā)音和前后好幾個(gè)字都有影響,并且影響的長度隨著說話內(nèi)容的不同而時(shí)變。雖然采用拼接幀的方式可以學(xué)到一定程度的上下文信息,但是由于DNN輸入的窗長(即拼接的幀數(shù))是事先固定的,因此DNN的結(jié)構(gòu)只能學(xué)習(xí)到固定的輸入到輸入的映射關(guān)系,導(dǎo)致其對時(shí)序信息的更長時(shí)相關(guān)性的建模靈活性不足。

遞歸神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用

語音信號具有明顯的協(xié)同發(fā)音現(xiàn)象,因此必須考慮長時(shí)相關(guān)性。由于循環(huán)神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的長時(shí)建模能力,使得 RNN也逐漸替代 DNN成為語音識別主流的建模方案。DNN 和 RNN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示,RNN在隱層上增加了一個(gè)反饋連接,是其和DNN最大的不同。這意味著RNN 的隱層當(dāng)前時(shí)刻的輸入不但包括了來自上一層的輸出,還包括前一時(shí)刻的隱層輸出,這種循環(huán)反饋連接使得RNN原則上可以看到前面所有時(shí)刻的信息,這相當(dāng)于RNN具備了歷史記憶功能。對于語音這種時(shí)序信號來說,使用RNN建模顯得更加適合。

但是,傳統(tǒng)的 RNN 在訓(xùn)練過程中存在梯度消失的問題,導(dǎo)致該模型難以訓(xùn)練。為了克服梯度消失問題,有研究人員提出了長短時(shí)記憶RNN。LSTM-RNN 使用輸入門、輸出門和遺忘門來控制信息流,使得梯度能在相對更長的時(shí)間跨度內(nèi)穩(wěn)定地傳播。雙向LSTM-RNN (BLSTM-RNN)對當(dāng)前幀進(jìn)行處理時(shí),可以利用歷史的語音信息和未來的語音信息,從而容易進(jìn)行更加準(zhǔn)確的決策,因此也能取得比單向LSTM更好的性能提升。

盡管雙向LSTM-RNN的性能更好,但它并不適合實(shí)時(shí)系統(tǒng),由于要利用較長時(shí)刻的未來信息,會(huì)使得該系統(tǒng)具有很大時(shí)延,主要用于一些離線語音識別任務(wù)?;诖?,研究人員提出了延遲受控 BLSTM和行卷積 BLSTM 等模型結(jié)構(gòu),這些模型試圖構(gòu)建單向LSTM和BLSTM之間的折中:即前向LSTM保持不變,針對用來看未來信息的反向LSTM做了優(yōu)化。在LC-BLSTM結(jié)構(gòu)中,標(biāo)準(zhǔn)的反向LSTM被帶有最多N幀前瞻量的反向LSTM替代,而在行卷積模型中被集成了N幀前瞻量的行卷積替代。

基于FSMN的語音識別系統(tǒng)

目前國際上已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)在進(jìn)行 RNN 架構(gòu)下的研究。目前效果最好的基于BLSTM-RNN 的語音識別系統(tǒng)存在時(shí)延過大的問題,這對于實(shí)時(shí)的語音交互系統(tǒng)(如語音輸入法),并不合適。盡管可以通過 LC-BLSTM 和行卷積BLSTM將BLSTM做到實(shí)時(shí)語音交互系統(tǒng),由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu),海量數(shù)據(jù)下的RNN模型訓(xùn)練需要耗費(fèi)大量的時(shí)間。最后,由于RNN對上下文相關(guān)性的擬合較強(qiáng),相對于DNN更容易陷入過擬合的問題,容易因?yàn)橛?xùn)練數(shù)據(jù)的局部問題而帶來額外的異常識別錯(cuò)誤。

為了解決以上問題,科大訊飛結(jié)合傳統(tǒng)的DNN框架和RNN的特點(diǎn),研發(fā)出了一種名為前饋型序列記憶網(wǎng)絡(luò)的新框架,具體如圖所示。FSMN的結(jié)構(gòu)采用非循環(huán)的前饋結(jié)構(gòu),只需要180 ms的時(shí)延,就達(dá)到了和BLSTM-RNN相當(dāng)?shù)男Ч?/p>

FSMN 的結(jié)構(gòu)示意如圖所示,其主要是基于傳統(tǒng)DNN結(jié)構(gòu)的改進(jìn),在DNN的隱層旁增加了一個(gè)“記憶模塊”,這個(gè)記憶模塊用來存儲對判斷當(dāng)前語音幀有用的語音信號的歷史信息和未來信息。上圖畫出了記憶模塊左右各記憶N 幀語音信息的時(shí)序展開結(jié)構(gòu)。需記憶的歷史和未來信息長度N可根據(jù)實(shí)際任務(wù)的需要來調(diào)整。FSMN 記憶塊的記憶功能是使用前饋結(jié)構(gòu)實(shí)現(xiàn)的,這點(diǎn)有別于傳統(tǒng)的基于循環(huán)反饋的 RNN 模型。采用這種前饋結(jié)構(gòu)存儲信息有兩大好處:首先,傳統(tǒng)雙向RNN必須等待語音輸入結(jié)束才能對當(dāng)前語音幀進(jìn)行判斷,雙向FSMN對未來信息進(jìn)行記憶時(shí)只需要等待有限長度的未來語音幀即可,這個(gè)優(yōu)點(diǎn)使得FSMN的時(shí)延是可控的。實(shí)驗(yàn)證明,使用雙向FSMN結(jié)構(gòu),時(shí)延控制在180 ms時(shí)就能取得和傳統(tǒng)雙向RNN相當(dāng)?shù)男Ч黄浯?,傳統(tǒng)簡單的 RNN 實(shí)際并不能記住無窮長的歷史信息,而是只能記住有限長的歷史信息,原因是其訓(xùn)練過程中存在梯度消失的問題。然而 FSMN的記憶網(wǎng)絡(luò)完全基于前饋展開,在模型訓(xùn)練過程中,梯度則沿著記憶塊與隱層的連接權(quán)重往回傳給各個(gè)時(shí)刻,對判斷當(dāng)前語音幀的影響的信息通過這些連接權(quán)重來決定,而且這種梯度傳播是可訓(xùn)練的,并且在任何時(shí)刻都是常數(shù)衰減,以上的實(shí)現(xiàn)方式使得FSMN也具有了類似LSTM 的長時(shí)記憶能力,這相當(dāng)于使用了一種更為簡單的方式解決了傳統(tǒng) RNN 中的梯度消失問題。另外,由于FSMN完全基于前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也使得它的并行度更高,GPU計(jì)算能力可利用得更加充分,從而獲得效率更高的模型訓(xùn)練過程,并且FSMN結(jié)構(gòu)在穩(wěn)定性方面也表現(xiàn)得更加出色。

基于卷積神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)

卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積運(yùn)算(或卷積層),是另一種可以有效利用長時(shí)上下文語境信息的模型。繼 DNN 在大詞匯量連續(xù)語音識別上的成功應(yīng)用之后,CNN 又在 DNN-HMM 混合模型架構(gòu)下被重新引入。重新引入CNN最初只是為了解決頻率軸的多變性來提升模型的穩(wěn)定性,因?yàn)樵摶旌夏P椭械?HMM 已經(jīng)有很強(qiáng)的處理語音識別中可變長度話語問題的能力。早期CNN-HMM模型僅使用了 1~2 個(gè)卷積層,然后和全連接 DNN層堆疊在一起。后來,LSTM 等其他 RNN 層也被集成到了該模型中,從而形成了所謂的CNN-LSTM-DNN(CLDNN)架構(gòu)。

基于CNN-HMM框架的語音識別吸引了大量的研究者,但是始終鮮有重大突破,最基本的原因有兩個(gè):首先是他們?nèi)匀徊捎霉潭ㄩL度的語音幀拼接作為輸入的傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的思路,導(dǎo)致模型不能看到足夠的上下文信息;其次是他們采用的卷積層數(shù)很少,一般只有1~2層,把CNN視作一種特征提取器來使用,這樣的卷積網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)能力十分有限。針對這些問題,科大訊飛在2016年提出了一種全新的語音識別框架,稱為全序列卷積神經(jīng)網(wǎng)絡(luò)(deep fully convolutional neural network,DFCNN)。實(shí)驗(yàn)證明,DFCNN比 BLSTM 語音識別系統(tǒng)這個(gè)學(xué)術(shù)界和工業(yè)界最好的系統(tǒng)識別率提升了 15%以上。

如圖所示,DFCNN先對時(shí)域的語音信號進(jìn)行傅里葉變換得到語音的語譜圖,DFCNN直接將一句語音轉(zhuǎn)化成一張圖像作為輸入,輸出單元?jiǎng)t直接與最終的識別結(jié)果(比如音節(jié)或者漢字)相對應(yīng)。DFCNN的結(jié)構(gòu)中把時(shí)間和頻率作為圖像的兩個(gè)維度,通過較多的卷積層和池化(pooling)層的組合,實(shí)現(xiàn)對整句語音的建模。DFCNN的原理是把語譜圖看作帶有特定模式的圖像,而有經(jīng)驗(yàn)的語音學(xué)專家能夠從中看出里面說的內(nèi)容。

為了理解 DFCNN 的優(yōu)勢所在,下面從輸入端、模型結(jié)構(gòu)和輸出端 3 個(gè)角度更具體地分析。首先,在輸入端,傳統(tǒng)語音識別系統(tǒng)的提取特征方式是在傅里葉變換后用各種類型的人工設(shè)計(jì)的濾波器,比如Log Mel-Filter Bank,造成在語音信號頻域,尤其是高頻區(qū)域的信息損失比較明顯。另外,傳統(tǒng)語音特征采用非常大的幀移來降低運(yùn)算量,導(dǎo)致時(shí)域上的信息會(huì)有損失,當(dāng)說話人語速較快的時(shí)候,這個(gè)問題表現(xiàn)得更為突出。而DFCNN將語譜圖作為輸入,避免了頻域和時(shí)域兩個(gè)維度的信息損失,具有天然的優(yōu)勢。其次,從模型結(jié)構(gòu)上來看,為了增強(qiáng) CNN 的表達(dá)能力, DFCNN 借鑒了在圖像識別中表現(xiàn)最好的網(wǎng)絡(luò)配置,與此同時(shí),為了保證 DFCNN 可以表達(dá)語音的長時(shí)相關(guān)性,通過卷積池化層的累積,DFCNN能看到足夠長的歷史和未來信息,有了這兩點(diǎn),和BLSTM的網(wǎng)絡(luò)結(jié)構(gòu)相比,DFCNN在頑健性上表現(xiàn)更加出色。最后,從輸出端來看,DFCNN比較靈活,可以方便地和其他建模方式融合,比如和連接時(shí)序分類模型方案結(jié)合,以實(shí)現(xiàn)整個(gè)模型的端到端聲學(xué)模型訓(xùn)練。DFCNN語音識別框架可以方便地和其他多個(gè)技術(shù)點(diǎn)結(jié)合,實(shí)驗(yàn)證明,在數(shù)萬小時(shí)的中文語音識別任務(wù)上,和目前業(yè)界最好的語音識別框架 BLSTM-CTC 系統(tǒng)相比, DFCNN系統(tǒng)獲得了額外15%的性能提升。

大規(guī)模語音數(shù)據(jù)下神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練

相比于傳統(tǒng)的 GMM-HMM 系統(tǒng),基于DNN-HMM 語音識別系統(tǒng)取得了巨大的性能提升。但是DNN聲學(xué)模型的訓(xùn)練卻非常耗時(shí)。舉個(gè)例子,在一個(gè)配置為E5-2697 v4的CPU上進(jìn)行 2 萬小時(shí)規(guī)模的語音數(shù)據(jù)的聲學(xué)模型訓(xùn)練,大概需要 116 天左右才能訓(xùn)練完。造成這種情況的潛在原因是將隨機(jī)梯度下降算法作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的基本算法,SGD算法收斂相對較慢,而且是一個(gè)串行算法,很難進(jìn)行并行化訓(xùn)練。而目前工業(yè)界主流的語音識別系統(tǒng)涉及的訓(xùn)練數(shù)據(jù)一般為幾千小時(shí)甚至幾萬小時(shí)級別,因此,提高在大規(guī)模語音數(shù)據(jù)下深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和訓(xùn)練效率,也成為了研究熱點(diǎn)和必須解決的問題。

由于深度神經(jīng)網(wǎng)絡(luò)的模型參數(shù)非常稀疏,利用這個(gè)特點(diǎn),將深度神經(jīng)網(wǎng)絡(luò)模型中超過 80%的較小參數(shù)都設(shè)置為 0,幾乎沒有性能損失,同時(shí)模型尺寸大大減少,但是訓(xùn)練時(shí)間并沒有明顯減小,原因是參數(shù)稀疏性帶來的高度隨機(jī)內(nèi)存訪問并沒有得到太多的優(yōu)化。進(jìn)一步地,在深度神經(jīng)網(wǎng)絡(luò)中,用兩個(gè)低秩矩陣的乘積表示權(quán)重矩陣,實(shí)現(xiàn)了30%~50%的效率提升。

過使用多個(gè)CPU或者GPU并行訓(xùn)練來解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率是另外一種可行的方法。通常方式是:把訓(xùn)練數(shù)據(jù)分成許多小塊后并行地送到不同的機(jī)器來進(jìn)行矩陣運(yùn)算,從而實(shí)現(xiàn)并行訓(xùn)練。優(yōu)化方案是:在模型的每遍迭代中,先將訓(xùn)練數(shù)據(jù)分成N個(gè)完全不相交的子集,然后在每個(gè)子集中訓(xùn)練一個(gè)sub-MLP,最后把這些sub-MLP進(jìn)行合并網(wǎng)絡(luò)結(jié)合。為了進(jìn)一步提升并行效率,在上千個(gè)CPU核的計(jì)算集群實(shí)現(xiàn)了這種方式,深層網(wǎng)絡(luò)的訓(xùn)練主要是利用異步梯度下降算法。將異步梯度下降算法應(yīng)用到了多個(gè)GPU中。一種管道式的 BP 算法被提了出來,該方法利用不同的GPU單元來計(jì)算神經(jīng)網(wǎng)絡(luò)中不同層,實(shí)現(xiàn)并行訓(xùn)練的效果。實(shí)驗(yàn)證明,相對使用單個(gè)GPU訓(xùn)練,該方法通過使用4個(gè)GPU實(shí)現(xiàn)了3.1倍左右的效率提升。然而,不同計(jì)算單元之間極其頻繁的數(shù)據(jù)傳遞成為該類方法提升訓(xùn)練效率的主要瓶頸。為此,為了更好地實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練,一種新的基于狀態(tài)聚類的多深層神經(jīng)網(wǎng)絡(luò)建模方法被提出,該方法先將訓(xùn)練數(shù)據(jù)在狀態(tài)層面進(jìn)行聚類,在狀態(tài)層面進(jìn)行不相交的子集劃分,使得不同計(jì)算單元神經(jīng)網(wǎng)絡(luò)之間的數(shù)據(jù)傳遞規(guī)模大幅度減小,從而實(shí)現(xiàn)每個(gè)神經(jīng)網(wǎng)絡(luò)完全獨(dú)立的并行訓(xùn)練。使用4塊GPU,在聚類數(shù)為4類的情況下,在SWB (SwitchBoard)數(shù)據(jù)集上的實(shí)驗(yàn)表明,這種狀態(tài)聚類的多神經(jīng)網(wǎng)絡(luò)方法取得了約4倍的訓(xùn)練效率提升。

深度學(xué)習(xí)理論除了在聲學(xué)模型建模上獲得了廣泛的應(yīng)用外,在語音識別系統(tǒng)另外的重要組件——語言模型上也得到了應(yīng)用。在深度神經(jīng)網(wǎng)絡(luò)普及之前,語音識別系統(tǒng)主要采用傳統(tǒng)的統(tǒng)計(jì)語言模型N-gram模型進(jìn)行建模。N-gram模型也具備明顯的優(yōu)點(diǎn),其結(jié)構(gòu)簡單且訓(xùn)練效率很高,但是 N-gram 的模型參數(shù)會(huì)隨著階數(shù)和詞表的增大而指數(shù)級增長,導(dǎo)致無法使用更高的階數(shù),性能容易碰到瓶頸,在訓(xùn)練語料處于相對稀疏的狀態(tài)時(shí),可以借助降權(quán)(discounting)和回溯(backing-off)等成熟的平滑算法解決低頻詞或不可見詞的概率估計(jì)問題,以獲得比較可靠的模型估計(jì)。

在20世紀(jì)初,一些淺層前饋神經(jīng)網(wǎng)絡(luò)被用于統(tǒng)計(jì)語言模型建模。神經(jīng)網(wǎng)絡(luò)語言模型是一種連續(xù)空間語言模型,平滑的詞概率分布函數(shù)使得它對于訓(xùn)練語料中的低頻詞和不可見詞的概率估計(jì)更為頑健,具有更好的推廣性,在語音識別任務(wù)上也取得了顯著的效果。最近幾年,相關(guān)研究人員也將深層神經(jīng)網(wǎng)絡(luò)用于語言模型建模,并取得了進(jìn)一步的性能提升。

深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系

基于深度學(xué)習(xí)的語音識別技術(shù)在21世紀(jì)初走向舞臺的中央,并不只是由于深度學(xué)習(xí)類機(jī)器學(xué)習(xí)算法的進(jìn)步,而是大數(shù)據(jù)、云計(jì)算和深度學(xué)習(xí)這3個(gè)要素相互促進(jìn)的結(jié)果。

不同于之前 GMM-HMM 語音識別框架表達(dá)能力有限、效果對于大規(guī)模數(shù)據(jù)易飽和的情況,深度學(xué)習(xí)框架所具備的多層非線性變換的深層結(jié)構(gòu),則具有更強(qiáng)的表達(dá)與建模能力,使得語音識別模型對復(fù)雜數(shù)據(jù)的挖掘和學(xué)習(xí)能力得到了空前的提升,使得更大規(guī)模的海量數(shù)據(jù)的作用得以充分的發(fā)揮。大數(shù)據(jù)就像奶粉一樣,“哺育”了深度學(xué)習(xí)算法,讓深度學(xué)習(xí)算法變得越來越強(qiáng)大。

隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)和產(chǎn)品的普及,更重要的是采用云計(jì)算的方式,使得多種類型的海量數(shù)據(jù)得以在云端匯集。而對大規(guī)模的數(shù)據(jù)的運(yùn)算的要求則又顯著提升了對于云計(jì)算方式的依賴,因此云計(jì)算成為了本次深度學(xué)習(xí)革命的關(guān)鍵推手之一。深度學(xué)習(xí)框架在云端的部署,則顯著增強(qiáng)了云計(jì)算的能力。

正是由于深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算三者的相互促進(jìn),才成就了語音技術(shù)的進(jìn)步,成就了人工智能的浪潮。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114261
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49035

    瀏覽量

    249776

原文標(biāo)題:離開語音技術(shù)的人工智能都是耍流氓

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會(huì)發(fā)展的當(dāng)下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時(shí)代的必修課。從職場上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的
    發(fā)表于 07-04 11:10

    人工智能視覺識別技術(shù)的應(yīng)用領(lǐng)域及場景

    人工智能視覺識別技術(shù)的應(yīng)用領(lǐng)域及場景
    的頭像 發(fā)表于 03-14 11:41 ?1080次閱讀

    語音識別技術(shù)通信領(lǐng)域中的應(yīng)用實(shí)例

    語音識別技術(shù)也被稱為自動(dòng)語音識別(Automatic Speech Recognition,ASR),是通過計(jì)算機(jī)對
    的頭像 發(fā)表于 02-21 17:12 ?703次閱讀

    詳解語音識別技術(shù)通信領(lǐng)域中的應(yīng)用

    語音識別技術(shù)也被稱為自動(dòng)語音識別(Automatic Speech Recognition,ASR),是通過計(jì)算機(jī)對
    的頭像 發(fā)表于 02-21 17:05 ?789次閱讀
    詳解<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b><b class='flag-5'>在</b>通信領(lǐng)域中的應(yīng)用

    語音識別與自然語言處理的關(guān)系

    人工智能的快速發(fā)展,語音識別和自然語言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。
    的頭像 發(fā)表于 11-26 09:21 ?1514次閱讀

    ASR語音識別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語音識別技術(shù),是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本
    的頭像 發(fā)表于 11-18 15:12 ?2078次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    人工智能的結(jié)合,無疑是科技發(fā)展的一場革命。人工智能硬件加速,嵌入式系統(tǒng)以其獨(dú)特的優(yōu)勢和重要性,發(fā)揮著不可或缺的作用。通過深度學(xué)習(xí)和神
    發(fā)表于 11-14 16:39

    soc人工智能的創(chuàng)新應(yīng)用

    社會(huì)計(jì)算(Social Computing, SOC)是一個(gè)跨學(xué)科領(lǐng)域,它結(jié)合了社會(huì)科學(xué)、計(jì)算機(jī)科學(xué)和人工智能,以理解和設(shè)計(jì)社會(huì)互動(dòng)技術(shù)系統(tǒng)。隨著人工智能(AI)
    的頭像 發(fā)表于 11-10 09:30 ?978次閱讀

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    了電力的實(shí)時(shí)平衡和優(yōu)化,有效降低了電網(wǎng)的運(yùn)行成本和故障率。 此外,書中還討論了人工智能在能源科學(xué)研究的挑戰(zhàn)和機(jī)遇。這些挑戰(zhàn)包括數(shù)據(jù)質(zhì)量、算法優(yōu)化、隱私保護(hù)等方面,而機(jī)遇則體現(xiàn)在技術(shù)創(chuàng)新、產(chǎn)業(yè)升級
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我一個(gè)閱讀此書的機(jī)會(huì),感謝平臺。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,無疑為讀者鋪設(shè)了一條探索人工智能(AI)如何深刻影響并推動(dòng)科學(xué)創(chuàng)新的道路。閱讀這一章后,我深刻感受到了人工智能技術(shù)科學(xué)領(lǐng)域的廣泛應(yīng)用潛力以及其帶來的革命性變化,以下是我個(gè)人的學(xué)習(xí)
    發(fā)表于 10-14 09:12

    risc-v人工智能圖像處理應(yīng)用前景分析

    、RISC-V人工智能圖像處理的應(yīng)用案例 目前,已有多個(gè)案例展示了RISC-V人工智能圖像處理
    發(fā)表于 09-28 11:00

    名單公布!【書籍評測活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    大力發(fā)展AI for Science的原因。 第2章從科學(xué)研究底層的理論模式與主要困境,以及人工智能三要素(數(shù)據(jù)、算法、算力)出發(fā),對AI for Science的技術(shù)支撐進(jìn)行解讀。 第3章介紹了
    發(fā)表于 09-09 13:54

    報(bào)名開啟!深圳(國際)通用人工智能大會(huì)將啟幕,國內(nèi)外大咖齊聚話AI

    呈現(xiàn)、產(chǎn)業(yè)展覽、技術(shù)交流、學(xué)術(shù)論壇于一體的世界級人工智能合作交流平臺。本次大會(huì)暨博覽會(huì)由工業(yè)和信息化部政府采購中心、廣東省工商聯(lián)、前海合作區(qū)管理局、深圳市工信局等單位指導(dǎo),深圳市人工智能產(chǎn)業(yè)協(xié)會(huì)主辦
    發(fā)表于 08-22 15:00

    FPGA人工智能的應(yīng)用有哪些?

    定制化的硬件設(shè)計(jì),提高了硬件的靈活性和適應(yīng)性。 綜上所述,F(xiàn)PGA人工智能領(lǐng)域的應(yīng)用前景廣闊,不僅可以用于深度學(xué)習(xí)的加速和云計(jì)算的加速,還可以針對特定應(yīng)用場景進(jìn)行定制化計(jì)算,為人工智能技術(shù)的發(fā)展提供有力支持。
    發(fā)表于 07-29 17:05