99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟提出極低資源下語音合成與識別新方法,小語種不怕沒數(shù)據(jù)

電子工程師 ? 來源:YXQ ? 2019-05-22 14:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前,人類使用的語言種類有近7000種,然而由于缺乏足夠的語音-文本監(jiān)督數(shù)據(jù),絕大多數(shù)語言并沒有對應(yīng)的語音合成與識別功能。為此,微軟亞洲研究院機器學(xué)習(xí)組聯(lián)合微軟(亞洲)互聯(lián)網(wǎng)工程院語音團隊在ICML 2019上提出了極低資源下的語音合成與識別新方法,幫助所有人都可以享受到最新語音技術(shù)帶來的便捷。

基于文本的語音合成(Text-to-Speech, TTS)和自動語音識別(Automatic Speech Recognition, ASR)是語音處理中的兩個典型任務(wù)。得益于深度學(xué)習(xí)的發(fā)展和大量配對的語音-文本監(jiān)督數(shù)據(jù),TTS和ASR在特定的語言上都達(dá)到了非常優(yōu)秀的性能,甚至超越了人類的表現(xiàn)。然而,由于世界上大部分語言都缺乏大量配對的語音-文本數(shù)據(jù),并且收集這樣的監(jiān)督數(shù)據(jù)需要耗費大量的資源,這使得在這些語言上開發(fā)TTS和ASR系統(tǒng)變得非常困難。為了解決這個問題,微軟亞洲研究院機器學(xué)習(xí)組聯(lián)合微軟(亞洲)互聯(lián)網(wǎng)工程院語音團隊提出了一種極低資源下的語音合成和識別的新模型方法,僅利用20分鐘語音-文本監(jiān)督數(shù)據(jù)以及額外的無監(jiān)督數(shù)據(jù),就能生成高可懂度的語音。

模型框架

TTS將文本轉(zhuǎn)成語音,而ASR將語音轉(zhuǎn)成文字,這兩個任務(wù)具有對偶性質(zhì)。受到這個啟發(fā),我們借鑒無監(jiān)督機器翻譯的相關(guān)思路,利用少量的配對語音-文本數(shù)據(jù)以及額外的不配對數(shù)據(jù),提出了一種接近無監(jiān)督的TTS和ASR方法。

首先,我們利用自我監(jiān)督學(xué)習(xí)的概念,讓模型分別建立對語言以及語音的理解建模能力。具體來說,我們基于不成對的語音和文本數(shù)據(jù),利用去噪自動編碼器(Denoising Auto-Encoder, DAE)在編碼器-解碼器框架中重建人為加有噪聲的語音和文本。

其次,我們使用對偶轉(zhuǎn)換(Dual Transformation, DT),來分別訓(xùn)練模型將文本轉(zhuǎn)為語音和將語音轉(zhuǎn)為文本的能力:(a)TTS模型將文本X轉(zhuǎn)換為語音Y,然后ASR模型利用轉(zhuǎn)換得到語音-文本數(shù)據(jù)(Y,X)進行訓(xùn)練; (b)ASR模型將語音Y轉(zhuǎn)換為文本X,然后TTS模型利用文本-語音數(shù)據(jù)(X,Y)進行訓(xùn)練。對偶轉(zhuǎn)換在TTS和ASR之間不斷迭代,逐步提高兩個任務(wù)的準(zhǔn)確性。

考慮到語音序列通常比其它序列學(xué)習(xí)任務(wù)(如機器翻譯)的序列更長,它們將更多地受到錯誤傳播的影響(在自回歸模型生成序列時,序列中上一個錯誤生成的元素將會對下一個元素的生成產(chǎn)生影響)。因此,生成序列的右側(cè)部分通常比左側(cè)部分差,然后通過訓(xùn)練迭代導(dǎo)致模型生成的序列始終表現(xiàn)為右側(cè)差。在低資源的場景下,這種現(xiàn)象更為嚴(yán)重。因此,我們進一步利用文本和語音的雙向序列建模(Bidirectional Sequence Modeling, BSM)來緩解錯誤傳播問題。這樣,一個文本或語音序列可以從左到右生成,也可以從右到左生成,能防止模型始終生成某一側(cè)較差的序列。

最后,我們設(shè)計了一個基于Transformer的統(tǒng)一模型架構(gòu),可以將語音或文本作為輸入或輸出,以便將上述DAE、DT、BSM模塊整合在一起以實現(xiàn)TTS和ASR的功能。

如上圖所示,圖(a)描述了DAE和DT的轉(zhuǎn)換流程,圖(b)展示了我們采用的Transformer模型結(jié)構(gòu),圖(c)顯示了語音和文本的輸入輸出處理模塊。

實驗結(jié)果

為了驗證這一方法的有效性,我們在英語上模擬低資源的場景,選用LJSpeech數(shù)據(jù)集進行實驗,LJSpeech包含13100個英語音頻片段和相應(yīng)的文本,音頻的總長度約為24小時。我們將數(shù)據(jù)集分成3組:300個樣本作為驗證集,300個樣本作為測試集,剩下的12500個樣本用來訓(xùn)練。在這12500個樣本中,我們隨機選擇200個配對的語音和文本數(shù)據(jù),剩下的數(shù)據(jù)當(dāng)作不配對的語音文本數(shù)據(jù)。

我們邀請了30個專業(yè)評估員對生成的聲音進行可懂度(Intelligibility Rate)以及MOS(Mean Opinion Score,平均主觀意見分)評測。MOS指標(biāo)用來衡量聲音接近人聲的自然度,在極低資源場景下,我們一般用可懂度來評估是否能產(chǎn)生可理解的聲音。

經(jīng)過實驗,我們提出的方法可以產(chǎn)生可理解的語音,其單詞級的可懂度高達(dá)99.84%,而如果僅對200個配對數(shù)據(jù)進行訓(xùn)練,則幾乎無法產(chǎn)生可以被聽懂的語音,這顯示出我們方法在極低資源場景下的實用性。

下面展示了我們方法合成的聲音Demo:

文字:“The forms of printed letters should be beautiful and that their arrangement on the page should be reasonable and a help to the shapeliness of the letters themselves.”

更多Demo聲音,請訪問:

https://speechresearch.github.io/unsuper/

語音合成上的MOS得分以及語音識別的PER(Phoneme Error Rate,音素錯誤率)如下表所示。我們的方法在TTS上達(dá)到2.68的MOS,在ASR上達(dá)到11.7%的PER,遠(yuǎn)優(yōu)于僅在200個配對數(shù)據(jù)上訓(xùn)練的基線模型(Pair-200),并且接近使用所有訓(xùn)練樣本的監(jiān)督模型(Supervised)。由于我們的語音合成僅使用了效果較差的Griffin-Lim作為聲碼器合成聲音,作為對比,我們也列出了真實樣本(Ground Truth, GT)以及真實樣本的梅爾頻譜圖通過Griffin-Lim轉(zhuǎn)換得到的聲音(GT(Griffin-Lim))的MOS得分作參考。

為了研究我們方法中每個模塊的有效性,我們通過逐步將每個模塊添加到基線(Pair-200)系統(tǒng)進行對比研究。實驗中先后添加了以下模塊:去噪自編碼器(DAE)、對偶變換(DT)和雙向序列建模(BSM),結(jié)果如下表所示??梢钥吹剑S著更多模塊的加入,TTS的MOS得分以及ASR的PER都穩(wěn)定地提高,顯示出各個模塊的重要性。

我們還可視化了測試集中由不同系統(tǒng)生成的梅爾頻譜圖,如下圖所示。由于Pair-200和Pair-200 + DAE不能產(chǎn)生能被理解的語音,因此紅色邊界框中的梅爾頻譜圖的細(xì)節(jié)也與真實頻譜大不相同。當(dāng)添加DT時,整個頻譜圖更接近真實頻譜圖,然而受到誤差傳播的影響,位于頻譜圖序列末尾的紅色邊界框細(xì)節(jié)仍然與真實數(shù)據(jù)不同。當(dāng)進一步添加BSM時,邊界框中的細(xì)節(jié)比較接近真實數(shù)據(jù),這也證明了BSM在我們的方法中的有效性。當(dāng)然如果使用LJSpeech的全部配對數(shù)據(jù)進行監(jiān)督訓(xùn)練,模型可以重建更接近真實情況的細(xì)節(jié)。

我們的方法僅利用約20分鐘的語音-文本配對數(shù)據(jù),以及額外的不配對數(shù)據(jù),在英語上取得了很好的效果,產(chǎn)生了高可懂度的語音。當(dāng)前,我們正在持續(xù)提高這一方法的性能,直接支持文本字符的輸入而不是先將字符轉(zhuǎn)化為音素作為輸入,同時支持多個說話人的無監(jiān)督語音數(shù)據(jù)。我們還在嘗試?yán)酶俚恼Z音-文本數(shù)據(jù)(甚至完全不用配對數(shù)據(jù))以實現(xiàn)高質(zhì)量的語音合成與語音識別。未來,我們將利用這項技術(shù)支持其它低資源語言,讓更多的語言擁有語音合成與識別功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6686

    瀏覽量

    105771
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114248

原文標(biāo)題:微軟提出極低資源下語音合成與識別新方法,小語種不怕沒數(shù)據(jù)!| ICML 2019

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    無刷直流電機反電勢過零檢測新方法

    的危險。同時,根據(jù)控制信號占空比切換低速區(qū)與高速區(qū)反電勢采樣方式,能有效改善在低速區(qū)時反電勢過零檢測效果。實驗結(jié)果表明,提出的反電勢過零檢測新方法能保證電機工作于更寬的轉(zhuǎn)速范圍內(nèi)。 純分享帖,點擊下方
    發(fā)表于 06-26 13:50

    明遠(yuǎn)智睿SSD2351開發(fā)板:語音機器人領(lǐng)域的變革力量

    的四核1.4GHz處理器具備強勁的運算性能,能夠高效處理語音機器人運行過程中的復(fù)雜任務(wù)。語音識別合成需要大量的計算資源,該處理器可以快速對
    發(fā)表于 05-28 11:36

    大模型時代的新燃料:大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)

    大模型充分學(xué)習(xí)到語音的發(fā)音規(guī)律、語義特征、語境等信息,從而提升語音識別、語音合成等關(guān)鍵能力,提供更加準(zhǔn)確、自然、智能的
    的頭像 發(fā)表于 04-30 16:17 ?273次閱讀

    普強信息入選2024語音識別技術(shù)公司TOP30榜單

    企業(yè)數(shù)字化升級,這一榮譽不僅體現(xiàn)了普強在語音交互、語義理解、多語種識別等核心技術(shù)上的領(lǐng)先優(yōu)勢,更是對普強自主研發(fā)的端到端語音識別系統(tǒng)在高噪聲
    的頭像 發(fā)表于 04-18 17:25 ?643次閱讀

    大華股份榮獲中國創(chuàng)新方法大賽一等獎

    近日,備受矚目的2024年中國創(chuàng)新方法大賽全國總決賽在重慶圓滿落下帷幕。此次大賽由中國科協(xié)與重慶市人民政府聯(lián)合主辦,吸引了眾多創(chuàng)新企業(yè)和團隊參與,共同展示創(chuàng)新成果,角逐榮譽獎項。 在這場創(chuàng)新盛宴中
    的頭像 發(fā)表于 12-27 14:50 ?562次閱讀

    基于遺傳算法的QD-SOA設(shè)計新方法

    了QD-SOA的設(shè)計,提出了一種基于遺傳算法的QD-SOA設(shè)計新方法。由于具有用于設(shè)計的模型是必不可少的,因此在第一步中獲得數(shù)值模型。然后,利用從數(shù)值模型中采樣的訓(xùn)練數(shù)據(jù)建立人工神經(jīng)網(wǎng)絡(luò)模型。實驗表明,該神經(jīng)模型具有較高的精度和
    的頭像 發(fā)表于 12-17 09:58 ?462次閱讀
    基于遺傳算法的QD-SOA設(shè)計<b class='flag-5'>新方法</b>

    一種降低VIO/VSLAM系統(tǒng)漂移的新方法

    本文提出了一種新方法,通過使用點到平面匹配將VIO/VSLAM系統(tǒng)生成的稀疏3D點云與數(shù)字孿生體進行對齊,從而實現(xiàn)精確且全球一致的定位,無需視覺數(shù)據(jù)關(guān)聯(lián)。所提方法為VIO/VSLAM系
    的頭像 發(fā)表于 12-13 11:18 ?705次閱讀
    一種降低VIO/VSLAM系統(tǒng)漂移的<b class='flag-5'>新方法</b>

    大華股份榮獲2024年中國創(chuàng)新方法大賽一等獎

    近日,由中國科協(xié)、重慶市人民政府舉辦的2024年中國創(chuàng)新方法大賽全國總決賽在重慶落下帷幕。大華股份靈活運用創(chuàng)新方法、突破行業(yè)性技術(shù)難題,憑借“不懼強光,分毫必現(xiàn),基于TRIZ的強逆光銳捕技術(shù)”項目,斬獲全國一等獎。
    的頭像 發(fā)表于 12-04 17:19 ?762次閱讀

    ASR與傳統(tǒng)語音識別的區(qū)別

    識別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進行訓(xùn)練。 提高了語音識別的準(zhǔn)確率和穩(wěn)定性。 傳統(tǒng)語音
    的頭像 發(fā)表于 11-18 15:22 ?1354次閱讀

    利用全息技術(shù)在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法

    本文介紹了一種利用全息技術(shù)在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法。 研究人員提出了一種在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法。傳統(tǒng)上,晶圓上的微結(jié)構(gòu)加工,僅限于通過光刻技術(shù)在晶圓表面加工納米結(jié)構(gòu)。 然而,除了晶
    的頭像 發(fā)表于 11-18 11:45 ?745次閱讀

    上海光機所提出強激光產(chǎn)生高能量子渦旋態(tài)電子新方法

    近期,中國科學(xué)院上海光學(xué)精密機械研究所強場激光物理國家重點實驗室研究團隊發(fā)展了包括軌道角動量量子數(shù)的QED散射理論,并提出強激光產(chǎn)生高能量子渦旋態(tài)電子的新方法。相關(guān)成果以“Generation
    的頭像 發(fā)表于 10-23 10:41 ?508次閱讀
    上海光機所<b class='flag-5'>提出</b>強激光產(chǎn)生高能量子渦旋態(tài)電子<b class='flag-5'>新方法</b>

    保護4-20 mA,±20-mA模擬輸入的新方法

    電子發(fā)燒友網(wǎng)站提供《保護4-20 mA,±20-mA模擬輸入的新方法.pdf》資料免費下載
    發(fā)表于 09-24 09:27 ?0次下載
    保護4-20 mA,±20-mA模擬輸入的<b class='flag-5'>新方法</b>

    輸入文字轉(zhuǎn)化語音

    speak播報方法 // 未初始化引擎時調(diào)用speak方法,返回錯誤碼1003400007,合成及播報失敗 private speak(textValue:string,req_ID:string
    發(fā)表于 08-28 10:54

    實踐JLink 7.62手動增加新MCU型號支持新方法

    大家好,我是痞子衡,是正經(jīng)搞技術(shù)的痞子。今天痞子衡給大家分享的是實踐JLink 7.62手動增加新MCU型號支持新方法。
    的頭像 發(fā)表于 08-08 15:25 ?1402次閱讀
    實踐JLink 7.62手動增加新MCU型號支持<b class='flag-5'>新方法</b>

    一種無透鏡成像的新方法

    使用OAM-HHG EUV光束對高度周期性結(jié)構(gòu)進行成像的EUV聚光顯微鏡 為了研究微電子或光子元件中的納米級圖案,一種基于無透鏡成像的新方法可以實現(xiàn)近乎完美的高分辨率顯微鏡。 層析成像是一種強大的無
    的頭像 發(fā)表于 07-19 06:20 ?768次閱讀
    一種無透鏡成像的<b class='flag-5'>新方法</b>