99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

來(lái)自語(yǔ)障人士的語(yǔ)音數(shù)據(jù)集合

Tensorflowers ? 來(lái)源:TensorFlow ? 作者:TensorFlow ? 2021-10-12 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語(yǔ)言障礙癥狀影響著數(shù)百萬(wàn)人的生活,其產(chǎn)生原因很多,包括神經(jīng)或遺傳疾病、身體缺陷、腦損傷或聽力喪失等,而由此導(dǎo)致的癥狀也各不相同,如口吃、構(gòu)音障礙 (Dysarthria)、失用癥 (Apraxia) 等,這些癥狀對(duì)患者的自我表達(dá)、社會(huì)生活參與,以及使用語(yǔ)音技術(shù),都會(huì)產(chǎn)生不利影響。

自動(dòng)語(yǔ)音識(shí)別 (ASR, Automatic Speech Recognition) 技術(shù)可以通過(guò)提升設(shè)備的聽寫和家居自動(dòng)化能力以及溝通能力,來(lái)幫助語(yǔ)言障礙人士克服上述問(wèn)題。然而,盡管隨著深度學(xué)習(xí)系統(tǒng)計(jì)算能力的提升,以及有大型訓(xùn)練數(shù)據(jù)集可供使用,ASR 系統(tǒng)在準(zhǔn)確率方面有所提升,但是對(duì)于許多具有語(yǔ)言障礙的人而言,系統(tǒng)的性能仍有所欠缺,導(dǎo)致許多本應(yīng)受益良多的患者無(wú)法有效利用這項(xiàng)技術(shù)。

2019 年,我們推出了 Euphonia 項(xiàng)目,探討如何通過(guò)個(gè)性化的識(shí)別語(yǔ)言障礙 ASR 模型,實(shí)現(xiàn)在典型語(yǔ)音上與通用 ASR 模型相同水平的準(zhǔn)確率。今天我們?yōu)榇蠹曳窒韮身?xiàng)在 Interspeech 2021 上發(fā)布的研究成果,這兩項(xiàng)研究目的在于讓更多用戶群體可以利用個(gè)性化 ASR 模型。在“無(wú)序語(yǔ)音數(shù)據(jù)集合:從 Euphonia 項(xiàng)目 100 萬(wàn)條語(yǔ)音中總結(jié)的經(jīng)驗(yàn) (Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia)”中,我們介紹了一個(gè)涵蓋范圍廣泛的無(wú)序語(yǔ)音數(shù)據(jù)集合,其中包含的語(yǔ)音數(shù)據(jù)超過(guò) 100 萬(wàn)條。在“自動(dòng)識(shí)別無(wú)序語(yǔ)音:在短語(yǔ)方面?zhèn)€性化模型較人類表現(xiàn)更佳 (Automatic Speech Recognition of Disordered Speech: Personalized models outperforming human listeners on short phrases) ”中,我們討論了在基于該語(yǔ)料庫(kù)生成個(gè)性化 ASR 模型上所開展的工作。與利用典型語(yǔ)音訓(xùn)練的開箱即用的語(yǔ)音模型相比,這種方法可以產(chǎn)生準(zhǔn)確率更高的模型,在特定的語(yǔ)境中,字錯(cuò)誤率 (WER, Word error rate) 可降低高達(dá) 85% 。

Euphonia

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

無(wú)序語(yǔ)音數(shù)據(jù)集合:從 Euphonia 項(xiàng)目 100 萬(wàn)條語(yǔ)音中總結(jié)的經(jīng)驗(yàn)

https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html

自動(dòng)識(shí)別無(wú)序語(yǔ)音:在短語(yǔ)方面?zhèn)€性化模型較人類表現(xiàn)更佳

https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html

來(lái)自語(yǔ)障人士的語(yǔ)音數(shù)據(jù)集合

自 2019 年起,不少語(yǔ)障人士為支持 Euphonia 項(xiàng)目的研究工作提供了語(yǔ)音樣本。他們的嚴(yán)重程度不同,癥狀也不一樣。這項(xiàng)工作將 Euphonia 項(xiàng)目的語(yǔ)料庫(kù)擴(kuò)展至超過(guò) 100 萬(wàn)條語(yǔ)音,包括了來(lái)自 1330 名說(shuō)話者的 1400 多小時(shí)語(yǔ)音記錄(截至 2021 年 8 月)。

基于超過(guò) 300 條錄制的語(yǔ)音數(shù)據(jù),繪制出的所有說(shuō)話者的語(yǔ)言障礙嚴(yán)重程度和所患病癥分布圖。在病癥方面,僅顯示患病人數(shù)超過(guò) 5 人的病癥,否則統(tǒng)一記入“其他”以滿足 k 匿名性 (k-anonymity)

ALS 代表肌萎縮性脊髓側(cè)索硬化癥;DS 代表唐氏綜合癥;PD 代表帕金森?。籆P 代表腦癱;HI 代表聽力障礙;MD 代表肌肉萎縮癥;MS 代表多發(fā)性硬化癥

Euphonia 項(xiàng)目的研究工作

https://sites.research.google/euphonia/about/

為簡(jiǎn)化數(shù)據(jù)收集流程,參與者在筆記本電腦或者手機(jī)等個(gè)人硬件上(使用或者不使用頭戴式耳機(jī))通過(guò)家用錄音系統(tǒng)收集語(yǔ)音,而不是在類似實(shí)驗(yàn)室這樣的理想環(huán)境中收集錄音棚品質(zhì)的語(yǔ)音。

為降低轉(zhuǎn)錄成本,同時(shí)保持較高的轉(zhuǎn)錄一致性,我們優(yōu)先采取了按照文本朗讀的方式。參與者根據(jù)瀏覽器端錄音工具上顯示的提示語(yǔ)進(jìn)行朗讀。這些提示語(yǔ)涵蓋家居自動(dòng)化(“打開電視?!保?、與看護(hù)者對(duì)話(“我餓了?!保┮约胺钦綄?duì)話(“你好嗎?你今天過(guò)得愉快嗎?”)等語(yǔ)境。大部分參與者會(huì)朗讀 1500 條提示語(yǔ),其中包含 1100 個(gè)只出現(xiàn)一次的短語(yǔ)以及 100 個(gè)重復(fù)出現(xiàn) 4 次的短語(yǔ)。

語(yǔ)音專家在傾聽每位說(shuō)話者部分語(yǔ)音的同時(shí),進(jìn)行了全面的聽覺感知和語(yǔ)音評(píng)估,以便根據(jù)多種為說(shuō)話者分級(jí)的元數(shù)據(jù),來(lái)判定語(yǔ)言障礙類型(例如口吃、構(gòu)音障礙、失用癥等),對(duì)如鼻音過(guò)重(Hypernasal speech)、發(fā)音失準(zhǔn)和言語(yǔ)聲律障礙(Dysprosody)等 24 種異常語(yǔ)音特征進(jìn)行評(píng)定,同時(shí)對(duì)技術(shù)問(wèn)題(例如信號(hào)丟失、分割問(wèn)題)和聲學(xué)問(wèn)題(例如環(huán)境噪音、次級(jí)揚(yáng)聲器串?dāng)_)進(jìn)行錄音質(zhì)量評(píng)估。

個(gè)性化 ASR 模型

這個(gè)擴(kuò)展的語(yǔ)音障礙數(shù)據(jù)集也是我們生成無(wú)序語(yǔ)音個(gè)性化 ASR 模型新方法的基礎(chǔ)。每個(gè)定制模型都使用標(biāo)準(zhǔn)的端對(duì)端 RNN-傳感器 (RNN-T) ASR 模型,該模型僅對(duì)目標(biāo)說(shuō)話者的數(shù)據(jù)進(jìn)行微調(diào)。

RNN-傳感器架構(gòu)。在示例中,編碼器網(wǎng)絡(luò)由 8 層組成,而預(yù)測(cè)器網(wǎng)絡(luò)由 2 層單向 LSTM (Long short-term memory) 單元組成

為此,我們重點(diǎn)調(diào)整了編碼器網(wǎng)絡(luò),也就是模型中處理說(shuō)話者特定聲學(xué)數(shù)據(jù)的部分,因?yàn)檎Z(yǔ)音障礙是我們語(yǔ)料庫(kù)中最常見的現(xiàn)象。我們發(fā)現(xiàn),只更新 8 個(gè)編碼器層中最底層的 5 個(gè),而凍結(jié)最上面的 3 個(gè)編碼器層(以及連接層和解碼器層),可以得到最好的結(jié)果,并能夠有效避免過(guò)度擬合。為了讓這些模型在處理背景噪聲和其他聲學(xué)效應(yīng)方面更具魯棒性,我們采用了專門針對(duì)無(wú)序語(yǔ)音為主要特征進(jìn)行調(diào)整的 SpecAugment 配置。

SpecAugment

https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

結(jié)果

我們訓(xùn)練了約 430 名說(shuō)話者的個(gè)性化 ASR 模型,他們每人至少錄制了 300 條語(yǔ)音。我們把其中 10% 的語(yǔ)音作為測(cè)試集(訓(xùn)練和測(cè)試間沒有短語(yǔ)重疊),在此基礎(chǔ)上,計(jì)算了個(gè)性化模型以及未調(diào)適的基礎(chǔ)模型的 WER。

總的來(lái)說(shuō),無(wú)論是何種嚴(yán)重程度還是病癥,我們提供的個(gè)性化方法都取得了顯著效果。即便是存在嚴(yán)重語(yǔ)言障礙的語(yǔ)音,家居自動(dòng)化語(yǔ)境短語(yǔ)的 WER 中位數(shù)從 89% 左右降到了 13%。在如與看護(hù)者對(duì)話等其他語(yǔ)境中,準(zhǔn)確率也有顯著提高。

在未調(diào)適與個(gè)性化 ASR 模型中使用居家自動(dòng)化短語(yǔ)的 WER

為了解個(gè)性化模型何時(shí)不適用,我們對(duì)以下幾個(gè)子組進(jìn)行了分析:

HighWER 與 LowWER:將說(shuō)話者按照具有基于 WER 分布的第 1 和第 5 個(gè)五分位數(shù)的高和低劃分個(gè)性化模型。

SurpHighWER:具有超高 WER 的說(shuō)話者(在 HighWER 組中典型或具有輕度語(yǔ)言障礙的參與者)。

不同的病癥以及語(yǔ)言障礙表現(xiàn)形式對(duì) ASR 產(chǎn)生的影響是不一致的。根據(jù) HighWER 組中語(yǔ)言障礙類型的分布表明,由于腦癱(Cerebral palsy)引起的構(gòu)音障礙特別難以建模。不出意外,該組中語(yǔ)言障礙嚴(yán)重程度的中位數(shù)也更高。

為了識(shí)別影響 ASR 準(zhǔn)確率的特定說(shuō)話者以及技術(shù)因素,我們檢查了 ASR 表現(xiàn)較差 (HighWER) 和優(yōu)秀 (LowWER) 的參與者之間元數(shù)據(jù)的差異 (Cohen‘s D)。和預(yù)期一樣,LowWER 組中整體語(yǔ)言受損程度顯著低于HighWER組 (p 《 0.01)。HighWER 組中最突出的非典型語(yǔ)音特征是清晰度以及受損程度,同時(shí)包含其他較為突出的語(yǔ)音特征,如異常的韻律(Prosody )、發(fā)音及發(fā)聲(Phonation)。眾所周知,這些語(yǔ)音特征也會(huì)降低語(yǔ)音的整體清晰度。

與 LowWER 組 (p 《 0.01) 相比,SurpHighWER 組中的訓(xùn)練語(yǔ)音更少,且 SNR 更低,進(jìn)而導(dǎo)致較大(負(fù))的效應(yīng)量,而其他因素的效應(yīng)量則較?。焖傩猿猓?。相比之下,HighWER 組在所有因素中都表現(xiàn)出了較大差異。

語(yǔ)音障礙和技術(shù)元數(shù)據(jù)效應(yīng)量對(duì)比結(jié)果:HighWER 組與 LowWER 組對(duì)比;SurpHighWER 組和 LowWER 組對(duì)比。正值結(jié)果表明 HighWER 組的組值大于 LowWER 組的組值

之后,我們將個(gè)性化 ASR 模型和人類聽眾進(jìn)行了比較。三位語(yǔ)音專家分別為每位說(shuō)話者轉(zhuǎn)錄了 30 條語(yǔ)音。我們發(fā)現(xiàn),與人類聽眾的 WER 相比,個(gè)性化 ASR 模型的 WER 平均而言更低,并且隨語(yǔ)言受損嚴(yán)重程度的增加而表現(xiàn)的更好。

個(gè)性化 ASR 模型 WER 與人類聽眾 WER 之間的增量。負(fù)值表明個(gè)性化 ASR 模型的表現(xiàn)優(yōu)于人類(專家)聽眾

結(jié)論

Euphonia 語(yǔ)料庫(kù)擁有超過(guò) 100 萬(wàn)條語(yǔ)音,是最大、最多樣的無(wú)序語(yǔ)音語(yǔ)料庫(kù)之一(就無(wú)序類型與受損程度而言),這一語(yǔ)料庫(kù)大大提升了非典型語(yǔ)音類型中的 ASR 準(zhǔn)確率。我們的研究結(jié)果證明,個(gè)性化 ASR 模型在識(shí)別各種語(yǔ)言障礙以及受損程度方面十分有效,而且具備了讓更多用戶使用 ASR 的潛力。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280006
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114248

原文標(biāo)題:個(gè)性化語(yǔ)音識(shí)別模型,幫助語(yǔ)言障礙人士正常交流

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    也能預(yù)判?視覺黑科技讓掃地機(jī)器人開啟“先知”模式

    從被動(dòng)避到主動(dòng)預(yù)判,視覺避技術(shù)比預(yù)想的更快實(shí)現(xiàn)。
    的頭像 發(fā)表于 06-18 14:09 ?250次閱讀

    智能語(yǔ)音賦能健康監(jiān)測(cè):NV128H芯片重塑血壓管理新范式

    智能血壓計(jì)語(yǔ)音芯片開發(fā)在人口老齡化加劇和慢性病高發(fā)的雙重壓力下,血壓,作為反映人體健康狀態(tài)的重要指標(biāo)之一,更是需要我們時(shí)刻關(guān)注。傳統(tǒng)血壓測(cè)量設(shè)備存在操作復(fù)雜、讀數(shù)不便等痛點(diǎn),尤其對(duì)老年群體和視人士
    的頭像 發(fā)表于 05-06 11:49 ?283次閱讀
    智能<b class='flag-5'>語(yǔ)音</b>賦能健康監(jiān)測(cè):NV128H芯片重塑血壓管理新范式

    藍(lán)牙語(yǔ)音遙控國(guó)產(chǎn)適用芯片HS6621

    長(zhǎng)亮,用戶開始錄音同時(shí)將語(yǔ)音數(shù)據(jù)上傳給智能電視或者機(jī)頂盒。而智能電視或者機(jī)頂盒,接收到 HID 編碼后,打開語(yǔ)音識(shí)別軟件,開始識(shí)音并把語(yǔ)音數(shù)據(jù)
    發(fā)表于 04-30 16:21

    大模型時(shí)代的新燃料:大規(guī)模擬真多風(fēng)格語(yǔ)音合成數(shù)據(jù)

    以大模型技術(shù)為核心驅(qū)動(dòng)力的人工智能變革浪潮中,語(yǔ)音交互領(lǐng)域正迎來(lái)廣闊的成長(zhǎng)空間,應(yīng)用場(chǎng)景持續(xù)拓寬與延伸。 其中,數(shù)據(jù)作為驅(qū)動(dòng)語(yǔ)音大模型進(jìn)化的關(guān)鍵要素,重要性愈發(fā)凸顯。豐富多樣的高質(zhì)量數(shù)據(jù)
    的頭像 發(fā)表于 04-30 16:17 ?273次閱讀

    RDK加持的導(dǎo)盲眼鏡:視人士的“眼睛外掛”

    我國(guó)有超1700萬(wàn)視人士,如何讓他們更安全、自主地出行?別擔(dān)心,智能瞳行來(lái)啦!這是一款“自帶外掛”的導(dǎo)航神器,集成了高精度視覺傳感和YOLO算法,實(shí)時(shí)識(shí)別障礙物、行人、交通標(biāo)志,并通過(guò)語(yǔ)音播報(bào)精準(zhǔn)
    的頭像 發(fā)表于 03-14 19:43 ?640次閱讀
    RDK加持的導(dǎo)盲眼鏡:視<b class='flag-5'>障</b><b class='flag-5'>人士</b>的“眼睛外掛”

    AN42-基準(zhǔn)電壓源電路集合

    電子發(fā)燒友網(wǎng)站提供《AN42-基準(zhǔn)電壓源電路集合.pdf》資料免費(fèi)下載
    發(fā)表于 01-08 14:33 ?15次下載
    AN42-基準(zhǔn)電壓源電路<b class='flag-5'>集合</b>

    標(biāo)貝數(shù)據(jù)標(biāo)注案例分享:車載語(yǔ)音系統(tǒng)數(shù)據(jù)標(biāo)注

    的作用。一般來(lái)說(shuō),車載語(yǔ)音識(shí)別系統(tǒng)主要分為前端和后端兩個(gè)部分,本文將針對(duì)前端語(yǔ)音信號(hào)數(shù)據(jù)采集標(biāo)注進(jìn)行實(shí)例講解。
    的頭像 發(fā)表于 12-24 14:24 ?579次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b>標(biāo)注案例分享:車載<b class='flag-5'>語(yǔ)音</b>系統(tǒng)<b class='flag-5'>數(shù)據(jù)</b>標(biāo)注

    Flash語(yǔ)音芯片相比OTP語(yǔ)音芯片的優(yōu)勢(shì)

    ?。 1?.可重復(fù)擦寫?:Flash語(yǔ)音芯片的最大特點(diǎn)是支持多次編程和擦除,這意味著用戶可以根據(jù)需要隨時(shí)更新語(yǔ)音內(nèi)容,實(shí)現(xiàn)定制化和靈活的語(yǔ)音交互。相比之下,OTP語(yǔ)音芯片只能編程一次,
    的頭像 發(fā)表于 12-16 15:44 ?505次閱讀

    Java集合API的改進(jìn)介紹

    簡(jiǎn)介 本文我們將探討不同 jdk 版本中各類的起源,以及新引入的類和接口背后的目的。我們將分析之前版本存在的問(wèn)題,以及為何需要引入新的類或接口。此外,我們還將介紹集合類和接口中的新特性。文章將逐一
    的頭像 發(fā)表于 11-22 11:12 ?563次閱讀
    Java<b class='flag-5'>集合</b>API的改進(jìn)介紹

    助盲環(huán)境感知裝置設(shè)計(jì)方案

    今天為大家?guī)?lái)的是來(lái)自創(chuàng)作者X同學(xué)的作品:助盲環(huán)境感知裝置. 這個(gè)裝置主要利用Grove Vision AI V2-Camera module識(shí)別環(huán)境中的物體,并利用XIAO ESP32S3和樹莓派進(jìn)行語(yǔ)音輸出,結(jié)合了物體檢測(cè)和文本轉(zhuǎn)語(yǔ)
    的頭像 發(fā)表于 11-05 11:42 ?693次閱讀
    助盲環(huán)境感知裝置設(shè)計(jì)方案

    請(qǐng)問(wèn)VOLIB語(yǔ)音庫(kù)不能用來(lái)處理實(shí)時(shí)語(yǔ)音嗎?

    我下載了TI的VOLIB語(yǔ)音庫(kù),移植了里面的VEU語(yǔ)音增強(qiáng)程序,說(shuō)明文檔說(shuō)這個(gè)程序里面帶的有降噪功能,數(shù)據(jù)手冊(cè)也是看的云里霧里的,感覺VOLIB是用來(lái)處理網(wǎng)絡(luò)中的語(yǔ)音
    發(fā)表于 10-25 08:24

    九芯電子革新健康檢測(cè)!語(yǔ)音播報(bào)血壓計(jì)ic芯片解決方案

    血壓計(jì),可測(cè)量血壓并將讀數(shù)顯示在屏幕上。為了提高老年人和視人士的可用性,現(xiàn)代電子語(yǔ)音血壓計(jì)已經(jīng)開發(fā)出來(lái),可提供當(dāng)前血壓讀數(shù)的聽覺反饋。這是通過(guò)集成語(yǔ)音芯片來(lái)實(shí)現(xiàn)的,該芯片將測(cè)量結(jié)果發(fā)
    的頭像 發(fā)表于 09-22 08:00 ?525次閱讀
    九芯電子革新健康檢測(cè)!<b class='flag-5'>語(yǔ)音</b>播報(bào)血壓計(jì)ic芯片解決方案

    AN-31放大器電路集合

    電子發(fā)燒友網(wǎng)站提供《AN-31放大器電路集合.pdf》資料免費(fèi)下載
    發(fā)表于 09-21 10:33 ?3次下載
    AN-31放大器電路<b class='flag-5'>集合</b>

    機(jī)器人紅外避

    機(jī)器人紅外避
    發(fā)表于 09-19 12:57 ?0次下載

    輸入文字轉(zhuǎn)化語(yǔ)音

    一、介紹 基于鴻蒙Next模擬一個(gè)輸入用戶文字,轉(zhuǎn)化成語(yǔ)音播報(bào)效果二、場(chǎng)景需求 輔助功能:為視人士提供幫助:將文字內(nèi)容轉(zhuǎn)化為語(yǔ)音,使視覺障礙用戶能夠獲取信息。 教育與學(xué)習(xí):語(yǔ)言學(xué)習(xí):
    發(fā)表于 08-28 10:54