99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺析語(yǔ)音識(shí)別技術(shù)的發(fā)展歷程

汽車玩家 ? 來(lái)源:旺龍ITLONG、eepw、個(gè)人圖書(shū) ? 作者:旺龍ITLONG、eepw、個(gè) ? 2022-02-07 10:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語(yǔ)音識(shí)別,通常稱為自動(dòng)語(yǔ)音識(shí)別,主要是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,也有可能是按鍵、二進(jìn)制編碼或者字符序列。但是,我們一般理解的語(yǔ)音識(shí)別其實(shí)都是狹義的語(yǔ)音轉(zhuǎn)文字的過(guò)程,簡(jiǎn)稱語(yǔ)音轉(zhuǎn)文本識(shí)別,主要是識(shí)別和確認(rèn)發(fā)出語(yǔ)音的人而非其中所包含的內(nèi)容。

語(yǔ)音識(shí)別的目的就是讓機(jī)器聽(tīng)懂人類口述的語(yǔ)言,包括了兩方面的含義:一是逐字逐句聽(tīng)懂而不是轉(zhuǎn)化成書(shū)面的語(yǔ)言文字;二是對(duì)口述語(yǔ)言中所包含的命令或請(qǐng)求加以領(lǐng)會(huì),做出正確回應(yīng),而不僅僅只是拘泥于所有詞匯的正確轉(zhuǎn)換。

語(yǔ)音識(shí)別系統(tǒng)根據(jù)對(duì)輸入語(yǔ)音的限制分類,可以將識(shí)別系統(tǒng)分為三類:

①特定人語(yǔ)音識(shí)別系統(tǒng),僅考慮對(duì)于專人的話音進(jìn)行識(shí)別。

②非特定人語(yǔ)音系統(tǒng),識(shí)別的語(yǔ)音與人無(wú)關(guān),通常要用大量不同人的語(yǔ)音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí)。

③多人的識(shí)別系統(tǒng),通常能識(shí)別一組人的語(yǔ)音,或者成為特定組語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語(yǔ)音進(jìn)行訓(xùn)練。

根據(jù)從說(shuō)話的方式考慮,也可以將識(shí)別系統(tǒng)分為三類:

①孤立詞語(yǔ)音識(shí)別系統(tǒng),孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓。

②連接詞語(yǔ)音識(shí)別系統(tǒng),連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開(kāi)始出現(xiàn)。

③連續(xù)語(yǔ)音識(shí)別系統(tǒng),連續(xù)語(yǔ)音輸入是自然流利的連續(xù)語(yǔ)音輸入,大量連音和變音會(huì)出現(xiàn)。

在過(guò)去5-10年,隨著技術(shù)快速迭代,語(yǔ)音識(shí)別市場(chǎng)在我國(guó)得到飛快發(fā)展,目前處于深度神經(jīng)網(wǎng)絡(luò)階段。如今,語(yǔ)音識(shí)別主流廠商主要使用端到端的算法,在實(shí)驗(yàn)環(huán)境準(zhǔn)確率可高達(dá)99%以上,為推動(dòng)新基建發(fā)展,5G、人工智能、云計(jì)算等作為輔助核心基礎(chǔ)設(shè)施的核心技術(shù)得到進(jìn)一步加速發(fā)展,帶動(dòng)語(yǔ)音識(shí)別迎來(lái)迎來(lái)了更加廣闊的發(fā)展空間,智能家居、智能音箱、智能車載和智能硬件等等都得到很好的廣泛應(yīng)用。

語(yǔ)音識(shí)別主要趨于遠(yuǎn)場(chǎng)化和融合化的方向發(fā)展,但在遠(yuǎn)場(chǎng)可靠性還有很多難點(diǎn)沒(méi)有突破,比如多輪交互、多人噪雜等場(chǎng)景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問(wèn)題,讓機(jī)器聽(tīng)覺(jué)遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步,需要整個(gè)產(chǎn)業(yè)鏈的共同技術(shù)升級(jí),包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。

單從遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)來(lái)看,仍然存在很多挑戰(zhàn),包括:

回聲消除技術(shù)。由于喇叭非線性失真的存在,單純依靠信號(hào)處理手段很難將回聲消除干凈,這也阻礙了語(yǔ)音交互系統(tǒng)的推廣,現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒(méi)有考慮相位信息,直接求取的是各個(gè)頻帶上的增益,能否利用深度學(xué)習(xí)將非線性失真進(jìn)行擬合,同時(shí)結(jié)合信號(hào)處理手段可能是一個(gè)好的方向。

噪聲下的語(yǔ)音識(shí)別仍有待突破。信號(hào)處理擅長(zhǎng)處理線性問(wèn)題,深度學(xué)習(xí)擅長(zhǎng)處理非線性問(wèn)題,而實(shí)際問(wèn)題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語(yǔ)音識(shí)別問(wèn)題。

語(yǔ)音識(shí)別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是最終的目的,如何將語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合起來(lái)可能是未來(lái)更為重要的一個(gè)方向。語(yǔ)音識(shí)別里的LSTM已經(jīng)考慮了語(yǔ)音的歷史時(shí)刻信息,但語(yǔ)義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會(huì)話信息傳遞給語(yǔ)音識(shí)別引擎是一個(gè)難題。

讓機(jī)器聽(tīng)懂人類語(yǔ)言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件;而且,機(jī)器必然要超越人類的五官,能夠看到人類看不到的世界,聽(tīng)到人類聽(tīng)不到的世界。

未來(lái),相信在國(guó)家政策的強(qiáng)力扶持下,能夠加速在垂直行業(yè)的滲透和布局,也相信在供應(yīng)商和開(kāi)發(fā)者共同努力下,語(yǔ)音識(shí)別技術(shù)能夠更好地與其他語(yǔ)音交互技術(shù)及軟件功能融合,為消費(fèi)者提供更優(yōu)質(zhì)的體驗(yàn)。

文章整合自:旺龍ITLONG、eepw、個(gè)人圖書(shū)館

審核編輯:鄢孟繁

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114262
  • 機(jī)器
    +關(guān)注

    關(guān)注

    0

    文章

    791

    瀏覽量

    41297
  • 二進(jìn)制編碼
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    3248
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    普強(qiáng)信息入選2024語(yǔ)音識(shí)別技術(shù)公司TOP30榜單

    普強(qiáng)憑借在語(yǔ)音識(shí)別領(lǐng)域多年的技術(shù)積淀與持續(xù)的創(chuàng)新突破,成功入選“2024語(yǔ)音識(shí)別技術(shù)公司TOP3
    的頭像 發(fā)表于 04-18 17:25 ?652次閱讀

    語(yǔ)音識(shí)別技術(shù)在通信領(lǐng)域中的應(yīng)用實(shí)例

    語(yǔ)音識(shí)別技術(shù)也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),是通過(guò)計(jì)算機(jī)對(duì)
    的頭像 發(fā)表于 02-21 17:12 ?703次閱讀

    詳解語(yǔ)音識(shí)別技術(shù)在通信領(lǐng)域中的應(yīng)用

    語(yǔ)音識(shí)別技術(shù)也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),是通過(guò)計(jì)算機(jī)對(duì)
    的頭像 發(fā)表于 02-21 17:05 ?791次閱讀
    詳解<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b><b class='flag-5'>技術(shù)</b>在通信領(lǐng)域中的應(yīng)用

    藍(lán)牙技術(shù)發(fā)展歷程和工作原理

    你是否曾經(jīng)想過(guò),手機(jī)、耳機(jī)、鍵盤(pán)等設(shè)備之間是如何實(shí)現(xiàn)無(wú)線連接的?這一切都離不開(kāi)一項(xiàng)重要的技術(shù)——藍(lán)牙。本文將帶你一起探索藍(lán)牙技術(shù)發(fā)展歷程,了解這項(xiàng)
    的頭像 發(fā)表于 01-10 15:29 ?2146次閱讀

    離線語(yǔ)音識(shí)別技術(shù)引領(lǐng)智能語(yǔ)音燈具市場(chǎng)——NRK3502

    智能語(yǔ)音燈具集高科技與人性化設(shè)計(jì),內(nèi)置NRK3502離線語(yǔ)音識(shí)別芯片,支持遠(yuǎn)場(chǎng)識(shí)別與自定義指令,提供便捷智能體驗(yàn),推動(dòng)智能家居行業(yè)發(fā)展。
    的頭像 發(fā)表于 12-30 15:04 ?773次閱讀
    離線<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b><b class='flag-5'>技術(shù)</b>引領(lǐng)智能<b class='flag-5'>語(yǔ)音</b>燈具市場(chǎng)——NRK3502

    語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用

    語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已經(jīng)越來(lái)越廣泛,為醫(yī)療服務(wù)帶來(lái)了諸多便利和效率提升。以下是對(duì)語(yǔ)音識(shí)別技術(shù)
    的頭像 發(fā)表于 11-26 09:35 ?1220次閱讀

    語(yǔ)音識(shí)別在智能家居中的應(yīng)用

    隨著科技的飛速發(fā)展,智能家居逐漸成為人們生活中不可或缺的一部分。智能家居系統(tǒng)通過(guò)物聯(lián)網(wǎng)技術(shù)將家中的各種設(shè)備連接起來(lái),實(shí)現(xiàn)遠(yuǎn)程控制和自動(dòng)化管理。在眾多的控制方式中,語(yǔ)音識(shí)別
    的頭像 發(fā)表于 11-26 09:31 ?1393次閱讀

    語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

    在人工智能的快速發(fā)展中,語(yǔ)音識(shí)別和自然語(yǔ)言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別
    的頭像 發(fā)表于 11-26 09:21 ?1514次閱讀

    語(yǔ)音識(shí)別技術(shù)的應(yīng)用與發(fā)展

    語(yǔ)音識(shí)別技術(shù)發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來(lái),隨著計(jì)算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,這項(xiàng)
    的頭像 發(fā)表于 11-26 09:20 ?1637次閱讀

    ASR與傳統(tǒng)語(yǔ)音識(shí)別的區(qū)別

    ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)與傳統(tǒng)語(yǔ)音識(shí)別在多個(gè)方面存在顯著的區(qū)別。以下是對(duì)這兩者的對(duì)比: 一、
    的頭像 發(fā)表于 11-18 15:22 ?1359次閱讀

    ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語(yǔ)音識(shí)別技術(shù),是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語(yǔ)音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個(gè)領(lǐng)域。
    的頭像 發(fā)表于 11-18 15:12 ?2079次閱讀

    直徑測(cè)量工具的發(fā)展歷程

    關(guān)鍵字:直徑測(cè)量,工業(yè)直徑測(cè)量設(shè)備,線性尺量器,光電測(cè)徑儀, 直徑測(cè)量工具的發(fā)展歷程是一個(gè)悠久且不斷創(chuàng)新的過(guò)程,它隨著科學(xué)技術(shù)的進(jìn)步而不斷演變。以下是直徑測(cè)量工具發(fā)展
    發(fā)表于 10-10 16:55

    WTK6900FC語(yǔ)音識(shí)別模塊

    語(yǔ)音識(shí)別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月25日 17:35:07

    唯創(chuàng)知音WT2605C用在離在線語(yǔ)音識(shí)別方案# #語(yǔ)音芯片 #語(yǔ)音識(shí)別 #唯創(chuàng)知音

    語(yǔ)音識(shí)別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月12日 17:24:28

    NAND閃存的發(fā)展歷程

    NAND閃存的發(fā)展歷程是一段充滿創(chuàng)新與突破的歷程,它自誕生以來(lái)就不斷推動(dòng)著存儲(chǔ)技術(shù)的進(jìn)步。以下是對(duì)NAND閃存發(fā)展
    的頭像 發(fā)表于 08-10 16:32 ?2423次閱讀