語音識別技術(shù)并不是一項(xiàng)新興的技術(shù),并且技術(shù)門檻也不算太高。在需求巨大的智能家居市場語音識別能否代替智能手機(jī)成為另一大入口?全球范圍內(nèi)哪些廠商在布局語音識別技術(shù),語音是識別的技術(shù)原理和難點(diǎn)又在哪?
物聯(lián)網(wǎng)市場潛力巨大應(yīng)用眾多,在繁多的應(yīng)用中智能家居或許能優(yōu)先落地。不過,除了物聯(lián)網(wǎng)標(biāo)準(zhǔn)和觀念阻礙智能家居的發(fā)展,手機(jī)作為目前首要的入口也大大影響了體驗(yàn)。語音識別并不是一項(xiàng)新興的技術(shù),但在智能家居甚至人工智能領(lǐng)域或許能大展身手。
物聯(lián)網(wǎng)與智能家居市場潛力可期
市場研究咨詢公司Gartner預(yù)測,2020年全球物聯(lián)網(wǎng)終端設(shè)備的出貨量將達(dá)到66億,而物聯(lián)網(wǎng)設(shè)備數(shù)量總數(shù)將達(dá)到208億,花費(fèi)在物聯(lián)網(wǎng)上的總支出將達(dá)到約2420億美元。
Gartner同時預(yù)測,2017年以后智能家居將成為物聯(lián)網(wǎng)最大的用戶。有機(jī)構(gòu)預(yù)測2016年中國智能家居市場規(guī)模增速將達(dá)到50.1% ,并保持這一增速,到2018年中國智能家居市場規(guī)模將達(dá)到1396億元,市場規(guī)模約占全球總規(guī)模的32%,2020年中國智能家居市場規(guī)模將達(dá)到3000多億元。全球TOP100電信運(yùn)營商中已有60%計(jì)劃進(jìn)軍智能家居市場更讓我們有理由相信智能家居將會成為最先落地的物聯(lián)網(wǎng)應(yīng)用。
智能家居入口單一
無論是在正式還是非正式場合,談起智能家居總能聽到手機(jī)作為唯一入口的抱怨。舉個簡單的例子,當(dāng)你安裝了智能燈具,但你想要打開或調(diào)整還要先找到手機(jī)打開APP。這時候可能很多人會選擇直接用開關(guān)解決問題而非使用手機(jī)。
智能家居的愿景很好,但目前的體驗(yàn)確實(shí)還有很大的提升空間。關(guān)于手機(jī)作為智能家居的唯一入口的問題,艾拉物聯(lián)的聯(lián)合創(chuàng)始人、大中華區(qū)總裁Phillip張南雄就表示:“手機(jī)可能不是智能家居甚至物聯(lián)網(wǎng)的唯一入口,語音識別是一個很大的入口?!泵赖闹腔劭偨?jīng)理李強(qiáng)也表示,手機(jī)作為智能家居唯一入口的局面將被改變。
語音識別成為爭奪焦點(diǎn)
據(jù)悉,全球范圍人工智能公司多專攻深度學(xué)習(xí)方向,而我國人工智能方向的200家左右的創(chuàng)業(yè)公司有超過70%的公司主攻圖像或語音識別這兩個分類。全球都有哪些公司在布局語音識別?他們的發(fā)展情況又如何?
其實(shí),早在計(jì)算機(jī)發(fā)明之前,自動語音識別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。最早的基于電子計(jì)算機(jī)的語音識別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開發(fā)的Audrey語音識別系統(tǒng),它能夠識別10個英文數(shù)字。到1950年代末,倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語法概率加入語音識別中。
1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。這一時代的兩大突破是線性預(yù)測編碼Linear Predictive Coding (LPC),及動態(tài)時間規(guī)整Dynamic Time Warp技術(shù)。語音識別技術(shù)最重大的突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過Rabiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實(shí)現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。
蘋果Siri
許多人認(rèn)識語音識別可能還得歸功于蘋果鼎鼎大名的語音助手Siri。2011年蘋果將語音識別技術(shù)融入到iPhone 4S中并發(fā)布了Siri語音助理,不過Siri并不是蘋果研發(fā)的技術(shù),而是收購成立于2007年的Siri Inc.這家公司獲得的技術(shù)。在iPhone4s發(fā)布以后,Siri的體驗(yàn)并不理想,遭到了吐槽。因此,2013年蘋果又收購了Novauris Technologies。Novauris是一種可識別整個短語的語音識別技術(shù),這種技術(shù)并非簡單識別單個詞句,而是試圖利用超過2.45億個短語的識別輔助理解上下文,這讓Siri的功能進(jìn)一步完善。
不過Siri并沒有因?yàn)槭召廚ovauris變得完美,2016年蘋果又收購了開發(fā)的人工智能軟件,能夠幫助計(jì)算機(jī)與用戶進(jìn)行更為自然的對話英國語音技術(shù)初創(chuàng)公司VocalIQ。隨后,蘋果還收購了美國圣地牙哥 AI 技術(shù)公司 Emotient,接收其臉部表情分析與情緒辨別技術(shù)。據(jù)悉,Emotient開發(fā)的情緒引擎可讀取人們的面部表情并且預(yù)測其情緒狀態(tài)。
谷歌 Google Now
與蘋果Siri類似,谷歌的Google Now知名度也比較高。不過相比蘋果谷歌在語音識別領(lǐng)域的動作稍顯遲緩。2011年谷歌才出手收購語音通信公司SayNow和語音合成公司Phonetic Arts。SayNow可以把語音通信、點(diǎn)對點(diǎn)對話、以及群組通話和Facebook、Twitter、MySpace、Android和 iPhone等等應(yīng)用等整合在一起,而Phonetic Arts可以把錄制的語音對話轉(zhuǎn)化成語音庫,然后把這些聲音結(jié)合到一起,從而生成聽上去非常逼真的人聲對話。
2012年的Google I/O開發(fā)者大會上,Google Now第一次亮相。
2013年谷歌又以超過3000萬美元收購了新聞閱讀應(yīng)用開發(fā)商Wavii。Wavii擅長“自然語言處理”技術(shù),可以通過掃描互聯(lián)網(wǎng)發(fā)現(xiàn)新聞,并直接給出一句話摘要及鏈接。之后,谷歌又收購了SR Tech Group 的多項(xiàng)語音識別相關(guān)的專利,這些技術(shù)和專利谷歌也很快應(yīng)用到市場,比如YouTube已提供標(biāo)題自動語音轉(zhuǎn)錄支持,Google Glass使用了語音控制技術(shù),Android也整合了語音識別技術(shù)等等,Google Now更是擁有了完整的語音識別引擎。
谷歌可能出于戰(zhàn)略布局方面的考慮,2015年入資了中國的出門問問,這是一款以語音導(dǎo)航為主的公司,最近也發(fā)布了智能手表,出門問問也有國內(nèi)著名聲學(xué)器件廠商歌爾聲學(xué)的背景。
微軟 Cortana 小冰
微軟語音識別最吸引眼球的就是Cortana和小冰。Cortana是微軟在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域方面的嘗試,Cortana可以記錄用戶的行為和使用習(xí)慣,利用云計(jì)算、搜索引擎和“非結(jié)構(gòu)化數(shù)據(jù)”分析,讀取和學(xué)習(xí)包括手機(jī)中的圖片、視頻、電子郵件等數(shù)據(jù)理解用戶的語義和語境,從而實(shí)現(xiàn)人機(jī)交互。
微軟小冰是微軟亞洲研究院2014年發(fā)布的人工智能機(jī)器人,微軟小冰除了智能對話之外,還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點(diǎn)評等實(shí)用技能。
除了Cortana和微軟小冰,Skype Translator,可以為英語、西班牙語、漢語、意大利語用戶提供實(shí)時翻譯服務(wù)。
Amazon的語音技術(shù)起步于2011年收購語音識別公司Yap,Yap成立于2006年,主要提供語音轉(zhuǎn)換文本的服務(wù)。2012年Amazon又收購了語音技術(shù)公司Evi,繼續(xù)加強(qiáng)語音識別在商品搜索方面的應(yīng)用, Evi也曾經(jīng)應(yīng)用過Nuance的語音識別技術(shù)。2013年,Amazon繼續(xù)收購Ivona Software,Ivona是一家波蘭公司,主要做文本語音轉(zhuǎn)換,其技術(shù)已被應(yīng)用在Kindle Fire的文本至語音轉(zhuǎn)換功能、語音命令和Explore by Touch應(yīng)用之中,Amazon智能音箱Echo也是利用了這項(xiàng)技術(shù)。
Facebook在2013年收購了創(chuàng)業(yè)型語音識別公司Mobile Technologies,其產(chǎn)品Jibbigo允許用戶在25種語言中進(jìn)行選擇,使用其中一種語言進(jìn)行語音片段錄制或文本輸入,然后將翻譯顯示在屏幕上,同時根據(jù)選擇的語言大聲朗讀出來。這一技術(shù)使得 Jibbigo成為出國旅游的常用工具,很好地代替了常用語手冊。
之后,F(xiàn)acebook繼續(xù)收購了語音交互解決方案服務(wù)商Wit.ai。Wit.ai的解決方案允許用戶直接通過語音來控制移動應(yīng)用程序、穿戴設(shè)備和機(jī)器人,以及幾乎任何智能設(shè)備。Facebook的希望將這種技術(shù)應(yīng)用到定向廣告之中,將技術(shù)和自己的商業(yè)模式緊密結(jié)合在一起。
傳統(tǒng)語音識別行業(yè)貴族Nuance
除了以上介紹的大家熟知的科技巨頭的語音識別發(fā)展情況,傳統(tǒng)語音識別行業(yè)貴族Nuance也值得了解。Nuance曾經(jīng)在語音領(lǐng)域一統(tǒng)江湖,世界上有超過80%的語音識別都用過Nuance識別引擎技術(shù),其語音產(chǎn)品可以支持超過50種語言,在全球擁有超過20億用戶,幾乎壟斷了金融和電信行業(yè)。現(xiàn)在, Nuance依舊是全球最大的語音技術(shù)公司,掌握著全球最多的語音技術(shù)專利。蘋果語音助手Siri、三星語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心,剛開始都是采用他們的語音識別引擎技術(shù)。
不過由于Nuance有點(diǎn)過于自大,現(xiàn)在的Nuance已經(jīng)不如當(dāng)年了。
國外其他語音識別公司
2013年英特爾收購了西班牙的語音識別技術(shù)公司Indisys,同年雅虎收購了自然語言處理技術(shù)初創(chuàng)公司SkyPhrase。而美國最大的有線電視公司Comcast也開始推出自己的語音識別交互系統(tǒng)。Comcast希望利用語音識別技術(shù)讓用戶通過語音就可以更自由控制電視,并完成一些遙控器無法完成的事情。
國內(nèi)語音識別廠商
科大訊飛
科大訊飛成立于1999年底,依靠中科大的語音處理技術(shù)以及國家的大力扶持,很快就走上了正軌。科大訊飛2008年掛牌上市,目前市值接近500億,根據(jù)2014年語音產(chǎn)業(yè)聯(lián)盟的數(shù)據(jù)調(diào)查顯示,科大訊飛占據(jù)了超過60%的市場份額,絕對是語音技術(shù)的國內(nèi)龍頭企業(yè)。
提到科大訊飛,大家可能想到的都是語音識別,但其實(shí)它最大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啟明科技等,對教育市場形成了壟斷,經(jīng)過一系列的收購后,目前所有省份的口語評測用的都是科大訊飛的引擎,由于其占據(jù)了考試的制高點(diǎn),所有的學(xué)校及家長都愿意為其買單。
百度語音
百度語音很早就被確立為戰(zhàn)略方向,2010年與中科院聲學(xué)所合作研發(fā)語音識別技術(shù),但是市場發(fā)展相對緩慢。直到2014年,百度重新梳理了戰(zhàn)略,請來了人工智能領(lǐng)域的泰斗級大師吳恩達(dá),正式組建了語音團(tuán)隊(duì),專門研究語音相關(guān)技術(shù),由于有百度強(qiáng)大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場份額,其技術(shù)實(shí)力已經(jīng)可以和擁有十多年技術(shù)與經(jīng)驗(yàn)積累的科大訊飛相提并論。
捷通和信利
捷通華聲憑借的是清華技術(shù),成立初期力邀中科院聲學(xué)所的呂士楠老先生加入,奠定了語音合成的基礎(chǔ)。中科信利則完全依托于中科院聲學(xué)所,其成立初期技術(shù)實(shí)力極為雄厚,不僅為國內(nèi)語音識別行業(yè)培養(yǎng)了大量人才,而且也在行業(yè)領(lǐng)域,特別是軍工領(lǐng)域發(fā)揮著至關(guān)重要的作用。
中科院聲學(xué)所培養(yǎng)的這些人才,對于國內(nèi)語音識別行業(yè)的發(fā)展極為重要,姑且稱之為聲學(xué)系,但是相對于市場來說,這兩家公司已經(jīng)落后了科大訊飛一大段距離。中科信利由于還有行業(yè)市場背景,目前基本上不再參與市場運(yùn)作,而捷通華聲最近也因?yàn)槟洗箅娮印皨蓩伞睓C(jī)器人的造假事件被推上了風(fēng)口浪尖,著實(shí)是一個非常負(fù)面的影響。
思必馳
2009年前后,DNN被用于語音識別領(lǐng)域,語音識別率得到大幅提升,識別率突破90%,達(dá)到商用標(biāo)準(zhǔn),這極大的推動了語音識別領(lǐng)域的發(fā)展,這幾年內(nèi)又先后成立許多語音識別相關(guān)的創(chuàng)業(yè)公司。
思必馳2007年成立,創(chuàng)始人大部分來源于劍橋團(tuán)隊(duì),其技術(shù)有一定的國外基礎(chǔ),當(dāng)時公司主要側(cè)重于語音評測,也就是教育,但經(jīng)過多年的發(fā)展,雖然占有了一些市場,但在科大訊飛把持著考試制高點(diǎn)的情況下,也很難得到突破。
于是在2014年的時候,思必馳痛下決心將負(fù)責(zé)教育行業(yè)的部門剝離,以9000萬賣給了網(wǎng)龍,自己則把精力收縮專注智能硬件和移動互聯(lián)網(wǎng),最近更是集中精力聚焦車載語音助手,推出了“蘿卜”,可市場反響非常一般。
云知聲
借著2011年蘋果Siri的宣傳勢頭,2012年云知聲成立。云知聲團(tuán)隊(duì)主要來源于盛大研究院,湊巧的是CEO和CTO也是中科大畢業(yè),與科大訊飛可以說是師兄弟。但語音識別技術(shù)則更多的源于中科院自動化所,其語音識別技術(shù)有一定的獨(dú)到之處,有一小段時期內(nèi)語音識別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達(dá)到3億,主要瞄準(zhǔn)智能家居市場。但至今已經(jīng)成立了3年多,聽到的更多是宣傳,市場發(fā)展較為緩慢,B2B市場始終不見起色,B2C市場也很少聽到實(shí)際應(yīng)用,估計(jì)目前還處在燒錢階段。
出門問問
出門問問成立于2012年,其CEO曾經(jīng)在谷歌工作,在拿到紅杉資本和真格基金的天使投資之后,從谷歌辭職創(chuàng)辦了上海羽扇智信息科技有限公司,并立志打造下一代移動語音搜索產(chǎn)品——“出門問問”。
出門問問的成功之處便是蘋果APP的榜單排名,但是筆者不知道有那么多內(nèi)置地圖的情況下,為啥還要下載這個軟件,顯然有時候比直接查找地圖還要麻煩。出門問問同樣也具有較強(qiáng)的融資能力,2015年拿到了Google的C輪融資,融資額累計(jì)已經(jīng)7500萬美元。出門問問主要瞄準(zhǔn)可穿戴市場,最近自己也推出了智能手表等產(chǎn)品,但也是雷聲大,雨點(diǎn)小,沒見得其智能手表的銷量如何。
國內(nèi)其他的語音識別公司
語音識別的門檻并不高,因此國內(nèi)各大公司也逐漸加入進(jìn)來。搜狗開始采用的是云知聲的語音識別引擎,但很快就搭建起自己的語音識別引擎,主要應(yīng)用于搜狗輸入法,效果也還可以。
騰訊當(dāng)然不會落后,微信也建立了自己語音識別引擎,用于將語音轉(zhuǎn)換為文字,但這個做的還是有點(diǎn)差距。
阿里,愛奇藝,360,樂視等等也都在搭建自己的語音識別引擎,但這些大公司更多的是自研自用,基本上技術(shù)上泛善可陳,業(yè)界也沒有什么影響力。
當(dāng)然,除了以上介紹的產(chǎn)業(yè)界的語音識別公司,學(xué)術(shù)界Cambridge的HTK工具對學(xué)術(shù)界研究推動巨大,還有CMU、SRI、MIT、RWTH、ATR等同樣推動語音識別技術(shù)的發(fā)展。
語音識別技術(shù)原理是什么?
對于語音識別技術(shù),相信大家或多或少都已經(jīng)有了接觸和應(yīng)用,上面我們也已經(jīng)介紹了國內(nèi)外主要的語音識別技術(shù)公司的情況。但你仍然可能想知道,語音識別技術(shù)的原理是什么?那么接下來就為大家做介紹。
語音識別技術(shù)
語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識別的目的就是讓機(jī)器賦予人的聽覺特性,聽懂人說什么,并作出相應(yīng)的動作。目前大多數(shù)語音識別技術(shù)是基于統(tǒng)計(jì)模式的,從語音產(chǎn)生機(jī)理來看,語音識別可以分為語音層和語言層兩部分。
語音識別本質(zhì)上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進(jìn)行比較,最佳匹配的參考模式被作為識別結(jié)果。
當(dāng)今語音識別技術(shù)的主流算法,主要有基于動態(tài)時間規(guī)整(DTW)算法、基于非參數(shù)模型的矢量量化(VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(HMM)的方法、基于人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)等語音識別方法。
語音識別基本框圖
語音識別分類:
根據(jù)對說話人的依賴程度,分為:
(1)特定人語音識別(SD):只能辨認(rèn)特定使用者的語音,訓(xùn)練→使用。
?。?)非特定人語音識別(SI):可辨認(rèn)任何人的語音,無須訓(xùn)練。
根據(jù)對說話方式的要求,分為:
(1)孤立詞識別:每次只能識別單個詞匯。
?。?)連續(xù)語音識別:用者以正常語速說話,即可識別其中的語句。
語音識別系統(tǒng)
語音識別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成,分別對應(yīng)于語音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。
Sphinx是由美國卡內(nèi)基梅隆大學(xué)開發(fā)的大詞匯量、非特定人、連續(xù)英語語音識別系統(tǒng)。一個連續(xù)語音識別系統(tǒng)大致可分為四個部分:特征提取,聲學(xué)模型訓(xùn)練,語言模型訓(xùn)練和解碼器。
(1)預(yù)處理模塊
對輸入的原始語音信號進(jìn)行處理,濾除掉其中的不重要的信息以及背景噪聲,并進(jìn)行語音信號的端點(diǎn)檢測(找出語音信號的始末)、語音分幀(近似認(rèn)為在10-30ms內(nèi)是語音信號是短時平穩(wěn)的,將語音信號分割為一段一段進(jìn)行分析)以及預(yù)加重(提升高頻部分)等處理。
?。?)特征提取
去除語音信號中對于語音識別無用的冗余信息,保留能夠反映語音本質(zhì)特征的信息,并用一定的形式表示出來。也就是提取出反映語音信號特征的關(guān)鍵特征參數(shù)形成特征矢量序列,以便用于后續(xù)處理。
目前的較常用的提取特征的方法還是比較多的,不過這些提取方法都是由頻譜衍生出來的。
?。?)聲學(xué)模型訓(xùn)練
根據(jù)訓(xùn)練語音庫的特征參數(shù)訓(xùn)練出聲學(xué)模型參數(shù)。在識別時可以將待識別的語音的特征參數(shù)同聲學(xué)模型進(jìn)行匹配,得到識別結(jié)果。
目前的主流語音識別系統(tǒng)多采用隱馬爾可夫模型HMM進(jìn)行聲學(xué)模型建模。
?。?)語言模型訓(xùn)練
語言模型是用來計(jì)算一個句子出現(xiàn)概率的概率模型。它主要用于決定哪個詞序列的可能性更大,或者在出現(xiàn)了幾個詞的情況下預(yù)測下一個即將出現(xiàn)的詞語的內(nèi)容。換一個說法說,語言模型是用來約束單詞搜索的。它定義了哪些詞能跟在上一個已經(jīng)識別的詞的后面(匹配是一個順序的處理過程),這樣就可以為匹配過程排除一些不可能的單詞。
語言建模能夠有效的結(jié)合漢語語法和語義的知識,描述詞之間的內(nèi)在關(guān)系,從而提高識別率,減少搜索范圍。語言模型分為三個層次:字典知識,語法知識,句法知識。
對訓(xùn)練文本數(shù)據(jù)庫進(jìn)行語法、語義分析,經(jīng)過基于統(tǒng)計(jì)模型訓(xùn)練得到語言模型。語言建模方法主要有基于規(guī)則模型和基于統(tǒng)計(jì)模型兩種方法。
?。?)語音解碼和搜索算法
解碼器:即指語音技術(shù)中的識別過程。針對輸入的語音信號,根據(jù)己經(jīng)訓(xùn)練好的HMM聲學(xué)模型、語言模型及字典建立一個識別網(wǎng)絡(luò),根據(jù)搜索算法在該網(wǎng)絡(luò)中尋找最佳的一條路徑,這個路徑就是能夠以最大概率輸出該語音信號的詞串,這樣就確定這個語音樣本所包含的文字了。所以解碼操作即指搜索算法:是指在解碼端通過搜索技術(shù)尋找最優(yōu)詞串的方法。
連續(xù)語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據(jù)的是對公式中的聲學(xué)模型打分和語言模型打分。在實(shí)際使用中,往往要依據(jù)經(jīng)驗(yàn)給語言模型加上一個高權(quán)重,并設(shè)置一個長詞懲罰分?jǐn)?shù)。當(dāng)今的主流解碼技術(shù)都是基于Viterbi搜索算法的,Sphinx也是。
語音識別技術(shù)的難點(diǎn)
說話人的差異
? 不同說話人:發(fā)音器官,口音,說話風(fēng)格
? 同一說話人:不同時間,不同狀態(tài)
噪聲影響
? 背景噪聲
? 傳輸信道,麥克風(fēng)頻響
魯棒性技術(shù)
? 區(qū)分性訓(xùn)練
? 特征補(bǔ)償和模型補(bǔ)償
語音識別的具體應(yīng)用
? 命令詞系統(tǒng)
? 識別語法網(wǎng)絡(luò)相對受限,對用戶要求較嚴(yán)格
? 菜單導(dǎo)航,語音撥號,車載導(dǎo)航,數(shù)字字母識別等等
? 智能交互系統(tǒng)
? 對用戶要求較為寬松,需要識別和其他領(lǐng)域技術(shù)的結(jié)合
? 呼叫路由,POI語音模糊查詢,關(guān)鍵詞檢出
? 大詞匯量連續(xù)語音識別系統(tǒng)
? 海量詞條,覆蓋面廣,保證正確率的同時實(shí)時性較差
? 音頻轉(zhuǎn)寫
? 結(jié)合互聯(lián)網(wǎng)的語音搜索
? 實(shí)現(xiàn)語音到文本,語音到語音的搜索
評論