2018年是國內(nèi)智能音箱的火爆元年,市場上短時(shí)間涌入了以小米、阿里、百度和騰訊等為首的數(shù)十款智能音箱,甚至出現(xiàn)了深圳一條街就有百家智能音箱廠商的盛況。但是迄今為止,市場銷量超過百萬的智能音箱廠家只有小米和阿里。
去年“雙十一”阿里的補(bǔ)貼戰(zhàn)略很快就讓天貓精靈率先破百萬,而小米的小米AI音箱繼續(xù)沿用小米口碑營銷思路,憑借用戶體驗(yàn)優(yōu)勢(shì)和性價(jià)比穩(wěn)步上揚(yáng),在缺貨嚴(yán)重且渠道漲價(jià)的情況下,也輕松超過百萬銷量。同時(shí),小米的小愛mini音箱自發(fā)布后更是一周之內(nèi)銷量破百萬,自此,小米一家就擁有了小米AI音箱和小愛mini音箱兩款過百萬銷量的產(chǎn)品。目前,小米AI音箱依然保持著國內(nèi)語音交互體驗(yàn)評(píng)價(jià)更好的優(yōu)勢(shì)。
很多人都會(huì)好奇這一點(diǎn),為什么售價(jià)只有299元的小米AI音箱會(huì)贏得用戶口碑?除了小米的產(chǎn)品團(tuán)隊(duì)對(duì)于用戶體驗(yàn)的精準(zhǔn)把握,其中智能音箱的靈魂——遠(yuǎn)場語音交互技術(shù)也起到了非常關(guān)鍵的作用。遠(yuǎn)場語音交互技術(shù)涉及到了麥克風(fēng)陣列、遠(yuǎn)場語音喚醒、語音端點(diǎn)檢測(cè)、遠(yuǎn)場語音識(shí)別、語義理解和語音合成等技術(shù)。
聲智科技獨(dú)家供應(yīng)了小米AI產(chǎn)品系列中的麥克風(fēng)陣列、遠(yuǎn)場語音喚醒和語音端點(diǎn)檢測(cè)及識(shí)別等技術(shù),并與小米團(tuán)隊(duì)密切配合,從用戶體驗(yàn)角度重新打造了一整套更適應(yīng)東方文化場景的新型遠(yuǎn)場語音交互技術(shù),從技術(shù)決定了用戶的第一體驗(yàn)以及語音識(shí)別的效果。
麥克風(fēng)陣列技術(shù)
麥克風(fēng)陣列是由一定數(shù)目的聲學(xué)傳感器組成,用來對(duì)聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。麥克風(fēng)陣列通常包含2個(gè)以上的麥克風(fēng),2麥通常不稱為麥克風(fēng)陣列,這有點(diǎn)類似于四個(gè)輪子的汽車和兩個(gè)輪子的摩托車之間的比較。
一般認(rèn)為麥克風(fēng)陣列的核心技術(shù)是降噪,事實(shí)上并非這樣,2麥在通信領(lǐng)域就能實(shí)現(xiàn)比較好的降噪效果。麥克風(fēng)陣列的主要作用是幫助機(jī)器適應(yīng)更加復(fù)雜的場景,尤其是語音交互的興起,它事實(shí)上改變了人類必須學(xué)習(xí)適應(yīng)機(jī)器的現(xiàn)狀,轉(zhuǎn)而強(qiáng)調(diào)機(jī)器要學(xué)習(xí)適應(yīng)人類的語言和習(xí)慣,這是一個(gè)產(chǎn)品思維的重大轉(zhuǎn)變,將會(huì)影響未來眾多AI產(chǎn)品的用戶體驗(yàn)設(shè)計(jì)。
麥克風(fēng)陣列的關(guān)鍵技術(shù)包含了通話降噪、混響抑制、回聲抵消、噪聲抑制、語音增強(qiáng)、波束形成、增益控制、識(shí)別優(yōu)化等。除此之外,聲智科技所提供的麥克風(fēng)陣列技術(shù),還獨(dú)具抗強(qiáng)噪喚醒、90度抗強(qiáng)噪識(shí)別、空間感知和認(rèn)知等新技術(shù),其中的90度抗強(qiáng)噪識(shí)別技術(shù)則是面向東方文化場景的獨(dú)特技術(shù)。
由于中國和日本的家庭主要以公寓為主,這類居家環(huán)境下影響語音交互效果的主要是掛在墻上的電視,當(dāng)智能音箱放置電視旁邊或者前方的時(shí)候,這時(shí)候噪聲源、語音源與智能音箱的夾角一般都會(huì)超過90度,當(dāng)電視音量很大的時(shí)候,保證智能音箱的識(shí)別精準(zhǔn)度就非常困難,目前來看,應(yīng)用到小米AI音箱的技術(shù)體驗(yàn)更為出色。
東西方的文化差異造就了不同的技術(shù)導(dǎo)向,當(dāng)然也帶來了不同的技術(shù)測(cè)試驗(yàn)證體系。所以,當(dāng)前國內(nèi)對(duì)于遠(yuǎn)場語音交互技術(shù)的測(cè)試驗(yàn)證的諸多場景是與國外截然不同的。自然,當(dāng)問到為什么國內(nèi)要用60度夾角測(cè)試噪聲源的干擾情況?很多技術(shù)人員就回答參考國外的測(cè)試標(biāo)準(zhǔn),事實(shí)上這是不對(duì)的。
國外的居住環(huán)境以別墅為主,智能音箱的主要應(yīng)用場景在開放式廚房,噪聲來源也主要是廚具設(shè)備噪聲,這相對(duì)電視噪聲來說更好處理(電視噪聲包含大量人聲),而且由于房子更大相對(duì)空曠,國外噪聲環(huán)境管理更加嚴(yán)格,室內(nèi)強(qiáng)噪的情況并不多見,因此對(duì)于90度抗強(qiáng)噪識(shí)別技術(shù)的需求也不強(qiáng)烈。自然,總的來看,國內(nèi)智能音箱對(duì)于遠(yuǎn)場語音交互技術(shù)的要求事實(shí)上遠(yuǎn)高于國外的標(biāo)準(zhǔn)。
遠(yuǎn)場語音喚醒技術(shù)
遠(yuǎn)場語音喚醒的主要作用距離是30CM-500CM,其主要技術(shù)指標(biāo)是喚醒率和誤喚醒率,這兩個(gè)指標(biāo)是一對(duì)蹺蹺板。聲智科技應(yīng)用到小米AI音箱的技術(shù),具有三個(gè)非常獨(dú)特的優(yōu)勢(shì),也是保證用戶體驗(yàn)的關(guān)鍵因素。
其一就是寬場景高靈敏喚醒技術(shù),這是用戶的第一體驗(yàn),小米AI音箱的喚醒詞是小愛同學(xué),國內(nèi)不管任何地區(qū)的發(fā)音,甚至國外的英式中文基本上都能第一次喚醒小愛同學(xué),最差情況三次之內(nèi)也能保證小愛同學(xué)響應(yīng)。
事實(shí)上這是很難做到的,因?yàn)閱拘崖屎驼`喚醒率是一對(duì)蹺蹺板,當(dāng)喚醒效果很好的時(shí)候,誤喚醒通常也會(huì)很高,智能音箱毫無征兆的突然喚醒也是很麻煩的事情。為解決這個(gè)矛盾,通常會(huì)有些技巧性方法,比如阿里的天貓精靈,經(jīng)常第一次很難喚醒,需要第二次才能喚醒,這就是通過工程技巧降低誤喚醒率的通常做法。聲智科技的技術(shù)路線并非這樣簡單,而是必須優(yōu)先保證用戶的體驗(yàn),在此基礎(chǔ)上再降低誤喚醒率,同時(shí)還要提升強(qiáng)噪環(huán)境下的喚醒率,當(dāng)前也只有聲智科技的技術(shù)做到了這點(diǎn)。
其二就是低成本高容錯(cuò)喚醒技術(shù),特別是面向低成本高失真產(chǎn)品的時(shí)候,這項(xiàng)技術(shù)顯得尤其重要。小米的產(chǎn)品一直以性價(jià)比為核心占領(lǐng)市場,比如小米AI音箱售價(jià)僅為299元,拋去市場的補(bǔ)貼因素,至今還是市面上最便宜的智能音箱。這也意味著小米AI音箱的麥克風(fēng)、喇叭和結(jié)構(gòu)都會(huì)以成本因素為第一考量進(jìn)行選擇,這將帶給語音交互技術(shù)巨大的壓力,特別是自噪聲抑制和遠(yuǎn)場信號(hào)處理的難度極具增加。
舉個(gè)簡單例子,比如麥克風(fēng)器件的選擇,信噪比(SNR)70dB以上的麥克風(fēng)要比信噪比60DB的麥克風(fēng)的遠(yuǎn)場和抗噪效果更好,但是選用高信噪比的麥克風(fēng),其結(jié)果就是成本會(huì)高出很多。為了給客戶更多產(chǎn)品設(shè)計(jì)的選擇自由度,聲智科技的技術(shù)必須徹底屏蔽硬件的差異化,并且努力幫助客戶降低成本,即便在一致性和失真度非常大的情況下,也要出色的保證用戶體驗(yàn)的效果。這是聲智科技非常獨(dú)特的優(yōu)勢(shì),當(dāng)然在一些特殊場景,也需要一些性能更好的麥克風(fēng)和芯片才能保證基本效果,所以Google、Amazon等國外的產(chǎn)品通常都會(huì)選用更高性能的麥克風(fēng)。Google、Microsoft等國外公司技術(shù)部門為了追求更好的演示效果,尤其不計(jì)成本使用高信噪比(SNR>70dB)的麥克風(fēng)器件和芯片,這也常常會(huì)誤導(dǎo)國內(nèi)廠商的判斷,聲智科技目前的技術(shù)幾乎做到極致,但是若廠商追求更好的效果,必然也還會(huì)增加各個(gè)鏈條的成本。
其三就是低功耗高性能喚醒技術(shù),低功耗喚醒的核心就是算法的復(fù)雜度,這包括了麥克風(fēng)陣列算法和語音喚醒算法,聲智科技對(duì)于算法的優(yōu)化一直是非常領(lǐng)先的,目前在智能音箱最復(fù)雜的場景,即在立體聲回聲抵消過程中的打斷喚醒,聲智科技的算法復(fù)雜度也遠(yuǎn)優(yōu)于市面上的同類技術(shù)。
很多時(shí)候大家會(huì)對(duì)比一家廠商的語音喚醒技術(shù),僅靠評(píng)判一個(gè)成熟喚醒詞(比如Alexa)也是不對(duì)的,應(yīng)該是考驗(yàn)這家廠商定制喚醒詞的能力,以及服務(wù)的客戶數(shù)量,這個(gè)階段就極其考驗(yàn)供應(yīng)商的技術(shù)迭代和服務(wù)支持能力,AI技術(shù)本身就是在不斷的演化和迭代。
語音端點(diǎn)檢測(cè)技術(shù)
語音端點(diǎn)檢測(cè)的目標(biāo)是要判定語音開始和結(jié)束的位置,一般定義在語音識(shí)別領(lǐng)域。但是由于語音端點(diǎn)檢測(cè)決定了語音識(shí)別的響應(yīng)速度,而且并不能向語音識(shí)別一樣通過增加服務(wù)器來解決,必須嚴(yán)重依賴算法來保證,所以當(dāng)前也成為了遠(yuǎn)場語音交互領(lǐng)域非常關(guān)鍵的因素。
舉個(gè)簡單例子,我們每個(gè)人說話的語速和節(jié)奏差異非常大,如何準(zhǔn)確判斷前端點(diǎn)和后端點(diǎn)以識(shí)別成一個(gè)句子,并且控制這個(gè)時(shí)間在幾百毫秒以內(nèi)(人類發(fā)一個(gè)“啊”音的時(shí)間大概是200毫秒),對(duì)于整個(gè)語音流程的體驗(yàn)來說至關(guān)重要,否則判斷的失敗,也將會(huì)嚴(yán)重影響識(shí)別結(jié)果和語義理解。VAD判停的時(shí)間,長了影響交互體驗(yàn),短了難以適配復(fù)雜場景,還是以符合人類交流的習(xí)慣為最佳。
這其中還有一個(gè)技術(shù)難點(diǎn),就是小愛同學(xué)喚醒之后的隨機(jī)應(yīng)答詞,包括“我在”,“哎”等,而且小米的應(yīng)答詞還可以根據(jù)系統(tǒng)音量自動(dòng)調(diào)整,由于這些應(yīng)答詞會(huì)嚴(yán)重干擾語音識(shí)別的VAD功能,這是對(duì)語音端點(diǎn)檢測(cè)技術(shù)挑戰(zhàn)很大的應(yīng)用場景。
市面上的其他產(chǎn)品,比如天貓精靈系列則是取消了應(yīng)答詞,僅靠燈效來顯示喚醒狀態(tài),而小度視頻音箱則是通過恒定低音量的應(yīng)答詞來繞開這項(xiàng)技術(shù)難題,顯然這類處理手段給用戶的體驗(yàn)都不是太好。目前市面上最為成熟的還是聲智科技提供的動(dòng)態(tài)應(yīng)答詞匹配檢測(cè)技術(shù)。
遠(yuǎn)場語音識(shí)別技術(shù)
由于遠(yuǎn)場智能產(chǎn)品的場景特殊性,遠(yuǎn)場語音識(shí)別相對(duì)更加垂直,比如智能音箱的識(shí)別偏重于音樂和百科領(lǐng)域,智能汽車的識(shí)別偏重于地圖和音樂領(lǐng)域,而對(duì)于地域性的覆蓋,則是遠(yuǎn)場語音識(shí)別著重考慮的,并不能簡單把方言劃歸為一個(gè)技術(shù)系列,特別是消費(fèi)電子領(lǐng)域的高度標(biāo)準(zhǔn)化思維,幾乎不可能存在切換ASR的方法。
所以聲智科技的ASR就要在垂直領(lǐng)域考慮更多場景難題,比如老人和小孩的識(shí)別怎么辦?南方和北方的語言差異怎么辦?真正的產(chǎn)品落地需要考慮眾多應(yīng)用場景的難題,而并非只是簡單的技術(shù)疊加。
場景語音合成技術(shù)
語音合成的兩個(gè)關(guān)鍵點(diǎn),一個(gè)是聲線的優(yōu)美程度,另外一個(gè)就是抑揚(yáng)頓挫的語感流暢程度,這決定了用戶對(duì)于機(jī)器的真實(shí)體驗(yàn)。
其中,第一種技術(shù)需要選擇獨(dú)特的聲優(yōu)就行聲音采集和訓(xùn)練,由聲優(yōu)的聲線決定了合成聲音的效果,選擇聲優(yōu)是一個(gè)考驗(yàn)產(chǎn)品經(jīng)理能力的任務(wù)。第二種技術(shù)則更為重要,是要保證機(jī)器朗讀的聲音更加符合人類的習(xí)慣,但是目前來看所有的產(chǎn)品還遠(yuǎn)遠(yuǎn)沒有達(dá)到這點(diǎn),聲智科技也正在致力研究突破這項(xiàng)技術(shù),估計(jì)一到兩年時(shí)間我們就可以聽到幾乎和人類聲音感覺相同的機(jī)器聲音。
技術(shù)細(xì)節(jié)決定口碑
真正贏得用戶口碑的技術(shù),都是極其注重細(xì)節(jié)的技術(shù),而這類技術(shù)通常符合我們常說的“二八規(guī)則”,即企業(yè)需要投入80%的精力來實(shí)現(xiàn)20%的提升。遠(yuǎn)場語音交互領(lǐng)域非常符合這一特點(diǎn),表面似乎每家公司的技術(shù)大致一樣,但實(shí)際上真正服務(wù)到百萬、千萬甚者上億用戶的時(shí)候,才是真正考驗(yàn)這家技術(shù)公司實(shí)力的時(shí)候。特別是當(dāng)市場用戶對(duì)于AI產(chǎn)品用錢投票的時(shí)候,用戶事實(shí)上不太關(guān)注單項(xiàng)指標(biāo),而真正關(guān)心的則是綜合各個(gè)細(xì)節(jié)的語音交互體驗(yàn)。
-
人機(jī)交互
+關(guān)注
關(guān)注
12文章
1247瀏覽量
56460 -
人工智能
+關(guān)注
關(guān)注
1806文章
49028瀏覽量
249540 -
語音交互
+關(guān)注
關(guān)注
3文章
307瀏覽量
28619
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論