“ 俞凱是上海交大教授,同時是思必馳聯(lián)合創(chuàng)始人/首席科學(xué)家,他平時出席技術(shù)性質(zhì)的活動,他坦言思必馳是一個技術(shù)型驅(qū)動的公司,要做一個語音場景方案提供商,不做面向C端的產(chǎn)品。這篇文章講述關(guān)于思必馳在定位思考、市場觀察、技術(shù)落地等想法,這篇文章帶你更深入地了解思必馳。
億歐:對于思必馳這種創(chuàng)業(yè)型企業(yè),之前對外公布主要發(fā)力車載后裝市場,究竟車載前裝市場對比后裝市場有多大呢?
俞凱:進(jìn)入車載前裝市場是公司的節(jié)奏問題,前裝跟后裝最大的區(qū)別在于后裝出品速度快,前裝車廠往往會比較嚴(yán)格地審核,出品周期比較長,目前思必馳已經(jīng)在對接前裝市場,但是要看到產(chǎn)品,估計(jì)要等上一年甚至兩年的時間。
科大訊飛自己做車載前裝語音已經(jīng)做了幾年時間,能否進(jìn)入前裝市場不是一個技術(shù)問題,更多的是產(chǎn)品對接流程耗時問題。前裝比后裝要求更多,前裝需要跟車型匹配、生產(chǎn)鏈條、特殊的場景測試等,對接工作量是巨大的,所以從后裝市場進(jìn)入前裝市場對于思必馳而言只是節(jié)奏問題。
像寶馬和奧迪等公司也會跟我們?nèi)贤ㄜ囕d語音前裝對接的事情,前裝汽車廠商不會綁定一個產(chǎn)品供應(yīng)商,前裝市場的迭代周期跟后裝有很大的不同,思必馳并不著急,進(jìn)入前裝語音廠商只是時間問題。
從市場占比上,車載硬件大部分都是后裝市場,如果從起量上講,后裝市場是更大,但是從價值收入角度講,前裝的售價是比后裝要高。
億歐:思必馳的企業(yè)定位?
俞凱:人工智能大體有三個不同的層次,第一種是專門做模塊、底層技術(shù)的傳感器公司,第二種是專門做人工智能技術(shù)的平臺,第三種是專門做人工智能應(yīng)用級別的產(chǎn)品公司,思必馳是第二種。
思必馳希望把研發(fā)的底層技術(shù)和語音交互經(jīng)驗(yàn)提供給車載產(chǎn)品廠商或者系統(tǒng)集成廠商,而產(chǎn)品廠商只需要關(guān)注滿足市場剛需的產(chǎn)品,這是智能語音車載行業(yè)的上下游分工。思必馳的定位是非常明確的,不做具體的應(yīng)用級產(chǎn)品,只做語音技術(shù)平臺。
定位是在發(fā)展過程中摸索出來的,最初我們也在手機(jī)語音上做過嘗試,但是并不成功,在2013年做過探索,做出來之后發(fā)現(xiàn)并不核心,做出來都是免費(fèi)的,沒有收費(fèi)模式。而做智能硬件的語音模塊,第一,這是剛需,第二,這是有營利模式的,手機(jī)上的語音模塊并不是剛需,因?yàn)槟阌形淖州斎氲忍娲侄?,在硬件交互過程中,對于復(fù)雜信息交互(比如問路、聽歌、購物),除了語音交互,沒有其他替代手段,當(dāng)我們發(fā)現(xiàn)這個點(diǎn)才是真正有意義的,把精力全部投進(jìn)去。
億歐:車載語音產(chǎn)品在技術(shù)上還有多大的發(fā)展空間呢?
俞凱:語音技術(shù)層面還有兩塊可提升的。
①對接認(rèn)知功能,語音目前解決了“有無”的問題,但全世界都沒有解決“好壞”的問題和對接深度的問題,目前很多車載硬件都可以搜索餐館,但是做不到語音訂餐和訂座,這是語音模塊和功能模塊的對接深度問題。
這涉及到多輪交互的問題,我們下一個發(fā)展目標(biāo),在車載情況下,實(shí)現(xiàn)非配合、自由、多輪交互。目前為止,這只是一個概念,并沒有很好的解決方案。無論在國內(nèi)還是國外,思必馳有在比較深入對這個問題進(jìn)行研究。
②第二塊突破在車載設(shè)備上,無論是車載后視鏡還是其他車機(jī),有的是安卓系統(tǒng)、有的是winCE系統(tǒng);在配置上也不同,有的是1個麥克風(fēng),有的是多個麥克風(fēng),這些并不統(tǒng)一。
車載內(nèi)部是一個噪聲環(huán)境,對降噪處理仍然有很大的技術(shù)提升空間,在車內(nèi)空間,簡單撥號操作是沒問題的,但是完全自由對話、多人對話,比較復(fù)雜的情況仍然不能很好解決,雖然這些需求并不高頻,但對于成熟的車載設(shè)備是必須要有的。
億歐:科大訊飛總部在安徽合肥、思必馳的總部在蘇州,人才引入跟地區(qū)是否有關(guān)系呢?
俞凱:語音行業(yè)的技術(shù)鏈條特別長,適口人才要求懂的東西特別多,懂語音的人要懂信號處理、模式識別、認(rèn)知、語音、心理學(xué)、計(jì)算機(jī)科學(xué)等,需要走的鏈條特別長。同時語音人才團(tuán)隊(duì)要求規(guī)模化,擁有一支語音基礎(chǔ)研究團(tuán)隊(duì)特別重要,但凡能成為語音技術(shù)平臺型企業(yè)的,背后都要有一支基礎(chǔ)研發(fā)團(tuán)隊(duì)。
而語音是研究鏈條特別長,沒有基礎(chǔ)人才,是沒有辦法做以技術(shù)驅(qū)動型公司的,沒有基礎(chǔ)技術(shù)團(tuán)隊(duì),最后只能做一個靠產(chǎn)品取勝、商業(yè)模式取勝、設(shè)計(jì)取勝的產(chǎn)品型公司,想要靠技術(shù)跟別人拉開差距,沒有基礎(chǔ)研發(fā)實(shí)力,光靠工程師,不能跟國際前沿走在一起的。
科大訊飛在安徽,是比較偏的地方,思必馳在蘇州,也不在北上深,都有一個特質(zhì),背后有一支國際級的研究團(tuán)隊(duì),科大訊飛依托中國科技大學(xué)的語音語義實(shí)驗(yàn)室,這里不單聚集中國科技大學(xué)工程系做語音的人,還集聚了計(jì)算機(jī)系做自然語言處理的人。
思必馳跟上海交通大學(xué)成立了思必馳上海交大實(shí)驗(yàn)室,實(shí)驗(yàn)室聚集了聲學(xué)、語言到認(rèn)知研究人員,聚集了計(jì)算機(jī)系的人才做支撐,同時我是上海交大的教授,能夠把最好的技術(shù)快速應(yīng)用到產(chǎn)品上。比如說今年能夠?qū)?a href="http://www.socialnewsupdate.com/tags/語音識別/" target="_blank">語音識別的速度提高3-4倍,這是一種引領(lǐng)。
億歐:昆仲資本姚海波說過,在人工智能領(lǐng)域,只投產(chǎn)品型公司,而基礎(chǔ)性研究要交給BAT,對于像思必馳這樣一家創(chuàng)業(yè)型公司而言,著力基礎(chǔ)研究會不會過重呢?
俞凱:產(chǎn)品公司的業(yè)績來得快,由于沒有后續(xù)的技術(shù)支撐,掉下去也快,技術(shù)平臺企業(yè)成長比較慢,一旦起來就成為核心入口,人工智能是一個顛覆性的產(chǎn)業(yè),它的出現(xiàn)正是產(chǎn)業(yè)重組的時候。
目前語音搜索最強(qiáng)的百度嗎?其實(shí)不是。PC端所產(chǎn)生、積累的數(shù)據(jù)是沒有辦法轉(zhuǎn)到語音端,在比拼的時候要落實(shí)到具體場景下,在車載環(huán)境下能夠抗噪的數(shù)據(jù),思必馳比百度要多,PC所產(chǎn)生的數(shù)據(jù)是用不到車載環(huán)境下的。
人工智能產(chǎn)生了產(chǎn)業(yè)顛覆性的機(jī)會,使得數(shù)據(jù)類型和形態(tài)都變得不一樣,車載場景下,思必馳做得早,有基礎(chǔ),占據(jù)了一定的優(yōu)勢。人工智能影響的領(lǐng)域很多,思必馳在這塊有80個基礎(chǔ)研究人員,如果按照資源投入來看,思必馳在語音領(lǐng)域的投入很大。
語音交互在細(xì)分市場上,可能出現(xiàn)新的數(shù)據(jù)聚集,新的技術(shù)平臺,從而產(chǎn)生新的機(jī)會,在這樣的機(jī)會面前,創(chuàng)業(yè)型公司和大公司是平等競爭的,在這個競爭中,創(chuàng)業(yè)型公司由于專注,在局部力量上反而有優(yōu)勢。
億歐:思必馳目前有一塊是面向智能家居的,從空調(diào)、冰箱、電視都喊著要裝語音模塊,有這個必要嗎?這個行業(yè)是否已經(jīng)過熱到產(chǎn)生偽需求呢?關(guān)于語音入口論的問題,多入口導(dǎo)致重復(fù)建設(shè),你更贊成單一入口還是多入口?
俞凱:語音智能發(fā)展到現(xiàn)在,應(yīng)用場景比之前多了,出現(xiàn)偽需求是肯定的。在智能手機(jī)之前,諾基亞的功能機(jī)都有語音撥號,當(dāng)時的語音識別爛得根本不能用,就產(chǎn)生偽需求,表現(xiàn)在雖然不好用,但是你有我也要有。
對于什么是偽需求?什么是真需求?這往往是需要靠時間來驗(yàn)證的,真需求是在用戶體驗(yàn)當(dāng)中被磨礪剩下的需求,沒有人能夠一開始就判斷需求的真?zhèn)巍?/p>
拿語音入口而言,有人認(rèn)為音樂盒子是智能家居的語音入口,做電視的人又認(rèn)為電視是智能家居的語音入口,做節(jié)能燈的人又認(rèn)為電燈是智能家居的語音入口,大家都想往這個方面靠。
我們能確定的是兩點(diǎn):
①肯定有偽需求存在;
②里面一定會有真需求,這原理是智能家居智能化趨勢是沒錯的,更多企業(yè)加入到大浪淘沙競爭中,產(chǎn)品公司需要判斷和找尋真需求,而思必馳是給予所有可能需求提供語音基礎(chǔ)服務(wù),為所有可能需求提供一個技術(shù)型的平臺,思必馳是一個產(chǎn)業(yè)能力、基礎(chǔ)能力的提供商。
億歐:在2017年,思必馳對機(jī)器人、智能家居、智能車載三個模塊的銷售預(yù)期判斷。
俞凱:2017年銷量還是以車載為主,以增量的相對幅度來講,應(yīng)該會是智能家居,因?yàn)檐囕d在經(jīng)過2015-2016年的發(fā)展總量已經(jīng)很大了,所以相對增量不會很大。
從2016年3月-9月的增速情況觀察(后臺語音模塊的調(diào)用次數(shù)判斷),車載語音模塊月度增速大概在97%,而智能家居的月度增速大概在120%。車載市場已經(jīng)趨于穩(wěn)定,明年家居的增速會超過車載,車載的增速已經(jīng)降低,這是因?yàn)檐囕d市場成熟已經(jīng)兩年了,并且車載語音的存量基數(shù)大。而智能家居對語音模塊接受高,出貨量比較大。
億歐:語音識別從去年的95%提升到97%,而自然語言處理和語義理解發(fā)展比較緩慢,請問技術(shù)難在哪個點(diǎn)上?思必馳這邊是否有布局?
俞凱:希望同行不要過度夸大語音的識別度,在特定場景下達(dá)到97%甚至高于97%是沒有問題,但是一般場景下,或者抗噪場景下,識別率是達(dá)不到97%的。
思必馳所做的是對話技術(shù),不僅包括語義理解,還包括機(jī)器的決策和機(jī)器的反饋,人的說話分兩塊,第一是我說話你明白了,第二是你明白了之后你知道下一個問題問什么,這是兩個不同的東西,思必馳兩塊都在做。
目前在國內(nèi)對語音的識別有專業(yè)的評測方式(通過語音轉(zhuǎn)化文字的準(zhǔn)確率),但是語義理解沒有標(biāo)準(zhǔn)的評測方式,如果需要數(shù)字評價,在特定領(lǐng)域都能達(dá)到97%的精確度,但是在廣泛的領(lǐng)域,并沒有達(dá)到上面的準(zhǔn)確率,這是事實(shí)。
在非配合情況下,在語音識別錯誤情況下,如何做有容錯的語義理解?在國內(nèi)、甚至國際做這塊研究的人幾乎都在上海交大語音實(shí)驗(yàn)室。
億歐:國內(nèi)和國外的語音差距?
俞凱:在算法上講,國內(nèi)的水平已經(jīng)不比國外差,一方面是產(chǎn)業(yè)的推動,另一方面是原本在國外留學(xué)的人都逐漸回國參與研發(fā),不過在原創(chuàng)能力上講,相對國外還要弱一點(diǎn),我們主要的能力是大量吸取國外技術(shù),然后改良型的小創(chuàng)新,一些本質(zhì)性的創(chuàng)新比較少。思必馳和科大訊飛都做出了一些全球領(lǐng)先的算法模型廣泛被得到認(rèn)可,改良型創(chuàng)新是超過國外的。
對于人工智能的定義,對于語音識別的發(fā)展,隨著產(chǎn)業(yè)化的進(jìn)程與發(fā)展,一些陌生的名詞逐漸熟悉起來,一些原本被認(rèn)為是“騙子”的技術(shù)跟“狼來了”一樣在多次被解讀后,真實(shí)進(jìn)入到生活場景中,語音模塊的產(chǎn)業(yè)鏈條逐漸完備,從傳感器公司、語音數(shù)據(jù)交易平臺、到語音技術(shù)方案提供商、產(chǎn)品系統(tǒng)集成商、產(chǎn)品型公司等。
從行業(yè)種類來分,無論是TO B的語音應(yīng)用(醫(yī)療、客服),還是TO C的語音應(yīng)用(車載、家居、機(jī)器人)都會逐漸被細(xì)分化,我們期待2017年語音的市場教育和產(chǎn)品更加成熟。
-
智能家居
+關(guān)注
關(guān)注
1934文章
9806瀏覽量
190606 -
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249637 -
智能語音
+關(guān)注
關(guān)注
11文章
804瀏覽量
49531
發(fā)布評論請先 登錄
評論