極客公園在上海科技館舉辦“2016奇點(diǎn)創(chuàng)新者峰會(huì)”,下午舉辦的內(nèi)部高峰論壇中,思必馳CEO高始興也給大家?guī)?lái)了非常精彩的分享。
高始興表示從工業(yè)革命、信息革命,現(xiàn)在人工智能的革命,進(jìn)入人工智能時(shí)代確實(shí)對(duì)眾多的創(chuàng)業(yè)公司,特別是技術(shù)驅(qū)動(dòng)的,有技術(shù)積累的創(chuàng)業(yè)公司帶來(lái)非常大的機(jī)會(huì)。
以下為演講實(shí)錄:
思必馳創(chuàng)立8年左右,在8年時(shí)間,基本上或多或少已經(jīng)成功見(jiàn)證人工智能,特別是語(yǔ)音行業(yè)越來(lái)越往后加速發(fā)展的階段,我們最早是做教育方面的語(yǔ)音技術(shù),后來(lái)專注智能硬件垂直行業(yè)做語(yǔ)音技術(shù)和產(chǎn)品服務(wù)。
早期語(yǔ)音更多是在傳統(tǒng)的非常窄的市場(chǎng)去應(yīng)用,包括呼叫中心。后來(lái)Siri發(fā)布,引爆整個(gè)語(yǔ)音在互聯(lián)網(wǎng)的市場(chǎng),吸引了很多眼球,吸引了很多資本,吸引巨頭發(fā)展,推動(dòng)整個(gè)市場(chǎng),推動(dòng)技術(shù)的進(jìn)步。再到智能硬件物聯(lián)網(wǎng)行業(yè),語(yǔ)音成為剛性痛點(diǎn)的需求,在各個(gè)行業(yè),各個(gè)垂直產(chǎn)品進(jìn)行落地,整個(gè)行業(yè)確實(shí)爆發(fā)力很強(qiáng)。技術(shù)早期還是單點(diǎn)的技術(shù),后來(lái)技術(shù)的提升,包括語(yǔ)音識(shí)別、合成、智能識(shí)別等等,包括現(xiàn)在從感知走向認(rèn)知,對(duì)話技術(shù)。
以前這個(gè)題目有可能有點(diǎn)大,現(xiàn)在人工智能加速滲透到商業(yè)、生活的方方面面,語(yǔ)音在各個(gè)終端連接了各種各樣的服務(wù)。早期的時(shí)候,還是一個(gè)簡(jiǎn)單的模擬,簡(jiǎn)單的算法,雖然期望特別大,但是落地特別少。真正再一次掀起一個(gè)小浪潮是80年代,在歐洲、日本商業(yè)的企業(yè),包括聲音網(wǎng)絡(luò),遺傳算法。但是真正大的技術(shù)變革,真正在行業(yè)上掀起爆發(fā)式應(yīng)用,還是在近10多年互聯(lián)網(wǎng)時(shí)代,摩爾定律處理能力,大數(shù)據(jù)、云計(jì)算,讓能力循環(huán)成為可能?,F(xiàn)在確實(shí)在各個(gè)產(chǎn)業(yè)上,我們看到更多的應(yīng)用場(chǎng)景。
語(yǔ)音技術(shù)是人工智能的關(guān)鍵
AI從互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)到物聯(lián)網(wǎng),現(xiàn)在到智聯(lián)網(wǎng),現(xiàn)在它的滲透率,推動(dòng)率越來(lái)越大。早期在互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng),更多還是產(chǎn)品驅(qū)動(dòng),是一個(gè)商業(yè)模式驅(qū)動(dòng)。現(xiàn)在在智能硬件物聯(lián)網(wǎng),泛人工智能行業(yè),我們看到AI,人工智能驅(qū)動(dòng),讓各種新型商業(yè)、新型商業(yè)產(chǎn)品成為一種可能。包括現(xiàn)在人工智能創(chuàng)業(yè)公司價(jià)值體現(xiàn)也越來(lái)越多。
從工業(yè)革命、信息革命,現(xiàn)在人工智能的革命,進(jìn)入人工智能時(shí)代確實(shí)對(duì)眾多的創(chuàng)業(yè)公司,特別是技術(shù)驅(qū)動(dòng)的,有技術(shù)積累的創(chuàng)業(yè)公司帶來(lái)非常大的機(jī)會(huì)。我們現(xiàn)在看移動(dòng)互聯(lián)網(wǎng),不說(shuō)互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng)更多還是搶奪存量市場(chǎng),一片紅海甚至血海,現(xiàn)在這個(gè)市場(chǎng)行業(yè)不是A的就是T的,或者是B的,當(dāng)然B最近口碑不是太好,但是他們確實(shí)在人工智能布局還挺早,挺大?,F(xiàn)在在整個(gè)巨頭占據(jù)足夠的市場(chǎng),影響力的時(shí)候,我相信在若干個(gè)場(chǎng)景能成就很多獨(dú)角獸,包括技術(shù)公司,包括結(jié)合行業(yè)的一些公司。
如果簡(jiǎn)單分的話,人工智能行業(yè),語(yǔ)音智能應(yīng)用在應(yīng)用層、技術(shù)層和技術(shù)設(shè)施層,應(yīng)用層,像一些產(chǎn)品類的公司,像暴風(fēng)和小米,小米用我們思必馳語(yǔ)音技術(shù),包括像人臉商湯,包括現(xiàn)在思必馳語(yǔ)音公司。在技術(shù)設(shè)施層,包括慶科等一些優(yōu)秀公司,當(dāng)然還有巨頭公司,在這里面,技術(shù)還是核心的驅(qū)動(dòng)力,這里面有一個(gè)趨勢(shì),我們看到一個(gè)是技術(shù)層和技術(shù)設(shè)施層,產(chǎn)品落地,產(chǎn)品服務(wù)的整合,我們確實(shí)做得還不錯(cuò),整個(gè)大語(yǔ)音在諸多行業(yè),傳統(tǒng)行業(yè)科大訊飛也在做設(shè)施層。再一個(gè),應(yīng)用層和底層設(shè)施技術(shù)層融合和整合,像樂(lè)視自己在做語(yǔ)音,現(xiàn)在估計(jì)有五六十人,服務(wù)于它的大生態(tài)。還有一個(gè)技術(shù)層、應(yīng)用層向后端技術(shù)設(shè)施層去整合,去聯(lián)合。比如說(shuō)一起去做相關(guān)的芯片摸索,像京東、小米他們都在做。
現(xiàn)在各個(gè)模態(tài)人工技術(shù)發(fā)展特別快,剛才講的人工識(shí)別,體感識(shí)別,包括像我們語(yǔ)音識(shí)別等等這些,VR、AR進(jìn)展特別快。我覺(jué)得應(yīng)該在很多場(chǎng)景下,我們?cè)?a target="_blank">手機(jī)端,我們基本上特別是服務(wù)場(chǎng)景是打通的,我們通過(guò)觸摸交互訂票、訂餐、購(gòu)物等等這些行為,如果說(shuō)我們?cè)谥悄苡布锫?lián)網(wǎng)幾個(gè)場(chǎng)景里面,比如說(shuō)在開車的時(shí)候,我們?cè)诩依锩鎸?duì)音響和機(jī)器人的時(shí)候,我們?nèi)ビ啅埰?,語(yǔ)音可能是唯一的入口。第一的,它是很自然,很便捷,還有一個(gè)它是唯一能傳遞復(fù)雜信息的。未來(lái),多模態(tài)整個(gè)人機(jī)交互兩個(gè)趨勢(shì)非常關(guān)鍵。一個(gè)是多模態(tài)融合和整合,融合是一個(gè)必然?,F(xiàn)在人機(jī)交互還是被動(dòng)式,未來(lái)在場(chǎng)景數(shù)據(jù)積累,用戶行為數(shù)據(jù)等等這些,形成能力循環(huán),未來(lái)人機(jī)交互會(huì)變成更多是主動(dòng)式。未來(lái)的機(jī)器,從一個(gè)簡(jiǎn)單的秘書,真正成為一個(gè)助理。
如果從語(yǔ)音上,實(shí)現(xiàn)人對(duì)機(jī)器的控制,我們喊一嗓子,把空調(diào)調(diào)高一點(diǎn),控制電視,調(diào)整音量,簡(jiǎn)單的查詢,搜一些歌,未來(lái)場(chǎng)景力量,一個(gè)生態(tài)一定讓用戶能夠enjoy更多的服務(wù),一定需要對(duì)話交互,像手機(jī)端觸摸交互一樣,能獲取更多的服務(wù)。再一個(gè)隨著情感識(shí)別,情緒識(shí)別,包括各種的人臉識(shí)別等等一些人工智能交互模態(tài)的進(jìn)步整合,未來(lái)情緒識(shí)別富裕這個(gè)機(jī)器形態(tài),現(xiàn)在機(jī)器人很嚇人,未來(lái)情感世界會(huì)大大解決這個(gè)問(wèn)題。再往后思想交互,我們機(jī)器能夠自學(xué)習(xí),自適應(yīng),未來(lái)我們進(jìn)行人機(jī)交互的時(shí)候,如果你不看到它,不知道對(duì)面是一個(gè)機(jī)器。像去年6、7月份,劍橋和蘇黎士理工做實(shí)驗(yàn),母機(jī)器人孵化子機(jī)器人,而且自己檢測(cè)這個(gè)完備性。
現(xiàn)在在智能硬件物聯(lián)網(wǎng)上,未來(lái)我們讓智能設(shè)備向我們手機(jī)一樣,我們隨地隨時(shí)可以去獲取很多的服務(wù),訂餐、訂票,玩游戲等等這些,一定是對(duì)話交互, 對(duì)話交互分成三類,一類是問(wèn)答式,有明確的確定和否。第二類是閑聊式,像現(xiàn)在Siri,基本屬于閑聊式,一般沒(méi)有明確的確定和否,沒(méi)有聊天的本體,再就是任務(wù)式對(duì)話,任務(wù)式像現(xiàn)在估計(jì)在座大家都知道,做得非常棒的亞馬遜echo,echo基于場(chǎng)景用戶去完成一個(gè)任務(wù),假設(shè)在人機(jī)交互里面,說(shuō)一句我餓了怎么辦?如果是問(wèn)答式,他會(huì)回答你你要一天三餐,保證健康。聊天式有可能有很多答案,比如說(shuō)它會(huì)回答,主人你餓了嗎?你隨便吃一點(diǎn),陪我聊天呀。如果任務(wù)式,結(jié)合你的歷史信息,甚至結(jié)合你的位置,結(jié)合你其他歷史行為,給你推薦周邊的餐廳,有可能你愿意吃辣的,周邊推薦湘菜館,火鍋店推薦幾家,進(jìn)而形成對(duì)話交互,規(guī)劃交互一定是近幾年的發(fā)展趨勢(shì)。
我們思必馳基于自然語(yǔ)言理解和處理,再一個(gè)是我們整合了我們對(duì)話邏輯,一軟一硬兩個(gè)產(chǎn)品,我們提供給三個(gè)垂直行業(yè),車載、家居、機(jī)器人,讓每個(gè)設(shè)備成為智能助理,幫助用戶完成任務(wù)。
語(yǔ)音是產(chǎn)品創(chuàng)新的關(guān)鍵技術(shù)
語(yǔ)音交互一切,語(yǔ)音改變更多,它除了連接一切,交互一切,未來(lái)會(huì)在產(chǎn)品創(chuàng)新,行業(yè)的一些變化,甚至變革上起到很大的推動(dòng)作用。
幾個(gè)觀點(diǎn),這個(gè)就是當(dāng)前的一些語(yǔ)音在智能電視上的應(yīng)用。這個(gè)是當(dāng)時(shí)給小米電視,小米電視整個(gè)語(yǔ)音交互是用思必馳,這里面用的語(yǔ)音喚醒,我們找的是林志玲模擬她的聲音。目前還比較簡(jiǎn)單,喚醒跟簡(jiǎn)單的查詢。下一步,一定會(huì)走向從感知走向認(rèn)知,不僅僅讓人機(jī)的交互能夠?qū)崿F(xiàn)控制和簡(jiǎn)單查詢,一定在各個(gè)場(chǎng)景里面,整合更多的服務(wù)。
再一個(gè),現(xiàn)在移動(dòng)互聯(lián)網(wǎng)很多的行業(yè)生態(tài),商業(yè)模式,在智能硬件物聯(lián)網(wǎng)領(lǐng)域不一定完全能遷移,會(huì)發(fā)生一定的變化,甚至是顛覆。比如說(shuō)搜索,現(xiàn)在PC互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng),我們端是手機(jī),在智能硬件物聯(lián)網(wǎng)是各個(gè)端,不單是端,交互界面都發(fā)生變化。再一個(gè)用戶行為,在PC互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng),人機(jī)搜索更多是信息的查詢,在智能硬件互聯(lián)網(wǎng)上,更多還是服務(wù)的獲取。再一個(gè),就是傳統(tǒng)的一些商業(yè)模式,像CBC,在新的智能硬件物聯(lián)網(wǎng)上,新的語(yǔ)音搜索有可能也是CBC,再就是智能語(yǔ)音發(fā)展促進(jìn)產(chǎn)品創(chuàng)新,甚至產(chǎn)品形態(tài)的變化,包括其他人工智能的發(fā)展?,F(xiàn)在說(shuō)智能終端,智能硬件,硬件的智能化,我覺(jué)得大概兩類,一類是真正通過(guò)人工智能,語(yǔ)音智能提升它的效率,提升它的體驗(yàn),向一些消費(fèi)電子,比如說(shuō)我舉的例子,空調(diào),我們跟一些大的消費(fèi)電子合作,像海爾、美的等等合作,不改變它的產(chǎn)品的屬性,但是提升它的體驗(yàn),我在房間任何一個(gè)角度,我在晚上起來(lái)以后,或者遙控器找起來(lái)不方便,喊一嗓子“我冷了,調(diào)一下溫”。這個(gè)不改變產(chǎn)品整體功能和形態(tài)。再就是通過(guò)人工智能,語(yǔ)音智能,改變了它的產(chǎn)品的核心功能,甚至拓展了服務(wù),成為一個(gè)中心態(tài)勢(shì),比如說(shuō)echo,未來(lái)像echo設(shè)備越來(lái)越多。未來(lái)像翻譯耳機(jī),好像日本公司做的,未來(lái)耳機(jī)不是打電話,我們出國(guó),甚至假設(shè)有方言的話,特別是南方隔一個(gè)縣,甚至隔一個(gè)村就是一個(gè)方言,我們戴著耳機(jī)就可以自由對(duì)話。包括未來(lái)的會(huì)議,我們現(xiàn)在會(huì)議電話還是開會(huì),未來(lái)的會(huì)議電話加上身份識(shí)別,語(yǔ)音識(shí)別,它其實(shí)就是一個(gè)秘書。因?yàn)殡娫捴灰恿艘粋€(gè)通信模塊,任何東西都可能成為電話。所以未來(lái)有很多產(chǎn)品創(chuàng)新和融合,包括未來(lái)我們有可能燈泡,我們插排、插座,有可能我們就是的speaker。
再一個(gè),現(xiàn)在我們看到的智能硬件交互,還是很難完成閉環(huán),未來(lái)在智能音響、電視,機(jī)器人等上面,加上身份識(shí)別或者其他的生物識(shí)別,身份能夠通過(guò)身份密碼完成支付,形成一個(gè)交易的閉環(huán),這樣整個(gè)大的生態(tài)才能起來(lái)。包括一些行業(yè)的融合和創(chuàng)新。比如說(shuō)未來(lái)我們?cè)诩依?,我們通過(guò)電視,通過(guò)音響,我們?cè)谲嚴(yán)?,通過(guò)車載智能終端學(xué)習(xí)英語(yǔ),在家里可以做一些遠(yuǎn)程醫(yī)療等等,包括還有一些創(chuàng)新點(diǎn)子,包括前段時(shí)間有人提出來(lái),監(jiān)測(cè)兒童呼聲,做一些相應(yīng)的看護(hù),剛才阿里朋友講,鑒黃,通過(guò)圖像識(shí)別去鑒黃。在今年年初的時(shí)候,有人提出來(lái)用聲音去鑒黃,就是她的叫聲,當(dāng)然沒(méi)有做,我覺(jué)得都是創(chuàng)新點(diǎn)。包括未來(lái)傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),未來(lái)更多的在智能硬件物聯(lián)網(wǎng)上,大量、大規(guī)模的數(shù)據(jù),語(yǔ)音數(shù)據(jù),視頻數(shù)據(jù)等等,人臉數(shù)據(jù),新型的數(shù)據(jù)結(jié)構(gòu),包括一些新型用戶畫像,包括借助我們?cè)O(shè)備識(shí)別,老人可能Push腦黃金廣告,年輕人可能Push一些年輕的產(chǎn)品,可能小孩子Push一些玩具的廣告。
還有整個(gè)市場(chǎng)出現(xiàn)幾百上千的語(yǔ)音助手,包括有一些獲得投資的,基本上也都銷聲匿跡了,在幾年前整個(gè)語(yǔ)音在通用環(huán)境下能做好,這么幾年從感知智能走向認(rèn)知智能,通過(guò)對(duì)話交流可以打通一個(gè)一個(gè)信息通道,未來(lái)手機(jī)可以看成一個(gè)端,類似于像智能音響一樣,智能電視一樣,因此我個(gè)人覺(jué)得,未來(lái)智能手機(jī)上,成為新型語(yǔ)音助手。
思必馳還是專注于在智能硬件,物聯(lián)網(wǎng),車載、家居、機(jī)器人,我們提供人機(jī)對(duì)話交互的方案、產(chǎn)品和服務(wù)。
-
智能語(yǔ)音
+關(guān)注
關(guān)注
11文章
804瀏覽量
49529 -
信息革命
+關(guān)注
關(guān)注
0文章
3瀏覽量
5888 -
工業(yè)革命
+關(guān)注
關(guān)注
0文章
107瀏覽量
16045
發(fā)布評(píng)論請(qǐng)先 登錄
震有科技成立衛(wèi)星互聯(lián)網(wǎng)子公司南京有維星通
道生物聯(lián)公司介紹及TurMass?物聯(lián)網(wǎng)通信技術(shù)介紹
DLPC3439如果給的HDMI源輸出是RGB565,會(huì)在HDMI中表示它是RGB嗎,光機(jī)會(huì)如何處理這16bit?
高通技術(shù)在CES 2025發(fā)布AI創(chuàng)新,引領(lǐng)多元終端變革
LDC1614受溫度影響非常大,是什么原因?
用c6748的mcasp口驅(qū)動(dòng)ADS1274,采集的數(shù)據(jù)噪聲非常大怎么解決?
高通公司任命新首席技術(shù)官,James Thompson 博士即將退休
使用TPA3116D2做功放輸出的時(shí)候,對(duì)FM干擾非常大怎么解決?
OPA1622在播放中將EN接到GND會(huì)產(chǎn)生嚴(yán)重的噗聲,非常大,為什么?
使用adau1961 codec進(jìn)行錄音,發(fā)現(xiàn)錄制的音頻文件噪聲非常大,請(qǐng)問(wèn)有什么辦法可以優(yōu)化嗎?
Follow the Money:2024年上半年最賺錢的十家國(guó)內(nèi)芯片設(shè)計(jì)上市公司

評(píng)論