99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

思必馳 ? 來源:djl ? 作者:思必馳 ? 2019-08-06 09:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

思必馳聯(lián)合創(chuàng)始人、上海交大教授俞凱在機(jī)器之心和 Comet Labs 聯(lián)合舉辦的「Interface 智能機(jī)器系列活動(dòng)」上做了題為《自然語言處理中的認(rèn)知計(jì)算》的演講。

1)首先,俞凱教授對(duì)自然語言處理與對(duì)話系統(tǒng)的基本概念進(jìn)行了深入解讀,強(qiáng)調(diào)了「交互」的重要性;

2)分析了人工智能與認(rèn)知計(jì)算的概念和關(guān)系,介紹了如何通過交互架構(gòu)的重新設(shè)計(jì)來解決交互層面的認(rèn)知問題;

3)講解了與自然語言處理相關(guān)的認(rèn)知計(jì)算進(jìn)展,包括如何通過傳統(tǒng)方法和深度學(xué)習(xí)來解決特征表達(dá)問題,用 RNN 和 LSTM 來解決記憶遺忘問題的技術(shù)原理,并對(duì)序列級(jí)的編碼器-解碼器架構(gòu)進(jìn)行了重點(diǎn)講解;

4)介紹了解決聊天、問答、任務(wù)型口語對(duì)話三類對(duì)話問題的認(rèn)知計(jì)算技術(shù);

5)最后,俞凱教授介紹了自然語言認(rèn)知交互的未來,并表示,圍繞這個(gè)問題,思必馳會(huì)在今年年底提出一種全新的理論研究框架。

俞凱,思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家,劍橋大學(xué)語音博士,上海交大教授,IEEE 高級(jí)會(huì)員,***計(jì)劃」、NSFC 優(yōu)秀青年科學(xué)基金獲得者,上海市「東方學(xué)者」特聘教授,中國語音產(chǎn)業(yè)聯(lián)盟技術(shù)工作組副組長。清華大學(xué)自動(dòng)化系本科、碩士,劍橋大學(xué)工程系博士。 2012 年在上海交通大學(xué)創(chuàng)建智能語音技術(shù)實(shí)驗(yàn)室,將人機(jī)口語對(duì)話系統(tǒng)的全面技術(shù)引入回國。在人機(jī)口語對(duì)話交互的主要核心技術(shù)領(lǐng)域進(jìn)行了廣泛研究,在國際一流期刊和會(huì)議上發(fā)表論文 80 余篇,獲得 ISCA 頒發(fā)的 2008-2012 Computer Speech Language 最優(yōu)論文獎(jiǎng)等多個(gè)國際期刊和會(huì)議優(yōu)秀論文獎(jiǎng)。俞凱多次擔(dān)任 InterSpeech 等國際會(huì)議的對(duì)話或語音處理領(lǐng)域主席,多次在美國國防部、美國國家標(biāo)準(zhǔn)局組織的大規(guī)模語音識(shí)別評(píng)測(cè),國際研究機(jī)構(gòu)組織的對(duì)話系統(tǒng)挑戰(zhàn)賽等國際評(píng)測(cè)和競(jìng)賽中獲得冠軍,2014 年獲得中國人工智能學(xué)會(huì)頒發(fā)的「吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)」進(jìn)步獎(jiǎng)。

思必馳,國內(nèi)唯一一家專注于智能硬件領(lǐng)域的智能語音方案服務(wù)商,團(tuán)隊(duì)成立于 2007 英國劍橋,2008 年回國落戶蘇州后一直從事于智能語音技術(shù)研發(fā),2014 年之后全面專注于智能硬件企業(yè)的語音交互技術(shù)。目前已經(jīng)在車載、家居、機(jī)器人領(lǐng)域進(jìn)行了全面戰(zhàn)略布局,并與小米、YunOS、阿里小智、高德、海爾、魅族、慶科、君正、聯(lián)想等一流企業(yè)達(dá)成合作,并先后獲得兩輪融資。思必馳受到市場(chǎng)青睞的背后,依托的是強(qiáng)大的技術(shù)研發(fā)實(shí)力,這得益于其與上海交大聯(lián)合成立的智能語音研究實(shí)驗(yàn)室,該實(shí)驗(yàn)室由俞凱負(fù)責(zé)。

今天我分享的主題是語言。我自己在劍橋大學(xué)待了 10 年,前 5 年做語音識(shí)別方面的研究,當(dāng)時(shí)和美國人去 PK ,在美國國防部電話監(jiān)聽的項(xiàng)目里面去看誰的語音識(shí)別率高。而后 5 年,我做的是另外一件事,是對(duì)話系統(tǒng)研究,這個(gè)不同于原來的語音識(shí)別。我回到國內(nèi)之后,包括我在做研究和企業(yè)創(chuàng)業(yè)過程中,很多人都介紹我是搞語音識(shí)別的,我每次都要做一個(gè)補(bǔ)充糾正。今天很高興,這可能是我回國第一次,據(jù)我所知恐怕也是在國際上第一次有人來仔細(xì)的講,我們這些從語音出來的人是從何種角度來做自然語言處理的,而且為什么說我們這個(gè)角度,被稱為「對(duì)話」,是殊途同歸的全新人機(jī)交互的未來。之后希望大家記住我們所做的東西叫語音交互。

今天演講有四部分,前兩部分我會(huì)講什么叫對(duì)話,它和自然語言處理是什么關(guān)系,今天的主題叫做自然語言處理中的認(rèn)知計(jì)算。什么叫認(rèn)知?自然語言處理里的認(rèn)知和自然語言處理是什么關(guān)系?它有什么不一樣?如何在人工智能的框架下來研究?

后面兩部分是講:1)近期,尤其是深度學(xué)習(xí)發(fā)展起來之后,和自然語言處理相關(guān)的,對(duì)認(rèn)知計(jì)算產(chǎn)生重大作用的一些工具,這主要是指理論工具的進(jìn)展;2)在自然語言對(duì)話方面,我們?cè)趯?shí)踐和研究中做了哪些工作,方向是什么。

一、自然語言處理與對(duì)話系統(tǒng)

自然語言處理是一個(gè)很傳統(tǒng)古老的學(xué)科,國內(nèi)外在講自然語言處理時(shí)基本是沿著語言學(xué)這條線,因?yàn)樽匀徽Z言處理最早是由計(jì)算語言學(xué)專家提出,現(xiàn)在自然語言處理領(lǐng)域的頂級(jí)國際會(huì)議也都與之相關(guān)。從語言學(xué)的角度來說,自然語言處理的典型任務(wù)有:分詞、詞性、句法分析和語義分析。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

在近二十年,從應(yīng)用角度研究自然語言處理的人逐漸多起來,因此,出現(xiàn)了許多人用機(jī)器學(xué)習(xí)去研究自然語言處理。但是,近二十年的主流仍然以語言學(xué)的元素為核心,同時(shí)采用機(jī)器學(xué)習(xí)的方法去研究。應(yīng)用的任務(wù)中,最典型的是1)命名實(shí)體識(shí)別,比如說聯(lián)想之星(注:演講所在地)這是一個(gè)命名實(shí)體,它不是一個(gè)人,我們把它識(shí)別出來;2)文本分類和信息檢索,這在谷歌和百度相關(guān)搜索應(yīng)用里非常多;3)最典型的一類是機(jī)器翻譯,統(tǒng)計(jì)方法在這一類上的應(yīng)用非常多。但是近二十年的前段時(shí)間,研究主流都還是借助語言學(xué)相關(guān)元素,基于語言學(xué)的相關(guān)規(guī)則做翻譯,比如說要先把句子的順序搞對(duì),然后再做單詞的翻譯,等等。

我們今天所講的是一個(gè)新的話題,移動(dòng)互聯(lián)網(wǎng)帶來了一些新的語言智能,這個(gè)智能就是交互。我們通過一段 Siri 的視頻了解一下 ,今天演講中會(huì)大量使用 Apple 的視頻,因?yàn)樗且粋€(gè)先驅(qū),它的發(fā)展歷史反映了我們對(duì)自然語言處理理解的不斷進(jìn)化的歷史。

從 2011 年 iPhone 4s 發(fā)布時(shí)介紹 Siri 的一段視頻中可以明顯的看到一個(gè)很重要的特點(diǎn),就是交互。移動(dòng)互聯(lián)網(wǎng)出現(xiàn)后,自然語言處理進(jìn)入到一個(gè)需要考慮交互的新時(shí)代,此時(shí)的傳統(tǒng)處理技術(shù)遇到了很多不能解決的問題。最初蘋果公司也沒意識(shí)到這個(gè)問題。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

上面這個(gè)圖代表了 iPhone 交互進(jìn)化的歷史。最開始是智能電話,前兩代沒有語音交互的,之后他們做了一個(gè)市場(chǎng)調(diào)查,發(fā)現(xiàn) 75% 的人希望有語音控制,后來就在撥號(hào)和導(dǎo)航功能上加上了語音控制,但發(fā)現(xiàn)經(jīng)常使用的人不到 5% ,于是他們開始反省為什么是這樣,不是想要語音嗎?怎么不使用了?他們后來得出的結(jié)論是,用戶不單單需要語音,而是要把機(jī)器當(dāng)成一個(gè) Agent ,要用自然語言和機(jī)器進(jìn)行交流,這樣的東西人們才會(huì)用。而他們這些思考的結(jié)晶就是后來 iPhone 4s 上的 Siri ,發(fā)現(xiàn) 87% 的用戶每個(gè)月都會(huì)使用一次 Siri,這時(shí)我們發(fā)現(xiàn):語音不能簡單的作為鍵盤替代品,它需要變成用自然語音和語言交互的手段。后來又發(fā)現(xiàn)一個(gè)問題,用戶的絕大部分是在調(diào)戲siri,是沒有與Siri 進(jìn)行真正有目的的交互行為的。于是,他們就開始考慮再往后的未來是什么?我的一個(gè)朋友,Jerome Bellegarda,蘋果公司的 Distinguished Scientist on Human Langage Technology,在 2013 年的國際會(huì)議上和我談起,需要用一種新的途徑去衡量語音功能的好壞,要去看整體的完成率是不是足夠高。語音也好,語言也好,最終要看幾個(gè)輪回交互過程之后,是不是能夠完成用戶的目標(biāo)。

而這里就立刻出現(xiàn)了一個(gè)問題,我們?cè)谠记闆r的語音控制是單輪的,比如說開燈這個(gè)命令,但一個(gè)單輪命令在自然語言的情況下是無法滿足人類需求的,所以必須要多輪,這也是為什么蘋果在 2015 年收購了 VocalIQ,它專門研究基于統(tǒng)計(jì)的對(duì)話系統(tǒng),蘋果希望用他們的研究來打造下一代 Siri,所以蘋果現(xiàn)在在歐洲招了很多人專門做多輪交互方面的研究。這之后,Siri 原來創(chuàng)始團(tuán)隊(duì)的人就離開了,他們出去創(chuàng)辦了一家新公司,就是最近新聞比較多的 Viv,而這家公司講到一句話「Conversational interface to anything」,第一個(gè)詞就是「對(duì)話式的」。

大家可以從蘋果整個(gè)進(jìn)化發(fā)展史中看出,他們把語音和語言引進(jìn)來,得出兩大結(jié)論,1)要自然;2)要有交互。這就是為什么說自然口語對(duì)話是自然語言處理中的一個(gè)新興任務(wù),我前面提的搜索、翻譯等都沒有。因此,除了蘋果一家,之后 Google Now 推出來了,2014 年微軟有 Cortana,還有最近亞馬遜的 Echo,不管是哪一種,它們都是助理,而助理的核心特點(diǎn)是要通過交互去理解用戶的意圖并完成任務(wù),并且一定要用自然語言交互。

而這也是我們思必馳在做的事情——語音對(duì)話交互技術(shù)的整體解決方案,而不是單純的語音識(shí)別解決方案。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

需要注意的是,語音識(shí)別加上傳統(tǒng)的自然語言處理,并不等于語音交互,這是因?yàn)樵谡嬲鉀Q對(duì)話時(shí),傳統(tǒng)的自然語言處理不能夠解決對(duì)話當(dāng)中的一些新問題,比如說一些認(rèn)知計(jì)算的問題。

因此,對(duì)話不是傳統(tǒng)的自然語言處理,它是一個(gè)新興任務(wù),事實(shí)上在一個(gè)系統(tǒng)里面,不同類型的對(duì)話,采用的技術(shù)是千差萬別的,一個(gè)商業(yè)級(jí)的系統(tǒng)往往要采用這些技術(shù)的組合。而對(duì)于研究來說,則必須當(dāng)成幾種基本的不同類型分別去做,因?yàn)閷?duì)話是相當(dāng)復(fù)雜的,大體可以分成三種不同類型:

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

第一類型是問答。這類對(duì)話的特點(diǎn)是,1)單輪的,往往是一問一答;2)非結(jié)構(gòu)化,沒有辦法用一種數(shù)據(jù)庫、語義槽的方式去表達(dá)。一問一答的方式往往涉及到后端的知識(shí)搜索,以及在回答中的匹配。

第二類是聊天。問答是要完成任務(wù)和提取知識(shí)點(diǎn),有非常明確的信息需求,而聊天的情況千差萬別,因?yàn)楹芏鄷r(shí)候是沒有問題的。從本質(zhì)上講,聊天是人類復(fù)雜交互的一個(gè)非常集中的體現(xiàn),這一類任務(wù)是最難的也是最容易的,說最容易是沒有正確和錯(cuò)誤,只要有意思就行了;最難是指,用現(xiàn)有技術(shù)去做可控的聊天是不可能的。

第三類是任務(wù)型對(duì)話。所有東西都是以任務(wù)為核心,所以它有一個(gè)本體的概念,問答里面絕大情況沒有本體概念,在任務(wù)型對(duì)話中,你可以把很多信息形式化,最極端的例子就是把它變成一個(gè)數(shù)據(jù)庫的查詢,通過交互不斷去做結(jié)果更新。復(fù)雜一點(diǎn)的話,開放的領(lǐng)域和語義槽有很強(qiáng)的模糊性,這些東西也是需要處理的,但無論如何,它們都是有直接的最終目標(biāo)。第一類的問答不一定有直接最終目標(biāo),它只是獲取一次信息,而任務(wù)型對(duì)話絕大部分都是多輪的。

未來要把對(duì)話這個(gè)事情做好,那一定是以上三種類型都做好了,但這種可能性很低,一定是先有一些東西,然后再補(bǔ)充其他東西。

下面是一個(gè)關(guān)于 Siri 的惡搞視頻,從里面你會(huì)發(fā)現(xiàn)我們所希望的智能機(jī)器是怎樣的,這里體現(xiàn)出人類對(duì)真正能夠產(chǎn)生智能反應(yīng)的機(jī)器的認(rèn)知。

從這個(gè)視頻可以發(fā)現(xiàn),里面這個(gè) Agent 和我剛才談的東西有一個(gè)飛躍——它是「自主的」,一個(gè)真正未來可對(duì)話的 Agent 不單單需要交互和認(rèn)知去完成任務(wù),還需要有自主意識(shí),這才是擁有真正自然語言智能的一個(gè)比較完整的機(jī)器,它真正變成了一個(gè)大腦,我們現(xiàn)在還走不到這里,但是我們?nèi)绻胍叩竭@兒,還需要很多的途徑。

從業(yè)者都知道,但凡是自然語言處理的東西,它簡單的一面是,你總可以通過寫規(guī)則達(dá)到一定效果,只要在你寫的規(guī)則范圍之內(nèi)還是會(huì)表現(xiàn)的非常好。但讓我們非常感興趣的一件事情是,我們想要做的技術(shù)是要把規(guī)則上升到統(tǒng)計(jì),一個(gè)不能在大數(shù)據(jù)里學(xué)習(xí)的技術(shù),它絕無可能發(fā)展到去進(jìn)行自主決策和交互,因此我們下面談到的將是,人工智能和認(rèn)知計(jì)算之間到底是什么關(guān)系?我們是不是有一些辦法可以把剛才我們所說的和對(duì)話相關(guān)的東西逐漸變成統(tǒng)計(jì)?以及在這個(gè)路徑上我們會(huì)碰到什么樣的問題?下面就是在這個(gè)過程中我們碰到的問題及初步解決方案。

二、人工智能與認(rèn)知計(jì)算

說到人工智能,「人工」比較好理解,但什么是「智能」,人工智能有兩條線,一條線是人的右半腦,屬于情感智能;另一條線是人的左半腦,屬于邏輯智能。這里只說邏輯智能,因?yàn)橐瓿扇蝿?wù)。邏輯智能從低級(jí)到高級(jí),包括了計(jì)算存儲(chǔ);感知和表達(dá)對(duì)應(yīng)的輸入輸出,就是聽說看聞?dòng)|行等;認(rèn)知智能,主要是理解、思考、反饋和適應(yīng)(即今天所講的認(rèn)知);以及最高級(jí)的抽象知識(shí)處理智能,這里不涉及原子概念的模糊,往往是在一些已經(jīng)形式化好的東西上去做分析、推理、歸納和演繹,像 AlphaGo 基本上是這個(gè)階段的智能。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

這大體上是人工智能的一個(gè)框架,我們所說的語音識(shí)別是在感知智能;語義理解在感知智能和認(rèn)知智能之間;對(duì)話的交互控制是在認(rèn)知智能;問答系統(tǒng)后面的知識(shí)分析和知識(shí)圖譜處理,一部分在認(rèn)知智能,一部分在抽象知識(shí)處理智能。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

而我們現(xiàn)在比較關(guān)注的是,移動(dòng)互聯(lián)網(wǎng)當(dāng)中的人機(jī)對(duì)話,我們叫自然口語交互,和此前的自然語言處理不同,它最大的認(rèn)知特性是不確定性。比如上圖中「等周二許春來到蘇州后約他九點(diǎn)鐘在九寨溝喝茶」這句口語表達(dá)有很多歧異的,需要結(jié)合上下文才能準(zhǔn)確理解。另一方面,人在口語傳遞時(shí)一定不會(huì)給你一個(gè)特別完整的東西,認(rèn)知科學(xué)里面有一個(gè)道理:不確定性和效率是有直接關(guān)系。不確定性比較高,效率就比較高;不確定性比較低,效率就比較低。你想要不確定低,你就把所有的信息毫無混淆的說出來,這時(shí)就需要用很長的文字編碼,編碼效率非常差。反之,傳遞很少的信息只需要很少的文字編碼,效率高,但信息的不確定性也高。而人類的口語交互都是試圖采用最低的不確定性實(shí)現(xiàn)最高的信息傳輸,必然會(huì)有不確定性。

交互中除了文字內(nèi)容本身的不確定性,還有交互過程中產(chǎn)生的不確定性,因?yàn)橛脩粢蠼换ァ敢臁埂1热绱蠹乙郧岸伎催^「山東高速糾正哥」的那個(gè)視頻。在這個(gè)視頻中,絕大多數(shù)的人第一反應(yīng)是語音識(shí)別不準(zhǔn),但真正的問題其實(shí)是在于,當(dāng)語音識(shí)別出現(xiàn)不確定性時(shí),后面的理解及對(duì)話管理和推理能否去解決這個(gè)問題。剛才視頻中已經(jīng)有了這個(gè)固定的語境,用戶就是要去糾正 135,然后讓機(jī)器去匹配。

這引發(fā)思考的是,即使識(shí)別完全正確,后面要做的事情是什么。這就是我們需要解決的認(rèn)知計(jì)算的問題,以下是我們的認(rèn)知型自然口語交互系統(tǒng)。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

上圖中,橘色的是標(biāo)準(zhǔn)循環(huán),藍(lán)色的是我們新添加進(jìn)去的一部分環(huán)境感知和對(duì)話管理,簡單的說,我們添加了一個(gè)能夠更好監(jiān)測(cè)和管理交互過程一個(gè)輔助設(shè)施,并且可以生成一些交互語言去做確認(rèn)。這個(gè)架構(gòu)體現(xiàn)了我們一個(gè)很重要的觀點(diǎn),語音(包括語言)只是處理任務(wù)的一個(gè)高效管道,但它一定會(huì)有不確定性,不確定性應(yīng)該在情景理解和多輪交互中消除,這是一個(gè)本質(zhì)特征,它不會(huì)因?yàn)橐恍┘记啥淖儯行┘记煽赡軙?huì)使得單輪交互的效率會(huì)提升,我們也會(huì)做,但本質(zhì)上是解決不了問題的。

所以,除了理解和交互內(nèi)容本身,交互架構(gòu)也會(huì)有一些相應(yīng)調(diào)整,山東高速糾正哥這個(gè)視頻在本質(zhì)上沒有那么復(fù)雜的自然語言處理,但它對(duì)交互的要求是比較復(fù)雜的。以下就是我們?cè)诟淖兞私换ゼ軜?gòu)的前提下做出的 demo 。

思必馳糾正哥demo(思必馳提供)

所以,我們要在交互架構(gòu)上進(jìn)行處理,我們對(duì)于交互本身的理解要結(jié)合到情景,這就涉及到怎么去建模的問題?;谡J(rèn)知在交互里的三個(gè)層面,我們究竟要從科學(xué)上和工程上解決哪些問題。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

第一個(gè)是靜態(tài)的,對(duì)某句話的不理解,你會(huì)有一些語義的表達(dá),在特定的表達(dá)下面我會(huì)給他一個(gè)什么樣的值,這是一種理解方式;你也可以分成主、謂、賓語等,這些聯(lián)系到的領(lǐng)域(domain)是什么,可以有很多種聯(lián)系的方法;這里是對(duì)單句靜態(tài)的理解。

第二類是動(dòng)態(tài)認(rèn)知,在已經(jīng)知道有多輪的情況下,機(jī)器如何回答,在面對(duì)任務(wù)時(shí)機(jī)器需要進(jìn)行交互決策,這個(gè)過程是多輪里的一個(gè)動(dòng)態(tài)認(rèn)知過程,就是機(jī)器需要學(xué)習(xí)什么樣的反饋是最有效的,最能消除不確定性,并且把對(duì)話的成功率提高。

第三類是進(jìn)化認(rèn)知,即我有一次完整的實(shí)驗(yàn)結(jié)果之后,我一定會(huì)對(duì)自己的總體策略、理解概念和上下文進(jìn)行調(diào)節(jié)。

不管是哪一個(gè)類,在計(jì)算的角度上要解決幾個(gè)問題,1)怎么做模式分析和特征抽取;2)在動(dòng)態(tài)過程中處理記憶和遺忘的問題,這在理解當(dāng)中很重要,如何通過表示來解決抽象化的問題,此外還有推理、決策規(guī)劃和綜合反饋等問題。

三、自然語言處理相關(guān)的認(rèn)知計(jì)算進(jìn)展

接下來討論的是,大數(shù)據(jù)和新的機(jī)器學(xué)習(xí)方法在哪些方面對(duì)解決對(duì)話類自然語言處理比較有幫助。深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)的循環(huán)神經(jīng)網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)中發(fā)展比較快,尤其是語音和圖像都取得了非常重要的進(jìn)展。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

但語言數(shù)據(jù)有幾大特點(diǎn)(如上圖):

1)海量無標(biāo)簽,如果做語音識(shí)別,用一萬小時(shí)去訓(xùn)練模型應(yīng)該足夠大了。如果用同樣的機(jī)器學(xué)習(xí)算法,折合到語言上面這大概相當(dāng)于幾個(gè) G 的語料,非常小,我們正常訓(xùn)練大規(guī)模語言模型可能需要上百個(gè) G 。所以語言所需要的數(shù)量比語音和圖像要大的多,而且無標(biāo)簽。

2)有大規(guī)模的離散碼表,不管我們做圖像還是語音,輸入都是特征,輸出都是分類標(biāo)簽,語音的分類標(biāo)簽有大概有三千到一萬,圖像的大約是小幾千,而正常的一個(gè)通用詞表是有十幾萬個(gè)標(biāo)簽,因此標(biāo)簽類別大大增加了,而所需的數(shù)據(jù)量還特別大,所以對(duì)語言的處理難度很大。

3)自然語言是序列數(shù)據(jù),不是點(diǎn)上的數(shù)據(jù),這又使整個(gè)處理變得復(fù)雜。語音我們切成十毫秒一幀,而整個(gè)圖像是當(dāng)成一個(gè)樣本點(diǎn),一個(gè)輸入對(duì)應(yīng)一個(gè)輸出,都是點(diǎn)對(duì)點(diǎn)的。而對(duì)于自然處理來說不是這樣,好的認(rèn)知算法都是一個(gè)序列,所以從這個(gè)角度上來講,比較適合于自然語言處理的模型大部分都在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),因?yàn)樗瞄L處理序列。

我要講的關(guān)于認(rèn)知計(jì)算的進(jìn)展有兩塊,一個(gè)是特征表達(dá),一個(gè)是記憶遺忘。

1. 特征表達(dá),語言的分布式表達(dá)

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

上面提到,大規(guī)模離散碼表是自然語言處理中的一個(gè)核心難點(diǎn),原始方法是用 0/1 向量去表達(dá)。現(xiàn)在如果我用分布式表達(dá),即不是把所有信息集中在一個(gè)點(diǎn)上,而是要把它們分開,這樣就可以把維數(shù)大大縮小,比如說縮減到 100 位或者 200 位,在這種情況下就得到一些數(shù)字化的連續(xù)表達(dá)。現(xiàn)在有很多在做詞向量(Word Embedding)的研究,還有句子向量和語言向量等等。所以,很多人開始把離散的詞用連續(xù)的東西來表達(dá)。如上圖所示,和數(shù)字、人物等相關(guān)的都會(huì)自動(dòng)的被聚類,這樣一類分布式表達(dá)為我們解決自然語言處理問題提供了基礎(chǔ)。

現(xiàn)在大體上有兩類方式來做分布式表達(dá):

1)傳統(tǒng)的用基于count及線性代數(shù)的方法統(tǒng)計(jì)

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

對(duì)于每一個(gè)文檔中,統(tǒng)計(jì)它的詞表,以及每個(gè)詞在不同文檔中出現(xiàn)的頻率,分解完成后就會(huì)在詞表上得到一個(gè)小的矩陣,然后根據(jù)它的頻度得出向量。這些方法是無監(jiān)督的。

2)深度學(xué)習(xí)方法

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

這種方法也可以認(rèn)為是無監(jiān)督,但要經(jīng)過訓(xùn)練。一般來說,深度學(xué)習(xí)要用一定的線性模型或非線性模型對(duì)海量語料進(jìn)行訓(xùn)練來得到詞向量,最典型的就是 Bengio 提出的 NNLM,我們輸入正常的文字,然后這個(gè)文字通過矩陣變換得到相應(yīng)的文字的離散表達(dá),這類似于在一個(gè)矩陣?yán)?,你的輸入取矩陣?dāng)中的一行。我們用這個(gè)東西在神經(jīng)網(wǎng)絡(luò)里做預(yù)測(cè),然后通過神經(jīng)網(wǎng)絡(luò)的自更新得到每一個(gè)矩陣當(dāng)中的行數(shù),這些行就是它最終的詞向量。而 Thomas Mikolov 是用 CBOW 或者 SKIP GRAM 這樣偏線性的方式,用周圍的詞去預(yù)測(cè)中間的詞,或者用中間的詞去預(yù)測(cè)周圍的詞,都是用訓(xùn)練的方式去預(yù)測(cè),箭頭中表示的都是把原先的詞表從矩陣中取一行,變成相應(yīng)的分布式方法。這里值得注意的是,上面提到的是訓(xùn)練方法,沒有說準(zhǔn)則,事實(shí)上最后做出來東西有沒有用,高度取決于你用什么樣的準(zhǔn)則去訓(xùn)練這樣的向量。而在認(rèn)知計(jì)算里,如果你的準(zhǔn)則是得當(dāng)?shù)?,那你所得到的這個(gè) embedding 會(huì)更好的用在你的認(rèn)知任務(wù)里。

總之,這部分的意思是我們會(huì)把詞用連續(xù)的向量去表達(dá)。

2. 解決遺忘的問題

最典型解決遺忘的問題就是用傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

以上是循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖,一個(gè)輸入有一個(gè)輸出,輸出不單單考慮輸入的信息,還考慮了上一個(gè)隱含層的輸出信息,可以循環(huán)回來。把它展開的話,對(duì)這一點(diǎn)輸入預(yù)測(cè),既取決于當(dāng)前輸入,同時(shí)也取決于上一個(gè)隱含層節(jié)點(diǎn)的輸出,而上一個(gè)隱含層節(jié)點(diǎn)的輸出又取決于這個(gè)節(jié)點(diǎn)的輸入以及再上一個(gè)隱含層節(jié)點(diǎn)的輸出,這樣下去的話就會(huì)把整個(gè)序列都考慮進(jìn)去。在這個(gè)過程中,我們會(huì)用一個(gè)反向傳播算法(BP算法),但這個(gè)算法有一個(gè)比較麻煩的問題,當(dāng)這些矩陣本身的模不是1或者不接近1的時(shí)候,傳的時(shí)間長了會(huì)存在梯度消失的問題。在語音識(shí)別里面這個(gè)東西往往影響沒那么大,因?yàn)槲覀兛紤]前面三五步就夠。但在自然語言處理中是不行的,長程相關(guān)性是非常重要的。比如說這個(gè)例子,「我 在 中國 長大 我 喜歡 吃 中餐」,當(dāng)前面一個(gè)詞是「吃」的時(shí)候,我去預(yù)測(cè)下一個(gè)詞是不是「中餐」,這是一個(gè)概率。但在這句話里面,其實(shí)非??壳暗倪@個(gè)詞「中國」對(duì)于「吃」后面預(yù)測(cè)出來的詞是「中餐」還是「西餐」,會(huì)產(chǎn)生非常重大的影響,很早的一個(gè)詞對(duì)很后面的一個(gè)詞會(huì)產(chǎn)生影響。

這個(gè)例子說明,長程相關(guān)性在自然語言處理中是非常重要的。單純用循環(huán)神經(jīng)網(wǎng)絡(luò)是不夠的,現(xiàn)在我們開始用長短時(shí)記憶模型(LSTM)去解決這個(gè)問題。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

它可以通過一些門的限制使得原始的記憶信息采用線性的方式傳過去,而門只是選擇什么樣的信息該往下傳,什么樣的信息不該往下傳,它會(huì)采用一個(gè)遺忘機(jī)制使得你的記憶可以更牢靠。

剛才提到,自然語言處理里最關(guān)鍵的在于序列,所以我這里重點(diǎn)講的就是序列,對(duì)序列自身的建模有以下幾種形式,最原始的就是對(duì)序列進(jìn)行記憶,對(duì)每個(gè)單元進(jìn)行預(yù)測(cè),這在自然語言里中的一個(gè)典型就是語言模型。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

比如說「How are you」這句話,給定一個(gè)詞「how」,去預(yù)測(cè)下面一個(gè)詞是什么,因?yàn)樵谶M(jìn)行預(yù)測(cè)時(shí),RNN的隱含層節(jié)點(diǎn)會(huì)不斷往下傳,所以當(dāng)「are」的下一個(gè)詞時(shí),我已經(jīng)考慮了左邊左右的詞,以及當(dāng)前的輸入「are」,然后去預(yù)測(cè)下一個(gè)是「you」的概率。所以這是對(duì)序列前面的歷史都記憶,但是一個(gè)點(diǎn)一個(gè)點(diǎn)的去預(yù)測(cè)。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

而比較新的研究是序列記憶,序列預(yù)測(cè)。是指把整個(gè)序列都吃進(jìn)來,在肚子里面想一想,再把新的序列吐出去,機(jī)器翻譯就是這樣一個(gè)典型的任務(wù),我把一個(gè)英文序列翻譯成一個(gè)中文序列。最開始的使用也是用循環(huán)神經(jīng)網(wǎng)絡(luò)把每個(gè)詞都讀下來,讀每個(gè)詞時(shí)更新一下參數(shù),但一直不輸出,直到把整個(gè)句子都讀完,在開始翻譯時(shí)才正式開始輸出,這時(shí)會(huì)把前面所有的歷史放在一起來,在句向量的基礎(chǔ)上預(yù)測(cè)新的語言中的詞,這就是序列的輸入和輸出。這一般叫序列級(jí)的「編碼器-解碼器」架構(gòu)。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

這種序列級(jí)的「編碼器-解碼器」和元素級(jí)的「編碼器-解碼器」具有一些本質(zhì)不同,它最關(guān)鍵的不同在于特別適用于自然語言處理,因?yàn)椋?/p>

1)無需詞對(duì)齊,現(xiàn)在做語義理解和機(jī)器翻譯最難受的一件事是每個(gè)詞都要做標(biāo)記,而用序列和序列是不需要詞對(duì)齊的;

2)語義理解、翻譯等很多自然語言處理任務(wù),經(jīng)常出現(xiàn)長序列和集外詞的問題,比如說,很長的一句話會(huì)帶來很多干擾,包括一些集外詞,如果用一個(gè)詞一個(gè)詞的標(biāo)簽去對(duì)的話,它的錯(cuò)誤率是比較大的。同時(shí)出現(xiàn)輸入輸出速率差異,比如輸入 20 個(gè)字,輸出只有兩個(gè)語義項(xiàng)。還有詞序變化等等都會(huì)影響我們預(yù)測(cè)的準(zhǔn)確率,如果序列到序列這些事都不用了。

3)可同時(shí)處理稀疏或者稠密的數(shù)據(jù)。可以看出,這種架構(gòu)非常適合自然語言處理。

除此之外,注意力模型 Attention 也是最近特別流行的一個(gè)模型。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

它的意思說,當(dāng)將整個(gè)序列完全吞進(jìn)去時(shí)還能記住原始的每一個(gè)詞的特點(diǎn)是什么,在輸出時(shí),不單單基于整體概念,還可以對(duì)原始序列中每一個(gè)詞的含義進(jìn)行不同的加權(quán)。所以在進(jìn)行翻譯時(shí),它知道整體感覺和局部特征對(duì)翻譯效果產(chǎn)生的影響。在上圖這個(gè)經(jīng)典的翻譯案例里,輸入時(shí)把每個(gè)節(jié)點(diǎn)都讀進(jìn)去,進(jìn)行輸出會(huì)由每個(gè)節(jié)點(diǎn)輸入的加權(quán)平均得到一個(gè)新的輸出,這個(gè)新的輸出對(duì)翻譯結(jié)果中每輸出一個(gè)新詞會(huì)產(chǎn)生不同作用,也就是說,在輸出新詞時(shí)不單單使用了整體信息,還考慮了不同的局部加權(quán)信息,這就使機(jī)器翻譯的翻譯效果大大增強(qiáng),因?yàn)樗鼘?duì)翻譯中個(gè)別詞匯有了相應(yīng)的一些注意力。

以上是幾個(gè)一般性進(jìn)展,還有一些最新進(jìn)展,比如 Memory Network 等。這幾樣都是最近機(jī)器學(xué)習(xí)領(lǐng)域里面出現(xiàn)的。接下來,我將介紹面對(duì)三類對(duì)話人類,我們?cè)趯?shí)際研究和工作中所用到的一些技術(shù)。

四、對(duì)話技術(shù)中的認(rèn)知計(jì)算

1)聊天

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

如上圖,目前大部分還是基于規(guī)則,用信息檢索的辦法去做統(tǒng)計(jì)訓(xùn)練,不太考慮語義,也并不是從交互的角度上去進(jìn)行建模,這是傳統(tǒng)的處理聊天的方法。但我們現(xiàn)在在嘗試一些新的東西,基于序列的統(tǒng)計(jì)學(xué)習(xí),基于編碼器和解碼器。這種東西是基于生成的框架,也就是說先讀進(jìn)來上一輪、甚至更早的信息,然后一個(gè)詞一個(gè)詞的去生成,在這種框架下比較容易引入語義和交互的工具。比如說上個(gè)圖右側(cè),輸入一句話之后,再用解碼生成,用不同的生成結(jié)果中選出一個(gè),這個(gè)基本上就和翻譯一樣的架構(gòu)。

實(shí)際上單純這樣做可能效果很差,所以我們把注意力模型給引進(jìn)過來,這樣就有了一個(gè)上下文概念,把前面聊天的內(nèi)容通過編碼的方式記錄下來,下一句再通過解碼器去做預(yù)測(cè),同時(shí)用注意力模型結(jié)合前面的一些信息。這里會(huì)涉及預(yù)測(cè)的方法,是對(duì)單獨(dú)每個(gè)詞做預(yù)測(cè),還是整體一整句話,在預(yù)測(cè)的多句話中選一個(gè)。是基于序列生成,最大化序列的概念,還是最大化一個(gè)詞的概率,通過采樣的辦法去得到。這些會(huì)得到不同的結(jié)果。

總體上講,優(yōu)化序列的結(jié)果會(huì)更好一些,我們可以基于「編碼-解碼」的方式來處理聊天類任務(wù)。

2)問答

微軟在這方面做了很多工作,他們當(dāng)時(shí)提出了一個(gè)概念,叫深度語義相關(guān)度量(DSSM)。它是指,假如說我有輸入的文字和對(duì)應(yīng)的輸入的回答,我現(xiàn)在想做的一件事是對(duì)整個(gè)序列提取特征向量,使得這個(gè)特征向量能夠代表這個(gè)序列本身的語義,同時(shí)這個(gè)語義又與它所對(duì)應(yīng)的回答那句話的語義向量之間的差距是最小的。其中使用了多個(gè)神經(jīng)網(wǎng)絡(luò),在神經(jīng)網(wǎng)絡(luò)里,有一個(gè)文字輸入,通過神經(jīng)網(wǎng)絡(luò)提取之后,會(huì)有一個(gè)抽象的向量,正確的輸入也會(huì)有個(gè)抽象向量,訓(xùn)練的準(zhǔn)則是計(jì)算這兩者之間的 cos distance,使得兩者之間的 cos distance 最小。同時(shí)也會(huì)生成一些反例,把反例也輸進(jìn)去,反例也有個(gè)向量,它會(huì)使這個(gè)向量與原始語義的向量的距離變得更大,使得語義相關(guān)度更小。通過這種訓(xùn)練之后得到一個(gè)新的神經(jīng)網(wǎng)絡(luò),任意兩個(gè)東西輸進(jìn)去之后,可以去計(jì)算它們的語義相似度,就會(huì)使得我們很容易去進(jìn)行基于語義的匹配類檢索。所以,任務(wù)里就可以使用這種方法。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

在問答之前提到 CNN 也可以處理序列,我們就可以用基于卷積的 DSSM 來處理問答 。它對(duì)文字通過卷積運(yùn)算,再用類似于DSSM的架構(gòu)把問題和答案分別輸進(jìn)去,然后把得到的反例也輸進(jìn)去來訓(xùn)練這個(gè)網(wǎng)絡(luò),最后你會(huì)得到兩個(gè)網(wǎng)絡(luò)。在實(shí)際用的時(shí)候,進(jìn)來一個(gè) post,先生成一些候選答案,再把生成的序列用 DSSM 去重新排序,這就是可以用深度相關(guān)的神經(jīng)網(wǎng)絡(luò)得到比較有意思的匹配。我們發(fā)現(xiàn),它確實(shí)是在語義上比較相似,因?yàn)橐话銇碇v,大家做問答的時(shí)候避免不了要用關(guān)鍵詞做匹配,那生成的答案絕大部分是有關(guān)鍵詞的,那我們發(fā)現(xiàn)這個(gè)模型生成的東西看起來是沒有關(guān)鍵詞匹配,它是在語義上匹配的,所以這是一個(gè)比較有意思的進(jìn)展。

3)任務(wù)型口語任務(wù)

我們?cè)谶@方面工作做得比較多。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

首先要去定義任務(wù)型對(duì)話的一個(gè)框架,對(duì)話行為的概念由三部分組成,我們假定這個(gè)機(jī)器自身對(duì)于任何一個(gè)任務(wù)都會(huì)有一個(gè)狀態(tài)空間,我們?cè)跔顟B(tài)空間里去推理。狀態(tài)包括用戶所做的總體意圖,當(dāng)前這一句的語義,以及我們碰到的所有對(duì)話的歷史,我們把這些結(jié)合在一起變成狀態(tài)空間。這里要解決兩個(gè)問題,一個(gè)是要對(duì)狀態(tài)進(jìn)行跟蹤,另一個(gè)是要進(jìn)行決策。由于語音和語言在交流過程當(dāng)中會(huì)有不確定性,所以你永遠(yuǎn)不能知道用戶的真實(shí)狀態(tài)是什么,只能知道它所處狀態(tài)的一個(gè)分布,所以我們都是會(huì)基于分布。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

目前在處理對(duì)話類任務(wù)中一個(gè)比較完整的框架是 POMDP 強(qiáng)化學(xué)習(xí),它認(rèn)為認(rèn)知決策是部分可觀測(cè)的馬爾可夫決策過程,狀態(tài)是不知道的,只能通過每一輪次狀態(tài)的分布來進(jìn)行預(yù)測(cè),基本上由四個(gè)關(guān)鍵因素組成:

系統(tǒng)狀態(tài),機(jī)器的宇宙是什么樣子;

觀察向量,機(jī)器能看到什么;

機(jī)器決策行為,機(jī)器能做出什么樣的反應(yīng);

每輪收益值,在整個(gè)過程里,對(duì)機(jī)器每一輪訓(xùn)練時(shí)的獎(jiǎng)勵(lì)和懲罰。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

所以,這個(gè)框架有兩大核心內(nèi)容,第一塊是狀態(tài)更新,需要描述的是用戶想干什么,曾經(jīng)表達(dá)過什么,機(jī)器已經(jīng)做了什么。第二塊是系統(tǒng)決策,給定了系統(tǒng)的狀態(tài)分布,我們?cè)趺窗阉成涞较到y(tǒng)可能的選擇上面,這兩個(gè)東西都是可以用統(tǒng)計(jì)訓(xùn)練的。

我 2007 年在劍橋開始這方面工作時(shí)就是基本上基于這個(gè)框架,但這個(gè)框架不太容易擴(kuò)展到大規(guī)模系統(tǒng),所以現(xiàn)在近幾年又出現(xiàn)了一些新的辦法,就是用不同的機(jī)器學(xué)習(xí)的方式把它變得比較大。

首先從對(duì)話狀態(tài)更新的角度上把它變大,原來狀態(tài)更新的辦法絕大部分是用規(guī)則,最近幾年用統(tǒng)計(jì)的方法,而我們最近用的比較新的方法是一個(gè)混合算法,簡單來說它整合了規(guī)則和統(tǒng)計(jì)兩種方法的好處,首先你可以添加各種各樣的新規(guī)則,從而具有解釋性并且比較快;其次是可以有一個(gè)自更新的過程,有數(shù)據(jù)之后會(huì)讓它變得更好。對(duì)話交互的狀態(tài)更新領(lǐng)域除了這種方法外,還有一類就是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的統(tǒng)計(jì)方法,后者和混合算法所達(dá)到的效果差不多,但是要慢很多。

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

2010 年,我們?nèi)⒓?CMU 組織的一個(gè)口語對(duì)話挑戰(zhàn)賽獲得了可控測(cè)試的冠軍。它用了真實(shí)的匹茲堡市政公交系統(tǒng)作為實(shí)驗(yàn)平臺(tái),每個(gè)參賽系統(tǒng)都用真人去問一些公交信息,比如說從哪個(gè)站到哪個(gè)站,以及幾點(diǎn)公交車會(huì)來,然后統(tǒng)計(jì)每個(gè)系統(tǒng)的對(duì)話語音識(shí)別的正確率和錯(cuò)誤率,同時(shí)還去統(tǒng)計(jì)用戶的需求是不是被滿足了,就是這個(gè)任務(wù)是否完成。這樣的話,即使有些情況下語音識(shí)別和語義理解有一些錯(cuò)誤,但機(jī)器仍然可以提供正確的信息,這種情況是1,如果提供不了就是 0,在平均之后,我們就知道在任何一個(gè)語音識(shí)別的錯(cuò)誤率的區(qū)間上有多少對(duì)話被完成了,我們把這個(gè)叫做對(duì)話完成的預(yù)測(cè)準(zhǔn)確率。當(dāng)錯(cuò)誤率在 50% 時(shí),CMU 的對(duì)話成功率大體上在 60%,而我們所使用統(tǒng)計(jì)訓(xùn)練的系統(tǒng)的成功率在 90%,差距是巨大的。這告訴我們,真正要想把對(duì)話做好,不單單要考慮前端的感知水平和每一句語義理解的水平,同時(shí)要對(duì)整個(gè)交互過程進(jìn)行考慮。

五、自然語言認(rèn)知交互的未來

最后再放一段錄像,這是蘋果在 1987 年預(yù)測(cè) 2011 年交互是什么樣子,而 2011 年恰好是 Siri 發(fā)布的那一年,這個(gè)錄像和我認(rèn)為的自然語言交互的未來架構(gòu)非常像的。

2011 年出現(xiàn)的 Siri 其實(shí)還遠(yuǎn)沒有達(dá)到視頻中的第一步。里面出現(xiàn)了很多和對(duì)話交互的東西,你會(huì)發(fā)現(xiàn)有提示、打斷、增量學(xué)習(xí)(incremental understanding),還有很重要的基于知識(shí)的聯(lián)結(jié),把這些東西都集成在一起形成了一個(gè)完整的人機(jī)對(duì)話。所以從這個(gè)角度上來看,如果在我們這個(gè)時(shí)代真的可以把它完成,那大體上需要這樣一個(gè)架構(gòu),這個(gè)也是我們?cè)谒急伛Y公司和上海交大的聯(lián)合實(shí)驗(yàn)室里面采用的主要架構(gòu):

俞凱關(guān)于自然語言處理中的認(rèn)知計(jì)算的主題演講

我們現(xiàn)在很多工作都在圍繞與之相關(guān)不同模塊和整體架構(gòu),現(xiàn)在不少人在做識(shí)別和合成,這是感知的部分,我們除了把感知要做到盡可能好之外,還在做理解、決策和表述。更重要的一件事情就是后端的決策一定會(huì)和你的知識(shí)結(jié)構(gòu)放在一起,比如說我搜索一下,之后能不能結(jié)果總結(jié)一下放到對(duì)話交互中用,這是最基本的東西,但現(xiàn)在還沒有很好的完成。我們現(xiàn)在內(nèi)部的研究已經(jīng)做出了一些東西,有很好的提高,但距離理想的要求還有差距。對(duì)于領(lǐng)域相關(guān)的知識(shí)處理更重要,尤其是怎么樣把相應(yīng)的 ontology 做好,這是未來很重要的一個(gè)事情,是基于上面提到的基于統(tǒng)計(jì)的能夠不斷學(xué)習(xí)的框架下的未來。

當(dāng)然,也還有一種可能,會(huì)有一些新的實(shí)踐、框架和理論。今年年底,我們會(huì)從思必馳研究的角度提出一些新的理論,這和剛才提到的理論是不一樣的,也許它會(huì)使得自然人機(jī)對(duì)話的未來早日到來。

俞凱注:文章中所示PPT和內(nèi)容有所刪節(jié),希望與更多語音專家共同研討業(yè)界未來。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語音交互
    +關(guān)注

    關(guān)注

    3

    文章

    307

    瀏覽量

    28615
  • 思必馳
    +關(guān)注

    關(guān)注

    4

    文章

    337

    瀏覽量

    15333
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14157
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP)模型的性能是一個(gè)多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個(gè)環(huán)節(jié)。以下是一些具體的優(yōu)化策略: 一、數(shù)據(jù)預(yù)處理優(yōu)化 文本清洗
    的頭像 發(fā)表于 12-05 15:30 ?1700次閱讀

    自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它致力于研究如何讓計(jì)算機(jī)能夠理解、解釋和生成人類
    的頭像 發(fā)表于 12-05 15:21 ?1985次閱讀

    語音識(shí)別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展,語音識(shí)別和自然語言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語音識(shí)別技術(shù)使得機(jī)器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?1500次閱讀

    什么是LLM?LLM在自然語言處理的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉文本的長距
    的頭像 發(fā)表于 11-19 15:32 ?3649次閱讀

    ASR與自然語言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別)與自然語言處理(NLP)是人工智能領(lǐng)域的兩個(gè)重要分支,它們?cè)谠S多應(yīng)用緊密結(jié)合,共同構(gòu)成了自然語言理解和
    的頭像 發(fā)表于 11-18 15:19 ?1025次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理的應(yīng)用

    自然語言處理是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)作為一種強(qiáng)大的模型,在圖像識(shí)別和語音
    的頭像 發(fā)表于 11-15 14:58 ?804次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理的應(yīng)用

    自然語言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)因其在
    的頭像 發(fā)表于 11-15 09:41 ?814次閱讀

    使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語言處理任務(wù)

    自然語言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體——長短期記憶(LSTM)網(wǎng)
    的頭像 發(fā)表于 11-13 09:56 ?1161次閱讀

    自然語言處理的未來發(fā)展趨勢(shì)

    隨著技術(shù)的進(jìn)步,自然語言處理(NLP)已經(jīng)成為人工智能領(lǐng)域的一個(gè)重要分支。NLP的目標(biāo)是使計(jì)算機(jī)能夠理解、解釋和生成人類語言,這不僅涉及到語言
    的頭像 發(fā)表于 11-11 10:37 ?1726次閱讀

    自然語言處理與機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能的快速發(fā)展,自然語言處理(NLP)和機(jī)器學(xué)習(xí)(ML)成為了兩個(gè)核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問題,但側(cè)重點(diǎn)和應(yīng)用場(chǎng)景有所不同。 1. 自然語言
    的頭像 發(fā)表于 11-11 10:35 ?1547次閱讀

    自然語言處理的應(yīng)用實(shí)例

    在當(dāng)今數(shù)字化時(shí)代,自然語言處理(NLP)技術(shù)已經(jīng)成為我們?nèi)粘I畹囊徊糠?。從智能手機(jī)的語音助手到在線客服機(jī)器人,NLP技術(shù)的應(yīng)用無處不在。 1. 語音識(shí)別與虛擬助手 隨著Siri、Google
    的頭像 發(fā)表于 11-11 10:31 ?1609次閱讀

    使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)

    自然語言處理(NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。大型
    的頭像 發(fā)表于 11-08 09:27 ?2450次閱讀

    Llama 3 在自然語言處理的優(yōu)勢(shì)

    自然語言處理(NLP)的快速發(fā)展,我們見證了從基于規(guī)則的系統(tǒng)到基于機(jī)器學(xué)習(xí)的模型的轉(zhuǎn)變。隨著深度學(xué)習(xí)技術(shù)的興起,NLP領(lǐng)域迎來了新的突破。Llama 3,作為一個(gè)假設(shè)的先進(jìn)NLP模型,代表了這一
    的頭像 發(fā)表于 10-27 14:22 ?730次閱讀

    AI大模型在自然語言處理的應(yīng)用

    AI大模型在自然語言處理(NLP)的應(yīng)用廣泛且深入,其強(qiáng)大的語義理解和生成能力為NLP任務(wù)帶來了顯著的性能提升。以下是對(duì)AI大模型在NLP應(yīng)用的介紹: 一、核心應(yīng)用 文本生成 AI
    的頭像 發(fā)表于 10-23 14:38 ?1540次閱讀

    AI智能化問答:自然語言處理技術(shù)的重要應(yīng)用

    自然語言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。問答系統(tǒng)作為NLP的一個(gè)重要應(yīng)用,能夠精確地解析用戶以
    的頭像 發(fā)表于 10-12 10:58 ?1096次閱讀
    AI智能化問答:<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>技術(shù)的重要應(yīng)用