99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于知識(shí)圖譜的人機(jī)對(duì)話系統(tǒng)方法與實(shí)踐系統(tǒng)的講解和梳理

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-10-22 09:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人機(jī)對(duì)話系統(tǒng),或者會(huì)話交互,有望成為物聯(lián)網(wǎng)時(shí)代的主要交互方式。而語言的理解與表達(dá)和知識(shí)是密切聯(lián)系的,知識(shí)圖譜作為一種大規(guī)模知識(shí)的表示形式,在人機(jī)對(duì)話系統(tǒng)中各模塊都有重要的應(yīng)用。而知性對(duì)話,則是基于知識(shí)圖譜的人機(jī)會(huì)話交互服務(wù)。

AI 科技大本營邀請(qǐng)到了云知聲 AI Labs 資深專家劉升平針對(duì)「基于知識(shí)圖譜的人機(jī)對(duì)話系統(tǒng)方法與實(shí)踐」做系統(tǒng)的講解和梳理。

本次公開課介紹了知性會(huì)話的架構(gòu)和關(guān)鍵技術(shù),并結(jié)合工業(yè)級(jí)的人機(jī)對(duì)話系統(tǒng)實(shí)踐經(jīng)驗(yàn),闡述了知識(shí)圖譜在人機(jī)對(duì)話系統(tǒng)的核心模塊上面的應(yīng)用等等。

劉升平:云知聲 AI Labs 資深技術(shù)專家/高級(jí)研發(fā)總監(jiān)。前 IBM 研究院資深研究員,中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專委會(huì)委員。2005 年獲得北京大學(xué)數(shù)學(xué)學(xué)院博士,國內(nèi)語義網(wǎng)研究的開創(chuàng)者之一,是 2010 年和 2011 年國際語義網(wǎng)大會(huì)的程序委員會(huì)委員。曾在語義網(wǎng),機(jī)器學(xué)習(xí)、信息檢索,醫(yī)學(xué)信息學(xué)等領(lǐng)域發(fā)表過 20 多篇論文。在 IBM 工作期間,兩次獲得 IBM 研究成就獎(jiǎng)。2012 年底,劉博士加入云知聲 AI Labs,領(lǐng)導(dǎo) NLP 團(tuán)隊(duì),全面負(fù)責(zé)自然語言理解和生成、人機(jī)對(duì)話系統(tǒng)、聊天機(jī)器人、知識(shí)圖譜、智慧醫(yī)療等方面的研發(fā)及管理工作。

在本次公開課上,他全面而具體地講述了知識(shí)圖譜在人機(jī)對(duì)話系統(tǒng)中的發(fā)展與應(yīng)用,主要分為以下四部分:

語言知識(shí)、對(duì)話系統(tǒng)綜述

知性會(huì)話的基本概念及案例分析

知性會(huì)話的關(guān)鍵技術(shù):知識(shí)圖譜的構(gòu)建,實(shí)體發(fā)現(xiàn)與鏈接

知性會(huì)話的關(guān)鍵技術(shù):話語理解及自然應(yīng)答生成

▌一、語言、知識(shí)與人機(jī)對(duì)話系統(tǒng)綜述

1.語言和知識(shí)

語言和知識(shí)是密切相關(guān)的。這張冰山圖很形象地解釋了語言和知識(shí)的關(guān)系,我們看到的語言只是冰山上的一小角,就是我們說的話。但是你如果想理解這句話,跟這句話相關(guān)的背景知識(shí)就像冰山下面這一大塊。

所以,這也是自然語言跟語音、圖像很不一樣的地方,我們聽語音或看一個(gè)圖片,它的所有信息都在語音信號(hào)或者圖像像素里,但是語言的話就完全不是這樣,這也是自然語言理解遠(yuǎn)遠(yuǎn)比語音識(shí)別或者圖像識(shí)別更難的一個(gè)地方。

這次的報(bào)告內(nèi)容綜合了我最近三年在CCKS會(huì)議上做的三個(gè)報(bào)告。

2. 人機(jī)對(duì)話系統(tǒng)

人機(jī)對(duì)話系統(tǒng)最早在工業(yè)界引起比較大的轟動(dòng)是 Apple Siri,它當(dāng)時(shí)還是 iPhone 上的一個(gè) APP,2010 年被蘋果收購了。Siri 的創(chuàng)新在于,我們傳統(tǒng)的手機(jī) GUI 界面上加了一個(gè)語音 Voice-UI。

真正引發(fā)人機(jī)對(duì)話系統(tǒng)革命性創(chuàng)新的是于 2014 年推出的 Amazon Echo,它是一個(gè)完全基于語音交互的硬件,其語音技術(shù)比 Siri 前進(jìn)了一大截,因?yàn)樗С诌h(yuǎn)講。

2017 年亞馬遜又推出了一個(gè)帶屏幕的音箱 Amazon Echo Show,大家覺得這是不是又回到 Siri,還是基于 GUI 呢?這里要注意區(qū)別, Amazon Echo 是 VUI+GUI,也就是說它是以 VUI 優(yōu)先的,因?yàn)檎Z音的優(yōu)勢是輸入很便捷,你說幾個(gè)字就能代表一段指令,可以代替操作很多界面。但缺點(diǎn)是輸出很低效,如果在屏幕上顯示很多內(nèi)容,但是你要用語音說出來,可能得花好幾分鐘。所以 VUI+GUI 的結(jié)合是把兩者優(yōu)勢做了整合,VUI 用來做輸入,GUI 用來做輸出。

更高級(jí)的形態(tài)是現(xiàn)在很多電影都能看到的像Eva、《鋼鐵俠》或者《西部世界》里面這種人形的機(jī)器人,完全可以跟人自由對(duì)話,它的交互是 VUI++,真正模擬人的多模態(tài)的交互形態(tài),這個(gè)時(shí)間點(diǎn)也許在 2045 年會(huì)出現(xiàn)。

為什么人機(jī)對(duì)話系統(tǒng)目前在工業(yè)界這么熱門?它最重要的一個(gè)意義是有望取代目前在手機(jī)上的 APP,成為 IoT 時(shí)代的一個(gè)最重要的人機(jī)交互形式,這是它的最主要意義所在。

3. 人機(jī)對(duì)話系統(tǒng)的交互形式和應(yīng)用場景

就像人和人說話有多種目的和形式一樣,人機(jī)對(duì)話系統(tǒng)也包含很多種交互形式:

1、聊天。典型代表是小冰,它包括問候和寒暄,其特點(diǎn)是沒有明確目的,而且不一定回答用戶的問題。聊天在現(xiàn)有的人機(jī)對(duì)話系統(tǒng)中主要是起到情感陪伴的作用。

2、問答。它要對(duì)用戶的問答給出精準(zhǔn)的答案。這些問題可以是事實(shí)性的問題,如“姚明有多高”,也可能是其他定義類,描述類或者比較類的問題。問答系統(tǒng)可以根據(jù)問答的數(shù)據(jù)來源分為基于常見問題-答案列表的FAQ問答,基于問答社區(qū)數(shù)據(jù)的CQA問答,基于知識(shí)庫的KBQA問答。

3、操控,只是解析出它的語義,來供第三方執(zhí)行,最典型的操控是打開空調(diào)、打開臺(tái)燈,或者播放某一首歌。

4、任務(wù)式對(duì)話。它是一個(gè)目的性很強(qiáng)的對(duì)話,目標(biāo)是收集信息,以完成某個(gè)填表單式的任務(wù),最常見的像訂外賣、訂酒店、訂機(jī)票,這種方式通過對(duì)話來做。

5、主動(dòng)對(duì)話。讓機(jī)器主動(dòng)發(fā)起話題,不同的是,前面的交互都是讓人來主動(dòng)發(fā)起這個(gè)交互。

目前人機(jī)對(duì)話系統(tǒng)的應(yīng)用場景有很多,像音箱、電視、空調(diào)等等,其顯著特點(diǎn)是它不是人可以直接觸摸到的,可以將語音交互看成遙控器的一種替代品,有遙控器的地方就可以用語音來交互。

另外一個(gè)應(yīng)用場景是在車載方面,因?yàn)樵陂_車時(shí),你的眼睛和手腳都被占用著,所以這時(shí)通過語音來接聽電話、導(dǎo)航甚至收發(fā)微信,是非常方便的,也比較安全。車載是剛需場景,所以目前出貨量最多是在這塊。像我們是從 2014 年開始做車載語音交互方案,到現(xiàn)在有 1500 多萬的出貨量。

另外一個(gè)應(yīng)用領(lǐng)域是兒童教育機(jī)器人,右下角這些各種形狀的兒童機(jī)器人,實(shí)際上可以看成兒童版的音箱,它的內(nèi)容是面向兒童的,但是交互形式也是人機(jī)對(duì)話的方式。

4. 人機(jī)對(duì)話技術(shù)架構(gòu)

人機(jī)對(duì)話系統(tǒng)從學(xué)術(shù)界來講,它的研究歷史非常悠久,可能 AI 提出以后,在七八十年代就開始研究。它的技術(shù)分為五大部分:

1、語音識(shí)別:主要解決復(fù)雜真實(shí)場景噪聲、用戶口音多樣的情況下,把人說的話轉(zhuǎn)成文字,即做到“聽得清”。

2、語義理解:主要是把用戶說的話轉(zhuǎn)成機(jī)器能理解執(zhí)行的指令或查詢,即做到“聽得懂”。

3、對(duì)話管理:維護(hù)對(duì)話狀態(tài)和目標(biāo),決定系統(tǒng)應(yīng)該怎么說、怎么問下一句話,也就是生成一個(gè)應(yīng)答的意圖。

4、自然語言生成:就是根據(jù)系統(tǒng)應(yīng)答的意圖,用自然語言把這個(gè)應(yīng)答意圖表達(dá)出來。

5、語音合成: 用機(jī)器合成的語音把這句話播報(bào)出來。

這樣形成一個(gè)完整人機(jī)對(duì)話的閉環(huán)。

5. 語音識(shí)別場景演進(jìn)

因?yàn)槿藱C(jī)對(duì)話系統(tǒng)是以語音作為入口,所以需要講講語音技術(shù)這塊的進(jìn)展。強(qiáng)調(diào)一點(diǎn)的是,如果想真正做好人機(jī)對(duì)話系統(tǒng),除了對(duì)自然語言處理技術(shù)了解之外,對(duì)語音技術(shù)也必須有所了解。

最早像 Siri 這樣的場景是近講模式,它最主要解決的問題是口音問題,目前這方面的識(shí)別準(zhǔn)確率非常高,已經(jīng)能做到 97% 左右,大家平時(shí)用的手機(jī)語音輸入法就是這種模式,一般建議離麥克風(fēng)的距離是30cm左右。

Amazon Echo 則是遠(yuǎn)講模式,你可以離麥克風(fēng)3 米甚至 5 米這么遠(yuǎn)。它要解決的問題很多,因?yàn)槟汶x它遠(yuǎn)了以后更容易受周邊噪音的影響,還有一個(gè)更致命的影響是聲音反射引起的混響問題,特別是在玻璃房里,聲音不斷在反射,麥克風(fēng)收到的聲音就是很多聲音混雜在一起。還有一個(gè)很不一樣的地方,就是我們用微信語音的時(shí)候可以按下說,或者按著一直說,但當(dāng)你面對(duì)一個(gè)音箱時(shí),因?yàn)槟汶x它有 3-5 米遠(yuǎn),不可能按著說話的,這時(shí)就有新的技術(shù),叫“語音喚醒”,就像我們跟人說話時(shí)叫人的名字一樣,像“Hi,Google”,先喚醒機(jī)器,再同它對(duì)話。

目前語音識(shí)別最難的場景是人人對(duì)話,在人和人對(duì)話的時(shí)候,先對(duì)它做錄音,而且要把它轉(zhuǎn)成文字,這個(gè)最常見的場景像開會(huì),自動(dòng)把不同的人說話轉(zhuǎn)錄下來,甚至自動(dòng)形成會(huì)議紀(jì)要。還有像司法的庭審,只要是和人說話的場景下都可以用到。這里面最難的問題是雞尾酒會(huì)問題,很多人在一起,環(huán)境很嘈雜,大家都在說話,人可以聽到只關(guān)注的人的說話,即使很嘈雜,但兩個(gè)人一樣可以聊天對(duì)話,但這對(duì)機(jī)器來說很難。

6.人機(jī)對(duì)話系統(tǒng)中的機(jī)器角色演進(jìn)

在人機(jī)對(duì)話里面機(jī)器的角色有個(gè)演進(jìn)的過程:最早人機(jī)對(duì)話很簡單,可以看成是個(gè)遙控器的替代品,用戶通過固定句式或者單句指令來控制這個(gè)系統(tǒng)。

Siri、Amazon Echo 是一種助手的形態(tài),也就是說,你可以通過自然語言交互,且對(duì)話是多輪的,甚至可以讓機(jī)器有些情感。

但是下一個(gè)階段是它會(huì)變成專家的角色,特別是面向行業(yè)或者特定領(lǐng)域時(shí),當(dāng)我們跟音箱對(duì)話時(shí),希望這個(gè)音箱同時(shí)也是一個(gè)音樂專家,它可以跟你聊音樂的問題,可以跟你聊古典音樂,甚至教你一些音樂知識(shí)。我們跟兒童教育機(jī)器人對(duì)話時(shí),希望這個(gè)機(jī)器人是一個(gè)兒童教育專家,我們跟空調(diào)對(duì)話時(shí)希望后面是個(gè)空調(diào)專家。這時(shí)它的特點(diǎn)是需要有這個(gè)領(lǐng)域的知識(shí),而且能夠幫你做推薦、做決策。

▌二、知性會(huì)話基本概念及示例分析

我們做對(duì)話必須理解這幾個(gè)概念——語義、語境、語用。特別是語境,它就是在對(duì)話時(shí)才有含義,語境就是指人和人發(fā)生對(duì)話時(shí)的一個(gè)具體環(huán)境,這個(gè)環(huán)境又包括言語語境,就是我們所說的上下文,還有很多非言語語境,如說話的時(shí)間、地點(diǎn)、天氣都是非言語語境,還有說話人的信息等等,我們今天強(qiáng)調(diào)的知識(shí)也是一種重要的非言語語境。

假如用戶說「太冷了」這三個(gè)字,語義是溫度有點(diǎn)低,但如果考慮語用,這句話在特定語境下面?zhèn)鬟f的會(huì)話意義、真實(shí)含義: 如果在車?yán)锩骈_著空調(diào),理解這句話的意思是把空調(diào)溫度調(diào)高一點(diǎn);如果是冬天沒有開空調(diào),這句話的意思可能是把車的暖氣打開,或者把車的窗戶關(guān)上;現(xiàn)在馬上到秋天了,如果一個(gè)女孩子對(duì)你說「太冷了」,她的含義可能是想讓你給她一個(gè)擁抱之類的。所以語境和語用是非常重要的概念,如果做人機(jī)對(duì)話系統(tǒng),都會(huì)接觸到這兩個(gè)概念。

1.人機(jī)(設(shè)備)對(duì)話系統(tǒng)下的語境

剛才是說人和人對(duì)話時(shí),語境很關(guān)鍵,現(xiàn)在我們做人機(jī)對(duì)話系統(tǒng),人和設(shè)備對(duì)話的時(shí)候有哪些語境呢?

1、物理語境。也就是你說話當(dāng)時(shí)現(xiàn)場的信息,包括(1)時(shí)間、地點(diǎn)、場所,這個(gè)場所是指在車?yán)锘蛟诩依锏鹊取#?)天氣。(3)情緒和情感。(4)設(shè)備上面顯示的內(nèi)容。(5)設(shè)備能感知到的信息,比如我們和空調(diào)對(duì)話,空調(diào)能夠感知到室內(nèi)外的溫度、濕度。這個(gè)語境的生命周期是請(qǐng)求級(jí)的。

2、言語語境。(1)上下文,設(shè)備上和設(shè)備上面反饋的信息也是一種上下文,這個(gè)生命周期可以看成是會(huì)話級(jí)的。

3、知識(shí)語境。包括:

(1)人類的常識(shí)和領(lǐng)域知識(shí)。舉個(gè)簡單的例子,以前我們一句話叫「中國乒乓球隊(duì)誰也贏不了」,還有「中國足球隊(duì)也是誰也贏不了」,這兩句話看起來字面是一樣的,但人能夠理解這兩句話的差別,因?yàn)槲覀冇谐WR(shí)是:中國足球隊(duì)很弱,中國乒乓球隊(duì)很強(qiáng)。所以知識(shí)對(duì)這句話的理解至關(guān)重要。

(2)用戶畫像,包括用戶的一些基本信息,用戶的性別、年齡、文化水平、愛好等等。(3)Agent 畫像,就是這個(gè)機(jī)器人定義的信息,像小冰把它的 Agent 畫像定義為一個(gè) 18 歲的鄰家小妹。(4)設(shè)備信息庫,如果把音箱作為中控的話,中控連接的設(shè)備信息、設(shè)備狀態(tài)等都是語境。如果在家里對(duì)中控說「我回家了」這句話到底是什么含義?中控可能會(huì)根據(jù)你的設(shè)備狀態(tài)、根據(jù)當(dāng)前的環(huán)境情況,給你決定是開燈還是關(guān)燈,是給你開窗戶還是拉窗簾等等。

2. 不要神話知識(shí)圖譜

知識(shí)圖譜的歷史和概念大家已經(jīng)比較理解了,我這里主要強(qiáng)調(diào)幾個(gè)基本概念:最重要的知識(shí)圖譜概念就是「Things,Not Strings」,知識(shí)圖譜里面的東西都是一個(gè)個(gè)實(shí)體而不是字符串。

另外,我們也不要神化知識(shí)圖譜,它其實(shí)只是一種知識(shí)的組織形式而已。因?yàn)椴还茏鍪裁磻?yīng)用,在各種場景下都有知識(shí),以前可能用其他方式來表示這個(gè)知識(shí)。在概念層,我們以前也接觸過類似的東西,就像我們做關(guān)于數(shù)據(jù)庫建模時(shí)用 ER 模型,它也是一種概念模型。我們寫程序,做面向?qū)ο笤O(shè)計(jì)時(shí)會(huì)畫些類圖,這些都是概念模型,這些模型都可以很方便的轉(zhuǎn)成知識(shí)圖譜來表示。我認(rèn)為知識(shí)圖譜首先是知識(shí)的一種組織形式。在數(shù)據(jù)層,知識(shí)圖譜是一種圖模型,它是用節(jié)點(diǎn)、邊來表達(dá)實(shí)體、值、關(guān)系和屬性等。

3. 什么是知性會(huì)話?

什么叫知性會(huì)話?我這里舉個(gè)例子,用戶可能跟音箱聊天:「你喜歡謝霆鋒?」「喜歡,他很酷」「你知道他女朋友是誰嗎?」「王菲」「來一首她的《傳奇》」這是一種操控,機(jī)器就會(huì)給你播放王菲的傳奇,播放之后系統(tǒng)還可以接著問說「你還想聽李鍵的原唱嗎?」這是一種主動(dòng)對(duì)話,用戶說「好的」,系統(tǒng)可以播放李鍵的《傳奇》,用戶還可以問「他的音樂風(fēng)格是什么樣的?」系統(tǒng)說「李健的風(fēng)格,有民謠的簡潔,但比民謠華麗得多?!?/p>

你看這個(gè)例子的話,它涉及很多跟音樂相關(guān)的知識(shí),還包括一些歌星的人物相關(guān)的知識(shí)。交互形式有聊天、問答、操控、主動(dòng)對(duì)話,是通過知識(shí)把它們關(guān)聯(lián)在一起,你會(huì)感覺整個(gè)對(duì)話是個(gè)很流暢的對(duì)話。

總結(jié)下來,知性會(huì)話的意思是:它以知識(shí)圖譜為中心,通過實(shí)體發(fā)現(xiàn)與鏈接技術(shù)把各種各樣可以用來作為對(duì)話的數(shù)據(jù)源融合在一起,實(shí)現(xiàn)跨領(lǐng)域、跨交互形式的多輪對(duì)話。

知性會(huì)話的主要特點(diǎn)有:一是跨領(lǐng)域,跨交互形式共享上下文,你可以看它的聊天和問答可以銜接在以前;二是它體現(xiàn)了領(lǐng)域?qū)<业臋C(jī)器人定位,它對(duì)這些領(lǐng)域的知識(shí)非常了解,可以在聊天或者問答中體現(xiàn)出它掌握的領(lǐng)域知識(shí)。它有這方面的知識(shí)后,也可以主動(dòng)發(fā)起一些對(duì)話。

知性會(huì)話的核心技術(shù)有:

離線處理,首先要有知識(shí)圖譜,所以有一個(gè)知識(shí)圖譜構(gòu)建的問題。另外,我們要把各種跟對(duì)話相關(guān)的數(shù)據(jù)通過實(shí)體發(fā)現(xiàn)與鏈接技術(shù)跟知識(shí)圖譜關(guān)聯(lián)起來。

在線處理?;谥R(shí)做話語理解,怎么在聊天里把知識(shí)融合進(jìn)去,還有基于知識(shí)圖譜的問答,基于知識(shí)圖譜的主動(dòng)對(duì)話等。

▌三、知性會(huì)話關(guān)鍵技術(shù)

(一)知識(shí)圖譜構(gòu)建

1.知識(shí)圖譜的構(gòu)建方法

這里我引用復(fù)旦肖老師總結(jié)的知識(shí)圖譜構(gòu)建方法,第一步是做模式設(shè)計(jì),我們要定義有哪些類或概念、哪些屬性或關(guān)系。

第二步確定我們的知識(shí)從哪來,所謂的數(shù)據(jù)來源,這里可以通過對(duì)一些結(jié)構(gòu)化的數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)做轉(zhuǎn)換、對(duì)非結(jié)構(gòu)化的數(shù)據(jù),即文本,從里面去信息抽取。

第三步,知識(shí)圖譜里最重要的是詞匯的挖掘,各種同義詞、縮略詞、短語等等。

第四步,有詞匯不夠,我們要把同義詞聚集為一個(gè)概念,也就是所謂的實(shí)體發(fā)現(xiàn),包括實(shí)體實(shí)現(xiàn)、實(shí)體歸類、實(shí)體鏈接等等。

第五步,除了實(shí)體之外,知識(shí)圖譜里還有邊,也就是關(guān)系,我們要做關(guān)系的抽取。

第六步,因?yàn)槲覀兊闹R(shí)圖譜可能來源于不同的數(shù)據(jù)源,所以我們要做知識(shí)的融合,主要是實(shí)體對(duì)齊、屬性融合、值的規(guī)范化。

最后,對(duì)知識(shí)圖譜的質(zhì)量做檢查控制,包括知識(shí)的補(bǔ)全,有錯(cuò)的話要糾錯(cuò),還有知識(shí)更新,最后形成一個(gè)領(lǐng)域的知識(shí)圖譜。

2. 知識(shí)圖譜的評(píng)估方法

如果你不知道怎么評(píng)價(jià)知識(shí)圖譜的話,就根本不知道你的知識(shí)圖譜建得好還是壞、有用還是沒用。評(píng)估的方法基本可以分為四大類別:最重要的類別是第二類基于應(yīng)用,把知識(shí)圖譜在應(yīng)用里看效果怎樣,通過應(yīng)用效果來間接評(píng)估知識(shí)本體。我們不要先找?guī)资畟€(gè)人花一兩年建知識(shí)圖譜然后再去找應(yīng)用,而是知識(shí)圖譜必須是應(yīng)用驅(qū)動(dòng)的,根據(jù)應(yīng)用效果來評(píng)價(jià)知識(shí)圖譜,這是推薦的一個(gè)方法。

還有基于黃金標(biāo)準(zhǔn)評(píng)估,也就是說如果我們有些好的知識(shí)圖譜,或者我們可以建一個(gè)小的知識(shí)圖譜,根據(jù)這個(gè)標(biāo)準(zhǔn)知識(shí)圖譜去評(píng)估我們建的知識(shí)圖譜的情況。我們可以看看計(jì)算概念和關(guān)系的覆蓋率,即有多少出現(xiàn)在標(biāo)準(zhǔn)知識(shí)圖譜中的概念和關(guān)系被包含了,這可以評(píng)價(jià)我們的建的知識(shí)圖譜是否完整。

另外,簡單的評(píng)估方式基于指標(biāo)??梢远ㄒ恍┙y(tǒng)計(jì)指標(biāo),比如這個(gè)知識(shí)圖譜里有多少概念、多少關(guān)系、關(guān)系屬性,然后我們還可以對(duì)它進(jìn)行抽查,看它的準(zhǔn)確率、一致性等指標(biāo)。

3. 敏捷構(gòu)建

我們現(xiàn)在做應(yīng)用很多情況都是做敏捷開發(fā),也就是說可能半個(gè)月或者一個(gè)月就會(huì)發(fā)一次版本,這時(shí)候我們知識(shí)圖譜也要跟著應(yīng)用快速迭代,這時(shí)候是需要對(duì)知識(shí)圖譜敏捷構(gòu)建的過程。這里強(qiáng)調(diào)我們要對(duì)知識(shí)圖譜做自動(dòng)化的測試,測試完之后要判斷它是否能夠發(fā)版,發(fā)版之后要繼續(xù)分析它目前的問題??梢园阎R(shí)圖譜看成一個(gè)軟件,它是不是有哪些 bug 或者需要哪些新功能,根據(jù)這些制定下一個(gè)版本的發(fā)版計(jì)劃。核心想法就是把知識(shí)圖譜也看成是一個(gè)軟件,也要有版本管理,也要有敏捷的開發(fā)。

(二)實(shí)體發(fā)現(xiàn)與鏈接

需要解決的問題:如果我們這時(shí)候已經(jīng)有知識(shí)圖譜了,現(xiàn)在還依賴于實(shí)體發(fā)現(xiàn)與鏈接技術(shù)。這個(gè)技術(shù)解決剛才那個(gè)問題,「Thinks,not Strings」,它最重要的問題是把字符串和知識(shí)圖譜的實(shí)體關(guān)聯(lián)起來。它要解決兩個(gè)問題,一個(gè)是我們同一個(gè)意義可能有表達(dá)不同的形式,像「科比」、「黑曼巴」、「科神」很多是指的科比這個(gè)人。還有一個(gè)是自然語言或者字符串本身有歧義性,就像「蘋果」可能是指蘋果電腦、蘋果手機(jī),也可能是一個(gè)水果。

解決方法:所以它的做法是分兩步,實(shí)體發(fā)現(xiàn)和實(shí)體鏈接,實(shí)體發(fā)現(xiàn)是發(fā)現(xiàn)文本中的 mention,就是字符串,像「這個(gè)蘋果很貴」的「蘋果」是 mention。實(shí)體鏈接是把這個(gè) Mention 和知識(shí)圖譜里的實(shí)體關(guān)聯(lián)起來,知識(shí)圖譜里的實(shí)體關(guān)于「蘋果」可能有多個(gè)實(shí)體,有蘋果公司,還有蘋果這個(gè)品牌,還可能是蘋果手機(jī)、蘋果電腦,還有水果叫蘋果等等,這里的「蘋果」到底指哪個(gè)呢?可能要靠上下文的判斷。

1.基于實(shí)體的多源數(shù)據(jù)融合

我這里舉個(gè)很簡單的知識(shí)圖譜,謝霆鋒的女友是王菲,王菲唱了《傳奇》這首歌,《傳奇》這首歌的原唱是李健。

我們?cè)趯?duì)話這塊的數(shù)據(jù)來源有幾個(gè):一個(gè)是聊天庫,像「你喜歡歌手謝霆鋒嗎」「喜歡,他很酷?!?,還有 FAQ 庫,我們可能從百度知道或者很多地方可以找到社區(qū)問答的數(shù)據(jù),就像這里說「誰能說說李健的音樂風(fēng)格?」「李健的風(fēng)格,有民謠的簡潔,但比民謠華麗得多?!?/p>

我們也會(huì)從網(wǎng)上找到很多文檔,包括百科的文檔或者網(wǎng)頁性的文檔,我們對(duì)這些文檔、聊天庫、FAQ 庫、文檔庫,我們都要去做實(shí)體鏈接,把這里面出現(xiàn)的歌手和我們知識(shí)圖譜的歌手關(guān)聯(lián)起來。

2. 如何進(jìn)行實(shí)體發(fā)現(xiàn)與鏈接?

第一步預(yù)處理,首先建立一個(gè) mention 到 entity(實(shí)體)的關(guān)系,這也是目前這個(gè)算法的局限性,我們事先要知道一個(gè) mention 可能對(duì)應(yīng)到哪些實(shí)體。然后抽取實(shí)體相關(guān)特征:

一是實(shí)體的先驗(yàn)概率。就像蘋果可能是水果的先驗(yàn)概率為 40%,是蘋果手機(jī)的先驗(yàn)概率為 60%,如果我們說葡萄呢?可能葡萄是水果的先驗(yàn)概率有 90%,10% 是其他東西。二是實(shí)體上下文的詞分布,我們看這些實(shí)體周邊到底是什么詞,或者它篇章的主題詞,就像蘋果手機(jī)出現(xiàn)在文章里都是科技類的主題詞。三是實(shí)體之間的語義關(guān)聯(lián)度,因?yàn)橹R(shí)圖譜是一個(gè)圖的結(jié)構(gòu),所以每個(gè)實(shí)體環(huán)繞它周邊都有些其他的實(shí)體,這些實(shí)體都是相關(guān)的特征。

第二步,這時(shí)實(shí)體鏈接就變成一個(gè)排序問題,找到 mention 之后,我們可以根據(jù)前面 mention 關(guān)系表找到它的候選實(shí)體,現(xiàn)在保持只需要對(duì)候選實(shí)體排序,返回一個(gè)最可能的實(shí)體。

第三步,對(duì)候選實(shí)體進(jìn)行排序,可以用最基本的方法。這個(gè)有兩大類:一個(gè)是實(shí)體本身的信息,還有一個(gè)是可以利用實(shí)體和實(shí)體之間的協(xié)同關(guān)系做排序。如果是蘋果旁邊的實(shí)體都是偏電腦類的,那這個(gè)蘋果可能就指蘋果電腦。

(三)融合知識(shí)的話語理解

做完實(shí)體鏈接處理以后可以做真正的對(duì)話系統(tǒng)這一塊,對(duì)話系統(tǒng)里最基本的是對(duì)用戶話語的理解,我們?cè)趺慈ダ斫庥脩粽f的一句話。

第一步要做實(shí)體的發(fā)現(xiàn)與鏈接,像剛才那個(gè)例子,「你喜歡謝霆鋒嗎」,我們要把謝霆鋒跟知識(shí)圖譜的實(shí)體關(guān)聯(lián)起來。

第二步做指代發(fā)現(xiàn),比如「你知道他女朋友是誰」,那這個(gè)「他」到底是指誰,我們首先要發(fā)現(xiàn)他是一個(gè)指代詞,然后再根據(jù)上下文去判斷「他」在這個(gè)例子里面是謝霆鋒這個(gè)實(shí)體。

另外,我們做語義理解還有一種情況是結(jié)合知識(shí)做消歧義。比如用戶說「周巧文的生日」,因?yàn)椤渡铡肥且皇赘璧拿?,周巧文是這個(gè)歌的歌手,這時(shí)候我們理解它是個(gè)音樂,因?yàn)楸緛砭驮谝粝湎旅?,這時(shí)我們可以直接播放周巧文的《生日》這首歌。但是如果系統(tǒng)又問一下「劉德華的生日」,這時(shí)候雖然我們的命名實(shí)體識(shí)別很有可能把「生日」也可能打成歌名的標(biāo)簽,劉德華打成歌手的標(biāo)簽,歌手的歌名,很容易以為是播放音樂,但是我們通過知識(shí)的驗(yàn)證知道劉德華并沒有唱過這首歌,這時(shí)候要轉(zhuǎn)成問答,這不是一個(gè)操控性的指令。直接返回他的生日,說「劉德華的生日是 1961 年 9 月 27 日」。

這幾個(gè)例子是我們通過知識(shí)幫助去理解用戶的指令。我下面再講一下怎么把知識(shí)和聊天結(jié)合起來。

(四)融合知識(shí)的聊天

1.上下文

現(xiàn)在學(xué)術(shù)界都用深度學(xué)習(xí)模型,所以我會(huì)簡單講一下深度學(xué)習(xí)的方法,把它的基本思想講一下。我們現(xiàn)在一般在學(xué)界把聊天變成一個(gè) Sequence-to-Sequence 的模型,就是有一個(gè) encoder對(duì)輸入進(jìn)行編碼為向量, 通過 decoder 把應(yīng)答生成出來。這時(shí)核心問題變成怎么把上下文加進(jìn)去,最基本的方法是把上下文的文本跟當(dāng)前文本的向量合在一起作為 encoder 的輸入;另外我們可以把上下文作為向量,在 decoder 階段輸入;或者用主題模型對(duì)這個(gè) session 去建模,把這個(gè) session 主題模型也作為 decoder 的輸入,這樣就可以實(shí)現(xiàn)一并上下文的效果。

2. 一致性

聊天還有一個(gè)很重要的問題是一致性。我們剛才說語境里面有一個(gè)agent畫像,跟我聊天的對(duì)象雖然是機(jī)器人,但是它有統(tǒng)一的人格,它的性別、年齡、籍貫、愛好應(yīng)該是一致的,這是目前聊天機(jī)器人里面最難的一點(diǎn)。你對(duì)機(jī)器人問它「多大了?」它可能說「18 歲」,如果你再去問一下「你今年高壽」,它很有可能回答「我今年 88 歲」,或者問你「芳齡幾許」,它很有可能回答「小女子今年芳齡二八等等」。

為什么會(huì)出現(xiàn)這種情況?因?yàn)槟壳傲奶斓臋C(jī)器人都是靠從各個(gè)來源去收集各種語料堆在一起的,對(duì)這種語料并沒有做歸一化處理,因?yàn)橛械恼Z料說「我今年 88 歲」,有的語料里面可能說「我今年 18 歲」等等,這時(shí)候換個(gè)方式問它可能會(huì)出現(xiàn)問答不一致的地方。更復(fù)雜的例子,你問它「你出生地在哪里?」它說「我在北京」,然后問它「你是中國人嗎?」它可能就回答不了,雖然人類常識(shí)知道北京屬于中國等等。

在深度學(xué)習(xí)里如果想把這些所謂的機(jī)器人的信息,進(jìn)行建模或向量化處理導(dǎo)入到 decoder 模型里去,這時(shí)候它會(huì)優(yōu)先從身份信息的詞向量去生成應(yīng)答,這樣也能達(dá)到一定一致性的效果。

3. 融合知識(shí)

另外,做問答的時(shí)候,像我們這個(gè)例子問「姚明有多高」,我們生成比較自然的問答,說「他是兩米二六,他是唯一一個(gè)可以從太空看到的人類。」當(dāng)然,這是開玩笑的。這種聊天就融合了知識(shí),它知道姚明的身高。這時(shí)候通過深度學(xué)習(xí)模型做decode 時(shí),除了生成常規(guī)的應(yīng)答之外,有部分的應(yīng)答還要從知識(shí)庫里去檢索,然后再把這個(gè)應(yīng)答跟文本的應(yīng)答拼在一起。

更多的類似工作可以看看獲得今年IJCAI杰出論文獎(jiǎng)的黃民烈老師的工作。

(四)基于知識(shí)的問答

知識(shí)問答主要有兩種方法:一種是基于 Semantic Parsing 的傳統(tǒng)方法,它是把一個(gè)問題解析成一個(gè)形式化的查詢語言,再把查詢語言知識(shí)庫里面做查詢。這個(gè)方法的最大難點(diǎn)是把自然語言的問題轉(zhuǎn)成這樣一個(gè)形式化的查詢語言。同樣也有很多方法,最簡單的基于規(guī)則、基于模板,復(fù)雜點(diǎn)的基于翻譯模型、基于深度學(xué)習(xí)模型等。

目前學(xué)術(shù)界比較多的是基于機(jī)器學(xué)習(xí)的知識(shí)庫的問答方法,這里面它的基本思想是把問題建模成一個(gè) embedding,然后對(duì)知識(shí)圖譜也做 embedding,變成一個(gè)個(gè)向量,這個(gè)問答就轉(zhuǎn)換成了一個(gè)相似度匹配的問題,把知識(shí)庫里的子圖的向量跟問題對(duì)應(yīng)子圖進(jìn)行相似度匹配。

還有很多其他方法,目前比較多的是基于網(wǎng)絡(luò)的方法,基于帶注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)的方法。這塊我給一個(gè)參考,大家可以看一下《揭開知識(shí)庫問答 KB-QA 的面紗》這篇文章,講得非常詳盡、非常好。我個(gè)人的觀點(diǎn)是現(xiàn)在基于深度學(xué)習(xí)的知識(shí)庫問答目前在工業(yè)界這塊不是很成熟,它的效果不太可控,我們?cè)谙到y(tǒng)里還是用基于傳統(tǒng)的 Semantic Parsing 問答。

在 CQA 上也有很多把知識(shí)結(jié)合進(jìn)去的方法。CQA 最核心的問題是我們要算用戶的問題和在我們問答庫里問題的語義相似度,這里的核心問題是怎么能把知識(shí)放到對(duì)句子的向量表示里。最近的 SIGIR2018 中提到,把知識(shí)和注意力的神經(jīng)網(wǎng)絡(luò)結(jié)合在一起的方法?,F(xiàn)在這種論文基本都是一個(gè)網(wǎng)絡(luò)圖。另外一篇文章也是類似的,總體是在文本做排序時(shí)把知識(shí)向量化。

(五)基于知識(shí)的主動(dòng)會(huì)話

這個(gè)實(shí)際上是非常關(guān)鍵的。在我們?nèi)藱C(jī)對(duì)話系統(tǒng),特別是在 VUI 交互下, VUI 音箱是沒有界面的,這就意味著你無法知道這個(gè)音箱到底支持哪些功能。當(dāng)你面對(duì)音箱的時(shí)候,你怎么知道它的功能,到底哪些話能說,哪些話不能說,或者它有什么東西?這時(shí)候很需要機(jī)器人主動(dòng)的對(duì)話,能引導(dǎo)用戶用它,知道它的功能。

再舉個(gè)例子,如果一個(gè)用戶說「來首《傳奇》」,機(jī)器可以主動(dòng)問他說「播放以后還想聽聽李健原唱嗎?」其實(shí)它的思想很簡單,就是根據(jù)我們的知識(shí)圖譜里面,看看相同實(shí)體下面有沒有其他關(guān)系或者屬性,或者推薦一個(gè)相同關(guān)系下面其他的實(shí)體。

這里一篇百度的文章思想也是類似的,如果覺得聊天聊不下去了,會(huì)先在上下文里去做實(shí)體分析和實(shí)體鏈接,找到作為聊天主題的實(shí)體之后再根據(jù)知識(shí)圖譜找相關(guān)的實(shí)體,根據(jù)相關(guān)的實(shí)體產(chǎn)生話題。

▌四、總結(jié)

前面把聊天、問答、對(duì)話、語義解析怎么跟知識(shí)結(jié)合起來做了簡單的介紹。接下來做個(gè)總結(jié):

第一,為什么人機(jī)對(duì)話系統(tǒng)很重要?

1、它有可能成為物聯(lián)網(wǎng)時(shí)代的最主要交互形式,類似于 OS。

2、知性會(huì)話的核心是知識(shí)圖譜。它最重要的是做兩件事情:一是線下要做基于知識(shí)圖譜做多源數(shù)據(jù)的融合,二是在服務(wù)時(shí)要做基于知識(shí)圖譜聊天、問答、對(duì)話、操控一體化。

3、從技術(shù)上來講,深度學(xué)習(xí)和知識(shí)圖譜技術(shù)的結(jié)合是目前最重要的一個(gè)趨勢。我個(gè)人比較看好 Sequence-to-Sequence 模型,因?yàn)樗谋磉_(dá)能力非常豐富,而且應(yīng)用場景非常多,基本上自然語言處理里面大部分的問題都可以建模成一個(gè) Sequence-to-Sequence。包括我們的翻譯是一個(gè)語言到另外一個(gè)語言,還有聊天問答甚至拼音輸入法,就是把拼音序列轉(zhuǎn)成文字序列等等,還有做分詞、詞性識(shí)別、命名實(shí)體識(shí)別等等都是 Sequence-to-Sequence,這種模型分為 encoder 和 decoder 兩個(gè)階段,它在不同的階段都可以把一些知識(shí)融合進(jìn)去。

第二,在人機(jī)對(duì)話系統(tǒng)里的技術(shù)演進(jìn)是怎樣的?

1、在對(duì)話里不能只看語義,還要看語用,語用就是「語義+語境」。

2、我們不能只做閑聊式的機(jī)器人,而且是希望我們機(jī)器人是掌握領(lǐng)域知識(shí),它是有文化的,而且文化水平還很高,是個(gè)領(lǐng)域?qū)<?,是知性?huì)話。

3、流式對(duì)話。我們目前跟音箱的交互都是先喚醒,說「小愛同學(xué),給我點(diǎn)首歌」,又說「小愛同學(xué),播放下一首」。非常麻煩,但人和人對(duì)話是不會(huì)總頻繁叫人的名字的,這時(shí)候就需要流式對(duì)話,這塊的技術(shù)難點(diǎn)是怎么判斷一個(gè)人說話是不是說完了,你是否可以打斷,這是目前技術(shù)上最難的一點(diǎn)。還有一個(gè)是怎么去拒絕噪音,因?yàn)楝F(xiàn)在對(duì)話是沒有喚醒詞的,這時(shí)候旁邊人的說話甚至電視里面說的話很有可能被誤識(shí)別,機(jī)器也會(huì)對(duì)它做響應(yīng)。

▌五、答聽眾問

Q:我們公司在構(gòu)建電商的知識(shí)圖譜,但是電商的數(shù)據(jù)是每天都會(huì)更新的,有什么好的辦法對(duì)知識(shí)圖譜進(jìn)行更新嗎?而且基于 neo4j 的圖譜如何做知識(shí)推理?

A:這是個(gè)好問題。我們剛才強(qiáng)調(diào)知識(shí)圖譜要敏捷構(gòu)建,敏捷構(gòu)建就意味著你可以頻繁的發(fā)版本,這時(shí)候就有版本合并的問題,其實(shí)也是更新的問題。更新這塊主要的技術(shù)是知識(shí)本體的融合或者知識(shí)實(shí)體的匹配、實(shí)體的對(duì)齊。如果更新的數(shù)據(jù)量不是很大的話,我建議的方法是先通過實(shí)體對(duì)齊的技術(shù),把更新的數(shù)據(jù)自動(dòng)添加到知識(shí)圖譜里去,如果量不大的話還需要做人工的 review,看更新的數(shù)據(jù)是否 OK。這個(gè)我認(rèn)為也沒有什么特別好的辦法,因?yàn)楦卤緛砭褪侵R(shí)圖譜里最難的問題。

neo4j 的圖譜如何做知識(shí)推理?首先,我個(gè)人認(rèn)為它不太適合存儲(chǔ)海量的知識(shí)圖譜,電商的數(shù)量應(yīng)該很大的,這時(shí)候用 neo4j 合適不合適還有待商榷。如何做知識(shí)推理?我們一般認(rèn)為知識(shí)圖譜最主要的是知識(shí),盡量少去做推理,因?yàn)橥评硎峭﹄y的一個(gè)東西,而且也沒有特別工業(yè)化成熟度很高的工具。第二,如果非要做推理的話,我們一般做線下的推理,就是預(yù)先把推理做好,把它能展開的數(shù)據(jù)全展開,也叫「知識(shí)補(bǔ)全」,就像簡單的傳遞性的關(guān)系或者預(yù)先把它都展開,相當(dāng)于存儲(chǔ)空間換時(shí)間,這是一個(gè)比較常用的方法。我們現(xiàn)在不太建議線上服務(wù)時(shí)做實(shí)時(shí)推理,因?yàn)槟莻€(gè)性能一般很難達(dá)到要求。

Q:本體構(gòu)建的大致方法能簡單介紹一下嗎?

A:本體構(gòu)建的方法從大的面來講有兩種,一種是傳統(tǒng)基于專家的方法,就是請(qǐng)一般專家全手工構(gòu)建,他們對(duì)每個(gè)詞、每個(gè)實(shí)體、詞之間的關(guān)系都開會(huì)討論,最后決定應(yīng)該這樣、應(yīng)該那樣,這是專家驅(qū)動(dòng)的方法。但這種方法已經(jīng)不太可行,而且這種方法也會(huì)成為我們做知識(shí)圖譜的瓶頸,因?yàn)槲覀兤谕R(shí)圖譜是一個(gè)敏捷構(gòu)建的。

目前大部分是數(shù)據(jù)驅(qū)動(dòng)的方法,就是我們通過數(shù)據(jù)挖掘去自動(dòng)構(gòu)建知識(shí)圖譜,適當(dāng)?shù)鼗谌斯さ?review。我傾向于極端的方法,我推薦的方式是知識(shí)圖譜的構(gòu)建整個(gè)是全自動(dòng),但是也需要專家的參與,但是專家參與不是做 review、不是做構(gòu)建,而是做評(píng)測。整個(gè)知識(shí)圖譜的效果根據(jù)應(yīng)用的效果說話,這個(gè)應(yīng)用不能假設(shè)整個(gè)知識(shí)圖譜是完全正確的、完整的的。我們可以通過快速迭代,不斷的對(duì)知識(shí)圖譜去做更新,然后根據(jù)自動(dòng)化的測試或者根據(jù)人工的抽樣檢查和應(yīng)用的效果去看知識(shí)圖譜的質(zhì)量。只要我們知識(shí)圖譜的質(zhì)量能夠滿足應(yīng)用的需求就 OK。

Q:實(shí)體抽取有一個(gè)大致的最佳實(shí)踐嗎?

A:最佳實(shí)踐是這樣的,如果從工業(yè)界角度看的話,實(shí)體抽取肯定是多個(gè)方法的融合,基于詞典、基于規(guī)則、基于統(tǒng)計(jì)學(xué)習(xí)方法、基于深度學(xué)習(xí)方法,沒有一個(gè)方法就能搞定所有的問題。雖然詞典挖掘這個(gè)東西沒有技術(shù)含量,但是實(shí)踐中基于詞典的方法是非常有效的方法,特別是在垂直領(lǐng)域里面,像醫(yī)療這種領(lǐng)域,當(dāng)然,在有些領(lǐng)域可能這個(gè)方法不靠譜,比如在音樂領(lǐng)域,音樂里面有歌名,任何一個(gè)詞都可能是歌名。

但基于詞典方法還有一個(gè)重要考慮,一定要考慮這個(gè)詞典的這個(gè)詞有沒有歧義,或者一個(gè)詞的先驗(yàn)概率。比如「我愛你」也是一首歌名,但是它是歌名的概率可能不是特別大,但「忘情水」是歌名的概率就很大,所以詞典不是簡單的詞條列表,而是要帶先驗(yàn)概率的信息。

Q:知識(shí)圖譜還需要語義網(wǎng)的知識(shí)嗎?構(gòu)建 OWL 可還需要很強(qiáng)的領(lǐng)域知識(shí)?

A:我們剛才說到知識(shí)圖譜的前身是語義網(wǎng),所以如果想更加深刻理解知識(shí)圖譜,還是要了解一下語義網(wǎng)的知識(shí),特別像 RDF OWL 的規(guī)范是要了解一下的。

OWL 的這個(gè)本體語言還是有點(diǎn)偏復(fù)雜,目前基本上不太推薦知識(shí)圖譜搞得那么復(fù)雜,基本對(duì)應(yīng)到 RDF 那種形態(tài)就差不多了。我們希望知識(shí)圖譜可以構(gòu)建盡量大,但是它從邏輯上來講盡量簡單,不要用 OWL 里面復(fù)雜的東西。一點(diǎn)點(diǎn)語義可以走得很遠(yuǎn),沒必要把模型搞得太復(fù)雜,因?yàn)榘涯P透愕锰珡?fù)雜的一個(gè)最重要難點(diǎn)是當(dāng)你把實(shí)體放進(jìn)去時(shí)你很難判斷這個(gè)實(shí)體屬于哪個(gè)概念。

Q:心理學(xué)出身的研究者在 NLP 學(xué)術(shù)領(lǐng)域是否有競爭力?對(duì)于心理學(xué)研究者轉(zhuǎn)向 NLP 學(xué)術(shù)圈有哪些建議?

A:這個(gè)問題挺有意思的。我們組里有一個(gè)主力骨干就是學(xué)心理學(xué)出身的,但他當(dāng)時(shí)學(xué)的心理學(xué)是偏統(tǒng)計(jì)方面的心理學(xué),也就是計(jì)量心理學(xué)這方面的,所以他相對(duì)有一定的統(tǒng)計(jì)基礎(chǔ)。這時(shí)候由統(tǒng)計(jì)基礎(chǔ)轉(zhuǎn)向到 NLP,因?yàn)橛袛?shù)學(xué)基礎(chǔ),是比較容易一點(diǎn)的。另外一點(diǎn),心理學(xué)比較有意義的是認(rèn)知這一塊,因?yàn)樯窠?jīng)網(wǎng)絡(luò)這些原理跟認(rèn)知心理學(xué)有一定的關(guān)系,所以心理學(xué)知識(shí)對(duì)轉(zhuǎn)到 NLP 挺有幫助的。

關(guān)于具體的建議,不管哪個(gè)專業(yè)轉(zhuǎn)到 NLP,最重要的是學(xué)好數(shù)學(xué)和機(jī)器學(xué)習(xí)最基礎(chǔ)的東西,這個(gè)基礎(chǔ)打好了,轉(zhuǎn)向 NLP 就比較簡單了。

Q:基于知識(shí)的方法和統(tǒng)計(jì)類的方法需要共融互補(bǔ),老師有沒有典型的合作思路,充分利用基于知識(shí)規(guī)則方法的穩(wěn)定可控的同時(shí),又能利用統(tǒng)計(jì)從有監(jiān)督的大數(shù)據(jù)自動(dòng)抽取模式?是否可以講講兩者一起 NLP 的經(jīng)驗(yàn)?

A:現(xiàn)在人工智能主要是三大學(xué)派——知識(shí)圖譜派、統(tǒng)計(jì)學(xué)習(xí)派、深度學(xué)習(xí)派,從工業(yè)界角度來看,在解決具體問題時(shí)各有所長,所以需要把這三者融合在一起,真實(shí)的線上系統(tǒng)不會(huì)只有一個(gè)方法。所以知識(shí)方法是一個(gè)很重要的方法,而且它跟深度學(xué)習(xí)是有比較好的互補(bǔ)性,特別是可以提供深度學(xué)習(xí)方法里面沒有的可解釋性這一塊。

具體怎么融合,最簡單的融合方法就是做模型Ensemble,把幾個(gè)分類器組裝在一起,這個(gè)可以看周志華老師那本「西瓜書」,因?yàn)橹芾蠋熥瞿P偷?Ensemble是最拿手的。

此外,把知識(shí)或規(guī)則都可以作為特征,從這個(gè)角度融合在一起。另外,深度學(xué)習(xí)里的解碼器也可以把知識(shí)融合進(jìn)來,所以這塊的方法是很多的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人機(jī)對(duì)話
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    9709
  • IOT
    IOT
    +關(guān)注

    關(guān)注

    187

    文章

    4304

    瀏覽量

    201780
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    8002

原文標(biāo)題:基于知識(shí)圖譜的人機(jī)對(duì)話系統(tǒng) | 公開課筆記

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中軟國際入選中國信通院AI Agent智能體產(chǎn)業(yè)圖譜1.0

    近日,中國信息通信研究院(以下簡稱“中國信通院”)《AI Agent智能體產(chǎn)業(yè)圖譜1.0》正式發(fā)布。該圖譜是國內(nèi)系統(tǒng)梳理智能體產(chǎn)業(yè)生態(tài)的重要成果,聚焦“基礎(chǔ)底座、智能體平臺(tái)、場景智能
    的頭像 發(fā)表于 07-14 14:55 ?386次閱讀

    光伏場站無人機(jī)巡檢系統(tǒng)的應(yīng)用實(shí)踐

    光伏場站無人機(jī)巡檢系統(tǒng)通過智能化巡檢的技術(shù)架構(gòu),集成無人機(jī)技術(shù)、遙感技術(shù)、人工智能算法等,通過這種綜合性的解決方案,有效實(shí)現(xiàn)光伏電站巡檢的智能化、科學(xué)化以及高效化。如無人機(jī)平臺(tái)搭載高清
    的頭像 發(fā)表于 06-11 09:45 ?143次閱讀
    光伏場站無<b class='flag-5'>人機(jī)</b>巡檢<b class='flag-5'>系統(tǒng)</b>的應(yīng)用<b class='flag-5'>實(shí)踐</b>

    輕輕松松學(xué)電工(識(shí)圖篇)

    內(nèi)容介紹 結(jié)合廣大電工人員的實(shí)際需要,主要介紹了常用電工電路識(shí)圖的基礎(chǔ)知識(shí)、方法及技巧,內(nèi)容包括常用電氣符號(hào)、電工識(shí)圖基本方法,以及識(shí)讀供配
    發(fā)表于 04-30 17:18

    中興通訊發(fā)布創(chuàng)新與知識(shí)產(chǎn)權(quán)白皮書

    在第25個(gè)世界知識(shí)產(chǎn)權(quán)日到來之際,中興通訊以“守護(hù)創(chuàng)新價(jià)值,共創(chuàng)數(shù)智未來”為主題,發(fā)布《中興通訊創(chuàng)新與知識(shí)產(chǎn)權(quán)白皮書》,白皮書系統(tǒng)梳理了中興通訊四十年來的創(chuàng)新歷程與
    的頭像 發(fā)表于 04-28 16:18 ?456次閱讀

    東軟集團(tuán)入選中國央國企數(shù)字化平臺(tái)廠商圖譜

    2025年4月,國際數(shù)據(jù)公司(IDC)發(fā)布《中國央國企數(shù)字化平臺(tái)廠商圖譜及領(lǐng)導(dǎo)者實(shí)踐》(Doc#CHC52296525,2025年3月)報(bào)告,深度剖析央國企數(shù)字化轉(zhuǎn)型趨勢、市場競爭格局,梳理行業(yè)
    的頭像 發(fā)表于 04-18 16:15 ?344次閱讀

    典型電路原理、電路識(shí)圖從入門到精通等資料

    1、電路識(shí)圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,通過“入門篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)
    的頭像 發(fā)表于 04-15 15:53 ?6802次閱讀
    典型電路原理、電路<b class='flag-5'>識(shí)圖</b>從入門到精通等資料

    電路識(shí)圖從入門到精通高清電子資料

    由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,通過“入門篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖
    發(fā)表于 04-10 16:22

    人機(jī)巡檢系統(tǒng)守護(hù)未來的空中衛(wèi)士

    。今天,我們就來聊聊這個(gè)令人興奮的技術(shù)。 ? ? ? ?首先,什么是無人機(jī)巡檢系統(tǒng)?簡單來說,就是利用無人機(jī)攜帶攝像頭和其他傳感器設(shè)備,對(duì)特定區(qū)域或設(shè)施進(jìn)行定期或不定期的檢查。與傳統(tǒng)的人
    的頭像 發(fā)表于 03-18 17:38 ?386次閱讀

    淵亭KGAG升級(jí)引入“高級(jí)策略推理”

    為了突破現(xiàn)有AI技術(shù)在決策推理方面的局限,淵亭科技對(duì)其知識(shí)圖譜分析平臺(tái)KGAG進(jìn)行了最新升級(jí),創(chuàng)新性地引入了“高級(jí)策略推理”模式。這一模式的引入,實(shí)現(xiàn)了“大模型×知識(shí)圖譜×專家策略×動(dòng)態(tài)推理”的深度
    的頭像 發(fā)表于 02-14 15:07 ?530次閱讀

    微軟發(fā)布《GraphRAG實(shí)踐應(yīng)用白皮書》助力開發(fā)者

    近日,微軟針對(duì)開發(fā)者群體,重磅推出了《GraphRAG實(shí)踐應(yīng)用白皮書》。該白皮書全面而深入地涵蓋了知識(shí)圖譜的核心內(nèi)容,為開發(fā)者和企業(yè)提供了寶貴的指導(dǎo)和啟示。 從知識(shí)圖譜的基礎(chǔ)概念出發(fā),白皮書詳細(xì)闡述
    的頭像 發(fā)表于 01-13 16:11 ?969次閱讀

    三星自主研發(fā)知識(shí)圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗(yàn)與數(shù)據(jù)安全

    據(jù)外媒11月7日?qǐng)?bào)道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識(shí)圖譜技術(shù),旨在進(jìn)一步優(yōu)化Galaxy AI的功能,提升其易用性,并加強(qiáng)用戶數(shù)據(jù)的隱私保護(hù)。
    的頭像 發(fā)表于 11-07 15:19 ?1377次閱讀

    MES系統(tǒng)的最佳實(shí)踐案例

    效率、降低成本、保證產(chǎn)品質(zhì)量。 MES系統(tǒng)的最佳實(shí)踐案例 引言 在當(dāng)今競爭激烈的制造業(yè)環(huán)境中,企業(yè)必須不斷尋求創(chuàng)新和改進(jìn)的方法來保持競爭力。MES系統(tǒng)作為一種關(guān)鍵的信息技術(shù)工具,已經(jīng)被
    的頭像 發(fā)表于 10-27 09:33 ?2951次閱讀

    【驅(qū)動(dòng)教程】iTOP-RK3568開發(fā)板進(jìn)行講解第十三期,主要講解輸入子系統(tǒng),共計(jì)24 講

    迅為B站賬號(hào)——“北京迅為電子” 北京迅為電子 1.總領(lǐng):本期視頻介紹 2.什么是輸入子系統(tǒng)? 3.如何確定輸入設(shè)備與節(jié)點(diǎn)的對(duì)應(yīng)關(guān)系? 4.實(shí)踐:確定輸入設(shè)備對(duì)應(yīng)的設(shè)備節(jié)點(diǎn) 5.輸入子系統(tǒng)框架
    發(fā)表于 10-11 11:31

    《嵌入式機(jī)電一體化系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)》讀后感

    的應(yīng)用。曾教授詳細(xì)講解了如何為嵌入式系統(tǒng)構(gòu)建Linux環(huán)境,以及在Linux中進(jìn)行程序設(shè)計(jì)的方法和技巧。通過這些內(nèi)容,我不僅掌握了Linux在嵌入式系統(tǒng)中的應(yīng)用技巧,還深刻體會(huì)到了開源
    發(fā)表于 08-21 08:45

    三星電子將收購英國知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實(shí)力。近日,三星正式宣布完成了對(duì)英國領(lǐng)先的人工智能(AI)與知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購,此舉標(biāo)志著三星在提升設(shè)備端AI能力、深化個(gè)性化用
    的頭像 發(fā)表于 07-18 14:46 ?766次閱讀