99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度剖析知識圖譜落地的基本原則與最佳實踐

WpOh_rgznai100 ? 來源:lq ? 2019-08-02 09:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

此文內(nèi)容取自肖仰華教授在華為、CCF等場合所做報告,完整內(nèi)容見書籍《知識圖譜:概念與技術(shù)》的第15章《知識圖譜實踐》。

摘要:經(jīng)歷了大數(shù)據(jù)時代的洗禮,各行業(yè)積累了前所未有的海量數(shù)據(jù)。但是各行業(yè)的大數(shù)據(jù)猶如鎖在籠中的雄獅,威力難以釋放。知識圖譜為各領(lǐng)域提供了一種便捷的知識表達(dá)、積累與沉淀方式,為行業(yè)大數(shù)據(jù)的理解與洞察提供了豐富的背景知識。大數(shù)據(jù)驅(qū)動的行業(yè)智能化對知識圖譜這類背景知識提出了廣泛訴求。行業(yè)智能化勢必走上數(shù)據(jù)驅(qū)動與知識引領(lǐng)相融合的新型路徑。知識圖譜如何助力各行業(yè)智能化過程涌現(xiàn)出來大量的工程問題?

這些問題需要得到有效解決,需要得到深入理解。過去5-6年的落地實踐也為總結(jié)知識圖譜的最佳實踐奠定了基礎(chǔ)。知識圖譜落地過程中的基本原則與最佳實踐的總結(jié)已經(jīng)成為了各行業(yè)圖譜落地的迫在眉睫的任務(wù)。大量的知識圖譜落地項目走在錯誤的或者曲折的道路上。本報告將結(jié)合復(fù)旦大學(xué)知識工場實驗室十多個典型知識圖譜落地項目,系統(tǒng)論述面向行業(yè)智能化的知識圖譜落地過程中的基本原則與最佳實踐。

1. 概述

知識圖譜技術(shù)最終需要在應(yīng)用與實踐中證明其價值。與知識圖譜實踐相關(guān)的問題包括知識圖譜系統(tǒng)、知識圖譜工程以及知識圖譜應(yīng)用與產(chǎn)業(yè)。知識圖譜系統(tǒng)是一類以知識圖譜建設(shè)與應(yīng)用為核心內(nèi)容的人機協(xié)作系統(tǒng)。知識圖譜系統(tǒng)的建設(shè)是知識圖譜應(yīng)用的主要抓手。知識圖譜工程是以知識圖譜系統(tǒng)的建設(shè)與應(yīng)用為基本內(nèi)容的工程學(xué)科,是眾多工程學(xué)科的重要分支之一。

隨著知識圖譜技術(shù)的應(yīng)用深入,越來越多的行業(yè)和企業(yè)正在積極推進(jìn)知識圖譜系統(tǒng)的建設(shè)。為了有效支撐知識圖譜的工程實踐,一些企業(yè)推出各類知識圖譜相關(guān)的咨詢服務(wù)、解決方案、服務(wù)平臺、系統(tǒng)軟件、數(shù)據(jù)服務(wù)等形態(tài)各異的產(chǎn)品與服務(wù)。供應(yīng)方與需求方,學(xué)術(shù)界與產(chǎn)業(yè)界共同構(gòu)成了知識圖譜的產(chǎn)業(yè)生態(tài)。

1.1 知識圖譜應(yīng)用的推動力

當(dāng)前,知識圖譜的應(yīng)用與實踐有著鮮明的中國特色。首先,隨著我國人口紅利消失與人力成本增長,我國的實體企業(yè)有著迫切的智能化升級與轉(zhuǎn)型需求,對知識圖譜技術(shù)的應(yīng)用提出了強烈需求。傳統(tǒng)實體企業(yè)需要進(jìn)一步解放勞動力,進(jìn)一步降低人力成本。將知識賦予機器,實現(xiàn)簡單知識工作(只需簡單知識即可完成的工作)自動化無疑是解決方案之一。

其次,我國有著豐富的應(yīng)用場景和數(shù)據(jù)基礎(chǔ),使得知識圖譜在各行業(yè)的大規(guī)模應(yīng)用成為可能。我國的互聯(lián)網(wǎng)、電信、電商、社交、出行等各行業(yè)都積累了豐富的大數(shù)據(jù),各種面向消費者、企業(yè)、政府的應(yīng)用模式齊全多樣,這些都為知識圖譜技術(shù)的規(guī)?;瘧?yīng)用提供了富含養(yǎng)分的土壤。最后,中國一批頭部企業(yè)先行先試為知識圖譜在更大范圍的普及與應(yīng)用起到了積極示范。我國的很多互聯(lián)網(wǎng)平臺以及IT企業(yè)已經(jīng)建成了數(shù)個世界級平臺,這些平臺積累豐富的知識圖譜應(yīng)用經(jīng)驗,為知識圖譜在其他行業(yè)的普及與應(yīng)用起到了良好的示范與帶動作用。

知識圖譜技術(shù)在當(dāng)下中國的實踐呈現(xiàn)以下幾個典型特點。這些特點體現(xiàn)了當(dāng)前的宏觀發(fā)展環(huán)境以及技術(shù)生態(tài)對于知識圖譜技術(shù)需求的迫切性。

(1)與行業(yè)智能化升級緊密結(jié)合。很多行業(yè)經(jīng)過數(shù)十年的信息化建設(shè),基本上完成數(shù)據(jù)的采集與管理的使命,為各行業(yè)智能化升級與轉(zhuǎn)型奠定了良好的基礎(chǔ)。對于企業(yè)而言,增加收入、降低成本、提質(zhì)提效、安全保障都是其業(yè)務(wù)核心訴求。知識圖譜技術(shù)的應(yīng)用是進(jìn)一步滿足這些核心訴求的手段之一。

在行業(yè)智能化的實現(xiàn)過程中,迫切需要將行業(yè)知識賦予機器并且讓機器具備一定程度的行業(yè)認(rèn)知能力,從而讓機器代替行業(yè)從業(yè)人員從事簡單知識工作。一方面,知識積累與沉淀一直是行業(yè)追求的目標(biāo)。另一方面,提質(zhì)提效的壓力迫使企業(yè)積極探索認(rèn)知智能在企業(yè)各工種中的應(yīng)用。利用知識圖譜技術(shù),沉淀行業(yè)知識、實現(xiàn)簡單知識工作自動化,是當(dāng)下以及未來一段時間內(nèi)行業(yè)智能化的核心內(nèi)容。

與行業(yè)智能化的深度融合要求知識圖譜研究與落地從通用知識圖譜轉(zhuǎn)向了領(lǐng)域、行業(yè)知識圖譜,轉(zhuǎn)向企業(yè)知識圖譜。領(lǐng)域應(yīng)用的樣本稀疏、場景多樣、知識表示復(fù)雜等問題對于知識圖譜技術(shù)均提出了巨大挑戰(zhàn)。

(2)與機器智腦的建設(shè)深度融合。隨著我國人工智能戰(zhàn)略的持續(xù)推進(jìn),作為人工智能的重要分支的機器人產(chǎn)業(yè)迎來了發(fā)展的黃金期。其中,各種服務(wù)機器人,包括客服機器人、陪伴機器人、問診機器人、導(dǎo)購機器人、理財機器人等已經(jīng)日益融入到人們的日常生活中。與工業(yè)機器人相比,服務(wù)機器人對機器的認(rèn)知水平要求更高,而對動作能力要求相對較低。

因此,決定服務(wù)機器人服務(wù)效果的是大腦而非四肢。建設(shè)具有一定認(rèn)知能力的機器智腦是服務(wù)機器人產(chǎn)業(yè)發(fā)展的至關(guān)重要環(huán)節(jié),而機器智腦的重要組成部分是知識庫。機器是否具有知識并且能夠利用知識形成認(rèn)知能力進(jìn)而解決問題,是服務(wù)機器人更好地造福人類社會的關(guān)鍵。以知識圖譜為代表的大數(shù)據(jù)知識工程為煉就機器智腦帶來了全新機遇。未來機器智腦的演進(jìn)過程也將是知識圖譜等知識庫技術(shù)不斷賦能機器人以及各類硬件終端的過程。

與機器智腦建設(shè)的深度融合要求針對智能終端與智能機器開展相應(yīng)的知識工程研究,要求從多模態(tài)(語音、圖像、視頻傳感器等)、類人化(情感、美感、倫理、道德、價值觀等)等角度進(jìn)一步拓展知識圖譜的表示,深化知識圖譜的應(yīng)用。

(3)與數(shù)據(jù)治理以及大數(shù)據(jù)價值變現(xiàn)緊密結(jié)合。很多行業(yè)和企業(yè)都有大數(shù)據(jù),但是這些大數(shù)據(jù)非但沒有創(chuàng)造價值,反而成為了很多行業(yè)的負(fù)擔(dān)。阻礙大數(shù)據(jù)價值變現(xiàn)的根本原因在于缺少智能化的手段,具體而言是缺少一個能像人一樣能夠理解行業(yè)數(shù)據(jù)的知識引擎。行業(yè)從業(yè)人員具有相應(yīng)的行業(yè)知識,才能理解行業(yè)數(shù)據(jù)進(jìn)而開展行業(yè)工作。

類似地,把同樣的行業(yè)知識賦予機器,構(gòu)建一個行業(yè)知識引擎,機器才可能提煉、萃取、關(guān)聯(lián)、整合數(shù)據(jù)(對應(yīng)于傳統(tǒng)的數(shù)據(jù)治理),才可能代替人去理解、挖掘、分析、使用數(shù)據(jù)(對應(yīng)于大數(shù)據(jù)的價值變現(xiàn)),可以代替行業(yè)從業(yè)人員挖掘數(shù)據(jù)中的價值,從而有力支撐大數(shù)據(jù)的價值變現(xiàn)。知識圖譜已經(jīng)成為知識引擎的核心,成為大數(shù)據(jù)價值釋放的關(guān)鍵技術(shù)之一。

與數(shù)據(jù)治理以及大數(shù)據(jù)價值變現(xiàn)的深度融合要求進(jìn)一步發(fā)展從大數(shù)據(jù)的統(tǒng)計關(guān)聯(lián)篩選語義關(guān)聯(lián)的有效手段,需要進(jìn)一步深化元知識的表示與應(yīng)用技術(shù)(以有效指導(dǎo)數(shù)據(jù)融合與關(guān)聯(lián))。

1.2 知識圖譜應(yīng)用與產(chǎn)業(yè)現(xiàn)狀

當(dāng)前,知識圖譜應(yīng)用仍然是以典型項目、典型場景的試點為主,由點及面的普及正蓄勢待發(fā)。當(dāng)前知識圖譜的產(chǎn)業(yè)已經(jīng)初具形態(tài)。知識圖譜的產(chǎn)業(yè)形態(tài)分為三類典型形態(tài):數(shù)據(jù)與服務(wù)、產(chǎn)品與系統(tǒng)、咨詢與解決方案。

(1)數(shù)據(jù)與服務(wù)。知識圖譜應(yīng)用的直接方式建設(shè)通用或領(lǐng)域知識圖譜并將知識圖譜中的數(shù)據(jù)對外提供服務(wù)。單純的圖譜數(shù)據(jù)服務(wù)能力較為有限,往往需要針對應(yīng)用場景提供深度服務(wù),特別是基于知識圖譜的認(rèn)知服務(wù)。一些通用平臺包括IBM Watson、微軟認(rèn)知服務(wù)、百度大腦等都在嘗試提供基于知識圖譜數(shù)據(jù)與認(rèn)知服務(wù)。

除了通用知識圖譜之外,特定領(lǐng)域或者行業(yè)知識圖譜也對數(shù)據(jù)與認(rèn)知服務(wù)有著強烈需求。在圖書情報、出版?zhèn)髅健?a target="_blank">招聘就業(yè)、知識產(chǎn)權(quán)等相關(guān)領(lǐng)域,缺乏頭部企業(yè),第三方平臺發(fā)展空間較大。并且這些領(lǐng)域數(shù)據(jù)相對公開、容易獲取,使得構(gòu)建獨立的第三方服務(wù)平臺成為可能。

(2)產(chǎn)品與系統(tǒng)。知識圖譜的大規(guī)模應(yīng)用與產(chǎn)業(yè)化是需要各類成熟的產(chǎn)品與軟件系統(tǒng)支撐的。比如很多行業(yè)圖譜的建設(shè)需要互聯(lián)網(wǎng)數(shù)據(jù)源的補充,這就需要大規(guī)模的分布式爬蟲系統(tǒng)。建好的大規(guī)模知識圖譜通常需要借助圖數(shù)據(jù)管理系統(tǒng)的管理。大量的企業(yè)或者團(tuán)隊在從事相關(guān)系統(tǒng)的研發(fā)。目前涉及知識獲取的產(chǎn)品與系統(tǒng)仍然有很大的發(fā)展空間。知識獲取技術(shù)總體上仍在持續(xù)發(fā)展,技術(shù)尚未定型,為其固化相應(yīng)的產(chǎn)品形態(tài)具有一定的難度。

(3)咨詢與解決方案。知識圖譜建設(shè)是個典型的系統(tǒng)工程,與建筑工程十分相似,都需要論證、設(shè)計、實施、監(jiān)理、驗收等各個環(huán)節(jié)。知識圖譜落地過程中最為重要的環(huán)節(jié)不是實現(xiàn),而是論證與設(shè)計,這就給專注于知識圖譜咨詢和解決方案設(shè)計與實施的企業(yè)提供了豐富的機會。

這一現(xiàn)狀的原因有以下幾點:第一、對于很多行業(yè)的頭部企業(yè)而言,企業(yè)知識資源建設(shè)是自身升級與轉(zhuǎn)型的命脈。命脈是不可能假手于他人,企業(yè)會牢牢掌握系統(tǒng)建設(shè)的主動權(quán)與控制權(quán)。而咨詢恰是一種企業(yè)具有完全控制的權(quán)利又能引入外部智力資源增強建設(shè)能力的方式。第二、知識圖譜技術(shù)發(fā)展到成熟階段尚需時日,因此,標(biāo)品化的服務(wù)與產(chǎn)品仍然稀缺,在這樣的階段,咨詢與定制化的解決化方案自然更容易落地,更容易滿足用戶需求。

知識圖譜產(chǎn)業(yè)的三種形態(tài)已經(jīng)出現(xiàn)并迅速發(fā)展。知識圖譜技術(shù)在2018年8月首次進(jìn)入了國際知名咨詢公司Gartner的技術(shù)成熟度曲線。如圖1所示,知識圖譜技術(shù)正處在技術(shù)成熟度曲線的上升階段。Gartner預(yù)期知識圖譜將成在未來5-10年內(nèi)逐步成熟。這種關(guān)注很大程度上是由知識圖譜的應(yīng)用與產(chǎn)業(yè)的發(fā)展而推動的。伴隨著行業(yè)智能化轉(zhuǎn)型、簡單知識工作自動化、機器智腦的發(fā)展、感知智能產(chǎn)業(yè)的升級等一系列進(jìn)程的推進(jìn),知識圖譜技術(shù)的應(yīng)用與產(chǎn)業(yè)化將迎來一波熱潮。

圖1 知識圖譜技術(shù)成熟曲線

1.3 知識圖譜實踐的系統(tǒng)工程觀念

知識圖譜實踐是一種典型的大規(guī)模知識工程,是典型的系統(tǒng)工程,在實踐過程中應(yīng)該堅持系統(tǒng)觀與工程觀。

(1)工程觀。所謂知識圖譜的工程觀,是指利用數(shù)學(xué)和科學(xué)原理提出解決實際問題的有效方案的觀念?;A(chǔ)的自然學(xué)科的認(rèn)識世界為基本使命,而工程學(xué)科旨在改造世界。然而工程師們改造世界的過程本身就是通過實踐來認(rèn)識世界的過程。因而工程與科學(xué)又是密切相關(guān)的。

特別是隨著人工智能的發(fā)展,我們有機會通過構(gòu)建具有人類水平的智能機器這樣一種具體實踐去回答“我們從哪里來,又將去往何方”等一系列終極問題。具體到知識圖譜,作為一類大規(guī)模知識工程,其當(dāng)下的重要使命在于解決各行業(yè)智能化升級轉(zhuǎn)型過程中涌現(xiàn)的一系列實際問題。能否解決這些問題,如何解決這些問題,是擺在知識工程研究者和實踐者面前迫切需要回答的問題。

工程觀勢必要求實踐者具備優(yōu)化問題的求解思路。工程中的大部分問題是受資源約束的最優(yōu)化問題。任何知識圖譜實踐所能投入的資源(人力、資金、數(shù)據(jù))總是有限的,然而實際問題的解決卻又是迫切的。因而,工程實踐往往需要利用這些有限資源提出最優(yōu)方案。明確優(yōu)化問題中的約束、建立合理的優(yōu)化目標(biāo)、提出廉價的方案是解決優(yōu)化問題的關(guān)鍵。

例如在知識圖譜建設(shè)中,目標(biāo)圖譜的規(guī)模、粒度、精度都是優(yōu)化目標(biāo)需要考慮的因素,有多少人力(特別是專家)、有多少數(shù)據(jù)往往都是約束。過于宏大、不切實際的目標(biāo)容易造成巨大困難。有文獻(xiàn)[1]指出,手動構(gòu)建知識圖譜,每個三元組的成本大約在 2 到 6 美元左右,自動構(gòu)建成本降低 15 到 250 倍,即便如此每個三元組仍需消耗 1 美分到 15 美分的成本。因此,在知識圖譜相關(guān)的工程實踐中需要注重優(yōu)化問題,注意實際約束。

知識圖譜的工程觀要強調(diào)實踐的重要性。知識工程提出之初就注重從實踐中總結(jié)知識工程的關(guān)鍵問題,并發(fā)展必要的理論以進(jìn)一步指導(dǎo)工程實踐。工程實踐與理論研究是相輔相成的,不是對立的。質(zhì)能轉(zhuǎn)換、航空動力學(xué)等等從理論到成熟的實踐經(jīng)歷了數(shù)十年的時間。

在人工智能的理論研究與工程實踐中,實踐絕不是從屬地位?!爸泻弦弧笔侵袊俗非蟮睦硐刖辰?,“知”往往走在“行”之前。但是人工智能的研究與實踐不同,“行”更多地走在“知”之前。當(dāng)下技術(shù)的進(jìn)步有加速發(fā)展的趨勢,但理論研究的速度仍然保持原有速度,已經(jīng)難以跟上技術(shù)發(fā)展的需求。技術(shù)的快速發(fā)展反過來要求,理論總結(jié)必須提速以適應(yīng)技術(shù)發(fā)展的快速需要。

(2)系統(tǒng)觀。系統(tǒng)觀認(rèn)為現(xiàn)實世界的大部分復(fù)雜系統(tǒng)都是由相互作用、相互依賴的若干組成部分結(jié)合而成的具有特定功能的有機整體。知識圖譜系統(tǒng)組件眾多、涉及要素多樣、人機協(xié)作復(fù)雜,是一類典型的復(fù)雜系統(tǒng)。明確知識圖譜系統(tǒng)的組成及其之間的相互關(guān)系是十分重要的。

相比較而言,知識圖譜的部分組件的實現(xiàn),比如實體識別或者關(guān)系抽取,其效果取決于一兩個關(guān)鍵模型。但是,知識圖譜作為系統(tǒng)的整體不是若干組件的簡單組合,而是復(fù)雜策略指引下的有機組合。比如,在當(dāng)前NLP仍然不能有效完成抽取任務(wù)時,能否充分利用各類資源、能否有效利用已經(jīng)積累的業(yè)務(wù)知識、能否有效利用人力因素進(jìn)行驗證或者標(biāo)注,均對這一問題有著顯著影響。

作為一個復(fù)雜系統(tǒng),知識圖譜系統(tǒng)具有涌現(xiàn)性、交互性以及演化性等鮮明特征。系統(tǒng)的涌現(xiàn)性是指系統(tǒng)在整體上體現(xiàn)出其各組成簡單組合所不具備的特性,也就是1+1>2的特性。這一點對于如何在當(dāng)前NLP技術(shù)不成熟的前提下實現(xiàn)知識工程成功落地具有積極意義。很多知識工程在某些場景下要求極高,比如智能醫(yī)療系統(tǒng),有著近乎100%準(zhǔn)確率的要求。

雖然每個獨立的NLP模型都難以達(dá)到完美的要求,但是各種模型經(jīng)由各種策略組合在一起(比如人機協(xié)同策略)則有可能達(dá)到這一苛刻要求。知識圖譜系統(tǒng)與外部數(shù)據(jù)與應(yīng)用之間存在著復(fù)雜的交互,是個動態(tài)開放的系統(tǒng)。隨著環(huán)境的變化,應(yīng)用需求與數(shù)據(jù)都會發(fā)生變化,從而要求知識圖譜系統(tǒng)作出相應(yīng)調(diào)整。知識圖譜系統(tǒng)的動態(tài)與演化仍然是個開放問題。

知識圖譜作為大規(guī)模知識工程,與傳統(tǒng)知識工程也存在著本質(zhì)差別。當(dāng)下的大數(shù)據(jù)知識工程是以知識的規(guī)?;硎九c應(yīng)用為其核心標(biāo)志的。這決定了大數(shù)據(jù)知識工程是以大規(guī)模自動化知識獲取為其根本立足點的。自動化知識獲取勢必要求降低對于專家的依賴。受限于當(dāng)前人工智能總體發(fā)展水平,高度自動化、少量人干預(yù)勢必要以降低知識的描述精度為代價的。而知識描述能力的降低,又進(jìn)一步削弱了相應(yīng)的推理能力。大規(guī)模的互聯(lián)網(wǎng)應(yīng)用催生了知識圖譜這樣的知識表示。

知識圖譜通過二元語義關(guān)聯(lián)作為其知識表示的核心,具有簡單普適以及適合從數(shù)據(jù)中高度自動化獲取等優(yōu)點,但也有表達(dá)能力較弱的缺點。目前,得以成功應(yīng)用的知識圖譜推理往往都是基于上下位關(guān)系的簡單推理。但是對于傳統(tǒng)知識工程,推理引擎、解釋構(gòu)件等等都是專家系統(tǒng)的重要組成部分[2]。如何兼具規(guī)模與效用(知識表示與知識推理的能力)仍然是知識圖譜有待進(jìn)一步深入的研究問題。

1.4 知識圖譜助力行業(yè)智能化的演進(jìn)路徑

如前文所述,知識圖譜日益承擔(dān)起助力行業(yè)智能化的使命。探索基于知識圖譜的行業(yè)智能化演進(jìn)路徑因而十分關(guān)鍵。經(jīng)過多年實踐,這一路徑日漸清晰,呈現(xiàn)出知識資源建設(shè)與知識應(yīng)用迭代式發(fā)展模式,如圖2所示。

在每一輪迭代周期,優(yōu)先選擇預(yù)期效果較好的應(yīng)用場景,建設(shè)以知識圖譜為核心的知識資源,并開展相應(yīng)的知識應(yīng)用。再根據(jù)來自內(nèi)外部用戶的反饋,完善相應(yīng)的應(yīng)用與知識資源建設(shè)。當(dāng)特定應(yīng)用初現(xiàn)成效之后,再從有限的應(yīng)用逐步拓展到更多的應(yīng)用場景,建設(shè)更多的知識資源。整個過程持續(xù)迭代下去,直至完成行業(yè)或者企業(yè)全面的智能化。

采取由點及面的迭代式螺旋發(fā)展模式的根本原因有幾點。首先、完整的知識資源建設(shè)是一個十分艱巨的任務(wù)。知識資源建設(shè)任重道遠(yuǎn),很難一蹴而就。任何一個普通人所掌握的知識都可以說是無邊無界的。當(dāng)前所構(gòu)建的知識庫離機器達(dá)到普通人認(rèn)知世界所需要的知識水平還十分遙遠(yuǎn)。

知識資源建設(shè)必定是一個持續(xù)完善的過程,很難畢其功于一役。所以,應(yīng)當(dāng)謹(jǐn)慎選擇應(yīng)用痛點,構(gòu)建滿足應(yīng)用場景需要的相應(yīng)知識資源。知識資源建設(shè)的基本原則是適度?!斑m”是指對于特定應(yīng)用場景的適配,“度”是指合理把控知識的邊界與體量。其次,行業(yè)與企業(yè)的發(fā)展環(huán)境變化迅速,一成不變的知識庫是難以適應(yīng)快速變化的外部環(huán)境的。

圖2知識圖譜助力行業(yè)智能化的演進(jìn)路徑

2.知識圖譜系統(tǒng)

知識圖譜技術(shù)的落地與實踐以知識圖譜系統(tǒng)的建設(shè)、實施與運營為主要內(nèi)容。知識圖譜系統(tǒng)是一類以知識圖譜建設(shè)與應(yīng)用為核心內(nèi)容的人機協(xié)作系統(tǒng)。本節(jié)對知識圖譜系統(tǒng)的外部環(huán)境、系統(tǒng)要素以及基本架構(gòu)展開介紹。

2.1 知識圖譜系統(tǒng)的外部環(huán)境

作為一類大規(guī)模復(fù)雜系統(tǒng),知識圖譜系統(tǒng)是作為企業(yè)更為龐大的信息系統(tǒng)或智能系統(tǒng)的一部分。與傳統(tǒng)的信息系統(tǒng)相比較,知識圖譜構(gòu)建與應(yīng)用是知識圖譜系統(tǒng)的基本標(biāo)志。在當(dāng)前企業(yè)信息化與智能化建設(shè)過程中,知識圖譜系統(tǒng)對于其他信息系統(tǒng),起到了助推與賦能的作用,而不是代替。各類管理信息系統(tǒng)(比如企業(yè)的財務(wù)、人事管理信息系統(tǒng))以及智能信息系統(tǒng)(比如智能門禁系統(tǒng)、商務(wù)智能系統(tǒng))有其自身存在的不可代替的價值。

沒有這些系統(tǒng)積累的數(shù)據(jù)與業(yè)務(wù)知識,知識圖譜系統(tǒng)是建設(shè)難以成功。知識圖譜系統(tǒng)給其他信息系統(tǒng)帶來認(rèn)知能力,這種能力體現(xiàn)為一系列具體的認(rèn)知服務(wù)。知識圖譜系統(tǒng)賦能其他信息系統(tǒng)這種關(guān)系決定了知識圖譜建設(shè)不是“大破大立”式的另起爐灶與重新建設(shè),而是“和風(fēng)細(xì)雨”式的柔性改造與能力升級。知識圖譜與企業(yè)其他信息系統(tǒng)之間的關(guān)系如圖3所示。

圖3知識圖譜系統(tǒng)與其他業(yè)務(wù)系統(tǒng)之間的關(guān)系

隨著知識圖譜在領(lǐng)域與企業(yè)應(yīng)用的普及,知識圖譜日益占據(jù)向上支撐應(yīng)用、向下統(tǒng)攝數(shù)據(jù)的核心地位。如圖4所示,在一個典型的企業(yè)知識圖譜系統(tǒng)中,知識圖譜與數(shù)據(jù)之間的關(guān)系是雙向的。一方面各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)是知識圖譜構(gòu)建的知識來源。另一方面,知識圖譜中的關(guān)聯(lián)關(guān)系也為各業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)與融合提供了支撐,使得自主普適的數(shù)據(jù)關(guān)聯(lián)成為可能,例如ID與身份證之間的同義關(guān)系可以指導(dǎo)相應(yīng)字段的映射。

知識圖譜系統(tǒng)與應(yīng)用之間的關(guān)系也是雙向的。一方面知識圖譜系統(tǒng)的各類認(rèn)知服務(wù)支撐企業(yè)的各種典型應(yīng)用的智能化升級。另一方面,各類應(yīng)用為知識圖譜系統(tǒng)提供反饋。這里的反饋包含兩個主要內(nèi)容,一是對認(rèn)知服務(wù)能力的效果的反饋,二是對于知識圖譜中的知識質(zhì)量的反饋。在很多大型企業(yè)中,由于業(yè)務(wù)多元、服務(wù)多樣,對于技術(shù)與服務(wù)的平臺化提出了訴求。越來越多的技術(shù)中臺與業(yè)務(wù)中臺的建設(shè)被提上了議事日程。隨著智能化技術(shù)的推進(jìn),中臺的智能化已經(jīng)成為鮮明趨勢。知識圖譜向上支撐應(yīng)用、向下統(tǒng)攝數(shù)據(jù)的這一核心地位,決定了知識圖譜系統(tǒng)將成為未來智能化中臺的核心引擎。

圖4 知識圖譜系統(tǒng)向上支撐應(yīng)用、向下統(tǒng)攝數(shù)據(jù)的核心地位

2.2 知識圖譜系統(tǒng)關(guān)鍵要素

知識圖譜系統(tǒng)的核心要素包括人、算法與數(shù)據(jù)。三者相互影響、密不可分,共同構(gòu)成了知識圖譜系統(tǒng)的堅實基礎(chǔ)。算法需要人定義特征、選擇模型;算法需要標(biāo)注數(shù)據(jù);數(shù)據(jù)來自人的活動,來自人的標(biāo)注;算法的結(jié)果支撐人的行為與決策。

圖5 知識圖譜系統(tǒng)的三個要素

這里的人是指知識圖譜系統(tǒng)的各類人類角色。人是知識圖譜系統(tǒng)的發(fā)起者、設(shè)計者、實施者與評價者,是知識圖譜系統(tǒng)的核心。知識圖譜中的人員涉及眾多角色,按照知識圖譜系統(tǒng)生命周期的三個主要階段可以分為幾類角色。

(1)在分析與論證階段,需要領(lǐng)域?qū)<遗c知識圖譜系統(tǒng)工程師共同開展需求分析,論述知識圖譜系統(tǒng)建設(shè)的必要性與可行性。必要性從應(yīng)用需求的迫切性與業(yè)務(wù)價值等角度進(jìn)行評判??尚行詮臄?shù)據(jù)資源稟賦、應(yīng)用要求以及知識表示的復(fù)雜程度等角度來評估,并進(jìn)一步合理規(guī)劃知識圖譜系統(tǒng)建設(shè)所需要的數(shù)據(jù)資源、人員投入以及成本投入等等。(2)在設(shè)計與實施階段,需要各類工程師完成數(shù)據(jù)治理、知識加工、算法設(shè)計以及樣本標(biāo)注等各環(huán)節(jié)的任務(wù)。(3)在運營與評價階段,需要運維工程師對于知識圖譜系統(tǒng)進(jìn)行長期運維,需要用戶對系統(tǒng)實施效果加以評價。

圖6 知識圖譜系統(tǒng)的人員角色

這里的數(shù)據(jù)是特指作為知識圖譜知識來源的數(shù)據(jù)。數(shù)據(jù)是符號化的記錄,數(shù)據(jù)經(jīng)過知識加工而成為知識,知識是數(shù)據(jù)的結(jié)晶。知識圖譜作為的大數(shù)據(jù)知識工程代表,能否實現(xiàn)自動化知識獲取是關(guān)鍵。而自動化知識獲取的前提是數(shù)據(jù)。

知識圖譜系統(tǒng)所使用的數(shù)據(jù)類型眾多,可以是事實數(shù)據(jù)、也可以是元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù));可以按照模態(tài)分為關(guān)系數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù);也按照業(yè)務(wù)類型數(shù)據(jù)分為人事、財務(wù)、物料等各類數(shù)據(jù);還可以按照來源分為內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)。外部數(shù)據(jù)可以分為百科數(shù)據(jù)、Web數(shù)據(jù)、社交媒體、新聞媒體數(shù)據(jù)、企業(yè)內(nèi)部業(yè)務(wù)數(shù)據(jù)等等;從業(yè)務(wù)知識的來源角度可以分為領(lǐng)域本體、敘詞表、領(lǐng)域百科、企業(yè)社區(qū)等數(shù)據(jù)。

大數(shù)據(jù)的一個基本特點在于其多樣性(Variety)。知識圖譜的來源同樣是多樣的,這對大規(guī)模知識加工提出可巨大挑戰(zhàn)。大規(guī)模知識工程需要應(yīng)對來源不同、模式異構(gòu)的數(shù)據(jù)自動加工整理成為知識的巨大復(fù)雜性。面向不同類型、不同來源的數(shù)據(jù),知識獲取、知識驗證等算法都需要定制。因此,大規(guī)模自動化知識獲取在數(shù)據(jù)處理層面就面臨著的巨大挑戰(zhàn)。

這里的算法是對于知識圖譜系統(tǒng)整個生命周期中涉及的自動化計算過程、模型、策略的總稱。知識圖譜構(gòu)建、管理與應(yīng)用等各個環(huán)節(jié)均涉及大量算法。知識構(gòu)建環(huán)節(jié)包括知識的獲取模型、知識的融合策略、知識的驗證機制以及知識的評估方法。知識管理環(huán)節(jié),涉及知識圖譜的存儲模型、組織方法、索引方式、查詢模型、檢索方法等等。知識應(yīng)用環(huán)節(jié),涉及基于知識圖譜的語言理解模型、語義搜索模型、智能推薦模型、自然語言問答模型、面向知識圖譜的推理機制與解釋方法等等。

2.3 知識圖譜系統(tǒng)的典型架構(gòu)

知識圖譜系統(tǒng)接受外部數(shù)據(jù)作為輸入,歷經(jīng)數(shù)據(jù)處理、知識加工、知識管理和認(rèn)知服務(wù),最終為各種場景下的應(yīng)用提供認(rèn)知服務(wù)能力。其基本過程如圖7所示。數(shù)據(jù)處理層接受原始數(shù)據(jù)作為輸入,經(jīng)過數(shù)據(jù)處理形成高質(zhì)量的數(shù)據(jù)。高質(zhì)量的數(shù)據(jù)進(jìn)入知識加工層,經(jīng)過各種知識加工工序生成高質(zhì)量的知識圖譜。大規(guī)模高質(zhì)量的知識圖譜是知識管理層的主要管理對象。知識管理層提供知識圖譜的存儲、索引與檢索能力。這些基本的知識訪問能力進(jìn)一步支撐基于知識圖譜的認(rèn)知服務(wù)實現(xiàn)。

圖7 知識圖譜系統(tǒng)的主要流程

(1)數(shù)據(jù)處理層

如圖8所示,數(shù)據(jù)處理層主要包括數(shù)據(jù)甄別、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)融合等步驟。數(shù)據(jù)甄別旨在明確建立領(lǐng)域知識圖譜的數(shù)據(jù)來源??赡軄碜曰ヂ?lián)網(wǎng)上的領(lǐng)域百科爬取,可能來自通用百科圖譜的導(dǎo)出,可能來自內(nèi)部業(yè)務(wù)數(shù)據(jù)的轉(zhuǎn)換,也可能來自外部業(yè)務(wù)系統(tǒng)的導(dǎo)入。應(yīng)該盡量選擇結(jié)構(gòu)化程度相對較高、質(zhì)量較好的數(shù)據(jù)源,以盡可能降低知識獲取代價。

不同來源有著不同的質(zhì)量,需要不同的數(shù)據(jù)加工方式。數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)融合等步驟與傳統(tǒng)構(gòu)建數(shù)據(jù)倉庫所需要的數(shù)據(jù)處理相類似。數(shù)據(jù)清洗是對數(shù)據(jù)中的噪音,特別是來自互聯(lián)網(wǎng)的錯誤、虛假等信息進(jìn)行清洗,對表示不規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一與規(guī)范化。數(shù)據(jù)轉(zhuǎn)換將不同形式、不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的表達(dá)形式。數(shù)據(jù)融合是針對不同來源的數(shù)據(jù)在數(shù)據(jù)層面進(jìn)行融合。這里的數(shù)據(jù)融合與后續(xù)的知識融合有相似之處,也有不同之處。后續(xù)的知識融合是在識別了實體、屬性等知識要素之后完成的。而此處的數(shù)據(jù)融合是字段、元組等層次的融合,數(shù)據(jù)或信息還未匯聚到實體上。

圖8 數(shù)據(jù)處理層的主要流程

(2)知識加工層

知識加工層是整個知識圖譜系統(tǒng)的核心。它接受數(shù)據(jù)處理層形成的高質(zhì)量數(shù)據(jù)作為輸入,輸出高質(zhì)量的知識圖譜。如圖9所示,知識加工的核心有三步:知識表示+知識獲取+知識驗證。知識表示旨在明確應(yīng)用所需的知識表示形式。知識獲取在相應(yīng)的知識表示框架下獲取相應(yīng)的知識實例。知識驗證對獲取的知識質(zhì)量展開驗證。當(dāng)存在多個數(shù)據(jù)來源時,往往還需要知識融合針對不同來源的數(shù)據(jù)所獲取的知識進(jìn)行融合。質(zhì)量提升可以作為單獨的環(huán)節(jié),也可以融于知識獲取的具體實現(xiàn)中。因此,知識融合與質(zhì)量提升都是可選的模塊。

圖9給出了知識加工在領(lǐng)域與企業(yè)應(yīng)用中的具體步驟。在領(lǐng)域知識圖譜應(yīng)用中,知識表示體現(xiàn)為模式設(shè)計,知識獲取通常包含詞匯挖掘、實體發(fā)現(xiàn)、關(guān)系發(fā)現(xiàn)等三個主要內(nèi)容。整個流程中的關(guān)鍵模塊分別介紹如下:

1、模式設(shè)計。這一步與傳統(tǒng)的本體設(shè)計極為相似。基本目標(biāo)是把認(rèn)知領(lǐng)域的基本框架賦予機器。內(nèi)容包括指定領(lǐng)域的基本概念,以及概念之間subclassof關(guān)系(比如足球領(lǐng)域需要建立“足球運動員”是“運動員”的子類);明確領(lǐng)域的基本屬性;明確屬性的適用概念;明確屬性值的類別或者范圍。比如“效力球隊”這個屬性一般是定義在足球運動員這個概念上,其合理取值是一個球隊。

此外,領(lǐng)域還需定義約束或規(guī)則,比如部分屬性具有單值約束(比如每個實體“出生日期”的取值單一),還有些屬性對是互逆的(比如球隊的“隸屬球員”屬性與球員的“效力球隊”互逆)。這些元數(shù)據(jù)對于消除知識庫不一致、提升知識庫質(zhì)量具有重要意義。

2、詞匯挖掘。人們從事某個行業(yè)的知識的學(xué)習(xí),都是從該行業(yè)的基本詞匯開始的。在傳統(tǒng)圖書情報學(xué)領(lǐng)域,領(lǐng)域知識的積累往往是從敘詞表的構(gòu)建開始的。敘詞表里涵蓋的大都是領(lǐng)域的主題詞,及這些詞匯之間的基本語義關(guān)聯(lián)。這一步需要識別領(lǐng)域的高質(zhì)量詞匯、同義詞、縮寫詞,以及領(lǐng)域的常見情感詞。比如在政治領(lǐng)域,需要知道特朗普又被稱為“川普”,其英文簡稱為Trump。

3、實體發(fā)現(xiàn)。需要指出的是領(lǐng)域詞匯只是識別出領(lǐng)域中的重要短語和詞匯,但是這些短語未必是一個領(lǐng)域?qū)嶓w。從領(lǐng)域文本識別某個領(lǐng)域常見實體是理解領(lǐng)域文本和數(shù)據(jù)的關(guān)鍵一步。在實體識別后,還需對實體進(jìn)行歸類。能否把實體歸到相應(yīng)的類別(或者說將某個實體與領(lǐng)域類別或概念進(jìn)行關(guān)聯(lián)),是實體歸類的基本目標(biāo),是理解實體的關(guān)鍵步驟。比如將特朗普歸類到政治人物、美國總統(tǒng)等類別,對于理解特朗普的含義具有重要意義。

4、關(guān)系發(fā)現(xiàn)。關(guān)系發(fā)現(xiàn)或者知識庫中的關(guān)系實例填充,是整個領(lǐng)域知識圖譜構(gòu)建的重要步驟。關(guān)系發(fā)現(xiàn)根據(jù)不同的問題模型又可以分為關(guān)系分類、關(guān)系抽取和開放關(guān)系抽取等不同變種。關(guān)系分類旨在將給定的實體對分類到某個已知關(guān)系;關(guān)系抽取旨在從文本中抽取某個實體對的具體關(guān)系;開放關(guān)系抽取(OpenIE)從文本中抽取出實體對之間的關(guān)系描述。也可以綜合使用這幾種模型與方法,比如根據(jù)開放關(guān)系抽取得到的關(guān)系描述將實體對分類到知識庫中的已知關(guān)系。

5、知識融合。因為知識抽取來源多樣,不同的來源得到的知識不盡相同,這就對知識融合提出了需求。知識融合需要完成實體對齊、屬性融合、值規(guī)范化等步驟。實體對齊是識別不同來源的同一實體。屬性融合是識別同一屬性的不同描述。不同來源的數(shù)據(jù)值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數(shù)十種表達(dá)方式,這些需要規(guī)范化到統(tǒng)一格式。

6、質(zhì)量提升。知識圖譜的質(zhì)量是構(gòu)建的核心問題。作為大規(guī)模知識表示,數(shù)據(jù)驅(qū)動的構(gòu)建方式是當(dāng)前知識圖譜的基本特點。語料的偏置(bias)以及自動化方法的錯誤勢必導(dǎo)致知識圖譜的質(zhì)量問題:缺漏、錯誤、陳舊。因此需要對知識圖譜進(jìn)行補全、糾錯和更新。質(zhì)量提升對于大規(guī)模知識圖譜的建設(shè)是不可或缺的。

7、知識驗證。知識驗證是對知識圖譜的質(zhì)量最后把關(guān)。仍然需要由人來完成最終的驗證。對于數(shù)以億計的大規(guī)模圖譜,全量驗證代價極大,通常通過抽樣完成驗證。也可以通過眾包方式將驗證任務(wù)分發(fā)給眾包工人由眾包工人完成驗證。在人工驗證環(huán)節(jié),待驗證知識的組織(比如分組、排序等方式)對驗證效率有著極大的影響,往往需要予以充分考慮。總體而言,知識驗證還有待從心理學(xué)、人機交互等多學(xué)科角度深入研究這一問題。

經(jīng)歷了上述步驟之后得到一個初步的領(lǐng)域知識圖譜。在實際應(yīng)用中會得到不少反饋,這些反饋作為輸入進(jìn)一步指導(dǎo)上述流程的完善,從而形成閉環(huán)。此外,除了上述自動化構(gòu)建的閉環(huán)流程,還應(yīng)充分考慮人工的干預(yù)。人工補充很多時候是行之有效的方法。比如一旦發(fā)現(xiàn)部分知識缺漏或陳舊,可以通過特定的知識編輯工具實現(xiàn)知識的添加、刪除和修改。也可以利用眾包手段將很多知識獲取任務(wù)分發(fā)下去。

圖9 知識加工層的的主要流程與關(guān)鍵模塊

(3)認(rèn)知服務(wù)層

認(rèn)知服務(wù)層是基于知識圖譜提供認(rèn)知能力,包括語言理解和認(rèn)知服務(wù)兩類基本能力以及推理引擎這一核心模塊,其典型架構(gòu)如圖15.10所示。在語言理解層次,提供從自然語言到知識圖譜中的知識要素的映射,包括實體理解(實體鏈接)、概念理解(概念識別)、屬性理解、主題理解(主題識別)等。在有些應(yīng)用中需要將自然語言映射到事件描述框架,因此還需要開展框架映射。

基于語言理解的基本能力,形成認(rèn)知服務(wù),包括語義搜索、智能推薦、問答交互以及解釋生成。這些認(rèn)知服務(wù)都是基于知識圖譜所形成的。比如知識圖譜中的實體與概念可以幫助識別搜索中的實體或概念,從而有助于搜索的意圖識別。

在概念圖譜支撐下,可以實現(xiàn)基于上下位關(guān)系的推薦,比如搜索iPhone X,通過其上位詞高端手機推薦華為P20等。問答交互主要實現(xiàn)基于知識圖譜的問答。其中,問題理解、屬性匹配、會話引導(dǎo)與答案生成都可以利用知識圖譜的知識。隨著可解釋需求日益增多,為機器決策生成解釋日益重要。比如從知識圖譜中找到關(guān)聯(lián)路徑解釋實體對之間的關(guān)系(對應(yīng)路徑發(fā)現(xiàn));為一個待解釋問題匹配相應(yīng)的知識圖譜子圖等等(對應(yīng)解釋匹配)。

圖10 認(rèn)知服務(wù)層的主要架構(gòu)

此外,在整個認(rèn)知服務(wù)的實現(xiàn)過程中,推理引擎的實現(xiàn)也是十分重要的,推理某種意義上是符號知識存在的最為獨特的價值。知識圖譜上推理引擎的實現(xiàn)可以彌補知識的缺失,提升系統(tǒng)的智能程度。

知識圖譜上的推理有幾種主要的實現(xiàn)方式。第一、另行定義規(guī)則,以知識圖譜作為基本事實,開展推理。比如通過定義“父親的父親是爺爺”這樣的規(guī)則,就可以從“A的父親是B,B的父親是C”,推理出“C是A的爺爺”。第二、基于知識圖譜的分布式推理。隨著深度學(xué)習(xí)的流行,基于知識圖譜的向量表示成為知識圖譜中實體與關(guān)系重要表示方式。給定實體h與t的向量表示(比如h,t),如果向量h,t的距離足夠相近,則推斷h與t語義相近。第三、基于知識圖譜上的顯式推理。這種推理方式將知識圖譜建模為異構(gòu)信息網(wǎng)絡(luò),當(dāng)兩個實體h與t在知識圖譜之間存在多條可達(dá)路徑,且路徑上的語義關(guān)聯(lián)強度足夠大,則推斷h與t語義相近。

顯然基于圖模型的顯式推理可解釋。事實上不難利用顯式推理所找到的路徑作為特征,訓(xùn)練學(xué)習(xí)知識圖譜的向量表示。在實際的應(yīng)用中,往往是多種推理機制并存,最后通過特定協(xié)同機制完成最終推理。比如往往先用分布式推理進(jìn)行粗篩選,再利用顯式推理和基于規(guī)則的推理生成可解釋結(jié)果,并將最終推理結(jié)果呈現(xiàn)給終端用戶。

(4)知識管理層

知識管理層旨在實現(xiàn)知識圖譜數(shù)據(jù)的有效管理和高效訪問,其主要模塊如圖11所示。知識圖譜的管理涉及知識圖譜的建模、存儲、索引和查詢。在建模部分明確知識圖譜的數(shù)據(jù)結(jié)構(gòu)。存儲部分完成知識圖譜在磁盤或者分布式環(huán)境下的存儲與組織方式。為了加速大規(guī)模知識圖譜上的查詢通常需要建立相應(yīng)的索引結(jié)構(gòu),包括基于子結(jié)構(gòu)的索引和關(guān)鍵字索引。最終基于這些索引方式實現(xiàn)各類查詢,包括特定子圖結(jié)構(gòu)的查詢(比如路徑、社區(qū)、一般子圖等等)和關(guān)鍵字查詢。

圖11 知識管理層的主流模塊

3.知識圖譜工程

知識圖譜系統(tǒng)的建設(shè)是個系統(tǒng)工程,需要謹(jǐn)慎論證、詳盡規(guī)劃、有序推進(jìn)、持續(xù)運營以及全面保障,這些都必須付諸工程實踐才能實現(xiàn)。知識圖譜工程是以知識圖譜系統(tǒng)的建設(shè)為核心內(nèi)容的一類工程實踐。本章首先介紹知識圖譜工程開展的基本原則,再介紹知識圖譜工程的過程模型、可行性分析以及實踐建議。

3.1 基本原則

知識圖譜工程實踐過程中呈現(xiàn)出一些普適的基本原則。堅持這些基本原則是保障知識圖譜工程順利實施的前提。

(1)合理定位。為知識圖譜項目設(shè)定合理的定位目標(biāo)十分重要。期望過高,或者期望明顯高于當(dāng)前技術(shù)水平會帶來不良后果。我們首先必須心懷敬畏。人類的智能是通過數(shù)百萬年進(jìn)化而成的。即便當(dāng)前技術(shù)進(jìn)步日新月異,要在有限的數(shù)十年內(nèi)讓機器完全達(dá)到人類的認(rèn)知水平仍然是個足夠偉大的目標(biāo)。任何一個普通人在知識方面所具有的智能,都是當(dāng)前機器所無法企及的。

以當(dāng)前的技術(shù)水平,代替專家助理的工作是個合適的目標(biāo),代替領(lǐng)域?qū)<业墓ぷ魅匀皇掷щy。專家的很多知識是隱性的,難以言明的,難以外化的。專家之所以為專家,是需要經(jīng)年累月的學(xué)習(xí)與訓(xùn)練。專家所積累的不單單是簡單的關(guān)聯(lián)事實,更涉及思維方式、場景適配、異常處理等知識。

這里涉及大量的元知識(meta-knowledge,也就是有關(guān)知識的知識)、涉及大量難以有效表示的知識。這些都是當(dāng)前機器難以代替的。而專家助理的工作則相對簡單,是規(guī)則性的簡單知識工作,比如查找文件、整理文檔、收發(fā)郵件等等,普通人只需要具備簡單的詞匯知識與基本事實即可勝任,是有可能率先在實際應(yīng)用場景取得成效的。

(2)應(yīng)用牽引。應(yīng)用牽引的發(fā)展思路是與平臺支撐的思路相對而言的。前者從應(yīng)用出發(fā),明確技術(shù)需求。后者從技術(shù)能力與平臺出發(fā)去適配應(yīng)用。在互聯(lián)網(wǎng)飛速發(fā)展的時代,平臺化思維成就了一批優(yōu)秀的企業(yè)。平臺型模式一般較為簡單,因而可以規(guī)模化。

以淘寶這類B2C平臺為例,店家與消費以及平臺之間的關(guān)系明確,業(yè)務(wù)模式簡單且具有同質(zhì)化,這就為技術(shù)與業(yè)務(wù)的平臺化提供了可能。但是當(dāng)前人工智能的發(fā)展多以場景化應(yīng)用為主?;谥R圖譜的認(rèn)知智能還沒發(fā)展到普適、通用智能的階段。不同應(yīng)用,不同場景所需要的知識表示不同、知識獲取手段不同、數(shù)據(jù)資源稟賦不同,這都決定了知識圖譜技術(shù)平臺化發(fā)展的異常艱難。

(3)循序漸進(jìn)。一顆蘋果樹上的蘋果不可能同時成熟。此時,最簡單的策略就是先摘成熟的果子,坐等其他蘋果自然成熟再行采摘。同樣,知識圖譜技術(shù)體系復(fù)雜多樣,包括知識表示、知識抽取、知識融合、知識推理、知識存儲和知識檢索等。每類關(guān)鍵技術(shù)的成熟度不同,有的已進(jìn)入實用化階段,有的仍處于學(xué)術(shù)研究階段。

一個產(chǎn)業(yè)的發(fā)展歷程通常呈現(xiàn)出是部分技術(shù)先成熟再逐步帶動相關(guān)技術(shù)發(fā)展的特點。整個產(chǎn)業(yè)技術(shù)的成熟是需要經(jīng)過漫長的發(fā)展周期的。企圖速戰(zhàn)速決、畢其功于一役是不現(xiàn)實的。知識圖譜各項技術(shù)成熟程度不均衡是當(dāng)前知識圖譜產(chǎn)業(yè)實踐的基本情形。大部分技術(shù)仍然停留在只能在特定測試集上取得一定效果,還難以在廣泛而多樣數(shù)據(jù)上取得穩(wěn)定效果。具有較高產(chǎn)業(yè)成熟度的技術(shù)還不多。

(4)先簡后難。在知識圖譜的整個技術(shù)棧中,仍然存在一些瓶頸性難題,比如從文本中的知識獲取仍然面臨不少困難,落地困難重重。即便是一個簡單的中文分詞任務(wù)仍然需要大量的研究工作,比如對短語“南京市長江大橋”進(jìn)行分詞,可以是“南京市+長江大橋”,也可以是“南京市長+江大橋”,準(zhǔn)確的分詞有賴上下文語義的準(zhǔn)確理解。

因此,實際落地過程應(yīng)遵循先簡后難的原則:先從結(jié)構(gòu)化程度高的數(shù)據(jù)中抽取出易于獲得的語言知識(如敘詞表、上下位概念),再從半結(jié)構(gòu)化數(shù)據(jù)中抽取出世界知識(如<劉德華,職業(yè),演員>),進(jìn)而總結(jié)出業(yè)務(wù)知識(比如,體溫達(dá)到39度可能感冒了),最后再處理決策知識.

(5)由粗到細(xì)。知識表示是有粒度粗細(xì)之分的。比如在司法知識表示方面,某個法律條款(比如“機動車變道,應(yīng)打開相應(yīng)的變道指示燈”)可作為合適的知識表示粒度,也可以進(jìn)一步細(xì)化為條件(機動車變道)與結(jié)果(打開相應(yīng)的變道指示燈)。條件部分的知識表示還可以進(jìn)一步細(xì)分為實體(機動車)與動作(變道),顯然粒度越細(xì)表達(dá)越精準(zhǔn)。

但是知識獲取的難度也越大,知識的不確定性也越強。比如在概念圖譜中,實例的概念歸屬往往隨著概念粒度的變細(xì)而變得越加不確定。例如,堡是個食物幾乎沒有人會有異議,但若說漢堡是個健康食物,則可能會有人反對。因此,知識資源的建設(shè)應(yīng)該遵循由粗到精,逐步求精的基本原則。

(6)求同存異。知識是人們認(rèn)知世界的結(jié)果。不同的認(rèn)知主體對于同一個世界的認(rèn)識是有差異的,知識因而具有主觀性。在當(dāng)前階段去深究知識的主觀性問題可能十分困難。知識的主觀性差異往往是細(xì)微的。不同人對于“高個子”到底多高會有量上的細(xì)微差別,但是沒有人會認(rèn)為2.2米還不是高個子。

因此,比較務(wù)實的作法是求同存異,擱置爭議。隨著系統(tǒng)的上線,用戶反饋數(shù)據(jù)日益增多,有爭議的事實,可以使用數(shù)據(jù)驅(qū)動的方法來加以界定。比如對于搜索“矮個子NBA球星”,如果大部分用戶在這一搜索關(guān)鍵詞下,點擊的球星都在1.8米以下,那么1.8米以下對于NBA球星而言或許就是矮個子。知識圖譜落地中,應(yīng)該暫且擱置爭議,先解決容易解決的問題,剩下的問題在時機成熟時或許就自然能夠解決。

(7)人機協(xié)同。當(dāng)前知識圖譜的落地,需要機器和人,二者缺一不可。傳統(tǒng)知識工程對于人有著較強的依賴,限制了知識庫的規(guī)模與效用;大數(shù)據(jù)知識工程強調(diào)數(shù)據(jù)驅(qū)動的知識獲取,依賴機器實現(xiàn)自動化知識獲取。但是當(dāng)前的知識獲取自動化仍然需要人的干預(yù),人在環(huán)中仍是常態(tài)。

當(dāng)前的人工智能總體上是人類指導(dǎo)下的智能(Human supervised AI),機器智能在以下幾點需要人類的指導(dǎo)。機器需要人類特別是領(lǐng)域?qū)<屹x予機器以認(rèn)知世界、認(rèn)知特定領(lǐng)域的基本概念框架,比如領(lǐng)域本體或者領(lǐng)域模式的定義。其次,機器需要人類標(biāo)注樣本、反饋結(jié)果。一個詞匯是否是合適的領(lǐng)域詞匯。一幅病理圖片是否指征相應(yīng)的病變,這些都需要有著深刻的業(yè)務(wù)知識才能完成。因此,人機協(xié)同時知識圖譜工程推進(jìn)的基本原則之一。

圖12 人在環(huán)中的人工智能發(fā)展模式

(8) 快速啟動。很多行業(yè)或者企業(yè)在開展知識圖譜項目時,或多或少已經(jīng)存在很多相關(guān)知識資源,比如領(lǐng)域本體、敘詞表等等。互聯(lián)網(wǎng)上的公開來源也存在不少相關(guān)的百科資源,通用百科圖譜已經(jīng)涵蓋了某個領(lǐng)域大量的實體。這些知識資源往往消耗了巨大人工成本經(jīng)過多年持續(xù)積累而得,是相關(guān)知識圖譜構(gòu)建的寶貴財富。充分利用這些資源,提高領(lǐng)域知識圖譜構(gòu)建的起點,是知識圖譜項目成功落地的關(guān)鍵思路之一。

知識資源建設(shè)有個很有意思的現(xiàn)象,那就是從無到有的構(gòu)建代價要顯著高于在不完善的知識庫上的完善代價。此外,跨領(lǐng)域遷移也是降低構(gòu)建成本的重要思路,因為相近領(lǐng)域的知識是可以復(fù)用的,比如在給中國移動建設(shè)知識圖譜時可以借鑒中國電信的知識圖譜。這個原則也意味著知識圖譜落地過程中,將來會涌現(xiàn)出一大批面向特定行業(yè)提供知識圖譜解決方案的企業(yè)。因此,復(fù)用是知識資源建設(shè)的重要策略之一。

3.2 過程模型

知識圖譜工程的生命周期包含三個主要階段:分析與論證、設(shè)計與實施以及運營與評價。每個階段作為后續(xù)階段的輸入。三個階段相繼完成后,整個工程過程進(jìn)入下一輪,如此循環(huán)往復(fù)、迭代進(jìn)行,直至實現(xiàn)智能化。

(1)分析與論證。這一階段的基本目標(biāo)是明確知識圖譜的應(yīng)用目標(biāo),分析知識圖譜的業(yè)務(wù)價值,論證知識圖譜項目上線的必要性;對所設(shè)定目標(biāo)所涉及的數(shù)據(jù)資源、人員投入、資金投入等角度作出可行性評估,以及投資收益分析;對于整個知識圖譜工程項目的進(jìn)行規(guī)劃。

(2)設(shè)計與實施。對知識圖譜系統(tǒng)相關(guān)的數(shù)據(jù)庫、數(shù)據(jù)流程、系統(tǒng)架構(gòu)、關(guān)鍵算法、系統(tǒng)選型等等進(jìn)行設(shè)計,制定詳細(xì)的設(shè)計方案;進(jìn)行代碼開發(fā),實現(xiàn)相關(guān)算法;集成相關(guān)系統(tǒng),完成系統(tǒng)上線。

(3)運營與評價。知識圖譜工程是一種典型的智能化工程。智能化相關(guān)的系統(tǒng)在建設(shè)完成后,仍然要經(jīng)歷多輪運營與優(yōu)化。在每一輪迭代,獲取用戶的使用日志、評估反饋是十分關(guān)鍵的。這些反饋與日志是是下一輪建設(shè)或優(yōu)化的輸入,知識圖譜工程持續(xù)演進(jìn)的重要依據(jù)。

圖13 知識圖譜工程過程演進(jìn)模型

知識圖譜系統(tǒng)的設(shè)計與實施環(huán)節(jié)從知識的加工流程角度來看包含四個重要環(huán)節(jié):知識表示、知識獲取、知識管理與知識應(yīng)用。這四個環(huán)節(jié)循環(huán)迭代。

知識應(yīng)用環(huán)節(jié)明確應(yīng)用場景,明確知識的應(yīng)用方式。知識表示定義了領(lǐng)域的基本認(rèn)知框架,明確領(lǐng)域有哪些基本的概念,概念之間有哪些基本的語義關(guān)聯(lián)。比如企業(yè)家與企業(yè)之間的關(guān)系可以是創(chuàng)始人關(guān)系,這是認(rèn)知企業(yè)領(lǐng)域的基本知識。知識表示只提供機器認(rèn)知的基本骨架,還要通過知識獲取環(huán)節(jié)來充實大量知識實例。比如喬布斯是個企業(yè)家,蘋果公司是家企業(yè),喬布斯與蘋果公司就是“企業(yè)家-創(chuàng)始人-企業(yè)”這個關(guān)系的一個具體實例。

知識實例獲取完成之后,就是知識管理。這個環(huán)節(jié)將知識加以存儲與索引,并為上層應(yīng)用提供高效的檢索與查詢方式,實現(xiàn)高效的知識訪問。四個環(huán)節(jié)環(huán)環(huán)相扣,彼此構(gòu)成相鄰環(huán)節(jié)的輸入與輸出。在知識的具體應(yīng)用過程中,會不斷得到用戶的反饋,這些反饋會對知識表示、獲取與管理提出新的要求,因此整個生命周期會不斷迭代持續(xù)演進(jìn)下去。

3.3 可行性分析

知識圖譜技術(shù)仍然是發(fā)展中的技術(shù),很多技術(shù)還不成熟,因此做好可行性分析十分重要。知識圖譜落地的可行性與以下幾個因素關(guān)系密切。

(1)是否是封閉應(yīng)用。封閉的對立面就是開放。所謂開放性是指無法預(yù)期可能發(fā)生的事態(tài),從而無法有效預(yù)設(shè)先驗規(guī)則。換言之,在開放環(huán)境中,機器很容易碰到無法合理處理的情形,因為這些情形沒有被定義過、沒有被描述過,使得機器無所適從。開放性問題是知識工程乃至整個人工智能的根本難題。它與一系列我們經(jīng)常提及的人工智能難題諸如常識理解、小樣本學(xué)習(xí)、元學(xué)習(xí)都有著密切關(guān)系。開放性難題是帶來一次次人工智能寒冬的“罪魁禍?zhǔn)住薄?/p>

開放性難題對于知識工程的挑戰(zhàn)體現(xiàn)在知識的需求難以閉合。也就是說,實際應(yīng)用所需要的知識中往往會超出領(lǐng)域所預(yù)先設(shè)定的知識邊界。比如在金融知識圖譜落地過程中,單單涵蓋公司、法人、機構(gòu)、產(chǎn)品這些核心往往不足以支撐智能應(yīng)用?;诮鹑谥R圖譜的關(guān)聯(lián)分析往往會牽扯出幾乎萬事萬物。比如,諸如龍卷風(fēng)等氣候災(zāi)害,會使得農(nóng)作物產(chǎn)量下降,農(nóng)業(yè)機械的出貨量因而就會下降,農(nóng)機的發(fā)動機產(chǎn)量也就相應(yīng)要下降,從事農(nóng)機發(fā)動機關(guān)鍵部件生產(chǎn)的公司業(yè)績就會下降,相關(guān)公司的股票可能就會下跌。

事實上,一切實體都身處在一個復(fù)雜的因果網(wǎng)絡(luò)中,世界是普遍關(guān)聯(lián)的。這就導(dǎo)致沿著任何一個實體開展關(guān)聯(lián)分析都極為容易超出預(yù)先設(shè)定的知識邊界。因此,行業(yè)應(yīng)用中的知識需求難以封閉于領(lǐng)域知識的邊界范圍內(nèi)。而傳統(tǒng)知識工程成功應(yīng)用的場景,比如計算機系統(tǒng)配置、數(shù)學(xué)定理證明,都是相對封閉的應(yīng)用。在幾何定理的證明中不會用到推理規(guī)則之外的任何知識。

(2)是否涉及常識。越少涉及常識,越容易成功。常識是我們每個人都知道無需言明即可理解的知識。常識獲取與理解是通用人工智能實現(xiàn)的關(guān)鍵基礎(chǔ)問題。常識難以建模、難以獲取、機制不明等問題對大規(guī)模常識獲取與理解提出了嚴(yán)峻挑戰(zhàn)。首先、常識難以建模。我們都知道太陽從東邊升起,人是兩條腿走路的,魚是在水里游的,這些都是常識,但是如何嚴(yán)格界定則十分困難。至今我們還給不出關(guān)于常識的嚴(yán)格定義。不同人所言及的“常識”在內(nèi)涵與外延上是存在一定差異的。

本段之初所闡述的“我們每個人都知道無需言明即可理解的知識”,這里的“我們”、“知識”、“言明”、“理解”都是很難再進(jìn)一步嚴(yán)格定義的。比如“我們”是指全體人類么?是否應(yīng)該包含史前人類?如果界定在當(dāng)下的人類,那么精神病人呢?兒童呢?幾乎所有的常識定義都會遇到這樣那樣的挑戰(zhàn)。其次,常識難以獲取。我們每個人都理解常識,因而不用掛在嘴邊說明,就能彼此理解。因此,文本或者語料中對于常識鮮有提及,常識因而也就無從抽取。常識缺失也就成了知識庫的常態(tài)。

最后,機制不明。人類究竟是如何形成常識理解的?這是個非常值得深入思考的問題。我們?nèi)祟惖某WR理解大都是以直接的近乎直覺的方式完成的。水灑了,正常人都會及時躲避。因為我們知道水會沾濕衣物。但是,我們沒有任何人是先思及“水會沾濕衣物”,再行躲避的。那么機器是否也有著與人類類似的常識理解機制?機器的常識理解之路與人類是否一致?這些問題均需要進(jìn)一步深入研究。

(3)是否涉及元知識(Meta-knowledge)。所謂元知識是指有關(guān)知識的知識,包括屬性的領(lǐng)域(Domain)與范圍(Range)。比如“父親”作為屬性發(fā)生在人物這個類別的實體上(這是在指定Domain),取值也只能是個人物。包括領(lǐng)域內(nèi)的約束,比如父親都必須比子女年齡大。也可以是如何使用知識的知識,比如吃了不潔凈的物品嘔吐了,我們立即就會判斷有可能是不潔飲食導(dǎo)致的食物中毒??此坪唵蔚呐袛嘟⒃谖覀兡軌蛘{(diào)用醫(yī)學(xué)知識形成結(jié)論而不是數(shù)學(xué)知識的前提之下。為特定場景或應(yīng)用適配相關(guān)知識,越來越多實際應(yīng)用場景對這種元知識提出了訴求。

總體而言,元知識需求越大,應(yīng)用越加困難。其根本原因在機器歸納能力有限。任何歸納都是按照既定的認(rèn)知框架進(jìn)行的。比如從樣本學(xué)習(xí)一個分類器,本質(zhì)上也是在歸納。但是分類器的模型不管是支持向量機還是深度模型都需要預(yù)先指定,模型本身就是一類元知識。總體而言,當(dāng)前的機器智能還不足以自我發(fā)展出認(rèn)知世界的框架。

需要說明的是,上述判斷條件都不是絕對的,都是相對的。因此是一種定性判斷,而非定量判斷。滿足上述條件,且程度越深,實現(xiàn)越困難,但并非絕無實現(xiàn)之可能。比如大部分互聯(lián)網(wǎng)應(yīng)用屬于開放應(yīng)用,但是知識圖譜率先發(fā)軔于互聯(lián)網(wǎng)搜索,實則是因為應(yīng)用相對簡單。因此,可行性還可以從復(fù)雜性的對立視角加以研判。

(1)簡單知識。知識是否有復(fù)雜簡單之分?如果承認(rèn)這點,知識的復(fù)雜性又應(yīng)該如何度量?這些問題總體上還是開放問題。但是,直覺上我們會覺得某些知識比其他知識簡單。人類學(xué)習(xí)的先后順序一定程度上就是顧及了知識的簡單與復(fù)雜之分。沒有人會否認(rèn)疾病診斷、司法抗辯用到的知識會比疊個紙飛機用到的知識復(fù)雜。

雖然知識的復(fù)雜性內(nèi)在機理和評測機制仍不清楚,但是從操作層面來看,可以從特定人群學(xué)習(xí)某類知識所需要時間來評估。比如考慮完成了基礎(chǔ)教育(比如中國的九年制基礎(chǔ)教育)的人群,對于不同知識,這一人群學(xué)習(xí)周期不同。顯然對于某個企業(yè)的客服知識,幾乎一周簡單培訓(xùn)就可以上崗。但是對于治病的知識,即便一個醫(yī)學(xué)院學(xué)生可能也要學(xué)習(xí)十多年才能掌握。

在自然語言相關(guān)的知識中,詞匯知識的掌握難度小于語法與語義知識。在知識圖譜落地過程中,語言知識相對于業(yè)務(wù)知識而言簡單;靜態(tài)關(guān)聯(lián)知識比動態(tài)過程知識簡單。這些直接決定了在知識圖譜落地過程中,語言知識以及靜態(tài)關(guān)聯(lián)知識往往能優(yōu)先于其知識形態(tài)形成應(yīng)用效果。

(2)簡單應(yīng)用。知識的應(yīng)用也有復(fù)雜簡單之分。比如同樣是在醫(yī)療領(lǐng)域,醫(yī)院的導(dǎo)診顯然要比醫(yī)生的看病要簡單很多。導(dǎo)診只需要根據(jù)癥狀進(jìn)行簡單的分類,即便不夠精準(zhǔn),在具體科室醫(yī)生治療時還有進(jìn)一步糾正的機會。然而,醫(yī)生看病本身則要復(fù)雜很多,一個醫(yī)生要近十年的學(xué)習(xí)才有可能勝任疾病診治的任務(wù)。但是,應(yīng)用本身的復(fù)雜性顯然也是很難量化的,在算法復(fù)雜性領(lǐng)域可以根據(jù)問題與輸入規(guī)模之間的關(guān)系量化問題以及相應(yīng)方案的復(fù)雜性。但是知識應(yīng)用的復(fù)雜性機制還不明確。直覺上需要用到的知識越多、需要掌握的異常越多、所應(yīng)用的規(guī)則分支繁復(fù),則相應(yīng)的應(yīng)用越復(fù)雜。

此外在領(lǐng)域或者企業(yè)知識圖譜落地過程中,數(shù)據(jù)資源稟賦與知識資源積累也是可行性判斷的兩個重要的維度。數(shù)據(jù)資源稟賦包括構(gòu)建知識圖譜所依賴的數(shù)據(jù)是否完整、數(shù)據(jù)質(zhì)量是否足夠精良、數(shù)據(jù)是否可用?巧婦難為無米之炊。沒有好的數(shù)據(jù)是提煉不出好的知識圖譜的。很多企業(yè)數(shù)據(jù)完整性存在缺陷,存在數(shù)據(jù)缺失,會對知識圖譜構(gòu)建造成巨大的障礙。有些數(shù)據(jù)雖然完整,但是來源分散、形態(tài)各異、質(zhì)量低劣,這些都會對數(shù)據(jù)治理本身提出巨大挑戰(zhàn)。

在另外一些情況下,數(shù)據(jù)可用性較低,比如存在行業(yè)壁壘,數(shù)據(jù)無法分享;存在國家安全與個人隱私的顧慮,數(shù)據(jù)無法公開或者使用。這些障礙都是數(shù)據(jù)層面對于知識圖譜系統(tǒng)提出的挑戰(zhàn)。領(lǐng)域或者行業(yè)知識資源的積累情況也是判斷知識圖譜工程可行性的重要因素。在很多領(lǐng)域,已經(jīng)積累了多年的相關(guān)知識資源。比如醫(yī)療領(lǐng)域領(lǐng)域?qū)<液馁M了大量資源構(gòu)建了很多本體、術(shù)語庫。不同領(lǐng)域的知識資源積累情況不同。知識資源越豐富,越有利于知識圖譜工程的建設(shè)。

表1對于上述提及的可行性判斷要素進(jìn)行了分類匯總,并給出了相應(yīng)的問題檢查列表,以方便知識圖譜工程實踐的開展。

表1 知識圖譜工程可行性論證檢查列表

3.4 知識圖譜工程實踐建議

知識圖譜工程屬于工程性學(xué)科,不斷總結(jié)其最佳實踐是非常有必要的。本小節(jié)根據(jù)當(dāng)前已經(jīng)落地的知識圖譜工程總結(jié)一些有代表性的經(jīng)驗。值得注意的是,這些“經(jīng)驗”隨著時間的推移、環(huán)境的變化,也需要不斷作出調(diào)整。

(1)合理控制知識表示的范圍與粒度。很多場景下知識表示的粒度是個需要仔細(xì)斟酌的問題。一般而言,粒度越細(xì)表達(dá)能力越強,但是其表達(dá)與獲取代價也越大。細(xì)粒度知識表示一般是領(lǐng)域應(yīng)用的強需求之一。比如在知識管理領(lǐng)域,粒度粗放已經(jīng)成為阻礙企業(yè)知識管理發(fā)展的根本問題。傳統(tǒng)知識搜索只能搜索到文檔級別,如果不幸這個文檔含有1000頁內(nèi)容,則會給用戶帶來巨大麻煩。但是,凡事過猶不及,太細(xì)粒度的知識表示也往往會給知識獲取帶來巨大的復(fù)雜性。

合理控制知識表示的粒度,不盲目求精求細(xì),是知識庫技術(shù)落地成功的關(guān)鍵思路之一。很多落地實踐中過早地陷入細(xì)粒度知識獲取的泥潭當(dāng)中,消耗巨大但收效甚微。但事實上細(xì)粒度的知識表示在很多場景下也是不必要的。因此,在實踐中建議緊扣應(yīng)用需求,從應(yīng)用出發(fā)反推需要怎樣粒度的知識表示。

(2)合理控制不同視角下的不同圖譜。知識圖譜是認(rèn)知世界的結(jié)果。管理者視角與用戶視角是不同的,不同用戶的視角往往也是不同的。比如龍,在東方人的視角下往往是吉祥的,而在西方人的視角往往是兇惡的、有貶義的;“物美價廉的水果”這個品類對于不同人理解完全不同。因此不同的視角下應(yīng)該有著不同的圖譜。

一般而言,要針對不同的角色,定制相應(yīng)的圖譜。因而需要從一份通用圖譜中演化出其不同視角下的不同視圖,如圖14所示。考慮到圖模型的普適性,可以定制不同的權(quán)重(比如不同文化的視野下對于“龍”的喜好程度),以體現(xiàn)不同角色對于知識的不同認(rèn)知。

圖14 知識圖譜的不同視圖

(3)區(qū)別對待冷啟動與熱運營兩個階段。知識圖譜的建設(shè)與運營是兩個不同的階段。要區(qū)別對待這兩個階段,兩個不同的階段采用不同的策略,不能一概而論。冷啟動階段的特點是缺乏用戶行為數(shù)據(jù),各類基于用戶反饋的機器學(xué)習(xí)模型很少能在這一階段發(fā)揮效果,更多地需要借助專家經(jīng)驗與知識,以人工方式設(shè)定很多參數(shù)與規(guī)則。在系統(tǒng)運營一段時間后,用戶反饋數(shù)據(jù)日益增多,使得基于反饋日志的學(xué)習(xí)模型成為可能,比如搜索排序模型、推薦模型等等。表3總結(jié)了冷啟動與熱運營的不同思路與策略。

表3 冷啟動與熱運營的不同策略

(4)建設(shè)與運營并重。建設(shè)與運營是知識圖譜工程兩個重要的階段。受傳統(tǒng)信息化建設(shè)思路的影響,很多智能系統(tǒng)陷入了重建設(shè)輕運營的誤區(qū)。事實上,任何一個智能系統(tǒng)均需要經(jīng)歷多輪迭代方能成熟,只有持續(xù)運營才能保持系統(tǒng)處于最佳狀態(tài)。

智能系統(tǒng)的運營是數(shù)據(jù)驅(qū)動的。數(shù)據(jù)驅(qū)動需要不斷收集用戶數(shù)據(jù)。用戶數(shù)據(jù)體現(xiàn)的是用戶興趣與行為。而用戶的興趣與行為是會隨著環(huán)境的變化而變化的。一個有效的智能系統(tǒng)必須隨著用戶的演進(jìn)而演進(jìn),否則容易失效。從長遠(yuǎn)看,運營甚至重于建設(shè)。建設(shè)是一次性的,而運營是持續(xù)的、長期的、周期性的、重復(fù)開展的。

(5)合理處理知識的扁平化與縱深化矛盾。在實際知識圖譜工程中,知識的廣度(對應(yīng)扁平化)與深度(對應(yīng)縱深化)往往是一對不可調(diào)和的矛盾。為了廣度,往往要犧牲深度;為了深度往往要犧牲廣度。前者以通用知識圖譜為例,通用知識圖譜較為寬廣,但缺乏深度,體現(xiàn)在平均關(guān)系數(shù)小于相應(yīng)的領(lǐng)域知識圖譜。深度知識在風(fēng)險管控、安全防范等領(lǐng)域十分重要。惡意意圖的行為往往具有隱蔽性等特點,難以通過簡單語義關(guān)聯(lián)發(fā)現(xiàn)。因而相關(guān)圖譜的建設(shè)要往縱深方向發(fā)展。如圖15所示,實際的知識圖譜往往需要在知識的深度與廣度之間進(jìn)行平衡。

圖15 知識圖譜中知識的廣度與深度的平衡

(6)堅持迭代式演進(jìn)路徑。螺旋迭代式發(fā)展是知識圖譜工程實踐有序推進(jìn)的基本模式。在整個知識圖譜工程中,有著大量迭代模型。比如,知識資源建設(shè)與知識應(yīng)用的迭代式演進(jìn)(見圖2)、知識圖譜工程的三個關(guān)鍵步驟的迭代(見圖13)。此外還包括知識庫積累與知識抽取模型的迭代發(fā)展:一方面積累知識庫,另一方面利用積累的知識指導(dǎo)知識抽取,進(jìn)而利用更先進(jìn)的抽取模型抽取更多更好的知識。

還包括知識圖譜系統(tǒng)建設(shè)與知識圖譜系統(tǒng)運營的迭代:建設(shè)完成之后,通過運營得到的用戶反饋數(shù)據(jù)進(jìn)一步指導(dǎo)知識圖譜系統(tǒng)建設(shè)與優(yōu)化。迭代模式之所以重要,其根本原因在于知識圖譜技術(shù)的任何單項技術(shù)還難以支撐實際應(yīng)用。實際問題的解決尚需多個單點技術(shù)的協(xié)同。迭代式發(fā)展意味知識圖譜的長期發(fā)展過程是迂回曲折的,是漸進(jìn)式發(fā)展的道路。

(7)區(qū)別對待靜態(tài)知識與動態(tài)知識。人類對世界的認(rèn)識是在不斷變化的。因此,體現(xiàn)在知識庫中的知識也不應(yīng)該是一成不變的。知識的動態(tài)變化是絕對的,靜止不變是相對的。但是絕大部分知識在有限時間內(nèi)變化的可能性是極低的,比如地球是圓的,在很長一段時間人們對于這個事實的信念是不會發(fā)生改變的。

對于知識圖譜中的數(shù)據(jù)處理,與之類似,要區(qū)別對待靜態(tài)知識和動態(tài)知識。一般而言事實是相對易變的,而模式是相對不變的。比如機構(gòu)的領(lǐng)導(dǎo)人過一段時間就會發(fā)生變化,但是人與機構(gòu)之間的這種任職關(guān)系發(fā)生改變的可能性要低很多,屬于相對不變的知識。易變事實的更新十分重要,常常需要依賴數(shù)據(jù)驅(qū)動方法。而模式的改變由于更新頻次相對較低,手工維護(hù)更為明智。

小結(jié)

本章針對知識圖譜技術(shù)實踐中的幾個關(guān)鍵問題,包括知識圖譜系統(tǒng)、知識圖譜工程以及知識圖譜應(yīng)用與產(chǎn)業(yè),做了初步探討。隨著知識圖譜技術(shù)應(yīng)用的深化,知識圖譜產(chǎn)業(yè)日益成熟,將會對知識圖譜的工程實踐方面提出更多的需求。

這里對于知識圖譜與系統(tǒng)科學(xué)(特別是系統(tǒng)工程和管理信息系統(tǒng))之間的關(guān)系做一初步討論。首先,知識圖譜工程非常迫切地需要來自系統(tǒng)科學(xué)的理論指引與方法論指導(dǎo)。系統(tǒng)科學(xué)作為一般系統(tǒng)的基本原理的科學(xué)對于知識圖譜也是具有指導(dǎo)意義的。但是另一方面,傳統(tǒng)的系統(tǒng)科學(xué)對于當(dāng)前大數(shù)據(jù)人工智能系統(tǒng)的實踐缺乏有力的支撐。

應(yīng)該說,當(dāng)前的人工智能系統(tǒng)本質(zhì)上是數(shù)據(jù)驅(qū)動的智能系統(tǒng)。這類智能系統(tǒng)在數(shù)據(jù)驅(qū)動與人機協(xié)作等方面與傳統(tǒng)信息系統(tǒng)有著根本不同。比如在數(shù)據(jù)驅(qū)動方面,智能系統(tǒng)的數(shù)據(jù)大都作為模型訓(xùn)練之用,傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)大都只作為用戶查詢或者簡單統(tǒng)計分析的來源而已;在人機協(xié)作方面,智能系統(tǒng)的人的作用在于讓機器具備認(rèn)知框架、給予機器模型學(xué)習(xí)以適當(dāng)?shù)姆答伵c引導(dǎo),而傳統(tǒng)信息系統(tǒng)的人的作用更多地體現(xiàn)為系統(tǒng)語義、規(guī)則的制定,以及系統(tǒng)的使用與反饋。

因此,傳統(tǒng)的系統(tǒng)科學(xué)以及信息系統(tǒng)理論仍需進(jìn)一步發(fā)展以滿足以知識圖譜為代表的智能系統(tǒng)的建設(shè)與實施的需要。從系統(tǒng)科學(xué)角度從新思考智能系統(tǒng)(特別是大數(shù)據(jù)人工智能系統(tǒng))的一般性原則與方法是個極為迫切的研究問題。

肖仰華教授主編的知識圖譜教材《知識圖譜:概念與技術(shù)》即將出版,全面解析知識圖譜的概念與技術(shù)。敬請關(guān)注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能化
    +關(guān)注

    關(guān)注

    15

    文章

    5128

    瀏覽量

    57305
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8960

    瀏覽量

    140282
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    8010

原文標(biāo)題:肖仰華:知識圖譜如何解決行業(yè)智能化的工程問題?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    知識圖譜相關(guān)應(yīng)用

    智慧風(fēng)控的背后,是知識圖譜深度應(yīng)用
    發(fā)表于 08-22 14:40

    KGB知識圖譜基于傳統(tǒng)知識工程的突破分析

    知識庫構(gòu)建主要依靠人工構(gòu)建、代價高昂、規(guī)模有限,投入極大且效率不高。同時,傳統(tǒng)知識圖譜不具有深度知識結(jié)構(gòu),無法解決專業(yè)的業(yè)務(wù)問題?;ヂ?lián)網(wǎng)時代急需自動化、智能化構(gòu)建行業(yè)
    發(fā)表于 10-22 15:25

    KGB知識圖譜技術(shù)能夠解決哪些行業(yè)痛點?

    層面。在知識表示層面,行業(yè)應(yīng)用領(lǐng)域知識圖譜的廣度、深度和粒度都和傳統(tǒng)知識圖譜有差別。從廣度來看,傳統(tǒng)知識圖譜廣度更高。從
    發(fā)表于 10-30 15:34

    知識圖譜的三種特性評析

    知識圖譜的應(yīng)用對技術(shù)本身也提出了高要求,KGB知識圖譜現(xiàn)在已經(jīng)在保險行業(yè),為公司分析上市數(shù)據(jù)等行業(yè)得以廣泛應(yīng)用,知識圖譜能夠在應(yīng)用中發(fā)揮優(yōu)勢主要體現(xiàn)在哪里呢?(1) 目標(biāo)的動態(tài)性:考察知識圖
    發(fā)表于 12-13 13:57

    KGB知識圖譜通過智能搜索提升金融行業(yè)分析能力

    費時耗力,利用KGB知識圖譜的智能搜索功能,可以通過簡單的操作,可以快速、精準(zhǔn)地找到想要的數(shù)據(jù)、報告等內(nèi)容,從以往低效、重復(fù)的信息搜集整理中解脫出來,告別信息過載的困擾。KGB知識圖譜基于深度學(xué)習(xí)
    發(fā)表于 06-22 21:23

    內(nèi)電層分割基本原則

    內(nèi)電層分割基本原則,內(nèi)電層分割基本原則,內(nèi)電層分割基本原則
    發(fā)表于 12-24 11:02 ?0次下載

    知識圖譜系列干貨,理論+實踐

    第一個部分介紹我們?yōu)槭裁葱枰?b class='flag-5'>知識圖譜知識圖譜的相關(guān)概念及其形式化表示;第二個部分將詳細(xì)介紹語義網(wǎng)絡(luò)、語義網(wǎng)和鏈接數(shù)據(jù)等概念;最后,將結(jié)合實例對RDF和RDFS/OWL,這兩種知識圖譜基礎(chǔ)技術(shù)作進(jìn)一步的介紹。
    的頭像 發(fā)表于 07-28 09:55 ?1.2w次閱讀

    領(lǐng)域知識圖譜落地實踐中的問題與對策

    近年來,知識圖譜技術(shù)進(jìn)展迅速,各種領(lǐng)域知識圖譜技術(shù)在很多領(lǐng)域或行業(yè)取得了顯著落地效果。在領(lǐng)域知識圖譜技術(shù)的落地
    的頭像 發(fā)表于 08-07 08:21 ?1.1w次閱讀

    深度解析知識圖譜領(lǐng)域幾次發(fā)展的主要技術(shù)突破

    作為知識圖譜領(lǐng)域形成過程的親歷者之一,文因互聯(lián)CEO鮑捷對知識圖譜的歷史淵源進(jìn)行了梳理,深度解析了該領(lǐng)域幾次發(fā)展的主要技術(shù)突破,并分析了其工業(yè)落地的幾個關(guān)鍵點。
    的頭像 發(fā)表于 08-27 10:41 ?1.2w次閱讀

    一文帶你讀懂知識圖譜

    節(jié)點(Point)和邊(Edge)組成 1.2 每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系” 1.3 知識圖譜是關(guān)系的最有效的表示方式 所以,知識圖譜本質(zhì)上就是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu); 2 知識圖譜
    的頭像 發(fā)表于 12-26 10:23 ?4127次閱讀

    知識圖譜劃分的相關(guān)算法及研究

    知識圖譜是人工智能的重要基石,因其包含豐富的圖結(jié)構(gòu)和屬性信息而受到廣泛關(guān)注。知識圖譜可以精確語義描述現(xiàn)實世界中的各種實體及其聯(lián)系,其中頂點表示實體,邊表示實體間的聯(lián)系。知識圖譜劃分是大規(guī)模知識
    發(fā)表于 03-18 10:10 ?14次下載
    <b class='flag-5'>知識圖譜</b>劃分的相關(guān)算法及研究

    知識圖譜在工程應(yīng)用中的關(guān)鍵技術(shù)、應(yīng)用及案例

    近年來,知識圖譜及其相關(guān)技術(shù)得到快速發(fā)展,并被廣泛應(yīng)用于工業(yè)界各種認(rèn)知智能場景中。在簡述知識圖譜相關(guān)研究的基礎(chǔ)上,介紹知識圖譜在工程應(yīng)用中的關(guān)鍵技術(shù),研究工業(yè)級知識圖譜的典型應(yīng)用場景與
    發(fā)表于 03-30 15:12 ?15次下載
    <b class='flag-5'>知識圖譜</b>在工程應(yīng)用中的關(guān)鍵技術(shù)、應(yīng)用及案例

    知識圖譜是NLP的未來嗎?

    我的看法:知識圖譜不是NLP的未來,因為知識圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識圖譜是最有可能長期和NLP互利共生的技術(shù)。
    的頭像 發(fā)表于 04-15 14:36 ?3950次閱讀
    <b class='flag-5'>知識圖譜</b>是NLP的未來嗎?

    知識圖譜Knowledge Graph構(gòu)建與應(yīng)用

    一、知識圖譜概論 ? ? ? ? 1.1知識圖譜的起源和歷史 1.2知識圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識圖譜 1.3知識圖譜
    發(fā)表于 09-17 10:12 ?863次閱讀

    知識圖譜知識圖譜的典型應(yīng)用

    作者:?cooldream2009? 我們構(gòu)建知識圖譜的目的,在于利用知識圖譜來做一些事情。有效利用知識圖譜,就是要考慮知識圖譜的具備的能力,知識圖
    的頭像 發(fā)表于 10-18 09:26 ?2688次閱讀
    <b class='flag-5'>知識圖譜</b>:<b class='flag-5'>知識圖譜</b>的典型應(yīng)用