摘要:
摘要: 隨著大數(shù)據(jù)時代的到來,海量數(shù)據(jù)不斷涌現(xiàn),從中尋找有用信息,抽取對應(yīng)知識的需求變得越來越強烈。針對該需求,知識圖譜技術(shù)應(yīng)運而生,并在實現(xiàn)知識互聯(lián)的過程中日益發(fā)揮重要作用。信息抽取作為構(gòu)建知識圖譜的基礎(chǔ)技術(shù),實現(xiàn)了從大規(guī)模數(shù)據(jù)中獲取結(jié)構(gòu)化的命名實體及其屬性或關(guān)聯(lián)信息。同時,由于具有多樣化的實現(xiàn)方法,擴充了信息抽取技術(shù)的應(yīng)用領(lǐng)域和場景,也提升了對信息抽取技術(shù)研究的價值和必要性的認(rèn)可度。本文首先以知識圖譜的構(gòu)建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個國際測評會議的角度回顧信息抽取的發(fā)展歷史;接著,基于面向限定域和開放域兩個方面,介紹信息抽取的關(guān)鍵技術(shù),包括實體抽取技術(shù)、關(guān)系抽取技術(shù)和屬性抽取技術(shù)。
1. 引言
隨著計算機技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展和知識互聯(lián)時代的到來,人們期寄著構(gòu)建一個更加智能的、機器可理解可計算的萬維網(wǎng)。知識圖譜(Knowledge Graph)的概念逐漸出現(xiàn)在人們視野中。知識圖譜在語義處理、開放處理等功能方面都顯現(xiàn)出很強的能力,在智能推薦、問答和對話系統(tǒng)以及大數(shù)據(jù)分析和決策等應(yīng)用中也體現(xiàn)出越來越重要的價值。知識圖譜預(yù)計將在互聯(lián)網(wǎng)知識互聯(lián)的實現(xiàn)過程中起到中流砥柱的作用。
文獻(xiàn) [1] 給出了知識圖譜的定義:知識圖譜是一個用于描述物理世界中的概念及其聯(lián)系的語義網(wǎng)絡(luò),它包含以下三個重要的因素:1) 概念。概念可以是實體、屬性,也可以是一個事實,例如“一個人有兩只手”。概念通常被描述為節(jié)點;2) 關(guān)系。關(guān)系是兩個概念節(jié)點之間的語義聯(lián)系,例如屬性關(guān)系、擁有關(guān)系等;3) 概念和關(guān)系的背景知識。因為同一個概念和關(guān)系都有許多不同的表達(dá)方式,因此需要其背景知識作為提供查詢的字典或者本體對多種表現(xiàn)形式進(jìn)行連接。
知識圖譜是知識工程在現(xiàn)今大數(shù)據(jù)階段的一個標(biāo)志性工具。知識工程是將人工智能的原理和方法 [2] 用于構(gòu)建大規(guī)模知識庫。知識工程創(chuàng)立者費根鮑姆(Feigenbaum)給出了知識工程的確切定義,即將知識集成到計算機系統(tǒng)從而完成只有特定領(lǐng)域?qū)<也拍芡瓿傻膹?fù)雜任務(wù) [3]。知識工程從以圖靈測試為代表的前知識工程開始,經(jīng)歷了以知識庫、框架、推理機為核心的專家系統(tǒng),Web1.0、群體智能Web2.0等發(fā)展階段,隨著2012年知識圖譜概念的提出以及Dbpedia、Freebase、YAGO等知識庫的建立,知識工程發(fā)展進(jìn)入了一個新的發(fā)展階段 [4],即大數(shù)據(jù)知識工程(BigKE)。大數(shù)據(jù)知識工程實現(xiàn)了對數(shù)據(jù)中的語義,包括隱含語義的挖掘,使數(shù)據(jù)成為了智慧數(shù)據(jù)(Smart Data),其目標(biāo)是自動或半自動地獲取知識,融合碎片化知識,然后建立基于知識的系統(tǒng) [2],最終達(dá)到為一眾應(yīng)用(例如,語義搜索系統(tǒng)、智能推薦系統(tǒng)、問答和對話系統(tǒng)以及大數(shù)據(jù)分析與決策)提供互聯(lián)網(wǎng)智能知識服務(wù)的目的。
知識圖譜的構(gòu)建經(jīng)歷了人工構(gòu)建和群體構(gòu)建(眾包),現(xiàn)在自動構(gòu)建技術(shù)成為了各個業(yè)界的研究熱點 [5]。知識圖譜構(gòu)建的兩個基本構(gòu)造是“實體–關(guān)系–實體”三元組和“實體–屬性(值)”鍵值對的構(gòu)建。實體通過它們之間的關(guān)系連接在一起形成圖數(shù)據(jù)庫 [1]。知識圖譜的構(gòu)建從數(shù)據(jù)來源分類,可分為面向結(jié)構(gòu)化數(shù)據(jù)、面向半結(jié)構(gòu)化數(shù)據(jù)以及面向非結(jié)構(gòu)化數(shù)據(jù)的知識圖譜構(gòu)建。本文主要介紹面向非結(jié)構(gòu)化數(shù)據(jù)的知識圖譜構(gòu)建過程,以及應(yīng)用的關(guān)鍵信息抽取技術(shù)。吳信東等人在文獻(xiàn) [6] 提出了大數(shù)據(jù)知識工程模型BigKE,實現(xiàn)了三層次的知識建模過程:首先對大數(shù)據(jù)進(jìn)行三階段處理,進(jìn)行在線挖掘?qū)W習(xí)得到碎片化知識模型;接著對碎片化知識進(jìn)行多個步驟的知識融合;最終實現(xiàn)以需求為導(dǎo)向的知識服務(wù)。因此,對應(yīng)于BigKE提出的三層次過程,知識圖譜的構(gòu)建(Knowledge Graph Construction)技術(shù)按照自底向上的過程也包括三個層次:信息抽取(Information Extraction)、知識融合(Knowledge Fusion)和知識加工(Knowledge Processing) [7]。
基于大數(shù)據(jù)知識工程下知識圖譜的構(gòu)建,如吳信東等人在文獻(xiàn) [8] 提出的HACE定理所述,信息抽取可以描述為這樣的一個過程:首先,第一階段對大量孤立、模糊、復(fù)雜的動態(tài)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行初步處理和計算;然后,第二階段對數(shù)據(jù)進(jìn)行深層語義分析、用戶隱私保護(hù)問題分析以及應(yīng)用領(lǐng)域知識的結(jié)合分析;最后,第三階段選擇合適的挖掘算法和抽取技術(shù)進(jìn)行數(shù)據(jù)抽取和融合 [8]。通過將抽取得到的碎片化知識存入知識庫的數(shù)據(jù)層和模式層,我們最終可以對數(shù)據(jù)形成本體化表達(dá)。這里的抽取技術(shù)又按照抽取過程分為實體抽取(Entity Extraction)、關(guān)系抽取(Relation Extraction)、屬性抽取(Attribute Extraction)以及實體鏈接(Entity Linking)等 [9] [10]。其中,實體抽取用于發(fā)現(xiàn)文本或者網(wǎng)頁中的命名實體,并將其加入現(xiàn)有知識庫中。關(guān)系抽取用于自動抽取實體之間存在的語義關(guān)系。屬性抽取屬于一種特殊的關(guān)系抽取。信息抽取的目標(biāo)是自動化知識獲取,即實現(xiàn)自動地從異構(gòu)數(shù)據(jù)源中抽取實體、關(guān)系、屬性等信息進(jìn)而得到候選知識單元。
由于知識圖譜的構(gòu)建過程是通過以結(jié)構(gòu)化形式描述客觀世界中的概念、實體以及其關(guān)系開始的 [11],概念、實體、關(guān)系等信息提取的準(zhǔn)確性對構(gòu)建過程至關(guān)重要,信息丟失、冗余、重疊往往是知識圖譜構(gòu)建面臨的最大挑戰(zhàn) [1]。作為知識圖譜構(gòu)建的第一步,信息抽取是得到候選知識單元的關(guān)鍵。信息抽取的完整度、準(zhǔn)確度直接顯性影響后續(xù)知識圖譜構(gòu)建步驟的質(zhì)量和效率以及最終知識圖譜的質(zhì)量。
面向知識圖譜的信息抽取與傳統(tǒng)信息抽取有很大區(qū)別。面向知識圖譜的信息抽取大多面向開放域(Open Domain)而不再是限定領(lǐng)域(Closed Domain)。同時,隨著維基百科(Wikipedia)等知識庫的出現(xiàn),知識圖譜的數(shù)據(jù)源從有限的文本類型擴展為多源、異構(gòu)、語義結(jié)構(gòu)復(fù)雜的海量數(shù)據(jù)。因此,信息抽取的核心技術(shù)從單一的文本分析變?yōu)閺?fù)雜的知識發(fā)現(xiàn)、知識鏈接等,并在新的應(yīng)用場景和領(lǐng)域中對現(xiàn)有技術(shù)和實現(xiàn)方法提出了新的挑戰(zhàn)問題。
信息抽取作為構(gòu)建知識圖譜的基礎(chǔ)技術(shù),實現(xiàn)了從大規(guī)模數(shù)據(jù)中獲取結(jié)構(gòu)化的命名實體及其屬性或關(guān)聯(lián)信息。同時,由于具有多樣化的實現(xiàn)方法,擴充了信息抽取技術(shù)的應(yīng)用領(lǐng)域和場景,也提升了對信息抽取技術(shù)研究的價值和必要性的認(rèn)可度。
本文首先以知識圖譜的構(gòu)建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個國際測評會議的角度回顧信息抽取的發(fā)展歷史;接著,基于面向限定域和開放域兩個方面,介紹信息抽取的關(guān)鍵技術(shù),包括實體抽取技術(shù)、關(guān)系抽取技術(shù)和屬性抽取技術(shù)。
2. 信息抽取研究的發(fā)展歷史
2.1. 信息抽取相關(guān)概念
信息抽取系統(tǒng)是一種從大量信息源中迅速拋開無效信息找到有用信息的信息獲取工具。關(guān)于信息抽取的定義有以下幾種。
定義1 信息抽取的目標(biāo)是從海量數(shù)據(jù)中,尤其是本文數(shù)據(jù)中,快速精準(zhǔn)分析抽取出特定的事實信息(Factual Information),將其轉(zhuǎn)換成可理解可使用的結(jié)構(gòu)化形式信息 [12],最后將條理的結(jié)構(gòu)化信息存儲在數(shù)據(jù)庫中,等待下一步的分析利用。
定義2 信息抽取是一種自動地從結(jié)構(gòu)化(Structured Data)、半結(jié)構(gòu)化(Semi-structured Data)或非結(jié)構(gòu)化(Unstructured Data)數(shù)據(jù)中抽取概念、實體、事件,以及其相關(guān)的屬性和之間的關(guān)聯(lián)關(guān)系等結(jié)構(gòu)化信息的技術(shù) [13]。
信息抽取帶有一定的文本理解??梢钥醋魃顚拥男畔z索技術(shù),也可以看作是簡化的文本理解技術(shù)。信息抽取通常從兩方面進(jìn)行實現(xiàn):一類是基于知識發(fā)現(xiàn)(Knowledge Discovery in Databases, KDD)和數(shù)據(jù)挖掘(Data Mining)的方法,通常處理結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù);另一類是基于自然語言處理(Natural Language Processing, NLP)和文本挖掘(Text Mining)的方法 [12],通常處理非結(jié)構(gòu)化數(shù)據(jù)。信息抽取的具體方法可分為三類:第一類是基于規(guī)則(基于專家系統(tǒng))的方法。主要在早期使用,使用人工編制規(guī)則,存在效率低,系統(tǒng)可移植性差等不可忽視的局限性;第二類是基于統(tǒng)計的方法,可在一定程度彌補第一類方法的缺點;第三類是基于機器學(xué)習(xí)的方法,,它大幅減少了人工干預(yù),并具有處理新文本的能力,是目前常用的方法。
2.2. 信息抽取發(fā)展史
2.2.1. MUC會議和ACE會議
到20世紀(jì)80年代末,由于消息理解系列會議(Message Understanding Conference, MUC)的召開,信息抽取技術(shù)開始飛速發(fā)展,逐漸進(jìn)入蓬勃期,成為了自然語言處理領(lǐng)域的重要分支之一。
MUC會議自1987年召開第一屆起,一共進(jìn)行了7屆會議。會議由美國國防高級計劃研究局DARPA資助,其主要目的是對信息抽取系統(tǒng)進(jìn)行評測 [14],是典型的評測驅(qū)動會議。會前MUC組織會提供樣例文本和抽取任務(wù)說明,參會單位進(jìn)行信息抽取系統(tǒng)的開發(fā)。在會議召開時參會單位將對各自系統(tǒng)進(jìn)行樣例文本集合的測試,然后通過與手工標(biāo)注結(jié)果進(jìn)行對比,得到評測結(jié)果。最后在會議中對評測結(jié)果進(jìn)行分享、交流、討論。
MUC會議在抽取任務(wù)中定義了模板、槽的填充規(guī)則以及模板填充機制,將信息抽取規(guī)定為模板填充的過程,模板填充即將抽取出的文本信息按照一定規(guī)則填入模板的相應(yīng)槽中 [12]。除此,會議還定義了一套完整的評價指標(biāo),由準(zhǔn)確率(Precision)、召回率(Recall)、F1值以及平均填充錯誤率(Error Per Response Fill, EPRF)等進(jìn)行結(jié)果評價。
在會議的逐年開展過程中,信息抽取任務(wù)逐漸細(xì)化、復(fù)雜化:抽取模板由單一的扁平結(jié)構(gòu)變?yōu)槎鄠€模板的嵌套結(jié)構(gòu);組成模板的槽,從18個、24個到47個的逐漸增加;評測任務(wù)也在開始僅有的場景模板(Scenario Templates)填充任務(wù)上進(jìn)行了命名實體識別(Named Entity Recognition)任務(wù)、共指消解(Coreference Resolution)、模板元素填充(Template Elements)、模板關(guān)系抽取和事件抽取等的任務(wù)擴充。
總之,MUC會議的召開吸引了世界各地的研究者開始信息抽取系統(tǒng)的開發(fā),在信息抽取研究的實踐和理論方面都起到了極大的促進(jìn)作用 [15],并確立了信息抽取的各種標(biāo)準(zhǔn)和規(guī)范,以及信息抽取技術(shù)的研究和發(fā)展方向。
繼MUC之后,2000年12月,由美國國家標(biāo)準(zhǔn)技術(shù)學(xué)會(NIST)、美國國家安全局(NSA)以及中央情報局(CIA)共同主管舉辦的自動內(nèi)容抽取(Automatic Content Extraction, ACE)評測會議接著成為了信息抽取研究的又一巨大推動力,將信息抽取技術(shù)推向了一個新的高度。ACE會議的研究內(nèi)容是開發(fā)自動內(nèi)容抽取技術(shù),實現(xiàn)對不同來源的語言文本的自動處理,尤其對新聞?wù)Z料中的實體、關(guān)系、事件進(jìn)行自動識別、抽取和描述。
和MUC相比,ACE不限定某個領(lǐng)域或場景 [16],增加了對系統(tǒng)跨文檔處理(Cross-Document Processing)能力的評價,采用基于漏報和誤報的評價體系。其中,“漏報”表示實際結(jié)果中存在而系統(tǒng)輸出中沒有;“誤報”表示實際結(jié)果中不存在而系統(tǒng)輸出中有。
2.2.2. ICDM2019知識圖譜比賽KGC [6]
2019年IEEE國際數(shù)據(jù)挖掘大會ICDM (International Conference on Data Mining)舉辦了知識圖譜構(gòu)建比賽KGC。該比賽由明略(Mininglamp)科學(xué)院和合肥工業(yè)大學(xué)主辦,旨在對特定領(lǐng)域或多領(lǐng)域的非結(jié)構(gòu)化文本進(jìn)行自動知識圖譜構(gòu)建。該比賽的目的是生成類似人在閱讀一段文字時的思維模式的知識圖譜,因此比賽的評判由專家進(jìn)行。比賽邀請了學(xué)位授予機構(gòu)和工業(yè)實驗室的團(tuán)隊參加,要求參與者首先設(shè)計模型,以文本作為輸入,以知識圖譜作為輸出,從文本數(shù)據(jù)中提取知識三元組,并在比賽方提供的統(tǒng)一測試集上進(jìn)行測試,若通過第一輪篩選,則進(jìn)一步提供Web應(yīng)用程序來可視化給定數(shù)據(jù)集的知識圖譜。比賽規(guī)定知識圖中的節(jié)點必須是文章中的實體詞;鏈接必須是實體之間的關(guān)系詞或?qū)傩?并且節(jié)點必須由原始文本中的單詞或短語表示,且對同一單詞的同義詞進(jìn)行合并。比賽的數(shù)據(jù)集是涵蓋汽車工程、化妝品、公共安全和餐飲服務(wù)四個行業(yè)的300篇新聞短文本,其中120篇為專家預(yù)先進(jìn)行手工標(biāo)記的文章。
這個KGC比賽的新穎之處在于,沒有為實體或關(guān)系預(yù)先提供任何類型的架構(gòu)。除了ICDM 2019的KGC比賽,還涌現(xiàn)出了不少于信息抽取技術(shù)相關(guān)的國際學(xué)術(shù)會議,如國際信息和知識管理大會(International Conference on Information and Knowledge Management, CIKM)。
2.3. 性能衡量指標(biāo)
在衡量信息抽取系統(tǒng)性能的指標(biāo)中最常用的是準(zhǔn)確率(Precision)跟召回率(Recall)。準(zhǔn)確率指的是在抽取的所有結(jié)果中正確抽取結(jié)果所占的比例 [17];召回率指的是所有可能的抽取結(jié)果中正確抽取結(jié)果所占的比例 [12]。通常兩者的調(diào)和平均數(shù)F指數(shù)也常用于性能衡量,F(xiàn)指數(shù)的計算如下:
其中beta是召回率和準(zhǔn)確率的相對權(quán)重。beta的取值一般為1、1/2、2。當(dāng)beta = 1/2時召回率的重要程度是準(zhǔn)確率的2倍;當(dāng)beta = 2時召回率的重要程度是準(zhǔn)確率的一半;為1時兩者則同等重要。
3. 信息抽取中的關(guān)鍵技術(shù)
3.1. 命名實體識別
3.1.1. 命名實體識別相關(guān)概念
除了一些眾所周知的英文縮寫,如IP、CPU、FDA,所有的英文縮寫在文中第一次出現(xiàn)時都應(yīng)該給出其全稱。文章標(biāo)題中盡量避免使用生僻的英文縮寫。
實體(Entity)是世界上客觀存在并可相互區(qū)分的對象或事物。實體根據(jù)其在現(xiàn)實世界中的自然劃分,通常分為如下三大類七小類 [18]:實體類包括人名、地名和機構(gòu)名類三小類;時間類包括時間,日期兩小類;數(shù)字類包括貨幣類和百分比類。
命名實體識別(Named Entity Recognition, NER)是信息抽取的第一步,是信息抽取中最為關(guān)鍵和重要的步驟。命名實體識別是從文本中識別出實體的命名指稱。命名實體識別又稱為“專名識別”、“實體抽取” [19]。實體識別包括兩個步驟:實體邊界識別和實體分類。邊界識別的目的是判斷字符串是否是一個完整實體,實體分類將實體劃分到預(yù)先設(shè)定的不同類別。命名實體識別可以看作是識別出表示命名實體的短語,并對其進(jìn)行類型指定的過程。
實體識別通常與實體鏈接密不可分。實體識別負(fù)責(zé)指定實體類別,實體鏈接是將識別出的實體通過識別和消歧等步驟后與數(shù)據(jù)庫中的實體進(jìn)行對應(yīng)。實體識別與鏈接將文本轉(zhuǎn)換為結(jié)構(gòu)化的、以實體為中心的語義表示形式,是問答系統(tǒng)、機器翻譯、數(shù)據(jù)標(biāo)注、句法分析的基礎(chǔ)前提步驟 [20],是海量文本分析、知識圖譜構(gòu)建補全的“核心技術(shù)”之一。
3.1.2. 命名實體識別經(jīng)典模型方法
命名實體識別技術(shù)方法分為基于規(guī)則、基于統(tǒng)計以及基于機器學(xué)習(xí)三類 [21]。隨著時代的變換更新,命名實體識別技術(shù)也在不斷革新。從早期面向特定領(lǐng)域,逐漸發(fā)展為面向開放域(Open Domain);從最初基于人工編寫規(guī)則,使用啟發(fā)式算法轉(zhuǎn)變?yōu)榛跅l件隨機場(Conditional Random Field, CRF)、最大熵(Maximum Entropy, ME)、K-最近鄰(K-Nearest Neighbors)等統(tǒng)計機器學(xué)習(xí)的方法;從基于有監(jiān)督學(xué)習(xí)逐漸變?yōu)槿醣O(jiān)督學(xué)習(xí),再到無監(jiān)督機器學(xué)習(xí)方式。以下是一些經(jīng)典的面向特定領(lǐng)域的實體識別方法:
1) 基于規(guī)則的實體識別方法
這類方法通常利用一組手工定義的規(guī)則,在文本中搜索與這些規(guī)則匹配的字符串,來抽取人名、地名、組織名等。其中,謝菲爾德大學(xué)提出了用于英語命名實體識別的LaSIE-II系統(tǒng) [22] 較為經(jīng)典。除此,文獻(xiàn) [23] 利用啟發(fā)式算法與規(guī)則模板結(jié)合的方法首次實現(xiàn)了公司名稱抽取系統(tǒng)對公司實體進(jìn)行抽取。
這類方法依賴固定的詞法(Lexical)、句法(Syntactic)和語義約束(Semantic Constraints),準(zhǔn)確率較高,但是需要依靠特定專家對特定領(lǐng)域的規(guī)則進(jìn)行編寫,存在領(lǐng)域性強,系統(tǒng)可移植性差等缺點。
2) 最大熵分類模型 [24]
最大熵模型(Maximum Entropy)是一種概率估計模型,估計構(gòu)建模型與已有訓(xùn)練集的效果相似度。其基本思想是選擇創(chuàng)建一個模型使得其與給定的訓(xùn)練數(shù)據(jù)、訓(xùn)練樣本產(chǎn)生效果盡可能一致。比如訓(xùn)練數(shù)據(jù)中命名實體前面的詞為動詞的概率為50%,則最大熵模型得到的結(jié)果中命名實體前為動詞的概率也要為50%。最大熵模型的形式化描述如下:
其中, p′p′ 表示樣本經(jīng)驗分布,P表示所有概率模型的集合 [25]。
通過上述表達(dá)式可知,滿足給定訓(xùn)練集的模型并不唯一,而最終尋找的是在約束條件下各種評價指標(biāo)分布最均勻的模型,即最符合客觀情況、具有最大熵的模型。
最大熵模型可以用于特征函數(shù)的生成、特征函數(shù)選取、參數(shù)估計,常應(yīng)用于文本分類、數(shù)據(jù)挖掘、詞性標(biāo)注等問題。例如,MENE系統(tǒng)采用最大熵模型實現(xiàn)英語命名實體的識別。MENE使用和比較了多種特征,包括外部系統(tǒng)特征、分類字典特征等等,提高了系統(tǒng)的跨語言可移植性和系統(tǒng)性能,實現(xiàn)了將文檔中的每個單詞分類為人名、組織、位置、日期、時間、金錢價值、百分比或“以上都不是”。該系統(tǒng)可以用于Internet搜索引擎,機器翻譯,文檔自動索引,也可以作為處理更復(fù)雜的信息提取任務(wù)的基礎(chǔ) [26]。
最大熵模型將實體識別的任務(wù)轉(zhuǎn)換為子字符串的分類任務(wù) [11]。該模型的優(yōu)點是結(jié)構(gòu)緊湊,通用性較高,便于自然語言處理,但存在訓(xùn)練復(fù)雜度高,時間消耗和計算空間開銷大等缺點 [21]。
3) 隱馬爾科夫模型
隱馬爾可夫模型(Hidden Markov Model, HMM)是眾多基于統(tǒng)計的模型中評價性能最佳的一種模型。HMM模型的基本思想就是給定觀測序列(句子),其數(shù)據(jù)是可以觀測到的,通過捕獲需要的狀態(tài)轉(zhuǎn)移信息,尋找觀測值所對應(yīng)的最佳狀態(tài)序列(句子的標(biāo)記序列) [26],這類數(shù)據(jù)是隱藏的,無法直接觀測。
HMM模型采用了Viterbi算法 [27] 求取命名實體最佳標(biāo)記序列(狀態(tài)序列),顯著提高了模型的訓(xùn)練速度、識別效率,這是隱馬爾可夫區(qū)別于其他模型的顯著優(yōu)勢,但是HMM模型的準(zhǔn)確率要比期望最大化(Expectation Maximization, EM)模型、CRF模型低一些。因此HMM模型適用于實時性要求較高的場合,如語音識別、詞性標(biāo)注等領(lǐng)域。
HMM由于其輸出獨立性假設(shè),導(dǎo)致其不能考慮上下文的特征,限制了特征的選擇。雖然之后提出了更為有效的最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM),考慮了整個觀察序列,但仍存在“標(biāo)注偏置”(Label Bias)問題。
4) 條件隨機場模型
Lafferty等人 [28] 在2001年提出了條件隨機場(Conditional Random Field, CRF)模型,它是一種判別式概率模型和一種序列分割及標(biāo)記的可區(qū)分訓(xùn)練模型,其狀態(tài)值取值的獨立性不僅取決于臨近的過去,也取決于未來,相對于MEMM和HMM更加有效。常用于分詞、命名實體識別等預(yù)測問題。
CRF模型將實體識別問題轉(zhuǎn)化為序列標(biāo)注問題。文獻(xiàn) [29] 提出并實現(xiàn)了從簡短非正式的Twitter文章中進(jìn)行命名實體識別,處理推文的命名實體識別所面臨的信息不足以及訓(xùn)練數(shù)據(jù)不可用的挑戰(zhàn)。文章提出在半監(jiān)督的學(xué)習(xí)框架下,將K個最近鄰(KNN)分類器與線性條件隨機場(CRF)模型相結(jié)合,基于KNN的分類器進(jìn)行預(yù)標(biāo)記以收集整個推文中的全局粗略證據(jù),而CRF模型進(jìn)行順序標(biāo)記以捕獲推文中編碼的細(xì)粒度信息。
條件隨機場模型為命名實體識別提供了一個特征靈活、全局最優(yōu)的標(biāo)注框架 [21],但是也存在收斂速度慢、訓(xùn)練時間長、依賴特征多的局限性。
5) 混合模型
基于規(guī)則的方法可移植性差,費時費力但是識別結(jié)果比較理想,基于統(tǒng)計機器學(xué)習(xí)的方法性能依賴于訓(xùn)練樣本的規(guī)模,也出現(xiàn)了一定局限性。因此,出現(xiàn)了將兩者相互結(jié)合的方法。Lin等人 [30] 實現(xiàn)的是從自然語言文本中識別生物醫(yī)學(xué)命名實體,提取生物醫(yī)學(xué)信息。文章提出的識別方法分為兩個階段:先使用最大熵作為基礎(chǔ)的機器學(xué)習(xí)方法;然后結(jié)合基于字典和基于規(guī)則的方法進(jìn)行后處理,包括邊界檢測擴展和錯誤分類糾正。對Medine論文摘要的GENIA數(shù)據(jù)集進(jìn)行了實體抽取測試,取得了較理想的結(jié)果,召回率和準(zhǔn)確率都得到了提升。
6) 基于深度學(xué)習(xí)的方法
深度學(xué)習(xí)方法的訓(xùn)練是一個端對端的過程,無需人工定義相關(guān)特征 [4],其基本思想是使用訓(xùn)練數(shù)據(jù)學(xué)習(xí)對命名實體識別有用的特征,然后利用學(xué)習(xí)的特征在文本中進(jìn)行命名實體識別?;谏疃葘W(xué)習(xí)的方法主要有以下兩類:
i. 神經(jīng)網(wǎng)絡(luò)–條件隨機場架構(gòu)(Neural Network-Conditional Random Field, NN-CRF) [31]
在這個架構(gòu)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)/長短期記憶人工神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)用來學(xué)習(xí)每一個詞的位置的向量表示,然后根據(jù)這個向量表示NN-CRF模型可以計算得到這個位置處的最佳標(biāo)簽。這類方法解決了實體識別的序列化標(biāo)記問題。文獻(xiàn) [32] 提出了使用詞向量表示特征的最簡單、最有效的方法。文章 [33] 提出了一種半監(jiān)督系統(tǒng)(以無監(jiān)督的方式從大型語料庫中學(xué)習(xí)單詞表示,并使用這些單詞表示作為有監(jiān)督訓(xùn)練的輸入特征,而不是使用手工制作的輸入特征),從4億個Twitter微博中自動推斷出的單詞嵌入表示形式,作為系統(tǒng)輸入,使用前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Neural Network, FFNN)進(jìn)行分類,得到多種實體類別:公司、設(shè)施、地理位置、音樂藝術(shù)家、電影、人物、產(chǎn)品。該篇論文提出的方法沒有加入人工參與,專注于分布式單詞表示,可以應(yīng)用于不同的語料庫,并且得到較好結(jié)果。最近,文獻(xiàn) [34] 提出了一種神經(jīng)半馬爾可夫(Neural Semi-Markov)結(jié)構(gòu)的支持向量機模型,這是一種訓(xùn)練精度驅(qū)動的NER模型,該模型將實體抽取擴展到序列標(biāo)記問題,引入了代價敏感學(xué)習(xí)(Cost-Sensitive Learning)來控制精度和召回率之間的折衷。
ii. 基于滑動窗口分類的方法
該方法使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)句子中的每一個N-Gram的表示,然后預(yù)測該N-Gram是否是一個目標(biāo)實體 [4]。文獻(xiàn) [35] 實現(xiàn)了從科學(xué)文章中提取關(guān)鍵字短語并根據(jù)任務(wù)、材料、過程等方面對其進(jìn)行分類的任務(wù),該文章使用神經(jīng)標(biāo)記模型并引入基于圖的半監(jiān)督算法,將實體抽取歸結(jié)為序列標(biāo)記問題,對未標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)。這種方法對單一領(lǐng)域內(nèi)、高數(shù)據(jù)量數(shù)據(jù)比使用跨域、小數(shù)據(jù)量數(shù)據(jù)具有更好的性能。
3.1.3. 面向開放域的實體抽取方法
在面向開放域的信息抽取中,信息來源不再是特定的知識領(lǐng)域,成為了全網(wǎng)信息,面向海量Web語料 [36]。例如,KnowItAll系統(tǒng) [37] 處理的是規(guī)模龐大、具有異質(zhì)性的Web語料庫,例如Twitter、Wikipedia等。
開始研究人員采用人工方法進(jìn)行實體識別和分類。例如,Sekine等人 [38] 在2002年采用人工預(yù)定義實體分類體系首次展示了一個層次結(jié)構(gòu)的命名實體分類框架,將全網(wǎng)的實體分為了150個種類。Ling等人 [39] 在此基礎(chǔ)上接著在2012年提出了112種的分類方法,該方法基于Freebase類型獨特標(biāo)記方法,先利用Wikipedia文件中的錨鏈接自動標(biāo)記實體段,訓(xùn)練條件隨機場模型,用來分割識別到的實體邊界,接著采用自適應(yīng)感知器算法實現(xiàn)對多類多標(biāo)簽實體的自動分類。
實體分類體系通過人工干預(yù)進(jìn)行構(gòu)建顯得很是困難,因此,出現(xiàn)了通過統(tǒng)計機器學(xué)習(xí)方法從數(shù)據(jù)集抽取與當(dāng)前類別實體具有相似上下文特征的實體,從而實現(xiàn)分類和聚類的方法。Jain等人 [40] 提出并實例化了一種用于通過web搜索查詢?nèi)罩具M(jìn)行公開信息提取的新穎模型。該方法的處理對象是網(wǎng)頁中的查詢?nèi)罩荆ㄟ^應(yīng)用基于模式的啟發(fā)式方法和統(tǒng)計方法,使用無監(jiān)督方法從搜索查詢?nèi)罩局刑崛嶓w,采用聚類算法對基于日志搜索得到的實體進(jìn)行聚類,進(jìn)而得到分類。這是一種面向開放域的無監(jiān)督學(xué)習(xí)算法,該方法可以應(yīng)用在協(xié)助搜索的關(guān)鍵字生成方面,例如搜索“手機”出現(xiàn)“華為”“小米”等建議。
由于傳統(tǒng)統(tǒng)計模型需要進(jìn)行大量語料標(biāo)注、人工構(gòu)造大量特征的局限性,出現(xiàn)了一些新方法,例如,使用基于半監(jiān)督算法 [41] 、遠(yuǎn)距離監(jiān)督算法 [42] 、基于海量數(shù)據(jù)冗余性 [20] 的自學(xué)習(xí)方法等來解決開放式實體抽取問題。面向開放域的實體抽取方法常應(yīng)用于基于常識的新穎的問答系統(tǒng) [24]。
3.2. 關(guān)系抽取
命名實體識別是從文本中抽取特定實體,但僅孤立、離散的實體是無法得到語義結(jié)構(gòu)無法滿足應(yīng)用需求的,這時候確立實體之間的關(guān)聯(lián)關(guān)系顯得更為重要。實體關(guān)系抽取是對已經(jīng)識別出的實體進(jìn)行預(yù)定義的關(guān)系識別,為更深層次的分析提供資源也是知識圖譜構(gòu)建的重要環(huán)節(jié)之一。
關(guān)系抽取是一種獲取已經(jīng)識別出的實體之間的語法或語義之間連接方式的技術(shù)。和命名實體識別類似,關(guān)系抽取中實體關(guān)系的類型也需要預(yù)先定義,例如人物之間的親屬關(guān)系、組織機構(gòu)和地點之間的關(guān)系等等。
關(guān)系抽取的范圍分為面向特定領(lǐng)域(Close Domain)、面向開放領(lǐng)域(Open Domain)以及聯(lián)合推理三大類。面向特定領(lǐng)域的關(guān)系抽取方法和實體識別相似,前期主要使用基于模式匹配和基于詞典驅(qū)動的方法,依靠人工編寫抽取規(guī)則。隨著人工構(gòu)造規(guī)則低效性和領(lǐng)域局限性的明顯化以及研究的深入,現(xiàn)在較多使用的兩類方法是:基于機器學(xué)習(xí)(Machine Learning)的方法和基于本體(Ontology)的方法。其中,基于機器學(xué)習(xí)的方法又分為有監(jiān)督、弱監(jiān)督和無監(jiān)督三類。在面向開放域的關(guān)系抽取發(fā)展中出現(xiàn)了以O(shè)IE系統(tǒng)為基礎(chǔ)的多個系統(tǒng),例如,WOE系統(tǒng)、OIE ReVerb系統(tǒng)、OILLIE系統(tǒng)等,實現(xiàn)了動詞、非動詞的關(guān)系抽取和二元、多元的關(guān)系抽取。同時,為了解決隱含關(guān)系的抽取,產(chǎn)生了將面向開放域的關(guān)系抽取方法與傳統(tǒng)面向特定領(lǐng)域的信息抽取方法相結(jié)合的聯(lián)合推理的思想,是關(guān)系抽取方法上的一個巨大進(jìn)步。
3.2.1. 基于機器學(xué)習(xí)(Machine Learning)的辦法
基于機器學(xué)習(xí)的實體關(guān)系抽取方法的思想是:首先對人工標(biāo)注的語料庫進(jìn)行不斷學(xué)習(xí)不斷訓(xùn)練,獲取特定領(lǐng)域的信息抽取規(guī)則,接著利用機器學(xué)習(xí)算法進(jìn)行關(guān)系識別?;跈C器學(xué)習(xí)的實體關(guān)系抽取系統(tǒng)一定程度上可以處理新的文本,這是其區(qū)別于以往方法的最大優(yōu)點?;跈C器學(xué)習(xí)的方法根據(jù)是否需要人工標(biāo)注訓(xùn)練集以及對標(biāo)簽的需求程度又分為有監(jiān)督、弱監(jiān)督和無監(jiān)督三類 [43]。
1) 有監(jiān)督的學(xué)習(xí)方法
有監(jiān)督的學(xué)習(xí)方法需要人工預(yù)先標(biāo)注大量語料訓(xùn)練集以確保算法的有效性,然后對訓(xùn)練集進(jìn)行不斷學(xué)習(xí)獲取信息抽取規(guī)則。關(guān)系抽取的有監(jiān)督學(xué)習(xí)可以分為兩大類:基于特征向量的方法和基于核的方法。
最早的有監(jiān)督的學(xué)習(xí)方法是基于特征向量的學(xué)習(xí)方法。該方法將訓(xùn)練語料轉(zhuǎn)換為特征向量形式,使用各種機器學(xué)習(xí)算法(最大熵模型(Maximum Entropy)、支持向量機(Support Vector Machine, SVM))為其構(gòu)造分類器,從而對新數(shù)據(jù)進(jìn)行分類和測試?;谔卣飨蛄康姆椒▽⑿畔⒊槿栴}看作分類問題,對數(shù)據(jù)的正確分類即對信息的正確抽取。其研究重點是如何獲取各種有效的詞匯、語法和語義特征進(jìn)行集成。Zhou等人 [44] 使用支持向量機,運用了多種詞匯、語法解析樹、依存樹特征,并且加入了各種語義信息,如WordNet、名稱列表name list、分塊短語信息等,實現(xiàn)了基于特征的關(guān)系提取,使用語言數(shù)據(jù)協(xié)會(Linguistic Data Consortium, LDC) 1提供的ACE語料,抽取出了ACE 2004定義的7大類關(guān)系類型。這些基于有監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)實體的類別信息特征的提取有助于提高關(guān)系抽取性能。
基于核函數(shù)的方法以核函數(shù)理論為基礎(chǔ),以結(jié)構(gòu)樹為處理對象,通過直接計算兩個離散對象(如語法結(jié)構(gòu)樹)之間的相似度來進(jìn)行分類,不需要構(gòu)造高維特征向量空間。核函數(shù)方法可以有效地利用句法樹中的結(jié)構(gòu)化信息,已成功應(yīng)用于文本分類和生物信息學(xué)等問題。Liu等人 [45] 借助HowNet提供的本體知識構(gòu)造語義核函數(shù),在開放數(shù)據(jù)集上對六類ACE定義的實體進(jìn)行識別,準(zhǔn)確率達(dá)到了88%。Zhuang等人 [46] 提出了使用卷積樹核方法進(jìn)行實體語義抽取,在關(guān)系的結(jié)構(gòu)化信息中加入實體的語義信息,應(yīng)用樹裁剪策略,在減少冗余信息的同時擴充了原有的樹結(jié)構(gòu),使之包含更豐富的實體語義信息。通過直接計算兩個實體關(guān)系對象(即句法樹)的相同子樹的個數(shù)來比較相似度,也改善了實體語義關(guān)系識別抽取的效果。實驗數(shù)據(jù)取自ACE RDC 2004中的347篇新聞報道,共有4307個關(guān)系實例,系統(tǒng)對ACE所定義的7個大類進(jìn)行關(guān)系抽取實驗。Zelenko等人 [47] 在淺層句法分析樹基礎(chǔ)上定義了核函數(shù),并設(shè)計了一個用于計算核函數(shù)的動態(tài)規(guī)劃算法,然后通過支持向量機和表決感知器(Voted Perceptron)等分類算法來抽取實體語義關(guān)系,系統(tǒng)對200篇新聞文章(語料庫包含來自不同新聞社和出版物(美聯(lián)社,《華爾街日報》,《華盛頓郵報》,《洛杉磯時報》)進(jìn)行處理,最終提取得到兩種關(guān)系,“人員–隸屬”關(guān)系(一個特定的人從屬于一個特定的組織(如“小王是騰訊公司的程序開發(fā)工程師”中在人物“小王”和組織“騰訊公司”之間存在著人員–隸屬關(guān)系)和“組織–位置”關(guān)系。
2) 弱監(jiān)督的方法
弱監(jiān)督學(xué)習(xí)方法又稱為半監(jiān)督學(xué)習(xí),使用預(yù)先定義的關(guān)系類型和關(guān)系實例的種子來取代大量的人工信息標(biāo)注過程,減輕了對標(biāo)簽的依賴。在定義了適當(dāng)?shù)膶嶓w作為種子之后,利用機器學(xué)習(xí)方法,挖掘?qū)?yīng)關(guān)系描述模式,通過模式匹配抽取新的關(guān)系實例。關(guān)系抽取的弱監(jiān)督學(xué)習(xí)中基于Bootstrap算法、基于神經(jīng)網(wǎng)絡(luò)模型是經(jīng)典的學(xué)習(xí)方法。
基于Bootstrap算法的半監(jiān)督學(xué)習(xí)方法由Carlson等人 [48] 提出,該算法實現(xiàn)了自動實體關(guān)系建模,首先利用少量實例作為初始種子集合,通過Pattern方式迭代學(xué)習(xí)非結(jié)構(gòu)文本以獲取新實例,接著從新實例中繼續(xù)學(xué)習(xí)并擴展Pattern集合。Wang等人 [49] 以原始文本為輸入,提出使用一個單一的模型、端到端聯(lián)合識別邊界、實體提及的類型和關(guān)系,使用了一種基于結(jié)構(gòu)感知器的增量聯(lián)合框架,利用有效的集束搜索進(jìn)行實體和關(guān)系的抽取,該框架使用基于半馬爾可夫鏈思想實現(xiàn)基于分段的解碼算法。此后,Brin等人 [50] 發(fā)布了DIPRE系統(tǒng),該系統(tǒng)使用少量的種子模板,從網(wǎng)絡(luò)上大量非結(jié)構(gòu)文本中抽取實例,通過新的實例學(xué)習(xí)新的抽取模板,設(shè)計了一個永無止境學(xué)習(xí)者系統(tǒng)(Never-Ending Language Learner, NELL),用來不間斷抽取學(xué)習(xí)網(wǎng)絡(luò)文本中信息到結(jié)構(gòu)化知識庫中,對數(shù)據(jù)庫中的事實、知識不斷擴充。NELL主要學(xué)習(xí)的是兩種類型的知識,一種是表示特定類別的詞匯(比如,公司,家,學(xué)校),另一種是表示特定關(guān)系的名詞對(比如,表示所屬關(guān)系的(小王,騰訊公司))。通過在前人抽取系統(tǒng)基礎(chǔ)上進(jìn)行大規(guī)模Pattern構(gòu)建或完善對新抽取實例、新構(gòu)建Pattern的描述限制,很多系統(tǒng)如Snowball系統(tǒng) [42] 、NELL系統(tǒng) [51] 相繼出現(xiàn),推動了知識圖譜的構(gòu)建進(jìn)度。
斯坦福大學(xué)(Stanford University)的Mintz等人 [52] 于2009提出基于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的無標(biāo)注文本的關(guān)系抽取方法。該方法以Freebase為訓(xùn)練數(shù)據(jù)進(jìn)行遠(yuǎn)距離監(jiān)督學(xué)習(xí),設(shè)計面向文本特征的分類器,是融合了有監(jiān)督和無監(jiān)督的信息抽取方法;何婷婷 [53] 提出了基于種子的自擴展命名實體關(guān)系抽取方法,選取有關(guān)系的命名實體對作為初始關(guān)系種子集合,通過弱監(jiān)督學(xué)習(xí)擴展關(guān)系種子,接著計算關(guān)系種子和命名實體對之間的上下文相似度,進(jìn)而抽取新的命名實體對。
3) 無監(jiān)督的方法
無監(jiān)督方法使用未經(jīng)人工標(biāo)注的訓(xùn)練文本集,通過實體對聚類的方法,構(gòu)造分類器,給定實體間的關(guān)系。無監(jiān)督學(xué)習(xí)主要利用語料中大量冗余信息進(jìn)行聚類分析,進(jìn)而得到實體間關(guān)系 [5]。無監(jiān)督方法既可以處理web文檔也可以對文本文檔進(jìn)行處理。
無監(jiān)督方法可以用來對web文檔信息進(jìn)行抽取。Kathrin [54] 實現(xiàn)了基于無監(jiān)督學(xué)習(xí)的web文檔信息抽取,過程分為預(yù)處理、關(guān)系抽取和關(guān)系聚類三步;同樣地,Etzioni等人 [37] 實現(xiàn)了一個web信息抽取系統(tǒng)KNOWITALL,通過無監(jiān)督方法實現(xiàn)了高召回率(Recall)的信息抽取。
實體之間語義關(guān)系的抽取是web挖掘和自然語言處理,例如信息提取,關(guān)系檢測和社交網(wǎng)絡(luò)挖掘中各種任務(wù)的重要第一步。Hashimoto等人 [55] 提出了一種詞嵌入的方法對語義關(guān)系進(jìn)行分類(監(jiān)督學(xué)習(xí)),詞嵌入通過借助大型未標(biāo)注語料庫中特定關(guān)系的詞匯特征來預(yù)測得到名詞對中的特征,接著詞嵌入用于構(gòu)建特征向量,最終特征向量被訓(xùn)練成一個關(guān)系分類模型。Hashimoto等人 [55] 使用原始Wikipedia文件中提取的8000萬個句子作為訓(xùn)練數(shù)據(jù)進(jìn)行詞嵌入的預(yù)訓(xùn)練,最后將文本中的名詞對之間的關(guān)系分為9個特定關(guān)系類(比如原因–結(jié)果、物質(zhì)–來源)和1個其他關(guān)系類(例如,“養(yǎng)家糊口是人們努力賺錢的很大動力之一”中“養(yǎng)家糊口”–“賺錢”之間存在因果關(guān)系)。無監(jiān)督方法也可以通過協(xié)同聚類算法實現(xiàn)。Bollegala等人 [56] 提取了實體之間的語義關(guān)系,使用順序聯(lián)合聚類(co-clustering)算法,從未標(biāo)記數(shù)據(jù)中提取大量有效關(guān)系,包括語義關(guān)系的雙重關(guān)系(比如獲取關(guān)系,房地產(chǎn)公司購買了一棟老洋房,同時可以表示為,老洋房被房地產(chǎn)公司收購)。該方法使用算法產(chǎn)生的聚類,訓(xùn)練了一個L1正則化邏輯回歸模型識別用來描述聚類表達(dá)關(guān)系的模式 [56]。其中提出的模型對ENT基準(zhǔn)數(shù)據(jù)集中實體對之間的關(guān)系相似性進(jìn)行了計算;對SENT500基準(zhǔn)數(shù)據(jù)集的500個手動注釋的句子中的四種語義關(guān)系進(jìn)行了開放信息提取;以及對包含3500萬個節(jié)點的社交網(wǎng)絡(luò)系統(tǒng)中53種不同的關(guān)系進(jìn)行了識別和分類。
無監(jiān)督方法可以用來對文本信息進(jìn)行抽取。文獻(xiàn) [57] 通過將非結(jié)構(gòu)化文本與知識庫對齊來自動生成大量訓(xùn)練數(shù)據(jù)。文獻(xiàn) [58] 嘗試將遠(yuǎn)程監(jiān)督納入文本處理中,以通過使語料和文本對齊來自動生成訓(xùn)練樣本,從而提取特征訓(xùn)練分類器。
除了上述方法,Zhang等人 [45] 提出了基于實例的無監(jiān)督學(xué)習(xí)方法,能夠?qū)嶓w之間的雇傭關(guān)系、生產(chǎn)關(guān)系以及位置關(guān)系進(jìn)行準(zhǔn)確的識別;Ji等人 [59] 提出了一個句子級別的注意力機制模型,該模型選擇多個有效實例并充分利用知識庫中的監(jiān)督信息,使用傳統(tǒng)CNN從Freebase或Wikipedia中抽取得到的實體特征信息來豐富實例的背景知識,提高實體表示。Qi等人 [45] 使用Riedel 2010開發(fā)通過將NYT語料對齊知識庫得到的數(shù)據(jù)進(jìn)行實驗。
4) 深度學(xué)習(xí)方法
深度學(xué)習(xí)方法在自然語言處理(NLP)和圖像識別方面表現(xiàn)的性能非常強大,使得眾多研究者將其應(yīng)用于解決關(guān)系抽取的問題。深度網(wǎng)絡(luò)的結(jié)構(gòu)有很多種,如RNN (Recurrent Neural Networks) [9],CNNS (Convolutional Neural Networks) [3],CNNs和RNNs的結(jié)合結(jié)構(gòu) [60] [61] 以及LSTMs (Long Short-Term Memories) [62]?;谏窠?jīng)網(wǎng)絡(luò)模型不需要加入太多的特征,一般加入詞向量特征、位置特征等就可以。Hsahimoto等人 [45] 利用Word Embedding方法來學(xué)習(xí)給定標(biāo)注預(yù)料中特定名詞對應(yīng)的上下文特征,將特征加入神經(jīng)網(wǎng)絡(luò)分類器中;JainPoon等人 [63] 使用了用于關(guān)系提取的卷積神經(jīng)網(wǎng)絡(luò)(CNN),針對不平衡語料庫,自動從句子中學(xué)習(xí)特征并最大程度地減少對外部工具包和資源的依賴,從而擺脫了傳統(tǒng)的復(fù)雜特征工程方法。該模型利用無監(jiān)督框架自動訓(xùn)練詞嵌入作為系統(tǒng)輸入,模型使用預(yù)訓(xùn)練的詞嵌入進(jìn)行初始化,并優(yōu)化詞嵌入和位置嵌入作為模型參數(shù),對句子中兩個實體間的相對距離進(jìn)行編碼,并且提供了多種窗口大小的卷積過濾器,從而使網(wǎng)絡(luò)適合于n元關(guān)系提取。從文本中提取實體對之間的語義關(guān)系可以用于信息抽取、知識庫填充、問題解答等等。Zeng等人 [64] 將分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)與多實例學(xué)習(xí)一起用于遠(yuǎn)程監(jiān)督關(guān)系提取。此方法中,無需復(fù)雜的NLP預(yù)處理即可自動學(xué)習(xí)特征。Zhang等人 [65] 提出了將LSTM序列模型與實體位置感知相結(jié)合的關(guān)系抽取神經(jīng)序列模型,通過更好的監(jiān)督數(shù)據(jù)和更合適的大容量模型的結(jié)合實現(xiàn)了更好的關(guān)系提取性能。
以上四種機器學(xué)習(xí)方法均可以對實體關(guān)系進(jìn)行抽取。有監(jiān)督的信息抽取方法需要預(yù)先人工標(biāo)注大量語料集,對人工的依賴性較強,抽取的準(zhǔn)確率較高,常常用來處理自然語言文本;弱監(jiān)督學(xué)習(xí)減少了對標(biāo)簽的依賴,降低了對人工的依賴,其使用了預(yù)先定義的關(guān)系類型和關(guān)系實例的種子,實現(xiàn)了很多自動關(guān)系抽取模型,推動了知識圖譜的構(gòu)建進(jìn)度;無監(jiān)督方法使用的文本集不需要進(jìn)行人工標(biāo)注,它使用實體對聚類方法實現(xiàn)關(guān)系抽取。弱監(jiān)督以及無監(jiān)督學(xué)習(xí)常常用來處理規(guī)模大的web文本。深度學(xué)習(xí)方法通過引入神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步提升了關(guān)系抽取的自動化程度,并取得了更優(yōu)秀的關(guān)系提取性能。
3.2.2. 基于本體(Ontology)的方法
基于本體的信息抽取技術(shù),借助預(yù)定義的本體層次結(jié)構(gòu),可有效識別特定領(lǐng)域的概念、實體、關(guān)系等知識。本體可以看作一個呈樹狀結(jié)構(gòu)的知識庫模具,是同一領(lǐng)域內(nèi)不同主體之間進(jìn)行交流、連通的語義基礎(chǔ) [66]。
本體的構(gòu)建是信息抽取的基礎(chǔ),本體的構(gòu)建方法也隨著技術(shù)的發(fā)展逐漸從人工構(gòu)建、半自動化構(gòu)建向自動構(gòu)建發(fā)展。人工構(gòu)建本體由大量的領(lǐng)域?qū)<蚁嗷f(xié)作完成,Swartout等人 [67] 提出的循環(huán)獲取法(CYC),Nov等人 [68] 提出的Ontology Development 101 (七步法)都是人工構(gòu)建的經(jīng)典方法,其步驟包括確定領(lǐng)域范圍、復(fù)用現(xiàn)有本體、列出概念術(shù)語、定義類與類之間的層次關(guān)系、定義屬性之間關(guān)系、定義屬性的約束和創(chuàng)建實例。但是七步法存在主觀性強,評價機制弱的缺陷,缺少科學(xué)管理和評價機制。
半自動化構(gòu)建本體主要是利用相關(guān)領(lǐng)域內(nèi)的專業(yè)詞典、敘詞表等專家知識從中抽取感興趣的概念和關(guān)系,構(gòu)建需要的實體 [69]。這類方法復(fù)用了本體中的概念和關(guān)系帶來了不同本體匹配的問題。
自動構(gòu)建本體利用知識獲取技術(shù)、機器學(xué)習(xí)方法以及統(tǒng)計的思想和技術(shù)從數(shù)據(jù)資源中自動獲取本體知識。其具體方法分為基于語言規(guī)則和基于機器學(xué)習(xí)方法兩類?;谡Z言規(guī)則的方法 [70],通過對自然域文本的分析,提取候選關(guān)系并將其映射到預(yù)定義的語義表示中實現(xiàn)本體的構(gòu)建。這類方法中一個動詞可以表示兩個或多個概念之間的關(guān)系。但也存在以下缺點:1) 不會發(fā)現(xiàn)新的關(guān)系,只是發(fā)現(xiàn)已知關(guān)系實例;2) 本體構(gòu)建的效果依賴于語義模式,因而需事先構(gòu)建較完備的語義模式。另一類是基于統(tǒng)計分析的機器學(xué)習(xí)方法 [71],基于數(shù)據(jù)聚類對用于構(gòu)建每個組的本體樹的文檔進(jìn)行分組,使用模式樹挖掘從部分本體樹構(gòu)建集成本體進(jìn)行結(jié)構(gòu)化的本體構(gòu)建。其中,文檔聚類主要通過潛在語義分析(Latent Semantic Analysis, LSA)和K-Means等檢索關(guān)鍵字關(guān)系矩陣的方法來實現(xiàn);本體構(gòu)建主要通過形式概念分析和本體集成實現(xiàn)。機器學(xué)習(xí)方法比起基于規(guī)則的方法適用于范圍更廣的領(lǐng)域,構(gòu)建的本體傾向于更好地描述概念間的關(guān)系,結(jié)構(gòu)也更加復(fù)雜。但是,缺乏必要的語義邏輯基礎(chǔ),因此抽取概念關(guān)系松散且可信度無法得到很好的保證。信息抽取可以通過一個或者多個本體實現(xiàn)。Moreno [72] 提出了在一個獨立域中基于本體實現(xiàn)信息抽取的方法,應(yīng)用面向分子生物學(xué)領(lǐng)域,對大腸桿菌信息進(jìn)行抽取,建立大腸桿菌監(jiān)管網(wǎng)絡(luò),所建設(shè)的系統(tǒng)對該領(lǐng)域科學(xué)論文的摘要和完整文獻(xiàn)進(jìn)行了測試,先設(shè)計領(lǐng)域本體,然后根據(jù)本體所包含的知識實現(xiàn)信息抽取。Li等 [73] 人實現(xiàn)了基于農(nóng)業(yè)本體的農(nóng)業(yè)領(lǐng)域?qū)Y(jié)構(gòu)化的AJAX數(shù)據(jù)的提取。Daya [74] 提出了使用多個本體進(jìn)行信息抽取,分別在子域的確定和子域的表達(dá)兩種情況下使用多個本體,所實現(xiàn)的第一個基于多本體的系統(tǒng)是針對大學(xué)領(lǐng)域開發(fā)的,它使用兩種專門針對子域的本體,語料庫由100所大學(xué),50所來自北美和50所來自世界其他地區(qū)的網(wǎng)頁組成文獻(xiàn)。實現(xiàn)的第二個系統(tǒng)應(yīng)用在恐怖襲擊的領(lǐng)域和消息理解會議(MUC)使用的語料庫實現(xiàn)子域的表達(dá)。
3.2.3. 基于開放域的關(guān)系抽取
隨著大數(shù)據(jù)時代的來臨,文本數(shù)據(jù)急劇增多,數(shù)據(jù)規(guī)模增大,傳統(tǒng)的領(lǐng)域受限的、限制語義關(guān)系的信息抽取方法、知識表示結(jié)構(gòu)出現(xiàn)了很大的局限性。之前的信息抽取方法面向的是特定數(shù)量的文本需要預(yù)先定義好的關(guān)系類別,領(lǐng)域知識也是由本體(Ontology)結(jié)構(gòu)來表示,隨著處理數(shù)據(jù)的海量化,本體構(gòu)建越來越困難,抽取方法也開始出現(xiàn)問題。并且面向特定領(lǐng)域的抽取方法導(dǎo)致了信息抽取技術(shù)的難以普及和擴展,系統(tǒng)的可移植性差。
面向開放域的關(guān)系抽取技術(shù)直接利用語料庫的中關(guān)系詞匯進(jìn)行實體關(guān)系分類建模,不再需要預(yù)先指定關(guān)系的分類,就可以實現(xiàn)數(shù)據(jù)分類。該方法成為了抽取模式上的一個巨大進(jìn)步。開放式IE系統(tǒng)都采取標(biāo)簽–學(xué)習(xí)–提取三個步驟的方法:首先使用啟發(fā)式或遠(yuǎn)距離監(jiān)督方法自動標(biāo)記句子;接著使用序列標(biāo)記圖形模型(例如CRF)學(xué)習(xí)關(guān)系短語提取器;最后系統(tǒng)將一個句子作為輸入,從句子中識別出參數(shù),利用提取器將兩個自變量之間的每個單詞標(biāo)記為關(guān)系短語的一部分或不作為關(guān)系短語的一部分。抽取器用于語料庫中的連續(xù)句子,然后收集所得的抽取內(nèi)容 [11]。
華盛頓圖靈中心的Banko等人 [16] [75] [76] 在2007年提出了面向開放領(lǐng)域的信息抽取框架(Open Information Extraction, OIE),發(fā)布了基于自監(jiān)督學(xué)習(xí)方式的開放信息抽取原型系統(tǒng)TextRunner,標(biāo)志著第一個OIE系統(tǒng)的問世。TextRunner (O-CRF)首先利用啟發(fā)式規(guī)則來訓(xùn)練樣本,然后采用二階線性鏈條件隨機場抽取器從開放式文本中自動抽取關(guān)系三元組 [16]。TextRunner可以自動抽取文本中大量實體關(guān)系,但是在準(zhǔn)確率跟召回率方面不是很理想。
Wu等人 [77] 2010年在OIE的基礎(chǔ)上提出了基于Wikipedia的WOE (Wikipedia-based Open Extractor)系統(tǒng),將Wikipedia作為數(shù)據(jù)源利用維基百科網(wǎng)頁信息框(Infobox)中的屬性信息經(jīng)自監(jiān)督學(xué)習(xí)與相應(yīng)語句匹配,自動構(gòu)造實體關(guān)系訓(xùn)練集,然后從樣本中抽取出關(guān)系獨立的訓(xùn)練數(shù)據(jù)經(jīng)自監(jiān)督學(xué)習(xí)得到抽取器。WOE系統(tǒng)實現(xiàn)了大批量構(gòu)造高質(zhì)量訓(xùn)練語料的方法,并且在準(zhǔn)確率跟召回率方面都得到了改善,令人遺憾的是它速度方面出現(xiàn)了不足。Fader等人 [20] 在TextRunner系統(tǒng)和WOE系統(tǒng)基礎(chǔ)上引入了語法限制條件和字典約束,進(jìn)行關(guān)系指示詞的預(yù)識別,消除了不合理實體關(guān)系三元組的生成。
隨著研究的進(jìn)一步發(fā)展,出現(xiàn)了第二代OIE系統(tǒng)ReVerb [20] [78],基于通用句法和詞法約束實現(xiàn)了關(guān)系短語識別器,處理的是隨機抽取的英語句子,對其進(jìn)行全面語言分析,使用動詞表達(dá)句子中關(guān)系,抽取得到動詞關(guān)系短語(例如,句子“Mr. Wang fought against Mr. Li,but finally lost the job”,系統(tǒng)將抽取出兩組元組:(Mr. Wang, fought against, Mr. Li)和(Mr. Li, lost, the job))。Etzioni等人 [11] 通過應(yīng)用淺層句法約束和詞性約束減少了無意義信息以及錯誤信息的產(chǎn)生,所設(shè)計的Reverb系統(tǒng)主要進(jìn)行動詞關(guān)系的抽取,先抽取滿足約束的關(guān)系,然后依據(jù)臨近原則確定左右實體。REVERB支持學(xué)習(xí)選擇偏好,獲取常識知識,識別蘊含規(guī)則等等。
Mausam等人 [20] 在第二代OIE基礎(chǔ)上提出了支持非動詞性關(guān)系抽取的OILLIE (Open Language Learning for Information Extraction)系統(tǒng),有效彌補了以往OIE系統(tǒng)抽取以動詞為主而忽略名詞形容詞的缺陷,開始結(jié)合上下文全局分析而不是僅對語句局部分析、部分抽取,有效改善了自動抽取系統(tǒng)的召回率和準(zhǔn)確率。McCallum等人 [75] 提出了后期采用關(guān)系推理的方法,有效地提高了隱含語義關(guān)系的發(fā)現(xiàn)識別能力。
以上提到的抽取方法都是二元的開放式關(guān)系抽取。開放式的關(guān)系抽取按抽取關(guān)系的復(fù)雜程度可以分為二元和多元。Alan等人 [79] 提出了基于N元關(guān)系模型的OIE系統(tǒng),對除了常見二元實體關(guān)系的高階多元實體關(guān)系進(jìn)行識別;文獻(xiàn) [79] 在OIE ReVerb系統(tǒng)上提出了KPAKEN方法,通過輸入Stanford的依存分析結(jié)果,經(jīng)過檢測事件短語、檢測實體主導(dǎo)詞、檢測全部實體等步驟,實現(xiàn)了對任意英文語句中的N元實體關(guān)系的抽取。Del等人 [80] 提出了一種新穎的基于條款的開放信息提取方法,稱為ClausIE,該方法從自然語言文本中提取關(guān)系及其參數(shù),ClausIE基于依賴性分析和一小組與域無關(guān)的詞典,無需經(jīng)過任何后處理即可逐句操作,并且不需要訓(xùn)練數(shù)據(jù)(無論是帶標(biāo)簽的還是無標(biāo)簽的)。ClausIE利用英語語法知識來首先檢測輸入句子中的從句,并隨后根據(jù)其組成部分的語法功能識別每個從句的類型。根據(jù)此信息,ClausIE能夠生成高精度提取系統(tǒng),在實驗中使用了三個不同的數(shù)據(jù)集:包含手工標(biāo)記的500句子的Reverb數(shù)據(jù)集;從Wikipedia頁面中隨機提取的200個句子;從《紐約時報》合集隨機提取的200個隨機句子。ClausIE依據(jù)依存關(guān)系獲取子句集合,并將其按類型靈活組合來抽取實體的N元關(guān)系。由于N元關(guān)系具有更加豐富的語義,因此由二元關(guān)系向N元關(guān)系的過渡是必然的,也是以后的研究發(fā)展方向。
隨著理論研究的不斷進(jìn)行,更多面向開放域理論模型的出現(xiàn),更優(yōu)秀的知識表示結(jié)構(gòu)的出現(xiàn),更多研究成果正不斷投入實踐應(yīng)用中,信息抽取研究正在不斷取得進(jìn)步,正在獲得更大更開放的發(fā)展空間,為后續(xù)知識圖譜的高質(zhì)量構(gòu)建提供了有力保障。
3.2.4. 聯(lián)合推理
隱含關(guān)系抽取是關(guān)系抽取的一大難點。因此,為了挖掘文本中的隱含的深層語義信息,一些學(xué)者將面向開放域的關(guān)系抽取方法與傳統(tǒng)面向特定領(lǐng)域(Close Domain)的信息抽取方法相結(jié)合,取長補短,提出了聯(lián)合推理(Joint Inference)的概念 [25]。JainPoon等人 [63] 提出了一種完全聯(lián)合方法。目前聯(lián)合推理主要包括基于馬爾科夫邏輯網(wǎng)和基于粗略至精細(xì)(Coarse-to-Fine)的本體推理兩種。
1) 基于Markov邏輯網(wǎng)的邏輯推理
基于馬爾可夫邏輯網(wǎng)MLN (Markov Logic Network) [79] [81] 的方法是聯(lián)合推理關(guān)系抽取中的經(jīng)典方法,該方法在OIE中加入了推理,將馬爾可夫網(wǎng)絡(luò)與一階邏輯相結(jié)合,維護(hù)一個基于一階邏輯的規(guī)則庫,并對每一個邏輯規(guī)則附上權(quán)重,構(gòu)建統(tǒng)計關(guān)系學(xué)習(xí)框架。其中馬爾可夫邏輯是一種強大的新語言,將一階邏輯與概率圖形模型無縫結(jié)合 [77]。MLN的基本推理任務(wù)是尋找一個值從而使得可滿足的子句的權(quán)值最大,即MAP (Maximum A Posteriori)推理。MLN可看作一種用一階邏輯公式來實例化Markov網(wǎng)絡(luò)的模板語言。該方法在語義角色標(biāo)注、共指消解、文本蘊含、實體鏈接消歧等研究方面有很好的應(yīng)用。
微軟公司的人立方(Renlifang)項目基于該方法提出了StatSnowball模型 [59] 實現(xiàn)了自動生成或選擇模板生成抽取器,從web挖掘?qū)嶓w關(guān)系,該模型在小型標(biāo)記數(shù)據(jù)集和大規(guī)模web數(shù)據(jù)中都提現(xiàn)了較好的性能。該方法是一種基于無監(jiān)督自學(xué)習(xí)的知識挖掘模型,可以抽取多種實體關(guān)系,并且可移植性強。人立方系統(tǒng)主要由以下幾個應(yīng)用:1) 搜索實體關(guān)系信息;2) 對話題相關(guān)人物進(jìn)行排序;3) 檢測某實體的受歡迎程度,并使用戶可以瀏覽給定時間段內(nèi)按其在網(wǎng)絡(luò)上的知名度排名的不同類別的實體;4) 對人物進(jìn)行排名?;赟tatSnowball文獻(xiàn) [82] 提出了一種實體識別與關(guān)系抽取相結(jié)合的ENTSum模型,即將實體識別和關(guān)系抽取在一個模型中聯(lián)合處理同時實現(xiàn)。該模型由擴展的CFR命名實體抽取模塊和基于StatSnowball的Bootstrapping關(guān)系抽取模塊組成,兩個模塊使用迭代方法相結(jié)合,實體識別可以利用關(guān)系抽取的模板語法特征和知識語義特征,使得兩個模塊準(zhǔn)確率和召回率都得到了改善。文獻(xiàn) [75] [83] 提出了一種簡易的Markov邏輯TML (Tractable Markov Logic)。Banko等人 [78] 提出了基于條件隨機場的關(guān)系抽取模型(H-CRF),根據(jù)目標(biāo)數(shù)據(jù)集關(guān)系數(shù)量多少以及有無預(yù)定義的分類模型選擇機器學(xué)習(xí)方法或開放域關(guān)系抽取方法。
2) 基于本體推理的聯(lián)合推理
基于本體推理的聯(lián)合推理面向開放域抽取方法形成的知識庫基本上都是信息的基本存儲并沒有進(jìn)行內(nèi)容的規(guī)范和組織。為了使抽取結(jié)果形成的知識庫成為真正的知識庫,即能夠推斷文本深層含義進(jìn)而從已有事實信息包含的隱含信息中推理出新的知識,能夠為決策和問答所使用。研究者們提出了基于本體推理的信息抽取方法。
Zhang等人 [14] 提出了KOG模型,該方法基于MLN聯(lián)合推理,將Wikipedia的Infobox與WordNet相結(jié)合用于本體結(jié)構(gòu)的構(gòu)建,本體結(jié)構(gòu)是“實體–屬性–屬性值”的結(jié)構(gòu),為Wikipedia的查詢/專題瀏覽功能提供了輔助作用。Moro等人 [84] 提出的VELVET方法利用聯(lián)合推理以及本體平滑方法實現(xiàn)了最弱監(jiān)督下實體關(guān)系的抽取,為結(jié)構(gòu)化知識庫的建立奠定了基礎(chǔ)。Domingos等人 [85] 將概率推理(Lifted Probabilistic Inference)與Markov相結(jié)合,提出了簡易Markov邏輯(Tractable Markov Logic, TML)。在TML邏輯語言中,領(lǐng)域知識按照層次結(jié)構(gòu)分為若干部分,各部分又按照所屬事物類進(jìn)一步分解為若干部分,以此類推,最終形成了一個層次化的類/局部結(jié)構(gòu)。TML被證明是目前最為豐富和高效的邏輯語言之一,可能將來在本體知識推理前進(jìn)中起到推波助瀾的作用。
另外一些學(xué)者提出了采用聯(lián)合抽取模型的方法,典型成果如利用雙層的LSTM-RNN (長短期記憶–遞歸神經(jīng)網(wǎng)絡(luò))模型通過神經(jīng)網(wǎng)絡(luò)進(jìn)行分類模型的訓(xùn)練 [64] 聯(lián)合推理結(jié)合了面向特定領(lǐng)域和面向開放域的方法,在許多方面展示出了優(yōu)勢。對于隱含關(guān)系的抽取和抽取階段的平衡,聯(lián)合推理方法顯現(xiàn)出比主流開放式信息抽取方法更高的性能 [86]。當(dāng)前信息抽取技術(shù)多是順序式抽取,即抽取過程分解為實體識別、關(guān)系抽取、屬性抽取等連續(xù)的多個子任務(wù)再集成。這樣的模式存在些缺陷,比如前一階段無法識別的信息在后一階段將不再被處理,從而出現(xiàn)了信息的缺失和不完整。前一階段的錯誤信息結(jié)果將無法在后面階段進(jìn)行修復(fù),從而在所有階段結(jié)束后大大增加了錯誤率的積累。此外順序式處理方式使前面階段無法使用后面階段出現(xiàn)的有用特征,準(zhǔn)確率和效率得到了限制。而聯(lián)合推理方法不僅能夠綜合各個階段,實現(xiàn)相互補充和促進(jìn),而且可以實現(xiàn)文本深層理解,實現(xiàn)隱含信息的自動推理。因此,聯(lián)合處理的方法將成為之后的研究重點。
3.3. 屬性抽取
屬性抽取是為實體識別而服務(wù)的,屬性可以很好的對實體進(jìn)行刻畫。實體的屬性可以看作實體和屬性值之間的名稱性關(guān)系,因此實體屬性抽取可以視為一種特殊的關(guān)系抽取。屬性抽取的方法之一是從各類百科網(wǎng)站抽取結(jié)構(gòu)化知識作為屬性抽取的訓(xùn)練集,再將模型運用到開放域中的屬性抽取 [12]。例如,Domingos等人 [85] 提出了基于規(guī)則與啟發(fā)式算法的屬性抽取方法,實現(xiàn)了從Wikipedia和WordNet的半結(jié)構(gòu)網(wǎng)頁中自動抽取相應(yīng)屬性名稱與屬性值,而且達(dá)到了很高的準(zhǔn)確率。另一種方法是利用實體屬性與屬性值之間的關(guān)系模式直接從開放域的數(shù)據(jù)集上抽取實體屬性 [87]。Huang等人 [88] 使用DNN架構(gòu)的規(guī)則,模式和約束條件實現(xiàn)了從大量原始文件中提取給定實體的某些屬性類型值即Slot Filling (SF)的提取。
4. 信息抽取方法總結(jié)
信息抽取包括實體抽取、關(guān)系抽取、屬性抽取等多個子任務(wù)。以下分別以應(yīng)用領(lǐng)域、技術(shù)方法以及數(shù)據(jù)源為分類依據(jù)對提及的三個子任務(wù)分別進(jìn)行了介紹。具體的方法和領(lǐng)域分類見表1和表2。
表3. 按處理對象分類
面向開放領(lǐng)域方法信息抽取方法應(yīng)用范圍廣泛,可以很好的處理大規(guī)模數(shù)據(jù),既可以處理自然語言文本,例如文獻(xiàn) [80] 提出的ClausIE模型,文獻(xiàn) [11] 提出的REVERB系統(tǒng)以及基于本體的系統(tǒng) [74] 都是對文本進(jìn)行信息抽取;又可以有效處理web文本,例如文獻(xiàn) [79] 提出N元關(guān)系抽取模型KPAKEN來對網(wǎng)絡(luò)文本進(jìn)行多元關(guān)系抽取。
在面向特定領(lǐng)域的信息抽取關(guān)系抽取方法中,基于有監(jiān)督的抽取方法常用來處理自然語言文本,例如文獻(xiàn) [47] 提出基于核函數(shù)的系統(tǒng),文獻(xiàn) [46] 提出使用卷積樹核方法來對文本中的關(guān)系進(jìn)行抽取,文獻(xiàn) [44] 使用了ACE語料作為輸入來進(jìn)行信息抽取,其數(shù)據(jù)規(guī)模較小,在人工標(biāo)注預(yù)料訓(xùn)練集方面占有優(yōu)勢,通過學(xué)習(xí)訓(xùn)練集得到抽取規(guī)則因此準(zhǔn)確率也較高;基于弱監(jiān)督和無監(jiān)督的抽取方法更多的用來處理大規(guī)模web數(shù)據(jù),其減少了對于人工信息標(biāo)注的需求,實現(xiàn)了對Freebase、Wikipedia等web文檔的信息抽取,并且可以得到較準(zhǔn)確的抽取效果,例如文獻(xiàn) [37] 基于無監(jiān)督的機器學(xué)習(xí)方法提出KNOWITALL系統(tǒng),對web文檔進(jìn)行實體和關(guān)系抽取,文獻(xiàn) [48] 基于弱監(jiān)督機器學(xué)習(xí)方法Bootstrap對實體關(guān)系進(jìn)行抽取,文獻(xiàn) [52] 使用Freebase為數(shù)據(jù)源進(jìn)行基于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的無標(biāo)注文本的關(guān)系抽取,文獻(xiàn) [59] 基于無監(jiān)督方法提出的句子級別注意力級別模型,對Freebase、Wikipedia數(shù)據(jù)進(jìn)行處理,文獻(xiàn) [55] 基于無監(jiān)督方法提出的詞嵌入方法處理Wikipedia文件中的信息。
在實體識別抽取中,基于規(guī)則以及基于統(tǒng)計的實體識別方法通常用來處理自然語言文本,其針對性強,準(zhǔn)確率高,通常在人工標(biāo)注下可以獲得好的識別效果,例如文獻(xiàn) [23] 使用基于規(guī)則的方法實現(xiàn)了以公司名稱為處理對象的,文獻(xiàn) [79] 將K最近鄰(KNN)分類器與線性條件隨機場(CRF)模型相結(jié)合實現(xiàn)了從簡短非正式Twitter文章中進(jìn)行命名實體識別,文獻(xiàn) [30] 使用混合模型將最大熵模型和基于規(guī)則的方法結(jié)合實現(xiàn)了從自然語言文本中識別生物醫(yī)學(xué)命名實體;基于深度學(xué)習(xí)的方法無需人工定義相關(guān)特征通過訓(xùn)練數(shù)據(jù)自主學(xué)習(xí)有用特征然后利用特征進(jìn)行命名實體識別,基于深度學(xué)習(xí)的方法既用來處理單領(lǐng)域自然文本,例如文獻(xiàn) [35] 以科學(xué)文章為處理對象使用神經(jīng)標(biāo)記模型實現(xiàn)從科研文章中提取關(guān)鍵字短語,深度學(xué)習(xí)也可以用來處理web數(shù)據(jù)例如文獻(xiàn) [33] 提出了一種半監(jiān)督系統(tǒng)對Twitter微博進(jìn)行實體識別和分布式表示。
信息抽取的數(shù)據(jù)來源除了自然語言文本以及web文本這兩種數(shù)據(jù)源外,社交網(wǎng)絡(luò)數(shù)據(jù)也是一種豐富數(shù)據(jù)源。社交網(wǎng)絡(luò)節(jié)點規(guī)模大且關(guān)系種類繁多,文獻(xiàn) [56] 提出了基于無監(jiān)督方法使用順序聯(lián)合聚類算法對包含多個節(jié)點的社交網(wǎng)絡(luò)中的多種關(guān)系進(jìn)行抽取。
5. 結(jié)束語
本文首先根據(jù)知識圖譜的概念、構(gòu)建技術(shù)框架引出了信息抽取的概念,接著通過三個國際評測會議介紹了信息抽取的發(fā)展歷史;后續(xù)詳細(xì)介紹了信息抽取關(guān)鍵技術(shù),包括實體抽取、關(guān)系抽取和屬性抽取;最后分析了信息抽取的研究趨勢。我們系統(tǒng)性分析了面向知識圖譜信息抽取的常用方法,根據(jù)技術(shù)特點分為實體抽取、關(guān)系抽取以及屬性抽取三類子任務(wù)。其中各個子任務(wù)根據(jù)其應(yīng)用領(lǐng)域分為面向特定領(lǐng)域和面向開放域兩種,根據(jù)其數(shù)據(jù)來源分為面向文本和面向Web兩種。
在面向特定領(lǐng)域的情境下,信息抽取各個子任務(wù)的技術(shù)方法較成熟、經(jīng)典,例如在實體抽取中常用CRF、ME、HMM、NN-CRF等基于統(tǒng)計的模型;在關(guān)系抽取中常使用基于監(jiān)督、半監(jiān)督或無監(jiān)督的機器學(xué)習(xí)方法。
在面向開放領(lǐng)域的應(yīng)用中,隨著大數(shù)據(jù)時代、全網(wǎng)時代的到來,更多新的優(yōu)秀的方法正在不斷地涌現(xiàn)。具體地,在實體識別任務(wù)中,出現(xiàn)了一些基于自學(xué)習(xí)方法的實體分類模型,從而不再需要通過人工構(gòu)造大量語料標(biāo)注、大量的特征;在關(guān)系抽取中,出現(xiàn)了以O(shè)IE框架為基礎(chǔ)的眾多優(yōu)秀系統(tǒng),基本實現(xiàn)了各種詞性間的關(guān)系抽取以及隱含關(guān)系的抽取。
審核編輯:湯梓紅
評論