99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于重疊和嵌套事件抽取領(lǐng)域的主流方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2022-09-30 15:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本研究設(shè)計(jì)了一種簡(jiǎn)單有效的標(biāo)簽系統(tǒng)將重疊和嵌套事件抽取轉(zhuǎn)換成了詞對(duì)關(guān)系分類的任務(wù),觸發(fā)詞、論元以及其間的關(guān)系可以并行地同時(shí)被預(yù)測(cè)出來(lái),達(dá)到非??斓某槿∷俣?,在3個(gè)重疊或嵌套的事件抽取數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果達(dá)到了SOTA。

一、動(dòng)機(jī)介紹

1.1重疊和嵌套事件抽取

事件抽取(Event Extraction,EE)是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)非?;镜娜蝿?wù),在社區(qū)長(zhǎng)久以來(lái)一直得到廣泛的研究。EE的目標(biāo)是從文本中抽取事件觸發(fā)詞和相關(guān)的論元。傳統(tǒng)的事件抽取關(guān)注于普通的事件,認(rèn)為觸發(fā)詞和論元之間沒(méi)有重疊,忽視了復(fù)雜的事件模式,即重疊事件和嵌套事件:

Flat Event:觸發(fā)詞和論元之間沒(méi)有重疊;

Overlapped Event:多個(gè)事件的共享重疊的觸發(fā)詞或論元;

Nested Event:一個(gè)事件的論元是另外一個(gè)事件。

ceff6b20-3fef-11ed-b1c7-dac502259ad0.png

圖1:普通事件(a),重疊事件(b),嵌套事件(c)

以圖1為例,(b)中Investment事件和Share Transfer事件共享了”acquired”這一重疊觸發(fā)詞,以及”Citic Securities”,”Guangzhou Securities”是重疊的論元。(c)中Gene Expression事件是Positive Regulation的Theme論元。

1.2重疊和嵌套事件抽取方法

截止當(dāng)前,重疊和嵌套事件抽取領(lǐng)域的主流方法大致有三類:

基于Pipleline的方法;

基于多輪QA的方法;

基于級(jí)聯(lián)網(wǎng)絡(luò)的方法。

這些方法都是Multi-stage的,用多個(gè)連續(xù)的階段分別抽取事件觸發(fā)詞和論元。其中,基于級(jí)聯(lián)網(wǎng)絡(luò)的方法CasEE是之前的SOTA,CasEE依次預(yù)測(cè)事件類型、抽取觸發(fā)詞、抽取論元。這些Multi-stage的方法后面階段的預(yù)測(cè)依賴于前面的預(yù)測(cè)結(jié)果,難以避免地帶來(lái)了誤差傳播的問(wèn)題。

本研究關(guān)注于構(gòu)建一種高效的EE框架,能夠在一個(gè)階段同時(shí)解決重疊和嵌套的事件抽取。

1.3本文的方法

傳統(tǒng)的事件抽取使用序列標(biāo)注的方法無(wú)法解決重疊和嵌套的問(wèn)題,現(xiàn)有的工作使用指針網(wǎng)絡(luò)分別識(shí)別觸發(fā)詞或論元的頭尾token;我們?cè)卺槍?duì)重疊和嵌套事件的共性進(jìn)行深入挖掘后,發(fā)現(xiàn)可以通過(guò)token-pair之間的關(guān)系分類進(jìn)行統(tǒng)一建模。觸發(fā)詞和論元可以通過(guò)token-head和token-tail之間聯(lián)系,而論元的角色可以通過(guò)觸發(fā)詞和論元之間的關(guān)系建模,例如圖1(b)中觸發(fā)詞”acquired”和論元”Guangzhou Securities”表達(dá)了object關(guān)系。

根據(jù)上述觀察,本文將Overlapped and Nested EE任務(wù)轉(zhuǎn)化成一種詞對(duì)的關(guān)系分類任務(wù),通過(guò)這種標(biāo)簽體系能夠在一個(gè)階段內(nèi)抽取出事件類型、觸發(fā)詞、論元以及論元的角色,在此基礎(chǔ)提出了一種新的EE框架(A One-Stage Framework for Fast Overlapping and Nested Event Extraction),名為OneEE。具體地,該框架的目標(biāo)是將EE轉(zhuǎn)變?yōu)樽R(shí)別出觸發(fā)詞和論元中所蘊(yùn)含的兩種類型的關(guān)系,即:

Span關(guān)系(S-T, S-A);

Role關(guān)系(R-*);

具體的詞對(duì)關(guān)系分類示例如圖2所示。其中S-T表示兩個(gè)詞是某個(gè)觸發(fā)詞的頭部和尾部,S-A表示兩個(gè)詞是某個(gè)論元的頭部和尾部(如”Citic”->”Securities”,Argument),R-*表示該詞作為觸發(fā)詞的事件中,另一個(gè)詞扮演了角色類型為*的論元(如“acquired”->“Citic Securities”,Subject)。

cf146d68-3fef-11ed-b1c7-dac502259ad0.png

圖2:關(guān)系分類示例

二、模型框架

圖3給出了OneEE整體的框架結(jié)構(gòu)。其整體可分為三層:輸入編碼層,自適應(yīng)事件融合曾以及最后的聯(lián)合解碼層。其中解碼層是本論文的核心。

cfa6247e-3fef-11ed-b1c7-dac502259ad0.png

圖3:模型整體結(jié)構(gòu)

2.1 編碼層

給定一個(gè)輸入句子,將每一個(gè)詞轉(zhuǎn)換成多個(gè)word piece,并將他們輸入預(yù)訓(xùn)練的BERT模塊中。進(jìn)過(guò)BERT計(jì)算后,使用最大池化操作將這些word piece表示重新聚合成詞表示。

2.2 自適應(yīng)事件融合層

由于該框架的目標(biāo)是預(yù)測(cè)目標(biāo)事件類型的詞對(duì)之間的關(guān)系,因此生成高質(zhì)量的事件感知的表示十分重要。因此,為了融合編碼器提供的事件信息和上下文信息,本論文設(shè)計(jì)了一個(gè)自適應(yīng)事件融合層。其中注意力模塊用于建模不同事件類型之間的交互并獲得全局事件信息,兩個(gè)門融合模塊用于將全局事件信息和目標(biāo)事件類型信息與上下文化的詞表示融合。

2.3 解碼層

在自適應(yīng)事件融合層之后,獲得了事件感知的詞表示,用于預(yù)測(cè)詞對(duì)之間的Span關(guān)系和Role關(guān)系,對(duì)于每個(gè)詞對(duì)(w_i , w_j ),計(jì)算一個(gè)分?jǐn)?shù)來(lái)衡量它們對(duì)于關(guān)系 s ∈ S 和 r ∈ R 的可能性。為了使預(yù)測(cè)層對(duì)于詞與詞之間的相對(duì)距離敏感,論文還引入了旋轉(zhuǎn)式的相對(duì)位置編碼,設(shè)計(jì)了距離感知的打分函數(shù)。損失函數(shù)部分本文使用了Circle Loss的變體,將交叉熵?fù)p失擴(kuò)展到多標(biāo)簽分類問(wèn)題,并緩解了類別不均衡的問(wèn)題。

在解碼階段,該模型通過(guò)將事件類型Embedding并行地插入自適應(yīng)事件融合層來(lái)抽取所有事件。如圖 4 所示,一旦該模型在一個(gè)階段預(yù)測(cè)了某種事件類型的所有標(biāo)簽,整個(gè)解碼過(guò)程可以概括為四個(gè)步驟:首先,獲得觸發(fā)詞或論元的開(kāi)始和結(jié)束索引;其次,獲得觸發(fā)詞和論元的span;第三,根據(jù) R-* 關(guān)系匹配觸發(fā)詞和論元;最后,將事件類型分配給該事件結(jié)構(gòu)。

cfd4827e-3fef-11ed-b1c7-dac502259ad0.png

圖4:解碼示例

三、實(shí)驗(yàn)結(jié)果

本文在3個(gè)重疊和嵌套的事件抽取數(shù)據(jù)集上(包括英文和中文)進(jìn)行了實(shí)驗(yàn),分別是:

FewFC,一個(gè)中文金融事件抽取數(shù)據(jù)集,標(biāo)注了10種事件類型和18種論元,有約22%的句子包含重疊事件;

Genia 11和Genia 13,兩個(gè)英文醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集,有約18%的句子包含嵌套事件,Genia11 標(biāo)注了9種事件類型和10種論元,而Genia13的數(shù)字是13和7。

表1-2分別展示了上述任務(wù)和數(shù)據(jù)集上與基線模型對(duì)比的結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的基于詞對(duì)關(guān)系分類的One-Stage方法,可以同時(shí)解決重疊和嵌套的事件抽取,并在3個(gè)數(shù)據(jù)集上的效果都優(yōu)于之前的工作,并且推理速度也是最快的。

d1375f42-3fef-11ed-b1c7-dac502259ad0.png

表1:FewFC, 重疊事件抽取

d20cec3e-3fef-11ed-b1c7-dac502259ad0.png

表2:Genia 11和Genia 13, 嵌套事件抽取

d2ae4962-3fef-11ed-b1c7-dac502259ad0.png

圖5:重疊事件與嵌套事件抽取效果對(duì)比

d2dfe350-3fef-11ed-b1c7-dac502259ad0.png

圖6:觸發(fā)詞和論元不同距離論元角色抽取效果對(duì)比

通過(guò)進(jìn)一步的消融實(shí)驗(yàn),我們探索了不同參數(shù)和部件對(duì)整體框架的影響。此外我們模型在相對(duì)較小的參數(shù)情況下,其訓(xùn)練和推理速度超過(guò)了多個(gè)非連續(xù)實(shí)體識(shí)別模型。

d32ab7ea-3fef-11ed-b1c7-dac502259ad0.png

表6:消融實(shí)驗(yàn)

d3457fbc-3fef-11ed-b1c7-dac502259ad0.png

表 7:模型參數(shù)與效率對(duì)比

四、總結(jié)

在本文中,我們提出了一種基于詞-詞關(guān)系識(shí)別的新型單階段框架,以同時(shí)解決重疊和嵌套的事件抽取。詞對(duì)之間的關(guān)系被預(yù)定義為觸發(fā)詞或論元內(nèi)的詞-詞關(guān)系以及跨越觸發(fā)詞-論元對(duì)。此外,我們提出了一個(gè)有效的模型,該模型由一個(gè)用于融合目標(biāo)事件表示的自適應(yīng)事件融合層和一個(gè)用于聯(lián)合識(shí)別各種關(guān)系的距離感知的預(yù)測(cè)層組成。實(shí)驗(yàn)結(jié)果表明,我們提出的模型在三個(gè)數(shù)據(jù)集上實(shí)現(xiàn)了新的 SoTA 結(jié)果,并且比 SoTA 模型更快。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3787

    瀏覽量

    137696
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7802

    瀏覽量

    90688
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    17859
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3507

    瀏覽量

    50256

原文標(biāo)題:COLING 2022 | 基于token-pair關(guān)系建模解決重疊和嵌套事件抽取的One-stage框架

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    面向領(lǐng)域的Web數(shù)據(jù)抽取與集成架構(gòu)

    數(shù)據(jù)抽取與集成架構(gòu),在給出Web數(shù)據(jù)模型與Web數(shù)據(jù)模式、領(lǐng)域數(shù)據(jù)模型和領(lǐng)域數(shù)據(jù)模式等相關(guān)概念基礎(chǔ)上,提出Web數(shù)據(jù)模式與領(lǐng)域數(shù)據(jù)模式的映射方法
    發(fā)表于 12-08 11:40 ?0次下載
    面向<b class='flag-5'>領(lǐng)域</b>的Web數(shù)據(jù)<b class='flag-5'>抽取</b>與集成架構(gòu)

    基于本體約束的知識(shí)抽取方法

    在信息抽取領(lǐng)域,命名實(shí)體識(shí)別方法可以為實(shí)體賦予正確的語(yǔ)義,實(shí)體關(guān)系抽取則可以明確兩個(gè)實(shí)體間的關(guān)系語(yǔ)義。但從知識(shí)的角度來(lái)看,無(wú)論是命名實(shí)體識(shí)別還是實(shí)體關(guān)系
    發(fā)表于 12-19 11:24 ?0次下載
    基于本體約束的知識(shí)<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于標(biāo)簽優(yōu)先的抽取排序方法

    針對(duì)微博關(guān)鍵詞抽取準(zhǔn)確率不高的問(wèn)題,提出一種基于標(biāo)簽優(yōu)先的抽取排序方法。該方法利用微博本身具有的社交特征標(biāo)簽,從微博內(nèi)容集中抽取關(guān)鍵詞。該
    發(fā)表于 12-25 15:04 ?0次下載
    基于標(biāo)簽優(yōu)先的<b class='flag-5'>抽取</b>排序<b class='flag-5'>方法</b>

    基于WebHarvest的健康領(lǐng)域Web信息抽取方法

    針對(duì)Web信息抽取(WIE)技術(shù)在健康領(lǐng)域應(yīng)用的問(wèn)題,提出了一種基于WebHarvest的健康領(lǐng)域Web信息抽取方法。通過(guò)對(duì)不同健康網(wǎng)站的結(jié)
    發(fā)表于 12-26 13:44 ?0次下載

    基于自動(dòng)關(guān)鍵詞抽取方法

    科學(xué)、心理學(xué)和社會(huì)科學(xué)等多個(gè)方面研究了自動(dòng)關(guān)鍵詞抽取的理論基礎(chǔ).從宏觀、中觀和微觀角度,回顧和分析了自動(dòng)關(guān)鍵詞抽取的發(fā)展、技術(shù)和方法.針對(duì)目前廣泛應(yīng)用的自動(dòng)關(guān)鍵詞抽取
    發(fā)表于 12-26 16:47 ?2次下載
    基于自動(dòng)關(guān)鍵詞<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于XML特征的網(wǎng)頁(yè)文本抽取方法

    Web信息抽取(Web Information Extraction,簡(jiǎn)稱WIE)是指:給出屬于同一類型的若干樣本網(wǎng)頁(yè)。找出它們的源數(shù)據(jù)集的嵌套結(jié)構(gòu),并將源數(shù)據(jù)集從網(wǎng)頁(yè)中抽取出來(lái)。即通過(guò)對(duì)原文
    發(fā)表于 01-02 14:14 ?0次下載

    語(yǔ)料庫(kù)中術(shù)語(yǔ)抽取算法

    術(shù)語(yǔ)抽取在中文信息處理領(lǐng)域中是一項(xiàng)重要的基礎(chǔ)性研究課題。隨著科技、經(jīng)濟(jì)、文化的快速發(fā)展,各個(gè)學(xué)科領(lǐng)域中的術(shù)語(yǔ)也發(fā)生了很大變化,為了及時(shí)了解學(xué)科的發(fā)展動(dòng)態(tài),術(shù)語(yǔ)抽取的需求應(yīng)運(yùn)而生。術(shù)語(yǔ)
    發(fā)表于 01-12 14:12 ?0次下載

    節(jié)點(diǎn)屬性的海量Web信息抽取方法

    為解決大數(shù)據(jù)場(chǎng)景下從海量Web頁(yè)面中抽取有價(jià)值的信息,提出了一種基于節(jié)點(diǎn)屬性與正文內(nèi)容的海量Web信息抽取方法。將Web頁(yè)面轉(zhuǎn)化為DOM樹(shù)表示,并提出剪枝與融合算法,對(duì)DOM樹(shù)進(jìn)行簡(jiǎn)化;定義DOM
    發(fā)表于 02-06 14:36 ?0次下載

    模型NLP事件抽取方法總結(jié)

    本系列文章主要分享近年來(lái)事件抽取方法總結(jié),包括中文事件抽取、開(kāi)放域事件抽取、事件數(shù)據(jù)生成、跨語(yǔ)言事件抽取、小樣本事件
    的頭像 發(fā)表于 12-31 10:19 ?1w次閱讀
    模型NLP事件<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>總結(jié)

    實(shí)體關(guān)系聯(lián)合抽取取得SOTA的三種方法

    2020實(shí)體關(guān)系聯(lián)合抽取一片紅海,各種SOTA方法你方唱罷我方登場(chǎng),在一些數(shù)據(jù)集上也是不斷刷出新高度,為信息抽取領(lǐng)域帶來(lái)了新思路,推動(dòng)了信息抽取
    的頭像 發(fā)表于 02-10 17:08 ?1.3w次閱讀
    實(shí)體關(guān)系聯(lián)合<b class='flag-5'>抽取</b>取得SOTA的三種<b class='flag-5'>方法</b>

    基于句法語(yǔ)義依存分析的金融事件抽取

    事件抽取在自然語(yǔ)言處理應(yīng)用中扮演著重要的角色,如股票市場(chǎng)趨勢(shì)預(yù)測(cè).傳統(tǒng)事件抽取較為關(guān)注觸發(fā)詞和論元所屬類型的正確性,較少地結(jié)合應(yīng)用需求去分析研究事件抽取效果及使用價(jià)值.在財(cái)經(jīng)領(lǐng)域,事件
    發(fā)表于 03-24 14:03 ?8次下載
    基于句法語(yǔ)義依存分析的金融事件<b class='flag-5'>抽取</b>

    抽取式摘要方法中如何合理設(shè)置抽取單元?

    的核心問(wèn)題。抽取式摘要?jiǎng)t是文本摘要技術(shù)中效果穩(wěn)定,實(shí)現(xiàn)簡(jiǎn)單的一類方法,本文結(jié)合COLING 2020中抽取式摘要相關(guān)的兩篇最新工作,對(duì)抽取式摘要方法
    的頭像 發(fā)表于 05-03 18:23 ?1874次閱讀
    <b class='flag-5'>抽取</b>式摘要<b class='flag-5'>方法</b>中如何合理設(shè)置<b class='flag-5'>抽取</b>單元?

    基于規(guī)則的商品評(píng)論搭配抽取方法

    分析商品評(píng)論中評(píng)價(jià)對(duì)象和評(píng)價(jià)短語(yǔ)的詞性和句法關(guān)系,提出一種使用規(guī)則模板進(jìn)行評(píng)價(jià)搭配抽取方法。通過(guò)詞性、依存句法分析及語(yǔ)義依存分析結(jié)果,設(shè)計(jì)核心搭配抽取規(guī)則。引入COO算法及改進(jìn)的ATT鏈算法,根據(jù)
    發(fā)表于 06-11 10:50 ?128次下載

    如何用一種級(jí)聯(lián)的并解決嵌套的實(shí)體的三元組抽取模型?

    關(guān)系抽取是自然語(yǔ)言處理中一個(gè)比較基礎(chǔ)的任務(wù),除了關(guān)系抽取之外還有類似的任務(wù)如:屬性抽取等。
    的頭像 發(fā)表于 02-08 09:28 ?1579次閱讀
    如何用一種級(jí)聯(lián)的并解決<b class='flag-5'>嵌套</b>的實(shí)體的三元組<b class='flag-5'>抽取</b>模型?

    if嵌套函數(shù)的正確輸入方法

    輸入方法是在if語(yǔ)句內(nèi)部創(chuàng)建一個(gè)新的函數(shù)。這個(gè)函數(shù)可以是一個(gè)匿名函數(shù)或者是一個(gè)有名稱的函數(shù),具體取決于你的需求和偏好。下面是一個(gè)if嵌套函數(shù)的正確輸入方法的示例: def main_function
    的頭像 發(fā)表于 11-30 16:50 ?1789次閱讀