99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知識圖譜自動化構建的探索與挑戰(zhàn)

恬靜簡樸1 ? 來源:恬靜簡樸1 ? 作者:恬靜簡樸1 ? 2022-09-05 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

知識圖譜自動化構建的探索與挑戰(zhàn)|論文分享

達觀數據

知識圖譜的自動化構建是知識圖譜中具有極強挑戰(zhàn)性且巨大應用價值的技術方向。就實體抽取技術,達觀數據副總裁、上海市人工智能技術標準委員會委員王文廣提到“狹義的實體抽取,即命名實體識別(NER)技術發(fā)展至今已較為成熟,能夠很好地抽取出人名、地名、機構名等少數類型的實體。但在知識圖譜實際應用中,則需要抽取出各式各樣各不相同的廣義實體,比如金融業(yè)中的產品名稱、品牌名、業(yè)務名、風險提示、觀點等,制造業(yè)中的失效模式、失效現象、工藝、設備、零部件、物料、方法、故障原因、改善措施等,商業(yè)中的產品、功能、特點、適合人群、搭配方法等等。抽取出這些廣義實體的挑戰(zhàn)巨大?!标P系抽取技術也同樣問題多挑戰(zhàn)大,已有關系抽取大多基于實體對之間共現,而現實復雜的場景中,實體對共現既可能不存在任何關系,可能存在萬千種的關系,這就造成了關系抽取的難題。此外,在知識圖譜構建中,還涉及實體消歧、實體融合等方面的技術要求。

除了技術發(fā)展本身并不成熟之外,在實際場景中還遇到樣本少的問題。在真實落地的項目或產品中, 往往存在標注樣本少的問題,其原因即可能是標注成本高導致樣本少,也可能是本身樣本就少,無法獲得大規(guī)模的標注樣本。這方面王文廣深有體會,他提到“在很多場景下,總的文檔數量有幾千或幾萬份,對于具體某些類型的實體或關系來說則文檔數量更少。在這種情況下要做好知識圖譜的構建,是極大的挑戰(zhàn),也是在實際落地中必須綜合使用十八般武器,逢山開路遇水搭橋,使用最新的技術結合業(yè)務經驗、專家規(guī)則等來解決這些問題?!?/p>

為了促進知識圖譜自動化構建技術的進一步發(fā)展,達觀數據在CCKS2020(2020全國知識圖譜與語義計算大會)組織了金融研報知識圖譜的自動化構建的算法競賽。競賽選擇了樣本豐富但復雜度較高的金融研報文檔作為知識的來源,根據金融投研領域常見的需求,設計了簡化版的知識圖譜模式,并標注了大規(guī)模的金融研報知識圖譜數據集FR2KG。競賽任務從預定義的知識圖譜模式和少量的種子知識圖譜開始,從非結構化的金融研報文本中抽取出符合知識圖譜模式的實體、關系和屬性值, 并進行適當的實體消歧和實體融合,構建出知識圖譜,并使用FR2KG來評估競賽參賽隊伍所提交的結果。

金融研報是各類金融研究結構對宏觀經濟、金融、行業(yè)、產業(yè)鏈以及公司的研究報告,是金融行業(yè)中最為復雜、多樣的文檔。報告通常是專業(yè)人員撰寫,對宏觀、行業(yè)和公司的數據信息搜集全面、研究深入,質量高,內容可靠。報告內容往往包含產業(yè)、經濟、金融、政策、社會等多領域的數據與知識,是構建行業(yè)知識圖譜非常關鍵的數據來源。另一方面,由于研報本身所容納的數據與知識涉及面廣泛,專業(yè)知識眾多,不同的研究結構和專業(yè)認識對相同的內容的表達方式也會略有差異。這些特點導致了從研報自動化構建知識圖譜困難重重,解決這些問題則能夠極大促進自動化構建知識圖譜方面的技術進步。同時所構建的圖譜在大金融行業(yè)、監(jiān)管部門、政府、行業(yè)研究機構和行業(yè)公司等應用非常廣泛,如風險監(jiān)測、智能投研、智能監(jiān)管、智能風控等,具有巨大的學術價值和產業(yè)價值。

數據集

達觀數據所構建的大規(guī)模金融研報知識圖譜數據集FR2KG是用于評測知識圖譜自動化構建技術的專業(yè)數據集,是當前最大規(guī)模的中文金融研報知識圖譜。下圖是數據集構建過程示意圖

poYBAGMVUqSAB5vHAABSE5RNWVM330.jpg

FR2KG的知識圖譜模式包含10個實體類型,19個關系類型和6種屬性,如下圖所示。

pYYBAGMVUqWAUzxnAACkend7yiE077.jpg

構建好的金融研報知識圖譜數據集FR2KG包含17,799實體,26,798關系三元組,1,328屬性三元組,SeedKG和EvaluationKG的數據情況如下圖所示。

下圖是數據集的樣例,使用達觀數據淵海知識圖譜平臺可視化:

poYBAGMVUqWAU6wsAADVO-16R-c247.jpg

目前數據集已經發(fā)布在SCIDB和OpenKG上,歡迎大家前往下載。在使用數據集進行研究時請引用本論文。

文章:Data Set and Evaluation of Automated Construction of Financial Knowledge Graph

作者:王文廣,徐永林、杜春輝、陳運文、王逸捷、文輝

引用: Wang, W.G., et al.: Data set and evaluation of automated construction of financial knowledge graph. Data Intelligence 3(3), 418-443 (2021). doi: 10.1162/dint_a_00108

競賽技術回顧

本次評測一共有740個隊伍報名,其中F1分數最高的18支隊伍中,有3支隊伍來自企業(yè),10支隊伍來自高校,3支隊伍高校和企業(yè)的組合,另外2支隊伍未透露相關信息。本次評測的top5隊伍都梳理并提交了他們所使用的方法的簡要說明,下文對這些方法和說明進行分析總結。

所有隊伍都使用了規(guī)則或者labelling function來生產訓練樣本,只有一個隊伍在自動生成樣本之外,又額外人工標注了20份的研報來作為補充和驗證的訓練樣本。

所有隊伍在實體抽取中都使用了基于BERT的模型,并且在模型之外也都使用了基于規(guī)則的方法來對特定的實體類型進行補充。

在關系和屬性抽取方面,所有的隊伍都使用了基于共現的方法,共現是遠程監(jiān)督的基本假設,也就是說,當兩個實體共同出現在一個較短的一段文本時,即可假設它們存在符合相應的關系。在基于共現的假設之上,三支隊伍使用了規(guī)則來判斷是否真正存在這種關系,另外兩只隊伍使用了基于BERT的模型來對關系進行分類。

其中一支隊伍使用了聚類的方法來將相似或相同主題的研報給聚在一起,對研報進行了預處理。

知識圖譜自動化構建的挑戰(zhàn)

從本次基于知識圖譜模式的自動化構建知識圖譜評測的結果來看,單純使用算法來構建完全自動化地構建知識圖譜,尚存在較多挑戰(zhàn),這里總結了一些具有相當挑戰(zhàn)性的課題和研究方向:

在給定知識圖譜模式和種子知識圖譜來自動化的構建知識圖譜上,現有的方法效果都不太好,如何實現端到端或者多步的框架實現知識圖譜的完全自動化構建是值得繼續(xù)探索的。

通過知識圖譜及其對應的Schema如何實現自動化標注語料是一個值得研究的課題,能夠實現高精度的自動化標注語料可以帶來更好的抽取模型。此外,自動化標注語料方面的評測也是一件非常有意義的事情。

實體抽取方面,評測的優(yōu)秀選手都使用了基于BERT的模型,再加上基于規(guī)則的方法來實現,在這種真實的場景且計算力資源受限的情況下,如何在少量語料的情況下實現高精度的抽取。

關系和屬性抽取與識別上,目前集中在采用短文本內共現并過濾的方法來實現,這極大的依賴于實體抽取的F1分數,高precision和高recall的實體抽取決定了關系和屬性抽取有好的效果。那么如何在噪聲較多,即不那么高的情況下來實現好的關系和屬性抽取?

本次評測沒有看到使用端到端的實現實體和關系聯合抽取的模型,可能的原因是實體和關系類型較多且沒有大量的語料,那么在這種情況下如何開發(fā)出端到端的模型也是非常具有挑戰(zhàn)性的課題。

當Schema的規(guī)模進一步擴大時,比如50種實體類型,數百種的實體屬性和實體間的關系,對這樣的知識圖譜研究其自動化構建是一個兼具挑戰(zhàn)性與現實意義的課題。

多語言的知識圖譜自動化構建技術的研究。本次評測集中在中文,以及中文中存在的少量英文的情況,特別的,沒有涉及到多語言之間實體融合的情況。但在真實場景下,多語言語料以及構建多語言圖譜是非常重要的。這涉及了多方面的內容,包括多語言的實體、關系和屬性的抽取,多語言之間實體的融合等等方面技術的研究。同時,組織多語言知識圖譜自動化構建方面的評測也是非常有意義的事情。

本次評測中隱含著少量實體的消歧與融合,這塊沒有顯性的進行評測,未來可以將這塊明確的表達出來,以促進相關領域的研究。

審核編輯:湯梓紅
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 自動化
    +關注

    關注

    29

    文章

    5780

    瀏覽量

    84835
  • 數據集
    +關注

    關注

    4

    文章

    1224

    瀏覽量

    25445
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    8003
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動化計算機的功能與用途

    工業(yè)自動化是指利用自動化計算機來控制工業(yè)環(huán)境中的流程、機器人和機械,以制造產品或其部件。工業(yè)自動化的目的是提高生產率、增加靈活性,并提升制造過程的質量。工業(yè)自動化在汽車制造中體現得最為
    的頭像 發(fā)表于 07-15 16:32 ?107次閱讀
    <b class='flag-5'>自動化</b>計算機的功能與用途

    AG32 SDK 最新版本V1.7.7 :實現構建自動化功能及更新HyperRAM的RGB例程

    等。 AG32 的管腳可以靈活定義,引腳與STM32。并且內置2KLE FPGA, 非常適合MCU + FPGA/CPLD的應用場景。 AG32 SDK 最新版本V1.7.7 :實現構建自動化功能
    發(fā)表于 06-05 14:41

    機器人和自動化的未來(2)

    、無人駕駛等概念,正在逐步成為現實。與此同時,機器人和自動化技術的廣泛應用,也帶來了倫理和法律方面的新挑戰(zhàn)。3.1智慧工廠與工業(yè)4.0智慧工廠是未來制造業(yè)的發(fā)展方向之一。
    的頭像 發(fā)表于 04-26 08:33 ?330次閱讀
    機器人和<b class='flag-5'>自動化</b>的未來(2)

    HFSS 自動化建模工具

    因工作需求,自己寫的HFSS參數自動化建模工具,目前只實現了常用的四種模型,可定制,如需可聯系 qq:1300038043 附件下載鏈接:https://pan.baidu.com/s/1TVeTTFiJw-pxSyT1AT8IQA 提取碼: kxup
    發(fā)表于 02-27 17:44

    清華大學自動化系學子走進華礪智行研學交流

    近日,清華大學自動化系的11名學子走進華礪智行研學交流,開展科技前沿探索的社會實踐活動。
    的頭像 發(fā)表于 02-13 10:03 ?443次閱讀

    環(huán)球儀器Uflex靈活自動化平臺概述

    在生產廠房全面走向自動化之際,最令廠家頭痛的莫過于生產線上一些難以自動化的組裝工序。若以功能單一的自動化平臺來解決,投資可能沒有保障。環(huán)球儀器的Uflex靈活自動化平臺提供一個完美的解
    的頭像 發(fā)表于 02-08 09:13 ?619次閱讀
    環(huán)球儀器Uflex靈活<b class='flag-5'>自動化</b>平臺概述

    基于 Docker 與 Jenkins 實現自動化部署

    優(yōu)化,為 Docker 容器應用與 Jenkins 自動化流水線提供了理想的運行環(huán)境。無論是快速構建、測試還是部署,Flexus X 都能確保流程順暢無阻,大幅提升軟件開發(fā)與交付效率。立即擁抱華為云
    的頭像 發(fā)表于 01-07 17:25 ?528次閱讀
    基于 Docker 與 Jenkins 實現<b class='flag-5'>自動化</b>部署

    自動化創(chuàng)建UI并解析數據

    *附件:32960_auto.rar備注:Main.vi是ui自動化2.1.vi,配置文件為32960.B.ini。 目前可以實現根據配置文件自動化創(chuàng)建控件并布局,且可以自動解析接收到的數據內容寫入
    發(fā)表于 12-10 08:41

    三星自主研發(fā)知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

    據外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術,旨在進一步優(yōu)化Galaxy AI的功能,提升其易用性,并加強用戶數據的隱私保護。
    的頭像 發(fā)表于 11-07 15:19 ?1380次閱讀

    愛芯元智受邀參加2024清華自動化論壇

    近日,“2024清華自動化論壇”在廣州舉行。本次論壇由清華校友總會自動化系分會主辦,匯聚了海內外約200位清華大學自動化系系友、學術界和產業(yè)界精英,共同分享各自領域最新研究成果與未來發(fā)展趨勢,
    的頭像 發(fā)表于 11-05 14:41 ?718次閱讀

    探索Playwright:前端自動化測試的新紀元

    作者:京東保險 張新磊 背景 在前端開發(fā)中,自動化測試是確保軟件質量和用戶體驗的關鍵環(huán)節(jié)。隨著Web應用的復雜性不斷增加,手動測試已經無法滿足快速迭代和持續(xù)交付的需求。自動化測試通過模擬用戶
    的頭像 發(fā)表于 10-22 14:27 ?706次閱讀

    探索分布式IO模塊的介質冗余:賦能工業(yè)自動化的穩(wěn)健之心

    凸顯。明達技術自主研發(fā)的帶有介質冗余功能的MR30分布式IO模塊,正以其獨特的優(yōu)勢,為工業(yè)自動化系統(tǒng)構建起一道堅不可摧的防護網。
    的頭像 發(fā)表于 09-25 10:45 ?558次閱讀
    <b class='flag-5'>探索</b>分布式IO模塊的介質冗余:賦能工業(yè)<b class='flag-5'>自動化</b>的穩(wěn)健之心

    開關電源自動化測試設備:如何實現自動化測試?

    開關電源自動化測試設備是將測試軟件和測試硬件集成在一個電源測試柜中的ate自動測試設備,其測試原理是通過計算機操控測試儀器,從而減少人工干預,完成開關電源的自動化測試,旨在解放人力,提高測試效率,讓測試更便捷。
    的頭像 發(fā)表于 08-30 18:19 ?1820次閱讀
    開關電源<b class='flag-5'>自動化</b>測試設備:如何實現<b class='flag-5'>自動化</b>測試?

    探索工業(yè)自動化轉換網關:定義背后的功能密碼

    在當今物聯網(IoT)與工業(yè)自動化日益融合的時代背景下,自動化協議轉換網關作為連接不同設備與系統(tǒng)之間的橋梁,扮演著至關重要的角色。自動化協議轉換網關,作為這一領域內的佼佼者,以其靈活、可靠的性能
    的頭像 發(fā)表于 08-22 09:43 ?474次閱讀
    <b class='flag-5'>探索</b>工業(yè)<b class='flag-5'>自動化</b>轉換網關:定義背后的功能密碼

    三星電子將收購英國知識圖譜技術初創(chuàng)企業(yè)

    在人工智能技術日新月異的今天,三星電子公司再次展現了其前瞻性的戰(zhàn)略布局與技術創(chuàng)新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創(chuàng)企業(yè)Oxford Semantic Technologies的收購,此舉標志著三星在提升設備端AI能力、深化個性化用戶體驗方面邁出了重要一步。
    的頭像 發(fā)表于 07-18 14:46 ?766次閱讀