由中國人工智能學(xué)會主辦,廣州易間網(wǎng)絡(luò)科技有限公司承辦的2018第八屆中國智能產(chǎn)業(yè)高峰論壇11 月17-18日在成都完美收官,論壇在兩天的會議里帶來了多場精彩報告。
此次小編為大家整理的是來自北京國雙科技有限公司技術(shù)總監(jiān)饒峰云主題為《以知識為中心的智慧司法解決方案》的精彩演講。
饒峰云
北京國雙科技有限公司技術(shù)總監(jiān)
以下內(nèi)容根據(jù)速記進行整理
經(jīng)過饒峰云本人校對
針對各種司法數(shù)據(jù)、行業(yè)支持知識,我們積累了包括文書解析、知識圖譜、信息檢索等應(yīng)用服務(wù)能力,以文本解析為例,處理超過5 000萬的裁判文書,解析出4 700多個司法專業(yè)維度和要素,建立了20多萬個經(jīng)審核的問答對體系,聚合并審核了超過3 000個爭議焦點、裁判規(guī)則等。裁判文書外,還對起訴狀、上訴狀、答辯狀、庭審筆錄等其他類型文書做信息抽取、結(jié)構(gòu)化和解析。
面對幾百種文書,同時解析幾千個維度,需要一個很龐大的工程能力、大數(shù)據(jù)處理的能力。具體到算法層面:① 文書分段。它和語文的分段不一樣,是一個法律意義上的分段,比如要知道這一段是講訴請段、證據(jù)段、裁判結(jié)果段等,這是所有的基礎(chǔ)。這方面我們用的是深度學(xué)習(xí)的分類算法來做,準(zhǔn)確率還是非常高的。② 命名實體識別。一個文書中涉及到很多人名、地名、機構(gòu)名等。③ 業(yè)務(wù)規(guī)則和要素體系這些業(yè)務(wù)規(guī)則和要素體系里的法律邏輯都是我們業(yè)務(wù)專家提取出來的。
要素特征的抽取在語義層面會更抽象一層,也更難做一些。要素來源于法律法規(guī)和規(guī)范性的指導(dǎo)文件。要素非常有用,它可以起到橋梁作用,把裁判文書中的爭議焦點、裁判規(guī)則給關(guān)聯(lián)起來。按照法院不同的立場,它有訴請要素、抗辯要素、事實要素和裁判要素四個劃分。以上工作有很大一部分是用監(jiān)督學(xué)習(xí)的辦法來做的。解決的第一步就是要標(biāo)注數(shù)據(jù),這需要大量的人力。
在建立了知識之后,我們怎么用這個知識?通常我們希望能對對知識做檢索、問答。我們首先做了一個類案同判的大數(shù)據(jù)引擎,讓法官能夠搜索到類似案件別人是怎么判的。為了建立這個類案同判的大數(shù)據(jù)引擎做了兩件事情:① 把幾千萬的文書全部解析出了很多維度,對各種維度做多維度的剖析,做統(tǒng)計分析;② 尋找類案。最關(guān)鍵的檢索部分,就是去檢索類似案件。我們也經(jīng)歷了不同版本的迭代,最開始就是最簡單的、用文本相似度來做這件事情,文本相似了就是類似案件,結(jié)果發(fā)現(xiàn)不是很準(zhǔn);再后來用關(guān)鍵段落,最新版本主要是基于要素來做的,案件的要素相同就是類似案件,相同的要素越多就越類似。
我們還做了一個智能問答的版本,是法信的一個升級版本,也是和人民法院出版社一起做的,它有以下幾個功能與特點:① 用戶意圖的識別,比如查法律、法條和案例,用戶的意圖是用文本分類的做法來做的。② 問題語義解析,這也是比較經(jīng)典的,比如我們做領(lǐng)域?qū)嶓w識別與槽位填充技術(shù),我要問一個北京市離婚案件哪個律師的勝訴率最高的問題,要把北京市海淀區(qū)這個實體識別出來、把這個案由離婚識別出來、把律師勝訴率識別出來,所以這是一個實體識別和槽位填充的技術(shù)。③ 單輪問答語義檢索。我們有20萬單輪的問答對,都是人工編輯審核過的,這其實就是學(xué)術(shù)上比較常見的FAQ型的問答。④ 對話管理。我們還做了多輪對話,其主要是背后建了一個多輪樹狀的知識庫,最主要的一個技術(shù)就是控制它的狀態(tài)轉(zhuǎn)移圖。
我們有20萬單輪問答,目前人工梳理了三大領(lǐng)域的多輪問答庫。目前做了兩個版本,一個是針對法院的專業(yè)人士版本;另外一個是to C的對普通老百姓的版本。
進一步來看我們是如何獲得法研杯冠軍?!岸ㄗ锪啃獭笔沁@次法研杯比賽的題目,賽題是輸入一個案件事實的描述,去預(yù)測法條、罪名、刑期,因為有100多萬現(xiàn)成的裁判文書,它是一個有監(jiān)督學(xué)習(xí)的問題。我們用的最多的模型是Recurrent attention network(簡稱RamNet),其結(jié)構(gòu)如圖所示。
RamNet最早是EMNLP 2017的paper,用于實體情感,我們對它做了一些改進,去掉了其中實體部分,改進了recurrent attention的輸入輸出,并在多個應(yīng)用場景中都發(fā)現(xiàn)它能顯著戰(zhàn)勝NLP領(lǐng)域常見的BiLSTM + attention網(wǎng)絡(luò),我們認(rèn)為recurrent attention能提取更多的feature,尤其適合類別很多的多類標(biāo)問題。
此模型有一個信息拓?fù)浣Y(jié)構(gòu),因為它同時預(yù)測罪名、法條、刑期,所以是一個聯(lián)合學(xué)習(xí)的模型來做的,同時預(yù)測這三個類別,有三種辦法。第一種并行的方法,前面是聯(lián)合學(xué)習(xí)的共享層,每一個任務(wù)都用一個全鏈接去做預(yù)測;第二種串行的方法,第一個全鏈接去預(yù)測罪名,再把這個全鏈接的特征接著傳遞到第二個;第三種用一個圖狀的,比較復(fù)雜,比如先做罪名,罪名會傳到法條,又會傳到刑期。在實際的比賽模型中,我們用到了第一種和第三種,發(fā)現(xiàn)這兩種效果好一些。
我們對模型的loss還做了一些優(yōu)化,傳統(tǒng)多類標(biāo)問題是logistic loss,考慮到罪名、法條和的類標(biāo)并不是獨立的,相互之間有關(guān)聯(lián),所以嘗試了CRF loss,在實踐中,模型效果會有一定提升。
我們還引入了業(yè)務(wù)的規(guī)則,尤其是在刑期預(yù)測中原來是深入學(xué)習(xí)提取出來的feature,會把基于業(yè)務(wù)規(guī)則提取出來的feature和統(tǒng)計特征的feature一起再做分類,這樣在實驗中的效果有很大提升。
前面介紹的是在法研杯比賽中拿第一名用到的模型,基本上都是端到端的深度學(xué)習(xí)模型;后期應(yīng)用正在優(yōu)化,將文本解析、要素體系與模型結(jié)合,進一步深化應(yīng)用能力。
此外還開發(fā)了文書生成系統(tǒng)提升法官寫文書的效率。做法是給法官提供兩種選擇,第一種是直接找類案,通過前面類案的做法,找到類案之后,法官直接從類似案件中選模板,把模板套進來,再把解析的東西填到模板中,這是一個做法。第二種是應(yīng)用知識圖譜的推理。我們?yōu)槲臅蓸?gòu)建的一個案件知識圖譜,針對每一個案件類型,定義爭議焦點、裁判規(guī)則、法律法規(guī)、訴辯稱、訴訟請求項,這樣把它關(guān)聯(lián)起來。法官在審判案件的過程中會去找類案來參酌,但是類案的案件非常多,我們會根據(jù)要素,給法官推薦最相似的爭議焦點(爭議焦點的數(shù)量相對是少的)。根據(jù)統(tǒng)計做爭議焦點的排序,把最相關(guān)、最可能的爭議焦點放在前面。法官選完爭議焦點后,爭議焦點和裁判規(guī)則有對應(yīng)關(guān)系,裁判規(guī)則和法律法規(guī)又有對應(yīng)關(guān)系。所以,我們先有一個推薦,推薦完他選擇后,需要的文書即可生成。
總結(jié)我們的知識智能在司法領(lǐng)域的經(jīng)驗認(rèn)為,司法領(lǐng)域有大量高質(zhì)量的語料和知識;司法領(lǐng)域有豐富的NLP技術(shù)應(yīng)用,包括信息抽取、信息檢索、知識圖譜、問答等;司法領(lǐng)域有豐富的智能應(yīng)用場景,具有巨大的社會價值。我們希望與更多的學(xué)術(shù)界人共同探索相關(guān)領(lǐng)域。
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8960瀏覽量
140155 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122783
原文標(biāo)題:CIIS2018演講實錄丨饒峰云:以知識為中心的智慧司法解決方案
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論