高成本的人工標(biāo)簽使得弱監(jiān)督學(xué)習(xí)備受關(guān)注。seed-driven 是弱監(jiān)督學(xué)習(xí)中的一種常見模型。該模型要求用戶提供少量的seed words,根據(jù)seed words對未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽,增加訓(xùn)練樣本。
但是由于一詞多義現(xiàn)象的存在,同一個seed word會出現(xiàn)在不同的類別中,從而增加生成正確偽標(biāo)簽的難度;同時,單詞w在語料庫中的所有位置都使用一個的詞向量,也會降低分類模型的準(zhǔn)確性。
而本篇論文主要貢獻(xiàn)有:
開發(fā)一種無監(jiān)督的方法,可以根據(jù)詞向量和seed words,解決語料庫中單詞的一詞多義問題。
設(shè)計一種排序機(jī)制,消除seed words中一些無效的單詞;并將有效的單詞擴(kuò)充進(jìn)seed words中。
模型整體結(jié)構(gòu)為:
第一步:使用聚類算法解決語料庫中單詞的一詞多義問題
對于每一個單詞 w, 假設(shè)w出現(xiàn)在語料庫的n個不同位置, 分別為 ,使用K-Means算法將分成K類,這里K可理解為單詞w的K個不同解釋。
用下列公式計算K的值:
其中代表第i個聚類中心的向量。的計算方法如下:
這里s表示一個seed word,且表示s在語料庫第i次出現(xiàn),對應(yīng)的詞向量為。
sim() 表示余弦函數(shù),median( )表示取中位數(shù)。
則對于任意,有
綜上,一詞多義問題解決算法如下:
使用上面算法,我們就可以將原始語料庫轉(zhuǎn)變?yōu)榛谡Z境下的語料庫:
第二步:對未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽令表示文檔d的偽標(biāo)簽;表示類別為的seed word 集合;表示單詞w出現(xiàn)在文檔d的詞頻
第三步:使用基于語境下的語料庫進(jìn)行文檔分類
本篇論文使用Hierarchical Attention Networks (HAN) 進(jìn)行文本分類。
第四步:設(shè)計排序函數(shù),更新seed words我們設(shè)計出一個打分函數(shù),用于表示單詞w僅高頻的出現(xiàn)在類別為的文檔。分值越高,表示單詞w對類別越重要。我們可以選擇分值最高的前幾個單詞作為新的seed word。也可以剔除一些不重要的seed word。
其中:
表示類別為的文檔的數(shù)量。表示類別為且含有單詞w的文檔的數(shù)量。表示在類別為的文檔中,單詞w的詞頻。
n為語料庫D的文檔總數(shù)目表示語料庫D中含有單詞w的文檔的數(shù)量。
結(jié)果
我們的完整模型稱為 ConWea,
而 ConWea-NoCon是 ConWea確實缺少第一步的變體。
ConWea-NoExpan是 ConWea確實缺少第四步的變體。
ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。
責(zé)任編輯:xj
原文標(biāo)題:【ACL2020】基于語境的文本分類弱監(jiān)督學(xué)習(xí)
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
文本分類
+關(guān)注
關(guān)注
0文章
18瀏覽量
7395 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134365 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5557瀏覽量
122671
原文標(biāo)題:【ACL2020】基于語境的文本分類弱監(jiān)督學(xué)習(xí)
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

時空引導(dǎo)下的時間序列自監(jiān)督學(xué)習(xí)框架

評論