国产精品久久久久久久久久1000 ,国产Av无码片毛片一级一区2国,中文字幕人妻丝袜乱一区三区狠狠

高成本的人工標(biāo)簽使得弱監(jiān)督學(xué)習(xí)備受關(guān)注。seed-driven 是弱監(jiān)督學(xué)習(xí)中的一種常見模型。該模型要求用戶提供少量的seed words，根據(jù)seed words對未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽，增加訓(xùn)練樣本。

但是由于一詞多義現(xiàn)象的存在，同一個seed word會出現(xiàn)在不同的類別中，從而增加生成正確偽標(biāo)簽的難度；同時，單詞w在語料庫中的所有位置都使用一個的詞向量，也會降低分類模型的準(zhǔn)確性。

而本篇論文主要貢獻(xiàn)有：

開發(fā)一種無監(jiān)督的方法，可以根據(jù)詞向量和seed words，解決語料庫中單詞的一詞多義問題。

設(shè)計一種排序機(jī)制，消除seed words中一些無效的單詞；并將有效的單詞擴(kuò)充進(jìn)seed words中。

模型整體結(jié)構(gòu)為：

第一步：使用聚類算法解決語料庫中單詞的一詞多義問題

對于每一個單詞 w, 假設(shè)w出現(xiàn)在語料庫的n個不同位置, 分別為，使用K-Means算法將分成K類，這里K可理解為單詞w的K個不同解釋。

用下列公式計算K的值：

其中代表第i個聚類中心的向量。的計算方法如下：

這里s表示一個seed word，且表示s在語料庫第i次出現(xiàn)，對應(yīng)的詞向量為。

sim() 表示余弦函數(shù)，median( )表示取中位數(shù)。

則對于任意，有

綜上，一詞多義問題解決算法如下：

使用上面算法，我們就可以將原始語料庫轉(zhuǎn)變?yōu)榛谡Z境下的語料庫：

第二步：對未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽令表示文檔d的偽標(biāo)簽；表示類別為的seed word 集合；表示單詞w出現(xiàn)在文檔d的詞頻

第三步：使用基于語境下的語料庫進(jìn)行文檔分類

本篇論文使用Hierarchical Attention Networks (HAN) 進(jìn)行文本分類。

第四步：設(shè)計排序函數(shù)，更新seed words我們設(shè)計出一個打分函數(shù)，用于表示單詞w僅高頻的出現(xiàn)在類別為的文檔。分值越高，表示單詞w對類別越重要。我們可以選擇分值最高的前幾個單詞作為新的seed word。也可以剔除一些不重要的seed word。

其中：

表示類別為的文檔的數(shù)量。表示類別為且含有單詞w的文檔的數(shù)量。表示在類別為的文檔中，單詞w的詞頻。

n為語料庫D的文檔總數(shù)目表示語料庫D中含有單詞w的文檔的數(shù)量。

結(jié)果

我們的完整模型稱為 ConWea,

而 ConWea-NoCon是 ConWea確實缺少第一步的變體。

ConWea-NoExpan是 ConWea確實缺少第四步的變體。

ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。

責(zé)任編輯：xj

原文標(biāo)題：【ACL2020】基于語境的文本分類弱監(jiān)督學(xué)習(xí)

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

文本分類

文本分類

+關(guān)注

關(guān)注
0

文章
18

瀏覽量
7395
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8499

瀏覽量
134365
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5557

瀏覽量
122671

原文標(biāo)題：【ACL2020】基于語境的文本分類弱監(jiān)督學(xué)習(xí)

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

深度學(xué)習(xí)：基于語境的文本分類弱監(jiān)督學(xué)習(xí)

評論

深度學(xué)習(xí)與nlp的區(qū)別在哪

深度學(xué)習(xí)中的模型權(quán)重