99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí):基于語境的文本分類弱監(jiān)督學(xué)習(xí)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:丁磊 ? 2021-01-18 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高成本的人工標(biāo)簽使得弱監(jiān)督學(xué)習(xí)備受關(guān)注。seed-driven 是弱監(jiān)督學(xué)習(xí)中的一種常見模型。該模型要求用戶提供少量的seed words,根據(jù)seed words對未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽,增加訓(xùn)練樣本。

但是由于一詞多義現(xiàn)象的存在,同一個seed word會出現(xiàn)在不同的類別中,從而增加生成正確偽標(biāo)簽的難度;同時,單詞w在語料庫中的所有位置都使用一個的詞向量,也會降低分類模型的準(zhǔn)確性。

而本篇論文主要貢獻(xiàn)有:

開發(fā)一種無監(jiān)督的方法,可以根據(jù)詞向量和seed words,解決語料庫中單詞的一詞多義問題。

設(shè)計一種排序機(jī)制,消除seed words中一些無效的單詞;并將有效的單詞擴(kuò)充進(jìn)seed words中。

模型整體結(jié)構(gòu)為:

23886e4c-58b3-11eb-8b86-12bb97331649.png

第一步:使用聚類算法解決語料庫中單詞的一詞多義問題

對于每一個單詞 w, 假設(shè)w出現(xiàn)在語料庫的n個不同位置, 分別為 ,使用K-Means算法將分成K類,這里K可理解為單詞w的K個不同解釋。

用下列公式計算K的值:

23bb05f0-58b3-11eb-8b86-12bb97331649.png

其中代表第i個聚類中心的向量。的計算方法如下:

240a0f10-58b3-11eb-8b86-12bb97331649.png

這里s表示一個seed word,且表示s在語料庫第i次出現(xiàn),對應(yīng)的詞向量為。

sim() 表示余弦函數(shù),median( )表示取中位數(shù)。

則對于任意,有

24453194-58b3-11eb-8b86-12bb97331649.png

綜上,一詞多義問題解決算法如下:

249a483c-58b3-11eb-8b86-12bb97331649.png

使用上面算法,我們就可以將原始語料庫轉(zhuǎn)變?yōu)榛谡Z境下的語料庫:

24f7145e-58b3-11eb-8b86-12bb97331649.png

第二步:對未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽令表示文檔d的偽標(biāo)簽;表示類別為的seed word 集合;表示單詞w出現(xiàn)在文檔d的詞頻

2578e2f4-58b3-11eb-8b86-12bb97331649.png

第三步:使用基于語境下的語料庫進(jìn)行文檔分類

本篇論文使用Hierarchical Attention Networks (HAN) 進(jìn)行文本分類。

25a2678c-58b3-11eb-8b86-12bb97331649.png

第四步:設(shè)計排序函數(shù),更新seed words我們設(shè)計出一個打分函數(shù),用于表示單詞w僅高頻的出現(xiàn)在類別為的文檔。分值越高,表示單詞w對類別越重要。我們可以選擇分值最高的前幾個單詞作為新的seed word。也可以剔除一些不重要的seed word。

264f65a4-58b3-11eb-8b86-12bb97331649.png

其中:

268ed78e-58b3-11eb-8b86-12bb97331649.png

表示類別為的文檔的數(shù)量。表示類別為且含有單詞w的文檔的數(shù)量。表示在類別為的文檔中,單詞w的詞頻。

n為語料庫D的文檔總數(shù)目表示語料庫D中含有單詞w的文檔的數(shù)量。

結(jié)果

我們的完整模型稱為 ConWea,

而 ConWea-NoCon是 ConWea確實缺少第一步的變體。

ConWea-NoExpan是 ConWea確實缺少第四步的變體。

ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。

271870fc-58b3-11eb-8b86-12bb97331649.png

責(zé)任編輯:xj

原文標(biāo)題:【ACL2020】基于語境的文本分類弱監(jiān)督學(xué)習(xí)

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:【ACL2020】基于語境的文本分類弱監(jiān)督學(xué)習(xí)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?636次閱讀
    使用MATLAB進(jìn)行無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    時空引導(dǎo)下的時間序列自監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個組織聯(lián)合發(fā)布了一篇時間序列無監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?724次閱讀
    時空引導(dǎo)下的時間序列自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?1843次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?1262次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2812次閱讀

    雷達(dá)的基本分類方法

    電子發(fā)燒友網(wǎng)站提供《雷達(dá)的基本分類方法.pdf》資料免費下載
    發(fā)表于 09-11 09:09 ?6次下載

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    章節(jié)最后總結(jié)了機(jī)器學(xué)習(xí)分類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強(qiáng)化
    發(fā)表于 07-25 14:33

    利用Matlab函數(shù)實現(xiàn)深度學(xué)習(xí)算法

    在Matlab中實現(xiàn)深度學(xué)習(xí)算法是一個復(fù)雜但強(qiáng)大的過程,可以應(yīng)用于各種領(lǐng)域,如圖像識別、自然語言處理、時間序列預(yù)測等。這里,我將概述一個基本的流程,包括環(huán)境設(shè)置、數(shù)據(jù)準(zhǔn)備、模型設(shè)計、訓(xùn)練過程、以及測試和評估,并提供一個基于Matlab的
    的頭像 發(fā)表于 07-14 14:21 ?3545次閱讀

    利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

    要利用TensorFlow實現(xiàn)一個基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的文本分類模型,我們首先需要明確幾個關(guān)鍵步驟:數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評估與調(diào)優(yōu),以及最終的模型部署(盡管在本文中,我們將重點放在前四個步驟上)。下面,我將詳細(xì)闡述這些步驟,并給出一個具體的示例。
    的頭像 發(fā)表于 07-12 16:39 ?1479次閱讀

    神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律,從而提取有用的特征表示。這種訓(xùn)練方
    的頭像 發(fā)表于 07-09 18:06 ?1450次閱讀

    深度學(xué)習(xí)中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨
    的頭像 發(fā)表于 07-09 15:54 ?2062次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實現(xiàn)。因此,無監(jiān)督學(xué)習(xí)深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)
    的頭像 發(fā)表于 07-09 10:50 ?1655次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計算機(jī)科學(xué)領(lǐng)域中兩個非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度
    的頭像 發(fā)表于 07-05 09:47 ?1595次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)化、管理以及應(yīng)用等多個方面,深入探討
    的頭像 發(fā)表于 07-04 11:49 ?4025次閱讀