資料介紹
眾多自然語言處理( Natural Language Processing,NLP)任務(wù)受益于在大規(guī)模語料上訓(xùn)練的詞向量。由于預(yù)訓(xùn)練的詞向量具有大語料上的通用語義特征,因此將這些詞向量應(yīng)用到特定的下游任務(wù)時(shí),往往需要通過微調(diào)進(jìn)行一定的更新和調(diào)整,使其更適用于目標(biāo)任務(wù)。但是,目標(biāo)語料集中的低頻詞由于缺少訓(xùn)練樣夲,導(dǎo)致在微調(diào)過程中無法獲得穩(wěn)定的梯度信息,使得詞向量無法得到有效更新。而在短文本分類任務(wù)中,這些低頻詞對分類結(jié)果同樣有著重要的指示性。因此,在具體的短文本分類任務(wù)上獲得一個(gè)更妤的低頻詞詞向量表示是有必要的。針對這個(gè)問題,文中提出了一種與下游任務(wù)模型無關(guān)的低頻詞詞向量更新算法,通過基于K近鄰的詞向量偏移計(jì)算方法,利用通用詞向量中與低頻詞相似的高頻詞所獲得的任務(wù)特征信息,來指導(dǎo)低頻詞的信息更新,從而獲得更準(zhǔn)確的且適用于當(dāng)前任務(wù)語境的低頻詞詞向量表示;并以 Textcnn作為基準(zhǔn)模型,基于word2vec和 Glove得到的兩個(gè)通用預(yù)訓(xùn)練詞向量,在3個(gè)公開的短文本數(shù)據(jù)集上進(jìn)行了優(yōu)化算法的效果驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,使用優(yōu)化算法更新低頻詞詞表示后,模型分類準(zhǔn)確率能達(dá)到84.3%~94%,較更新前提升了0.4%%,體現(xiàn)了優(yōu)化算法的有效性,也進(jìn)一步證明了短文本分類任務(wù)中低頻詞對分類結(jié)果的影響,為短文本分類的研究工作提供了一定的借鑒。
- 基于LSTM的表示學(xué)習(xí)-文本分類模型 18次下載
- 面向短文本的中文真詞錯(cuò)誤檢測與修復(fù) 6次下載
- 面向短文本的中文真詞錯(cuò)誤檢測與修復(fù) 2次下載
- 基于主題分布優(yōu)化的模糊文本分類方法 5次下載
- 基于雙通道詞向量的卷積膠囊網(wǎng)絡(luò)文本分類算法 6次下載
- 基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對比 49次下載
- 基于主題相似度聚類的文本分類算法綜述 6次下載
- 基于單詞貢獻(xiàn)度和Word2Vec詞向量的文檔表示方法 2次下載
- 基于BERT+Bo-LSTM+Attention的病歷短文分類模型 13次下載
- 融合BERT詞向量與TextRank的關(guān)鍵詞抽取方法 18次下載
- 集成WL-CNN和SL-Bi-LSTM的旅游問句文本分類算法 6次下載
- 一種基于神經(jīng)網(wǎng)絡(luò)的短文本分類模型 10次下載
- 結(jié)合BERT模型的中文文本分類算法 6次下載
- 基于微博文本的詞對主題演化模型 14次下載
- 融合詞語類別特征和語義的短文本分類方法 0次下載
- 卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用 779次閱讀
- 人工智能中文本分類的基本原理和關(guān)鍵技術(shù) 1361次閱讀
- ElasticSearch同義詞代碼解析 858次閱讀
- 機(jī)器學(xué)習(xí)相關(guān)介紹:支持向量機(jī)(低維到高維的映射) 2215次閱讀
- 如何才能自己做詞云圖 8343次閱讀
- 文本分類中處理樣本不均衡和提升模型魯棒性的trick 1076次閱讀
- 帶你從頭構(gòu)建文本分類器 3640次閱讀
- 訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)了根據(jù)基于文本分析預(yù)測葡萄酒質(zhì)量 6187次閱讀
- 如何表示一個(gè)詞語的意思?神經(jīng)網(wǎng)絡(luò)詞嵌入的基本思路 3868次閱讀
- 詞對嵌入技術(shù),可以改善現(xiàn)有模型在跨句推理上的表現(xiàn) 3155次閱讀
- Python數(shù)據(jù)挖掘:WordCloud詞云配置過程及詞頻分析 3977次閱讀
- 如何為文本分類任務(wù)選擇正確的模型,這里有一個(gè)完整流程圖! 1.2w次閱讀
- 文本分類任務(wù)介紹和傳統(tǒng)機(jī)器學(xué)習(xí)方法 9695次閱讀
- 一種改變標(biāo)準(zhǔn)的谷歌關(guān)鍵詞搜索的新方式 6823次閱讀
- 自然語言處理技術(shù)入門之基于關(guān)鍵詞生成文本的技術(shù)實(shí)現(xiàn)過程 1w次閱讀
下載排行
本周
- 1DD3118電路圖紙資料
- 0.08 MB | 1次下載 | 免費(fèi)
- 2AD庫封裝庫安裝教程
- 0.49 MB | 1次下載 | 免費(fèi)
- 3PC6206 300mA低功耗低壓差線性穩(wěn)壓器中文資料
- 1.12 MB | 1次下載 | 免費(fèi)
- 4網(wǎng)絡(luò)安全從業(yè)者入門指南
- 2.91 MB | 1次下載 | 免費(fèi)
- 5DS-CS3A P00-CN-V3
- 618.05 KB | 1次下載 | 免費(fèi)
- 6海川SM5701規(guī)格書
- 1.48 MB | 次下載 | 免費(fèi)
- 7H20PR5電磁爐IGBT功率管規(guī)格書
- 1.68 MB | 次下載 | 1 積分
- 8IP防護(hù)等級說明
- 0.08 MB | 次下載 | 免費(fèi)
本月
- 1貼片三極管上的印字與真實(shí)名稱的對照表詳細(xì)說明
- 0.50 MB | 103次下載 | 1 積分
- 2涂鴉各WiFi模塊原理圖加PCB封裝
- 11.75 MB | 89次下載 | 1 積分
- 3錦銳科技CA51F2 SDK開發(fā)包
- 24.06 MB | 43次下載 | 1 積分
- 4錦銳CA51F005 SDK開發(fā)包
- 19.47 MB | 19次下載 | 1 積分
- 5PCB的EMC設(shè)計(jì)指南
- 2.47 MB | 16次下載 | 1 積分
- 6HC05藍(lán)牙原理圖加PCB
- 15.76 MB | 13次下載 | 1 積分
- 7802.11_Wireless_Networks
- 4.17 MB | 12次下載 | 免費(fèi)
- 8蘋果iphone 11電路原理圖
- 4.98 MB | 6次下載 | 2 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935127次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191390次下載 | 10 積分
- 5十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183342次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81588次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73815次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65989次下載 | 10 積分
評論