99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高效果的方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

昨天看完NoisyTune論文,做好實(shí)驗(yàn)就來(lái)了。一篇ACL2022通過(guò)微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高預(yù)訓(xùn)練語(yǔ)言模型在下游任務(wù)的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實(shí)現(xiàn),就在自己的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)確實(shí)有所提高,為此分享給大家;不過(guò)值得注意的是,「不同數(shù)據(jù)需要加入噪音的程度是不同」,需要自行調(diào)參。

模型

自2018年BERT模型橫空出世,預(yù)訓(xùn)練語(yǔ)言模型基本上已經(jīng)成為了自然語(yǔ)言處理領(lǐng)域的標(biāo)配,「pretrain+finetune」成為了主流方法,下游任務(wù)的效果與模型預(yù)訓(xùn)練息息相關(guān);然而由于預(yù)訓(xùn)練機(jī)制以及數(shù)據(jù)影響,導(dǎo)致預(yù)訓(xùn)練語(yǔ)言模型與下游任務(wù)存在一定的Gap,導(dǎo)致在finetune過(guò)程中,模型可能陷入局部最優(yōu)。

為了減輕上述問(wèn)題,提出了NoisyTune方法,即,在finetune前加入給預(yù)訓(xùn)練模型的參數(shù)增加少量噪音,給原始模型增加一些擾動(dòng),從而提高預(yù)訓(xùn)練語(yǔ)言模型在下游任務(wù)的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過(guò)矩陣級(jí)擾動(dòng)(matrix-wise perturbing)方法來(lái)增加噪聲,定義預(yù)訓(xùn)練語(yǔ)言模型參數(shù)矩陣為,其中,表示模型中參數(shù)矩陣的個(gè)數(shù),擾動(dòng)如下:

其中,表示從到范圍內(nèi)均勻分布的噪聲;表示控制噪聲強(qiáng)度的超參數(shù);表示標(biāo)準(zhǔn)差。

代碼實(shí)現(xiàn)如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應(yīng)用到各種預(yù)訓(xùn)練語(yǔ)言模型中,可插拔且操作簡(jiǎn)單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯(cuò)的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發(fā)現(xiàn)在矩陣級(jí)均勻噪聲最優(yōu)。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數(shù)據(jù)量下,NoisyTune方法相對(duì)于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強(qiáng)度下,效果提升不同,對(duì)于GLUE數(shù)據(jù)集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結(jié)

蠻有意思的一篇論文,加入少量噪音,提高下游微調(diào)效果,并且可插拔方便易用,可以納入到技術(shù)庫(kù)中。

本人在自己的中文數(shù)據(jù)上做了一些實(shí)驗(yàn),發(fā)現(xiàn)結(jié)果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強(qiáng)度在0.2時(shí)最佳,并且在噪聲強(qiáng)度小于0.1或大于0.25后,會(huì)比原始效果差。個(gè)人實(shí)驗(yàn)結(jié)果,僅供參考。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 噪音
    +關(guān)注

    關(guān)注

    1

    文章

    170

    瀏覽量

    24214
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3518

    瀏覽量

    50406
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14154

原文標(biāo)題:ACL2022 | NoisyTune:微調(diào)前加入少量噪音可能會(huì)有意想不到的效果

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過(guò)分詞化(Tokenize),轉(zhuǎn)換為大語(yǔ)言模型能直接使用的二進(jìn)制數(shù)據(jù),以便提升訓(xùn)練效果。 ChatGPT發(fā)布后,當(dāng)代大語(yǔ)言模型
    的頭像 發(fā)表于 03-21 18:24 ?1656次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    YOLOv5類中rgb888p_size這個(gè)參數(shù)要與模型推理和訓(xùn)練的尺寸一致嗎?一致會(huì)達(dá)到更好的效果?

    YOLOv5類中rgb888p_size這個(gè)參數(shù)要與模型推理和訓(xùn)練的尺寸一致嗎,一致會(huì)達(dá)到更好的效果
    發(fā)表于 03-11 08:12

    請(qǐng)問(wèn)如何能讓模型效果更好?

    重現(xiàn)步驟 我用yolov8n訓(xùn)練出的模型,跑出來(lái)的識(shí)別是沒(méi)有問(wèn)題的,問(wèn)題是在部署到開發(fā)板上,無(wú)論是穩(wěn)定性還是框的大小以及識(shí)別的準(zhǔn)確性都比較差,再試了幾次訓(xùn)練后的效果還是不好,請(qǐng)問(wèn)有什么
    發(fā)表于 03-11 07:21

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無(wú)法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    使用OpenVINO?訓(xùn)練擴(kuò)展對(duì)水平文本檢測(cè)模型進(jìn)行微調(diào),收到錯(cuò)誤信息是怎么回事?

    已針對(duì)水平文本檢測(cè)模型運(yùn)行OpenVINO?訓(xùn)練擴(kuò)展中的 微調(diào) 步驟,并收到錯(cuò)誤消息: RuntimeError: Failed to find annotation files
    發(fā)表于 03-05 06:48

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費(fèi)級(jí)顯卡上,利用PaddleNLP實(shí)踐OpenAI的GPT-2模型預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-
    的頭像 發(fā)表于 02-19 16:10 ?994次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    ,減少了計(jì)算成本。LoRA(Low-Rank Adaptation):一種基于低秩分解的微調(diào)方法,通過(guò)分解模型參數(shù)矩陣為低秩矩陣來(lái)減少參數(shù)
    發(fā)表于 01-14 16:51

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    的應(yīng)用。MAML算法通過(guò)二階優(yōu)化找到對(duì)任務(wù)變化敏感的模型參數(shù),實(shí)現(xiàn)了快速適應(yīng)。上下文學(xué)習(xí)則引入了注意力機(jī)制,使模型能夠根據(jù)當(dāng)前場(chǎng)景動(dòng)態(tài)調(diào)整行為策略。在預(yù)
    發(fā)表于 12-24 15:03

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這一動(dòng)向的前沿。Keras 擁有專用的內(nèi)容庫(kù),如用
    的頭像 發(fā)表于 12-20 10:32 ?498次閱讀

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.52】基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化

    (相對(duì)于預(yù)訓(xùn)練的數(shù)據(jù)量來(lái)說(shuō))的、已標(biāo)注的數(shù)據(jù)上進(jìn)行再次訓(xùn)練與強(qiáng)化學(xué)習(xí),以使得模型更好地適應(yīng)特定的場(chǎng)景與下游任務(wù)。 顯然,微調(diào)是另外一種
    發(fā)表于 12-04 10:50

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    訓(xùn)練方法 LLM: 預(yù)訓(xùn)練微調(diào): LLM通常采用預(yù)訓(xùn)練(Pre-training)和
    的頭像 發(fā)表于 11-08 09:25 ?1877次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和
    的頭像 發(fā)表于 11-05 17:43 ?1399次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?589次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    ai大模型訓(xùn)練方法有哪些?

    AI大模型訓(xùn)練方法是一個(gè)復(fù)雜且不斷發(fā)展的領(lǐng)域。以下是ai大模型訓(xùn)練方法: 數(shù)據(jù)預(yù)處理和增強(qiáng) 數(shù)據(jù)清洗:去除噪聲和不完整的數(shù)據(jù)。 數(shù)據(jù)標(biāo)準(zhǔn)化:將數(shù)據(jù)縮放到統(tǒng)一的范圍。 數(shù)據(jù)增強(qiáng):通過(guò)旋轉(zhuǎn)
    的頭像 發(fā)表于 07-16 10:11 ?3158次閱讀