99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何更高效地使用預(yù)訓(xùn)練語言模型

深度學(xué)習(xí)自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:小偉 ? 2022-07-08 11:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概覽

本文對任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實在是太多了,很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出了一個基本的假設(shè):預(yù)訓(xùn)練模型在不同下游任務(wù)上學(xué)習(xí)的過程,可以被重新參數(shù)化(reparameterized)為在同一個低維本征子空間上的優(yōu)化過程。如下圖所示,模型在不同的任務(wù)上學(xué)習(xí)的參數(shù)雖然不同,但這些參數(shù)共享了同一個低維本征子空間。

c5318178-ed60-11ec-ba43-dac502259ad0.png

基于這一假設(shè),作者提出了探索公共低維本征子空間的方法:intrinsic prompt tuning (IPT)。

IPT由兩個階段組成:

Multi-task Subspace Finding (MSF):尋找多個任務(wù)的公共子空間,這是一個低維的、更為本征的一個空間

Intrinsic Subspace Tuning (IST):在找到的公共本征子空間上進行模型優(yōu)化

下圖展示了 IPT 與 fine-tuning 和 prompt tuning 的對比。

c5542552-ed60-11ec-ba43-dac502259ad0.png

下面我們具體來了解一下IPT的兩個階段

IPT

作者使用intrinsic prompt tuning (IPT)來驗證本文的基本假設(shè): 預(yù)訓(xùn)練模型對多個不同下游任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在同一個低維本征子空間上的優(yōu)化。

第一個階段是multi-task subspace finding (MSF)。

1. 尋找公共本征子空間(MSF)

MSF階段旨在通過對多個任務(wù)進行學(xué)習(xí),來找到公共的低維本征子空間。如上圖所示,本質(zhì)上就是在學(xué)習(xí)一個自編碼器。

我們用 來代表自編碼器的Encoder部分(上圖中處于下方的梯形),用 來代表自編碼器的Decoder部分(上圖中處于上方的梯形),那么自編碼器會先用把Prompt參數(shù)映射為一個低維(維)的向量(向量所在的維空間就是我們想要的低維本征子空間),然后再用把該低維向量重新映射回原始的prompt空間,得到 這樣我們就可以使用 和 的距離來計算自編碼器的重建loss ,形式化表述就是:

另外,使用自編碼器來學(xué)習(xí)公共低維本征子空間的最終目的還是為了解決多個任務(wù),所以作者引入了面向任務(wù)的語言模型loss 來提供任務(wù)相關(guān)的監(jiān)督(例如圖中模型生成的結(jié)果"positive"和正確標(biāo)簽之間的交叉熵)。那么MSF階段最終的loss就是:

其中 代表 和 的參數(shù),這也是我們在MSF階段要學(xué)習(xí)的參數(shù)。

2. 本征子空間優(yōu)化(IST)

在MSF階段中,我們通過對多個任務(wù)的學(xué)習(xí)找到了維的公共本征子空間,然后就進入了第二個階段IST。在這一階段中,我們想評價我們在MSF階段中找到的低維本征子空間是不是能夠很好的泛化到 (a) MSF階段訓(xùn)練過的任務(wù)的新數(shù)據(jù),以及 (b) MSF階段沒有訓(xùn)練過的任務(wù)。如果該低維本征子空間在這兩種情況下都有比較好的泛化性能的話,那么在我們在一定程度上就成功地找到了想要的本征子空間。

在本階段中,如上圖 所示, 我們只保留自編碼器的Decoder部分并凍結(jié)它的參數(shù)。對于每個測試任務(wù),我們只微調(diào)本征子空間中的個自由參數(shù) , 會將解碼回原始的prompt空間中來計算loss:

實驗

作者使用了120個few-shot任務(wù)來進行實驗,并進行了三種不同的訓(xùn)練-測試任務(wù)劃分

random: 隨機選擇100個任務(wù)作為訓(xùn)練任務(wù),其余20個任務(wù)作為測試任務(wù)

non-cls: 隨機選擇非分類任務(wù)中的35作為訓(xùn)練任務(wù),其余所有任務(wù)作為測試任務(wù)

cls: 隨機選擇分類任務(wù)中的35個作為訓(xùn)練任務(wù),其余所有任務(wù)作為測試任務(wù)

同時,對每一種任務(wù)劃分,作者進行了5種不同的實驗

: 在MSF階段,直接使用學(xué)習(xí)到的低維本征子空間來評估訓(xùn)練任務(wù)在訓(xùn)練數(shù)據(jù)上的性能

: 在MSF階段,直接使用學(xué)習(xí)到的低維本征子空間來評估測試任務(wù)(0-shot)的泛化性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來評估訓(xùn)練任務(wù)在訓(xùn)練數(shù)據(jù)上的性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來評估訓(xùn)練任務(wù)在新數(shù)據(jù)上的泛化性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來評估測試任務(wù)的泛化性能

c594f0fa-ed60-11ec-ba43-dac502259ad0.png

整體的實驗結(jié)果如上圖所示,作者通過分析不同實驗的結(jié)果,得出了一些比較重要的結(jié)論:

在random劃分中,僅僅微調(diào)低維本征子空間中的5個自由參數(shù),就可以分別獲得full prompt tuning 87%(訓(xùn)練過的任務(wù),不同訓(xùn)練數(shù)據(jù))以及65%(未訓(xùn)練過的任務(wù))的性能,這證明我們在MSF階段中找到的低維本征子空間是比較有效的。但從另一個方面來講,使用低維本征子空間無法獲得和full prompt tuning相當(dāng)?shù)男阅?,所以我們不能直接得出預(yù)訓(xùn)練模型對多個任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在完全相同的子空間中的優(yōu)化的結(jié)論。

訓(xùn)練-測試任務(wù)的劃分會對結(jié)果有很大的影響。比如在cls劃分中,訓(xùn)練時找到的本征子空間可以在分類的測試任務(wù)上有比較合理的表現(xiàn),但在非分類的測試任務(wù)上表現(xiàn)很差。

隨著MSF階段中訓(xùn)練任務(wù)數(shù)量的增加,找到的本征子空間的泛化能力會有所提高。這反映了增加MSF階段中訓(xùn)練任務(wù)的覆蓋范圍和多樣性可以幫助IPT找到更通用的本征子空間。

結(jié)論

本文設(shè)計了IPT框架來驗證提出的假設(shè): 預(yù)訓(xùn)練模型對多個不同下游任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在同一個低維本征子空間上的優(yōu)化。詳盡的實驗為假設(shè)提供了一定的積極證據(jù),也幫助大家對如何更高效地使用預(yù)訓(xùn)練語言模型有了更好的了解。

思考

雖然文章中的實驗結(jié)果不能直接驗證“預(yù)訓(xùn)練模型對多個任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在完全相同的子空間中的優(yōu)化”這一假設(shè)是完全正確的,但起碼它證明了各種任務(wù)重參數(shù)化后的低維子空間是有比較大的交集的,而且我們可以通過MSF來找到這個交集。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3799

    瀏覽量

    138024

原文標(biāo)題:Prompt Learning | 五個參數(shù)解決下游任務(wù) fine-tuning

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術(shù)細節(jié)。本文主要針對大語言
    的頭像 發(fā)表于 03-21 18:24 ?1670次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    小白學(xué)大模型訓(xùn)練語言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時代,大型語言模型(LLMs)正以其強大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項研究中,科學(xué)家們?yōu)榱松钊肓私馊绾?b class='flag-5'>高效地
    的頭像 發(fā)表于 03-03 11:51 ?727次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓(xùn)練一個大語言模型需要投資多少錢》,其中高昂的預(yù)訓(xùn)練費用讓許多對大
    的頭像 發(fā)表于 02-19 16:10 ?995次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    騰訊公布大語言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型訓(xùn)練方法、裝置、計算機設(shè)備及存儲介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊在大語言模型
    的頭像 發(fā)表于 02-10 09:37 ?408次閱讀

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這一動向的前沿。Keras 擁有專用的內(nèi)容庫,如用
    的頭像 發(fā)表于 12-20 10:32 ?498次閱讀

    AI大語言模型開發(fā)步驟

    開發(fā)一個高效、準(zhǔn)確的大語言模型是一個復(fù)雜且多階段的過程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計、訓(xùn)練與優(yōu)化、評估與調(diào)試等多個環(huán)節(jié)。接下來,AI部
    的頭像 發(fā)表于 12-19 11:29 ?892次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?524次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個簡稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

    寫給小白的大模型入門科普

    什么是大模型?大模型,英文名叫LargeModel,大型模型。早期的時候,也叫FoundationModel,基礎(chǔ)模型。大模型是一個簡稱。完
    的頭像 發(fā)表于 11-23 01:06 ?704次閱讀
    寫給小白的大<b class='flag-5'>模型</b>入門科普

    從零開始訓(xùn)練一個大語言模型需要投資多少錢?

    一,前言 ? 在AI領(lǐng)域,訓(xùn)練一個大型語言模型(LLM)是一個耗時且復(fù)雜的過程。幾乎每個做大型語言模型(LLM)
    的頭像 發(fā)表于 11-08 14:15 ?786次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b>一個大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>需要投資多少錢?

    語言模型如何開發(fā)

    語言模型的開發(fā)是一個復(fù)雜且細致的過程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計、訓(xùn)練、微調(diào)和部署等多個階段。以下是對大語言
    的頭像 發(fā)表于 11-04 10:14 ?604次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?590次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    摩爾線程與羽人科技完成大語言模型訓(xùn)練測試

    近日,摩爾線程與羽人科技攜手宣布,雙方已成功實現(xiàn)夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配。在本次測試中,羽人科技通過摩爾線程夸娥千卡智算集群,高效完成了70億參數(shù)羽人7B
    的頭像 發(fā)表于 08-27 16:19 ?821次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量無標(biāo)簽文本數(shù)據(jù)上學(xué)習(xí)
    發(fā)表于 08-02 11:03