99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓練效果

深度學習自然語言處理 ? 來源:將門創(chuàng)投 ? 2023-08-25 17:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文是一篇專注于減輕大型Transformer語言模型訓練代價的工作。作者提出了一種基于低秩更新的ReLoRA方法。過去十年中深度學習發(fā)展階段中的一個核心原則就是不斷的“堆疊更多層(stack more layers),因此作者希望探索能否同樣以堆疊的方式來提升低秩適應的訓練效率,實驗結果表明,ReLoRA在改進大型網絡的訓練方面更加有效。

c080cd7c-4323-11ee-a2ef-92fbcf53809c.png

論文鏈接: https://arxiv.org/abs/2307.05695 代碼倉庫: https://github.com/guitaricet/peft_pretraining

一段時間以來,大模型(LLMs)社區(qū)的研究人員開始關注于如何降低訓練、微調和推理LLMs所需要的龐大算力,這對于繼續(xù)推動LLMs在更多的垂直領域中發(fā)展和落地具有非常重要的意義。目前這一方向也有很多先驅工作,例如從模型結構上創(chuàng)新的RWKV,直接替換計算量較大的Transformer架構,改用基于RNN范式的新架構。還有一些方法從模型微調階段入手,例如在原有LLMs中加入參數(shù)量較小的Adapter模塊來進行微調。還有微軟提出的低秩自適應(Low-Rank Adaptation,LoRA)方法,LoRA假設模型在任務適配過程中對模型權重的更新量可以使用低秩矩陣進行估計,因而可以用來間接優(yōu)化新加入的輕量級適應模塊,同時保持原有的預訓練權重不變。目前LoRA已經成為大模型工程師必備的一項微調技能,但本文作者仍然不滿足于目前LoRA所能達到的微調效果,并進一步提出了一種可疊加的低秩微調方法,稱為ReLoRA。

本文來自馬薩諸塞大學洛厄爾分校的研究團隊,作者團隊將ReLoRA應用在具有高達350M參數(shù)的Transformer上時,展現(xiàn)出了與常規(guī)神經網絡訓練相當?shù)男阅?。此外,本文作者還觀察到ReLoRA的微調效率會隨著模型參數(shù)規(guī)模的增加而不斷提高,這使得其未來有可能成為訓練超大規(guī)模(通常超過1B參數(shù))LLMs的新型手段。

一、引言雖然目前學術界和工業(yè)界都在不斷推出自家的各種基座模型,但不可否認的是,完全預訓練一個具有初等推理能力的LLMs仍然需要非常龐大的算力,例如大家熟知的LLaMA-6B模型[1]就需要數(shù)百個GPU才能完成訓練,這種規(guī)模的算力已經讓絕大多數(shù)學術研究小組望而卻步了。在這種背景下,參數(shù)高效微調(PEFT)已經成為了一個非常具有前景的LLMs研究方向。具體來說,PEFT方法可以在消費級GPU(例如RTX 3090或4090)上對十億級語言或擴散模型進行微調。因此本文重點關注PEFT中的低秩訓練技術,尤其是LoRA方法。作者思考到,過去十年中深度學習發(fā)展階段中的一個核心原則就是不斷的“堆疊更多層(stack more layers)”,例如ResNet的提出可以使我們將卷積神經網絡的深度提升到100層以上,并且也獲得了非常好的效果。因此本文探索能否同樣以堆疊的方式來提升低秩適應的訓練效率呢?

c0a6266c-4323-11ee-a2ef-92fbcf53809c.png

本文提出了一種基于低秩更新的ReLoRA方法,來訓練和微調高秩網絡,其性能優(yōu)于具有相同可訓練參數(shù)數(shù)量的網絡,甚至能夠達到與訓練100M+規(guī)模的完整網絡類似的性能,對比效果如上圖所示。具體來說,ReLoRA方法包含(1)初始化全秩訓練、(2)LoRA 訓練、(3)參數(shù)重新啟動、(4)鋸齒狀學習率調度(jagged learning rate schedule)和(5)優(yōu)化器參數(shù)部分重置。作者選擇目前非常火熱的自回歸語言模型進行實驗,并且保證每個實驗所使用的GPU計算時間不超過8天。二、本文方法作者首先從兩個矩陣之和的秩入手,通常來說,矩陣相加的后秩的上界會比較緊湊,對于矩陣,,然后存在矩陣,,使得矩陣之和的秩高于或。作者希望利用這一特性來制定靈活的參數(shù)高效訓練方法,然后從LoRA算法開始入手,LoRA可以將模型權重的更新量 分解為一組低秩矩陣乘積 ,如下式所示,其中 是固定縮放因子。

c0cbdf24-4323-11ee-a2ef-92fbcf53809c.png

在具體操作時,LoRA通常是加入新的可學習參數(shù) 和 來實現(xiàn),這些參數(shù)可以在訓練后合并回原始參數(shù)中。因此,盡管上述方程允許我們在訓練階段中實現(xiàn)總參數(shù)更新量高于任意單個矩陣的秩,但其仍然受到的限制。因此作者想到通過不斷疊加這一過程來突破限制達到更好的訓練效果。這首先需要對LoRA過程進行重新啟動,就可以在訓練階段不斷合并每次得到的 和 來得到累加的權重更新量,計算公式如下:但是,想要對已經完成的LoRA過程重新啟動并不容易,這需要對優(yōu)化器進行精細的調整,如果調整不到位,會導致模型在重啟后立即與之前的優(yōu)化方向出現(xiàn)分歧。例如Adam優(yōu)化器在更新時主要由先前步驟中所累積梯度的一階矩和二階矩引導。實際上,梯度矩平滑參數(shù) 和 通常非常高,因而在重新啟動時的秩上界為 ,相應的梯度矩 和 都是滿秩的,在合并參數(shù)后就會使用先前的舊梯度來優(yōu)化 朝向與 相同的子空間方向。 為了解決這個問題,作者提出了ReLoRA方法,ReLoRA在合并和重新啟動期間可以對優(yōu)化器進行部分重置,并在隨后的預熱中過程中將學習率設置為0。具體來說,作者提出了一種鋸齒狀學習率調度算法,如下圖所示,在每次對ReLoRA參數(shù)進行重置時,都會將學習率設置為零,并執(zhí)行快速(50-100 步)學習率預熱使其回到與重置前相同的水平范圍內。

c0e31cb6-4323-11ee-a2ef-92fbcf53809c.png

ReLoRA通過序列疊加的方式僅訓練一小組參數(shù)就可以實現(xiàn)與全秩訓練相當?shù)男阅?,并且遵循LoRA方法的基礎原則,即保持原始網絡的凍結權重并添加新的可訓練參數(shù)。乍一看,這種方式可能顯得計算效率低下,但我們需要清楚的是,這種方法可以通過減小梯度和優(yōu)化器狀態(tài)的大小,來顯著提高顯存效率。例如Adam優(yōu)化器狀態(tài)消耗的顯存通常是模型權重占用的兩倍。通過大幅減少可訓練參數(shù)的數(shù)量,ReLoRA可以在相同的顯存條件下使用更大的batchsize大小,從而最大限度地提高硬件效率,ReLoRA的整體操作細節(jié)如下圖所示。

c0eb4382-4323-11ee-a2ef-92fbcf53809c.png

三、實驗效果為了清晰的評估ReLoRA方法的性能,作者將其應用在各種規(guī)模大?。?0M、130M、250M 和 350M)的Transformer模型上,并且都在C4數(shù)據(jù)集上進行訓練和測試。為了展現(xiàn)ReLoRA方法的普適性,作者重點考察NLP領域的基礎語言建模任務。模型架構和訓練超參數(shù)設置基本與LLaMA模型保持一致。與LLaMA不同的是,作者在實驗中將原始的注意力機制(使用float32進行 softmax計算)替換為了Flash注意力[2],并且使用bfloat16精度進行計算,這樣操作可以將訓練吞吐量提高50-100%,且沒有任何訓練穩(wěn)定性問題。此外,使用ReLoRA方法訓練的模型參數(shù)規(guī)模相比LLaMA要小得多,最大的模型參數(shù)才僅有350M,使用8個RTX4090上訓練了一天時間就可以完成。 下圖展示了本文方法與其他方法的性能對比效果,可以看到ReLoRA顯著優(yōu)于低秩LoRA方法,證明了我們提出的修改的有效性。此外,ReLoRA還實現(xiàn)了與滿秩訓練(Full training)相當?shù)男阅埽⑶椅覀兛梢杂^察到,隨著網絡規(guī)模的增加,性能差距逐漸縮小。有趣的是,ReLoRA 唯一無法超過的基線模型是僅具有60M參數(shù)的最小模型。這一觀察結果表明,ReLoRA在改進大型網絡的訓練方面更加有效,這與作者最開始研究探索一種改進大型網絡訓練方法的目標是一致的。

c10991c0-4323-11ee-a2ef-92fbcf53809c.png

此外,為了進一步判斷ReLoRA是否能夠通過迭代低秩更新來實現(xiàn)相比LoRA更高的秩更新訓練,作者繪制了ReLoRA、LoRA和全秩訓練的熱啟動權重與最終權重之間差異的奇異值譜。如下圖所示,下圖說明了LoRA和ReLoRA之間對于 、、 和 奇異值的顯著差異,可以看到ReLoRA在所有四個矩陣參數(shù)上均得到了最小的奇異值。

c12dc658-4323-11ee-a2ef-92fbcf53809c.png

四、總結本文是一篇專注于減輕大型Transformer語言模型訓練代價的工作,作者選取了一條非常具有前景的方向,即低秩訓練技術,并且從最樸素的低秩矩陣分解 (LoRA) 方法出發(fā),利用多個疊加的低秩更新矩陣來訓練高秩網絡,為了實現(xiàn)這一點,作者精心設計了包含參數(shù)重新啟動、鋸齒狀學習率調度算法和優(yōu)化器參數(shù)重置等一系列操作,這些操作共同提高了ReLoRA算法的訓練效率,在某些情況下甚至能夠達到與全秩訓練相當?shù)男阅?,尤其實在超大?guī)模的Transformer網絡中。作者通過大量的實驗證明了ReLoRA的算法可行性和操作有效性,不知ReLoRA是否也會成為大模型工程師一項必備的算法技能呢?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103648
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122800
  • LoRa
    +關注

    關注

    352

    文章

    1780

    瀏覽量

    234896
  • 大模型
    +關注

    關注

    2

    文章

    3146

    瀏覽量

    4076

原文標題:LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓練效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何高效訓練AI模型?這些常用工具你必須知道!

    特定領域的中小型模型。這類模型針對垂直領域,性價比更高,在特定場景下能以較低資源實現(xiàn)高準確率的專項任務。例如在邊緣計算領域,模型推理所需資源
    的頭像 發(fā)表于 04-17 16:43 ?1712次閱讀
    如何<b class='flag-5'>高效</b><b class='flag-5'>訓練</b>AI<b class='flag-5'>模型</b>?這些常用工具你必須知道!

    首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手

    ,聯(lián)發(fā)科帶來了全面升級的天璣AI開發(fā)套件2.0,在模型庫規(guī)模、架構開放程度、前沿端側AI技術支持和端側LoRA訓練落地等方面均迎來全面躍遷,為開發(fā)提供了更全面、更開放、更強大的端側A
    發(fā)表于 04-13 19:52

    請問如何能讓模型效果更好?

    重現(xiàn)步驟 我用yolov8n訓練出的模型,跑出來的識別是沒有問題的,問題是在部署到開發(fā)板上,無論是穩(wěn)定性還是框的大小以及識別的準確性都比較差,再試了幾次訓練后的效果還是不好,請問有什么
    發(fā)表于 03-11 07:21

    讓大模型訓練更高效,奇異摩爾用互聯(lián)創(chuàng)新方案定義下一代AI計算

    ? 電子發(fā)燒友網報道(文/吳子鵬)近一段時間以來,DeepSeek現(xiàn)象級爆火引發(fā)產業(yè)對大規(guī)模數(shù)據(jù)中心建設的思考和爭議。在訓練端,DeepSeek以開源模型通過算法優(yōu)化(如稀疏計算、動態(tài)架構)降低
    的頭像 發(fā)表于 02-18 09:19 ?1321次閱讀
    讓大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b><b class='flag-5'>更高效</b>,奇異摩爾用互聯(lián)創(chuàng)新方案定義下一代AI計算

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調技術解讀

    ,減少了計算成本。LoRA(Low-Rank Adaptation):一種基于分解的微調方法,通過分解模型參數(shù)
    發(fā)表于 01-14 16:51

    【「大模型啟示錄」閱讀體驗】營銷領域大模型的應用

    用戶體驗和滿意度,進而增加轉化率。通過精準匹配消費需求和產品特性,大模型幫助企業(yè)實現(xiàn)更高效的市場滲透和銷售增長。 大
    發(fā)表于 12-24 12:48

    GPU是如何訓練AI大模型

    在AI模型訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓練AI大
    的頭像 發(fā)表于 12-19 17:54 ?750次閱讀

    PyTorch GPU 加速訓練模型方法

    的基本原理 GPU(圖形處理單元)最初是為圖形渲染設計的,但隨著技術的發(fā)展,人們發(fā)現(xiàn)GPU在并行計算方面有著天然的優(yōu)勢。GPU擁有成千上萬個核心,可以同時處理大量數(shù)據(jù),這使得它在進行矩陣運算和并行計算時比CPU更加高效。 2. 檢查GPU設備 在開始
    的頭像 發(fā)表于 11-05 17:43 ?1413次閱讀

    為什么ai模型訓練要用gpu

    GPU憑借其強大的并行處理能力和高效的內存系統(tǒng),已成為AI模型訓練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?977次閱讀

    如何訓練自己的AI大模型

    訓練自己的AI大模型是一個復雜且耗時的過程,涉及多個關鍵步驟。以下是一個詳細的訓練流程: 一、明確需求和目標 首先,需要明確自己的需求和目標。不同的任務和應用領域需要不同類型的AI
    的頭像 發(fā)表于 10-23 15:07 ?4995次閱讀

    2024 VDC人工智能會場:全新藍心大模型矩陣,助力開發(fā)高效創(chuàng)新

    取得的最新成果,以前沿解決方案引領大模型創(chuàng)新與用戶體驗升級,助力開發(fā)高效創(chuàng)新。 全新藍心大模型矩陣 長期以來,vivo持續(xù)在AI領域深耕,
    發(fā)表于 10-12 14:03 ?342次閱讀
    2024 VDC人工智能會場:全新藍心大<b class='flag-5'>模型</b><b class='flag-5'>矩陣</b>,助力開發(fā)<b class='flag-5'>者</b><b class='flag-5'>高效</b>創(chuàng)新

    GaN如何實現(xiàn)更高效、更緊湊的電源

    電子發(fā)燒友網站提供《GaN如何實現(xiàn)更高效、更緊湊的電源.pdf》資料免費下載
    發(fā)表于 09-12 10:00 ?0次下載
    GaN如何<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>更高效</b>、更緊湊的電源

    如何通過增強抗干擾能力提高LoRa通信效果

    提高LoRa模塊的抗干擾能力是確保其在復雜無線環(huán)境中穩(wěn)定通信的關鍵。通過采用頻譜擴頻技術、選擇合適的擴頻因子、優(yōu)化信道選擇和頻率規(guī)劃、使用前向糾錯編碼以及實現(xiàn)自適應速率,LoRa可以顯
    的頭像 發(fā)表于 08-05 17:09 ?1972次閱讀
    如何<b class='flag-5'>通過</b>增強抗干擾能力提高<b class='flag-5'>LoRa</b>通信<b class='flag-5'>效果</b>

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    的信息,提供更全面的上下文理解。這使得模型能夠更準確地理解復雜問題中的多個層面和隱含意義。 2. 語義分析 模型通過訓練學習到語言的語義特征,能夠識別文本中的命名實體、句法結構和語義關
    發(fā)表于 08-02 11:03

    LED機械矩陣屏:打造獨特視覺效果的視覺盛宴

    您更好地了解和應用這一技術。 LED機械矩陣屏 二、LED機械矩陣屏的定義及特點 1. 定義 LED機械矩陣屏是一種采用LED燈珠組成的機械結構顯示屏幕,通過紅、綠、藍三基色LED燈珠
    的頭像 發(fā)表于 07-29 09:30 ?937次閱讀