不是每个网站都叫夜夜夜夜夜夜夜夜夜 ,都市激情一区二区在线观看,老司机黄色无码视频

只需微調(diào)一下，大模型支持上下文大小就能從1.6萬tokens延長(zhǎng)至100萬？！

還是在只有70億參數(shù)的LLaMA 2上。

要知道，即使是當(dāng)前最火的Claude 2和GPT-4，支持上下文長(zhǎng)度也不過10萬和3.2萬，超出這個(gè)范圍大模型就會(huì)開始胡言亂語、記不住東西。

現(xiàn)在，一項(xiàng)來自復(fù)旦大學(xué)和上海人工智能實(shí)驗(yàn)室的新研究，不僅找到了讓一系列大模型提升上下文窗口長(zhǎng)度的方法，還發(fā)掘出了其中的規(guī)律。

按照這個(gè)規(guī)律，只需調(diào)整1個(gè)超參數(shù)，就能確保輸出效果的同時(shí)，穩(wěn)定提升大模型外推性能。

外推性，指大模型輸入長(zhǎng)度超過預(yù)訓(xùn)練文本長(zhǎng)度時(shí)，輸出表現(xiàn)變化情況。如果外推能力不好，輸入長(zhǎng)度一旦超過預(yù)訓(xùn)練文本長(zhǎng)度，大模型就會(huì)“胡言亂語”。

所以，它究竟能提升哪些大模型的外推能力，又是如何做到的？

大模型外推能力提升“機(jī)關(guān)”

這種提升大模型外推能力的方法，和Transformer架構(gòu)中名叫位置編碼的模塊有關(guān)。

事實(shí)上，單純的注意力機(jī)制（Attention）模塊無法區(qū)分不同位置的token，例如“我吃蘋果”和“蘋果吃我”在它眼里沒有差異。

因此需要加入位置編碼，來讓它理解詞序信息，從而真正讀懂一句話的含義。

目前的Transformer位置編碼方法，有絕對(duì)位置編碼（將位置信息融入到輸入）、相對(duì)位置編碼（將位置信息寫入attention分?jǐn)?shù)計(jì)算）和旋轉(zhuǎn)位置編碼幾種。其中，最火熱的要屬旋轉(zhuǎn)位置編碼，也就是RoPE了。

RoPE通過絕對(duì)位置編碼的形式，實(shí)現(xiàn)了相對(duì)位置編碼的效果，但與相對(duì)位置編碼相比，又能更好地提升大模型的外推潛力。

如何進(jìn)一步激發(fā)采用RoPE位置編碼的大模型的外推能力，也成為了最近不少研究的新方向。

這些研究，又主要分為限制注意力和調(diào)整旋轉(zhuǎn)角兩大流派。

限制注意力的代表研究包括ALiBi、xPos、BCA等。最近MIT提出的StreamingLLM，可以讓大模型實(shí)現(xiàn)無限的輸入長(zhǎng)度（但并不增加上下文窗口長(zhǎng)度），就屬于這一方向的研究類型。

△圖源作者

調(diào)整旋轉(zhuǎn)角的工作則更多，典型代表如線性內(nèi)插、Giraffe、Code LLaMA、LLaMA2 Long等都屬于這一類型的研究。

△圖源作者

以Meta最近爆火的LLaMA2 Long研究為例，它就提出了一個(gè)名叫RoPE ABF的方法，通過修改一個(gè)超參數(shù)，成功將大模型的上下文長(zhǎng)度延長(zhǎng)到3.2萬tokens。

這個(gè)超參數(shù)，正是Code LLaMA和LLaMA2 Long等研究找出的“開關(guān)”——

旋轉(zhuǎn)角底數(shù)（base）。

只需要微調(diào)它，就可以確保提升大模型的外推表現(xiàn)。

但無論是Code LLaMA還是LLaMA2 Long，都只是在特定的base和續(xù)訓(xùn)長(zhǎng)度上進(jìn)行微調(diào)，使得其外推能力增強(qiáng)。

是否能找到一種規(guī)律，確保所有用了RoPE位置編碼的大模型，都能穩(wěn)定提升外推表現(xiàn)？

掌握這個(gè)規(guī)律，上下文輕松100w+

來自復(fù)旦大學(xué)和上海AI研究院的研究人員，針對(duì)這一問題進(jìn)行了實(shí)驗(yàn)。

他們先是分析了影響RoPE外推能力的幾種參數(shù)，提出了一種名叫臨界維度（Critical Dimension）的概念，隨后基于這一概念，總結(jié)出了一套R(shí)oPE外推的縮放法則（Scaling Laws of RoPE-based Extrapolation）。

只需要應(yīng)用這個(gè)規(guī)律，就能確保任意基于RoPE位置編碼大模型都能改善外推能力。

先來看看臨界維度是什么。

從定義中來看，它和預(yù)訓(xùn)練文本長(zhǎng)度Ttrain、自注意力頭維度數(shù)量d等參數(shù)都有關(guān)系，具體計(jì)算方法如下：

其中，10000即超參數(shù)、旋轉(zhuǎn)角底數(shù)base的“初始值”。

作者發(fā)現(xiàn)，無論放大還是縮小base，最終都能讓基于RoPE的大模型的外推能力得到增強(qiáng)，相比之下當(dāng)旋轉(zhuǎn)角底數(shù)為10000時(shí)，大模型外推能力是最差的。

對(duì)此論文認(rèn)為，旋轉(zhuǎn)角底數(shù)更小，能讓更多的維度感知到位置信息，旋轉(zhuǎn)角底數(shù)更大，則能表示出更長(zhǎng)的位置信息。

既然如此，在面對(duì)不同長(zhǎng)度的續(xù)訓(xùn)語料時(shí)，究竟縮小和放大多少旋轉(zhuǎn)角底數(shù)，才能確保大模型外推能力得到最大程度上的提升？

論文給出了一個(gè)擴(kuò)展RoPE外推的縮放法則，與臨界維度、大模型的續(xù)訓(xùn)文本長(zhǎng)度和預(yù)訓(xùn)練文本長(zhǎng)度等參數(shù)有關(guān)：

基于這一規(guī)律，可以根據(jù)不同預(yù)訓(xùn)練和續(xù)訓(xùn)文本長(zhǎng)度，來直接計(jì)算出大模型的外推表現(xiàn)，換言之就是預(yù)測(cè)大模型的支持的上下文長(zhǎng)度。

反之利用這一法則，也能快速推導(dǎo)出如何最好地調(diào)整旋轉(zhuǎn)角底數(shù)，從而提升大模型外推表現(xiàn)。

作者針對(duì)這一系列任務(wù)進(jìn)行了測(cè)試，發(fā)現(xiàn)實(shí)驗(yàn)上目前輸入10萬、50萬甚至100萬tokens長(zhǎng)度，都可以保證，無需額外注意力限制即可實(shí)現(xiàn)外推。

與此同時(shí)，包括Code LLaMA和LLaMA2 Long在內(nèi)的大模型外推能力增強(qiáng)工作都證明了這一規(guī)律是確實(shí)合理有效的。

這樣一來，只需要根據(jù)這個(gè)規(guī)律“調(diào)個(gè)參”，就能輕松擴(kuò)展基于RoPE的大模型上下文窗口長(zhǎng)度、增強(qiáng)外推能力了。

論文一作柳瀟然表示，目前這項(xiàng)研究還在通過改進(jìn)續(xù)訓(xùn)語料，提升下游任務(wù)效果，等完成之后就會(huì)將代碼和模型開源，可以期待一下~

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

參數(shù)

參數(shù)

+關(guān)注

關(guān)注
11

文章
1867

瀏覽量
33097
人工智能

人工智能

+關(guān)注

關(guān)注
1807

文章
49029

瀏覽量
249585
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3146

瀏覽量
4075

原文標(biāo)題：LLaMA2上下文長(zhǎng)度暴漲至100萬tokens，只需調(diào)整1個(gè)超參數(shù)｜復(fù)旦邱錫鵬團(tuán)隊(duì)出品

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

LLaMA2上下文長(zhǎng)度暴漲至100萬tokens，只需調(diào)整1個(gè)超參數(shù)

評(píng)論

搜索歷史

LLaMA2上下文長(zhǎng)度暴漲至100萬tokens，只需調(diào)整1個(gè)超參數(shù)

評(píng)論

LLaMA2上下文長(zhǎng)度暴漲至100萬tokens，只需調(diào)整1個(gè)超參數(shù)