99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于雙向塊浮點(diǎn)量化的大語言模型高效加速器設(shè)計(jì)

后摩智能 ? 來源:后摩智能 ? 2025-05-14 13:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文提出雙向塊浮點(diǎn)(BBFP)量化格式及基于其的LLMs加速器BBAL,通過雙向移位與重疊位設(shè)計(jì)顯著降低量化誤差,提升非線性計(jì)算效率,實(shí)現(xiàn)精度、吞吐量和能效的顯著優(yōu)化,相關(guān)成果被國際頂級會議 DAC 2025 接收。

序言

在自然語言處理、文本生成和機(jī)器翻譯等諸多任務(wù)領(lǐng)域,大型語言模型(Large Language Models, LLMs)已然取得了令人矚目的顯著進(jìn)展,其強(qiáng)大的建模能力與泛化能力展露無遺。然而,隨著模型參數(shù)規(guī)模的持續(xù)攀升,LLMs在計(jì)算與存儲資源消耗方面呈現(xiàn)出急劇上升的態(tài)勢,這嚴(yán)重制約了LLMs在移動設(shè)備、嵌入式系統(tǒng)等資源受限環(huán)境中的應(yīng)用拓展。因此,如何在確保模型推理質(zhì)量不受損的前提下,有效降低計(jì)算和存儲開銷,已然成為當(dāng)前LLMs研究領(lǐng)域亟待攻克的難題之一。

量化技術(shù)(Quantization)因其在減少模型大小和計(jì)算復(fù)雜度方面的有效性,被廣泛用于LLM的高效推理優(yōu)化。傳統(tǒng)的浮點(diǎn)量化方法(如FP16或FP8)雖然能夠保持較高的精度,但由于其計(jì)算復(fù)雜度較高,難以在硬件層面高效執(zhí)行。相比之下,整型量化(如INT8或更低的INT4)能夠大幅降低計(jì)算資源需求,提高推理速度。然而,LLMs中的權(quán)重和激活值通常具有較大的數(shù)值范圍,并且存在顯著的離群值(outliers),這使得簡單的整型量化容易造成信息丟失,從而導(dǎo)致嚴(yán)重的精度下降。為了解決這一問題,研究人員提出了更具適應(yīng)性的量化方法,如Block Floating Point(BFP),該方法允許一組數(shù)值共享相同的指數(shù)部分,從而在保持相對較高精度的同時降低計(jì)算復(fù)雜度。

bcaf9548-2bb1-11f0-9310-92fbcf53809c.png

盡管BFP在理論上具備良好的計(jì)算效率,但其在實(shí)際應(yīng)用中仍然面臨諸多挑戰(zhàn)。首先,BFP通常通過將所有數(shù)值對齊到該塊內(nèi)的最大指數(shù),以確保數(shù)值范圍的統(tǒng)一性。然而,這種策略會導(dǎo)致較小數(shù)值的信息丟失,進(jìn)而引入額外的量化誤差。其次,現(xiàn)代Transformer架構(gòu)中包含大量非線性運(yùn)算,如Softmax和SiLU等函數(shù),這些運(yùn)算通常依賴高精度的浮點(diǎn)計(jì)算。由于BFP的舍入誤差較大,直接應(yīng)用于非線性層可能會導(dǎo)致模型性能的顯著下降。此外,現(xiàn)有的BFP加速器大多專注于線性層的優(yōu)化,而忽略了非線性層的計(jì)算需求,這使得其在整體推理效率上的提升受到限制。

在此背景下,本文提出了一種名為雙向塊浮點(diǎn)(Bidirectional Block Floating Point, BBFP)的新型數(shù)據(jù)格式,旨在解決BFP在小值和中等值表示上的不足。BBFP通過引入標(biāo)志位(Flag Bit)和重疊位(Overlap Bits),實(shí)現(xiàn)了雙向移位機(jī)制,從而增強(qiáng)了對異常值的保護(hù)能力并顯著降低了量化誤差。此外,基于BBFP的特性,本文設(shè)計(jì)了一個高效的非線性計(jì)算單元,并最終構(gòu)建了一個專為LLMs優(yōu)化的加速器,命名為BBAL(Bidirectional Block Floating Point-based Accelerator for LLMs)。BBAL通過集成優(yōu)化的處理單元(PE)陣列和非線性計(jì)算單元,實(shí)現(xiàn)了高效的LLMs推理,為邊緣設(shè)備上的模型部署提供了新的思路和技術(shù)支持。

本文的主要貢獻(xiàn)可以總結(jié)為以下三點(diǎn):

BBFP數(shù)據(jù)格式:提出了一種新型量化格式BBFP,通過雙向移位和重疊位設(shè)計(jì),增強(qiáng)了對小值、中等值及異常值的表示能力,相較于傳統(tǒng)BFP顯著降低了量化誤差。

非線性計(jì)算單元:基于BBFP的共享指數(shù)特性,設(shè)計(jì)了一個高效的非線性計(jì)算單元,采用分段查找表(Segmented Lookup Table)方法,降低了資源消耗和延遲,同時保持高精度。

LLMs加速器:構(gòu)建了BBAL加速器,集成了基于BBFP優(yōu)化的PE陣列和非線性計(jì)算單元,在精度、吞吐量和能效等方面實(shí)現(xiàn)了顯著提升。

相關(guān)工作

2.1 量化技術(shù)

隨著深度學(xué)習(xí)模型的參數(shù)規(guī)模不斷擴(kuò)大,計(jì)算和存儲效率成為影響模型部署的關(guān)鍵因素。在眾多優(yōu)化策略中,量化技術(shù)因其在降低模型計(jì)算復(fù)雜度和存儲需求方面的有效性,被廣泛應(yīng)用于大規(guī)模神經(jīng)網(wǎng)絡(luò)的優(yōu)化。量化的基本思想是將高精度的浮點(diǎn)數(shù)(如FP32或FP16)轉(zhuǎn)換為低比特的數(shù)值表示形式(如INT8、INT4甚至更低的BIT-NET),從而減少計(jì)算過程中的位寬需求,提高計(jì)算吞吐量,并降低內(nèi)存帶寬占用。對于大型語言模型(LLMs)而言,量化技術(shù)尤為重要,因?yàn)長LMs通常包含數(shù)十億甚至上百億個參數(shù),直接使用高精度浮點(diǎn)運(yùn)算會帶來巨大的計(jì)算開銷。

近年來,針對LLMs的量化技術(shù)取得了重要進(jìn)展。例如,SmoothQuant通過平滑異常值分布來提高量化精度,而GPTQ則利用混合精度方法在低位寬下實(shí)現(xiàn)高效量化。盡管這些方法在一定程度上緩解了精度損失問題,但在極低位寬(如4位或更低)下,仍然難以完全滿足LLMs的高精度需求。此外,量化方法通常分為訓(xùn)練后量化(Post-Training Quantization, PTQ)和量化感知訓(xùn)練(Quantization-Aware Training, QAT)。QAT通過在訓(xùn)練過程中引入量化約束,能夠在低位寬下保持較高精度,但其訓(xùn)練成本對于參數(shù)量巨大的LLMs而言往往過高。因此,PTQ因其簡潔性和高效性成為更實(shí)用的選擇。本文采用PTQ方法,并提出BBFP以實(shí)現(xiàn)無需校準(zhǔn)的權(quán)重-激活量化。

2.2 塊浮點(diǎn)(BFP)

塊浮點(diǎn)(BFP)是一種介于浮點(diǎn)數(shù)和定點(diǎn)數(shù)之間的量化格式,旨在結(jié)合兩者的優(yōu)勢。在IEEE-754標(biāo)準(zhǔn)中,單精度浮點(diǎn)數(shù)由1位符號位(Sign Bit)、8位指數(shù)(Exponent)和23位尾數(shù)(Mantissa)組成,其值表示為(v= (-1)s× 1.m×2e-ebias)。BFP通過讓一組數(shù)據(jù)共享一個最大指數(shù),將浮點(diǎn)運(yùn)算簡化為定點(diǎn)運(yùn)算。例如,對于一個向量,其BFP表示可以寫為:

bcc03150-2bb1-11f0-9310-92fbcf53809c.png

其中,(em)為塊內(nèi)最大指數(shù),(m'i)為對齊后的尾數(shù)。這種設(shè)計(jì)顯著提高了計(jì)算效率和內(nèi)存密度,因?yàn)楦↑c(diǎn)數(shù)的點(diǎn)積運(yùn)算可以簡化為:

bcd5c22c-2bb1-11f0-9310-92fbcf53809c.png

BFP的優(yōu)勢在于其能夠在保持較高精度的同時降低計(jì)算開銷。由于BFP在同一塊內(nèi)的所有數(shù)值共享指數(shù),因此可以將浮點(diǎn)計(jì)算轉(zhuǎn)化為定點(diǎn)計(jì)算,從而減少乘法和加法的計(jì)算復(fù)雜度。此外,BFP的動態(tài)范圍比INT更大,使其在處理具有離群值的LLMs時更具優(yōu)勢。然而,標(biāo)準(zhǔn)BFP仍然存在一定的局限性。例如,在BFP中,所有數(shù)值都會被對齊到該塊的最大指數(shù),這意味著較小的數(shù)值會被右移,從而可能導(dǎo)致精度丟失。這種現(xiàn)象在LLMs的線性層中尤為明顯,因?yàn)樗鼤绊懩P偷恼w推理精度。此外,BFP在非線性層(如Softmax、GELU等)中的應(yīng)用也面臨挑戰(zhàn),因?yàn)檫@些層通常涉及超越函數(shù)的計(jì)算,而BFP的舍入誤差可能放大這些計(jì)算的不確定性,導(dǎo)致模型性能下降。因此,如何在保留BFP優(yōu)勢的同時降低其量化誤差,成為當(dāng)前研究的重點(diǎn)。

本文方法

3.1 雙向塊浮點(diǎn)(BBFP)數(shù)據(jù)格式

為了降低傳統(tǒng)塊浮點(diǎn)(BFP)量化過程中由于強(qiáng)制對齊所有數(shù)據(jù)到最大指數(shù)而引起的量化誤差,本文提出了一種改進(jìn)的量化數(shù)據(jù)格式——雙向塊浮點(diǎn)(Bidirectional Block Floating Point, BBFP)。BBFP的核心思想是通過引入一個1位標(biāo)志位(flag bit)來區(qū)分高尾數(shù)(high mantissa)和低尾數(shù)(low mantissa),從而避免所有數(shù)值都必須對齊到最大指數(shù)。此外,BBFP還采用重疊位(overlap bits)機(jī)制,以減少因左移或右移操作帶來的精度損失。

bce1f59c-2bb1-11f0-9310-92fbcf53809c.png

BBFP的結(jié)構(gòu)如圖2(a)所示,它由以下幾個部分組成:

符號位(Sign Bit):1位,表示數(shù)值的正負(fù)。

標(biāo)志位(Flag Bit):1位,用于指示尾數(shù)是否經(jīng)過左移(高尾數(shù))或右移(低尾數(shù))。

共享指數(shù)(Shared Exponent):固定位數(shù)(本文實(shí)驗(yàn)中為5位),用于表示該塊內(nèi)所有數(shù)值的共享指數(shù)。

尾數(shù)(Mantissa):m位,表示數(shù)值的有效數(shù)字部分。

重疊位(Overlap Bits):o位,用于減少移位操作帶來的精度損失。

BBFP的不同配置可以表示為BBFP(m,o),其中m表示尾數(shù)的位寬,o表示重疊位的位寬。例如,BBFP(4,2)表示尾數(shù)為4位,重疊位為2位。與傳統(tǒng)的BFP相比,BBFP的尾數(shù)表示范圍更廣(如圖2(b)所示),因?yàn)樗试S一部分尾數(shù)向左偏移,而不是全部向右對齊到最大指數(shù)。

在FP16到BBFP(4,2)的轉(zhuǎn)換過程中,原始FP16值首先被截?cái)?,然后根?jù)共享指數(shù)與原始指數(shù)的關(guān)系決定是否左移或右移。具體而言,轉(zhuǎn)換公式如下:

bcfafccc-2bb1-11f0-9310-92fbcf53809c.png

其中,Clip(?)a,b表示從位a到b的截?cái)嗖僮?,n表示移位次數(shù),F(xiàn)lag是1位標(biāo)志位,用于區(qū)分高尾數(shù)和低尾數(shù)。重疊位的引入使得左移時能夠保留更多高位信息,從而減少截?cái)嗾`差。

BBFP的轉(zhuǎn)換過程如圖2(d)所示:首先確定共享指數(shù)(如Max - 2),然后根據(jù)原始指數(shù)與共享指數(shù)的大小關(guān)系調(diào)整尾數(shù),并通過標(biāo)志位記錄移位方向,最后將尾數(shù)截?cái)嘀林付ㄎ粚挕BFP的值表示為:

bd093710-2bb1-11f0-9310-92fbcf53809c.png

其中,移位因子fi 定義為:

bd1bb2c8-2bb1-11f0-9310-92fbcf53809c.png

相比BFP,BBFP在相同尾數(shù)位寬下顯著提升了表示范圍(如圖2(b)所示),從而更好地保護(hù)了小值和異常值。

3.1.1 BBFP的點(diǎn)積計(jì)算

BBFP保留了BFP將浮點(diǎn)運(yùn)算轉(zhuǎn)換為定點(diǎn)運(yùn)算的特性,其點(diǎn)積計(jì)算公式為:

bd28d8e0-2bb1-11f0-9310-92fbcf53809c.png

其中,f1,i和f2,i根據(jù)標(biāo)志位確定移位量。通過引入多路選擇器和移位模塊,BBFP將尾數(shù)表示范圍擴(kuò)展了4倍,同時保持了高效的定點(diǎn)計(jì)算特性。

3.1.2 量化誤差分析

為了評估BBFP相較于傳統(tǒng)BFP在量化誤差方面的改進(jìn),本文對兩種方法的量化誤差進(jìn)行了理論分析。假設(shè)使用最近舍入(round to nearest)策略,BFP的量化誤差服從零均值分布,其方差 σ2可以表示為:

bd39a4d6-2bb1-11f0-9310-92fbcf53809c.png

其中Lm表示尾數(shù)的長度,pγi表示塊指數(shù)的概率質(zhì)量函數(shù),Nγ=2LE表示可用的塊指數(shù)級別數(shù)量。當(dāng)BFP和BBFP使用相同的尾數(shù)位寬時,唯一的區(qū)別在于pγi的分布情況。由于BBFP減少了對最大指數(shù)的依賴,其量化誤差方差也會相應(yīng)降低。

為了驗(yàn)證這一理論,本文進(jìn)行了實(shí)驗(yàn)分析。圖3展示了BBFP(4,2)與BFP4在不同共享指數(shù)策略下的量化誤差對比。實(shí)驗(yàn)結(jié)果顯示,當(dāng)使用Max?3(即Eshared= Max(E) - 3)作為共享指數(shù)時,由于左移操作可能導(dǎo)致最高位溢出,量化誤差顯著增加。相反,當(dāng)使用Max?1(即Eshared= Max(E) - 1)時,量化誤差較低,但仍高于BBFP自適應(yīng)選擇共享指數(shù)的方式。

bd499ea4-2bb1-11f0-9310-92fbcf53809c.png

3.1.3 共享指數(shù)選擇策略

BBFP的共享指數(shù)選擇策略對量化誤差有直接影響。本文提出了一種基于尾數(shù)位寬和重疊位數(shù)量的共享指數(shù)選擇方法,即:

bd600d4c-2bb1-11f0-9310-92fbcf53809c.png

其中,Max(E)表示該塊內(nèi)的最大指數(shù),m表示尾數(shù)位寬,o表示重疊位數(shù)量。該公式的核心思想是,通過減少對最大指數(shù)的依賴,使部分?jǐn)?shù)值的尾數(shù)向左偏移,而不是全部右移對齊。這樣可以有效減少中小數(shù)值的精度損失。

3.1.4 重疊位寬度選擇

重疊位的引入有助于減少移位操作帶來的精度損失,但同時也增加了硬件開銷。為了在量化誤差和硬件成本之間取得最佳平衡,本文提出了一種基于模型特性和量化誤差的重疊位選擇方法。具體而言,該方法通過調(diào)整算法1中的開銷權(quán)重,可以在準(zhǔn)確率優(yōu)先或硬件成本優(yōu)先之間進(jìn)行權(quán)衡。

bd7177a8-2bb1-11f0-9310-92fbcf53809c.png

圖4展示了在BBFP(6,0)到BBFP(6,5)不同重疊位配置下的模型困惑度(PPL)和硬件開銷。實(shí)驗(yàn)結(jié)果表明,適當(dāng)增加重疊位的數(shù)量可以顯著降低量化誤差,提高模型精度。然而,過高的重疊位數(shù)量會增加硬件資源消耗,因此需要根據(jù)實(shí)際應(yīng)用場景進(jìn)行優(yōu)化。

bd889212-2bb1-11f0-9310-92fbcf53809c.png

3.2 數(shù)據(jù)格式驅(qū)動的硬件設(shè)計(jì)

基于BBFP的特性,本文設(shè)計(jì)了一種高效的硬件架構(gòu),包括優(yōu)化的乘法累加(Multiply and Accumulate, MAC)模塊和非線性計(jì)算單元。

3.2.1 線性計(jì)算單元

1. 塊內(nèi)乘法

BBFP的塊內(nèi)矩陣乘法分為共享指數(shù)加法和尾數(shù)乘法。尾數(shù)乘法公式為:

bd9be538-2bb1-11f0-9310-92fbcf53809c.png

對于BBFP(4,2),兩個4位尾數(shù)的乘法通過4位乘法器實(shí)現(xiàn),隨后進(jìn)行移位操作得到12位結(jié)果(圖5(a))。為提高內(nèi)存密度,移位后的零位被移除,并用2位標(biāo)志表示零元素位置,最終輸出為包含2位標(biāo)志、1位符號和8位尾數(shù)的BBFP格式。

bdaae13c-2bb1-11f0-9310-92fbcf53809c.png

2. 部分和加法

塊內(nèi)乘法后需進(jìn)行部分和加法。BBFP的計(jì)算結(jié)果具有規(guī)則的位級稀疏性,本文利用稀疏加法器減少加法器位寬(圖5(b))。例如,用8位加法器和n位進(jìn)位鏈替代 ( 12+n ) 位加法器,其全加器表達(dá)式為:

bdc13126-2bb1-11f0-9310-92fbcf53809c.png

在稀疏模式下,加法器可簡化為:

bdd3befe-2bb1-11f0-9310-92fbcf53809c.png

通過這種優(yōu)化,例如用8位加法器和4位進(jìn)位鏈替代12位加法器,可減少15%的資源消耗。表I展示了不同數(shù)據(jù)格式下MAC單元的面積和內(nèi)存效率,BBFP(6,3) 在面積更小的情況下提供了比BFP8更高的表示能力。

3.2.2 非線性計(jì)算單元

1. 分段查找表

BBFP利用共享指數(shù)特性,將函數(shù)值按指數(shù)分段存儲于外部內(nèi)存。例如,5位指數(shù)可生成(25×2 ) 個子表。在對齊階段計(jì)算共享指數(shù)后,加載對應(yīng)子表,并直接以尾數(shù)作為查找地址,避免了浮點(diǎn)LUT的額外映射開銷。

2. 流水線設(shè)計(jì)

為提高吞吐量并掩蓋LUT加載延遲,非線性計(jì)算單元采用流水線架構(gòu),各模塊配備緩沖區(qū)。單元支持多種超越函數(shù)(如Sigmoid、Softmax),通過可調(diào)計(jì)算順序和冗余單元實(shí)現(xiàn)靈活性。

3. INT計(jì)算

數(shù)據(jù)通過對齊模塊轉(zhuǎn)換為BBFP后,LUT中的條目也預(yù)轉(zhuǎn)換為BBFP格式,確保計(jì)算一致性。圖6展示了以Softmax為例的非線性單元流程。

bde4c99c-2bb1-11f0-9310-92fbcf53809c.png

3.2.3 LLMs加速器

基于上述模塊,本文構(gòu)建了BBAL加速器(圖7),其核心包括:

PE陣列:基于BBFP優(yōu)化的處理單元陣列,支持高效線性計(jì)算,包含共享指數(shù)加法器和旁路單元兩種版本。

非線性計(jì)算單元:集成上述設(shè)計(jì),實(shí)現(xiàn)低成本非線性操作。

其他模塊:輸入編碼器、緩沖區(qū)、輸出編碼器等,支持完整推理流程。

bdfeab14-2bb1-11f0-9310-92fbcf53809c.png

3.3 實(shí)驗(yàn)評估

3.3.1 非線性單元的精度與效率分析

為了驗(yàn)證BBFP在非線性層中的有效性,本文在Llama-7B、Llama2-7B和Llama3-8B模型上進(jìn)行了實(shí)驗(yàn),比較了基于BBFP(10,5)和BFP10的非線性計(jì)算單元在困惑度(Perplexity, PPL)方面的表現(xiàn)。實(shí)驗(yàn)結(jié)果如表IV所示,可以看出,采用BBFP(10,5)量化策略的模型在使用Softmax和SiLU非線性函數(shù)時,PPL的增長幅度遠(yuǎn)低于BFP10方案。例如,在Llama-7B模型上,使用BFP10進(jìn)行Softmax計(jì)算會導(dǎo)致PPL增加至67.31,而BBFP(10,5)僅使PPL增加至5.74,接近FP32基線水平。同樣,在Llama2-7B和Llama3-8B模型上,BBFP(10,5)的PPL增長幅度也明顯小于BFP10,表明BBFP在非線性層計(jì)算中能夠有效減少量化誤差,保持較高的模型精度。

be1182d4-2bb1-11f0-9310-92fbcf53809c.png

除了精度分析,本文還評估了所提出的非線性計(jì)算單元的能效比。表V展示了不同方法在面積延遲乘積(Area Delay Product, ADP)、能量延遲乘積(Energy Delay Product, EDP)以及計(jì)算效率(Throughput/(Area×Power))等方面的對比。實(shí)驗(yàn)結(jié)果表明,盡管BBFP(10,5)的ADP和EDP略高于低精度近似算法,但其計(jì)算效率顯著優(yōu)于現(xiàn)有方法。這是因?yàn)锽BFP(10,5)采用了分段指數(shù)動態(tài)查找策略,減少了昂貴的片上存儲需求,同時保持了較高的計(jì)算兼容性。此外,由于BBFP的尾數(shù)表示范圍更廣,其在非線性計(jì)算中的精度損失較小,從而減少了對額外校正電路的需求,進(jìn)一步降低了硬件開銷。

be40c1d4-2bb1-11f0-9310-92fbcf53809c.png

3.3.2 線性單元的面積與精度對比

為了評估BBFP在線性層中的性能,本文在WikiText2數(shù)據(jù)集上測試了不同量化策略對Llama和OPT系列模型的影響。表II展示了FP16基線模型、BFP4、BFP6以及不同BBFP配置的PPL結(jié)果。實(shí)驗(yàn)結(jié)果顯示,BBFP在保持較低PPL的同時,能夠有效減少量化誤差。例如,BBFP(4,2)在Llama-7B上的PPL為5.80,而BFP6的PPL為5.61,兩者差距較小,但BBFP(4,2)的計(jì)算效率更高。此外,BBFP(6,3)在Llama-7B上的PPL僅為5.48,與FP16基線(5.47)幾乎持平,顯示出其在高精度場景下的優(yōu)越性。

be91ce8a-2bb1-11f0-9310-92fbcf53809c.png

為了進(jìn)一步分析BBFP的硬件成本,表III列出了不同量化策略下處理單元(Processing Element, PE)的面積消耗。實(shí)驗(yàn)結(jié)果表明,BBFP的PE面積略高于BFP4,但相較于BFP6仍然具有優(yōu)勢。例如,BBFP(3,1)的PE面積僅為77.69 μm2,而BFP4的PE面積為215.23 μm2。這是因?yàn)樵贐BFP中,尾數(shù)的高位和低位分別對應(yīng)不同的移位方向,使得乘法和加法運(yùn)算的位寬需求有所降低。此外,BBFP的1位標(biāo)志位雖然增加了少量存儲開銷,但由于其在精度上的提升,使得整體硬件成本得到了優(yōu)化。

bea9b5b8-2bb1-11f0-9310-92fbcf53809c.png

3.3.3 吞吐量與準(zhǔn)確率的平衡

為了評估不同量化策略在吞吐量和準(zhǔn)確率之間的平衡,本文在相同PE面積條件下進(jìn)行了比較分析。圖8展示了不同量化方法在Llama和OPT系列模型上的平均PPL和吞吐量表現(xiàn)??梢钥闯?,BBFP(3,1)和BBFP(3,2)在保持較高吞吐量的同時,其PPL遠(yuǎn)低于Oltron和Olive等基于離群值感知的量化方法。此外,BBFP(3,1)和BBFP(3,2)的吞吐量與Oltron相當(dāng),但準(zhǔn)確率更高,這證明了BBFP在吞吐量和準(zhǔn)確率之間取得了較好的平衡。

beb87724-2bb1-11f0-9310-92fbcf53809c.png

3.3.4 能源效率分析

除了吞吐量和準(zhǔn)確率,能源效率也是衡量加速器性能的重要指標(biāo)。圖9展示了相同PE數(shù)量和緩沖區(qū)大小下的能耗。BBFP(3,1)相較BFP4降低13%的能耗,主要得益于靜態(tài)和核心能量的減少。BBFP與相同位寬BFP的能耗增幅在5%以內(nèi),額外標(biāo)志位對DRAM功耗影響較小。

becfd8f6-2bb1-11f0-9310-92fbcf53809c.png

結(jié)論

本文提出了一種改進(jìn)的塊浮點(diǎn)量化方法——雙向塊浮點(diǎn)(Bidirectional Block Floating Point, BBFP),并基于該方法設(shè)計(jì)了一款高效的大型語言模型(LLMs)加速器BBAL。BBFP通過引入1位標(biāo)志位和重疊位機(jī)制,有效降低了傳統(tǒng)塊浮點(diǎn)(BFP)量化過程中因強(qiáng)制對齊所有數(shù)據(jù)到最大指數(shù)所帶來的量化誤差。此外,BBFP還優(yōu)化了共享指數(shù)選擇策略,使部分?jǐn)?shù)值的尾數(shù)向左偏移,避免了中小數(shù)值的精度損失?;贐BFP的特性,本文進(jìn)一步設(shè)計(jì)了一種高效的非線性計(jì)算單元,該單元結(jié)合了基于查找表(Look-Up Table, LUT)的計(jì)算方法,能夠在保持較高精度的同時降低計(jì)算開銷。最終,本文構(gòu)建了一個完整的LLM加速器架構(gòu)BBAL,其中包含了優(yōu)化的處理單元(Processing Element, PE)陣列和非線性計(jì)算單元。實(shí)驗(yàn)結(jié)果表明,BBAL在保持與現(xiàn)有加速器相當(dāng)?shù)挠?jì)算效率的同時,其模型精度提升了22%;而在保持相近精度的情況下,其計(jì)算效率提高了40%。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    826

    瀏覽量

    39036
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3506

    瀏覽量

    50230
  • 后摩智能
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    1345

原文標(biāo)題:后摩前沿 | 基于雙向塊浮點(diǎn)量化的大語言模型高效加速器——BBAL

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    《電子發(fā)燒友電子設(shè)計(jì)周報(bào)》聚焦硬科技領(lǐng)域核心價(jià)值 第11期:2025.05.12--2025.05.16

    FRDM-MCXN947開發(fā)板驅(qū)動TFT LCD模組 5、瑞薩電子MCU無感OTA升級功能 6、基于雙向浮點(diǎn)量化的大語言
    發(fā)表于 05-16 19:47

    一個模型帶你了解#回旋加速器原理

    加速器DIY
    jf_49445761
    發(fā)布于 :2022年08月28日 08:57:57

    #硬聲創(chuàng)作季 電子制作:磁性加速器

    加速器DIY
    Mr_haohao
    發(fā)布于 :2022年10月19日 00:19:38

    從版本控制到全流程支持:揭秘Helix Core如何成為您的創(chuàng)意加速器

    加速器
    龍智DevSecOps
    發(fā)布于 :2024年11月26日 13:42:47

    采用控制律加速器的Piccolo MCU

    是一款 32 位浮點(diǎn)數(shù)學(xué)加速器,是 TI F2803x Piccolo MCU 系列獨(dú)具的功能特性,能獨(dú)立于 C28x 內(nèi)核進(jìn)行工作,從而可實(shí)現(xiàn)對片上外設(shè)的直接存取以及算法的并行執(zhí)行。新型 MCU 建立在
    發(fā)表于 07-26 06:21

    TMS320F28034的相關(guān)資料分享

    雙 MAC哈佛 (Harvard) 總線架構(gòu)連動運(yùn)算快速中斷響應(yīng)和處理統(tǒng)一存儲編程模型高效代碼(使用 C/C++ 和匯編語言)可編程控制律加速器
    發(fā)表于 11-26 06:17

    基于Fast Model的加速器軟件開發(fā)

    方法高效地解決加速器配套驅(qū)動,框架,應(yīng)用軟件開發(fā)的問題呢?Fast Model!在Fast Model的例子系統(tǒng)中,arm給出了一系列arm核,相關(guān)IP組合的子系統(tǒng)模型,以及相應(yīng)OS,開發(fā)工具DS-5
    發(fā)表于 07-29 15:38

    英特爾媒體加速器參考軟件Linux版用戶指南

    英特爾媒體加速器參考軟件是用于數(shù)字標(biāo)志、交互式白板(IWBs)和亭位使用模型的參考媒體播放應(yīng)用軟件,它利用固定功能硬件加速來提高媒體流速、改進(jìn)工作量平衡和資源利用,以及定制的圖形處理
    發(fā)表于 08-04 06:34

    Intel媒體加速器參考軟件用戶指南

    英特爾媒體加速器參考軟件是用于數(shù)字標(biāo)志、交互式白板(IWBs)和亭位使用模型的參考媒體播放應(yīng)用軟件,它利用固定功能硬件加速來提高媒體流速、改進(jìn)工作量平衡和資源利用,以及定制的圖形處理
    發(fā)表于 08-04 07:07

    工具包和Eval板幫助加速加速器應(yīng)用

    加速器是一種使帶電粒子增加速度(動能)的裝置。 加速器可用于原子核實(shí)驗(yàn)、放射性醫(yī)學(xué)、放射性化學(xué)、放射性同位素的制造、非破壞性探傷等。粒子增加的能量一般都在0.1兆電子伏以上。加速器的種
    發(fā)表于 09-14 10:05 ?13次下載
    工具包和Eval板幫助<b class='flag-5'>加速</b><b class='flag-5'>加速器</b>應(yīng)用

    什么是AI加速器 如何確需要AI加速器

    AI加速器是一類專門的硬件加速器或計(jì)算機(jī)系統(tǒng)旨在加速人工智能的應(yīng)用,主要應(yīng)用于人工智能、人工神經(jīng)網(wǎng)絡(luò)、機(jī)器視覺和機(jī)器學(xué)習(xí)。
    發(fā)表于 02-06 12:47 ?5102次閱讀

    FPGA加速器支撐ChatGPT類大語言模型創(chuàng)新

    作者:Bill Jenkins,Achronix人工智能/機(jī)器學(xué)習(xí)產(chǎn)品營銷總監(jiān) 探索FPGA加速語言模型如何通過更快的推理、更低的延遲和更好的語言理解來重塑生成式人工智能 簡介:大
    的頭像 發(fā)表于 09-04 16:55 ?807次閱讀
    FPGA<b class='flag-5'>加速器</b>支撐ChatGPT類大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>創(chuàng)新

    基于FPGA的Wide&Deep模型加速器解決方案

    電子發(fā)燒友網(wǎng)站提供《基于FPGA的Wide&Deep模型加速器解決方案.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 10:37 ?1次下載
    基于FPGA的Wide&Deep<b class='flag-5'>模型</b><b class='flag-5'>加速器</b>解決方案

    Rapanda流加速器-實(shí)時流式FPGA加速器解決方案

    電子發(fā)燒友網(wǎng)站提供《Rapanda流加速器-實(shí)時流式FPGA加速器解決方案.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 10:17 ?0次下載
    Rapanda流<b class='flag-5'>加速器</b>-實(shí)時流式FPGA<b class='flag-5'>加速器</b>解決方案

    粒子加速器加速原理是啥呢?

    粒子加速器加速原理是啥呢? 粒子加速器是一種重要的實(shí)驗(yàn)設(shè)備,用于研究粒子物理學(xué)、核物理學(xué)等領(lǐng)域。其主要原理是通過電場和磁場的作用,對帶電粒子進(jìn)行加速,在高速運(yùn)動過程中使其獲得較大的動
    的頭像 發(fā)表于 12-18 13:52 ?3031次閱讀