午夜成人国产精品影视,手机在线高清无码免费观看,www.亚洲天堂青草在线观看

本文提出雙向塊浮點(diǎn)（BBFP）量化格式及基于其的LLMs加速器BBAL，通過雙向移位與重疊位設(shè)計(jì)顯著降低量化誤差，提升非線性計(jì)算效率，實(shí)現(xiàn)精度、吞吐量和能效的顯著優(yōu)化，相關(guān)成果被國際頂級會議 DAC 2025 接收。

序言

在自然語言處理、文本生成和機(jī)器翻譯等諸多任務(wù)領(lǐng)域，大型語言模型（Large Language Models, LLMs）已然取得了令人矚目的顯著進(jìn)展，其強(qiáng)大的建模能力與泛化能力展露無遺。然而，隨著模型參數(shù)規(guī)模的持續(xù)攀升，LLMs在計(jì)算與存儲資源消耗方面呈現(xiàn)出急劇上升的態(tài)勢，這嚴(yán)重制約了LLMs在移動設(shè)備、嵌入式系統(tǒng)等資源受限環(huán)境中的應(yīng)用拓展。因此，如何在確保模型推理質(zhì)量不受損的前提下，有效降低計(jì)算和存儲開銷，已然成為當(dāng)前LLMs研究領(lǐng)域亟待攻克的難題之一。

量化技術(shù)（Quantization）因其在減少模型大小和計(jì)算復(fù)雜度方面的有效性，被廣泛用于LLM的高效推理優(yōu)化。傳統(tǒng)的浮點(diǎn)量化方法（如FP16或FP8）雖然能夠保持較高的精度，但由于其計(jì)算復(fù)雜度較高，難以在硬件層面高效執(zhí)行。相比之下，整型量化（如INT8或更低的INT4）能夠大幅降低計(jì)算資源需求，提高推理速度。然而，LLMs中的權(quán)重和激活值通常具有較大的數(shù)值范圍，并且存在顯著的離群值（outliers），這使得簡單的整型量化容易造成信息丟失，從而導(dǎo)致嚴(yán)重的精度下降。為了解決這一問題，研究人員提出了更具適應(yīng)性的量化方法，如Block Floating Point（BFP），該方法允許一組數(shù)值共享相同的指數(shù)部分，從而在保持相對較高精度的同時降低計(jì)算復(fù)雜度。

盡管BFP在理論上具備良好的計(jì)算效率，但其在實(shí)際應(yīng)用中仍然面臨諸多挑戰(zhàn)。首先，BFP通常通過將所有數(shù)值對齊到該塊內(nèi)的最大指數(shù)，以確保數(shù)值范圍的統(tǒng)一性。然而，這種策略會導(dǎo)致較小數(shù)值的信息丟失，進(jìn)而引入額外的量化誤差。其次，現(xiàn)代Transformer架構(gòu)中包含大量非線性運(yùn)算，如Softmax和SiLU等函數(shù)，這些運(yùn)算通常依賴高精度的浮點(diǎn)計(jì)算。由于BFP的舍入誤差較大，直接應(yīng)用于非線性層可能會導(dǎo)致模型性能的顯著下降。此外，現(xiàn)有的BFP加速器大多專注于線性層的優(yōu)化，而忽略了非線性層的計(jì)算需求，這使得其在整體推理效率上的提升受到限制。

在此背景下，本文提出了一種名為雙向塊浮點(diǎn)（Bidirectional Block Floating Point, BBFP）的新型數(shù)據(jù)格式，旨在解決BFP在小值和中等值表示上的不足。BBFP通過引入標(biāo)志位（Flag Bit）和重疊位（Overlap Bits），實(shí)現(xiàn)了雙向移位機(jī)制，從而增強(qiáng)了對異常值的保護(hù)能力并顯著降低了量化誤差。此外，基于BBFP的特性，本文設(shè)計(jì)了一個高效的非線性計(jì)算單元，并最終構(gòu)建了一個專為LLMs優(yōu)化的加速器，命名為BBAL（Bidirectional Block Floating Point-based Accelerator for LLMs）。BBAL通過集成優(yōu)化的處理單元（PE）陣列和非線性計(jì)算單元，實(shí)現(xiàn)了高效的LLMs推理，為邊緣設(shè)備上的模型部署提供了新的思路和技術(shù)支持。

本文的主要貢獻(xiàn)可以總結(jié)為以下三點(diǎn)：

BBFP數(shù)據(jù)格式：提出了一種新型量化格式BBFP，通過雙向移位和重疊位設(shè)計(jì)，增強(qiáng)了對小值、中等值及異常值的表示能力，相較于傳統(tǒng)BFP顯著降低了量化誤差。

非線性計(jì)算單元：基于BBFP的共享指數(shù)特性，設(shè)計(jì)了一個高效的非線性計(jì)算單元，采用分段查找表（Segmented Lookup Table）方法，降低了資源消耗和延遲，同時保持高精度。

LLMs加速器：構(gòu)建了BBAL加速器，集成了基于BBFP優(yōu)化的PE陣列和非線性計(jì)算單元，在精度、吞吐量和能效等方面實(shí)現(xiàn)了顯著提升。

相關(guān)工作

2.1 量化技術(shù)

隨著深度學(xué)習(xí)模型的參數(shù)規(guī)模不斷擴(kuò)大，計(jì)算和存儲效率成為影響模型部署的關(guān)鍵因素。在眾多優(yōu)化策略中，量化技術(shù)因其在降低模型計(jì)算復(fù)雜度和存儲需求方面的有效性，被廣泛應(yīng)用于大規(guī)模神經(jīng)網(wǎng)絡(luò)的優(yōu)化。量化的基本思想是將高精度的浮點(diǎn)數(shù)（如FP32或FP16）轉(zhuǎn)換為低比特的數(shù)值表示形式（如INT8、INT4甚至更低的BIT-NET），從而減少計(jì)算過程中的位寬需求，提高計(jì)算吞吐量，并降低內(nèi)存帶寬占用。對于大型語言模型（LLMs）而言，量化技術(shù)尤為重要，因?yàn)長LMs通常包含數(shù)十億甚至上百億個參數(shù)，直接使用高精度浮點(diǎn)運(yùn)算會帶來巨大的計(jì)算開銷。

近年來，針對LLMs的量化技術(shù)取得了重要進(jìn)展。例如，SmoothQuant通過平滑異常值分布來提高量化精度，而GPTQ則利用混合精度方法在低位寬下實(shí)現(xiàn)高效量化。盡管這些方法在一定程度上緩解了精度損失問題，但在極低位寬（如4位或更低）下，仍然難以完全滿足LLMs的高精度需求。此外，量化方法通常分為訓(xùn)練后量化（Post-Training Quantization, PTQ）和量化感知訓(xùn)練（Quantization-Aware Training, QAT）。QAT通過在訓(xùn)練過程中引入量化約束，能夠在低位寬下保持較高精度，但其訓(xùn)練成本對于參數(shù)量巨大的LLMs而言往往過高。因此，PTQ因其簡潔性和高效性成為更實(shí)用的選擇。本文采用PTQ方法，并提出BBFP以實(shí)現(xiàn)無需校準(zhǔn)的權(quán)重-激活量化。

2.2 塊浮點(diǎn)（BFP）

塊浮點(diǎn)（BFP）是一種介于浮點(diǎn)數(shù)和定點(diǎn)數(shù)之間的量化格式，旨在結(jié)合兩者的優(yōu)勢。在IEEE-754標(biāo)準(zhǔn)中，單精度浮點(diǎn)數(shù)由1位符號位（Sign Bit）、8位指數(shù)（Exponent）和23位尾數(shù)（Mantissa）組成，其值表示為（v= (-1)s× 1.m×2e-ebias）。BFP通過讓一組數(shù)據(jù)共享一個最大指數(shù)，將浮點(diǎn)運(yùn)算簡化為定點(diǎn)運(yùn)算。例如，對于一個向量，其BFP表示可以寫為：

其中，(em)為塊內(nèi)最大指數(shù)，(m'i)為對齊后的尾數(shù)。這種設(shè)計(jì)顯著提高了計(jì)算效率和內(nèi)存密度，因?yàn)楦↑c(diǎn)數(shù)的點(diǎn)積運(yùn)算可以簡化為：

BFP的優(yōu)勢在于其能夠在保持較高精度的同時降低計(jì)算開銷。由于BFP在同一塊內(nèi)的所有數(shù)值共享指數(shù)，因此可以將浮點(diǎn)計(jì)算轉(zhuǎn)化為定點(diǎn)計(jì)算，從而減少乘法和加法的計(jì)算復(fù)雜度。此外，BFP的動態(tài)范圍比INT更大，使其在處理具有離群值的LLMs時更具優(yōu)勢。然而，標(biāo)準(zhǔn)BFP仍然存在一定的局限性。例如，在BFP中，所有數(shù)值都會被對齊到該塊的最大指數(shù)，這意味著較小的數(shù)值會被右移，從而可能導(dǎo)致精度丟失。這種現(xiàn)象在LLMs的線性層中尤為明顯，因?yàn)樗鼤绊懩Ｐ偷恼w推理精度。此外，BFP在非線性層（如Softmax、GELU等）中的應(yīng)用也面臨挑戰(zhàn)，因?yàn)檫@些層通常涉及超越函數(shù)的計(jì)算，而BFP的舍入誤差可能放大這些計(jì)算的不確定性，導(dǎo)致模型性能下降。因此，如何在保留BFP優(yōu)勢的同時降低其量化誤差，成為當(dāng)前研究的重點(diǎn)。

本文方法

3.1 雙向塊浮點(diǎn)（BBFP）數(shù)據(jù)格式

為了降低傳統(tǒng)塊浮點(diǎn)（BFP）量化過程中由于強(qiáng)制對齊所有數(shù)據(jù)到最大指數(shù)而引起的量化誤差，本文提出了一種改進(jìn)的量化數(shù)據(jù)格式——雙向塊浮點(diǎn)（Bidirectional Block Floating Point, BBFP）。BBFP的核心思想是通過引入一個1位標(biāo)志位（flag bit）來區(qū)分高尾數(shù)（high mantissa）和低尾數(shù)（low mantissa），從而避免所有數(shù)值都必須對齊到最大指數(shù)。此外，BBFP還采用重疊位（overlap bits）機(jī)制，以減少因左移或右移操作帶來的精度損失。

BBFP的結(jié)構(gòu)如圖2(a)所示，它由以下幾個部分組成：

符號位（Sign Bit）：1位，表示數(shù)值的正負(fù)。

標(biāo)志位（Flag Bit）：1位，用于指示尾數(shù)是否經(jīng)過左移（高尾數(shù)）或右移（低尾數(shù)）。

共享指數(shù)（Shared Exponent）：固定位數(shù)（本文實(shí)驗(yàn)中為5位），用于表示該塊內(nèi)所有數(shù)值的共享指數(shù)。

尾數(shù)（Mantissa）：m位，表示數(shù)值的有效數(shù)字部分。

重疊位（Overlap Bits）：o位，用于減少移位操作帶來的精度損失。

BBFP的不同配置可以表示為BBFP(m,o)，其中m表示尾數(shù)的位寬，o表示重疊位的位寬。例如，BBFP(4,2)表示尾數(shù)為4位，重疊位為2位。與傳統(tǒng)的BFP相比，BBFP的尾數(shù)表示范圍更廣（如圖2(b)所示），因?yàn)樗试S一部分尾數(shù)向左偏移，而不是全部向右對齊到最大指數(shù)。

在FP16到BBFP(4,2)的轉(zhuǎn)換過程中，原始FP16值首先被截?cái)?，然后根?jù)共享指數(shù)與原始指數(shù)的關(guān)系決定是否左移或右移。具體而言，轉(zhuǎn)換公式如下：

其中，Clip(?)a,b表示從位a到b的截?cái)嗖僮?，n表示移位次數(shù)，F(xiàn)lag是1位標(biāo)志位，用于區(qū)分高尾數(shù)和低尾數(shù)。重疊位的引入使得左移時能夠保留更多高位信息，從而減少截?cái)嗾`差。

BBFP的轉(zhuǎn)換過程如圖2(d)所示：首先確定共享指數(shù)（如Max - 2），然后根據(jù)原始指數(shù)與共享指數(shù)的大小關(guān)系調(diào)整尾數(shù)，并通過標(biāo)志位記錄移位方向，最后將尾數(shù)截?cái)嘀林付ㄎ粚挕BFP的值表示為：

其中，移位因子fi 定義為：

相比BFP，BBFP在相同尾數(shù)位寬下顯著提升了表示范圍（如圖2(b)所示），從而更好地保護(hù)了小值和異常值。

3.1.1 BBFP的點(diǎn)積計(jì)算

BBFP保留了BFP將浮點(diǎn)運(yùn)算轉(zhuǎn)換為定點(diǎn)運(yùn)算的特性，其點(diǎn)積計(jì)算公式為：

其中，f1,i和f2,i根據(jù)標(biāo)志位確定移位量。通過引入多路選擇器和移位模塊，BBFP將尾數(shù)表示范圍擴(kuò)展了4倍，同時保持了高效的定點(diǎn)計(jì)算特性。

3.1.2 量化誤差分析

為了評估BBFP相較于傳統(tǒng)BFP在量化誤差方面的改進(jìn)，本文對兩種方法的量化誤差進(jìn)行了理論分析。假設(shè)使用最近舍入（round to nearest）策略，BFP的量化誤差服從零均值分布，其方差 σ2可以表示為：

其中Lm表示尾數(shù)的長度，pγi表示塊指數(shù)的概率質(zhì)量函數(shù)，Nγ=2LE表示可用的塊指數(shù)級別數(shù)量。當(dāng)BFP和BBFP使用相同的尾數(shù)位寬時，唯一的區(qū)別在于pγi的分布情況。由于BBFP減少了對最大指數(shù)的依賴，其量化誤差方差也會相應(yīng)降低。

為了驗(yàn)證這一理論，本文進(jìn)行了實(shí)驗(yàn)分析。圖3展示了BBFP(4,2)與BFP4在不同共享指數(shù)策略下的量化誤差對比。實(shí)驗(yàn)結(jié)果顯示，當(dāng)使用Max?3（即Eshared= Max(E) - 3）作為共享指數(shù)時，由于左移操作可能導(dǎo)致最高位溢出，量化誤差顯著增加。相反，當(dāng)使用Max?1（即Eshared= Max(E) - 1）時，量化誤差較低，但仍高于BBFP自適應(yīng)選擇共享指數(shù)的方式。

3.1.3 共享指數(shù)選擇策略

BBFP的共享指數(shù)選擇策略對量化誤差有直接影響。本文提出了一種基于尾數(shù)位寬和重疊位數(shù)量的共享指數(shù)選擇方法，即：

其中，Max(E)表示該塊內(nèi)的最大指數(shù)，m表示尾數(shù)位寬，o表示重疊位數(shù)量。該公式的核心思想是，通過減少對最大指數(shù)的依賴，使部分?jǐn)?shù)值的尾數(shù)向左偏移，而不是全部右移對齊。這樣可以有效減少中小數(shù)值的精度損失。

3.1.4 重疊位寬度選擇

重疊位的引入有助于減少移位操作帶來的精度損失，但同時也增加了硬件開銷。為了在量化誤差和硬件成本之間取得最佳平衡，本文提出了一種基于模型特性和量化誤差的重疊位選擇方法。具體而言，該方法通過調(diào)整算法1中的開銷權(quán)重，可以在準(zhǔn)確率優(yōu)先或硬件成本優(yōu)先之間進(jìn)行權(quán)衡。

圖4展示了在BBFP(6,0)到BBFP(6,5)不同重疊位配置下的模型困惑度（PPL）和硬件開銷。實(shí)驗(yàn)結(jié)果表明，適當(dāng)增加重疊位的數(shù)量可以顯著降低量化誤差，提高模型精度。然而，過高的重疊位數(shù)量會增加硬件資源消耗，因此需要根據(jù)實(shí)際應(yīng)用場景進(jìn)行優(yōu)化。

3.2 數(shù)據(jù)格式驅(qū)動的硬件設(shè)計(jì)

基于BBFP的特性，本文設(shè)計(jì)了一種高效的硬件架構(gòu)，包括優(yōu)化的乘法累加（Multiply and Accumulate, MAC）模塊和非線性計(jì)算單元。

3.2.1 線性計(jì)算單元

1. 塊內(nèi)乘法

BBFP的塊內(nèi)矩陣乘法分為共享指數(shù)加法和尾數(shù)乘法。尾數(shù)乘法公式為：

對于BBFP(4,2)，兩個4位尾數(shù)的乘法通過4位乘法器實(shí)現(xiàn)，隨后進(jìn)行移位操作得到12位結(jié)果（圖5(a)）。為提高內(nèi)存密度，移位后的零位被移除，并用2位標(biāo)志表示零元素位置，最終輸出為包含2位標(biāo)志、1位符號和8位尾數(shù)的BBFP格式。

2. 部分和加法

塊內(nèi)乘法后需進(jìn)行部分和加法。BBFP的計(jì)算結(jié)果具有規(guī)則的位級稀疏性，本文利用稀疏加法器減少加法器位寬（圖5(b)）。例如，用8位加法器和n位進(jìn)位鏈替代 ( 12+n ) 位加法器，其全加器表達(dá)式為：

在稀疏模式下，加法器可簡化為：

通過這種優(yōu)化，例如用8位加法器和4位進(jìn)位鏈替代12位加法器，可減少15%的資源消耗。表I展示了不同數(shù)據(jù)格式下MAC單元的面積和內(nèi)存效率，BBFP(6,3) 在面積更小的情況下提供了比BFP8更高的表示能力。

3.2.2 非線性計(jì)算單元

1. 分段查找表

BBFP利用共享指數(shù)特性，將函數(shù)值按指數(shù)分段存儲于外部內(nèi)存。例如，5位指數(shù)可生成(25×2 ) 個子表。在對齊階段計(jì)算共享指數(shù)后，加載對應(yīng)子表，并直接以尾數(shù)作為查找地址，避免了浮點(diǎn)LUT的額外映射開銷。

2. 流水線設(shè)計(jì)

為提高吞吐量并掩蓋LUT加載延遲，非線性計(jì)算單元采用流水線架構(gòu)，各模塊配備緩沖區(qū)。單元支持多種超越函數(shù)（如Sigmoid、Softmax），通過可調(diào)計(jì)算順序和冗余單元實(shí)現(xiàn)靈活性。

3. INT計(jì)算

數(shù)據(jù)通過對齊模塊轉(zhuǎn)換為BBFP后，LUT中的條目也預(yù)轉(zhuǎn)換為BBFP格式，確保計(jì)算一致性。圖6展示了以Softmax為例的非線性單元流程。

3.2.3 LLMs加速器

基于上述模塊，本文構(gòu)建了BBAL加速器（圖7），其核心包括：

PE陣列：基于BBFP優(yōu)化的處理單元陣列，支持高效線性計(jì)算，包含共享指數(shù)加法器和旁路單元兩種版本。

非線性計(jì)算單元：集成上述設(shè)計(jì)，實(shí)現(xiàn)低成本非線性操作。

其他模塊：輸入編碼器、緩沖區(qū)、輸出編碼器等，支持完整推理流程。

3.3 實(shí)驗(yàn)評估

3.3.1 非線性單元的精度與效率分析

為了驗(yàn)證BBFP在非線性層中的有效性，本文在Llama-7B、Llama2-7B和Llama3-8B模型上進(jìn)行了實(shí)驗(yàn)，比較了基于BBFP(10,5)和BFP10的非線性計(jì)算單元在困惑度（Perplexity, PPL）方面的表現(xiàn)。實(shí)驗(yàn)結(jié)果如表IV所示，可以看出，采用BBFP(10,5)量化策略的模型在使用Softmax和SiLU非線性函數(shù)時，PPL的增長幅度遠(yuǎn)低于BFP10方案。例如，在Llama-7B模型上，使用BFP10進(jìn)行Softmax計(jì)算會導(dǎo)致PPL增加至67.31，而BBFP(10,5)僅使PPL增加至5.74，接近FP32基線水平。同樣，在Llama2-7B和Llama3-8B模型上，BBFP(10,5)的PPL增長幅度也明顯小于BFP10，表明BBFP在非線性層計(jì)算中能夠有效減少量化誤差，保持較高的模型精度。

除了精度分析，本文還評估了所提出的非線性計(jì)算單元的能效比。表V展示了不同方法在面積延遲乘積（Area Delay Product, ADP）、能量延遲乘積（Energy Delay Product, EDP）以及計(jì)算效率（Throughput/(Area×Power)）等方面的對比。實(shí)驗(yàn)結(jié)果表明，盡管BBFP(10,5)的ADP和EDP略高于低精度近似算法，但其計(jì)算效率顯著優(yōu)于現(xiàn)有方法。這是因?yàn)锽BFP(10,5)采用了分段指數(shù)動態(tài)查找策略，減少了昂貴的片上存儲需求，同時保持了較高的計(jì)算兼容性。此外，由于BBFP的尾數(shù)表示范圍更廣，其在非線性計(jì)算中的精度損失較小，從而減少了對額外校正電路的需求，進(jìn)一步降低了硬件開銷。

3.3.2 線性單元的面積與精度對比

為了評估BBFP在線性層中的性能，本文在WikiText2數(shù)據(jù)集上測試了不同量化策略對Llama和OPT系列模型的影響。表II展示了FP16基線模型、BFP4、BFP6以及不同BBFP配置的PPL結(jié)果。實(shí)驗(yàn)結(jié)果顯示，BBFP在保持較低PPL的同時，能夠有效減少量化誤差。例如，BBFP(4,2)在Llama-7B上的PPL為5.80，而BFP6的PPL為5.61，兩者差距較小，但BBFP(4,2)的計(jì)算效率更高。此外，BBFP(6,3)在Llama-7B上的PPL僅為5.48，與FP16基線（5.47）幾乎持平，顯示出其在高精度場景下的優(yōu)越性。

為了進(jìn)一步分析BBFP的硬件成本，表III列出了不同量化策略下處理單元（Processing Element, PE）的面積消耗。實(shí)驗(yàn)結(jié)果表明，BBFP的PE面積略高于BFP4，但相較于BFP6仍然具有優(yōu)勢。例如，BBFP(3,1)的PE面積僅為77.69 μm2，而BFP4的PE面積為215.23 μm2。這是因?yàn)樵贐BFP中，尾數(shù)的高位和低位分別對應(yīng)不同的移位方向，使得乘法和加法運(yùn)算的位寬需求有所降低。此外，BBFP的1位標(biāo)志位雖然增加了少量存儲開銷，但由于其在精度上的提升，使得整體硬件成本得到了優(yōu)化。

3.3.3 吞吐量與準(zhǔn)確率的平衡

為了評估不同量化策略在吞吐量和準(zhǔn)確率之間的平衡，本文在相同PE面積條件下進(jìn)行了比較分析。圖8展示了不同量化方法在Llama和OPT系列模型上的平均PPL和吞吐量表現(xiàn)?？梢钥闯?，BBFP(3,1)和BBFP(3,2)在保持較高吞吐量的同時，其PPL遠(yuǎn)低于Oltron和Olive等基于離群值感知的量化方法。此外，BBFP(3,1)和BBFP(3,2)的吞吐量與Oltron相當(dāng)，但準(zhǔn)確率更高，這證明了BBFP在吞吐量和準(zhǔn)確率之間取得了較好的平衡。

3.3.4 能源效率分析

除了吞吐量和準(zhǔn)確率，能源效率也是衡量加速器性能的重要指標(biāo)。圖9展示了相同PE數(shù)量和緩沖區(qū)大小下的能耗。BBFP(3,1)相較BFP4降低13%的能耗，主要得益于靜態(tài)和核心能量的減少。BBFP與相同位寬BFP的能耗增幅在5%以內(nèi)，額外標(biāo)志位對DRAM功耗影響較小。

結(jié)論

本文提出了一種改進(jìn)的塊浮點(diǎn)量化方法——雙向塊浮點(diǎn)（Bidirectional Block Floating Point, BBFP），并基于該方法設(shè)計(jì)了一款高效的大型語言模型（LLMs）加速器BBAL。BBFP通過引入1位標(biāo)志位和重疊位機(jī)制，有效降低了傳統(tǒng)塊浮點(diǎn)（BFP）量化過程中因強(qiáng)制對齊所有數(shù)據(jù)到最大指數(shù)所帶來的量化誤差。此外，BBFP還優(yōu)化了共享指數(shù)選擇策略，使部分?jǐn)?shù)值的尾數(shù)向左偏移，避免了中小數(shù)值的精度損失?；贐BFP的特性，本文進(jìn)一步設(shè)計(jì)了一種高效的非線性計(jì)算單元，該單元結(jié)合了基于查找表（Look-Up Table, LUT）的計(jì)算方法，能夠在保持較高精度的同時降低計(jì)算開銷。最終，本文構(gòu)建了一個完整的LLM加速器架構(gòu)BBAL，其中包含了優(yōu)化的處理單元（Processing Element, PE）陣列和非線性計(jì)算單元。實(shí)驗(yàn)結(jié)果表明，BBAL在保持與現(xiàn)有加速器相當(dāng)?shù)挠?jì)算效率的同時，其模型精度提升了22%；而在保持相近精度的情況下，其計(jì)算效率提高了40%。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

加速器

加速器

+關(guān)注

關(guān)注
2

文章
826

瀏覽量
39036
模型

模型

+關(guān)注

關(guān)注
1

文章
3506

瀏覽量
50230
后摩智能

后摩智能

+關(guān)注

關(guān)注
0

文章
34

瀏覽量
1345

原文標(biāo)題：后摩前沿 | 基于雙向塊浮點(diǎn)量化的大語言模型高效加速器——BBAL

文章出處：【微信號：后摩智能，微信公眾號：后摩智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

基于雙向塊浮點(diǎn)量化的大語言模型高效加速器設(shè)計(jì)

評論