99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hugging Face大語(yǔ)言模型優(yōu)化技術(shù)

jf_WZTOguxH ? 來(lái)源:AI前線 ? 2023-10-09 16:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大語(yǔ)言模型的生產(chǎn)部署存在兩個(gè)主要的挑戰(zhàn),一個(gè)是需要大量的參數(shù),一個(gè)是需要處理非常長(zhǎng)的用于表示上下文信息的輸入序列。Hugging Face 基于他們提供大模型服務(wù)的經(jīng)驗(yàn)分享了一些克服這些障礙的技術(shù)。

Patrick von Platen 在文中介紹的 Hugging Face 研究的三種技術(shù)是降低數(shù)值精度、使用一種叫作 Flash Attention 的注意力算法,以及使用專門(mén)的推理架構(gòu)。

大語(yǔ)言模型需要大量的 VRAM 來(lái)加載,從幾十 (bigcode/starcoder) 到數(shù)百 GB (Llama、Bloom、GPT3)。第一個(gè)優(yōu)化手段是從 float32 切換到 bfloat16 精度:

現(xiàn)在幾乎所有的模型都是基于 bfloat16 訓(xùn)練的,如果你的 GPU 支持 bfloat16,就沒(méi)有理由基于全 float32 精度運(yùn)行模型。float32 不會(huì)給出比訓(xùn)練模型所使用的精度更好的推理結(jié)果。

這可以使總體內(nèi)存消耗減少一半,但可惜的是,在許多情況下仍然需要很大的內(nèi)存。一種更激進(jìn)的方法是將模型權(quán)重量化為 8 位或 4 位,這已經(jīng)被證明不會(huì)導(dǎo)致顯著的性能下降。

量化對(duì)于文本生成來(lái)說(shuō)特別有效,因?yàn)槲覀兯P(guān)心的是選擇最有可能的下一個(gè)標(biāo)記集合,而不是下一個(gè)標(biāo)記 Logit 分布的確切值。

這將進(jìn)一步減少所需的內(nèi)存,使得在只有 16GB VRAM 的 GPU 上運(yùn)行較小的模型成為可能,盡管代價(jià)是推理時(shí)間稍長(zhǎng)。

von Platen 寫(xiě)道,使用 Flash Attention 是另一相關(guān)鍵的優(yōu)化,它是大語(yǔ)言模型用來(lái)理解輸入標(biāo)記上下文關(guān)系的自注意力層的一種算法,有可能打破輸入標(biāo)記數(shù)量的二次增長(zhǎng)。

因?yàn)樵撍惴ㄌ^(guò)復(fù)雜,無(wú)法在這里描述,但可以這么說(shuō),它利用了 softmax 規(guī)范化統(tǒng)計(jì)數(shù)據(jù)和一些數(shù)學(xué)手段,在只需要隨輸入標(biāo)記線性增長(zhǎng)的內(nèi)存的情況下提供相同的輸出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在實(shí)踐中,目前絕對(duì)沒(méi)有理由不使用 Flash Attention。該算法在數(shù)學(xué)層面給出了相同的輸出,并且速度更快,內(nèi)存效率更高。

Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen,positional embeddingsand thekey-value cache.

在生產(chǎn)環(huán)境中部署大語(yǔ)言模型的第三項(xiàng)優(yōu)化措施是選擇正確的架構(gòu),讓它們能夠有效地處理長(zhǎng)文本輸入。von Platen 寫(xiě)道,最近的研究有助于我們?nèi)绾螌?duì)兩個(gè)很快成為瓶頸的組件做出選擇——一個(gè)是 _ 位置嵌入 (positional embeddings)_,一個(gè)是 _ 鍵值緩存 _。

位置嵌入通過(guò)將每個(gè)標(biāo)記的位置編碼為數(shù)字表示來(lái)幫助語(yǔ)言大模型理解序列順序。對(duì)于需要處理大型文本輸入任務(wù)的大語(yǔ)言模型,應(yīng)該使用 RoPE 和 ALiBi 等相對(duì)位置嵌入技術(shù)進(jìn)行訓(xùn)練。

RoPE 和 ALiBi 位置編碼都可以外推到訓(xùn)練期間未遇到過(guò)的輸入長(zhǎng)度,而事實(shí)證明,與 RoPE 相比,外推對(duì)于開(kāi)箱即用的 ALiBi 的效果要好得多。

目前的許多大語(yǔ)言模型中已經(jīng)在使用這兩種算法。

鍵值緩存可以作為對(duì)對(duì)話上下文進(jìn)行編碼的一種方法。鍵值緩存在發(fā)生每個(gè)新交互時(shí)增加一個(gè)元素,這比為每個(gè)請(qǐng)求編碼 / 解碼上下文的方法要有效得多。von Platen 詳細(xì)介紹了兩類鍵值緩存,即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵蓋的內(nèi)容不只有本文所概述的這些,他的文章中還提供了實(shí)際的例子來(lái)證明他的觀點(diǎn),所以請(qǐng)不要錯(cuò)過(guò)他的文章。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4948

    瀏覽量

    131267
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10798
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3146

    瀏覽量

    4076

原文標(biāo)題:Hugging Face 大語(yǔ)言模型優(yōu)化技術(shù)

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語(yǔ)言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語(yǔ)言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI。
    的頭像 發(fā)表于 06-12 15:42 ?433次閱讀

    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列模型

    近期阿里通義實(shí)驗(yàn)室在 Hugging Face 和 ModelScope 上開(kāi)源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內(nèi)的 3 個(gè)
    的頭像 發(fā)表于 03-12 13:42 ?1025次閱讀
    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列<b class='flag-5'>模型</b>

    從OpenVINO? 2019_R3下載的face-detection-retail-0004模型,運(yùn)行時(shí)報(bào)錯(cuò)怎么解決?

    從 OpenVINO? 2019_R3 下載的 face-detection-retail-0004 模型。 構(gòu)建開(kāi)源OpenVINO?版本 2020.1 運(yùn)行 Interactive
    發(fā)表于 03-05 06:00

    語(yǔ)言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    本文系統(tǒng)性地闡述了大型語(yǔ)言模型(LargeLanguageModels,LLMs)中的解碼策略技術(shù)原理及其實(shí)踐應(yīng)用。通過(guò)深入分析各類解碼算法的工作機(jī)制、性能特征和優(yōu)化方法,為研究者和工
    的頭像 發(fā)表于 02-18 12:00 ?589次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的解碼策略與關(guān)鍵<b class='flag-5'>優(yōu)化</b>總結(jié)

    Hugging Face推出最小AI視覺(jué)語(yǔ)言模型

    Hugging Face平臺(tái)于1月23日發(fā)布博文,推出了兩款令人矚目的輕量級(jí)AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。 其中
    的頭像 發(fā)表于 01-24 14:15 ?970次閱讀

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    生成回答。在特定領(lǐng)域或任務(wù)中,可以通過(guò)微調(diào)Embedding模型來(lái)提高檢索的相關(guān)性和準(zhǔn)確性。Embedding在大模型RAG技術(shù)中發(fā)揮著至關(guān)重要的作用。它不僅實(shí)現(xiàn)了文本向量化,還為信息檢索和文本生成提供了基礎(chǔ)。通過(guò)不斷
    發(fā)表于 01-17 19:53

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化>這本書(shū)。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型
    發(fā)表于 01-14 16:51

    AI大語(yǔ)言模型開(kāi)發(fā)步驟

    開(kāi)發(fā)一個(gè)高效、準(zhǔn)確的大語(yǔ)言模型是一個(gè)復(fù)雜且多階段的過(guò)程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計(jì)、訓(xùn)練與優(yōu)化、評(píng)估與調(diào)試等多個(gè)環(huán)節(jié)。接下來(lái),AI部落小編為大家詳細(xì)闡述AI大
    的頭像 發(fā)表于 12-19 11:29 ?902次閱讀

    如何優(yōu)化自然語(yǔ)言處理模型的性能

    優(yōu)化自然語(yǔ)言處理(NLP)模型的性能是一個(gè)多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、
    的頭像 發(fā)表于 12-05 15:30 ?1709次閱讀

    語(yǔ)言模型開(kāi)發(fā)語(yǔ)言是什么

    在人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)背后,離不開(kāi)高效的開(kāi)發(fā)語(yǔ)言和工具的支持。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-04 11:44 ?703次閱讀

    云端語(yǔ)言模型開(kāi)發(fā)方法

    云端語(yǔ)言模型的開(kāi)發(fā)是一個(gè)復(fù)雜而系統(tǒng)的過(guò)程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個(gè)環(huán)節(jié)。下面,AI部落小編為您分享云端語(yǔ)言
    的頭像 發(fā)表于 12-02 10:48 ?692次閱讀

    語(yǔ)言模型優(yōu)化生成管理方法

    語(yǔ)言模型優(yōu)化生成管理是一個(gè)系統(tǒng)工程,涉及模型架構(gòu)、數(shù)據(jù)處理、內(nèi)容控制、實(shí)時(shí)響應(yīng)以及倫理監(jiān)管等多個(gè)層面。以下,是對(duì)大語(yǔ)言
    的頭像 發(fā)表于 12-02 10:45 ?408次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來(lái)學(xué)習(xí)大語(yǔ)言模型在自然語(yǔ)言理解方面的原理以及問(wèn)答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。 大
    發(fā)表于 08-02 11:03

    Hugging Face科技公司推出SmolLM系列語(yǔ)言模型

    7月22日最新資訊,Hugging Face科技公司在語(yǔ)言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語(yǔ)言
    的頭像 發(fā)表于 07-23 16:35 ?740次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書(shū)

    的大語(yǔ)言模型設(shè)計(jì)技術(shù)人員閱讀,主要包括大語(yǔ)言模型優(yōu)化方法、Agent系統(tǒng)調(diào)優(yōu)以及
    發(fā)表于 07-21 13:35