大語言模型的應(yīng)用
與微調(diào)優(yōu)化必要性
ChatGPT 的橫空出世開啟了大語言模型 (LLM) 的普及元年,BERT、GPT-4、ChatGLM 等模型的非凡能力則展現(xiàn)出類似通用人工智能 (AI) 的巨大潛力,也因此得到了多行業(yè)、多領(lǐng)域的廣泛關(guān)注。
為加速這些大模型與特定領(lǐng)域的深度融合,以及更好地適應(yīng)特定任務(wù),基于任務(wù)特性對這些模型進行定制化微調(diào)至關(guān)重要。
然而,它們龐大的參數(shù)使得用傳統(tǒng)方式對大模型進行調(diào)優(yōu)面臨諸多挑戰(zhàn),不僅要求相關(guān)人員熟練掌握微調(diào)技巧,還需要付出巨大的訓(xùn)練成本。
近年來,出現(xiàn)了參數(shù)高效微調(diào) (Parameter-Efficient Fine-Tuning, PEFT)和提示微調(diào) (Prompt-tuning)技術(shù)。這些技術(shù)因其成本更低、應(yīng)用方式更簡單便捷,正在逐漸取代大模型傳統(tǒng)調(diào)優(yōu)方法。
本文結(jié)合目前在中文應(yīng)用場景中具有出色表現(xiàn)的開源預(yù)訓(xùn)練大模型 ChatGLM-6B,介紹如何通過對其開源 Prompt-tuning 代碼進行極少量的修改,并結(jié)合第四代英特爾至強可擴展處理器[1]的全新內(nèi)置 AI加速引擎——英特爾高級矩陣擴展 (IntelAdvancedMatrix Extension,簡稱英特爾AMX)及配套的軟件工具,來實現(xiàn)高效、低成本的大模型微調(diào)。
基于英特爾 架構(gòu)硬件的
微調(diào)優(yōu)化方案
本文通過以下三個方面實現(xiàn)了基于第四代英特爾 至強 可擴展處理器的 ChatGLM 高效微調(diào)優(yōu)化:
1.借助英特爾 AMX,大幅提升模型微調(diào)計算速度
AMX 是內(nèi)置于第四代英特爾 至強 可擴展處理器中的矩陣乘法加速器,能夠更快速地處理 BFloat16 (BF16) 或 INT8 數(shù)據(jù)類型的矩陣乘加運算,從而顯著提升模型訓(xùn)練和推理的性能。
圖 1. 英特爾 AMX 技術(shù)架構(gòu)
目前,現(xiàn)行的 PyTorch 框架中,已經(jīng)可以通過具備 BF16 自動混合精度功能自動實現(xiàn)對 AMX 加速器的利用。
就ChatGLM-6B而言,其開源微調(diào)代碼的 autocast_smart_context_manager() 函數(shù),也已具備對 CPU 自動混合精度的支持。
因此,只需在啟動微調(diào)時加入 CPU 自動混合精度的使能參數(shù)即可直接利用英特爾 AMX 帶來的優(yōu)勢。
圖 2. 通過trainer.py 中的 autocast_smart_context_manager() 函數(shù),在 ChatGLM-6B 開源 prompt-tuning 目錄下實現(xiàn)對 CPU 和 GPU 的自動混合精度支持
具體方法是在啟動微調(diào)的 train.sh 腳本時做如下修改:
2.結(jié)合英特爾 MPI 庫充分利用處理器架構(gòu)特點和多核配置,發(fā)揮 CPU 的整體效率
第四代英特爾 至強 可擴展處理器最多可擁有 60 個內(nèi)核。這些內(nèi)核通過 4 個集群 (cluster) 的方式進行內(nèi)部組織。
理論上,當多個處理器內(nèi)核并行處理一個計算任務(wù)并需要共享或交換數(shù)據(jù)時,同一個集群內(nèi)的內(nèi)核之間的通信時延較低。
因此,在使用 PyTorch 框架進行模型微調(diào)時,我們可以將同一個集群上的內(nèi)核資源分配給同一個 PyTorch 實例,從而為單個實例提供更理想的計算效率。
此外,通過利用 PyTorch 的分布式數(shù)據(jù)并行 (Distributed Data Parallel,DDP) 功能,還可將兩個 CPU 上的 8 個集群的內(nèi)核資源匯集在一起,充分發(fā)揮整體效率。
圖 3. 第四代英特爾 至強 可擴展處理器的內(nèi)部集群 (cluster) 架構(gòu)
為實現(xiàn)從應(yīng)用程序代碼到數(shù)據(jù)通信的整體簡化,PyTorch 框架支持多種分布式數(shù)據(jù)并行后端 (backend),其中 MPI 后端方式能夠很好地滿足我們的優(yōu)化需求。
圖 4. PyTorch 支持的多種分布式數(shù)據(jù)并行的后端(來源:PyTorch 官網(wǎng)[2])
但是,通過 pip 或 conda 來安裝的預(yù)編譯PyTorch 二進制包中并未將 MPI 的后端作為缺省功能編譯。因此,我們需要安裝 MPI 協(xié)議工具庫并通過手工編譯來獲得對 MPI 后端的支持。
英特爾MPI庫[3]是一個實現(xiàn) MPICH 規(guī)范的多結(jié)構(gòu)消息傳遞庫,使用該庫可創(chuàng)建、維護和測試能夠在英特爾 處理器上實現(xiàn)更優(yōu)性能的先進和復(fù)雜的應(yīng)用。它采用 OFI 來處理所有通信,能夠提供更高的吞吐量、更低的時延和更簡單的程序設(shè)計。
以下是基于英特爾MPI庫的 PyTorch 編譯步驟:
下載英特爾 MPI庫并安裝
安裝 PyTorch 編譯依賴包
下載 PyTorch 源碼并完成編譯、安裝
在獲得了支持 MPI 后端的 PyTorch 后,只需按如下方法在 ChatGLM Prompt-tuning 目錄下的 main.py 修改一行代碼:
將dist.init_process_group(backend='gloo', world_size=1,rank=0) 改為:
dist.init_process_group(backend='mpi')
圖 5. 修改前的main.py
圖 6. 修改后的 main.py
3.利用至強 CPU Max 系列集成的 HBM 滿足大模型微調(diào)所需的大內(nèi)存帶寬
基于 Transformer 的大模型,由于參數(shù)、訓(xùn)練數(shù)據(jù)和模型規(guī)模的復(fù)雜程度較高,因此內(nèi)存復(fù)雜度通常是 O(n2)。
這意味著這些大模型需要足夠大的內(nèi)存帶寬支持才能獲得更好的運行性能。
英特爾 至強 CPU Max 系列[4],配備 64 GB 的 HBM2e 高帶寬內(nèi)存,為在 CPU 上高效運行大模型提供了高達~1TB/s的內(nèi)存帶寬支持[5]。
該 CPU 集成的 HBM,能夠在 3 種模式下靈活配置:
HBM-Only 模式——支持內(nèi)存容量需求不超過 64 GB 的工作負載,具備每核 1 至 2 GB 的內(nèi)存擴展能力,無需更改代碼和另購 DDR,即可啟動系統(tǒng)。 HBM Flat 模式——可為需要大內(nèi)存容量的應(yīng)用提供靈活性,通過 HBM 和 DRAM 提供一個平面內(nèi)存區(qū)域 (flat memory region),適用于每核內(nèi)存需求 >2 GB 的工作負載。可能需要更改代碼。 HBM 高速緩存模式——為內(nèi)存容量 >64 GB或每核內(nèi)存需求 >2GB 的工作負載提供更優(yōu)性能。無需更改代碼,HBM 將用作 DDR 的高速緩存。
針對 ChatGLM-6B 微調(diào),試驗結(jié)果顯示:與其他兩種模式相比, HBM 高速緩存模式在性能和使用方便性方面均更勝一籌。
在英特爾 至強 CPU Max 系列產(chǎn)品上,結(jié)合之前的兩項優(yōu)化,我們可以通過以下命令行啟動 ChatGLM-6B 微調(diào):
圖 7. 在擁有 32 個物理核的英特爾 至強 CPU Max 9462 雙路服務(wù)器上啟動微調(diào)
優(yōu)化結(jié)果
通過以上簡單軟、硬件綜合優(yōu)化,無須采用昂貴的 GPU 硬件,即可實現(xiàn)對 ChatGLM-6B 模型的高性能微調(diào)。
注:以上代碼修改需要配合 python 工具包 accelerate 0.18.0 和 transformers 4.28.0。
作者簡介:
夏磊,英特爾(中國)有限公司人工智能首席工程師,擁有近 20 年的人工智能從業(yè)經(jīng)驗,在軟件算法、自動控制和工程管理等領(lǐng)域積累了豐富經(jīng)驗。
-
英特爾
+關(guān)注
關(guān)注
61文章
10195瀏覽量
174666 -
cpu
+關(guān)注
關(guān)注
68文章
11077瀏覽量
217029
原文標題:如何在CPU上優(yōu)化ChatGLM-6B?一行代碼就行 | 最“in”大模型
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
華為正式開源盤古7B稠密和72B混合專家模型
Energy Absolute一行參訪蘑菇車聯(lián)
上海雷克薩斯一行到訪中汽中心
中汽中心一行到訪理想汽車
奇瑞汽車一行到訪中汽中心
中關(guān)村泛聯(lián)院一行來訪中科馭數(shù)
越南副總理一行到訪商湯科技
TFP401AMP第一行丟失4個像素是什么原因?qū)е碌模?/a>
科大訊飛引領(lǐng)大模型應(yīng)用新浪潮
chatglm2-6b在P40上做LORA微調(diào)

評論