亚洲精品国产熟女久久久,精品久久久久久中文字幕一区无码 ,AV天堂一区二区三区在线

作者：Arm 基礎(chǔ)設(shè)施事業(yè)部 AI 解決方案架構(gòu)師 Na Li；Arm 基礎(chǔ)設(shè)施事業(yè)部首席軟件工程師 Masoud Koleini

亞馬遜云科技 (AWS) 新一代基于 Arm 架構(gòu)的定制 CPU —— AWS Graviton4 處理器已于 2024 年 7 月正式上線。這款先進(jìn)的處理器基于 64 位 Arm 指令集架構(gòu)的 Arm Neoverse V2 核心打造，使其能為各種云應(yīng)用提供高效且性能強(qiáng)大的解決方案[1]。

在本文中，我們將評估在基于 Graviton4 處理器的 AWS EC2 實(shí)例（C8g 實(shí)例類型）上運(yùn)行語言模型的推理性能。通過利用針對 Arm 內(nèi)核優(yōu)化的 Q_4_0_4_8 量化技術(shù)，在參數(shù)范圍從 38 億到 700 億不等的模型[2-5]上使用 llama.cpp[6] 進(jìn)行基準(zhǔn)測試。此外，我們還比較了基于 Graviton4 的實(shí)例與采用上一代 Graviton3 處理器的 EC2 實(shí)例上運(yùn)行模型的性能。

Llama 3 70B 在 AWS Graviton4 上的執(zhí)行速度快于人類可讀性水平

與 Graviton3 相比，AWS Graviton4 處理器提供了執(zhí)行更大參數(shù)規(guī)模語言模型的潛力。為了評估 Graviton4 處理器在運(yùn)行不同參數(shù)大小的大語言模型 (LLM) 時的性能，我們在 Graviton4 C8g.16xlarge 實(shí)例上部署了三個模型，分別為 Llama 3 70B、Phi-3-mini 3.8B 和 Llama 3 8B，并測量了其推理性能。主要性能指標(biāo)是生成下個詞元 (next-token) 的延遲，如圖表 1 所示。盡管 Llama 3 70B 模型相對于其他較小的模型表現(xiàn)出更長的延遲，但在批次大小為 1 的情況下，它仍然能達(dá)到每秒生成 5 至 10 個詞元的人類可讀性水平，并近乎滿足生成下個詞元延遲 100 毫秒的目標(biāo)服務(wù)等級協(xié)議 (SLA)。

圖表 1：在 C8g.16xlarge 實(shí)例上運(yùn)行 Llama 3 70B、Phi-3-mini 3.8B 和 Llama 3 8B 模型時，下個詞元生成時間的性能表現(xiàn)，其中批次大小模擬了一個或多個用戶同時調(diào)用模型的場景

根據(jù) Meta[7] 的說法，盡管與 Llama 3 8B 模型相比，Llama 3 70B 模型生成下個詞元的延遲更長（圖表 1），但該模型在需要高級邏輯推理的任務(wù)中表現(xiàn)相當(dāng)卓越（見圖 1 中的示例）。對于看重低延遲響應(yīng)時間且無需復(fù)雜邏輯推理的應(yīng)用而言，Llama 3 8B 模型是合適之選。相反，如果應(yīng)用在延遲性方面的要求更為寬松，但需要高級推理或創(chuàng)造性能力，則 Llama 3 70B 模型是合適的選擇。

圖 1：在第一行顯示的示例中，Llama 3 8B 和 Llama 3 70B 模型都為基于知識的問題提供了很好的回答；而在第二行的示例中，只有 Llama 3 70B 回答正確，因?yàn)閱栴}的解答需要進(jìn)行邏輯推理

使用 Graviton3 和 Graviton4 處理器

支持不同的語言模型

為了評估 AWS Graviton 處理器在運(yùn)行 LLM 時的性能，我們在 Graviton3 (C7g.16xlarge) 和 Graviton4 (C8g.16xlarge) 實(shí)例上部署了參數(shù)范圍從 38 億到 700 億不等的模型，并評測了它們的推理能力。

如表 1 所示，基于 Graviton3 和 Graviton4 的實(shí)例均能支持多達(dá) 270 億參數(shù)的模型，包括 Phi-3-mini 3.8B、Llama 3 8B 和 Gemma 2 27B。然而，在被評估的模型中，Graviton4 能夠處理參數(shù)量最大的 Llama 3 70B 模型。

表 1：Graviton3 和 Graviton4 處理器支持多種語言模型

從 Graviton3 到Graviton4 處理器的性能提升

我們在 Graviton3 (C7g.16xlarge) 和 Graviton4 (C8g.16xlarge) 的實(shí)例上部署了 Llama 3 8B 模型，以評估性能方面的提升。性能是基于提示詞編碼進(jìn)行評估的，它衡量了語言模型處理和解釋用戶輸入的速度，如圖表 2 所示。在不同的用戶批次大小測試中，Graviton4 的提示詞編碼性能相較 Graviton3 提升了 14% 至 26%（見圖表 2 右軸）。

圖表 2：從 Graviton3 (C7g.16xlarge) 到 Graviton4 (C8g.16xlarge) 運(yùn)行 Llama 3 8B 模型的提示詞編碼所實(shí)現(xiàn)的性能提升

如圖表 3 所示，詞元生成（評估語言模型在運(yùn)行 Llama 3 8B 時響應(yīng)和生成文本的速度）也展示了顯著的性能提升。性能曲線顯示，在不同的用戶批次大小測試中，性能都有明顯增長，Graviton4 在較小的用戶批次上顯示出更顯著的效率提升，實(shí)現(xiàn)了 5% 至 50% 的增長（參見圖表 3 右軸）。

圖表 3：從 Graviton 3 (C7g.16xlarge) 到 Graviton 4 (C8g.16xlarge) 運(yùn)行 Llama 3 8B 模型實(shí)現(xiàn)的詞元生成性能提升

結(jié)論

在 AWS Graviton4 C8g.x16large 實(shí)例上運(yùn)行 Llama 3 70B，每秒可生成 10 個詞元，該速度超過了人類可讀性水平。與 Graviton3 相比，這種性能增強(qiáng)使 Graviton4 能夠處理包括需要高級推理等更廣泛的生成式 AI 任務(wù)。在運(yùn)行 Llama 3 8B 模型時，Graviton4 的提示詞編碼性能較 Graviton3 提高了 14% 至 26%，詞元生成性能提高了 5% 至 50%。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
11083

瀏覽量
217188
亞馬遜

亞馬遜

+關(guān)注

關(guān)注
8

文章
2697

瀏覽量
84702
AWS

AWS

+關(guān)注

關(guān)注
0

文章
437

瀏覽量
25300

原文標(biāo)題：在 AWS Graviton4 CPU 上運(yùn)行 Llama 3 70B 模型，執(zhí)行速度超過人類可讀性水平

文章出處：【微信號：Arm社區(qū)，微信公眾號：Arm社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

在AWS Graviton4處理器上運(yùn)行大語言模型的性能評估

評論