TensorRT LLM加速Gemma！NVIDIA與谷歌牽手，RTX助推AI聊天

NVIDIA今天在其官方博客中表示，今天與谷歌合作，在所有NVIDIA AI平臺(tái)上為Gemma推出了優(yōu)化。Gemma是谷歌最先進(jìn)的新輕量級(jí)2B(20億)和7B(70億)參數(shù)開放語言模型，可以在任何地方運(yùn)行，降低了成本，加快了特定領(lǐng)域用例的創(chuàng)新工作。

這兩家公司的團(tuán)隊(duì)密切合作，主要是使用NVIDIA TensorRT LLM加速谷歌Gemma開源模型的性能。開源模型Gemma采用與Gemini模型相同的底層技術(shù)構(gòu)建，而NVIDIA TensorRT LLM是一個(gè)開源庫(kù)，用于在數(shù)據(jù)中心的NVIDIA GPU、云服務(wù)器以及帶有NVIDIA RTX GPU的PC上運(yùn)行時(shí)，可以極大優(yōu)化大型語言模型推理。這也這使得開發(fā)人員能夠完全利用全球超過1億臺(tái)數(shù)量的RTX GPU AI PC完成自己的工作。

同時(shí)，開發(fā)人員還可以在云計(jì)算服務(wù)器中的NVIDIA GPU上運(yùn)行Gemma，包括在谷歌云基于H100 Tensor Core GPU，以及很快谷歌將于今年部署的NVIDIA H200 TensorCore GPU——該GPU具有141GB的HBM3e內(nèi)存，內(nèi)存帶寬可以達(dá)到4.8TB/s。

另外，企業(yè)開發(fā)人員還可以利用NVIDIA豐富的工具生態(tài)系統(tǒng)，包括具有NeMo框架的NVIDIA AI Enterprise和TensorRT LLM，對(duì)Gemma進(jìn)行微調(diào)，并在其生產(chǎn)應(yīng)用程序中部署優(yōu)化模型。

NVIDIA表示，先期上線支持Gemma的是Chat with RTX，這是一款NVIDIA技術(shù)演示應(yīng)用，使用檢索增強(qiáng)生成和TensorRT LLM擴(kuò)展，在基于RTX GPU的本地Windows PC上為用戶提供生成式AI應(yīng)用的功能。通過RTX聊天，用戶可以輕松地將PC上的本地文件連接到大型語言模型，從而使用自己的數(shù)據(jù)對(duì)聊天機(jī)器人進(jìn)行個(gè)性化設(shè)置。

由于該模型在本地運(yùn)行，因此可以快速提供結(jié)果，并且用戶數(shù)據(jù)保留在設(shè)備上。與基于云的LLM服務(wù)不同，使用Chat with RTX聊天可以讓用戶在本地PC上處理敏感數(shù)據(jù)，而無需與第三方共享或連接互聯(lián)網(wǎng)。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴