電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))在Sora把AI生成領(lǐng)域的視線全部吸引過去的這段時(shí)間里,谷歌卻依然在竭盡全力推進(jìn)新的生成模型發(fā)展。除了上周發(fā)布的下一代Gemini 1.5外,谷歌也在近日推出了一系列基于Gemini打造的開源模型Gemma。
谷歌加入AI模型開源陣營,Gemma橫空出世
根據(jù)谷歌的介紹,Gemma是由谷歌DeepMind以及其他團(tuán)隊(duì)開發(fā),由Gemini啟發(fā)并采用了相同的研究與技術(shù)的輕量級模型。與之一起發(fā)布的還有全新的響應(yīng)式生成AI工具包,為利用Gemma創(chuàng)造更安全的AI應(yīng)用提供關(guān)鍵工具和指導(dǎo)。
從參數(shù)大小上來看,Gemma分為20億參數(shù)(Gemma 2B)和70億(Gemma 7B)參數(shù)兩個(gè)版本,且每個(gè)版本又有基礎(chǔ)版(預(yù)訓(xùn)練)和指令調(diào)整版兩個(gè)變體。其中70億參數(shù)的版本適合消費(fèi)級的GPU和TPU開發(fā),而20億參數(shù)的版本可以用于CPU和端側(cè)應(yīng)用上。
在預(yù)訓(xùn)練數(shù)據(jù)上,Gemma 2B和7B分別采用了2T和6T的Token進(jìn)行訓(xùn)練,數(shù)據(jù)來源是以英文為主的網(wǎng)絡(luò)文檔、數(shù)學(xué)計(jì)算和代碼。需要注意的是,盡管其背后所采用的技術(shù)與Gemini類似,但這些模型并不屬于多模態(tài)模型,也并不適合用于追求極致的多語言任務(wù)性能。
在訓(xùn)練硬件上,谷歌采用了自研的TPUv5e,其中Gemma 7B用到了4096塊TPUv5e進(jìn)行訓(xùn)練,Gemma 2B用到了512塊TPUv5e進(jìn)行訓(xùn)練。
開源LLM混戰(zhàn),Gemma 7B超越Llama-2 13B?
根據(jù)谷歌官方提供的數(shù)據(jù),與Meta的Llama-2相比,Gemma 7B在多個(gè)項(xiàng)目上展現(xiàn)出了優(yōu)勢,比如大規(guī)模多任務(wù)語言理解(MMLU)、GSM8K和Math計(jì)算和HumanEval Python代碼生成等應(yīng)用上,都超過了Llama-2 7B,甚至不少超過了Llama-2 13B。
開源模型文本任務(wù)性能對比 / 谷歌
谷歌表示,與同等體量的開源模型對比,比如LLaMA-2和Mistral等,18項(xiàng)文字相關(guān)的任務(wù)中,Gemma能夠做到在11項(xiàng)任務(wù)中性能勝出,且平均性能得分占優(yōu)。
不過Gemma也并不是完全超越了Llama-2,從Huggingface給出的平均得分來看,Gemma 7B超過了同級別的Llama 2 7B,但還是低于LLama 2 70B Chat,不過考慮到這兩者之間的參數(shù)差異,也印證了Gemma 7B的強(qiáng)大。至于Gemma 2B,與同規(guī)格的其他優(yōu)秀開源LLM相比,比如PHI-2(2.7B),也不存在優(yōu)勢。
作為一個(gè)輕量級的模型,Gemma也對跨設(shè)備兼容性做了優(yōu)化,可以在筆記本、PC、IoT設(shè)備、智能手機(jī)和云端運(yùn)行。谷歌也與英偉達(dá)達(dá)成合作,Gemma針對英偉達(dá)的GPU硬件進(jìn)行了優(yōu)化,無論是云端的AI GPU還是桌面端的RTX AI PC,都能享受Gemma帶來的性能。
寫在最后
盡管Gemma是谷歌首個(gè)大型的開源LLM,但這早已經(jīng)不是谷歌對開源AI社區(qū)做出的首個(gè)貢獻(xiàn)了,諸如Transformers, TensorFlow, BERT, T5, JAX, AlphaFold和AlphaCode等,可以說當(dāng)前AI能夠有如此繁榮的開發(fā)生態(tài),谷歌做出了不少貢獻(xiàn)。無疑Gemma的出現(xiàn),也會給AI開發(fā)生態(tài)帶來新的選擇。
-
谷歌
+關(guān)注
關(guān)注
27文章
6231瀏覽量
108115 -
AI
+關(guān)注
關(guān)注
88文章
35109瀏覽量
279594 -
算力
+關(guān)注
關(guān)注
2文章
1197瀏覽量
15647 -
大模型
+關(guān)注
關(guān)注
2文章
3139瀏覽量
4062
發(fā)布評論請先 登錄
使用 NPU 插件對量化的 Llama 3.1 8b 模型進(jìn)行推理時(shí)出現(xiàn)“從 __Int64 轉(zhuǎn)換為無符號 int 的錯(cuò)誤”,怎么解決?
無法在OVMS上運(yùn)行來自Meta的大型語言模型 (LLM),為什么?
在算力魔方上本地部署Phi-4模型

Meta重磅發(fā)布Llama 3.3 70B:開源AI模型的新里程碑

Meta推出Llama 3.3 70B,AI大模型競爭白熱化
用Ollama輕松搞定Llama 3.2 Vision模型本地部署

Meta發(fā)布Llama 3.2量化版模型
Llama 3 語言模型應(yīng)用
亞馬遜云科技上線Meta Llama 3.2模型
亞馬遜云科技正式上線Meta Llama 3.2模型
PerfXCloud平臺成功接入Meta Llama3.1
Meta發(fā)布全新開源大模型Llama 3.1
NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

評論