近日,智源研究院發(fā)布并解讀了國內(nèi)外100余個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項(xiàng)評測結(jié)果。云知聲山海大模型(UniGPT4.0-0730)在此次評測中表現(xiàn)優(yōu)異。云知聲山海大模型在100多個(gè)參評大語言模型中,客觀評測全球第6,國內(nèi)第3;主觀評測全球第12,國內(nèi)第8,繼續(xù)穩(wěn)居我國大語言模型第一梯隊(duì)。這一佳績不僅彰顯了云知聲在人工智能領(lǐng)域的深厚技術(shù)底蘊(yùn),也標(biāo)志著公司在大模型技術(shù)的應(yīng)用和綜合能力提升方面取得了顯著的進(jìn)展。云知聲山海大模型的卓越表現(xiàn),證明了其在激烈的市場競爭中具備強(qiáng)勁的競爭力,并且在技術(shù)創(chuàng)新和應(yīng)用實(shí)踐上不斷取得突破。
能力卓越,山海大模型多項(xiàng)評測名列前茅
智源研究院的大模型評測平臺FlagEval自2023年6月上線以來,已覆蓋全球800余個(gè)開閉源模型,超過200萬條評測題目,成為全球大模型評測的重要平臺。此次評測,F(xiàn)lagEval在評測方法與工具上聯(lián)合了全國10余家高校和機(jī)構(gòu)合作共建,不僅擴(kuò)展、豐富和細(xì)化了評測任務(wù),還新增了數(shù)據(jù)處理、高級編程和工具調(diào)用的相關(guān)能力與任務(wù),以及面向真實(shí)金融量化交易場景的應(yīng)用能力評估。
在FlagEval“大語言模型評測能力榜單”中,山海大模型(UniGPT4.0-0730)在主客觀兩大評測維度中均展現(xiàn)出了非凡的實(shí)力。本輪評測主要聚焦對話模型,其中主觀評測更側(cè)重于考察中文能力。在涉及約2.2萬道題目、覆蓋40余個(gè)語言模型的廣泛評測中,山海大模型憑借其卓越的性能,贏得了業(yè)界的廣泛認(rèn)可。
在客觀評測方面,該榜單詳盡涵蓋了語言能力、知識運(yùn)用、推理能力、數(shù)學(xué)能力、代碼能力、指令遵循、工具調(diào)用七大評估類別,全方位考察各項(xiàng)技能。山海大模型(UniGPT4.0-0730)以54.46的綜合評分,在榜單中位列第3,這充分彰顯了其堅(jiān)實(shí)的綜合基礎(chǔ)。特別是在代碼能力方面,山海大模型得分高達(dá)55.05,榮獲國內(nèi)第1,進(jìn)一步凸顯了其在編程和代碼處理方面的卓越才能。同時(shí),其數(shù)學(xué)能力得分53.56,也使其榮獲國內(nèi)第2,再次證明了其在解決復(fù)雜數(shù)學(xué)問題上的非凡實(shí)力。
在主觀評測方面,該榜單精心設(shè)置了簡單理解、知識運(yùn)用、推理能力、數(shù)學(xué)能力、任務(wù)解決、安全與價(jià)值觀六大評估維度,全面衡量各項(xiàng)能力。山海大模型(UniGPT4.0-0730)憑借69.63的綜合評分,在榜單中脫穎而出,位列第8名,充分展示了其強(qiáng)大的綜合性能。此外,其數(shù)學(xué)能力得分高達(dá)71,位居國內(nèi)第3名,進(jìn)一步凸顯了山海大模型在解決復(fù)雜數(shù)學(xué)問題上的出色能力。
智慧賦能,加速AI應(yīng)用落地與產(chǎn)業(yè)升級
隨著人工智能技術(shù)的快速發(fā)展,大模型已成為全球科技競爭的新高地、未來產(chǎn)業(yè)的新賽道、經(jīng)濟(jì)發(fā)展的新引擎。當(dāng)前,通用大模型、行業(yè)大模型以及端側(cè)大模型正如雨后春筍般層出不窮,大模型產(chǎn)業(yè)的應(yīng)用落地步伐顯著加快。
作為國內(nèi)頂尖的人工智能獨(dú)角獸企業(yè),云知聲于2016年開始建立Atlas人工智能基礎(chǔ)設(shè)施,并以此為基礎(chǔ),構(gòu)建云知大腦(UniBrain)技術(shù)中臺——以山海(UniGPT)通用認(rèn)知大模型為核心,結(jié)合多模態(tài)感知與生成、知識圖譜、物聯(lián)平臺等智能組件,為云知聲智慧物聯(lián)、智慧醫(yī)療、智慧座艙、智慧交通等業(yè)務(wù)提供高效的產(chǎn)品化支撐,持續(xù)推動(dòng)千行百業(yè)的智慧化升級。
山海大模型作為云知大腦的核心,在實(shí)際應(yīng)用中展現(xiàn)出了卓越的潛力與實(shí)力。通過持續(xù)的技術(shù)創(chuàng)新和豐富的應(yīng)用場景實(shí)踐,山海大模型不僅在通用能力上達(dá)到了世界一流水平,而且在專業(yè)能力上也表現(xiàn)出色,處于行業(yè)領(lǐng)先地位。
目前,山海大模型已相繼在OpenCompass大模型評測、SuperCLUE中文大模型基準(zhǔn)測評、MedBench評測、Flageval大模型評測、SuperBench、MMMU等多個(gè)權(quán)威評測中屢創(chuàng)佳績,穩(wěn)居國內(nèi)大模型第一梯隊(duì),展現(xiàn)了其強(qiáng)大的通用能力。在專業(yè)能力層面,其基于山海大模型孵化的醫(yī)療大模型在CCKS 2023 PromptCBLUE醫(yī)療大模型評測中奪得通用賽道一等獎(jiǎng),并在2024年5月和6月的MedBench評測中連續(xù)登頂榜首。此外,在2024年全國智慧醫(yī)保大賽中,憑借“基于大模型的DRG結(jié)算清單智能生成方案”,團(tuán)隊(duì)在總決賽中榮獲一等獎(jiǎng)。
此次榮登智源FlagEval“百模”評測榜前列,不僅是對山海大模型技術(shù)實(shí)力的有力證明,更是對其在人工智能領(lǐng)域持續(xù)創(chuàng)新和深耕細(xì)作的肯定。未來,云知聲將繼續(xù)秉承創(chuàng)新理念,不斷突破技術(shù)瓶頸,為人工智能產(chǎn)業(yè)的發(fā)展貢獻(xiàn)更多力量,推動(dòng)AI技術(shù)創(chuàng)新與行業(yè)應(yīng)用的深度融合。
-
人工智能
+關(guān)注
關(guān)注
1807文章
49033瀏覽量
249735 -
云知聲
+關(guān)注
關(guān)注
0文章
234瀏覽量
8780 -
大模型
+關(guān)注
關(guān)注
2文章
3148瀏覽量
4086
原文標(biāo)題:智源FlagEval“百模”評測揭曉:云知聲山海大模型表現(xiàn)卓越,名列前茅
文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
云知聲與商湯科技達(dá)成戰(zhàn)略合作
云知聲榮登甲子光年2025中國AI產(chǎn)業(yè)逐浪者榜單
云知聲再度登頂MedBench榜單
云知聲深度參與三項(xiàng)大模型國家標(biāo)準(zhǔn)編寫
云知聲近期斬獲多項(xiàng)年度大獎(jiǎng)
云知聲與英內(nèi)物聯(lián)簽署戰(zhàn)略合作協(xié)議 探索基于云知聲山海大模型的多元智慧場景

云知聲榮登2024大模型企業(yè)TOP50榜單
云知聲山海大模型多項(xiàng)能力全球領(lǐng)跑

評論