99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

中文大模型基準測評2023年度報告

悟空智能科技 ? 來源:悟空智能科技 ? 2024-01-02 16:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自2023年以來,AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)學術和產(chǎn)業(yè)界在過去一年也有了實質(zhì)性的突破。中文大模型測評基準SuperCLUE在過去一年對國內(nèi)外大模型的發(fā)展趨勢和綜合效果進行了實時跟蹤。

基于此,SuperCLUE團隊發(fā)布了《中文大模型基準測評2023年度報告》,在AI大模型發(fā)展的巨大浪潮中,通過多維度綜合性測評,對國內(nèi)外大模型發(fā)展現(xiàn)狀進行觀察與思考。

國內(nèi)大模型關鍵進展012023年大模型關鍵進展與中文大模型全景圖

國內(nèi)學術和產(chǎn)業(yè)界在過去一年也有了實質(zhì)性的突破。大致可以分為三個階段,即準備期(ChatGPT發(fā)布后國內(nèi)產(chǎn)學研迅速形成大模型共識)、成長期(國內(nèi)大模型數(shù)量和質(zhì)量開始逐漸增長)、爆發(fā)期(各行各業(yè)開源閉源大模型層出不窮,形成百模大戰(zhàn)的競爭態(tài)勢)。

2bcb1556-a945-11ee-8b88-92fbcf53809c.png

截止目前為止,國內(nèi)已發(fā)布開源、閉源通用大模型及行業(yè)大模型已有上百個,SuperCLUE梳理了2023年值得關注的大模型全景圖。

2bd0161e-a945-11ee-8b88-92fbcf53809c.png

022023年國內(nèi)外大模型發(fā)展趨勢

過去半年,國內(nèi)領軍大模型企業(yè)實現(xiàn)了大模型代際追趕的奇跡,從7月份與GPT3.5的20分差距,每個月都有穩(wěn)定且巨大的提升,到11月份測評時已經(jīng)完成總分上對GPT3.5的超越。

2be24eec-a945-11ee-8b88-92fbcf53809c.png

數(shù)據(jù)來源于SuperCLUE基準得分(7月-12月)

我們可以看到GPT3.5和GPT4在中文上的表現(xiàn)情況基本一致,在11月份測評結果中顯示,在中文能力都有一定的下滑,而國內(nèi)頭部模型則展現(xiàn)了繼續(xù)穩(wěn)健提升的能力。在12月份的測評結果中可以看到,國內(nèi)第一梯隊模型與GPT4的差距在縮小。但仍有較大的距離需要追趕。

2bea426e-a945-11ee-8b88-92fbcf53809c.png

數(shù)據(jù)來源于SuperCLUE基準得分(7月-12月) 說明:趨勢展示,選取了7月-12月SuperCLUE-OPEN測評分數(shù)。國內(nèi)代表性模型,選取了文心一言、通義千問、ChatGLM。原因是綜合考慮了過去半年SuperCLUE測評結果、長期穩(wěn)定迭代及對國內(nèi)大模型生態(tài)的貢獻;GPT4成績,由GPT4-API(7-9月)與GPT4-Turbo(10-12月)組成,用以表現(xiàn)國外最好模型發(fā)展。 2bc3726a-a945-11ee-8b88-92fbcf53809c.png ?大模型綜合測評結果?01測評模型列表

本次測評數(shù)據(jù)選取了SuperCLUE-12月測評結果,模型選取了國內(nèi)外有代表性的26個大模型在12月份的版本。

2bfac17a-a945-11ee-8b88-92fbcf53809c.png

2bffc5ee-a945-11ee-8b88-92fbcf53809c.png

02SuperCLUE模型象限

SuperCLUE評測任務可劃分為基礎能力和應用能力兩個維度。

基礎能力,包含:專業(yè)與技能、語言與知識(不包括角色扮演)、傳統(tǒng)安全;

應用能力,包括:工具使用、角色扮演。

基于此,SuperCLUE構建了大模型四個象限,它們代表大模型所處的不同階段與定位,其中【潛力探索者】代表模型正在技術探索階段擁有較大潛力;【技術領跑者】代表模型聚焦基礎技術研究;【實用主義者】代表模型在場景應用上處于領先定位;【卓越領導者】代表模型在基礎和場景應用上處于領先位置,引領國內(nèi)大模型發(fā)展。

2c046b8a-a945-11ee-8b88-92fbcf53809c.png

03國內(nèi)外大模型總體表現(xiàn)

2c1656ec-a945-11ee-8b88-92fbcf53809c.png

來源:SuperCLUE, 2023年12月28日

國內(nèi)外差距依然明顯。GPT4-Turbo總分90.63分遙遙領先,高于其他國內(nèi)大模型及國外大模型。其中國內(nèi)最好模型文心一言4.0(API)總分79.02分,距離GPT4-Turbo有11.61分,距離GPT4(網(wǎng)頁)有4.9分的差距。

必須看到的是,過去1年國內(nèi)大模型已經(jīng)有了長足的進步。綜合能力超過GPT3.5和Gemini-Pro的模型有11個,比如百度的文心一言4.0、阿里云的通義千問2.0和Qwen-72B-Chat、OPPO的AndesGPT、清華&智譜AI的智譜清言、字節(jié)跳動的云雀大模型等都有比較好的表現(xiàn)。

另外國內(nèi)開源模型在中文上表現(xiàn)要好于國外開源模型,如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Chat均優(yōu)于Llama2-13B-Chat。

國外模型平均成績 VS 國內(nèi)模型平均成績

2c229ca4-a945-11ee-8b88-92fbcf53809c.png

在SuperCLUE測評中,國外模型的平均成績?yōu)?9.42分,國內(nèi)模型平均成績?yōu)?5.95分,差距在4分左右??梢钥闯?,國內(nèi)外的平均水平差距在縮小,11月差距在10分左右。04國內(nèi)大模型競爭格局

通過SuperCLUE測評結果發(fā)現(xiàn),國內(nèi)大模型的第一梯隊有了更多新的模型加入。頭部模型如文心一言4.0、通義千問2.0引領國內(nèi)大模型的研發(fā)進度,部分高質(zhì)量大模型緊追不舍,分別在閉源應用和開源生態(tài)中形成自己獨特的優(yōu)勢。

2c26606e-a945-11ee-8b88-92fbcf53809c.png

來源:SuperCLUE, 2023年12月28日

從國內(nèi)TOP19大模型的數(shù)量來看,創(chuàng)業(yè)公司有9個,大廠有10個,占比幾乎持平。

2c32d3c6-a945-11ee-8b88-92fbcf53809c.png

從大廠和創(chuàng)業(yè)公司的平均成績來看,大廠研發(fā)的大模型平均成績?yōu)?9.42分,創(chuàng)業(yè)公司研發(fā)的大模型平均成績?yōu)?2.09分,差值約6.33分,較11月份差距在略有增大。這說明大廠在大模型競爭中長期資源投入方面有一定優(yōu)勢。

2c3c00c2-a945-11ee-8b88-92fbcf53809c.png

05國內(nèi)大模型歷月前三甲

過去八個月國內(nèi)模型在SuperCLUE基準上的前三名。

2c488752-a945-11ee-8b88-92fbcf53809c.png

來源:SuperCLUE

曾經(jīng)取得過SuperCLUE月榜首位的大模型有6個。分別是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智腦。其中,百度的文心一言登頂SuperCLUE月榜的次數(shù)最多,分別在7月、11月、12月取得了SuperCLUE最好成績。

我們可以看到,在國內(nèi)大模型技術發(fā)展初期階段,各家大模型公司都投入了巨大的人力、算力和數(shù)據(jù)資源,以至于每個月測評結果的前三甲都不同程度的變化,經(jīng)常會因為新發(fā)布的高質(zhì)量模型引起榜單的變化。預計未來一年同樣會發(fā)生類似的情況。也非常期待有高質(zhì)量模型能夠持續(xù)保持非常高的水準。

06大模型對戰(zhàn)勝率分布圖

從勝率來看,全球領跑者GPT4-Turbo勝率為41.77%,和率為52.46%,大幅領先于其他模型,而敗率僅為5.77%,足以說明GPT4-Turbo對GPT3.5在各項能力上的全面壓倒性優(yōu)勢。而國內(nèi)模型中,百度的文心一言4.0勝率國內(nèi)最高,接近30%。勝率超過25%的模型有智譜清言、通義千問2.0和AndesGPT。

2c4cba34-a945-11ee-8b88-92fbcf53809c.png

來源:SuperCLUE, 2023年12月28日

在200億參數(shù)量級的開源模型中Baichuan2-13B-Chat的勝率排在首位,展現(xiàn)出不俗的對戰(zhàn)能力。排在2至3位的是XVERSE-13B-2-Chat、Qwen-14B-Chat,同樣表現(xiàn)可圈可點。

從勝率分布數(shù)據(jù)可以發(fā)現(xiàn),所有模型的和率都在50%以上。這說明國內(nèi)外大部分模型在基礎題目上與GPT3.5的水平相近,隨著任務難度的提升,不同模型的表現(xiàn)才會有區(qū)分度。后續(xù)的測評數(shù)據(jù)會在題目難度的區(qū)分性和評價顆粒度上加強提升。

07主觀與客觀對比

通過對比模型在主觀簡答題OPEN和客觀選擇題OPT上的不同表現(xiàn),可以發(fā)現(xiàn),國內(nèi)大模型多數(shù)擅長做選擇題。普遍選擇題的分數(shù)會高于簡答題的分數(shù)。

2c6be94a-a945-11ee-8b88-92fbcf53809c.png

注:計算分值為模型的OPEN分與OPT分值的差值,用以觀察模型在主觀題和客觀題上的不同表現(xiàn)。數(shù)據(jù)來源:SuperCLUE, 2023年12月28日

其中,文心一言4.0和智譜清言表現(xiàn)相對穩(wěn)定,分別為(-13.38)和(-14.01)。GPT-4 Turbo的表現(xiàn)最為穩(wěn)定,差值僅有0.86。

SuperCLUE認為,客觀題相對主觀題更容易通過題庫形式進行訓練和提升;同時也由于客觀題中包含中文特性問題,中文模型自然有一定的優(yōu)勢,所以應該綜合來看模型的評測效果。

值得關注的是,在本次測評中,國外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的穩(wěn)定性表現(xiàn),值得國內(nèi)大模型進一步分析研究。

08開源競爭格局

總體上國內(nèi)開源模型表現(xiàn)較好,成績最好的開源模型在中文的某些場景或任務上接近GPT4,其中Qwen-72B-Chat和Yi-34B-Chat總分上已經(jīng)超過GPT3.5,Baichuan2-13B-Chat也有接近GPT3.5的表現(xiàn)。

2c886a7a-a945-11ee-8b88-92fbcf53809c.png

來源:SuperCLUE, 2023年12月28日

總體上大版本(如34B)的模型優(yōu)于中小版本(13B、6B)的開源模型,更大的版本(如72B)的模型表現(xiàn)要更好。開源模型的發(fā)展也從最開始的6B,到13B,到現(xiàn)在更大的34B、72B的開源模型。

雖然也有少量大廠(阿里云)參與,但眾多的創(chuàng)業(yè)公司是開源模型的主力,如智譜AI、百川智能、零一萬物和元象科技。

具體內(nèi)容如下

2c8cc156-a945-11ee-8b88-92fbcf53809c.png

2c908642-a945-11ee-8b88-92fbcf53809c.png

2ca09500-a945-11ee-8b88-92fbcf53809c.png

2cbcb474-a945-11ee-8b88-92fbcf53809c.png

2cc5b678-a945-11ee-8b88-92fbcf53809c.png

2cc9fa58-a945-11ee-8b88-92fbcf53809c.png

2ce4a3da-a945-11ee-8b88-92fbcf53809c.png

2cf7e5d0-a945-11ee-8b88-92fbcf53809c.png

2cfbe2e8-a945-11ee-8b88-92fbcf53809c.png

2d0197ce-a945-11ee-8b88-92fbcf53809c.png

2d164fb6-a945-11ee-8b88-92fbcf53809c.png

2d348e22-a945-11ee-8b88-92fbcf53809c.png

2d53af46-a945-11ee-8b88-92fbcf53809c.png

2d598ea2-a945-11ee-8b88-92fbcf53809c.png

2d78a4fe-a945-11ee-8b88-92fbcf53809c.png

2d87dcf8-a945-11ee-8b88-92fbcf53809c.png

2d8c8032-a945-11ee-8b88-92fbcf53809c.png

2d916a16-a945-11ee-8b88-92fbcf53809c.png

2d99670c-a945-11ee-8b88-92fbcf53809c.png

2da1f778-a945-11ee-8b88-92fbcf53809c.png

2dba4cb0-a945-11ee-8b88-92fbcf53809c.png

2dbfc046-a945-11ee-8b88-92fbcf53809c.png

2de52192-a945-11ee-8b88-92fbcf53809c.png

2df888e0-a945-11ee-8b88-92fbcf53809c.png

2e0977ae-a945-11ee-8b88-92fbcf53809c.png

2e0eaba2-a945-11ee-8b88-92fbcf53809c.png

2e3b9630-a945-11ee-8b88-92fbcf53809c.png

2e549fa4-a945-11ee-8b88-92fbcf53809c.png

2e6e71d6-a945-11ee-8b88-92fbcf53809c.png

2e73965c-a945-11ee-8b88-92fbcf53809c.png

2e95d6fe-a945-11ee-8b88-92fbcf53809c.png

2ea84c76-a945-11ee-8b88-92fbcf53809c.png

2ead96fe-a945-11ee-8b88-92fbcf53809c.png

2eb3405e-a945-11ee-8b88-92fbcf53809c.png

2ecd27da-a945-11ee-8b88-92fbcf53809c.png

2ed62984-a945-11ee-8b88-92fbcf53809c.png

2f09528c-a945-11ee-8b88-92fbcf53809c.png

2f1746a8-a945-11ee-8b88-92fbcf53809c.png

2f455d54-a945-11ee-8b88-92fbcf53809c.png

2f651824-a945-11ee-8b88-92fbcf53809c.png

2f69fb28-a945-11ee-8b88-92fbcf53809c.png

2f6f891c-a945-11ee-8b88-92fbcf53809c.png

2f8cd30a-a945-11ee-8b88-92fbcf53809c.png

2f9726fc-a945-11ee-8b88-92fbcf53809c.png

2fa5dd8c-a945-11ee-8b88-92fbcf53809c.png

2faae48a-a945-11ee-8b88-92fbcf53809c.png

2fc59c58-a945-11ee-8b88-92fbcf53809c.png

2fdaa8b4-a945-11ee-8b88-92fbcf53809c.png

2fdf3bae-a945-11ee-8b88-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    35113

    瀏覽量

    279658
  • ChatGPT
    +關注

    關注

    29

    文章

    1589

    瀏覽量

    9097
  • 大模型
    +關注

    關注

    2

    文章

    3139

    瀏覽量

    4064

原文標題:中文大模型基準測評2023年度報告

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    中興通訊星云大模型登頂SuperCLUE推理專項榜單

    近日,中文模型權威測評基準SuperCLUE發(fā)布《中文模型
    的頭像 發(fā)表于 06-04 16:44 ?675次閱讀

    上汽集團發(fā)布2025第一季度報告

    上海汽車集團股份有限公司(證券代碼600104,以下簡稱上汽)發(fā)布2024年年度報告和2025第一季度報告。
    的頭像 發(fā)表于 05-06 15:00 ?489次閱讀

    汽車零部件系統(tǒng)集成供應商華域汽車發(fā)布2024年年度報告及2025第一季度報告

    20254月29日,華域汽車系統(tǒng)股份有限公司發(fā)布2024年年度報告及2025第一季度報告。 2024 ,汽車市場競爭依然激烈,公司積極
    的頭像 發(fā)表于 04-29 11:40 ?812次閱讀

    軟通動力發(fā)布2024年年度報告

    近日,軟通動力信息技術(集團)股份有限公司(301236.SZ)發(fā)布2024年年度報告。2024,外部環(huán)境復雜多變,信創(chuàng)與人工智能帶來巨大市場機遇。軟通動力圍繞智能化、自主化、綠色化和國際化等新興趨勢,明確“四化”發(fā)展戰(zhàn)略,完成戰(zhàn)略并購,拓展具身智能機器人新賽道,業(yè)務賽
    的頭像 發(fā)表于 04-28 09:54 ?333次閱讀

    一圖讀懂德明利2024年度報告

    一圖讀懂德明利2024年度報告
    的頭像 發(fā)表于 04-25 22:42 ?211次閱讀
    一圖讀懂德明利2024<b class='flag-5'>年度報告</b>

    理想L6榮獲中汽測評2024年度大滿貫車型獎

    向大家分享理想L6的好消息:今天,在中國汽車技術研究中心有限公司汽車測評管理中心(中汽測評)主辦的2025汽車測評創(chuàng)新大會上,理想L6榮獲大會首次特別頒發(fā)的最高榮譽——2024年度大滿
    的頭像 發(fā)表于 03-31 15:53 ?435次閱讀

    中興通訊發(fā)布2024年度報告

    報告期內(nèi),公司實現(xiàn)營收1,213.0億元;歸母凈利潤84.2億元;扣非歸母凈利潤61.8億元;基本每股收益1.76元;經(jīng)營性現(xiàn)金流凈額114.8億元。2024年度擬派發(fā)現(xiàn)金分紅總額占歸母凈利潤比例35%。
    的頭像 發(fā)表于 03-01 09:22 ?685次閱讀

    羅克韋爾自動化發(fā)布《可持續(xù)發(fā)展 2024 年度報告

    簡稱"報告")。這份報告重點展示了公司在推動可持續(xù)發(fā)展方面的戰(zhàn)略布局、具體成果和未來規(guī)劃,以及羅克韋爾如何幫助客戶、企業(yè)自身和社區(qū)邁向更加可持續(xù)的未來。? 羅克韋爾自動化發(fā)布《可持續(xù)發(fā)展2024年度報告》 "環(huán)境、社會和治理 (
    的頭像 發(fā)表于 02-13 16:46 ?346次閱讀

    小米開源2024年度報告發(fā)布

    近日,小米公司正式發(fā)布了其《小米開源2024年度報告》,該報告詳細闡述了小米在開源領域所取得的顯著進展。在2024這一關鍵年份里,小米在開源技術方面邁出了堅實的步伐,推出了兩項具有里程碑意義的開源大事件。
    的頭像 發(fā)表于 01-24 13:50 ?847次閱讀

    曬獎品——2024年度優(yōu)秀版主

    感謝電子發(fā)燒友論壇,給予我2024年度優(yōu)秀版主的光榮稱號。今天收到了獎杯,分享如下: 在2025里,我獎繼續(xù)努力為論壇做貢獻。 祝咱電子發(fā)燒友論壇2025人氣多多,紅紅火火!
    發(fā)表于 01-19 11:20

    商湯“日日新”融合大模型榮獲雙料冠軍

    技術領域取得了重大進展。 值得一提的是,“日日新”融合大模型在兩大權威評測榜單上均表現(xiàn)優(yōu)異,一舉奪得雙料冠軍。在國內(nèi)權威大模型測評機構SuperCLUE最新發(fā)布的《中文
    的頭像 發(fā)表于 01-13 16:10 ?573次閱讀

    2023年度《中國公路貨運運行大數(shù)據(jù)分析報告》發(fā)布

    伴隨新一輪科技革命和產(chǎn)業(yè)變革加速演進,公路貨運行業(yè)也正處于產(chǎn)業(yè)升級、結構調(diào)整、轉(zhuǎn)型重構的總體發(fā)展階段。在此趨勢下,中交興路聯(lián)合長安大學等院校和機構,對公路貨運行業(yè)的運行態(tài)勢和變化特點持續(xù)關注和分析,迄今已連續(xù)六編制《中國公路貨運運行大數(shù)據(jù)分析報告》。在多方共同合作之下,
    的頭像 發(fā)表于 12-29 16:31 ?954次閱讀
    <b class='flag-5'>2023</b><b class='flag-5'>年度</b>《中國公路貨運運行大數(shù)據(jù)分析<b class='flag-5'>報告</b>》發(fā)布

    商湯日日新·商量大模型位列國內(nèi)大模型第一梯隊

    剛剛,中文模型測評基準SuperCLUE發(fā)布《中文模型
    的頭像 發(fā)表于 11-08 15:38 ?1008次閱讀

    中興通訊發(fā)布2023可持續(xù)發(fā)展報告

    近日,中興通訊發(fā)布2023年度可持續(xù)發(fā)展報告,報告全面展現(xiàn)了2023中興通訊秉承“數(shù)字經(jīng)濟筑路
    的頭像 發(fā)表于 09-14 14:33 ?1859次閱讀

    云知聲山海大模型位居全球大模型第一梯隊

    SuperCLUE發(fā)布《中文模型基準測評2024上半年報告》,報告選取國內(nèi)外有代表性的33個大
    的頭像 發(fā)表于 09-12 14:41 ?933次閱讀