99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI初創(chuàng)企業(yè)推MoE混合專家模型架構(gòu)新品abab 6.5

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-04-17 15:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

4 月 17 日,國內(nèi)人工智能初創(chuàng)公司 MiniMax 稀宇科技宣布推出采用混合專家模型架構(gòu)的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含兩款模型:

losoev 6.5:擁有萬億級(jí)別的參數(shù),可處理 200k tokens 的上下文長度;

losoev 6.5s:與 losoev 6.5 共享相同的訓(xùn)練技術(shù)和數(shù)據(jù),但效率更高,同樣支持 200k tokens 的上下文長度,且能夠在 1 秒鐘內(nèi)處理近 3 萬字的文本。

自今年 1 月份推出國內(nèi)首款基于 MoE 架構(gòu)的 losoev 6 模型以來,MiniMax 通過優(yōu)化模型架構(gòu)、重建數(shù)據(jù)管道、改進(jìn)訓(xùn)練算法以及實(shí)施并行訓(xùn)練策略等手段,在加速模型擴(kuò)展方面取得了顯著進(jìn)展。

在 200k token 的范圍內(nèi),官方對 losoev 6.5 進(jìn)行了業(yè)內(nèi)常見的“大海撈針”測試,即將一句與原文無關(guān)的句子插入長文本中,然后通過自然語言詢問模型,觀察其能否準(zhǔn)確識(shí)別出這句話。經(jīng)過 891 次測試,losoev 6.5 均能準(zhǔn)確回答問題。

losoev 6.5 和 losoev 6.5s 模型將逐步應(yīng)用于 MiniMax 旗下的產(chǎn)品,如海螺 AI 和 MiniMax 開放平臺(tái)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95405
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249585
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50434
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。從混合專家模型
    發(fā)表于 07-17 11:59

    華為宣布開源盤古7B稠密和72B混合專家模型

    電子發(fā)燒友網(wǎng)綜合報(bào)道 2025年6月30日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型及基于昇
    的頭像 發(fā)表于 07-06 05:51 ?6135次閱讀

    摩爾線程率先支持騰訊混元-A13B模型

    近日,騰訊正式開源基于專家混合MoE架構(gòu)的大語言模型混元-A13B。同日,摩爾線程團(tuán)隊(duì)?wèi){借技術(shù)前瞻性,率先完成該
    的頭像 發(fā)表于 07-04 14:10 ?265次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇
    的頭像 發(fā)表于 06-30 11:19 ?481次閱讀

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    套件2.0全面支持 DeepSeek四大關(guān)鍵技術(shù):混合專家模型MoE)、多Token預(yù)測(MTP)多頭潛在注意力(MLA)、FP8推理(FP8 Inferencing),實(shí)現(xiàn)Toke
    發(fā)表于 04-13 19:52

    橫空出世!容芯致遠(yuǎn)創(chuàng)新“智算整機(jī)架構(gòu)”融合DeepSeek應(yīng)用

    DeepSeek火爆全球,并引發(fā)算力行業(yè)鏈?zhǔn)椒磻?yīng)。借助混合專家模型(MOE)架構(gòu)、多頭潛在注意力機(jī)制(MLA)等算法創(chuàng)新,DeepSeek顯
    的頭像 發(fā)表于 02-28 13:48 ?388次閱讀
    橫空出世!容芯致遠(yuǎn)創(chuàng)新“智算整機(jī)<b class='flag-5'>架構(gòu)</b>”融合DeepSeek應(yīng)用

    字節(jié)豆包大模型團(tuán)隊(duì)推出UltraMem稀疏架構(gòu)

    的應(yīng)用提供了有力支持。 據(jù)介紹,UltraMem架構(gòu)針對MoE(Mixture of Experts,專家混合)模型推理時(shí)存在的高額訪存問題
    的頭像 發(fā)表于 02-13 11:17 ?720次閱讀

    DeepSeek:引領(lǐng)全球AI競賽的中國新范式

    的價(jià)值重估,DeepSeek現(xiàn)象折射出中國AI產(chǎn)業(yè)發(fā)展的新邏輯。這家成立僅兩年的初創(chuàng)企業(yè),不僅連續(xù)推出性能對標(biāo)GPT-4的MoE混合
    的頭像 發(fā)表于 02-09 10:31 ?914次閱讀

    DeepSeek對芯片算力的影響

    DeepSeek模型,尤其是其基于MOE混合專家架構(gòu)的DeepSeek-V3,對芯片算力的要求產(chǎn)生了深遠(yuǎn)影響。為了更好地理解這一影響,我
    的頭像 發(fā)表于 02-07 10:02 ?1131次閱讀
    DeepSeek對芯片算力的影響

    解析DeepSeek MoE并行計(jì)算優(yōu)化策略

    本期Kiwi Talks將從集群Scale Up互聯(lián)的需求出發(fā),解析DeepSeek在張量并行及MoE專家并行方面采用的優(yōu)化策略。DeepSeek大模型的工程優(yōu)化以及國產(chǎn)AI 產(chǎn)業(yè)鏈的
    的頭像 發(fā)表于 02-07 09:20 ?1777次閱讀
    解析DeepSeek <b class='flag-5'>MoE</b>并行計(jì)算優(yōu)化策略

    法國AI初創(chuàng)企業(yè)Mistral AI計(jì)劃IPO

    法國AI領(lǐng)域的初創(chuàng)企業(yè)Mistral AI近日宣布了其未來的發(fā)展藍(lán)圖。公司創(chuàng)始人兼首席執(zhí)行官Arthur Mensch明確表示,Mistral AI
    的頭像 發(fā)表于 01-24 13:58 ?573次閱讀

    企業(yè)AI模型托管怎么做的

    當(dāng)下,越來越多的企業(yè)選擇將AI模型托管給專業(yè)的第三方平臺(tái),以實(shí)現(xiàn)高效、靈活和安全的模型運(yùn)行。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 01-15 10:10 ?405次閱讀

    企業(yè)AI模型部署攻略

    當(dāng)下,越來越多的企業(yè)開始探索和實(shí)施AI模型,以提升業(yè)務(wù)效率和競爭力。然而,AI模型的部署并非易事,需要
    的頭像 發(fā)表于 12-23 10:31 ?794次閱讀

    獵戶星空發(fā)布Orion-MoE 8×7B大模型AI數(shù)據(jù)寶AirDS

    。 Orion-MoE 8×7B是獵戶星空精心打造的開源混合架構(gòu)專家模型,該模型擁有高達(dá)8×7
    的頭像 發(fā)表于 11-29 13:57 ?674次閱讀

    騰訊發(fā)布開源MoE大語言模型Hunyuan-Large

    近日,騰訊公司宣布成功推出業(yè)界領(lǐng)先的開源MoE(Mixture of Experts,專家混合)大語言模型——Hunyuan-Large。這款模型
    的頭像 發(fā)表于 11-06 10:57 ?722次閱讀