99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于xLSTM和Transformer的模型評(píng)估:xLSTM在“語(yǔ)言能力”的表現(xiàn)

微云疏影 ? 來(lái)源:綜合整理 ? 作者:綜合整理 ? 2024-05-13 10:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

據(jù)了解,1997年,兩位科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于改善循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的長(zhǎng)期記憶功能。

近期,Hochreiter在arXiv平臺(tái)發(fā)表論文,推出了一款新型的XLSTM(擴(kuò)展LSTM)架構(gòu),有效克服了傳統(tǒng)LSTM互聯(lián)網(wǎng)結(jié)構(gòu)“僅能按時(shí)間順序處理信息”的局限性,有望挑戰(zhàn)當(dāng)前熱門的Transformer架構(gòu)。

該論文指出,Hochreiter在新的XLSTM架構(gòu)中運(yùn)用了指數(shù)型門控循環(huán)網(wǎng)絡(luò),并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則,使神經(jīng)網(wǎng)絡(luò)能夠更高效地利用RAM,實(shí)現(xiàn)類似于Transformer的并行化處理。

研究團(tuán)隊(duì)通過(guò)對(duì)基于XLSTM和Transformer架構(gòu)的兩款模型進(jìn)行150億個(gè)Token的訓(xùn)練和測(cè)試,結(jié)果顯示,XLSTM表現(xiàn)更為出色,特別是在“語(yǔ)言能力”方面表現(xiàn)尤為突出。因此,研究人員預(yù)測(cè),未來(lái)XLSTM有可能與Transformer展開(kāi)競(jìng)爭(zhēng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103640
  • RAM
    RAM
    +關(guān)注

    關(guān)注

    8

    文章

    1392

    瀏覽量

    117552
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    528

    瀏覽量

    25988
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?4117次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4051次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    語(yǔ)言模型管理的作用

    要充分發(fā)揮語(yǔ)言模型的潛力,有效的語(yǔ)言模型管理非常重要。以下,是對(duì)語(yǔ)言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?388次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】+開(kāi)啟智能時(shí)代的新鑰匙

    閱讀之旅。翻開(kāi)這本書(shū)之前,我對(duì)大模型的認(rèn)知僅僅停留在它是一種強(qiáng)大的人工智能技術(shù),可以進(jìn)行自然語(yǔ)言處理、圖像識(shí)別等任務(wù)。我知道像 ChatGPT 這樣的應(yīng)用是基于大模型開(kāi)發(fā)的,能夠與人
    發(fā)表于 12-24 13:10

    AI大語(yǔ)言模型開(kāi)發(fā)步驟

    開(kāi)發(fā)一個(gè)高效、準(zhǔn)確的大語(yǔ)言模型是一個(gè)復(fù)雜且多階段的過(guò)程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計(jì)、訓(xùn)練與優(yōu)化、評(píng)估與調(diào)試等多個(gè)環(huán)節(jié)。接下來(lái),AI部落小編為大家詳細(xì)闡述AI大
    的頭像 發(fā)表于 12-19 11:29 ?899次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    內(nèi)為企業(yè)帶來(lái)效益。選擇模型時(shí),需要評(píng)估其性能表現(xiàn)。這包括模型的準(zhǔn)確性、響應(yīng)速度、對(duì)話流暢性、情感理解
    發(fā)表于 12-17 16:53

    語(yǔ)言模型開(kāi)發(fā)語(yǔ)言是什么

    人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)背后,離不開(kāi)高效的開(kāi)發(fā)語(yǔ)言和工具的支持。下面,AI部落小編為您介紹大
    的頭像 發(fā)表于 12-04 11:44 ?702次閱讀

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?1569次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1018次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>能夠做什么

    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

    視覺(jué)語(yǔ)言模型(VLM)通過(guò)將文本和圖像投射到同一個(gè)嵌入空間,將基礎(chǔ)大語(yǔ)言模型(LLM)強(qiáng)大的語(yǔ)言理解能力
    的頭像 發(fā)表于 11-19 15:37 ?915次閱讀
    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)<b class='flag-5'>能力</b>

    什么是LLM?LLM自然語(yǔ)言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語(yǔ)言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得
    的頭像 發(fā)表于 11-19 15:32 ?3661次閱讀

    Llama 3 模型與其他AI工具對(duì)比

    Llama 3模型與其他AI工具的對(duì)比可以從多個(gè)維度進(jìn)行,包括但不限于技術(shù)架構(gòu)、性能表現(xiàn)、應(yīng)用場(chǎng)景、定制化能力、開(kāi)源與成本等方面。以下是對(duì)Llama 3模型與其他一些主流AI工具的對(duì)比
    的頭像 發(fā)表于 10-27 14:37 ?1071次閱讀

    如何評(píng)估AI大模型的效果

    、SuperGLUE、SQuAD等。這些數(shù)據(jù)集提供了不同任務(wù)上的基準(zhǔn)評(píng)估,使得不同模型同一任務(wù)上的性能可以進(jìn)行直接比較。 二、多樣性和覆蓋性測(cè)試 測(cè)試模型
    的頭像 發(fā)表于 10-23 15:21 ?3114次閱讀

    IBM Granite系列模型被Forrester評(píng)為“強(qiáng)勁表現(xiàn)者”

    近日,IBM 憑借其旗艦 Granite 系列模型, 2024年第二季度的《Forrester Wave:語(yǔ)言 AI 基礎(chǔ)模型》報(bào)告中,被評(píng)為“強(qiáng)勁
    的頭像 發(fā)表于 08-16 11:34 ?801次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本中缺失的部分或下一個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大
    發(fā)表于 08-02 11:03