99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

cosFormer:重新思考注意力機(jī)制中的Softmax

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué) ? 作者:多模態(tài)研究組 - 商 ? 2022-03-30 16:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀:Transformer在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)音頻處理方面取得了巨大成功。作為其核心組成部分之一,Softmax Attention模塊能夠捕捉長(zhǎng)距離的依賴關(guān)系,但由于Softmax算子關(guān)于序列長(zhǎng)度的二次空間和時(shí)間復(fù)雜性,使其很難擴(kuò)展。

針對(duì)這點(diǎn),研究者提出利用核方法以及稀疏注意力機(jī)制的方法來(lái)近似Softmax算子,從而降低時(shí)間空間復(fù)雜度。但是,由于誤差的存在,效果往往不盡如人意。

商湯多模態(tài)研究組認(rèn)為,近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點(diǎn)是,與其近似Softmax,不如設(shè)計(jì)一種方式代替Softmax,并且同時(shí)降低時(shí)間空間復(fù)雜度。

因此,本文提出了名為cosFormer的方法,在時(shí)間空間復(fù)雜度關(guān)于序列長(zhǎng)度為線性復(fù)雜度的同時(shí),其性能接近或者超越Softmax Attention,并在LRA benchmark上取得SOTA結(jié)果。我們的設(shè)計(jì)核心理念基于兩點(diǎn),首先是注意力矩陣的非負(fù)性,其次是對(duì)局部注意力的放大(非極大值抑制)。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

06f3c082-afe8-11ec-aa7f-dac502259ad0.jpg

070b788a-afe8-11ec-aa7f-dac502259ad0.png

Part 1

背景

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. Softmax Attention

為了引出我們的方法,對(duì)Softmax Attention的計(jì)算方式進(jìn)行一定的推廣:

073c17f6-afe8-11ec-aa7f-dac502259ad0.png

其中表示相似度計(jì)算函數(shù),如果,上式即變?yōu)镾oftmax Attention(不考慮除以的縮放操作)。注意到計(jì)算的時(shí)間復(fù)雜度為,的時(shí)間復(fù)雜度為,所以總時(shí)間復(fù)雜度為,即關(guān)于序列長(zhǎng)度是二次的。

2. 線性 Attention

通過(guò)分析我們發(fā)現(xiàn),性能瓶頸的主要原因是操作,如果相似度函數(shù)可以表示為:

0750d6dc-afe8-11ec-aa7f-dac502259ad0.png

那么:

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

根據(jù)矩陣運(yùn)算的結(jié)合律:

077434e2-afe8-11ec-aa7f-dac502259ad0.png

上式可以變換為(編者修正:下方公式未變換,請(qǐng)參照論文):

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

經(jīng)過(guò)計(jì)算后可以得到該方法的時(shí)間復(fù)雜度為,即關(guān)于序列長(zhǎng)度是一次的。

Softmax Attention和線性Attention的計(jì)算方式可以用下圖概括:

07a1f260-afe8-11ec-aa7f-dac502259ad0.png

所以接下來(lái)將介紹的選擇,以及核心的reweighting操作。

3. Softmax 的兩大性質(zhì)

我們經(jīng)過(guò)分析以及實(shí)驗(yàn),歸納出Softmax Attention中比較重要的性質(zhì),這兩個(gè)性質(zhì)可以指導(dǎo)我們的模型設(shè)計(jì):

1. 注意力矩陣的非負(fù)性

2. 局部注意力的放大(非極大值抑制)

對(duì)于第一點(diǎn),我們有如下實(shí)驗(yàn)進(jìn)行驗(yàn)證(模型結(jié)構(gòu)為RoBERTa):

07bdb856-afe8-11ec-aa7f-dac502259ad0.png

這里L(fēng)oss表示驗(yàn)證集損失(越低越好),其余指標(biāo)均為準(zhǔn)確率(越高越好)??梢钥吹?,當(dāng)保證了注意力矩陣的非負(fù)性之后,可以達(dá)到較好的效果?;谠搶?shí)驗(yàn),我們選擇為ReLU函數(shù)。

對(duì)于第二點(diǎn),我們的方式是在注意力矩陣中引入先驗(yàn)locality信息,觀察Softmax注意力矩陣,如下圖所示,我們發(fā)現(xiàn)其注意力矩陣的權(quán)重在對(duì)角線附近很集中:

07ce07ce-afe8-11ec-aa7f-dac502259ad0.png

所以我們的方法需要在加了reweighting操作后也更加集中在對(duì)角線附近。注意并非所有的有類似權(quán)重的函數(shù)均適用,這個(gè)reweighting的函數(shù)需要跟前面的QK一樣可以拆分成兩個(gè)矩陣的乘法的形式。

至此,就可以引入我們的cosFormer了。

Part 2

cosFormer

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. 方法

我們的方法基于線性Attention,首先給出符號(hào)定義:

08068432-afe8-11ec-aa7f-dac502259ad0.png

根據(jù)之前的分析,我們選擇了:

081836fa-afe8-11ec-aa7f-dac502259ad0.png

可得:

08299756-afe8-11ec-aa7f-dac502259ad0.png

為了進(jìn)行reweighting操作,并且同時(shí)保證線性Attention的計(jì)算方式依然成立,我們選擇了cos函數(shù):

0846632c-afe8-11ec-aa7f-dac502259ad0.png

展開(kāi)可得:

085b3eaa-afe8-11ec-aa7f-dac502259ad0.png

為了便于展示,我們把它記作:

0872566c-afe8-11ec-aa7f-dac502259ad0.png

最終得到:

088c78ee-afe8-11ec-aa7f-dac502259ad0.png

上式和線性Attention的計(jì)算方式一致,經(jīng)過(guò)分析不難得出時(shí)間復(fù)雜度依然是。

2. 實(shí)驗(yàn)結(jié)果

我們?cè)趩蜗蚰P?、雙向模型以及LRA benchmark上測(cè)試了我們的方法,均取得了非常不錯(cuò)的效果。

單向語(yǔ)言模型,指標(biāo)表示困惑度(越低越好):

08a330ac-afe8-11ec-aa7f-dac502259ad0.png

雙向語(yǔ)言模型,指標(biāo)表示準(zhǔn)確率(越高越好):

08be1890-afe8-11ec-aa7f-dac502259ad0.png

LRA benchmark:

1)性能實(shí)驗(yàn),指標(biāo)表示準(zhǔn)確率(越高越好):

08d4c996-afe8-11ec-aa7f-dac502259ad0.png

2)內(nèi)存速度實(shí)驗(yàn),指標(biāo)表示速度(越高越好,如果內(nèi)存溢出,則標(biāo)記為叉):

08f4b97c-afe8-11ec-aa7f-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4381

    瀏覽量

    64947
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    9

    文章

    1709

    瀏覽量

    46789
  • Softmax
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    2703

原文標(biāo)題:ICLR'22 | cosFormer:重新思考注意力機(jī)制中的Softmax

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    經(jīng)顱電刺激適應(yīng)癥之tDCS治療注意力缺陷ADHD

    ADHD是常見(jiàn)神經(jīng)行為障礙,癥狀包括注意力不集中、多動(dòng)和沖動(dòng),兒童和青少年患病率為5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分癥狀會(huì)持續(xù),引發(fā)多種并發(fā)癥,給個(gè)人、家庭和社會(huì)帶來(lái)
    的頭像 發(fā)表于 04-22 19:49 ?143次閱讀
    經(jīng)顱電刺激適應(yīng)癥之tDCS治療<b class='flag-5'>注意力</b>缺陷ADHD

    變頻器重新設(shè)置參數(shù)應(yīng)注意什么?

    進(jìn)行重新設(shè)置參數(shù)時(shí),我們必須格外謹(jǐn)慎,以確保設(shè)備能夠高效、穩(wěn)定地運(yùn)行。以下,我們將詳細(xì)探討變頻器重新設(shè)置參數(shù)時(shí)應(yīng)注意的關(guān)鍵點(diǎn)。 一、了解變頻器與參數(shù)基礎(chǔ) 1. 熟悉變頻器型號(hào)與功能: ? ?● 不同型號(hào)的變頻器具有不同
    的頭像 發(fā)表于 03-17 16:00 ?500次閱讀
    變頻器<b class='flag-5'>重新</b>設(shè)置參數(shù)應(yīng)<b class='flag-5'>注意</b>什么?

    DeepSeek推出NSA機(jī)制,加速長(zhǎng)上下文訓(xùn)練與推理

    近日,DeepSeek公司宣布推出一種全新的稀疏注意力機(jī)制——NSA(Native Sparse Attention)。據(jù)DeepSeek介紹,NSA旨在與現(xiàn)代硬件實(shí)現(xiàn)高度一致,并且具備本機(jī)可訓(xùn)練
    的頭像 發(fā)表于 02-19 14:01 ?642次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)的序列到序列任務(wù),如機(jī)器翻譯。Transformer 通過(guò)引入自注意力機(jī)制使得處理長(zhǎng)距離依賴關(guān)系時(shí)變得高效。因此 Vaswani 等人的論文強(qiáng)調(diào)“
    的頭像 發(fā)表于 02-06 10:21 ?4082次閱讀
    如何使用MATLAB構(gòu)建Transformer模型

    ADS1299S是否推薦有與DEMO匹配的傳感器頭?

    我們目前有個(gè)項(xiàng)目主要用于檢測(cè)幼兒的注意力,請(qǐng)問(wèn)一下,TI ADS1299S是否推薦有與DEMO匹配的傳感器頭?如果有,請(qǐng)推薦。
    發(fā)表于 11-26 08:30

    什么是LLM?LLM在自然語(yǔ)言處理的應(yīng)用

    所未有的精度和效率處理和生成自然語(yǔ)言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉文本
    的頭像 發(fā)表于 11-19 15:32 ?3673次閱讀

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)數(shù)據(jù)驅(qū)動(dòng)故障檢測(cè)模型的性能和可解釋性。引入了一種混合因果發(fā)現(xiàn)算法來(lái)發(fā)現(xiàn)監(jiān)測(cè)變量之間的繼承因果關(guān)系。順序連接因果變量的因果路徑用作接收?qǐng)?,使用多尺度卷積來(lái)提取特征?;诜謱?b class='flag-5'>注意力機(jī)制來(lái)聚合
    的頭像 發(fā)表于 11-12 09:52 ?1081次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)

    一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

    本文提出了一種動(dòng)態(tài)軌跡預(yù)測(cè)方法,通過(guò)結(jié)合歷史幀和歷史預(yù)測(cè)結(jié)果來(lái)提高預(yù)測(cè)的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測(cè)注意力模塊,以編碼連續(xù)預(yù)測(cè)之間的動(dòng)態(tài)關(guān)系,并通過(guò)三重因子注意力模塊實(shí)現(xiàn)了最先進(jìn)的性能。本方法能夠生成準(zhǔn)確且穩(wěn)定的未來(lái)軌跡,這對(duì)于自動(dòng)駕駛系統(tǒng)落地至關(guān)重要。
    的頭像 發(fā)表于 10-28 14:34 ?1107次閱讀
    一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

    Llama 3 模型與其他AI工具對(duì)比

    、技術(shù)架構(gòu) Llama 3模型 采用了最新的Transformer架構(gòu),并結(jié)合了自注意力機(jī)制和分組查詢關(guān)注(GQA)機(jī)制。 引入了高效的tokenizer和RoPE位置編碼,提高了語(yǔ)言編碼和長(zhǎng)文
    的頭像 發(fā)表于 10-27 14:37 ?1078次閱讀

    UCD31xx器件的CPU鎖定機(jī)制

    電子發(fā)燒友網(wǎng)站提供《UCD31xx器件的CPU鎖定機(jī)制.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 10:18 ?0次下載
    UCD31xx器件<b class='flag-5'>中</b>的CPU鎖定<b class='flag-5'>機(jī)制</b>

    N型接口在維修過(guò)程需要注意哪些問(wèn)題

    德索工程師說(shuō)道在組裝N型接口時(shí),應(yīng)按照拆解時(shí)的相反順序進(jìn)行。注意各部件的裝配順序和位置,確保每個(gè)部件都安裝到位且緊固牢固。特別是防水膠圈和橡膠環(huán)等密封部件,必須正確安裝以確保接口的密封性。使用扳手或螺絲刀等工具時(shí),要注意力度適中,避免過(guò)緊或過(guò)松導(dǎo)致接口損壞或松動(dòng)。
    的頭像 發(fā)表于 09-28 15:22 ?473次閱讀
    N型接口在維修過(guò)程<b class='flag-5'>中</b>需要<b class='flag-5'>注意</b>哪些問(wèn)題

    LDO穩(wěn)壓器的過(guò)流保護(hù)機(jī)制

    LDO穩(wěn)壓器(Low-Dropout Regulator)在實(shí)現(xiàn)過(guò)流保護(hù)方面,采用了多種機(jī)制來(lái)確保在負(fù)載電流超過(guò)其額定值時(shí)能夠保護(hù)電路不受損壞。以下是對(duì)LDO穩(wěn)壓器如何實(shí)現(xiàn)過(guò)流保護(hù)的詳細(xì)分析,包括其工作原理、過(guò)流保護(hù)機(jī)制、設(shè)計(jì)要點(diǎn)以及實(shí)際應(yīng)用
    的頭像 發(fā)表于 09-11 14:14 ?2908次閱讀

    2024 年 19 種最佳大型語(yǔ)言模型

    ,當(dāng)時(shí)一篇題為“通過(guò)聯(lián)合學(xué)習(xí)對(duì)齊和翻譯的神經(jīng)機(jī)器翻譯”的研究論文中引入了注意力機(jī)制(一種旨在模仿人類認(rèn)知注意力的機(jī)器學(xué)習(xí)技術(shù))。2017年,另一篇論文“注意力就是你
    的頭像 發(fā)表于 08-30 12:56 ?995次閱讀
    2024 年 19 種最佳大型語(yǔ)言模型

    MSPM0 MCU的網(wǎng)絡(luò)安全機(jī)制

    電子發(fā)燒友網(wǎng)站提供《MSPM0 MCU的網(wǎng)絡(luò)安全機(jī)制.pdf》資料免費(fèi)下載
    發(fā)表于 08-29 10:05 ?1次下載
    MSPM0 MCU<b class='flag-5'>中</b>的網(wǎng)絡(luò)安全<b class='flag-5'>機(jī)制</b>

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    并捕捉長(zhǎng)距離依賴關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過(guò)編碼器(Encoder)和解碼器(Decoder)兩部分實(shí)現(xiàn)語(yǔ)言的編碼和解碼。 注意力機(jī)制:Transformer注意力
    發(fā)表于 08-02 11:03