99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析Transformer中的位置編碼 -- ICLR 2021

深度學(xué)習(xí)自然語言處理 ? 來源:復(fù)旦DISC 陳偉 ? 作者:復(fù)旦DISC 陳偉 ? 2021-04-01 16:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

Transformer是近年來非常流行的處理序列到序列問題的架構(gòu),其self-attention機(jī)制允許了長(zhǎng)距離的詞直接聯(lián)系,可以使模型更容易學(xué)習(xí)序列的長(zhǎng)距離依賴。由于其優(yōu)良的可并行性以及可觀的表現(xiàn)提升,讓它在NLP領(lǐng)域中大受歡迎,BERT和GPT系列均基于Transformer實(shí)現(xiàn)。鑒于Transformer在NLP問題上的優(yōu)異表現(xiàn),也有越來越多人將其引入到了CV領(lǐng)域。

和RNN、CNN等模型不同,對(duì)于Transformer來說,位置編碼的加入是必要的,因?yàn)閱渭兊膕elf-attention機(jī)制無法捕捉輸入的順序,即無法區(qū)分不同位置的詞。為此我們大體有兩個(gè)方式:(1)將位置信息融入到輸入中,這構(gòu)成了絕對(duì)位置編碼的一般做法;(2)將位置信息融入self-attention結(jié)構(gòu)中,這構(gòu)成了相對(duì)位置編碼的一般做法。

本次Fudan DISC實(shí)驗(yàn)室將分享ICLR 2021中關(guān)于Transformer和其位置編碼的3篇論文,介紹研究人員從不同角度和場(chǎng)景下對(duì)Transformer和其位置編碼的研究。

文章概覽

重新思考語言預(yù)訓(xùn)練中的位置編碼

Rethinking the Positional Encoding in Language Pre-training

論文地址: https://openreview.net/forum?id=09-528y2Fgf

本文針對(duì)BERT提出了一種新的位置編碼方法—Transformer with Untied Positional Encoding(TUPE),它通過兩種方法改進(jìn)了現(xiàn)有的方法,即解開單詞和位置之間的相關(guān)性,以及解開序列位置上的[CLS]。大量實(shí)驗(yàn)表明,TUPE具有較好的性能。

DEBERTA:帶有解耦注意力的解碼增強(qiáng)BERT

DeBERTa: Decoding-enhanced BERT with Disentangled Attention

論文地址: https://openreview.net/forum?id=XPZIaotutsD

本文提出了兩種改進(jìn)BERT預(yù)訓(xùn)練的方法:第一種方法是分散注意機(jī)制,該機(jī)制使用兩個(gè)向量分別對(duì)每個(gè)單詞的內(nèi)容和位置進(jìn)行編碼來表示每個(gè)單詞,并使用分散矩陣計(jì)算單詞之間在內(nèi)容和相對(duì)位置上的注意力權(quán)重;第二個(gè)方法是一個(gè)增強(qiáng)的掩碼解碼器,它取代了輸出的Softmax層來預(yù)測(cè)用于MLM預(yù)訓(xùn)練的掩碼令牌。使用這兩種技術(shù),新的預(yù)訓(xùn)練語言模型DeBERTa在許多下游NLP任務(wù)上表現(xiàn)都優(yōu)于RoBERTa和BERT。

把圖片當(dāng)作16乘16的詞:用于大規(guī)模圖像識(shí)別的Transformer

An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale

論文地址: https://openreview.net/forum?id=YicbFdNTTy

本文提出在視覺任務(wù)中的Transformer—Vision Transformer(ViT)。圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)的依賴不是必要的,并且將純transformer直接應(yīng)用于圖像patch序列可以很好地執(zhí)行圖像分類任務(wù)。本文的實(shí)驗(yàn)表明,當(dāng)對(duì)大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練并將其傳輸?shù)街械却笮』蜉^小的圖像識(shí)別基準(zhǔn)時(shí),與最先進(jìn)的卷積網(wǎng)絡(luò)相比,ViT可獲得出色的結(jié)果,同時(shí)訓(xùn)練所需的計(jì)算資源也大大減少。

論文細(xì)節(jié)

1

156cf67e-92a2-11eb-8b86-12bb97331649.png

動(dòng)機(jī)

因?yàn)?Transformer 在結(jié)構(gòu)上不能識(shí)別來自不同位置的 token,一般需要用 positional embedding 來輔助。最簡(jiǎn)單的做法就是在 input token embedding 上直接加 positional embedding (NSP loss現(xiàn)在基本不用,所以這里不再考慮 segment embedding)。然后在 Transformer 的 self-attention 里,會(huì)把 input 用三個(gè)矩陣映射到不同的空間,Q,K,V,接著把 Q 和 K 做點(diǎn)積,過 softmax ,得到 attention 的 weight 。因此,在第一層 Transformer 的 QK 點(diǎn)積 ,我們可以得到:

15aa69b4-92a2-11eb-8b86-12bb97331649.png

其中 是self attention matrix在進(jìn)行softmax之前第i行第j列的元素,代表第i個(gè)token對(duì)第j個(gè)token的注意力大小, 是 token embedding,是position embedding,、是映射Q和K所用的矩陣。作者認(rèn)為代表token和position的交叉的中間兩項(xiàng)沒有給self attention做出貢獻(xiàn),為了驗(yàn)證該想法,作者對(duì)展開后的四項(xiàng)進(jìn)行了可視化,如Figure 2所示,可以看到中間兩項(xiàng)看起來很均勻,說明position 和 token 之間確實(shí)沒有太強(qiáng)的關(guān)聯(lián)。

15caaaee-92a2-11eb-8b86-12bb97331649.png

同時(shí),作者認(rèn)為 token 和 position 用了相同的矩陣做 QKV 的變換。但 position 和 token 所包含的信息不一樣,共享矩陣也不合理。

方法

為了解決上述問題,作者將self attention做了如下改動(dòng):

160b1674-92a2-11eb-8b86-12bb97331649.png

其中,、是把 positional embedding 映射到 Q 和 K 所用的矩陣,分母中的根號(hào) 2d 是為了保持量綱。簡(jiǎn)單來說,作者去掉了 position 和 token 之間的交叉,同時(shí)用了不同的變換矩陣。需要注意的是,在多層的 Transformer 模型里,比如BERT,上面式子的第二項(xiàng)在不同層之間是共享的。因此,這里僅需要算一次,幾乎沒有引入額外的計(jì)算代價(jià)。

作者還提出,在上述的公式中,可以再添加一個(gè)與相對(duì)位置相關(guān)的偏置項(xiàng),即

16279e16-92a2-11eb-8b86-12bb97331649.png

作者在文中使用了T5文章中提出的相對(duì)位置編碼。

另外,作者還特殊處理了 [CLS] token 的 position,使其不會(huì)因 positional locality 而忽略了整個(gè)句子的信息。具體來說,在的第二項(xiàng),即與位置相關(guān)的注意力計(jì)算中,作者將[CLS] 對(duì)其他token的注意力以及其他token對(duì)[CLS]的注意力額外引入了兩個(gè)參數(shù),這兩個(gè)參數(shù)與位置信息無關(guān),是一個(gè)可學(xué)習(xí)的標(biāo)量,這樣就完成了和[CLS]相關(guān)注意力的計(jì)算。

164dda86-92a2-11eb-8b86-12bb97331649.png

166fc97a-92a2-11eb-8b86-12bb97331649.png

模型整體的架構(gòu)如下

16a25110-92a2-11eb-8b86-12bb97331649.png

實(shí)驗(yàn)

作者首先使用TUPE模型以類似BERT的方式進(jìn)行預(yù)訓(xùn)練,然后在GLUE數(shù)據(jù)集下進(jìn)行微調(diào)。其中-A代表僅使用了絕對(duì)位置編碼,-R代表在絕對(duì)位置編碼的基礎(chǔ)上增加了相對(duì)位置編碼(即偏置項(xiàng))。mid表示訓(xùn)練了300k步的中間結(jié)果,tie-cls代表移除對(duì)[CLS]的特殊處理,d代表為詞和位置使用不同的投影矩陣。

16f9e506-92a2-11eb-8b86-12bb97331649.png

結(jié)果表明,添加相對(duì)位置信息對(duì)下游任務(wù)效果有一定提升;TUPE模型的效果持續(xù)優(yōu)于BERT模型的效果;TUPE僅訓(xùn)練300k-step(30%)的結(jié)果已經(jīng)可以和BERT等模型的效果相比較;對(duì)[CLS] token的特殊處理和使用不同的投影矩陣均可以增加模型性能。

分析

作者最后對(duì)TUPE和BERT的預(yù)訓(xùn)練過程進(jìn)行了分析,結(jié)果表明,TUPE不僅最后比 baseline 要好,并且可以在 30% (300k-step) 的時(shí)候,就達(dá)到 baseline 在 1000k-step 時(shí)的效果。

17430006-92a2-11eb-8b86-12bb97331649.png

最后作者還對(duì)TUPE學(xué)習(xí)到的多個(gè)head得到的注意力矩陣進(jìn)行了可視化,作者發(fā)現(xiàn),不同的head捕捉到了不同的注意力模式,作者還對(duì)下圖中的幾種進(jìn)行了命名,如 attending globally; attending locally; attending broadly; attending to the previous positions; attending to the next positions 等。

17735062-92a2-11eb-8b86-12bb97331649.png

2

179e6b58-92a2-11eb-8b86-12bb97331649.png

動(dòng)機(jī)

和上一篇文章類似,文章也是對(duì)self attention的結(jié)構(gòu)進(jìn)行了重構(gòu),與上篇文章不同的是,文章直接從相對(duì)位置出發(fā),認(rèn)為在一個(gè)序列中的第i個(gè)token可以用兩個(gè)向量對(duì)其進(jìn)行表示,分別是 和 ,分別代表了該token的內(nèi)容信息和相對(duì)第j個(gè)token的相對(duì)位置信息。那么第i個(gè)token和第j個(gè)token的注意力計(jì)算可以拆解為如下公式:

17c3e3ba-92a2-11eb-8b86-12bb97331649.png

那么注意力可以解耦成四個(gè)部分,分別是內(nèi)容和內(nèi)容、內(nèi)容和位置、位置和內(nèi)容、位置與位置。作者認(rèn)為第四項(xiàng)相對(duì)位置和相對(duì)位置的交叉無法給注意力提供有效信息,可以舍棄,因此作者提出了解耦注意力機(jī)制。

同時(shí),作者認(rèn)為現(xiàn)有的預(yù)訓(xùn)練、微調(diào)模式存在一些GAP,首先它們的任務(wù)不同,預(yù)訓(xùn)練階段是直接預(yù)測(cè)被MASK掉的token,微調(diào)階段是拿句子表示再添加額外的網(wǎng)絡(luò)層去完成下游任務(wù),為了彌補(bǔ)這種GAP,作者提出了解碼增強(qiáng)的BERT。

方法

為了解決上述問題,作者將self attention做了如下改動(dòng):

18007730-92a2-11eb-8b86-12bb97331649.png

在解耦注意力中,作者拋棄了位置與位置部分,并且認(rèn)為內(nèi)容和位置的投影矩陣是異質(zhì)的,因此引入了新參數(shù) 和 ,其中 P是跨所有層共享的相對(duì)位置嵌入向量。其中 函數(shù)的定義如下:

183197ca-92a2-11eb-8b86-12bb97331649.png

該函數(shù)定義了token之間的相對(duì)距離,計(jì)算token之間的注意力機(jī)制的時(shí)候,將通過該公式計(jì)算token和token之間的相對(duì)距離矩陣,則相對(duì)位置向量則可以通過事先定義的embedding層取出。作者還提出了一種計(jì)算解耦注意力的高效算法,可以有效地減小空間復(fù)雜度。

上述的注意力計(jì)算中中僅包含了相對(duì)位置信息,作者認(rèn)為只有相對(duì)位置也不好,最好能把絕對(duì)位置信息也加進(jìn)去,作者給了兩張?zhí)砑拥姆绞健5谝环N方式是在輸入的時(shí)候,把絕對(duì)位置信息添加到輸入的token embedding中;第二種方式是在最后一兩層再添加到前面那些層輸出的隱向量中。

考慮到BERT等預(yù)訓(xùn)練模型在預(yù)訓(xùn)練和微調(diào)時(shí)不一樣,預(yù)訓(xùn)練的時(shí)候,bert的輸出經(jīng)過softmax后,直接給出概率。微調(diào)的時(shí)候,bert的輸出會(huì)經(jīng)過一些與任務(wù)相關(guān)的decoder。作者將掩碼語言模型(MLM)視為任何微調(diào)任務(wù),并添加一個(gè)任務(wù)特定解碼器,該解碼器被實(shí)現(xiàn)為兩層 Transformer 解碼器和 Softmax 輸出層,用于預(yù)訓(xùn)練。所以作者這里將預(yù)訓(xùn)練和微調(diào)的模型盡可能相近,模型共有13層,前11層稱為encoder,后2層參數(shù)共享,稱為decoder,然后微調(diào)的時(shí)候,前12層保留,然后和bert一樣進(jìn)行各類任務(wù)的微調(diào)。

實(shí)驗(yàn)

作者按照 BERT 的設(shè)置預(yù)訓(xùn)練DeBERTa,和BERT不同的是,作者使用了 BPE 詞匯表。對(duì)于訓(xùn)練數(shù)據(jù),作者使用 了 Wikipedia(English Wikipedia dump;12GB)、BookCorpus(6GB)、OPENWEBTEXT(public Reddit content;38GB)和 STORIES(CommonCrawl 的子集;31GB)。重復(fù)數(shù)據(jù)消除后的總數(shù)據(jù)大小約為 78GB。我們使用 6 臺(tái) DGX-2 機(jī)器和 96 個(gè) V100 GPU 來訓(xùn)練模型。單個(gè)模型訓(xùn)練,batch size 設(shè)置為 2K,1M 的 steps,大約需要 20 天的時(shí)間。

作者將預(yù)訓(xùn)練好的模型在GLUE數(shù)據(jù)集上進(jìn)行微調(diào),表 1 顯示,與 BERT 和 RoBERTa 相比,DeBERTa 在所有任務(wù)中始終表現(xiàn)得更好。同時(shí),DeBERTa 在八項(xiàng)任務(wù)中有六項(xiàng)優(yōu)于 XLNet。特別是,MRPC(1.7% 超過 XLNet,1.6% 超過 RoBERTa)、RTE(2.2% 超過 XLNet,1.5% 超過 RoBERTa)和 CoLA(0.5% 超過 XLNet,1.5% 超過 RoBERTa)的改進(jìn)非常顯著。

185938fc-92a2-11eb-8b86-12bb97331649.png

作者還使用了其他數(shù)據(jù)集來評(píng)估 DeBERTa,分別是(1)問答:SQuAD v1.1、SQuAD v2.0、RACE、ReCoRD 和 SWAG;(2)自然語言推理:MNLI;(3)NER:CoNLL-2003。為了進(jìn)行比較,他們還將 Megatron 分為三種不同的模型尺寸:Megatron 336M、Megatron 1.3B 和 Megatron 3.9B,它們使用與 RoBERTa 相同的數(shù)據(jù)集進(jìn)行訓(xùn)練。與之前的 SOTA 模型(包括 BERT、RoBERTa、XLNet 和 Megatron336M)相比,DeBERTa 在這 7 項(xiàng)任務(wù)中的表現(xiàn)始終更優(yōu)。盡管 Megatron1.3B 是 DeBERTa 的 3 倍大,DeBERTa 在四個(gè)基準(zhǔn)中的三個(gè)方面仍然可以超過 Megatron1.3B。結(jié)果表明,在不同的下游任務(wù)中,DeBERTa 算法都具有較好的性能。

191544ac-92a2-11eb-8b86-12bb97331649.png

作者還對(duì)DeBERTa進(jìn)行了消融實(shí)驗(yàn),-EMD 是沒有增強(qiáng)解碼器的DeBERTa模型。C2P 是沒有內(nèi)容-位置項(xiàng)的DeBERTa模型。P2C 是沒有位置-內(nèi)容項(xiàng)的DeBERTa模型。作者發(fā)現(xiàn)刪除 DeBERTa 中的任何一個(gè)組件都會(huì)導(dǎo)致所有基準(zhǔn)測(cè)試的性能下降。

19ab9380-92a2-11eb-8b86-12bb97331649.png

最后作者還研究了注意力機(jī)制模式和預(yù)訓(xùn)練模型的有效性。結(jié)果表明,在預(yù)訓(xùn)練的訓(xùn)練過程中,DeBERTa 的表現(xiàn)一直優(yōu)于 RoBERTa-ReImp,并且收斂速度更快。

3

19e52668-92a2-11eb-8b86-12bb97331649.png

動(dòng)機(jī)

本篇文章跟位置編碼的關(guān)系不是特別大,但文章將Transformer在圖像識(shí)別領(lǐng)域中完全代替了卷積神經(jīng)網(wǎng)絡(luò)。近年來,Transformer已經(jīng)成了NLP領(lǐng)域的標(biāo)準(zhǔn)配置,但是CV領(lǐng)域還是CNN(如ResNet, DenseNet等)占據(jù)了絕大多數(shù)的SOTA結(jié)果。最近CV界也有很多文章將transformer遷移到CV領(lǐng)域,雖然已經(jīng)有很多工作用self-attention完全替代CNN,且在理論上效率比較高,但是它們用了特殊的attention機(jī)制,無法從硬件層面加速,所以目前CV領(lǐng)域的SOTA結(jié)果還是被CNN架構(gòu)所占據(jù)。文章不同于以往工作的地方,就是盡可能地將NLP領(lǐng)域的transformer不作修改地搬到CV領(lǐng)域來。

方法

NLP處理的語言數(shù)據(jù)是序列化的,而CV中處理的圖像數(shù)據(jù)是三維的(長(zhǎng)、寬和channels)。所以需要一個(gè)方式將圖像這種三維數(shù)據(jù)轉(zhuǎn)化為序列化的數(shù)據(jù)。文章中,圖像被切割成一個(gè)個(gè)patch,這些patch按照一定的順序排列,就成了序列化的數(shù)據(jù)。作者首先將圖像分割成一個(gè)個(gè)patch,然后將每個(gè)patch reshape成一個(gè)向量,得到所謂的flattened patch。

作者對(duì)上述過程得到的flattened patches向量做了Linear Projection,這些經(jīng)過線性映射后的向量被稱為 patch embedding(類似word embedding),一個(gè)255乘255像素的圖片,每隔16乘16個(gè)像素進(jìn)行分割,則這些圖片可以被當(dāng)做16乘以16的詞拼在一起。作者也為這些patch添加了位置信息,因?yàn)榘凑仗囟樞虻膒atch是需要具備位置信息的,作者采取了常見的絕對(duì)位置編碼,給每個(gè)位置的patch學(xué)習(xí)一個(gè)位置編碼向量。

1a1e5370-92a2-11eb-8b86-12bb97331649.png

為了給圖像進(jìn)行分類,作者也借鑒BERT在第一個(gè)patch前添加了[CLS] patch,該patch經(jīng)過Transformer后的hidden vector被用于對(duì)圖形進(jìn)行分類的特征。

文中還提出了一個(gè)比較有趣的解決方案,將transformer和CNN結(jié)合,即將ResNet的中間層的feature map作為transformer的輸入。和之前所說的將圖片分成patch然后reshape成sequence不同的是,在這種方案中,作者直接將ResNet某一層的feature map reshape成sequence,再通過Linear Projection變?yōu)門ransformer輸入的維度,然后直接輸入進(jìn)Transformer中。

到下游任務(wù)微調(diào)時(shí),如果圖像的分辨率增大時(shí)(即圖像的長(zhǎng)和寬增大時(shí)),如果保持patch大小不變,得到的patch個(gè)數(shù)將增加,即序列長(zhǎng)度將增加。但是由于在預(yù)訓(xùn)練的時(shí)候,position embedding的個(gè)數(shù)和pretrain時(shí)分割得到的patch個(gè)數(shù)相同。因此超出部分的positioin embedding在模型中是未定義或者無意義的。為了解決這個(gè)問題,文章中提出用2D插值的方法,基于原圖中的位置信息,將pretrain中的position embedding插值成更多個(gè),這樣有利于位置編碼在面對(duì)更高分辨率圖片微調(diào)時(shí)可以更好地收斂。

實(shí)驗(yàn)

作者使用提出的模型,即VIT,做了大量實(shí)驗(yàn)。實(shí)驗(yàn)的范式遵循預(yù)訓(xùn)練-微調(diào)模型,現(xiàn)在某個(gè)數(shù)據(jù)集下使用大量有標(biāo)簽的圖片進(jìn)行預(yù)訓(xùn)練,然后再在某個(gè)數(shù)據(jù)集下進(jìn)行微調(diào)。下表中最上面一行指的是預(yù)訓(xùn)練用的數(shù)據(jù)集,最左邊一列指的是微調(diào)使用的數(shù)據(jù)集。ViT-H/14指的是,使用了ViiT-Huge模型的設(shè)置,并且patch的size是14乘14的。Noisy Student是ImageN上的SOTA,BiT是其余任務(wù)上的SOTA。

可以看到,在JFT數(shù)據(jù)集上預(yù)訓(xùn)練的ViT-L/16性能比BiT-L(也是在JFT上進(jìn)行預(yù)訓(xùn)練)更好。模型更大一點(diǎn)的ViT-H/14性能進(jìn)一步提升,尤其是在更具挑戰(zhàn)性的任務(wù)上,如ImageNet、CIFAR-100和VTAB,且所需的計(jì)算資源依舊遠(yuǎn)小于之前SOTA。在I21K上預(yù)訓(xùn)練得到的ViT-L/16性能也非常不錯(cuò),需要的計(jì)算資源更少,在8TPU上訓(xùn)練30天即可。

1a6d6bf4-92a2-11eb-8b86-12bb97331649.png

作者進(jìn)一步使用可視化的結(jié)果分析了使用不同預(yù)訓(xùn)練數(shù)據(jù)集和不同復(fù)雜度模型的情況下,下游任務(wù)的表現(xiàn)。作者發(fā)現(xiàn),在預(yù)訓(xùn)練數(shù)據(jù)集比較小的情況下,大模型(ViT-L)性能還是不如小模型(ViT-B);當(dāng)預(yù)訓(xùn)練數(shù)據(jù)集比較大的情況,大模型效果會(huì)更好。作者得出的結(jié)論是,在小數(shù)據(jù)集上,卷積的歸納偏置是是非常有用的,但在大數(shù)據(jù)集上,直接學(xué)relevant pattern就夠了,這里的relevant pattern應(yīng)該指的是patch和patch之間的相關(guān)模式。

1af0d0f2-92a2-11eb-8b86-12bb97331649.png

總結(jié)

此次 Fudan DISC 解讀的三篇論文圍繞Transformer以及位置編碼展開。對(duì)于序列來講,位置編碼的影響十分重要,詞和句子的位置信息對(duì)語義的影響是巨大的,如何在Transformer模型中有效地融合位置信息是十分重要的。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    969

    瀏覽量

    55783
  • CV
    CV
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    17149
  • 卷積神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    4

    文章

    369

    瀏覽量

    12305

原文標(biāo)題:【Transformer】Transformer 中的位置編碼 -- ICLR 2021

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer架構(gòu)編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer
    的頭像 發(fā)表于 06-10 14:27 ?298次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)<b class='flag-5'>中</b><b class='flag-5'>編碼</b>器的工作流程

    精準(zhǔn)進(jìn)階:增量型位置編碼器技術(shù)解析與應(yīng)用突破

    在工業(yè)自動(dòng)化與精密制造領(lǐng)域,位置測(cè)量技術(shù)是決定設(shè)備性能與效率的核心要素。增量型位置編碼器憑借其高性價(jià)比、動(dòng)態(tài)響應(yīng)速度及靈活性,成為數(shù)控機(jī)床、機(jī)器人關(guān)節(jié)、自動(dòng)化流水線等場(chǎng)景不可或缺的“
    的頭像 發(fā)表于 05-19 08:36 ?219次閱讀
    精準(zhǔn)進(jìn)階:增量型<b class='flag-5'>位置</b><b class='flag-5'>編碼</b>器技術(shù)<b class='flag-5'>解析</b>與應(yīng)用突破

    脈沖編碼器的詳細(xì)解析

    脈沖編碼器作為一種關(guān)鍵的位置和速度檢測(cè)元件,在現(xiàn)代工業(yè)中發(fā)揮著至關(guān)重要的作用。本文將從脈沖編碼器的定義、工作原理、分類、優(yōu)缺點(diǎn)、應(yīng)用等多個(gè)方面,對(duì)其進(jìn)行全面而詳細(xì)的解析。 一、定義與性
    的頭像 發(fā)表于 04-17 16:48 ?469次閱讀

    磁旋轉(zhuǎn)編碼器在永磁同步電機(jī)位置測(cè)量的應(yīng)用(可下載)

    一、概述與直流電機(jī)相比,永磁同步電機(jī)具有體積小、 效率高、無需維護(hù)等優(yōu)點(diǎn),在某些應(yīng)用 場(chǎng)景,由位置傳感器精度引起的轉(zhuǎn)矩波動(dòng)應(yīng)限制在 1%以內(nèi),這就要求電機(jī)位置傳感器 具有足夠的精度。AS5040
    發(fā)表于 04-09 13:37 ?0次下載

    絕對(duì)值編碼位置丟失是什么原因?有什么解決辦法?

    絕對(duì)值編碼位置丟失可能由多種原因引起,以下是一些常見原因及相應(yīng)的解決辦法: 一、原因分析 1. 電源干擾: ? ?● 錯(cuò)誤的電壓、電流或突然斷電可能會(huì)影響編碼器的讀數(shù),導(dǎo)致位置丟失
    的頭像 發(fā)表于 03-16 17:17 ?1424次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》首次提出。其設(shè)計(jì)初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4053次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    絕對(duì)式編碼器在伺服電機(jī)控制的應(yīng)用與優(yōu)勢(shì)分析

    ? ? ? 絕對(duì)式編碼器在伺服電機(jī)控制的應(yīng)用廣泛且重要,其優(yōu)勢(shì)顯著,以下是對(duì)其應(yīng)用與優(yōu)勢(shì)的詳細(xì)分析: ? ? ??一、絕對(duì)式編碼器在伺服電機(jī)控制的應(yīng)用 ? ? ? 絕對(duì)式
    的頭像 發(fā)表于 02-06 09:46 ?724次閱讀
    絕對(duì)式<b class='flag-5'>編碼</b>器在伺服電機(jī)控制<b class='flag-5'>中</b>的應(yīng)用與優(yōu)勢(shì)分析

    拉線式絕對(duì)值編碼器:精準(zhǔn)測(cè)量與位置反饋的可靠解決方案

    在自動(dòng)化與精密控制領(lǐng)域,精確的位置反饋是確保系統(tǒng)穩(wěn)定運(yùn)行和高效作業(yè)的核心要素。隨著科技的進(jìn)步,各種高精度的傳感器應(yīng)運(yùn)而生,其中拉線式絕對(duì)值編碼器以其獨(dú)特的優(yōu)勢(shì),在眾多應(yīng)用脫穎而出,成為工業(yè)控制
    的頭像 發(fā)表于 01-20 08:40 ?522次閱讀
    拉線式絕對(duì)值<b class='flag-5'>編碼</b>器:精準(zhǔn)測(cè)量與<b class='flag-5'>位置</b>反饋的可靠解決方案

    編碼器邏輯功能解析與實(shí)現(xiàn)

    在現(xiàn)代電子技術(shù)與自動(dòng)化控制系統(tǒng),編碼器作為一種關(guān)鍵性傳感器,扮演著舉足輕重的角色。它通過將機(jī)械位移或旋轉(zhuǎn)轉(zhuǎn)換成數(shù)字信號(hào),為各種設(shè)備提供了精確的位置、速度和方向信息。本文將深入探討編碼
    的頭像 發(fā)表于 11-30 14:35 ?1155次閱讀

    編碼器七種常見故障解析

    編碼器,作為工業(yè)自動(dòng)化系統(tǒng)不可或缺的重要組件,承擔(dān)著將旋轉(zhuǎn)或線性位移轉(zhuǎn)換為電信號(hào),從而實(shí)現(xiàn)對(duì)設(shè)備精確控制和反饋的關(guān)鍵任務(wù)。然而,在實(shí)際應(yīng)用,編碼器也會(huì)遇到各種故障,影響其正常工作。
    的頭像 發(fā)表于 11-25 08:58 ?5034次閱讀

    編碼器在機(jī)器人技術(shù)的應(yīng)用 編碼器在傳感器系統(tǒng)的作用

    測(cè)量機(jī)器人位置和移動(dòng)的裝置,它能夠?qū)C(jī)器人位置和運(yùn)動(dòng)轉(zhuǎn)化為數(shù)字信號(hào),以供機(jī)器人控制系統(tǒng)使用。編碼器在機(jī)器人技術(shù)的應(yīng)用主要體現(xiàn)在以下幾個(gè)方面: 定位控制 :
    的頭像 發(fā)表于 11-24 10:02 ?1620次閱讀

    編碼器與位置控制系統(tǒng)的結(jié)合應(yīng)用

    編碼器與位置控制系統(tǒng)的結(jié)合應(yīng)用在現(xiàn)代工業(yè)自動(dòng)化和機(jī)器人技術(shù)扮演著至關(guān)重要的角色。以下是對(duì)這一結(jié)合應(yīng)用的分析: 一、磁編碼器的基本原理 磁編碼
    的頭像 發(fā)表于 11-23 09:26 ?962次閱讀

    編碼器工作原理解析編碼器與光編碼器的比較

    編碼器工作原理解析編碼器是一種利用磁場(chǎng)變化來測(cè)量角度和位置的傳感器。它的工作原理基于霍爾效應(yīng)或磁阻效應(yīng)。以下是磁編碼器的基本工作原理:
    的頭像 發(fā)表于 11-23 09:06 ?3147次閱讀

    電機(jī)控制系統(tǒng)編碼器概述與作用

    編碼器分辨率是描述編碼器在測(cè)量運(yùn)動(dòng)過程中所能分辨的最小位置變化量的指標(biāo)。理解編碼器分辨率對(duì)于設(shè)計(jì)和實(shí)現(xiàn)高精度的運(yùn)動(dòng)控制系統(tǒng)至關(guān)重要。以下是對(duì)編碼
    的頭像 發(fā)表于 08-17 19:49 ?1066次閱讀

    AGV輪轂電機(jī)編碼

    編碼器還可以提供電機(jī)的絕對(duì)位置信息,這對(duì)于AGV系統(tǒng)的定位和校準(zhǔn)至關(guān)重要。在AGV系統(tǒng),一般會(huì)使用Z信號(hào)來表示編碼器的絕對(duì)位置。Z信號(hào)是一
    的頭像 發(fā)表于 07-22 11:33 ?1030次閱讀
    AGV輪轂電機(jī)<b class='flag-5'>中</b>的<b class='flag-5'>編碼</b>器