電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程11.4之Bahdanau注意力機(jī)制

PyTorch教程11.4之Bahdanau注意力機(jī)制

2513367 2023-06-05 | pdf | 0.38 MB | 次下載 | 免費(fèi)

資料介紹

當(dāng)我們?cè)?/font>10.7 節(jié)遇到機(jī)器翻譯時(shí)，我們?cè)O(shè)計(jì)了一個(gè)基于兩個(gè) RNN 的序列到序列 (seq2seq) 學(xué)習(xí)的編碼器-解碼器架構(gòu) ( Sutskever et al. , 2014 )。具體來(lái)說(shuō)，RNN 編碼器將可變長(zhǎng)度序列轉(zhuǎn)換為固定形狀的上下文變量。然后，RNN 解碼器根據(jù)生成的標(biāo)記和上下文變量逐個(gè)標(biāo)記地生成輸出（目標(biāo)）序列標(biāo)記。

回想一下我們?cè)谙旅嬷赜〉?/font>圖 10.7.2 （圖 11.4.1）以及一些額外的細(xì)節(jié)。通常，在 RNN 中，有關(guān)源序列的所有相關(guān)信息都由編碼器轉(zhuǎn)換為某種內(nèi)部固定維狀態(tài)表示。正是這種狀態(tài)被解碼器用作生成翻譯序列的完整和唯一的信息源。換句話(huà)說(shuō)，seq2seq 機(jī)制將中間狀態(tài)視為可能作為輸入的任何字符串的充分統(tǒng)計(jì)。

https://file.elecfans.com/web2/M00/A9/C9/poYBAGR9N_qACEJlAAF4rEvQWMo465.svg

圖 11.4.1序列到序列模型。編碼器生成的狀態(tài)是編碼器和解碼器之間唯一共享的信息。

雖然這對(duì)于短序列來(lái)說(shuō)是相當(dāng)合理的，但很明顯這對(duì)于長(zhǎng)序列來(lái)說(shuō)是不可行的，比如一本書(shū)的章節(jié)，甚至只是一個(gè)很長(zhǎng)的句子。畢竟，一段時(shí)間后，中間表示中將根本沒(méi)有足夠的“空間”來(lái)存儲(chǔ)源序列中所有重要的內(nèi)容。因此，解碼器將無(wú)法翻譯又長(zhǎng)又復(fù)雜的句子。第一個(gè)遇到的人是格雷夫斯 ( 2013 )當(dāng)他們?cè)噲D設(shè)計(jì)一個(gè) RNN 來(lái)生成手寫(xiě)文本時(shí)。由于源文本具有任意長(zhǎng)度，他們?cè)O(shè)計(jì)了一個(gè)可區(qū)分的注意力模型來(lái)將文本字符與更長(zhǎng)的筆跡對(duì)齊，其中對(duì)齊僅在一個(gè)方向上移動(dòng)。這反過(guò)來(lái)又利用了語(yǔ)音識(shí)別中的解碼算法，例如隱馬爾可夫模型（Rabiner 和 Juang，1993 年）。

受到學(xué)??習(xí)對(duì)齊的想法的啟發(fā)， Bahdanau等人。( 2014 )提出了一種沒(méi)有單向?qū)R限制的可區(qū)分注意力模型。在預(yù)測(cè)標(biāo)記時(shí)，如果并非所有輸入標(biāo)記都相關(guān)，則模型僅對(duì)齊（或關(guān)注）輸入序列中被認(rèn)為與當(dāng)前預(yù)測(cè)相關(guān)的部分。然后，這用于在生成下一個(gè)令牌之前更新當(dāng)前狀態(tài)。雖然在其描述中相當(dāng)無(wú)傷大雅，但這種Bahdanau 注意力機(jī)制可以說(shuō)已經(jīng)成為過(guò)去十年深度學(xué)習(xí)中最有影響力的想法之一，并催生了 Transformers （Vaswani等人，2017 年）以及許多相關(guān)的新架構(gòu)。

						import torch
from torch import nn
from d2l import torch as d2l

						 

						from mxnet import init, np, npx
from mxnet.gluon import nn, rnn
from d2l import mxnet as d2l

npx.set_np()

						import jax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						import tensorflow as tf
from d2l import tensorflow as d2l

11.4.1。模型

我們遵循第 10.7 節(jié)的 seq2seq 架構(gòu)引入的符號(hào) ，特別是(10.7.3)。關(guān)鍵思想是，而不是保持狀態(tài)，即上下文變量c將源句子總結(jié)為固定的，我們動(dòng)態(tài)更新它，作為原始文本（編碼器隱藏狀態(tài)）的函數(shù)ht) 和已經(jīng)生成的文本（解碼器隱藏狀態(tài)st′?1). 這產(chǎn)生 ct′, 在任何解碼時(shí)間步后更新 t′. 假設(shè)輸入序列的長(zhǎng)度T. 在這種情況下，上下文變量是注意力池的輸出：

(11.4.1)ct′=∑t=1Tα(st′?1,ht)ht.

我們用了st′?1作為查詢(xún)，和 ht作為鍵和值。注意 ct′然后用于生成狀態(tài) st′并生成一個(gè)新令牌（參見(jiàn) (10.7.3)）。特別是注意力權(quán)重 α使用由 ( 11.3.7 )定義的附加注意評(píng)分函數(shù)按照 (11.3.3)計(jì)算。這種使用注意力的 RNN 編碼器-解碼器架構(gòu)如圖 11.4.2所示。請(qǐng)注意，后來(lái)對(duì)該模型進(jìn)行了修改，例如在解碼器中包含已經(jīng)生成的標(biāo)記作為進(jìn)一步的上下文（即，注意力總和確實(shí)停止在T而是它繼續(xù)進(jìn)行t′?1). 例如，參見(jiàn)Chan等人。( 2015 )描述了這種應(yīng)用于語(yǔ)音識(shí)別的策略。

https://file.elecfans.com/web2/M00/AA/44/pYYBAGR9N_2AIf3lAAG83XwjOJ8743.svg

圖 11.4.2具有 Bahdanau 注意機(jī)制的 RNN 編碼器-解碼器模型中的層。

11.4.2。用注意力定義解碼器

要實(shí)現(xiàn)帶有注意力的 RNN 編碼器-解碼器，我們只需要重新定義解碼器（從注意力函數(shù)中省略生成的符號(hào)可以簡(jiǎn)化設(shè)計(jì)）。讓我們通過(guò)定義一個(gè)意料之中的命名類(lèi)來(lái)開(kāi)始具有注意力的解碼器的基本接口 AttentionDecoder。

							class AttentionDecoder(d2l.Decoder): #@save
  """The base attention-based decoder interface."""
  def __init__(self):
    super().__init__()

  @property
  def attention_weights(self):
    raise NotImplementedError

							 

							class AttentionDecoder(d2l.Decoder): #@save
  """The base attention-based decoder interface."""
  def __init__(self):
    super().__init__()

  @property
  def attention_weights(self):
    raise NotImplementedError

							 

							class AttentionDecoder(d2l.Decoder): #@save
  """The base attention-based decoder interface."""
  def __init__(self):
    super().__init__()

  @property
  def attention_weights(self):
    raise NotImplementedError

							 

我們需要在Seq2SeqAttentionDecoder 類(lèi)中實(shí)現(xiàn) RNN 解碼器。解碼器的狀態(tài)初始化為（i）編碼器最后一層在所有時(shí)間步的隱藏狀態(tài)，用作注意力的鍵和值；(ii) 編碼器在最后一步的所有層的隱藏狀態(tài)。這用于初始化解碼器的隱藏狀態(tài)；(iii) 編碼器的有效長(zhǎng)度，以排除注意力池中的填充標(biāo)記。在每個(gè)解碼時(shí)間步，解碼器最后一層的隱藏狀態(tài)，在前一個(gè)時(shí)間步獲得，用作注意機(jī)制的查詢(xún)。注意機(jī)制的輸出和輸入嵌入都被連接起來(lái)作為 RNN 解碼器的輸入。

							class Seq2SeqAttentionDecoder(AttentionDecoder):
  def __init__(self, vocab_size, embed_size<
						

下載該資料的人也在下載下載該資料的人還在閱讀

更多 >

BaiChuan13B多輪對(duì)話(huà)微調(diào)范例 1046次閱讀
基于YOLOv5s基礎(chǔ)上實(shí)現(xiàn)五種視覺(jué)注意力模塊的改進(jìn) 1594次閱讀
一種新型的雙流注意力增強(qiáng)型BERT來(lái)提高捕捉句子對(duì)中細(xì)微差異的能力 1572次閱讀
pytorch實(shí)現(xiàn)斷電繼續(xù)訓(xùn)練時(shí)需要注意的要點(diǎn) 1447次閱讀
PyTorch 的 Autograd 機(jī)制和使用 1132次閱讀
基于選擇機(jī)制的自注意力網(wǎng)絡(luò)模型 5039次閱讀
循環(huán)神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)注意力文本生成變換器編碼器序列表征 3288次閱讀
注意力機(jī)制的誕生、方法及幾種常見(jiàn)模型 4.1w次閱讀
一文解構(gòu)PyTorch：深入了解PyTorch內(nèi)部機(jī)制 4033次閱讀
深度分析NLP中的注意力機(jī)制 3884次閱讀
一種通過(guò)引入硬注意力機(jī)制來(lái)引導(dǎo)學(xué)習(xí)視覺(jué)回答任務(wù)的研究 5501次閱讀
北大研究者創(chuàng)建了一種注意力生成對(duì)抗網(wǎng)絡(luò) 4990次閱讀
DeepMind為視覺(jué)問(wèn)題回答提出了一種新的硬注意力機(jī)制 6244次閱讀
一種金字塔注意力網(wǎng)絡(luò)，用于處理圖像語(yǔ)義分割問(wèn)題 1.1w次閱讀
基于注意力機(jī)制的用戶(hù)行為建?？蚣芗捌湓谕扑]領(lǐng)域的應(yīng)用 4836次閱讀

評(píng)論

資料 -- | 積分 --

查看他上傳的所有資料

+關(guān)注個(gè)人主頁(yè)

上傳資料賺積分

下載排行

本周

1山景DSP芯片AP8248A2數(shù)據(jù)手冊(cè)
1.06 MB | 532次下載 | 免費(fèi)
2RK3399完整板原理圖（支持平板，盒子VR）
3.28 MB | 339次下載 | 免費(fèi)
3TC358743XBG評(píng)估板參考手冊(cè)
1.36 MB | 330次下載 | 免費(fèi)
4DFM軟件使用教程
0.84 MB | 295次下載 | 免費(fèi)
5元宇宙深度解析—未來(lái)的未來(lái)-風(fēng)口還是泡沫
6.40 MB | 227次下載 | 免費(fèi)
6迪文DGUS開(kāi)發(fā)指南
31.67 MB | 194次下載 | 免費(fèi)
7元宇宙底層硬件系列報(bào)告
13.42 MB | 182次下載 | 免費(fèi)
8FP5207XR-G1中文應(yīng)用手冊(cè)
1.09 MB | 178次下載 | 免費(fèi)

本月

1OrCAD10.5下載OrCAD10.5中文版軟件
0.00 MB | 234315次下載 | 免費(fèi)
2555集成電路應(yīng)用800例(新編版)
0.00 MB | 33566次下載 | 免費(fèi)
3接口電路圖大全
未知 | 30323次下載 | 免費(fèi)
4開(kāi)關(guān)電源設(shè)計(jì)實(shí)例指南
未知 | 21549次下載 | 免費(fèi)
5電氣工程師手冊(cè)免費(fèi)下載(新編第二版pdf電子書(shū))
0.00 MB | 15349次下載 | 免費(fèi)
6數(shù)字電路基礎(chǔ)pdf(下載)
未知 | 13750次下載 | 免費(fèi)
7電子制作實(shí)例集錦下載
未知 | 8113次下載 | 免費(fèi)
8《LED驅(qū)動(dòng)電路設(shè)計(jì)》溫德?tīng)栔?/a>
0.00 MB | 6656次下載 | 免費(fèi)

總榜

1matlab軟件下載入口
未知 | 935054次下載 | 免費(fèi)
2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
78.1 MB | 537798次下載 | 免費(fèi)
3MATLAB 7.1 下載 (含軟件介紹)
未知 | 420027次下載 | 免費(fèi)
4OrCAD10.5下載OrCAD10.5中文版軟件
0.00 MB | 234315次下載 | 免費(fèi)
5Altium DXP2002下載入口
未知 | 233046次下載 | 免費(fèi)
6電路仿真軟件multisim 10.0免費(fèi)下載
340992 | 191187次下載 | 免費(fèi)
7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程下載
158M | 183279次下載 | 免費(fèi)
8proe5.0野火版下載(中文版免費(fèi)下載)
未知 | 138040次下載 | 免費(fèi)

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

PyTorch教程11.4之Bahdanau注意力機(jī)制

資料介紹

11.4.1。模型

11.4.2。用注意力定義解碼器

評(píng)論

下載排行

本周

本月

總榜

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

PyTorch教程11.4之Bahdanau注意力機(jī)制

資料介紹

11.4.1。模型

11.4.2。用注意力定義解碼器

評(píng)論

下載排行

本周

本月

總榜

11.4.1。模型

11.4.2。用注意力定義解碼器