欧美肏屄系列久久久,亚洲一区在线观看XXX,久久久精品无码国产一区二区三

從俄國(guó)數(shù)學(xué)家 Andrey Markov （安德烈·馬爾可夫）提出著名的「馬爾科夫鏈」以來(lái)，語(yǔ)言建模的研究已經(jīng)有了 100 多年的歷史。近年來(lái)，自然語(yǔ)言處理（NLP）發(fā)生了革命性的變化。2001年，Yoshua Bengio 用神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)化的神經(jīng)語(yǔ)言模型，開(kāi)啟了語(yǔ)言建模的新時(shí)代。其后，預(yù)訓(xùn)練語(yǔ)言模型如 BERT 和 GPT 的出現(xiàn)再次將 NLP 提高到一個(gè)新的水平。

最近，字節(jié)跳動(dòng) AI Lab 的總監(jiān)李航博士在《ACM通訊》（The Communications of ACM）上發(fā)表了一篇綜述文章，展示了他對(duì)于語(yǔ)言模型在過(guò)去、現(xiàn)在和未來(lái)的觀(guān)察。

在本文中，李航博士首先介紹了馬爾可夫和香農(nóng)基于概率論研究的語(yǔ)言建模的基本概念。之后，他討論了喬姆斯基提出的基于形式語(yǔ)言理論的語(yǔ)言模型，描述了作為傳統(tǒng)語(yǔ)言模型的擴(kuò)展的神經(jīng)語(yǔ)言模型的定義。其后，他解釋了預(yù)訓(xùn)練語(yǔ)言模型的基本思想，最后討論了神經(jīng)語(yǔ)言建模方法的優(yōu)勢(shì)和局限性，并對(duì)未來(lái)的趨勢(shì)進(jìn)行預(yù)測(cè)。

李航認(rèn)為，在未來(lái)幾年，神經(jīng)語(yǔ)言模型尤其是預(yù)訓(xùn)練的語(yǔ)言模型仍將是 NLP 最有力的工具。他指出，預(yù)訓(xùn)練語(yǔ)言模型具有兩大優(yōu)勢(shì)，其一，它們可以顯著提高許多 NLP 任務(wù)的準(zhǔn)確性；例如，可以利用 BERT 模型來(lái)實(shí)現(xiàn)比人類(lèi)更好的語(yǔ)言理解性能，在語(yǔ)言生成方面還可以利用 GPT-3 模型生成類(lèi)似人類(lèi)寫(xiě)作的文本。其二，它們是通用的語(yǔ)言處理工具。在傳統(tǒng)的 NLP 中進(jìn)行基于機(jī)器學(xué)習(xí)的任務(wù)，必須標(biāo)記大量數(shù)據(jù)來(lái)訓(xùn)練一個(gè)模型，相比之下，目前只需要標(biāo)記少量數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練的語(yǔ)言模型，因?yàn)樗呀?jīng)獲得了語(yǔ)言處理所需的大量知識(shí)。

在文中，李航還提出一個(gè)重要的問(wèn)題，即如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來(lái)使模型在表征能力和計(jì)算效率方面更接近于人類(lèi)語(yǔ)言處理過(guò)程。他建議，我們應(yīng)當(dāng)從人類(lèi)大腦中尋找靈感。

李航，字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)、ACL Fellow、IEEE Fellow、ACM 杰出科學(xué)家。他碩士畢業(yè)于日本京都大學(xué)電氣工程系，后在東京大學(xué)取得計(jì)算機(jī)科學(xué)博士學(xué)位。畢業(yè)之后，他先后就職于 NEC 公司中央研究所（任研究員）、微軟亞洲研究院（任高級(jí)研究員與主任研究員）、華為技術(shù)有限公司諾亞方舟實(shí)驗(yàn)室（任首席科學(xué)家）。李航博士的主要研究方向包括自然語(yǔ)言處理、信息檢索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。

以下是 AI科技評(píng)論在不改變?cè)獾幕A(chǔ)上對(duì)原文所作編譯。

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)相交叉的一個(gè)子領(lǐng)域，在機(jī)器翻譯、閱讀理解、對(duì)話(huà)系統(tǒng)、文檔摘要、文本生成等方面都有應(yīng)用。近年來(lái)，深度學(xué)習(xí)已成為 NLP 的基礎(chǔ)技術(shù)。

使用數(shù)學(xué)方法對(duì)人類(lèi)語(yǔ)言建模有兩種主要方法：一種是基于概率理論，另一種是基于形式語(yǔ)言理論。這兩種方法也可以結(jié)合使用。從基本框架的角度來(lái)看，語(yǔ)言模型屬于第一類(lèi)。

形式上，語(yǔ)言模型是定義在單詞序列（句子或段落）上的概率分布。它是基于概率論、統(tǒng)計(jì)學(xué)、信息論和機(jī)器學(xué)習(xí)的自然語(yǔ)言文本建模的重要機(jī)制。深度學(xué)習(xí)的神經(jīng)語(yǔ)言模型，特別是最近開(kāi)發(fā)的預(yù)訓(xùn)練語(yǔ)言模型，已成為自然語(yǔ)言處理的基本技術(shù)。

1馬爾可夫與語(yǔ)言模型

Andrey Markov （安德烈·馬爾可夫）可能是第一位研究語(yǔ)言模型的科學(xué)家，盡管當(dāng)時(shí)「語(yǔ)言模型」一詞尚不存在。

假設(shè) w((1)), w((2)), ···, w((N)) 是一個(gè)單詞序列。我們可以計(jì)算這個(gè)單詞序列的概率如下：

設(shè) p(w((1))|w((0))) = p(w((1))) 。不同類(lèi)型的語(yǔ)言模型使用不同的方法來(lái)計(jì)算條件概率 p(w((i))|w((1)), w((2)), ···, w((i-1))) 。學(xué)習(xí)和使用語(yǔ)言模型的過(guò)程稱(chēng)為語(yǔ)言建模。n-gram 模型是一種基本模型，它假設(shè)每個(gè)位置出現(xiàn)什么單詞僅取決于前 n-1個(gè) 位置上是什么單詞。也就是說(shuō)，該模型是一個(gè) n–1 階馬爾可夫鏈。

馬爾可夫在 1906 年研究出了馬爾可夫鏈。他一開(kāi)始考慮的模型非常簡(jiǎn)單，在這個(gè)模型中，只有兩個(gè)狀態(tài)和這些狀態(tài)之間的轉(zhuǎn)換概率。他證明，如果根據(jù)轉(zhuǎn)換概率在兩個(gè)狀態(tài)之間跳躍，那么訪(fǎng)問(wèn)兩個(gè)狀態(tài)的頻率將收斂到期望值，這就是馬爾可夫鏈的遍歷定理。在接下來(lái)的幾年里，他擴(kuò)展了該模型，并證明了上述結(jié)論在更通用的情況下仍然成立。

這里舉一個(gè)具體的例子。1913年，馬爾可夫?qū)⑺岢龅哪Ｐ蛻?yīng)用于亞歷山大·普希金的詩(shī)體小說(shuō)《尤金·奧涅金》中。他去掉文本中的空格和標(biāo)點(diǎn)符號(hào)，將小說(shuō)的前 20000 個(gè)俄語(yǔ)字母分為元音和輔音，從而得到小說(shuō)中的元音和輔音序列。然后，他用紙和筆計(jì)算出元音和輔音之間的轉(zhuǎn)換概率。最后，這些數(shù)據(jù)被用來(lái)驗(yàn)證最簡(jiǎn)單的馬爾可夫鏈的特征。

非常有趣的是，馬爾可夫鏈最開(kāi)始被應(yīng)用的領(lǐng)域是語(yǔ)言。馬爾可夫研究的這個(gè)例子就是一個(gè)最簡(jiǎn)單的語(yǔ)言模型。

2香農(nóng)與語(yǔ)言模型

1948年， Claude Shannon （克勞德·香農(nóng)）發(fā)表了一篇開(kāi)創(chuàng)性的論文 “The Mathematical Theory of Communication”（《通信的數(shù)學(xué)理論》），開(kāi)辟了信息論這一研究領(lǐng)域。在這篇論文中，香農(nóng)引入了熵和交叉熵的概念，并研究了 n-gram 模型的性質(zhì)。（根據(jù)馮·諾依曼的建議，香農(nóng)借用了統(tǒng)計(jì)力學(xué)中的“熵”一詞。）

熵表示一個(gè)概率分布的不確定性，交叉熵則表示一個(gè)概率分布相對(duì)于另一個(gè)概率分布的不確定性。熵是交叉熵的下限。

假設(shè)語(yǔ)言（即一個(gè)單詞序列）是由隨機(jī)過(guò)程生成的數(shù)據(jù)。n-gram 的概率分布熵定義如下：

其中 p(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的概率。n-gram 概率分布相對(duì)于數(shù)據(jù)“真實(shí)”概率分布的交叉熵定義如下：

其中， q(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的概率，p(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的真實(shí)概率。以下關(guān)系成立：

Shannon-McMillan-Breiman 定理指出，當(dāng)語(yǔ)言的隨機(jī)過(guò)程滿(mǎn)足平穩(wěn)性和遍歷性條件時(shí)，以下關(guān)系成立：

換句話(huà)說(shuō)，當(dāng)單詞序列長(zhǎng)度趨于無(wú)窮大時(shí)，就可以定義語(yǔ)言的熵。熵取一個(gè)常數(shù)值，可以從語(yǔ)言數(shù)據(jù)中進(jìn)行估計(jì)。

如果一種語(yǔ)言模型比另一種語(yǔ)言模型更能準(zhǔn)確地預(yù)測(cè)單詞序列，那么它應(yīng)該具有較低的交叉熵。因此，香農(nóng)的工作為語(yǔ)言建模提供了一個(gè)評(píng)估工具。

需要注意的是，語(yǔ)言模型不僅可以對(duì)自然語(yǔ)言進(jìn)行建模，還可以對(duì)形式語(yǔ)言和半形式語(yǔ)言進(jìn)行建模。

3喬姆斯基與語(yǔ)言模型

與此同時(shí)，美國(guó)語(yǔ)言學(xué)家 Noam Chomsky（諾姆·喬姆斯基）在 1956 年提出了喬姆斯基語(yǔ)法結(jié)構(gòu)，用于表示語(yǔ)言的句法。他指出，有限狀態(tài)語(yǔ)法以及 n-gram 模型在描述自然語(yǔ)言方面具有局限性。

喬姆斯基的理論認(rèn)為，一種語(yǔ)言由一組有限或無(wú)限的句子組成，每個(gè)句子包含一系列長(zhǎng)度有限的單詞。單詞來(lái)自有限的詞匯庫(kù)，語(yǔ)法作為一組用于生成句子的規(guī)則，可以生成語(yǔ)言中的所有句子。不同的語(yǔ)法可以產(chǎn)生不同復(fù)雜程度的語(yǔ)言，從而構(gòu)成一個(gè)層次結(jié)構(gòu)。

有限狀態(tài)語(yǔ)法或正則語(yǔ)法，是指能夠生成有限狀態(tài)機(jī)可以接受的句子的語(yǔ)法。而能夠生成非確定性下推自動(dòng)機(jī)（non-deterministic pushdown automaton）可以接受的句子的語(yǔ)法則是上下文無(wú)關(guān)語(yǔ)法。有限狀態(tài)語(yǔ)法包含在上下文無(wú)關(guān)語(yǔ)法中。

有限馬爾可夫鏈（或 n-gram 模型）背后的「語(yǔ)法」就是有限狀態(tài)語(yǔ)法。有限狀態(tài)語(yǔ)法在生成英語(yǔ)句子方面確實(shí)有局限性。比方說(shuō)，英語(yǔ)的表達(dá)式之間存在如（i）和（ii）中的語(yǔ)法關(guān)系。

(i) If S1, then S2.

(ii) Either S3, or S4.

(iii) Either if S5, then S6, or if S7, then S8

原則上，我們可以無(wú)限地將這些關(guān)系進(jìn)行組合以產(chǎn)生正確的英語(yǔ)表達(dá)，比如（iii）。然而，有限狀態(tài)語(yǔ)法無(wú)法窮盡描述所有的組合，而且在理論上，有些英語(yǔ)句子是無(wú)法被涵蓋的。因此，喬姆斯基認(rèn)為，用有限狀態(tài)語(yǔ)法包括 n-gram 模型來(lái)描述語(yǔ)言有很大的局限性。相反，他指出上下文無(wú)關(guān)語(yǔ)法可以更有效地建模語(yǔ)言。在他的影響下，接下來(lái)的幾十年里，上下文無(wú)關(guān)語(yǔ)法在自然語(yǔ)言處理中更為常用。在今天，喬姆斯基的理論對(duì)自然語(yǔ)言處理的影響不大，但它仍具有重要的科學(xué)價(jià)值。

4神經(jīng)語(yǔ)言模型

2001年，Yoshua Bengio 和他的合著者提出了最早的神經(jīng)語(yǔ)言模型之一，開(kāi)創(chuàng)了語(yǔ)言建模的新時(shí)代。眾所周知，Bengio、Geoffrey Hinton 和 Yann LeCun 在概念和工程上的突破使深度神經(jīng)網(wǎng)絡(luò)成為計(jì)算的關(guān)鍵部分，他們因此而獲得 2018 年圖靈獎(jiǎng)。

n-gram 模型的學(xué)習(xí)能力有限。傳統(tǒng)方法是使用平滑方法從語(yǔ)料庫(kù)中估計(jì)模型中的條件概率 p(w((i))|w((i-n+1)), w((i-n+2)), ···, w((i-1))) 。然而，模型中的參數(shù)數(shù)量為指數(shù)級(jí) O(V((n)))，其中 V 表示詞匯量。當(dāng) n 增大時(shí)，由于訓(xùn)練數(shù)據(jù)的稀疏性，就無(wú)法準(zhǔn)確地學(xué)習(xí)模型的參數(shù)。

Bengio 等人提出的神經(jīng)語(yǔ)言模型從兩個(gè)方面改進(jìn)了 n-gram 模型。首先，被稱(chēng)為詞嵌入的實(shí)值向量，可用于表示單詞或單詞組合。單詞嵌入的維度比單詞的獨(dú)熱向量（one-hot vector）的維度要低得多，獨(dú)熱向量通過(guò)詞匯大小的向量表示文本中的詞，其中只有對(duì)應(yīng)于該詞的項(xiàng)是 1，而其他所有項(xiàng)都是 0。

詞嵌入作為一種「分布式表示」，可以比獨(dú)熱向量更有效地表示一個(gè)詞，它具有泛化能力、魯棒性和可擴(kuò)展性。其次，語(yǔ)言模型是由神經(jīng)網(wǎng)絡(luò)表示的，這大大減少了模型中的參數(shù)數(shù)量。條件概率由神經(jīng)網(wǎng)絡(luò)確定：

其中 (w((i-n+1)),w((i-n+2)), ···,w((i-1))) 表示單詞 w((i-n+1)), w((i-n+2)), ···, w((i-1)) ；f(·) 表示神經(jīng)網(wǎng)絡(luò)；? 表示網(wǎng)絡(luò)參數(shù)。模型中的參數(shù)數(shù)量?jī)H為 O(V) 階。下圖顯示了模型中各表征之間的關(guān)系。每個(gè)位置都有一個(gè)中間表征，它取決于前 n–1個(gè) 位置處的單詞嵌入（單詞），這個(gè)原則適用于所有位置。使用當(dāng)前位置的中間表征可以為該位置生成一個(gè)單詞。

圖 1：在初始神經(jīng)語(yǔ)言模型中各表征之間的關(guān)系

在 Bengio 等人的工作之后，大量的詞嵌入方法和神經(jīng)語(yǔ)言建模方法被開(kāi)發(fā)出來(lái)，從不同的角度未語(yǔ)言建模帶來(lái)了改進(jìn)。

詞嵌入的代表性方法包括 Word2Vec。代表性的神經(jīng)語(yǔ)言模型是循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型 (RNN) ，如長(zhǎng)短期記憶語(yǔ)言模型 (LSTM) 。在一個(gè) RNN 語(yǔ)言模型中，每個(gè)位置上單詞的條件概率由一個(gè) RNN 決定：

其中w((1)),w((2)), ···,w((i-1)) 表示詞的嵌入w((1)),w((2)), ···,w((i-1))；f(·) 表示 RNN；? 表示網(wǎng)絡(luò)參數(shù)。RNN 語(yǔ)言模型不再使用馬爾可夫假設(shè)，每個(gè)位置上的單詞都取決于之前所有位置上的單詞。RNN 的一個(gè)重要概念是它的中間表征或狀態(tài)。詞之間的依賴(lài)關(guān)系以 RNN 模型中狀態(tài)之間的依賴(lài)關(guān)系為特征。模型的參數(shù)在不同的位置可以共享，但在不同的位置得到的表征是不同的。

下圖顯示了 RNN 語(yǔ)言模型中各表征之間的關(guān)系。每個(gè)位置的每一層都有一個(gè)中間表征，它表示到目前為止單詞序列的「狀態(tài)」。當(dāng)前層在當(dāng)前位置的中間表征，由同一層在前一位置的中間表征和下一層在當(dāng)前位置的中間表征決定。當(dāng)前位置的最終中間表征用于計(jì)算下一個(gè)單詞的概率。

圖 2：RNN 語(yǔ)言模型中各表征之間的關(guān)系。這里標(biāo)記了句首（bos）和句尾（eos）。

語(yǔ)言模型可用于計(jì)算語(yǔ)言（詞序列）的概率或生成語(yǔ)言。比如在生成語(yǔ)言方面，可以通過(guò)從語(yǔ)言模型中隨機(jī)抽樣來(lái)生成自然語(yǔ)言的句子或文章。眾所周知，從大量數(shù)據(jù)中學(xué)習(xí)的 LSTM 語(yǔ)言模型可以生成非常自然的句子。

對(duì)語(yǔ)言模型的一個(gè)擴(kuò)展是條件語(yǔ)言模型，它計(jì)算一個(gè)詞序列在給定條件下的條件概率。如果條件是另一個(gè)詞序列，那么問(wèn)題就變成了從一個(gè)詞序列到另一個(gè)詞序列的轉(zhuǎn)換——即所謂的序列到序列問(wèn)題，涉及的任務(wù)如機(jī)器翻譯、文本摘要和生成對(duì)話(huà)。如果給定的條件是一張圖片，那么問(wèn)題就變成了從圖片到單詞序列的轉(zhuǎn)換，比如圖像捕捉任務(wù)。

條件語(yǔ)言模型可以用在各種各樣的應(yīng)用程序中。在機(jī)器翻譯中，在保持相同語(yǔ)義的條件下，系統(tǒng)將一種語(yǔ)言的句子轉(zhuǎn)換成另一種語(yǔ)言的句子。在對(duì)話(huà)生成中，系統(tǒng)對(duì)用戶(hù)的話(huà)語(yǔ)產(chǎn)生響應(yīng)，兩條消息構(gòu)成一輪對(duì)話(huà)。在文本摘要中，系統(tǒng)將長(zhǎng)文本轉(zhuǎn)換為短文本，后者包含前者的要點(diǎn)。由模型的條件概率分布所表示的語(yǔ)義因應(yīng)用程序而異，而且它們都是從應(yīng)用程序中的數(shù)據(jù)中來(lái)學(xué)習(xí)的。

序列到序列模型的研究為新技術(shù)的發(fā)展做出了貢獻(xiàn)。一個(gè)具有代表性的例子是由 Vaswani 等人開(kāi)發(fā)的 Transformer。Transformer 完全基于注意力機(jī)制，利用注意力在編碼器之間進(jìn)行編碼和解碼，以及在編碼器和解碼器之間進(jìn)行。目前，幾乎所有的機(jī)器翻譯系統(tǒng)都采用了 Transformer 模型，而且機(jī)器翻譯已經(jīng)達(dá)到了可以滿(mǎn)足實(shí)際需要的水平?，F(xiàn)在幾乎所有預(yù)訓(xùn)練的語(yǔ)言模型都采用 Transformer 架構(gòu)，因?yàn)樗谡Z(yǔ)言表示方面具有卓越的能力。

5預(yù)訓(xùn)練語(yǔ)言模型

預(yù)訓(xùn)練語(yǔ)言模型的基本思想如下。首先，基于如 transformer 的編碼器或解碼器來(lái)實(shí)現(xiàn)語(yǔ)言模型。該模型的學(xué)習(xí)分兩個(gè)階段：一是預(yù)訓(xùn)練階段，通過(guò)無(wú)監(jiān)督學(xué)習(xí)（也稱(chēng)為自監(jiān)督學(xué)習(xí)）使用大量的語(yǔ)料庫(kù)來(lái)訓(xùn)練模型的參數(shù)；二是微調(diào)階段，將預(yù)訓(xùn)練的模型應(yīng)用于一個(gè)特定的任務(wù)，并通過(guò)監(jiān)督學(xué)習(xí)使用少量標(biāo)記數(shù)據(jù)進(jìn)一步調(diào)整模型的參數(shù)。下表中的鏈接提供了學(xué)習(xí)和使用預(yù)訓(xùn)練語(yǔ)言模型的資源。

預(yù)訓(xùn)練語(yǔ)言模型有三種: 單向、雙向和序列到序列。由于篇幅所限，這里只介紹前兩種類(lèi)型。所有主要的預(yù)訓(xùn)練語(yǔ)言模型都采用了 Transformer 架構(gòu)。下表是對(duì)現(xiàn)有的預(yù)訓(xùn)練語(yǔ)言模型的概括。

Transformer 有很強(qiáng)的語(yǔ)言表示能力。一個(gè)非常大的語(yǔ)料庫(kù)會(huì)包含豐富的語(yǔ)言表達(dá)（這樣的未標(biāo)記數(shù)據(jù)很容易獲得），訓(xùn)練大規(guī)模深度學(xué)習(xí)模型就會(huì)變得更加高效。因此，預(yù)訓(xùn)練語(yǔ)言模型可以有效地表示語(yǔ)言中的詞匯、句法和語(yǔ)義特征。預(yù)訓(xùn)練語(yǔ)言模型如 BERT 和 GPT（GPT-1、GPT-2 和 GPT-3），已成為當(dāng)前 NLP 的核心技術(shù)。

預(yù)訓(xùn)的語(yǔ)言模型的應(yīng)用為 NLP 帶來(lái)了巨大的成功?！肝⒄{(diào)」的 BERT 在語(yǔ)言理解任務(wù)（如閱讀理解）的準(zhǔn)確性方面優(yōu)于人類(lèi)。「微調(diào)」的 GPT-3 在文本生成任務(wù)中也達(dá)到了驚人的流利程度。要注意的是，這些結(jié)果僅表明機(jī)器在這些任務(wù)中具有更高的性能；我們不應(yīng)簡(jiǎn)單地將其理解為 BERT 和 GPT-3 能比人類(lèi)更好地理解語(yǔ)言，因?yàn)檫@也取決于如何進(jìn)行基準(zhǔn)測(cè)試。從歷史上可以看到，對(duì)人工智能技術(shù)持有正確的理解和期望，對(duì)于機(jī)器的健康成長(zhǎng)和發(fā)展至關(guān)重要。

Radford 等人和 Brown 等人開(kāi)發(fā)的 GPT 具有以下架構(gòu)。輸入是單詞的序列 w((1)), w((2)), ···, w((N))。首先，通過(guò)輸入層，創(chuàng)建一系列輸入表征，記為矩陣H(((0)))。在通過(guò) L 個(gè) transformer 解碼器層之后，創(chuàng)建一系列中間表征序列，記為矩陣H(((L)))。

最后，基于該位置的最終中間表征來(lái)計(jì)算每個(gè)位置的單詞概率分布。GPT 的預(yù)訓(xùn)練與傳統(tǒng)的語(yǔ)言建模相同。目標(biāo)是預(yù)測(cè)單詞序列的可能性。對(duì)于給定的詞序列w= w((1)), w((2)), ···, w((N))，我們計(jì)算并最小化交叉熵或負(fù)對(duì)數(shù)似然來(lái)估計(jì)參數(shù) ：

其中 ? 指 GPTs 模型的參數(shù)。

下圖顯示了 GPTs 模型中各表征之間的關(guān)系。每個(gè)位置上的輸入表征由詞嵌入和“位置嵌入”組成。每個(gè)位置上的每一層的中間表征是從下一層在先前位置上的中間表征創(chuàng)建的。單詞的預(yù)測(cè)或生成在每個(gè)位置從左到右重復(fù)執(zhí)行。換句話(huà)說(shuō)，GPT 是一種單向語(yǔ)言模型，其中單詞序列是從單一方向建模的。（注意，RNN 語(yǔ)言模型也是單向語(yǔ)言模型。）因此，GPT 更適合解決自動(dòng)生成句子的語(yǔ)言生成問(wèn)題。

圖 3：GPTs 語(yǔ)言模型中各表征之間的關(guān)系。這里標(biāo)記了句首（bos）和句尾（eos）。

由 Devlin 等人開(kāi)發(fā)的 BERT 具有以下架構(gòu)。輸入是一個(gè)單詞序列，它可以是來(lái)自單個(gè)文檔的連續(xù)句子，也可以是來(lái)自?xún)蓚€(gè)文檔的連續(xù)句子的串聯(lián)。這使得該模型適用于以一個(gè)文本為輸入的任務(wù)（例如文本分類(lèi)），以及以?xún)蓚€(gè)文本為輸入的任務(wù)（例如回答問(wèn)題）。首先，通過(guò)輸入層，創(chuàng)建一系列輸入表征，記為矩陣 H(((0)))。通過(guò) L 個(gè) transformer 編碼器層之后，創(chuàng)建一個(gè)中間表征序列，記為H(((L)))。

最后，可以根據(jù)該位置上的最終中間表征，來(lái)計(jì)算每個(gè)位置上單詞的概率分布。BERT 的預(yù)訓(xùn)練被執(zhí)行為所謂的掩碼語(yǔ)言建模。假設(shè)詞序列為w= w((1)), w((2)), ···, w((N))。序列中的幾個(gè)單詞被隨機(jī)掩蔽——即更改為特殊符號(hào) [mask] —— 從而產(chǎn)生一個(gè)新的單詞序列其中掩碼詞的集合記為學(xué)習(xí)的目標(biāo)是通過(guò)計(jì)算和最小化下面的負(fù)對(duì)數(shù)似然來(lái)估計(jì)參數(shù)，以恢復(fù)被掩蔽的單詞：

其中 ? 表示 BERT 模型的參數(shù)，δ((i)) 取值為 1 或 0，表示位置 i 處的單詞是否被掩蔽。注意，掩碼語(yǔ)言建模已經(jīng)是一種不同于傳統(tǒng)語(yǔ)言建模的技術(shù)。

圖4展示了 BERT 模型中表示之間的關(guān)系。每個(gè)位置的輸入表示由詞嵌入、「位置嵌入」等組成，每層在每個(gè)位置的中間表征，是由下面一層在所有位置的中間表征創(chuàng)建的，詞的預(yù)測(cè)或生成是在每個(gè)掩碼位置獨(dú)立進(jìn)行的--參見(jiàn)（圖3）。也就是說(shuō)，BERT是一個(gè)雙向語(yǔ)言模型，其中單詞序列是從兩個(gè)方向建模的。因此，BERT可以自然地應(yīng)用于語(yǔ)言理解問(wèn)題，其輸入是整個(gè)單詞序列，其輸出通常是一個(gè)標(biāo)簽或一個(gè)標(biāo)簽序列。

圖 4:BERT 模型中各表征之間的關(guān)系。這里表示代表整個(gè)輸入序列的特殊符號(hào)。

對(duì)預(yù)訓(xùn)練語(yǔ)言模型的一個(gè)直觀(guān)解釋是，機(jī)器在預(yù)訓(xùn)練中根據(jù)大型語(yǔ)料庫(kù)進(jìn)行了大量的單詞接龍（GPT）或單詞完形填空練習(xí)（BERT），捕捉到由單詞組成句子的各種模式，由句子組成文章，并在模型中表達(dá)和記憶了這些模式。

一個(gè)文本不是由單詞和句子隨機(jī)產(chǎn)生的，而是基于詞法、句法和語(yǔ)義規(guī)則來(lái)構(gòu)建。GPT 和 BERT 可以分別使用轉(zhuǎn)化器的解碼器和編碼器，來(lái)實(shí)現(xiàn)語(yǔ)言的組合性(組合性是語(yǔ)言最基本的特征，它也是由Chomsky 層次結(jié)構(gòu)中的語(yǔ)法所建模的)。換句話(huà)說(shuō)，GPT 和 BERT 在預(yù)訓(xùn)練中已經(jīng)獲得了相當(dāng)數(shù)量的詞匯、句法和語(yǔ)義知識(shí)。因此，當(dāng)適應(yīng)微調(diào)中的特定任務(wù)時(shí)，只需少量標(biāo)記數(shù)據(jù)即可對(duì)模型進(jìn)行細(xì)化，從而實(shí)現(xiàn)高性能。例如，人們發(fā)現(xiàn) BERT 的不同層有不同的特點(diǎn)，底層主要代表詞法知識(shí)，中間層主要代表句法知識(shí)，而頂層主要代表語(yǔ)義知識(shí)。

預(yù)訓(xùn)練的語(yǔ)言模型（沒(méi)有微調(diào)），例如 BERT 和 GPT-3，就包含大量的事實(shí)知識(shí)，它們可以用來(lái)回答諸如「但丁在哪里出生？」之類(lèi)的問(wèn)題，只要它們?cè)谟?xùn)練數(shù)據(jù)中獲得了知識(shí)，就可以進(jìn)行簡(jiǎn)單的推理，例如「48加76是多少？」

但是語(yǔ)言模型本身沒(méi)有推理機(jī)制，其「推理」能力是基于聯(lián)想、而不是真正的邏輯推理。因此，它們?cè)谛枰獜?fù)雜推理的問(wèn)題上表現(xiàn)不佳，包括論證推理、數(shù)值和時(shí)間推理和話(huà)語(yǔ)推理，將推理能力和語(yǔ)言能力集成到 NLP 系統(tǒng)中，將是未來(lái)的一個(gè)重要課題。

6未來(lái)展望

當(dāng)代科學(xué)（腦科學(xué)和認(rèn)知科學(xué)）對(duì)人類(lèi)語(yǔ)言處理機(jī)制（語(yǔ)言理解和語(yǔ)言生成）的理解有限。在可預(yù)見(jiàn)的未來(lái)，很難看到有重大突破發(fā)生，永遠(yuǎn)不會(huì)突破的可能性是存在的。另一方面，我們希望不斷推動(dòng)人工智能技術(shù)的發(fā)展，開(kāi)發(fā)出對(duì)人類(lèi)有用的語(yǔ)言處理機(jī)器，神經(jīng)語(yǔ)言建模似乎是迄今為止最成功的方法。

目前看來(lái)，神經(jīng)語(yǔ)言建模是迄今為止最成功的方法，它的基本特征沒(méi)有改變--那就是，它依賴(lài)于在包含所有單詞序列的離散空間中定義的概率分布。學(xué)習(xí)過(guò)程是為了找到最佳模型，以便交叉熵在預(yù)測(cè)語(yǔ)言數(shù)據(jù)的準(zhǔn)確性方面是最高的（圖5）。

神經(jīng)語(yǔ)言建模通過(guò)神經(jīng)網(wǎng)絡(luò)構(gòu)建模型，其優(yōu)點(diǎn)在于，它可以利用復(fù)雜的模型、大數(shù)據(jù)和強(qiáng)大的計(jì)算來(lái)非常準(zhǔn)確地模擬人類(lèi)語(yǔ)言行為。從 Bengio 等人提出的原始模型、到 RNN 語(yǔ)言模型以及 GPT 和 BERT 等預(yù)訓(xùn)練語(yǔ)言模型，神經(jīng)網(wǎng)絡(luò)的架構(gòu)變得越來(lái)越復(fù)雜（如圖1-4），而預(yù)測(cè)語(yǔ)言的能力也越來(lái)越高（交叉熵越來(lái)越小）。然而，這并不一定意味著這些模型具有和人類(lèi)一樣的語(yǔ)言能力，而且其局限性也是不言而喻的。

圖5：機(jī)器通過(guò)調(diào)整其「大腦」內(nèi)的神經(jīng)網(wǎng)絡(luò)參數(shù)來(lái)模仿人類(lèi)語(yǔ)言行為，最終它可以像人類(lèi)一樣處理語(yǔ)言

那么，有其他可能的發(fā)展路徑嗎？目前還不清楚。但可以預(yù)見(jiàn)的是，神經(jīng)語(yǔ)言建模的方法仍有很多改進(jìn)機(jī)會(huì)。

目前，神經(jīng)語(yǔ)言模型與人腦在表示能力和計(jì)算效率（功耗方面）方面還有很大差距，成人大腦的工作功率僅為 12 W，而訓(xùn)練 GPT-3 模型消耗了數(shù)千 Petaflop/s-day，這形成了鮮明的對(duì)比。能否開(kāi)發(fā)出更好的語(yǔ)言模型、使其更接近人類(lèi)語(yǔ)言處理，是未來(lái)研究的重要方向。我們可以從有限的腦科學(xué)發(fā)現(xiàn)中學(xué)習(xí)，技術(shù)提升仍然有很多機(jī)會(huì)。

人類(lèi)語(yǔ)言處理被認(rèn)為主要在大腦皮層的兩個(gè)大腦區(qū)域進(jìn)行：布羅卡區(qū)和韋尼克區(qū)（圖6）。前者負(fù)責(zé)語(yǔ)法，后者負(fù)責(zé)詞匯。腦損傷導(dǎo)致失語(yǔ)的典型案例有兩種，布羅卡區(qū)受傷的患者只能說(shuō)出零星的單詞而無(wú)法說(shuō)出句子，而韋尼克區(qū)受傷的患者可以構(gòu)建語(yǔ)法正確的句子，但單詞往往缺乏意義。

一個(gè)自然的假設(shè)是，人類(lèi)語(yǔ)言處理是在兩個(gè)大腦區(qū)域中并行進(jìn)行的，是否需要采用更人性化的處理機(jī)制是一個(gè)值得研究的課題。正如Chomsky所指出的，語(yǔ)言模型沒(méi)有明確地使用語(yǔ)法，也不能無(wú)限地組合語(yǔ)言，這是人類(lèi)語(yǔ)言的一個(gè)重要屬性，將語(yǔ)法更直接地結(jié)合到語(yǔ)言模型中的能力、將是一個(gè)需要研究的問(wèn)題。

圖6：人腦中負(fù)責(zé)語(yǔ)言處理的區(qū)域

腦科學(xué)家認(rèn)為，人類(lèi)語(yǔ)言理解是在潛意識(shí)中激活相關(guān)概念的表征、并在意識(shí)中生成相關(guān)圖像的過(guò)程。表征包括視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)和味覺(jué)表征，它們是人在成長(zhǎng)和發(fā)育過(guò)程中的經(jīng)歷、在大腦各部分記憶的概念的視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)和味覺(jué)內(nèi)容。

因此，語(yǔ)言理解與人們的經(jīng)驗(yàn)密切相關(guān)。生活中的基本概念，比如貓和狗，都是通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等傳感器的輸入來(lái)學(xué)習(xí)的，當(dāng)聽(tīng)到或看到「貓」和「狗」這兩個(gè)詞，就會(huì)重新激活人們大腦中與其相關(guān)的視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)表征。

機(jī)器能否從大量的多模態(tài)數(shù)據(jù)（語(yǔ)言、視覺(jué)、語(yǔ)音）中學(xué)習(xí)更好的模型，從而更智能地處理語(yǔ)言、視覺(jué)和語(yǔ)音？多模態(tài)語(yǔ)言模型將是未來(lái)探索的重要課題。最近，該主題的研究也取得了一些進(jìn)展——例如，Ramesh 等人發(fā)表的「Zero-shot text-to-image generation」，Radford 等人的「Learning transferable visual models from natural language supervision」。

7結(jié)語(yǔ)

語(yǔ)言模型的歷史可以追溯到一百多年前，Markov、Shannon 等人沒(méi)有預(yù)見(jiàn)到他們所研究的模型和理論會(huì)在后來(lái)產(chǎn)生如此大的影響；對(duì) Bengio 來(lái)說(shuō)，這甚至可能是出乎意料的。

未來(lái)一百年，語(yǔ)言模型將如何發(fā)展？它們?nèi)匀皇侨斯ぶ悄芗夹g(shù)的重要組成部分嗎？這可能超出了我們所能想象和預(yù)測(cè)的范圍。但可以看到，語(yǔ)言建模技術(shù)在不斷發(fā)展。在未來(lái)幾年，可能有更強(qiáng)大的模型出現(xiàn)會(huì)取代 BERT 和 GPT，我們有幸成為看到巨大成就的技術(shù)、并參與研發(fā)的第一代。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103668
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8503

瀏覽量
134642
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
628

瀏覽量
14165

原文標(biāo)題：李航老師對(duì)預(yù)訓(xùn)練語(yǔ)言模型發(fā)展的一些看法

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

馬爾可夫與語(yǔ)言模型

評(píng)論