99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

馬爾可夫與語(yǔ)言模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:AI科技評(píng)論 ? 作者:李航 ? 2022-07-13 14:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從俄國(guó)數(shù)學(xué)家 Andrey Markov (安德烈·馬爾可夫)提出著名的「馬爾科夫鏈」以來(lái),語(yǔ)言建模的研究已經(jīng)有了 100 多年的歷史。近年來(lái),自然語(yǔ)言處理(NLP)發(fā)生了革命性的變化。2001年,Yoshua Bengio 用神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)化的神經(jīng)語(yǔ)言模型,開(kāi)啟了語(yǔ)言建模的新時(shí)代。其后,預(yù)訓(xùn)練語(yǔ)言模型如 BERT 和 GPT 的出現(xiàn)再次將 NLP 提高到一個(gè)新的水平。

最近,字節(jié)跳動(dòng) AI Lab 的總監(jiān)李航博士在《ACM通訊》(The Communications of ACM)上發(fā)表了一篇綜述文章,展示了他對(duì)于語(yǔ)言模型在過(guò)去、現(xiàn)在和未來(lái)的觀(guān)察。

在本文中,李航博士首先介紹了馬爾可夫和香農(nóng)基于概率論研究的語(yǔ)言建模的基本概念。之后,他討論了喬姆斯基提出的基于形式語(yǔ)言理論的語(yǔ)言模型,描述了作為傳統(tǒng)語(yǔ)言模型的擴(kuò)展的神經(jīng)語(yǔ)言模型的定義。其后,他解釋了預(yù)訓(xùn)練語(yǔ)言模型的基本思想,最后討論了神經(jīng)語(yǔ)言建模方法的優(yōu)勢(shì)和局限性,并對(duì)未來(lái)的趨勢(shì)進(jìn)行預(yù)測(cè)。

李航認(rèn)為,在未來(lái)幾年,神經(jīng)語(yǔ)言模型尤其是預(yù)訓(xùn)練的語(yǔ)言模型仍將是 NLP 最有力的工具。他指出,預(yù)訓(xùn)練語(yǔ)言模型具有兩大優(yōu)勢(shì),其一,它們可以顯著提高許多 NLP 任務(wù)的準(zhǔn)確性;例如,可以利用 BERT 模型來(lái)實(shí)現(xiàn)比人類(lèi)更好的語(yǔ)言理解性能,在語(yǔ)言生成方面還可以利用 GPT-3 模型生成類(lèi)似人類(lèi)寫(xiě)作的文本。其二,它們是通用的語(yǔ)言處理工具。在傳統(tǒng)的 NLP 中進(jìn)行基于機(jī)器學(xué)習(xí)的任務(wù),必須標(biāo)記大量數(shù)據(jù)來(lái)訓(xùn)練一個(gè)模型,相比之下,目前只需要標(biāo)記少量數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練的語(yǔ)言模型,因?yàn)樗呀?jīng)獲得了語(yǔ)言處理所需的大量知識(shí)。

在文中,李航還提出一個(gè)重要的問(wèn)題,即如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來(lái)使模型在表征能力和計(jì)算效率方面更接近于人類(lèi)語(yǔ)言處理過(guò)程。他建議,我們應(yīng)當(dāng)從人類(lèi)大腦中尋找靈感。

李航,字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)、ACL Fellow、IEEE Fellow、ACM 杰出科學(xué)家。他碩士畢業(yè)于日本京都大學(xué)電氣工程系,后在東京大學(xué)取得計(jì)算機(jī)科學(xué)博士學(xué)位。畢業(yè)之后,他先后就職于 NEC 公司中央研究所(任研究員)、微軟亞洲研究院(任高級(jí)研究員與主任研究員)、華為技術(shù)有限公司諾亞方舟實(shí)驗(yàn)室(任首席科學(xué)家)。李航博士的主要研究方向包括自然語(yǔ)言處理、信息檢索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。

以下是 AI科技評(píng)論在不改變?cè)獾幕A(chǔ)上對(duì)原文所作編譯。

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)相交叉的一個(gè)子領(lǐng)域,在機(jī)器翻譯、閱讀理解、對(duì)話(huà)系統(tǒng)、文檔摘要、文本生成等方面都有應(yīng)用。近年來(lái),深度學(xué)習(xí)已成為 NLP 的基礎(chǔ)技術(shù)。

使用數(shù)學(xué)方法對(duì)人類(lèi)語(yǔ)言建模有兩種主要方法:一種是基于概率理論,另一種是基于形式語(yǔ)言理論。這兩種方法也可以結(jié)合使用。從基本框架的角度來(lái)看,語(yǔ)言模型屬于第一類(lèi)。

形式上,語(yǔ)言模型是定義在單詞序列(句子或段落)上的概率分布。它是基于概率論、統(tǒng)計(jì)學(xué)、信息論和機(jī)器學(xué)習(xí)的自然語(yǔ)言文本建模的重要機(jī)制。深度學(xué)習(xí)的神經(jīng)語(yǔ)言模型,特別是最近開(kāi)發(fā)的預(yù)訓(xùn)練語(yǔ)言模型,已成為自然語(yǔ)言處理的基本技術(shù)。

1馬爾可夫與語(yǔ)言模型

Andrey Markov (安德烈·馬爾可夫)可能是第一位研究語(yǔ)言模型的科學(xué)家,盡管當(dāng)時(shí)「語(yǔ)言模型」一詞尚不存在。

假設(shè) w((1)), w((2)), ···, w((N)) 是一個(gè)單詞序列。我們可以計(jì)算這個(gè)單詞序列的概率如下:

bf9349d6-01c9-11ed-ba43-dac502259ad0.jpg

設(shè) p(w((1))|w((0))) = p(w((1))) 。不同類(lèi)型的語(yǔ)言模型使用不同的方法來(lái)計(jì)算條件概率 p(w((i))|w((1)), w((2)), ···, w((i-1))) 。學(xué)習(xí)和使用語(yǔ)言模型的過(guò)程稱(chēng)為語(yǔ)言建模。n-gram 模型是一種基本模型,它假設(shè)每個(gè)位置出現(xiàn)什么單詞僅取決于前 n-1個(gè) 位置上是什么單詞。也就是說(shuō),該模型是一個(gè) n–1 階馬爾可夫鏈。

bfa91112-01c9-11ed-ba43-dac502259ad0.jpg

馬爾可夫在 1906 年研究出了馬爾可夫鏈。他一開(kāi)始考慮的模型非常簡(jiǎn)單,在這個(gè)模型中,只有兩個(gè)狀態(tài)和這些狀態(tài)之間的轉(zhuǎn)換概率。他證明,如果根據(jù)轉(zhuǎn)換概率在兩個(gè)狀態(tài)之間跳躍,那么訪(fǎng)問(wèn)兩個(gè)狀態(tài)的頻率將收斂到期望值,這就是馬爾可夫鏈的遍歷定理。在接下來(lái)的幾年里,他擴(kuò)展了該模型,并證明了上述結(jié)論在更通用的情況下仍然成立。

這里舉一個(gè)具體的例子。1913年,馬爾可夫?qū)⑺岢龅哪P蛻?yīng)用于亞歷山大·普希金的詩(shī)體小說(shuō)《尤金·奧涅金》中。他去掉文本中的空格和標(biāo)點(diǎn)符號(hào),將小說(shuō)的前 20000 個(gè)俄語(yǔ)字母分為元音和輔音,從而得到小說(shuō)中的元音和輔音序列。然后,他用紙和筆計(jì)算出元音和輔音之間的轉(zhuǎn)換概率。最后,這些數(shù)據(jù)被用來(lái)驗(yàn)證最簡(jiǎn)單的馬爾可夫鏈的特征。

非常有趣的是,馬爾可夫鏈最開(kāi)始被應(yīng)用的領(lǐng)域是語(yǔ)言。馬爾可夫研究的這個(gè)例子就是一個(gè)最簡(jiǎn)單的語(yǔ)言模型。

2香農(nóng)與語(yǔ)言模型

1948年, Claude Shannon (克勞德·香農(nóng))發(fā)表了一篇開(kāi)創(chuàng)性的論文 “The Mathematical Theory of Communication”(《通信的數(shù)學(xué)理論》),開(kāi)辟了信息論這一研究領(lǐng)域。在這篇論文中,香農(nóng)引入了熵和交叉熵的概念,并研究了 n-gram 模型的性質(zhì)。(根據(jù)馮·諾依曼的建議,香農(nóng)借用了統(tǒng)計(jì)力學(xué)中的“熵”一詞。)

熵表示一個(gè)概率分布的不確定性,交叉熵則表示一個(gè)概率分布相對(duì)于另一個(gè)概率分布的不確定性。熵是交叉熵的下限。

假設(shè)語(yǔ)言(即一個(gè)單詞序列)是由隨機(jī)過(guò)程生成的數(shù)據(jù)。n-gram 的概率分布熵定義如下:

bfb81658-01c9-11ed-ba43-dac502259ad0.jpg

其中 p(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的概率。n-gram 概率分布相對(duì)于數(shù)據(jù)“真實(shí)”概率分布的交叉熵定義如下:

bfcf750a-01c9-11ed-ba43-dac502259ad0.jpg

其中, q(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的概率,p(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的真實(shí)概率。以下關(guān)系成立:

bff61642-01c9-11ed-ba43-dac502259ad0.jpg

Shannon-McMillan-Breiman 定理指出,當(dāng)語(yǔ)言的隨機(jī)過(guò)程滿(mǎn)足平穩(wěn)性和遍歷性條件時(shí),以下關(guān)系成立:

c00f7934-01c9-11ed-ba43-dac502259ad0.jpg

換句話(huà)說(shuō),當(dāng)單詞序列長(zhǎng)度趨于無(wú)窮大時(shí),就可以定義語(yǔ)言的熵。熵取一個(gè)常數(shù)值,可以從語(yǔ)言數(shù)據(jù)中進(jìn)行估計(jì)。

如果一種語(yǔ)言模型比另一種語(yǔ)言模型更能準(zhǔn)確地預(yù)測(cè)單詞序列,那么它應(yīng)該具有較低的交叉熵。因此,香農(nóng)的工作為語(yǔ)言建模提供了一個(gè)評(píng)估工具。

需要注意的是,語(yǔ)言模型不僅可以對(duì)自然語(yǔ)言進(jìn)行建模,還可以對(duì)形式語(yǔ)言和半形式語(yǔ)言進(jìn)行建模。

3喬姆斯基與語(yǔ)言模型

與此同時(shí), 美國(guó)語(yǔ)言學(xué)家 Noam Chomsky(諾姆·喬姆斯基)在 1956 年提出了喬姆斯基語(yǔ)法結(jié)構(gòu),用于表示語(yǔ)言的句法。他指出,有限狀態(tài)語(yǔ)法以及 n-gram 模型在描述自然語(yǔ)言方面具有局限性。

喬姆斯基的理論認(rèn)為,一種語(yǔ)言由一組有限或無(wú)限的句子組成,每個(gè)句子包含一系列長(zhǎng)度有限的單詞。單詞來(lái)自有限的詞匯庫(kù),語(yǔ)法作為一組用于生成句子的規(guī)則,可以生成語(yǔ)言中的所有句子。不同的語(yǔ)法可以產(chǎn)生不同復(fù)雜程度的語(yǔ)言,從而構(gòu)成一個(gè)層次結(jié)構(gòu)。

有限狀態(tài)語(yǔ)法或正則語(yǔ)法,是指能夠生成有限狀態(tài)機(jī)可以接受的句子的語(yǔ)法。而能夠生成非確定性下推自動(dòng)機(jī)(non-deterministic pushdown automaton)可以接受的句子的語(yǔ)法則是上下文無(wú)關(guān)語(yǔ)法。有限狀態(tài)語(yǔ)法包含在上下文無(wú)關(guān)語(yǔ)法中。

有限馬爾可夫鏈(或 n-gram 模型)背后的「語(yǔ)法」就是有限狀態(tài)語(yǔ)法。有限狀態(tài)語(yǔ)法在生成英語(yǔ)句子方面確實(shí)有局限性。比方說(shuō),英語(yǔ)的表達(dá)式之間存在如(i)和(ii)中的語(yǔ)法關(guān)系。

(i) If S1, then S2.

(ii) Either S3, or S4.

(iii) Either if S5, then S6, or if S7, then S8

原則上,我們可以無(wú)限地將這些關(guān)系進(jìn)行組合以產(chǎn)生正確的英語(yǔ)表達(dá),比如(iii)。然而,有限狀態(tài)語(yǔ)法無(wú)法窮盡描述所有的組合,而且在理論上,有些英語(yǔ)句子是無(wú)法被涵蓋的。因此,喬姆斯基認(rèn)為,用有限狀態(tài)語(yǔ)法包括 n-gram 模型來(lái)描述語(yǔ)言有很大的局限性。相反,他指出上下文無(wú)關(guān)語(yǔ)法可以更有效地建模語(yǔ)言。在他的影響下,接下來(lái)的幾十年里,上下文無(wú)關(guān)語(yǔ)法在自然語(yǔ)言處理中更為常用。在今天,喬姆斯基的理論對(duì)自然語(yǔ)言處理的影響不大,但它仍具有重要的科學(xué)價(jià)值。

4神經(jīng)語(yǔ)言模型

2001年,Yoshua Bengio 和他的合著者提出了最早的神經(jīng)語(yǔ)言模型之一,開(kāi)創(chuàng)了語(yǔ)言建模的新時(shí)代。眾所周知,Bengio、Geoffrey Hinton 和 Yann LeCun 在概念和工程上的突破使深度神經(jīng)網(wǎng)絡(luò)成為計(jì)算的關(guān)鍵部分,他們因此而獲得 2018 年圖靈獎(jiǎng)。

n-gram 模型的學(xué)習(xí)能力有限。傳統(tǒng)方法是使用平滑方法從語(yǔ)料庫(kù)中估計(jì)模型中的條件概率 p(w((i))|w((i-n+1)), w((i-n+2)), ···, w((i-1))) 。然而,模型中的參數(shù)數(shù)量為指數(shù)級(jí) O(V((n))),其中 V 表示詞匯量。當(dāng) n 增大時(shí),由于訓(xùn)練數(shù)據(jù)的稀疏性,就無(wú)法準(zhǔn)確地學(xué)習(xí)模型的參數(shù)。

Bengio 等人提出的神經(jīng)語(yǔ)言模型從兩個(gè)方面改進(jìn)了 n-gram 模型。首先,被稱(chēng)為詞嵌入的實(shí)值向量,可用于表示單詞或單詞組合。單詞嵌入的維度比單詞的獨(dú)熱向量(one-hot vector)的維度要低得多,獨(dú)熱向量通過(guò)詞匯大小的向量表示文本中的詞,其中只有對(duì)應(yīng)于該詞的項(xiàng)是 1,而其他所有項(xiàng)都是 0。

詞嵌入作為一種「分布式表示」,可以比獨(dú)熱向量更有效地表示一個(gè)詞,它具有泛化能力、魯棒性和可擴(kuò)展性。其次,語(yǔ)言模型是由神經(jīng)網(wǎng)絡(luò)表示的,這大大減少了模型中的參數(shù)數(shù)量。條件概率由神經(jīng)網(wǎng)絡(luò)確定:

c025365c-01c9-11ed-ba43-dac502259ad0.jpg

其中 (w((i-n+1)),w((i-n+2)), ···,w((i-1))) 表示單詞 w((i-n+1)), w((i-n+2)), ···, w((i-1)) ;f(·) 表示神經(jīng)網(wǎng)絡(luò);? 表示網(wǎng)絡(luò)參數(shù)。模型中的參數(shù)數(shù)量?jī)H為 O(V) 階。下圖顯示了模型中各表征之間的關(guān)系。每個(gè)位置都有一個(gè)中間表征,它取決于前 n–1個(gè) 位置處的單詞嵌入(單詞),這個(gè)原則適用于所有位置。使用當(dāng)前位置的中間表征可以為該位置生成一個(gè)單詞。

c04435b6-01c9-11ed-ba43-dac502259ad0.jpg

圖 1:在初始神經(jīng)語(yǔ)言模型中各表征之間的關(guān)系

在 Bengio 等人的工作之后,大量的詞嵌入方法和神經(jīng)語(yǔ)言建模方法被開(kāi)發(fā)出來(lái),從不同的角度未語(yǔ)言建模帶來(lái)了改進(jìn)。

詞嵌入的代表性方法包括 Word2Vec。代表性的神經(jīng)語(yǔ)言模型是循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型 (RNN) ,如長(zhǎng)短期記憶語(yǔ)言模型 (LSTM) 。在一個(gè) RNN 語(yǔ)言模型中,每個(gè)位置上單詞的條件概率由一個(gè) RNN 決定:

c0609ca6-01c9-11ed-ba43-dac502259ad0.jpg

其中w((1)),w((2)), ···,w((i-1)) 表示詞的嵌入w((1)),w((2)), ···,w((i-1));f(·) 表示 RNN;? 表示網(wǎng)絡(luò)參數(shù)。RNN 語(yǔ)言模型不再使用馬爾可夫假設(shè),每個(gè)位置上的單詞都取決于之前所有位置上的單詞。RNN 的一個(gè)重要概念是它的中間表征或狀態(tài)。詞之間的依賴(lài)關(guān)系以 RNN 模型中狀態(tài)之間的依賴(lài)關(guān)系為特征。模型的參數(shù)在不同的位置可以共享,但在不同的位置得到的表征是不同的。

下圖顯示了 RNN 語(yǔ)言模型中各表征之間的關(guān)系。每個(gè)位置的每一層都有一個(gè)中間表征,它表示到目前為止單詞序列的「狀態(tài)」。當(dāng)前層在當(dāng)前位置的中間表征,由同一層在前一位置的中間表征和下一層在當(dāng)前位置的中間表征決定。當(dāng)前位置的最終中間表征用于計(jì)算下一個(gè)單詞的概率。

c07eadea-01c9-11ed-ba43-dac502259ad0.jpg

圖 2:RNN 語(yǔ)言模型中各表征之間的關(guān)系。這里標(biāo)記了句首(bos)和句尾(eos)。

語(yǔ)言模型可用于計(jì)算語(yǔ)言(詞序列)的概率或生成語(yǔ)言。比如在生成語(yǔ)言方面,可以通過(guò)從語(yǔ)言模型中隨機(jī)抽樣來(lái)生成自然語(yǔ)言的句子或文章。眾所周知,從大量數(shù)據(jù)中學(xué)習(xí)的 LSTM 語(yǔ)言模型可以生成非常自然的句子。

對(duì)語(yǔ)言模型的一個(gè)擴(kuò)展是條件語(yǔ)言模型,它計(jì)算一個(gè)詞序列在給定條件下的條件概率。如果條件是另一個(gè)詞序列,那么問(wèn)題就變成了從一個(gè)詞序列到另一個(gè)詞序列的轉(zhuǎn)換——即所謂的序列到序列問(wèn)題,涉及的任務(wù)如機(jī)器翻譯、文本摘要和生成對(duì)話(huà)。如果給定的條件是一張圖片,那么問(wèn)題就變成了從圖片到單詞序列的轉(zhuǎn)換,比如圖像捕捉任務(wù)。

條件語(yǔ)言模型可以用在各種各樣的應(yīng)用程序中。在機(jī)器翻譯中,在保持相同語(yǔ)義的條件下,系統(tǒng)將一種語(yǔ)言的句子轉(zhuǎn)換成另一種語(yǔ)言的句子。在對(duì)話(huà)生成中,系統(tǒng)對(duì)用戶(hù)的話(huà)語(yǔ)產(chǎn)生響應(yīng),兩條消息構(gòu)成一輪對(duì)話(huà)。在文本摘要中,系統(tǒng)將長(zhǎng)文本轉(zhuǎn)換為短文本,后者包含前者的要點(diǎn)。由模型的條件概率分布所表示的語(yǔ)義因應(yīng)用程序而異,而且它們都是從應(yīng)用程序中的數(shù)據(jù)中來(lái)學(xué)習(xí)的。

序列到序列模型的研究為新技術(shù)的發(fā)展做出了貢獻(xiàn)。一個(gè)具有代表性的例子是由 Vaswani 等人開(kāi)發(fā)的 Transformer。Transformer 完全基于注意力機(jī)制,利用注意力在編碼器之間進(jìn)行編碼和解碼,以及在編碼器和解碼器之間進(jìn)行。目前,幾乎所有的機(jī)器翻譯系統(tǒng)都采用了 Transformer 模型,而且機(jī)器翻譯已經(jīng)達(dá)到了可以滿(mǎn)足實(shí)際需要的水平?,F(xiàn)在幾乎所有預(yù)訓(xùn)練的語(yǔ)言模型都采用 Transformer 架構(gòu),因?yàn)樗谡Z(yǔ)言表示方面具有卓越的能力。

5預(yù)訓(xùn)練語(yǔ)言模型

預(yù)訓(xùn)練語(yǔ)言模型的基本思想如下。首先,基于如 transformer 的編碼器或解碼器來(lái)實(shí)現(xiàn)語(yǔ)言模型。該模型的學(xué)習(xí)分兩個(gè)階段:一是預(yù)訓(xùn)練階段,通過(guò)無(wú)監(jiān)督學(xué)習(xí)(也稱(chēng)為自監(jiān)督學(xué)習(xí))使用大量的語(yǔ)料庫(kù)來(lái)訓(xùn)練模型的參數(shù);二是微調(diào)階段,將預(yù)訓(xùn)練的模型應(yīng)用于一個(gè)特定的任務(wù),并通過(guò)監(jiān)督學(xué)習(xí)使用少量標(biāo)記數(shù)據(jù)進(jìn)一步調(diào)整模型的參數(shù)。下表中的鏈接提供了學(xué)習(xí)和使用預(yù)訓(xùn)練語(yǔ)言模型的資源。

c0b25e06-01c9-11ed-ba43-dac502259ad0.jpg

預(yù)訓(xùn)練語(yǔ)言模型有三種: 單向、雙向和序列到序列。由于篇幅所限,這里只介紹前兩種類(lèi)型。所有主要的預(yù)訓(xùn)練語(yǔ)言模型都采用了 Transformer 架構(gòu)。下表是對(duì)現(xiàn)有的預(yù)訓(xùn)練語(yǔ)言模型的概括。

c0d68628-01c9-11ed-ba43-dac502259ad0.jpg

Transformer 有很強(qiáng)的語(yǔ)言表示能力。一個(gè)非常大的語(yǔ)料庫(kù)會(huì)包含豐富的語(yǔ)言表達(dá)(這樣的未標(biāo)記數(shù)據(jù)很容易獲得),訓(xùn)練大規(guī)模深度學(xué)習(xí)模型就會(huì)變得更加高效。因此,預(yù)訓(xùn)練語(yǔ)言模型可以有效地表示語(yǔ)言中的詞匯、句法和語(yǔ)義特征。預(yù)訓(xùn)練語(yǔ)言模型如 BERT 和 GPT(GPT-1、GPT-2 和 GPT-3),已成為當(dāng)前 NLP 的核心技術(shù)。

預(yù)訓(xùn)的語(yǔ)言模型的應(yīng)用為 NLP 帶來(lái)了巨大的成功?!肝⒄{(diào)」的 BERT 在語(yǔ)言理解任務(wù)(如閱讀理解)的準(zhǔn)確性方面優(yōu)于人類(lèi)。「微調(diào)」的 GPT-3 在文本生成任務(wù)中也達(dá)到了驚人的流利程度。要注意的是,這些結(jié)果僅表明機(jī)器在這些任務(wù)中具有更高的性能;我們不應(yīng)簡(jiǎn)單地將其理解為 BERT 和 GPT-3 能比人類(lèi)更好地理解語(yǔ)言,因?yàn)檫@也取決于如何進(jìn)行基準(zhǔn)測(cè)試。從歷史上可以看到,對(duì)人工智能技術(shù)持有正確的理解和期望,對(duì)于機(jī)器的健康成長(zhǎng)和發(fā)展至關(guān)重要。

Radford 等人和 Brown 等人開(kāi)發(fā)的 GPT 具有以下架構(gòu)。輸入是單詞的序列 w((1)), w((2)), ···, w((N))。首先,通過(guò)輸入層,創(chuàng)建一系列輸入表征,記為矩陣H(((0)))。在通過(guò) L 個(gè) transformer 解碼器層之后,創(chuàng)建一系列中間表征序列,記為矩陣H(((L)))。

c0e8e0a2-01c9-11ed-ba43-dac502259ad0.jpg

最后,基于該位置的最終中間表征來(lái)計(jì)算每個(gè)位置的單詞概率分布。GPT 的預(yù)訓(xùn)練與傳統(tǒng)的語(yǔ)言建模相同。目標(biāo)是預(yù)測(cè)單詞序列的可能性。對(duì)于給定的詞序列w= w((1)), w((2)), ···, w((N)),我們計(jì)算并最小化交叉熵或負(fù)對(duì)數(shù)似然來(lái)估計(jì)參數(shù) :

c0fdc490-01c9-11ed-ba43-dac502259ad0.jpg

其中 ? 指 GPTs 模型的參數(shù)。

下圖顯示了 GPTs 模型中各表征之間的關(guān)系。每個(gè)位置上的輸入表征由詞嵌入和“位置嵌入”組成。每個(gè)位置上的每一層的中間表征是從下一層在先前位置上的中間表征創(chuàng)建的。單詞的預(yù)測(cè)或生成在每個(gè)位置從左到右重復(fù)執(zhí)行。換句話(huà)說(shuō),GPT 是一種單向語(yǔ)言模型,其中單詞序列是從單一方向建模的。(注意,RNN 語(yǔ)言模型也是單向語(yǔ)言模型。)因此,GPT 更適合解決自動(dòng)生成句子的語(yǔ)言生成問(wèn)題。

c1171a94-01c9-11ed-ba43-dac502259ad0.jpg

圖 3:GPTs 語(yǔ)言模型中各表征之間的關(guān)系。這里標(biāo)記了句首(bos)和句尾(eos)。

由 Devlin 等人開(kāi)發(fā)的 BERT 具有以下架構(gòu)。輸入是一個(gè)單詞序列,它可以是來(lái)自單個(gè)文檔的連續(xù)句子,也可以是來(lái)自?xún)蓚€(gè)文檔的連續(xù)句子的串聯(lián)。這使得該模型適用于以一個(gè)文本為輸入的任務(wù)(例如文本分類(lèi)),以及以?xún)蓚€(gè)文本為輸入的任務(wù)(例如回答問(wèn)題)。首先,通過(guò)輸入層,創(chuàng)建一系列輸入表征,記為矩陣 H(((0)))。通過(guò) L 個(gè) transformer 編碼器層之后,創(chuàng)建一個(gè)中間表征序列,記為H(((L)))。

c1c5fae6-01c9-11ed-ba43-dac502259ad0.jpg

最后,可以根據(jù)該位置上的最終中間表征,來(lái)計(jì)算每個(gè)位置上單詞的概率分布。BERT 的預(yù)訓(xùn)練被執(zhí)行為所謂的掩碼語(yǔ)言建模。假設(shè)詞序列為w= w((1)), w((2)), ···, w((N))。序列中的幾個(gè)單詞被隨機(jī)掩蔽——即更改為特殊符號(hào) [mask] —— 從而產(chǎn)生一個(gè)新的單詞序列c1e12820-01c9-11ed-ba43-dac502259ad0.jpg其中掩碼詞的集合記為c1fd4f6e-01c9-11ed-ba43-dac502259ad0.jpg學(xué)習(xí)的目標(biāo)是通過(guò)計(jì)算和最小化下面的負(fù)對(duì)數(shù)似然來(lái)估計(jì)參數(shù),以恢復(fù)被掩蔽的單詞:

c21844f4-01c9-11ed-ba43-dac502259ad0.jpg

其中 ? 表示 BERT 模型的參數(shù),δ((i)) 取值為 1 或 0,表示位置 i 處的單詞是否被掩蔽。注意,掩碼語(yǔ)言建模已經(jīng)是一種不同于傳統(tǒng)語(yǔ)言建模的技術(shù)。

圖4展示了 BERT 模型中表示之間的關(guān)系。每個(gè)位置的輸入表示由詞嵌入、「位置嵌入」等組成,每層在每個(gè)位置的中間表征,是由下面一層在所有位置的中間表征創(chuàng)建的,詞的預(yù)測(cè)或生成是在每個(gè)掩碼位置獨(dú)立進(jìn)行的--參見(jiàn)(圖3)。也就是說(shuō),BERT是一個(gè)雙向語(yǔ)言模型,其中單詞序列是從兩個(gè)方向建模的。因此,BERT可以自然地應(yīng)用于語(yǔ)言理解問(wèn)題,其輸入是整個(gè)單詞序列,其輸出通常是一個(gè)標(biāo)簽或一個(gè)標(biāo)簽序列。

c22a5eaa-01c9-11ed-ba43-dac502259ad0.jpg

圖 4:BERT 模型中各表征之間的關(guān)系。這里表示代表整個(gè)輸入序列的特殊符號(hào)。

對(duì)預(yù)訓(xùn)練語(yǔ)言模型的一個(gè)直觀(guān)解釋是,機(jī)器在預(yù)訓(xùn)練中根據(jù)大型語(yǔ)料庫(kù)進(jìn)行了大量的單詞接龍(GPT)或單詞完形填空練習(xí)(BERT),捕捉到由單詞組成句子的各種模式,由句子組成文章,并在模型中表達(dá)和記憶了這些模式。

一個(gè)文本不是由單詞和句子隨機(jī)產(chǎn)生的,而是基于詞法、句法和語(yǔ)義規(guī)則來(lái)構(gòu)建。GPT 和 BERT 可以分別使用轉(zhuǎn)化器的解碼器和編碼器,來(lái)實(shí)現(xiàn)語(yǔ)言的組合性(組合性是語(yǔ)言最基本的特征,它也是由Chomsky 層次結(jié)構(gòu)中的語(yǔ)法所建模的)。換句話(huà)說(shuō),GPT 和 BERT 在預(yù)訓(xùn)練中已經(jīng)獲得了相當(dāng)數(shù)量的詞匯、句法和語(yǔ)義知識(shí)。因此,當(dāng)適應(yīng)微調(diào)中的特定任務(wù)時(shí),只需少量標(biāo)記數(shù)據(jù)即可對(duì)模型進(jìn)行細(xì)化,從而實(shí)現(xiàn)高性能。例如,人們發(fā)現(xiàn) BERT 的不同層有不同的特點(diǎn),底層主要代表詞法知識(shí),中間層主要代表句法知識(shí),而頂層主要代表語(yǔ)義知識(shí)。

預(yù)訓(xùn)練的語(yǔ)言模型(沒(méi)有微調(diào)),例如 BERT 和 GPT-3,就包含大量的事實(shí)知識(shí),它們可以用來(lái)回答諸如「但丁在哪里出生?」之類(lèi)的問(wèn)題,只要它們?cè)谟?xùn)練數(shù)據(jù)中獲得了知識(shí),就可以進(jìn)行簡(jiǎn)單的推理,例如「48加76是多少?」

但是語(yǔ)言模型本身沒(méi)有推理機(jī)制,其「推理」能力是基于聯(lián)想、而不是真正的邏輯推理。因此,它們?cè)谛枰獜?fù)雜推理的問(wèn)題上表現(xiàn)不佳,包括論證推理、數(shù)值和時(shí)間推理和話(huà)語(yǔ)推理,將推理能力和語(yǔ)言能力集成到 NLP 系統(tǒng)中,將是未來(lái)的一個(gè)重要課題。

6未來(lái)展望

當(dāng)代科學(xué)(腦科學(xué)和認(rèn)知科學(xué))對(duì)人類(lèi)語(yǔ)言處理機(jī)制(語(yǔ)言理解和語(yǔ)言生成)的理解有限。在可預(yù)見(jiàn)的未來(lái),很難看到有重大突破發(fā)生,永遠(yuǎn)不會(huì)突破的可能性是存在的。另一方面,我們希望不斷推動(dòng)人工智能技術(shù)的發(fā)展,開(kāi)發(fā)出對(duì)人類(lèi)有用的語(yǔ)言處理機(jī)器,神經(jīng)語(yǔ)言建模似乎是迄今為止最成功的方法。

目前看來(lái),神經(jīng)語(yǔ)言建模是迄今為止最成功的方法,它的基本特征沒(méi)有改變--那就是,它依賴(lài)于在包含所有單詞序列的離散空間中定義的概率分布。學(xué)習(xí)過(guò)程是為了找到最佳模型,以便交叉熵在預(yù)測(cè)語(yǔ)言數(shù)據(jù)的準(zhǔn)確性方面是最高的(圖5)。

神經(jīng)語(yǔ)言建模通過(guò)神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,其優(yōu)點(diǎn)在于,它可以利用復(fù)雜的模型、大數(shù)據(jù)和強(qiáng)大的計(jì)算來(lái)非常準(zhǔn)確地模擬人類(lèi)語(yǔ)言行為。從 Bengio 等人提出的原始模型、到 RNN 語(yǔ)言模型以及 GPT 和 BERT 等預(yù)訓(xùn)練語(yǔ)言模型,神經(jīng)網(wǎng)絡(luò)的架構(gòu)變得越來(lái)越復(fù)雜(如圖1-4),而預(yù)測(cè)語(yǔ)言的能力也越來(lái)越高(交叉熵越來(lái)越小)。然而,這并不一定意味著這些模型具有和人類(lèi)一樣的語(yǔ)言能力,而且其局限性也是不言而喻的。

c247d0ca-01c9-11ed-ba43-dac502259ad0.jpg

圖5:機(jī)器通過(guò)調(diào)整其「大腦」內(nèi)的神經(jīng)網(wǎng)絡(luò)參數(shù)來(lái)模仿人類(lèi)語(yǔ)言行為,最終它可以像人類(lèi)一樣處理語(yǔ)言

那么,有其他可能的發(fā)展路徑嗎?目前還不清楚。但可以預(yù)見(jiàn)的是,神經(jīng)語(yǔ)言建模的方法仍有很多改進(jìn)機(jī)會(huì)。

目前,神經(jīng)語(yǔ)言模型與人腦在表示能力和計(jì)算效率(功耗方面)方面還有很大差距,成人大腦的工作功率僅為 12 W,而訓(xùn)練 GPT-3 模型消耗了數(shù)千 Petaflop/s-day,這形成了鮮明的對(duì)比。能否開(kāi)發(fā)出更好的語(yǔ)言模型、使其更接近人類(lèi)語(yǔ)言處理,是未來(lái)研究的重要方向。我們可以從有限的腦科學(xué)發(fā)現(xiàn)中學(xué)習(xí),技術(shù)提升仍然有很多機(jī)會(huì)。

人類(lèi)語(yǔ)言處理被認(rèn)為主要在大腦皮層的兩個(gè)大腦區(qū)域進(jìn)行:布羅卡區(qū)和韋尼克區(qū)(圖6)。前者負(fù)責(zé)語(yǔ)法,后者負(fù)責(zé)詞匯。腦損傷導(dǎo)致失語(yǔ)的典型案例有兩種,布羅卡區(qū)受傷的患者只能說(shuō)出零星的單詞而無(wú)法說(shuō)出句子,而韋尼克區(qū)受傷的患者可以構(gòu)建語(yǔ)法正確的句子,但單詞往往缺乏意義。

一個(gè)自然的假設(shè)是,人類(lèi)語(yǔ)言處理是在兩個(gè)大腦區(qū)域中并行進(jìn)行的,是否需要采用更人性化的處理機(jī)制是一個(gè)值得研究的課題。正如Chomsky所指出的,語(yǔ)言模型沒(méi)有明確地使用語(yǔ)法,也不能無(wú)限地組合語(yǔ)言,這是人類(lèi)語(yǔ)言的一個(gè)重要屬性,將語(yǔ)法更直接地結(jié)合到語(yǔ)言模型中的能力、將是一個(gè)需要研究的問(wèn)題。

c2822496-01c9-11ed-ba43-dac502259ad0.jpg

圖6:人腦中負(fù)責(zé)語(yǔ)言處理的區(qū)域

腦科學(xué)家認(rèn)為,人類(lèi)語(yǔ)言理解是在潛意識(shí)中激活相關(guān)概念的表征、并在意識(shí)中生成相關(guān)圖像的過(guò)程。表征包括視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)和味覺(jué)表征,它們是人在成長(zhǎng)和發(fā)育過(guò)程中的經(jīng)歷、在大腦各部分記憶的概念的視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)和味覺(jué)內(nèi)容。

因此,語(yǔ)言理解與人們的經(jīng)驗(yàn)密切相關(guān)。生活中的基本概念,比如貓和狗,都是通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等傳感器的輸入來(lái)學(xué)習(xí)的,當(dāng)聽(tīng)到或看到「貓」和「狗」這兩個(gè)詞,就會(huì)重新激活人們大腦中與其相關(guān)的視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)表征。

機(jī)器能否從大量的多模態(tài)數(shù)據(jù)(語(yǔ)言、視覺(jué)、語(yǔ)音)中學(xué)習(xí)更好的模型,從而更智能地處理語(yǔ)言、視覺(jué)和語(yǔ)音?多模態(tài)語(yǔ)言模型將是未來(lái)探索的重要課題。最近,該主題的研究也取得了一些進(jìn)展——例如,Ramesh 等人發(fā)表的「Zero-shot text-to-image generation」,Radford 等人的「Learning transferable visual models from natural language supervision」。

7結(jié)語(yǔ)

語(yǔ)言模型的歷史可以追溯到一百多年前,Markov、Shannon 等人沒(méi)有預(yù)見(jiàn)到他們所研究的模型和理論會(huì)在后來(lái)產(chǎn)生如此大的影響;對(duì) Bengio 來(lái)說(shuō),這甚至可能是出乎意料的。

未來(lái)一百年,語(yǔ)言模型將如何發(fā)展?它們?nèi)匀皇侨斯ぶ悄芗夹g(shù)的重要組成部分嗎?這可能超出了我們所能想象和預(yù)測(cè)的范圍。但可以看到,語(yǔ)言建模技術(shù)在不斷發(fā)展。在未來(lái)幾年,可能有更強(qiáng)大的模型出現(xiàn)會(huì)取代 BERT 和 GPT,我們有幸成為看到巨大成就的技術(shù)、并參與研發(fā)的第一代。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:李航老師對(duì)預(yù)訓(xùn)練語(yǔ)言模型發(fā)展的一些看法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開(kāi)發(fā)已經(jīng)成為一個(gè)熱門(mén)話(huà)題。這些模型通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任務(wù),如寫(xiě)作、翻譯、問(wèn)答等。https
    的頭像 發(fā)表于 04-30 18:34 ?516次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺(jué)內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?4135次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    語(yǔ)言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    本文系統(tǒng)性地闡述了大型語(yǔ)言模型(LargeLanguageModels,LLMs)中的解碼策略技術(shù)原理及其實(shí)踐應(yīng)用。通過(guò)深入分析各類(lèi)解碼算法的工作機(jī)制、性能特征和優(yōu)化方法,為研究者和工程師提供了全面
    的頭像 發(fā)表于 02-18 12:00 ?589次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1766次閱讀
    一文詳解視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    語(yǔ)言模型管理的作用

    要充分發(fā)揮語(yǔ)言模型的潛力,有效的語(yǔ)言模型管理非常重要。以下,是對(duì)語(yǔ)言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?389次閱讀

    AI大語(yǔ)言模型開(kāi)發(fā)步驟

    開(kāi)發(fā)一個(gè)高效、準(zhǔn)確的大語(yǔ)言模型是一個(gè)復(fù)雜且多階段的過(guò)程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計(jì)、訓(xùn)練與優(yōu)化、評(píng)估與調(diào)試等多個(gè)環(huán)節(jié)。接下來(lái),AI部落小編為大家詳細(xì)闡述AI大語(yǔ)言
    的頭像 發(fā)表于 12-19 11:29 ?902次閱讀

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?529次閱讀

    語(yǔ)言模型開(kāi)發(fā)語(yǔ)言是什么

    在人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)背后,離不開(kāi)高效的開(kāi)發(fā)語(yǔ)言和工具的支持。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-04 11:44 ?703次閱讀

    云端語(yǔ)言模型開(kāi)發(fā)方法

    云端語(yǔ)言模型的開(kāi)發(fā)是一個(gè)復(fù)雜而系統(tǒng)的過(guò)程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個(gè)環(huán)節(jié)。下面,AI部落小編為您分享云端語(yǔ)言模型的開(kāi)發(fā)
    的頭像 發(fā)表于 12-02 10:48 ?692次閱讀

    使用vLLM+OpenVINO加速大語(yǔ)言模型推理

    隨著大語(yǔ)言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來(lái)推理時(shí)延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1431次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推理

    語(yǔ)言模型如何開(kāi)發(fā)

    語(yǔ)言模型的開(kāi)發(fā)是一個(gè)復(fù)雜且細(xì)致的過(guò)程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計(jì)、訓(xùn)練、微調(diào)和部署等多個(gè)階段。以下是對(duì)大語(yǔ)言模型開(kāi)發(fā)步驟的介紹,由AI部
    的頭像 發(fā)表于 11-04 10:14 ?605次閱讀

    如何利用大型語(yǔ)言模型驅(qū)動(dòng)的搜索為公司創(chuàng)造價(jià)值

    大型語(yǔ)言模型LLMs具有自動(dòng)化內(nèi)容創(chuàng)建、提高內(nèi)容質(zhì)量及多樣化的潛力,重塑企業(yè)與信息的交互方式。通過(guò)利用LLMs,企業(yè)能提升工作效率,降低運(yùn)營(yíng)成本,并獲得深入洞察。來(lái)自EgeGürdeniz
    的頭像 發(fā)表于 10-13 08:07 ?410次閱讀
    如何利用大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>驅(qū)動(dòng)的搜索為公司創(chuàng)造價(jià)值

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來(lái)學(xué)習(xí)大語(yǔ)言模型在自然語(yǔ)言理解方面的原理以及問(wèn)答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。 大語(yǔ)言
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開(kāi)始學(xué)習(xí)《大語(yǔ)言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對(duì)于人工智能相關(guān)專(zhuān)業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對(duì)于我還是有許多的知識(shí)點(diǎn)、專(zhuān)業(yè)術(shù)語(yǔ)比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書(shū)中
    發(fā)表于 07-25 14:33

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書(shū)

    上周收到《大語(yǔ)言模型應(yīng)用指南》一書(shū),非常高興,但工作項(xiàng)目繁忙,今天才品鑒體驗(yàn),感謝作者編寫(xiě)了一部?jī)?nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個(gè)讓我了解大語(yǔ)言模型
    發(fā)表于 07-21 13:35