99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

仔細(xì)討論NLP模型的泛化問題

mK5P_AItists ? 來源:未知 ? 作者:胡薇 ? 2018-09-10 10:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前段時間的文章《頂會見聞系列:ACL 2018,在更具挑戰(zhàn)的環(huán)境下理解數(shù)據(jù)表征及方法評價》中,我們介紹了 ACL 大會上展現(xiàn)出的 NLP 領(lǐng)域的最新研究風(fēng)向和值得關(guān)注的新進(jìn)展。從這些新動向上我們似乎應(yīng)該對深度學(xué)習(xí) NLP 解決方案的表現(xiàn)充滿信心,但是當(dāng)我們真的仔細(xì)討論 NLP 模型的泛化能力時候,狀況其實并不樂觀。

The Gradient 博客近期的一篇文章就仔細(xì)討論了 NLP 領(lǐng)域的深度學(xué)習(xí)模型的泛化性問題,展現(xiàn)了對學(xué)習(xí)、語言、深度學(xué)習(xí)方法等方面的諸多深入思考。不得不潑一盆冷水,即便端到端的深度學(xué)習(xí)方法相比以往的方法在測試任務(wù)、測試數(shù)據(jù)集上的表現(xiàn)有了長足的改進(jìn),我們距離「解決 NLP 問題」仍然有遙遠(yuǎn)的距離。AI 科技評論全文編譯如下。

「泛化」是一個NLP 領(lǐng)域中正在被深入討論和研究的課題。

最近,我們經(jīng)??梢钥吹揭恍┬侣劽襟w報道機(jī)器能夠在一些自然語言處理任務(wù)中取得與人相當(dāng)?shù)谋憩F(xiàn),甚至超過人類。例如,閱讀一份文檔并回答關(guān)于該文檔的問題(阿里、微軟、訊飛與哈工大等等輪番刷榜 SQuAD)、確定某個給定的文本在語義上是否蘊(yùn)含另一個文本(http://www.aclweb.org/anthology/N18-1132)以及機(jī)器翻譯?!溉绻麢C(jī)器能夠完成所有這些任務(wù),那么它們當(dāng)然擁有真正的語言理解和推理能力」這種說法聽起來似乎是很合理的。

然而,事實并非如此。最近許多的研究表名,事實上最先進(jìn)的自然語言處理系統(tǒng)既「脆弱」(魯棒性差)又「虛假」(并未學(xué)到真正的語言規(guī)律)。

最先進(jìn)的自然語言模型是「脆弱」的

當(dāng)文本被修改時,即使它的意義被保留了下來,自然語言處理模型也會失效,例如:

Jia 和 Liang 等人攻破了閱讀理解模型 BiDAF(https://arxiv.org/abs/1611.01603)。

Jia 和 Liang 等人論文中給出的例子。

Belinkov 和 Bisk 等人(https://arxiv.org/abs/1711.02173)攻破了基于字符的神經(jīng)網(wǎng)絡(luò)翻譯模型。

Belinkov 和 Bisk 等人論文中給出的例子。BLEU是一個常用的將候選的文本翻譯結(jié)果和一個或多個參考譯文對比的評測算法。

Iyyer 與其合作者攻破了樹結(jié)構(gòu)雙向 LSTM( http://www.aclweb.org/anthology/P15-1150)的情感分類模型。

Iyyer 與其合作者論文中給出的例子。

最先進(jìn)的自然語言處理模型是「虛假」的

這些模型經(jīng)常會記住的是人為影響和偏置,而不是真正學(xué)到語言規(guī)律,例如:

Gururangan 與其合作者(http://aclweb.org/anthology/N18-2017)提出了一個對比基線,它能夠?qū)Ρ然鶞?zhǔn)數(shù)據(jù)集中 50 %以上的自然語言推理樣本正確分類,而不需要事先觀察前提文本(premise)。

Gururangan 等人論文中給出的例子。這些樣本都是從論文的海報展示中截取的。

Moosavi 和 Strube(http://aclweb.org/anthology/P17-2003)表明,為共指解析任務(wù)構(gòu)建的深度學(xué)習(xí)模型(http://www.aclweb.org/anthology/P16-1061)總是將以包含「country」的專有名詞或普通名詞與訓(xùn)練數(shù)據(jù)中出現(xiàn)的某個國家聯(lián)系在一起。因此,該模型在有關(guān)訓(xùn)練數(shù)據(jù)中未提及的國家的文本上的表現(xiàn)很差。同時,Levy 與其合作者研究用用于識別兩個單詞之間的詞匯推理關(guān)系(例如,上位詞,概括性較強(qiáng)的單詞叫做特定性較強(qiáng)的單詞的上位詞)的模型。他們發(fā)現(xiàn),這些模型并沒有學(xué)習(xí)到單詞之間關(guān)系的特征,而是僅僅學(xué)習(xí)到了一對單詞中某一單詞的獨(dú)立屬性:某個單詞是否是一個「典型上位詞」(例如,「動物」一詞)。

左圖:Moosavi 和Strube 論文中的例子。右圖:Levy 與其合作者論文中的例子。

Agrawal 與其合作者指出,卷積神經(jīng)網(wǎng)絡(luò)(CNN)+長短期記憶網(wǎng)絡(luò)(LSTM)的可視化問答模型通常在「聽」了一半問題后,就會收斂到預(yù)測出的答案上。也就是說,該模型在很大程度上受到訓(xùn)練數(shù)據(jù)中淺層相關(guān)性的驅(qū)動并且缺乏組合性(回答關(guān)于可見概念的不可見的組合問題的能力)。

Agrawal 等人論文中給出的例子。

一個改進(jìn)最先進(jìn)的自然語言處理模型的 workshop

因此,盡管在對比基準(zhǔn)數(shù)據(jù)集上表現(xiàn)良好,現(xiàn)代的自然語言處理技術(shù)在面對新穎的自然語言輸入時,在語言理解和推理方面還遠(yuǎn)遠(yuǎn)達(dá)不到人類的水平。這些思考促使 Yonatan Bisk、Omer Levy、Mark Yatskar 組織了一個 NAACL workshop,深度學(xué)習(xí)和自然語言處理新泛化方法 workshop

(https://newgeneralization.github.io/)

來討論泛化問題,這是機(jī)器學(xué)習(xí)領(lǐng)域面臨的最核心的挑戰(zhàn)。該 workshop 針對兩個問題展開了討論:

我們?nèi)绾尾拍艹浞衷u估我們的系統(tǒng)在新的、從前沒有遇見過的輸入上運(yùn)行的性能?或者換句話說,我們?nèi)绾纬浞衷u估我們系統(tǒng)的泛化能力?

我們應(yīng)該如何修改我們的模型,使它們的泛化能力更好?

這兩個問題都很困難,為期一天的 workshop 顯然不足以解決它們。然而,自然語言處理領(lǐng)域最聰明的研究者們在這個工作坊上對許多方法和構(gòu)想進(jìn)行了概述,它們值得引起你的注意。特別是,當(dāng)我們對這些討論進(jìn)行總結(jié),它們是圍繞著三個主題展開的:使用更多的歸納偏置(但需要技巧),致力于賦予自然語言處理模型人類的常識、處理從未見過的分布和任務(wù)。

方向 1:使用更多的歸納偏置(但需要技巧)

目前,人們正在討論是否應(yīng)該減少或增加歸納偏置(即用于學(xué)習(xí)從輸入到輸出的映射函數(shù)的一些假設(shè))。

例如,就在去年,Yann LeCun 和 Christopher Manning 進(jìn)行了一場引人注意的辯論(詳見雷鋒網(wǎng) AI 科技評論文章 AI領(lǐng)域的蝙蝠俠大戰(zhàn)超人:LeCun 與 Manning 如何看待神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)設(shè)計),討論我們在深度學(xué)習(xí)框架中應(yīng)該引入怎樣的固有先驗知識。Manning 認(rèn)為,對于高階推理,以及利用較少的數(shù)據(jù)進(jìn)行學(xué)習(xí)的任務(wù),結(jié)構(gòu)化偏置是十分必要的。相反,LeCun 將這種結(jié)構(gòu)描述成「必要的惡」,這迫使我們作出某些可能限制神經(jīng)網(wǎng)絡(luò)的假設(shè)。

LeCun 的觀點(diǎn)(減少歸納偏置)之所以令人信服的一個論據(jù)是,事實上使用基于語言學(xué)的偏置的現(xiàn)代模型最終并不能在許多對比基準(zhǔn)測試中獲得最佳性能(甚至有一個段子說,「每當(dāng)我從團(tuán)隊里開除一個語言學(xué)家,我的語言模型的準(zhǔn)確率就會提升一些」)。盡管如此,NLP 社區(qū)還是廣泛支持 Manning 的觀點(diǎn)。在神經(jīng)網(wǎng)絡(luò)架構(gòu)匯中引入語言結(jié)構(gòu)是ACL 2017 的一個顯著趨勢。然而,由于這種引入的結(jié)構(gòu)似乎在實踐中并沒有達(dá)到預(yù)期的效果,我們也許可以得出如下結(jié)論:探索引入歸納偏置的新方法應(yīng)該是一個好的工作方式,或者用 Manning 的話來說:

我們應(yīng)該使用更多的歸納偏置。我們對如何添加歸納偏置一無所知,所以我們會通過數(shù)據(jù)增強(qiáng)、創(chuàng)建偽訓(xùn)練數(shù)據(jù)來對這些偏置進(jìn)行編碼。這看起來是一種很奇怪的實現(xiàn)方法。

事實上,Yejin Choi 已經(jīng)在自然語言生成(NLG)的課題下對這個問題提出了自己的解決方法。她給出了一個通過能夠最大化下一個單詞的概率的通用語言模型(一個帶有集束搜索(beam search)的門控循環(huán)神經(jīng)網(wǎng)絡(luò)(gated RNN),https://guillaumegenthial.github.io/sequence-to-sequence.html)生成的評論的示例。

自然的語言輸入為:

總而言之,我會將這個酒店強(qiáng)烈推薦給想要住在中心地區(qū)的人。

而不自然的、重負(fù)性的、矛盾的、乏味的輸出是:

總而言之,我會將這個酒店推薦給想要住在中心地區(qū)的人,并且想要居住在中心地區(qū)。如果你想要住在中心地區(qū),這里不是適合你的地方。然而,如果你想要住在這個地區(qū)的正中心,這里就是你應(yīng)該去的地方。

在她看來,當(dāng)前的語言模型生成的語言之所以如此不自然,這是因為它們是:

被動的學(xué)習(xí)器。盡管它們會閱讀輸入然后生成輸出,但是它們并不能像人類學(xué)習(xí)者一樣工作,它們不會根據(jù)諸如有意義、風(fēng)格、重復(fù)和蘊(yùn)含這樣的合適的語言標(biāo)準(zhǔn)來反思自己生成的結(jié)果。換句話說,它們并不會「練習(xí)」寫作。

膚淺的學(xué)習(xí)器。它們并沒有捕獲到事實、實體、事件或者活動之間的高階關(guān)系,而這些元素對于人類來說都可能是理解語言的關(guān)鍵線索。也就是說,這些模型并不了解我們?nèi)祟惖氖澜纭?/p>

如果我們鼓勵語言模型以一種使用特定的損失函數(shù)的數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)諸如有意義、風(fēng)格、重復(fù)和蘊(yùn)含等語言學(xué)特征,那么語言模型就可以「練習(xí)」寫作了。這種做法優(yōu)于依賴于顯式使用自然語言理解(NLU)工具輸出的方法。這是因為,傳統(tǒng)上的 NLU 只處理自然的語言,因此無法理解可能并不自然的機(jī)器語言。比如上面的例子中那樣重復(fù)的、矛盾的、乏味的文本。由于NLU 并不理解機(jī)器語言,所以將NLU 工具應(yīng)用到生成的文本上、從而指導(dǎo)自然語言生成(NLG)模型理解生成的模型為什么如此不自然并由此采取相應(yīng)的行動是毫無意義的??偠灾覀儾粦?yīng)該開發(fā)引入了結(jié)構(gòu)化偏置的新神經(jīng)網(wǎng)絡(luò)架構(gòu),而應(yīng)該改進(jìn)學(xué)習(xí)這些偏置的數(shù)據(jù)驅(qū)動的方法。

自然語言生成(NLG)并不是唯一的我們應(yīng)該尋找更好的學(xué)習(xí)器優(yōu)化方法的 NLP 任務(wù)。在機(jī)器翻譯中,我們的優(yōu)化方法存在的一個嚴(yán)重的問題是,我們正通過像交叉熵或語句級別 BLEU 的期望這樣的損失函數(shù)來訓(xùn)練機(jī)器翻譯模型,這種模型已經(jīng)被證實是有偏的,并且與人類理解的相關(guān)性不足。事實上,只要我們使用如此簡單的指標(biāo)來訓(xùn)練我們的模型,它們就可能和人類對于文本的理解不匹配。由于目標(biāo)過于復(fù)雜,使用強(qiáng)化學(xué)習(xí)對于 NLP 來說似乎是一個完美的選項,因為它允許模型在仿真環(huán)境下通過試錯學(xué)習(xí)一個與人類理解類似的信號(即強(qiáng)化學(xué)習(xí)的「獎勵」)。

Wang 與其合作者(http://www.aclweb.org/anthology/P18-1083)為「看圖說話」(描述一幅圖片或一段視頻的內(nèi)容)提出一種訓(xùn)練方法。首先,他們研究了目前使用強(qiáng)化學(xué)習(xí)直接在我們在測試時使用的「METEOR」、「BLEU」、「CIDEr」等不可微的指標(biāo)上訓(xùn)練圖像字幕系統(tǒng)的訓(xùn)練方法。Wang 與其合作者指出,如果我們使用 METEOR 分?jǐn)?shù)作為強(qiáng)化決策的獎勵,METEOR分?jǐn)?shù)會顯著提高,但是其它的得分將顯著降低。他們舉出了一個平均的 METEOR 得分高達(dá)40.2 的例子:

We had a great time to have a lot of the. They were to be a of the. They were to be in the. The and it were to be the. The, and it were to be the.(該文本并不自然,缺乏必要的語言成分,不連貫)

相反,當(dāng)使用其它的指標(biāo)時(BLEU 或CIDEr)來評估生成的故事時,相反的情況發(fā)生了:許多有意義的、連貫的故事得分很低(幾乎為零)。這樣看來,機(jī)器似乎并不能根據(jù)這些指標(biāo)正常工作。

因此,作者提出了一種新的訓(xùn)練方法,旨在從人類標(biāo)注過的故事和抽樣得到的預(yù)測結(jié)果中得到與人類的理解類似的獎勵。盡管如此,深度強(qiáng)化學(xué)習(xí)仍然是「脆弱」的,并且比有監(jiān)督的深度學(xué)習(xí)有更高的抽樣復(fù)雜度。一個真正的解決方案可能是讓人類參與到學(xué)習(xí)過程中的「人機(jī)循環(huán)」機(jī)器學(xué)習(xí)算法(主動學(xué)習(xí))。

方向 2:引入人類的常識

盡管「常識」對于人類來說可能能夠被普遍地理解,但是它卻很難被教授給機(jī)器。那么,為什么像對話、回復(fù)郵件、或者總結(jié)一個文件這樣的任務(wù)很困難呢?

這些任務(wù)都缺乏輸入和輸出之間的「一對一映射」,需要關(guān)于人類世界的抽象、認(rèn)知、推理和最廣泛的知識。換句話說,只要模式匹配(現(xiàn)在大多數(shù)自然語言處理模型采取的方法)不能由于某些與人類理解類似的「常識」而得到提升,那么我們就不可能解決這些問題。

Choi 通過一個簡單而有效的例子說明了這一點(diǎn):一個新聞標(biāo)題上寫著「芝士漢堡對人有害」(cheeseburger stabbing)

【 圖片來源:https://newgeneralization.github.io 所有者:Yejin Choi 】

僅僅知道在定語修飾關(guān)系中「stabbing」被依賴的名詞「cheeseburger」修飾,還不足以理解「cheeseburger stabbing」究竟是什么意思。上圖來自 Choi 的演講。

對于這個標(biāo)題,一臺機(jī)器可能提出從下面這些問題:

有人因為一個芝士漢堡刺傷了別人?

有人刺傷了一個芝士漢堡?

一個芝士漢堡刺傷了人?

一個芝士漢堡刺傷了另一個芝士漢堡?

如果機(jī)器擁有社會和物理常識的話,它們就可以排除掉那些你永遠(yuǎn)不會問的荒謬問題。社會常識(http://aclweb.org/anthology/P18-1043)可以提醒機(jī)器,第一種選項似乎是合理的,因為傷害人是不好的,并且因此具有新聞價值。而傷害一個芝士漢堡則沒有新聞價值。物理常識(http://aclweb.org/anthology/P17-1025)則說明第三和第四個選項是不可能的,因為芝士漢堡不能被用來傷害任何東西。

除了引入常識知識,Choi 還推崇「通過語義標(biāo)注進(jìn)行理解」,這里的重點(diǎn)是應(yīng)該把「說了什么」改為「通過仿真進(jìn)行理解」。這模擬了文本所暗示的因果效應(yīng),不僅側(cè)重于「文本說了什么」,還側(cè)重于「文本沒有說什么,但暗示了什么」。Bosselut 與其同事(https://arxiv.org/abs/1711.05313)展示了一個例子,用以說明為什么預(yù)測對于文本中的實體采取的動作所隱含的因果效應(yīng)是十分重要的:

如果我們給出「在松餅混合物中加入藍(lán)莓,然后烘焙一個半小時」這樣的說明,一個智能體必須要能夠預(yù)測一些蘊(yùn)含的事實,例如:藍(lán)莓現(xiàn)在正在烤箱里,它們的「溫度」會升高。

Mihaylov 和 Frank(http://aclweb.org/anthology/P18-1076)也認(rèn)識到我們必須通過仿真來進(jìn)行理解。與其他更復(fù)雜的閱讀理解模型不同,他們的完形填空式的閱讀理解模型可以處理「大部分用來推理答案的信息在一個故事中被給出」的情況,但是也需要一些額外的常識來預(yù)測答案:馬(horse)是一種動物,動物(animal)是用來騎的,而乘騎(mount)與動物有關(guān)。

一個需要常識的完形填空式的閱讀理解案例。該例子來自 Mihaylov 和Frank 的論文。

很不幸,我們必須承認(rèn),現(xiàn)代的 NLP 就像「只有嘴巴沒有腦子」一樣地運(yùn)行,為了改變這種現(xiàn)狀,我們必須向它們提供常識知識,教它們推測出有什么東西是沒有直接說,但是暗示出來了。

「循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是無腦的嘴巴嗎?」幻燈片取自 Choi 的演講。

方向 3:評估從未見到過的分布和任務(wù)

使用監(jiān)督學(xué)習(xí)解決問題的標(biāo)準(zhǔn)方法包含以下步驟:

確定如何標(biāo)注數(shù)據(jù)

手動給數(shù)據(jù)打標(biāo)簽

將標(biāo)注過的數(shù)據(jù)分割成訓(xùn)練集、測試集和驗證集。通常,如果可能的話,我們建議確保訓(xùn)練集、開發(fā)集(驗證集)和測試集的數(shù)據(jù)擁有同樣的概率分布。

確定如何表征輸入

學(xué)習(xí)從輸入到輸出的映射函數(shù)

使用一種恰當(dāng)?shù)姆绞皆跍y試集上評估提出的學(xué)習(xí)方法

按照這種方法解出下面的謎題,需要對數(shù)據(jù)進(jìn)行標(biāo)注從而訓(xùn)練一個識別各單位的模型,還要考慮多種表征和解釋(圖片、文本、布局、拼寫、發(fā)音),并且將它們放在一起考慮。該模型確定了「最佳」的全局解釋,并且與人類對這一謎題的解釋相符。

一個難以標(biāo)注的輸入的示例。圖片由Dan Roth 提供。

在 Dan Roth 看來:

這種標(biāo)準(zhǔn)方法不具有可擴(kuò)展性。我們將永遠(yuǎn)不可能擁有足夠的標(biāo)注數(shù)據(jù)為我們需要的所有任務(wù)訓(xùn)練所有的模型。為了解出上面的謎題,我們需要標(biāo)注過的訓(xùn)練數(shù)據(jù)去解決至少五個不同的任務(wù),或者大量的數(shù)據(jù)來訓(xùn)練一個端到端的模型。雖然可以利用 ImageNet 這樣現(xiàn)有的資源來完成「單位識別」這樣的組建,但是 ImageNet 并不足以領(lǐng)悟到「世界(world)」一詞在這種語境下比「地球(globe)」要好。即使有人做出了巨大的努力進(jìn)行標(biāo)注,這些數(shù)據(jù)還是需要不斷地被更新,因為每天都需要考慮新的流行文化。

Roth 提醒我們注意一個事實,即大量的數(shù)據(jù)獨(dú)立于特定的任務(wù)存在,并且有足夠多的暗示信息來為一系列任務(wù)推斷出監(jiān)督信號。這就是「伴隨監(jiān)督(incidental supervision)」這一想法的由來。用他自己的話說

(http://cogcomp.org/papers/Roth-AAAI17-incidental-supervision.pdf):

「伴隨」信號指的是在數(shù)據(jù)和環(huán)境中存在的一系列若信號,它們獨(dú)立于有待解決的任務(wù)。這些信號與目標(biāo)任務(wù)是相互關(guān)聯(lián)的,可以通過適當(dāng)?shù)乃惴ㄖС旨右岳?,用來提供足夠的監(jiān)督信號、有利于機(jī)器進(jìn)行學(xué)習(xí)。例如,我們不妨想一想命名實體(NE)音譯任務(wù),基于各個實體間發(fā)音的相似性,將命名實體從源語言改寫成目標(biāo)語言的過程(例如,確定如何用希伯來語寫奧巴馬的名字)。我們擁有現(xiàn)成的時序信號,它獨(dú)立于有待解決的音譯任務(wù)存在。這種時序信號是與我們面對的任務(wù)相互關(guān)聯(lián)的,它和其他的信號和一些推理結(jié)果可以被用來為任務(wù)提供監(jiān)督信息,而不需要任何繁瑣的標(biāo)注工作。

Percy Liang 則認(rèn)為,如果訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布是相似的,「任何一個有表示能力的模型,只要給了足夠數(shù)據(jù)都能夠完成這個任務(wù)。」然而,對于外推任務(wù)(當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布不同時),我們必須真正設(shè)計一個更加「正確」的模型。

在訓(xùn)練和測試時對同樣的任務(wù)進(jìn)行外推的做法被稱為領(lǐng)域自適應(yīng)。近年來,這一課題引起了廣泛的關(guān)注。

但是「伴隨監(jiān)督」,或者對訓(xùn)練時任務(wù)和測試時任務(wù)不同的外推并不是常見的做法。Li 與其合作者(http://aclweb.org/anthology/N18-1169)訓(xùn)練了一個用于文本定語遷移的模型,它僅有對與給定的句子的定語標(biāo)簽,而不需要一個平行的語料庫把具有相同內(nèi)容、但是定語不同的句子對應(yīng)起來。換句話說,他們訓(xùn)練了一個模型用來預(yù)測一個給定的句子的定語,它只需要被作為一個分類器進(jìn)行訓(xùn)練。類似地,Selsam 與其合作者(https://arxiv.org/abs/1802.03685)訓(xùn)練了一個學(xué)著解決SAT(可滿足性)問題的模型,它只需要被作為一個預(yù)測可滿足性的分類器進(jìn)行訓(xùn)練。值得注意的是,這兩種模型都有很強(qiáng)的歸納偏置。前者使用的假設(shè)是,定語往往在局部的判別短語中較為明顯。后者則捕獲了調(diào)查傳播算法(Survey propagation)的歸納偏置。

Percy 對研究社區(qū)提出了挑戰(zhàn),他呼吁道:

每篇論文,以及它們對所使用的數(shù)據(jù)集的評估,都應(yīng)該在一個新的分布或一個新的任務(wù)上進(jìn)行評估,因為我們的目標(biāo)是解決任務(wù),而不是解決數(shù)據(jù)集。

當(dāng)我們使用機(jī)器學(xué)習(xí)技術(shù)時,我們需要像機(jī)器學(xué)習(xí)一樣思考,至少在評估的時候是這樣的。這是因為,機(jī)器學(xué)習(xí)就像一場龍卷風(fēng),它把一切東西都吸收進(jìn)去了,而不在乎常識、邏輯推理、語言現(xiàn)象或物理直覺。

幻燈片取自 Liang 的報告。

參加 workshop 的研究人員們想知道,我們是否想要構(gòu)建用于壓力測試的數(shù)據(jù)集,為了觀測我們的模型真正的泛化能力,該測試超出了正常操作的能力,達(dá)到了一個臨界點(diǎn)(條件十分苛刻)。

我們有理由相信,只有在解決了較為簡單的問題后,一個模型才能有可能解決更困難的案例。為了知道較為簡單的問題是否得到了解決,Liang 建議我們可以根據(jù)案例的難度對它們進(jìn)行分類。Devi Parikh 強(qiáng)調(diào),對于解決了簡單的問題就能夠確定更難的問題有沒有可能解決的這樣的設(shè)想,只有一小部分任務(wù)和數(shù)據(jù)集能滿足。而那些不包括在這一小部分中的任務(wù),例如可視化問答系統(tǒng),則不適合這個框架。目前還不清楚模型能夠處理哪些「圖像-問題」對,從而處理其它可能更困難的「圖像=問題」對。因此,如果我們把模型無法給出答案的例子定義為「更困難」的案例,那么情況可能會變的很糟。

參加 workshop 的研究人員們擔(dān)心,壓力測試可能會放緩這一領(lǐng)域的進(jìn)步。什么樣的壓力能讓我們對真正的泛化能力有更好的理解?能夠促使研究人員構(gòu)建泛化能力更強(qiáng)的系統(tǒng)?但是不會導(dǎo)致資金的削減以及研究人員由于產(chǎn)出較少而倍感壓力?workshop 沒有就此問題給出答案。

結(jié)論

「NAACL 深度學(xué)習(xí)和自然語言處理新泛化方法 workshop」是人們開始認(rèn)真重新思考現(xiàn)代自然語言處理技術(shù)的語言理解和推理能力的契機(jī)。這個重要的討論在 ACL 大會上繼續(xù)進(jìn)行,Denis Newman-Griffis 報告說,ACL 參會者多次建議我們需要重新思考更廣泛的泛化和測試的情景,這些情景并不能反映訓(xùn)練數(shù)據(jù)的分布。Sebastian Ruder 說,這個 NAACL workshop 的主題在 RepLNLP(最受歡迎的關(guān)于自然語言處理的表征學(xué)習(xí)的 ACL workshop)上也被提及。

以上的事實表明,我們并不是完全不知道如何修改我們的模型來提高他們的泛化能力。但是,仍然有很大的空間提出新的更好的解決方案。

我們應(yīng)該使用更多的歸納偏置,但是需要找出最恰當(dāng)?shù)姆椒▽⑺鼈冋系缴窠?jīng)網(wǎng)絡(luò)架構(gòu)中,這樣它們才能夠為網(wǎng)絡(luò)架構(gòu)帶來我們期望得到的提升。

我們必須通過一些與人類理解類似的常識概念來提升最先進(jìn)的模式匹配模型,從而使它們能夠捕獲到事實、實體、事件和活動之間的高階關(guān)系。但是挖掘出常識通常是極具挑戰(zhàn)性的,因此我們需要新的、有創(chuàng)造性的方法來抽取出常識。

最后,我們應(yīng)該處理從未見過的分布和任務(wù)。否則,「任何具有足夠足夠數(shù)據(jù)的表示模型都能夠完成這個任務(wù)」。顯然,訓(xùn)練這樣的模型更加困難,并且不會馬上取得很好的結(jié)果。作為研究人員,我們必須勇于開發(fā)這種模型;而作為審稿人,我們不應(yīng)該批評試圖這樣做的工作。

這些討論雖然都是 NLP 領(lǐng)域的話題,但這也反映了整個 AI 研究領(lǐng)域內(nèi)的更大的趨勢:從深度學(xué)習(xí)的缺點(diǎn)和優(yōu)勢中反思學(xué)習(xí)。Yuille and Liu 寫了一篇觀點(diǎn)文章《深度神經(jīng)網(wǎng)絡(luò)到底對計算機(jī)視覺做了什么》。

Gary Marcus 更是一直宣揚(yáng),對于整個 AI 領(lǐng)域的問題來說,我們需要多多考慮深度學(xué)習(xí)之外的方法。這是一個很健康的信號,AI 研究人員們越來越清楚深度學(xué)習(xí)的局限性在哪里,并且在努力改善這些局限。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103622
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22624

原文標(biāo)題:神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍,我們需要正視深度 NLP 模型的泛化問題

文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)

    構(gòu)建高效、物理一致且具備良好能力的視覺感知系統(tǒng),是視覺智能、邊緣計算與具身機(jī)器人中的關(guān)鍵挑戰(zhàn)。為提升系統(tǒng)的與適應(yīng)能力,一類方法致力于構(gòu)建物理一致的世界
    的頭像 發(fā)表于 06-24 08:01 ?252次閱讀
    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b>能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)

    數(shù)據(jù)標(biāo)注與大模型的雙向賦能:效率與性能的躍升

    ??在人工智能蓬勃發(fā)展的時代,大模型憑借其強(qiáng)大的學(xué)習(xí)與能力,已成為眾多領(lǐng)域創(chuàng)新變革的核心驅(qū)動力。而數(shù)據(jù)標(biāo)注作為大模型訓(xùn)練的基石,為大模型
    的頭像 發(fā)表于 06-04 17:15 ?697次閱讀
    數(shù)據(jù)標(biāo)注與大<b class='flag-5'>模型</b>的雙向賦能:效率與性能的躍升

    直播預(yù)約 |數(shù)據(jù)智能系列講座第7期:面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)」6月25日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報告題目面向高能力的視覺
    的頭像 發(fā)表于 05-29 10:04 ?193次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b>能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    重復(fù)項或使用編輯距離算法比較文本相似度。數(shù)據(jù)標(biāo)注:高質(zhì)量的數(shù)據(jù)標(biāo)注直接影響模型的性能。標(biāo)注過程應(yīng)遵循明確標(biāo)注規(guī)則、選擇合適的標(biāo)注工具、進(jìn)行多輪審核和質(zhì)量控制等原則。數(shù)據(jù)增強(qiáng):提高模型
    發(fā)表于 01-14 16:51

    靈初智能發(fā)布端到端具身模型Psi R0,實現(xiàn)復(fù)雜操作與能力

    具備雙靈巧手協(xié)同操作的能力,可以支持復(fù)雜的操作任務(wù)。通過多個技能的串聯(lián)混訓(xùn),該模型能夠生成具有推理能力的智能體,從而完成并閉環(huán)長程靈巧操作任務(wù)。這一特性使得Psi R0在工業(yè)自動、機(jī)器人操作等領(lǐng)域具有廣泛的應(yīng)用前景。 此外,Psi R0還實現(xiàn)了
    的頭像 發(fā)表于 12-31 15:31 ?658次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型

    介紹了如何使用分類任務(wù)進(jìn)行手寫數(shù)字的分類。相信大家腦海中可能會產(chǎn)生如下疑問: 數(shù)據(jù)依賴性強(qiáng):分類模型的表現(xiàn)通常依賴于大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。獲取高質(zhì)量、大規(guī)模的數(shù)據(jù)集既耗時又昂貴。 能力有限:
    發(fā)表于 12-19 14:33

    CNN, RNN, GNN和Transformer模型的統(tǒng)一表示和誤差理論分析

    背景介紹 本文是基于我們之前的 RPN(Reconciled Polynomial Network)研究的后續(xù)工作。在此前的研究中,我們提出了 RPN 這一通用模型架構(gòu),其包含三個組件函數(shù):數(shù)據(jù)擴(kuò)展
    的頭像 發(fā)表于 12-06 11:31 ?1453次閱讀
    CNN, RNN, GNN和Transformer<b class='flag-5'>模型</b>的統(tǒng)一表示和<b class='flag-5'>泛</b><b class='flag-5'>化</b>誤差理論分析

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP模型的性能是一個多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個環(huán)節(jié)。以下是一些具
    的頭像 發(fā)表于 12-05 15:30 ?1704次閱讀

    語言模型自動的優(yōu)點(diǎn)

    語言模型自動不僅優(yōu)化了信息處理流程,提高了工作效率,還促進(jìn)了跨文化交流,增強(qiáng)了人機(jī)交互的智能水平。以下,是對語言模型自動優(yōu)點(diǎn)的梳理,由
    的頭像 發(fā)表于 11-26 11:17 ?416次閱讀

    深度學(xué)習(xí)模型的魯棒性優(yōu)化

    。異常值和噪聲可能會誤導(dǎo)模型的訓(xùn)練,導(dǎo)致模型在面對新數(shù)據(jù)時表現(xiàn)不佳。 數(shù)據(jù)標(biāo)準(zhǔn)/歸一 :將數(shù)據(jù)轉(zhuǎn)換到同一尺度上,有助于模型更好地學(xué)習(xí)數(shù)據(jù)
    的頭像 發(fā)表于 11-11 10:25 ?1198次閱讀

    把大模型做實 把供應(yīng)鏈做透: 京東推出言犀大模型

    。言犀大模型融合了70%的通用數(shù)據(jù)與30%京東數(shù)智供應(yīng)鏈原生數(shù)據(jù),具有“更高產(chǎn)業(yè)屬性、更強(qiáng)能力、更多安全保障”的優(yōu)勢,致力于面向知識密集型、任務(wù)型產(chǎn)業(yè)場景,解決真實產(chǎn)業(yè)問題。 “從產(chǎn)業(yè)端切入大
    的頭像 發(fā)表于 10-28 11:10 ?772次閱讀
    把大<b class='flag-5'>模型</b>做實 把供應(yīng)鏈做透: 京東推出言犀大<b class='flag-5'>模型</b>

    AI大模型與深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過程,實現(xiàn)對復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計算資源來進(jìn)行訓(xùn)練和推理。深度學(xué)習(xí)算法為AI大模型提供了核心的技術(shù)支撐,使得大模型能夠更好地擬
    的頭像 發(fā)表于 10-23 15:25 ?2893次閱讀

    未來AI大模型的發(fā)展趨勢

    上得到了顯著提升。未來,算法和架構(gòu)的進(jìn)一步優(yōu)化將推動AI大模型在性能上實現(xiàn)新的突破。 多頭自注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)等關(guān)鍵技術(shù)的改進(jìn),將增強(qiáng)模型的表達(dá)能力和能力。 多模態(tài)融合 :
    的頭像 發(fā)表于 10-23 15:06 ?1955次閱讀

    AI大模型在自然語言處理中的應(yīng)用

    AI大模型在自然語言處理(NLP)中的應(yīng)用廣泛且深入,其強(qiáng)大的語義理解和生成能力為NLP任務(wù)帶來了顯著的性能提升。以下是對AI大模型NLP
    的頭像 發(fā)表于 10-23 14:38 ?1545次閱讀

    簡述中軟國際模型工場服務(wù)場景

    在大力發(fā)展新質(zhì)生產(chǎn)力背景下,人工智能正成為高質(zhì)量發(fā)展的最大增量。而大模型以其模型精度高、能力強(qiáng)、支持多模態(tài)的特點(diǎn),成為人工智能技術(shù)發(fā)展的核心方向。
    的頭像 發(fā)表于 09-19 14:16 ?804次閱讀
    簡述中軟國際<b class='flag-5'>模型</b>工場服務(wù)場景