99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于人工智能的自監(jiān)督學(xué)習(xí)詳解

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:infoq ? 作者:Yann LeCun Ishan Misr ? 2021-03-30 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠從很少的數(shù)據(jù)中學(xué)習(xí)知識(shí),這樣才能識(shí)別和理解世界上更微妙、更不常見(jiàn)的表示形式。

近年來(lái),AI 產(chǎn)業(yè)在開(kāi)發(fā)“可以從大量經(jīng)過(guò)細(xì)致標(biāo)記的數(shù)據(jù)中學(xué)習(xí)的 AI 系統(tǒng)”這個(gè)研究領(lǐng)域上取得了巨大進(jìn)步。這種監(jiān)督學(xué)習(xí)的范式在訓(xùn)練專(zhuān)業(yè)模型方面有著非常好的成績(jī),這類(lèi)模型在完成它們針對(duì)訓(xùn)練的任務(wù)時(shí)表現(xiàn)頗為出色。不幸的是,只靠監(jiān)督學(xué)習(xí),人工智能領(lǐng)域的前景是有局限的。

監(jiān)督學(xué)習(xí)是構(gòu)建更智能的通用模型道路上面臨的一個(gè)瓶頸。這種通用模型可以無(wú)需大量標(biāo)記數(shù)據(jù)就執(zhí)行多種任務(wù)并獲得新技能。實(shí)際上,想要標(biāo)記世界上的所有事物是不可能做到的。還有一些任務(wù)根本沒(méi)有足夠的標(biāo)記數(shù)據(jù),例如針對(duì)一些資源匱乏的語(yǔ)言的翻譯系統(tǒng)。如果 AI 系統(tǒng)能夠超越訓(xùn)練數(shù)據(jù)集所指定內(nèi)容的范疇,對(duì)現(xiàn)實(shí)做出更深入、更細(xì)致的理解,那么它們就會(huì)有更多用途,并最終發(fā)展出更接近人類(lèi)的 AI 智能。

在嬰兒時(shí)期,我們主要通過(guò)觀察來(lái)了解世界是如何運(yùn)轉(zhuǎn)的。我們學(xué)習(xí)諸如事物恒久性和重力之類(lèi)的概念,從而形成了關(guān)于世界中各種事物的通用預(yù)測(cè)模型。隨著我們成長(zhǎng),我們開(kāi)始觀察世界,對(duì)其采取行動(dòng),再次觀察并建立假設(shè),以通過(guò)嘗試和錯(cuò)誤來(lái)解釋我們的行為是如何改變環(huán)境的。

一個(gè)可行的假設(shè)是,關(guān)于世界的通行知識(shí),或者說(shuō)常識(shí),構(gòu)成了人類(lèi)和動(dòng)物具備的生物智能的主要基礎(chǔ)。這種常識(shí)能力對(duì)于人類(lèi)和動(dòng)物來(lái)說(shuō)都是天然存在的,但是自 AI 研究起步以來(lái),它一直都是一項(xiàng)未解決的挑戰(zhàn)。從某種意義上說(shuō),常識(shí)就是人工智能領(lǐng)域的暗物質(zhì)。

常識(shí)可以幫助人們學(xué)習(xí)新技能,而無(wú)需為每項(xiàng)任務(wù)都做大量的教學(xué)指導(dǎo)。例如,我們只需向小孩子展示幾張母牛的畫(huà)像,他們最后就能識(shí)別出他們看到的任何母牛。相比之下,受監(jiān)督學(xué)習(xí)訓(xùn)練的 AI 系統(tǒng)需要許多母牛圖像的樣本,即便如此也可能無(wú)法識(shí)別出特殊情況下的母牛(例如躺在沙灘上的牛)。

在幾乎沒(méi)有監(jiān)督的情況下,人們是如何在大約 20 個(gè)小時(shí)的練習(xí)中學(xué)會(huì)駕駛汽車(chē)的呢?相比之下,全自動(dòng)駕駛系統(tǒng)為什么需要?jiǎng)佑梦覀冏顑?yōu)秀的 AI 系統(tǒng),接受來(lái)自人類(lèi)駕駛員的數(shù)千小時(shí)數(shù)據(jù)的訓(xùn)練?簡(jiǎn)單的答案是,人類(lèi)依賴(lài)的是他們之前獲得的有關(guān)世界運(yùn)作方式的背景知識(shí)。

我們?nèi)绾巫寵C(jī)器也能做到這一點(diǎn)呢?

我們相信,自監(jiān)督學(xué)習(xí)(self-supervised learning,SSL)是建立這種背景知識(shí),并在 AI 系統(tǒng)中建立一種近似常識(shí)形式的最有前途的方法之一。

自監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠從很少的數(shù)據(jù)中學(xué)習(xí)知識(shí),這樣才能識(shí)別和理解世界上更微妙、更不常見(jiàn)的表示形式。自監(jiān)督學(xué)習(xí)在自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著的成就,包括 Collobert-Weston 2008 模型、Word2Vec、GloVE、fastText,以及最近的 BERT、RoBERTa、XLM-R 等成果。與僅以監(jiān)督方式做訓(xùn)練的系統(tǒng)相比,以這種方式進(jìn)行預(yù)訓(xùn)練的系統(tǒng)所提供的性能要高得多。

我們最新的研究項(xiàng)目 SEER 利用了 SwAV 等方法,在一個(gè)包含十億張隨機(jī)未標(biāo)記圖像的大型網(wǎng)絡(luò)上做預(yù)訓(xùn)練,進(jìn)而在各種視覺(jué)任務(wù)集上獲得了最頂尖的準(zhǔn)確性水平。這一進(jìn)展表明,自監(jiān)督學(xué)習(xí)也可以勝任復(fù)雜現(xiàn)實(shí)環(huán)境中的 CV 任務(wù)。

在這篇文章中,我們會(huì)向大家分享為什么自監(jiān)督學(xué)習(xí)可能有助于解鎖智能研究領(lǐng)域的暗物質(zhì),以及 AI 產(chǎn)業(yè)下一個(gè)前沿領(lǐng)域的細(xì)節(jié)。我們還將重點(diǎn)介紹關(guān)于 AI 系統(tǒng)中自監(jiān)督學(xué)習(xí)和推理的一些最有希望的新方向,包括在不確定環(huán)境下用于預(yù)測(cè)的基于能量的模型、聯(lián)合嵌入方法和潛在變量架構(gòu)。

自監(jiān)督學(xué)習(xí)是預(yù)測(cè)性學(xué)習(xí)

自監(jiān)督學(xué)習(xí)是利用數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)來(lái)從數(shù)據(jù)本身獲取監(jiān)督信號(hào)的。一般來(lái)說(shuō),自監(jiān)督學(xué)習(xí)使用的技術(shù)是根據(jù)輸入的任何觀察到的或非隱藏的部分,來(lái)預(yù)測(cè)輸入的任何未觀察到的或隱藏的部分(或?qū)傩裕?。例如,?NLP 中很常見(jiàn)的例子是,我們可以隱藏句子的一部分,并從其余單詞中預(yù)測(cè)隱藏的單詞。我們還可以根據(jù)當(dāng)前幀(觀察到的數(shù)據(jù))預(yù)測(cè)視頻中的過(guò)去幀或未來(lái)幀(隱藏?cái)?shù)據(jù))。由于自監(jiān)督學(xué)習(xí)使用的是數(shù)據(jù)本身的結(jié)構(gòu),因此它可以在多種共現(xiàn)模式(例如視頻和音頻)和大型數(shù)據(jù)集中利用各種監(jiān)督信號(hào),而無(wú)需依賴(lài)標(biāo)記。

254c4f80-9136-11eb-8b86-12bb97331649.png

在自監(jiān)督學(xué)習(xí)中,訓(xùn)練系統(tǒng)以從輸入的可見(jiàn)部分(綠色)預(yù)測(cè)輸入的隱藏部分(灰色)

由于自監(jiān)督學(xué)習(xí)是由監(jiān)督信號(hào)推動(dòng)的,因此與之前使用的術(shù)語(yǔ)“無(wú)監(jiān)督學(xué)習(xí)”相比,“自監(jiān)督學(xué)習(xí)”這個(gè)術(shù)語(yǔ)更容易被接受。無(wú)監(jiān)督學(xué)習(xí)是一個(gè)定義不清、具有誤導(dǎo)性的術(shù)語(yǔ),讓人覺(jué)得這種學(xué)習(xí)根本用不到監(jiān)督。實(shí)際上,自監(jiān)督學(xué)習(xí)并不是無(wú)監(jiān)督的,因?yàn)樗褂玫姆答佇盘?hào)比標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法要多得多。

自監(jiān)督的語(yǔ)言與視覺(jué)學(xué)習(xí)

自監(jiān)督學(xué)習(xí)對(duì) NLP 產(chǎn)生了特別深遠(yuǎn)的影響,使我們能夠在大型的未標(biāo)記文本數(shù)據(jù)集上訓(xùn)練 BERT、RoBERTa、XLM-R 等模型,然后將這些模型用于下游任務(wù)。這些模型在自監(jiān)督階段進(jìn)行預(yù)訓(xùn)練,然后針對(duì)特定任務(wù)(例如分類(lèi)文本主題)進(jìn)行微調(diào)。在自監(jiān)督的預(yù)訓(xùn)練階段,系統(tǒng)會(huì)顯示一段簡(jiǎn)短的文本(通常包含 1,000 個(gè)單詞),其中一些單詞已被屏蔽或替換。系統(tǒng)經(jīng)過(guò)訓(xùn)練可以預(yù)測(cè)被屏蔽或替換的單詞。通過(guò)這種方式,系統(tǒng)學(xué)會(huì)了表示文本的含義,這樣它就可以很好地填寫(xiě)“正確的”單詞,或者說(shuō)在上下文中有意義的單詞。

預(yù)測(cè)輸入的缺失部分是 SSL 預(yù)訓(xùn)練的更常見(jiàn)的任務(wù)之一。要完成諸如“()在非洲草原上追趕()”這樣的句子,系統(tǒng)必須知道獅子或獵豹可以追捕羚羊或牛羚,但貓是在廚房而非熱帶草原中追逐老鼠的。訓(xùn)練的結(jié)果是,系統(tǒng)學(xué)會(huì)了如何表示單詞的含義、單詞在句子中的作用以及整段文本的含義。

但是,這些技術(shù)不能輕松擴(kuò)展到新領(lǐng)域,例如 CV 上。盡管 SSL 取得了令人鼓舞的早期成果,但它尚未在計(jì)算機(jī)視覺(jué)方面帶來(lái)我們?cè)?NLP 領(lǐng)域中看到的那種改進(jìn)(盡管這種情況將會(huì)改變)。

主要原因是,在圖像的預(yù)測(cè)任務(wù)中表示不確定性要比在單詞中表示不確定性困難得多。當(dāng)系統(tǒng)無(wú)法準(zhǔn)確預(yù)測(cè)缺失的單詞時(shí)(是“獅子”還是“獵豹”?),系統(tǒng)可以對(duì)詞匯表中所有可能的單詞打出分?jǐn)?shù)或概率:“獅子”“獵豹”和其他一些掠食者拿到高分,詞匯表中其他單詞的得分都較低。

規(guī)模這么大的訓(xùn)練模型還需要一種在運(yùn)行時(shí)和內(nèi)存方面都有很高效率,而又不影響準(zhǔn)確性的模型架構(gòu)。幸運(yùn)的是,F(xiàn)AIR 在架構(gòu)設(shè)計(jì)領(lǐng)域的最新創(chuàng)新催生了一個(gè)新的模型家族,名為 RegNets,可以完全符合這些需求。RegNet 模型都是 ConvNet,能夠擴(kuò)展到數(shù)十億甚至可能是數(shù)萬(wàn)億的參數(shù),并且可以進(jìn)行針對(duì)優(yōu)化以適應(yīng)不同的運(yùn)行時(shí)和內(nèi)存限制。

但是,當(dāng)我們預(yù)測(cè)視頻中丟失的幀或圖像中缺少的色塊時(shí),我們不知道如何有效地表示不確定性。我們無(wú)法列出所有可能的視頻幀,也無(wú)法給每個(gè)可能的視頻幀打出分?jǐn)?shù),因?yàn)樗鼈兊臄?shù)量是無(wú)限的。盡管這一問(wèn)題限制了視覺(jué)領(lǐng)域中 SSL 帶來(lái)的性能改進(jìn),但諸如 SwAV 之類(lèi)的新 SSL 技術(shù)開(kāi)始打破視覺(jué)任務(wù)中的準(zhǔn)確性記錄。SEER 系統(tǒng)就是一個(gè)最佳證明,它使用了一個(gè)經(jīng)過(guò)數(shù)十億樣本訓(xùn)練的大型卷積網(wǎng)絡(luò)。

對(duì)預(yù)測(cè)中的不確定性建模

258ea4ac-9136-11eb-8b86-12bb97331649.jpg

為了更好地理解這一挑戰(zhàn),我們首先需要了解與 NLP 相比,CV 中預(yù)測(cè)不確定性及其建模的方式。在 NLP 中,缺失單詞的預(yù)測(cè)工作需要計(jì)算詞匯表中每個(gè)可能單詞的預(yù)測(cè)分?jǐn)?shù)。雖然詞匯量本身很大,并且預(yù)測(cè)缺失單詞會(huì)帶來(lái)一些不確定性,但系統(tǒng)可以生成詞匯表中所有可能單詞的列表以及該位置可能出現(xiàn)單詞的概率估計(jì)。典型的機(jī)器學(xué)習(xí)系統(tǒng)會(huì)將預(yù)測(cè)問(wèn)題視為分類(lèi)問(wèn)題,并使用巨大的所謂的 softmax 層來(lái)計(jì)算每個(gè)結(jié)果的分?jǐn)?shù),進(jìn)而將原始分?jǐn)?shù)轉(zhuǎn)換為單詞的概率分布以實(shí)現(xiàn)上述目的。使用這種技術(shù),只要存在有限數(shù)量的可能結(jié)果,預(yù)測(cè)的不確定性就可以通過(guò)所有可能結(jié)果的概率分布來(lái)表示。

相比之下,在 CV 領(lǐng)域中,預(yù)測(cè)視頻中“丟失”的幀、圖像中缺少的塊或語(yǔ)音信號(hào)中缺失片段的類(lèi)似任務(wù)需要對(duì)高維連續(xù)對(duì)象做預(yù)測(cè),而不是對(duì)離散結(jié)果做預(yù)測(cè)。給定的視頻幀后面可以跟隨的視頻幀有無(wú)數(shù)種合理的可能。系統(tǒng)不可能明確表示所有可能的視頻幀并為它們給出預(yù)測(cè)分?jǐn)?shù)。實(shí)際上,我們可能永遠(yuǎn)也沒(méi)有適當(dāng)?shù)乇硎靖呔S連續(xù)空間(例如所有可能視頻幀的集合)上概率分布的技術(shù)。

這似乎是一個(gè)棘手的問(wèn)題。

自監(jiān)督方法的統(tǒng)一視角

基于能量的模型(energy-based model,EBM)這一統(tǒng)一框架為 SSL 提供了一種思路。EBM 是一種可訓(xùn)練的系統(tǒng),在給定兩個(gè)輸入 x 和 y 的情況下,它能告訴我們它們彼此之間的不相容程度。例如,x 可以是一段短視頻剪輯,而 y 可以是另一個(gè)建議的視頻剪輯。機(jī)器會(huì)告訴我們 y 在多大程度上是 x 的良好后續(xù)。為了指出 x 和 y 之間的不相容程度,機(jī)器會(huì)生成一個(gè)稱(chēng)為能量的數(shù)字。如果能量較低,則認(rèn)為 x 和 y 相互趨于相容;否則,x 和 y 被認(rèn)為是不相容的。

25cad31e-9136-11eb-8b86-12bb97331649.jpg

基于能量的模型(EBM)測(cè)量觀測(cè)值 x 與建議的預(yù)測(cè)值 y 之間的相容性。如果 x 和 y 相容,則能量很小。如果它們不相容,則能量較大。

EBM 的訓(xùn)練過(guò)程包括兩部分:(1)向其展示 x 和 y 相容的示例并對(duì)其進(jìn)行訓(xùn)練以產(chǎn)生一個(gè)較低的能量(2)找到一種方法來(lái)確保對(duì)于特定 x,與 x 不相容的 y 值產(chǎn)生的能量比與 x 相容的 y 值更高。第一部分很簡(jiǎn)單,但第二部分就是困難所在。

為了進(jìn)行圖像識(shí)別,我們的模型將 x 和 y 這兩個(gè)圖像作為輸入。如果 x 和 y 是同一圖像的略有變形的版本,則用它們訓(xùn)練該模型以使其輸出產(chǎn)生低能量。例如,x 可以是一輛汽車(chē)的照片,而 y 可以是同一輛汽車(chē)的照片,只是在一天中的不同時(shí)間從稍有不同的位置拍攝的,因此相比 x 中的汽車(chē),y 中的汽車(chē)可以移動(dòng)、旋轉(zhuǎn)、更大、更小,或者顯示的顏色和陰影略有不同。

聯(lián)合嵌入,暹羅網(wǎng)絡(luò)

一種特別適合這一用途的深度學(xué)習(xí)架構(gòu)是所謂的暹羅網(wǎng)絡(luò)或稱(chēng)聯(lián)合嵌入(joint embedding)架構(gòu)。這個(gè)想法可以追溯到 Geoff Hinton 實(shí)驗(yàn)室和 Yann LeCun 小組的論文(1990 年代初,這里和這里;2000 年代中,這里,這里,和這里)。它過(guò)去一直沒(méi)得到很好的重視,但自 2019 年底以來(lái)重新成為了熱門(mén)話(huà)題。聯(lián)合嵌入架構(gòu)由同一網(wǎng)絡(luò)的兩個(gè)相同(或幾乎相同)的副本組成。一個(gè)網(wǎng)絡(luò)用 x 輸入,另一個(gè)網(wǎng)絡(luò)用 y 輸入。這些網(wǎng)絡(luò)生成稱(chēng)為嵌入(embedding)的輸出向量,分別表示 x 和 y。第三個(gè)模塊將這些網(wǎng)絡(luò)頭對(duì)頭連接起來(lái),將能量計(jì)算為兩個(gè)嵌入向量之間的距離。當(dāng)模型看到同一圖像的不同變形版本時(shí),可以輕松調(diào)整網(wǎng)絡(luò)參數(shù),以使它們的輸出靠得更近。這將確保網(wǎng)絡(luò)生成對(duì)象的幾乎相同的表示(或嵌入),而不管該對(duì)象的特定視圖是什么樣子。

2632b7ae-9136-11eb-8b86-12bb97331649.jpg

聯(lián)合嵌入架構(gòu)。頂部的函數(shù) C 產(chǎn)生一個(gè)標(biāo)量能量,該標(biāo)量能量測(cè)量由共享相同參數(shù)(w)的兩個(gè)相同的雙胞胎網(wǎng)絡(luò)生成的表示向量(嵌入)之間的距離。當(dāng) x 和 y 是同一圖像的稍有不同的版本時(shí),系統(tǒng)經(jīng)過(guò)訓(xùn)練以生成一個(gè)低能量,這迫使模型為兩個(gè)圖像生成相似的嵌入向量。困難的部分是訓(xùn)練模型,以便為不同的圖像生成高能量(即,不同的嵌入)。

困難在于當(dāng) x 和 y 是不同的圖像時(shí),如何確保網(wǎng)絡(luò)生成高能量,即不同的嵌入向量。如果沒(méi)有特定的方法,這兩個(gè)網(wǎng)絡(luò)可能會(huì)愉快地忽略它們的輸入,并始終生成相同的輸出嵌入。這種現(xiàn)象稱(chēng)為崩潰。當(dāng)發(fā)生崩潰時(shí),x 和 y 不匹配的能量不會(huì)比 x 和 y 匹配的能量更高。

有兩種避免崩潰的技術(shù):對(duì)比方法和正則化方法。

基于能量的 SSL 的對(duì)比方法

對(duì)比方法基于以下簡(jiǎn)單思想:構(gòu)造不相容的 x 和 y 對(duì),并調(diào)整模型的參數(shù),以使相應(yīng)的輸出能量較大。

264d9b0a-9136-11eb-8b86-12bb97331649.gif

用對(duì)比方法訓(xùn)練 EBM 的方法包括同時(shí)降低訓(xùn)練集中相容的(x,y)對(duì)的能量(由藍(lán)點(diǎn)表示),提高挑選出來(lái)的不相容的(x,y)對(duì)的能量(以綠點(diǎn)表示)。在這個(gè)簡(jiǎn)單的示例中 x 和 y 都是標(biāo)量,但在實(shí)際情況下,x 和 y 可以是具有數(shù)百萬(wàn)個(gè)維度的圖像或視頻。找出讓能量按照預(yù)期方式漲落的不相容對(duì)是一大挑戰(zhàn),需要龐大的計(jì)算資源。

通過(guò)屏蔽或替換某些輸入詞來(lái)訓(xùn)練 NLP 系統(tǒng)的方法屬于對(duì)比方法的類(lèi)別。但是它們不使用聯(lián)合嵌入架構(gòu)。取而代之的是,他們使用了一種預(yù)測(cè)架構(gòu),其中模型直接生成 y 的預(yù)測(cè)。模型從文本 y 的一個(gè)完整段開(kāi)始,然后通過(guò)屏蔽某些單詞來(lái)破壞它,以生成觀察值。損壞的輸入將輸入到一個(gè)大型神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練可以重現(xiàn)原始文本 y。未損壞的文本將被重建為自身(低重建錯(cuò)誤),而已損壞的文本將被重建為自身的未損壞版本(較大的重建錯(cuò)誤)。如果將重建錯(cuò)誤解釋為一種能量,它將具有所需的屬性:“干凈”文本的能量較低,而“損壞”文本的能量較高。

訓(xùn)練模型以恢復(fù)輸入的損壞版本的一般性技術(shù)被稱(chēng)為降噪自動(dòng)編碼器。這個(gè)想法的早期形式可以追溯到 1980 年代,2008 年由蒙特利爾大學(xué)的 PascalVincent 和同事們復(fù)興。這一理念被 Collobert 和 Weston 引入 NLP 領(lǐng)域,并由我們?cè)诠雀璧耐性?BERT 論文中發(fā)揚(yáng)光大。

2714584e-9136-11eb-8b86-12bb97331649.jpg

屏蔽語(yǔ)言模型是降噪自動(dòng)編碼器的一個(gè)實(shí)例,它本身是對(duì)比自監(jiān)督學(xué)習(xí)的一個(gè)實(shí)例。變量 y 是一個(gè)文本段;x 是文本中某些單詞被屏蔽的版本。網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練可以重建未損壞的文本。

正如我們之前指出的,這種類(lèi)型的預(yù)測(cè)架構(gòu)只能對(duì)給定的輸入生成單個(gè)預(yù)測(cè)。由于模型必須能夠預(yù)測(cè)多個(gè)可能的結(jié)果,因此預(yù)測(cè)結(jié)果不是單個(gè)單詞集,而是針對(duì)每個(gè)缺失單詞位置的詞匯表中各個(gè)單詞的分?jǐn)?shù)系列。

但是我們不能對(duì)圖像使用這種技術(shù),因?yàn)槲覀儫o(wú)法枚舉所有可能的圖像。存在解決這一問(wèn)題的方法嗎?簡(jiǎn)單的回答就是不存在。在這個(gè)方向上有一些有趣的想法,但是它們尚未產(chǎn)生與聯(lián)合嵌入架構(gòu)一樣好的結(jié)果。一種有趣的途徑是潛在變量(latent-variable)預(yù)測(cè)架構(gòu)。

273ef66c-9136-11eb-8b86-12bb97331649.jpg

潛在變量預(yù)測(cè)架構(gòu)。給定一個(gè)觀測(cè)值 x,該模型必須能夠生成一組由圖中的 S 形色帶表示的多個(gè)相容預(yù)測(cè)。當(dāng)潛在變量 z 在一個(gè)用灰色正方形表示的集合內(nèi)變化時(shí),輸出在該組合理的預(yù)測(cè)范圍內(nèi)變化。

潛在變量預(yù)測(cè)模型包含一個(gè)額外的輸入變量(z)。之所以稱(chēng)其為潛在,是因?yàn)橄到y(tǒng)從未觀察到它的值。對(duì)于經(jīng)過(guò)適當(dāng)訓(xùn)練的模型,由于潛在變量在給定的集合上變化,因此輸出預(yù)測(cè)在與輸入 x 相容的合理預(yù)測(cè)的集合上變化。

可以使用對(duì)比方法來(lái)訓(xùn)練潛在變量模型。生成對(duì)抗網(wǎng)絡(luò)(GAN)就是一個(gè)很好的例子。批評(píng)者(或稱(chēng)鑒別器)可以被視為計(jì)算能量,該能量指示輸入 y 是否看起來(lái)不錯(cuò)。生成器網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練以生成對(duì)比樣本,批評(píng)者被訓(xùn)練到對(duì)比樣本以關(guān)聯(lián)高能量。

但是對(duì)比方法有一大問(wèn)題:它們的訓(xùn)練效率很低。在諸如圖像之類(lèi)的高維空間中,一張圖像與另一張圖像的區(qū)別可以有很多表現(xiàn)形式。找到涵蓋所有可能與給定圖像不同之處的對(duì)比圖像集合幾乎是不可能的任務(wù)。就像托爾斯泰名著《安娜·卡列尼娜》中的名言:“幸福的家庭都是相似的;不幸的家庭都有自己的不幸。”看來(lái),這一規(guī)則也適用于任何高維對(duì)象系列。

怎樣才能在不顯著提高許多不相容對(duì)的能量的情況下,確保不相容對(duì)的能量高于相容對(duì)的能量呢?

基于能量的 SSL 的非對(duì)比方法

應(yīng)用于聯(lián)合嵌入架構(gòu)的非對(duì)比方法可能是目前 SSL 視覺(jué)領(lǐng)域中最熱門(mén)的話(huà)題。這個(gè)領(lǐng)域還有大片需要探索的未知事物,但它似乎很有希望。

聯(lián)合嵌入的非對(duì)比方法包括 DeepCluster、ClusterFit、MoCo-v2、SwAV、SimSiam、Barlow Twins、來(lái)自 DeepMind 的 BYOL 等等。他們使用各種技巧,例如為一組相似的圖像計(jì)算虛擬目標(biāo)嵌入(DeeperCluster、SwAV、SimSiam),或者通過(guò)架構(gòu)或參數(shù)向量來(lái)讓兩種聯(lián)合嵌入架構(gòu)出現(xiàn)細(xì)微差異(BYOL、MoCo)。BarlowTwins 則試圖最小化嵌入向量各個(gè)分量之間的冗余。

從長(zhǎng)遠(yuǎn)來(lái)看,也許更好的選擇是設(shè)計(jì)潛在變量預(yù)測(cè)模型的非對(duì)比方法。主要的障礙是它們需要一種方法來(lái)最小化潛在變量的容量。容納潛在變量變化的集合大小限制了消耗低能量的輸出的大小。通過(guò)最小化這一大小,可以自動(dòng)以正確的方式來(lái)排布能量。

這種方法的一個(gè)成功例子是變分自編碼器(Variational Auto-Encoder,VAE),其將潛在變量設(shè)為“模糊”,從而限制了其容量。但是,尚未證明 VAE 可以為下游的視覺(jué)任務(wù)提供良好的表示。另一個(gè)成功的例子是稀疏建模(sparse modeling),但其用例僅限于簡(jiǎn)單的架構(gòu)。似乎沒(méi)有完美的方法可以限制潛在變量的容量。

未來(lái)幾年我們面臨的挑戰(zhàn)可能是為潛在變量基于能量的模型設(shè)計(jì)非對(duì)比方法,這種方法應(yīng)該能成功生成圖像、視頻、語(yǔ)音和其他信號(hào)的良好表示形式,并在不需要大量標(biāo)記數(shù)據(jù)的情況下在下游監(jiān)督任務(wù)中獲得最佳性能。

推進(jìn)視覺(jué)領(lǐng)域的自監(jiān)督學(xué)習(xí)

最近,我們創(chuàng)建并開(kāi)源了一種稱(chēng)為 SEER 的,具有十億參數(shù)的自監(jiān)督 CV 新模型,它已被證明可有效處理復(fù)雜的高維圖像數(shù)據(jù)。它基于應(yīng)用于卷積網(wǎng)絡(luò)架構(gòu)(ConvNet)的 SwAV 方法,可以用大量隨機(jī)圖像訓(xùn)練,而無(wú)需任何元數(shù)據(jù)或注釋。ConvNet 足夠大,可以從龐大而復(fù)雜的數(shù)據(jù)中捕獲和學(xué)習(xí)每個(gè)視覺(jué)概念。在對(duì) 10 億張隨機(jī)、未標(biāo)記和未整理的公共 Instagram 圖像集合進(jìn)行預(yù)訓(xùn)練,并在 ImageNet 上進(jìn)行了監(jiān)督微調(diào)之后,SEER 的表現(xiàn)超過(guò)了最先進(jìn)的自監(jiān)督系統(tǒng),在 ImageNet 上的 top-1 準(zhǔn)確度達(dá)到了 84.2%。

這些結(jié)果表明,我們可以將自監(jiān)督的學(xué)習(xí)范式拓展到計(jì)算機(jī)視覺(jué)領(lǐng)域。

在 Facebook 應(yīng)用自監(jiān)督學(xué)習(xí)

在 Facebook,我們不僅在多個(gè)領(lǐng)域通過(guò)基礎(chǔ)、開(kāi)放的科學(xué)研究推進(jìn)自監(jiān)督學(xué)習(xí)技術(shù),我們還將這項(xiàng)前沿工作應(yīng)用到了生產(chǎn)中,以快速提高我們平臺(tái)安全性產(chǎn)品中內(nèi)容理解系統(tǒng)的準(zhǔn)確度,

像我們的預(yù)訓(xùn)練語(yǔ)言模型 XLM 這樣的自監(jiān)督領(lǐng)域研究正在為 Facebook 上的許多重要應(yīng)用程序提供動(dòng)力——包括主動(dòng)檢測(cè)仇恨言論的系統(tǒng)。我們已經(jīng)部署了 XLM-R,該模型利用了我們的

RoBERT 架構(gòu),以改進(jìn)我們?cè)?Facebook 和 Instagram 上針對(duì)多種語(yǔ)言的仇恨語(yǔ)音分類(lèi)器,這樣即使在訓(xùn)練數(shù)據(jù)很少的語(yǔ)言中我們也可以實(shí)現(xiàn)仇恨語(yǔ)音檢測(cè)。

近年來(lái),自監(jiān)督學(xué)習(xí)的進(jìn)展讓我們倍感鼓舞,盡管要讓這種方法幫助我們發(fā)現(xiàn) AI 智能的暗物質(zhì)還有很長(zhǎng)的路要走。自監(jiān)督是通往人類(lèi)水平智能的道路上的重要一步,但這一步背后肯定有許多積累,所謂千里之行始于足下。因此,我們?cè)谂εc更大范圍內(nèi)的 AI 社區(qū)合作,以實(shí)現(xiàn)我們?cè)谖磥?lái)的某一天創(chuàng)造出具有人類(lèi)智能的機(jī)器的目標(biāo)。我們的研究已公開(kāi)發(fā)布并在頂級(jí)會(huì)議上發(fā)表。我們還組織了研討會(huì)并發(fā)布了一些庫(kù),以幫助加快這一領(lǐng)域的研究。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35194

    瀏覽量

    280265
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49035

    瀏覽量

    249755
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22631

原文標(biāo)題:圖靈獎(jiǎng)得主 Yann LeCun 最新文章 :自監(jiān)督學(xué)習(xí),人工智能世界的“暗物質(zhì)”

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門(mén)學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會(huì)發(fā)展的當(dāng)下,無(wú)論是探索未來(lái)職業(yè)方向,還是更新技術(shù)儲(chǔ)備,掌握大模型知識(shí)都已成為新時(shí)代的必修課。從職場(chǎng)上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模型正在工作生活
    發(fā)表于 07-04 11:10

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無(wú)需任何監(jiān)督或關(guān)于結(jié)果的先驗(yàn)知識(shí)。
    的頭像 發(fā)表于 05-16 14:48 ?698次閱讀
    使用MATLAB進(jìn)行無(wú)<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    人工智能和機(jī)器學(xué)習(xí)以及Edge AI的概念與應(yīng)用

    人工智能相關(guān)各種技術(shù)的概念介紹,以及先進(jìn)的Edge AI(邊緣人工智能)的最新發(fā)展與相關(guān)應(yīng)用。 人工智能和機(jī)器學(xué)習(xí)是現(xiàn)代科技的核心技術(shù) 人工智能
    的頭像 發(fā)表于 01-25 17:37 ?942次閱讀
    <b class='flag-5'>人工智能</b>和機(jī)器<b class='flag-5'>學(xué)習(xí)</b>以及Edge AI的概念與應(yīng)用

    時(shí)空引導(dǎo)下的時(shí)間序列監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列無(wú)監(jiān)督預(yù)訓(xùn)練的文章,相比原來(lái)的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?773次閱讀
    時(shí)空引導(dǎo)下的時(shí)間序列<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    嵌入式和人工智能究竟是什么關(guān)系?

    領(lǐng)域,如工業(yè)控制、智能家居、醫(yī)療設(shè)備等。 人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它研究如何使計(jì)算機(jī)具備像人類(lèi)一樣思考、學(xué)習(xí)、推理和決策的能力。人工智能的發(fā)展歷程可以追溯到上世紀(jì)50年代,經(jīng)
    發(fā)表于 11-14 16:39

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類(lèi)似人類(lèi)智能的設(shè)備。AI有很多技術(shù),但其中一個(gè)很大的子集是機(jī)器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)。
    發(fā)表于 10-24 17:22 ?2998次閱讀
    <b class='flag-5'>人工智能</b>、機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    、優(yōu)化等方面的應(yīng)用有了更清晰的認(rèn)識(shí)。特別是書(shū)中提到的基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的能源管理系統(tǒng),通過(guò)實(shí)時(shí)監(jiān)測(cè)和分析能源數(shù)據(jù),實(shí)現(xiàn)了能源的高效利用和智能化管理。 其次,第6章通過(guò)多個(gè)案例展示了人工智能在能源科學(xué)中
    發(fā)表于 10-14 09:27

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,無(wú)疑為讀者鋪設(shè)了一條探索人工智能(AI)如何深刻影響并推動(dòng)科學(xué)創(chuàng)新的道路。在閱讀這一章后,我深刻感受到了人工智能技術(shù)在科學(xué)領(lǐng)域的廣泛應(yīng)用潛力以及其帶來(lái)的革命性變化,以下是我個(gè)人的學(xué)習(xí)心得: 1.
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    人工智能推薦系統(tǒng)中強(qiáng)大的圖形處理器(GPU)一爭(zhēng)高下。其獨(dú)特的設(shè)計(jì)使得該處理器在功耗受限的條件下仍能實(shí)現(xiàn)高性能的圖像處理任務(wù)。 Ceremorphic公司 :該公司開(kāi)發(fā)的分層學(xué)習(xí)處理器結(jié)合了
    發(fā)表于 09-28 11:00

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問(wèn)下哪些比較容易學(xué) 不過(guò)好像都是要學(xué)的
    發(fā)表于 09-26 15:24

    人工智能ai4s試讀申請(qǐng)

    目前人工智能在繪畫(huà)對(duì)話(huà)等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個(gè)需要研究的課題,本書(shū)對(duì)ai4s基本原理和原則,方法進(jìn)行描訴,有利于總結(jié)經(jīng)驗(yàn),擬按照要求準(zhǔn)備相關(guān)體會(huì)材料??茨芊裼兄谌腴T(mén)和提高ss
    發(fā)表于 09-09 15:36

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    ! 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》 這本書(shū)便將為讀者徐徐展開(kāi)AI for Science的美麗圖景,與大家一起去了解: 人工智能究竟幫科學(xué)家做了什么? 人工智能將如何改變我們所生
    發(fā)表于 09-09 13:54

    報(bào)名開(kāi)啟!深圳(國(guó)際)通用人工智能大會(huì)將啟幕,國(guó)內(nèi)外大咖齊聚話(huà)AI

    8月28日至30日,2024深圳(國(guó)際)通用人工智能大會(huì)暨深圳(國(guó)際)通用人工智能產(chǎn)業(yè)博覽會(huì)將在深圳國(guó)際會(huì)展中心(寶安)舉辦。大會(huì)以“魅力AI·無(wú)限未來(lái)”為主題,致力于打造全球通用人工智能領(lǐng)域集產(chǎn)品
    發(fā)表于 08-22 15:00

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個(gè)方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過(guò)程加速:FPGA可以用來(lái)加速深度學(xué)習(xí)的訓(xùn)練和推理過(guò)程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開(kāi)始學(xué)習(xí)《大語(yǔ)言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對(duì)于人工智能相關(guān)專(zhuān)業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對(duì)于我還是有許多的知識(shí)點(diǎn)、專(zhuān)業(yè)術(shù)語(yǔ)比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書(shū)中
    發(fā)表于 07-25 14:33