3月5日消息,F(xiàn)acebook的研究人員推出了一種新的AI模型,該模型可以從網(wǎng)上任何未標(biāo)記圖像的中學(xué)習(xí),這是一項(xiàng)突破,盡管該團(tuán)隊(duì)的研究仍處于早期階段,但他們希望給計(jì)算機(jī)視覺領(lǐng)域帶來一次“革命”。
該模型被稱為SEER(SElf-SupERvised),被饋入了10億張公開可用的Instagram圖像,這些圖像未經(jīng)過手動標(biāo)記。但是,即使沒有通常在AI算法訓(xùn)練中使用的標(biāo)簽和注釋,SEER仍能夠自主地訓(xùn)練數(shù)據(jù)集,不斷進(jìn)行學(xué)習(xí),并最終在諸如對象檢測之類的任務(wù)上達(dá)到最高的準(zhǔn)確性。
圖片來自Facebook AI
這種被稱為自監(jiān)督學(xué)習(xí)(self-supervised learning)的方法在AI領(lǐng)域已經(jīng)很成熟:它由可以直接從給定信息中學(xué)習(xí)的系統(tǒng)組成,而不必依賴經(jīng)過仔細(xì)標(biāo)記的數(shù)據(jù)集來教他們?nèi)绾螆?zhí)行諸如識別照片中的對象或翻譯文本之類的任務(wù)。
自監(jiān)督式學(xué)習(xí)近來引起了很多關(guān)注,因?yàn)檫@意味著需要手工標(biāo)記數(shù)據(jù)的工作要少很得,這對大多數(shù)研究人員而言是費(fèi)時(shí)費(fèi)力的工作。無需管理數(shù)據(jù)集的同時(shí),自監(jiān)督模型可以處理更大,更多樣化的數(shù)據(jù)集。
在某些領(lǐng)域,特別是自然語言處理中,該方法已經(jīng)取得了突破。在數(shù)量越來越多的未標(biāo)記文本上訓(xùn)練算法已使諸如問答、機(jī)器翻譯、自然語言推理等應(yīng)用程序取得了進(jìn)展。
相反,計(jì)算機(jī)視覺尚未完全進(jìn)入自監(jiān)督的學(xué)習(xí)革命。正如Facebook AI Research的軟件工程師Priya Gopal解釋的那樣,SEER是該領(lǐng)域的首創(chuàng)。她告訴ZDNet:“與現(xiàn)有的在ImageNet數(shù)據(jù)集上訓(xùn)練的計(jì)算機(jī)視覺的自監(jiān)督模型相比,SEER是第一個(gè)可以隨機(jī)訓(xùn)練互聯(lián)網(wǎng)上圖像上的完全自監(jiān)督的計(jì)算機(jī)視覺模型?!?/p>
ImageNet是一個(gè)大規(guī)模數(shù)據(jù)庫,包含研究人員標(biāo)記的數(shù)百萬張圖片,并向較大的計(jì)算機(jī)視覺社區(qū)開放,以促進(jìn)AI的發(fā)展。
該項(xiàng)目的數(shù)據(jù)庫被Facebook的研究人員用作評估SEER性能的基準(zhǔn),他們發(fā)現(xiàn)自監(jiān)督模型在諸如低空拍攝、物體檢測、分割和圖像分類等任務(wù)上優(yōu)于最新的監(jiān)督AI系統(tǒng)。
Goyal說:“通過僅對隨機(jī)圖像進(jìn)行訓(xùn)練,SEER優(yōu)于現(xiàn)有的自監(jiān)督模型。這一結(jié)果表明,我們不需要像ImageNet這樣的高度精選的數(shù)據(jù)集,對隨機(jī)圖像的自監(jiān)督學(xué)習(xí)就可以產(chǎn)生非常高質(zhì)量的模型?!?/p>
隨著自監(jiān)督學(xué)習(xí)復(fù)雜度的提高,研究人員的工作并非沒有挑戰(zhàn)。在文本方面,AI模型的任務(wù)是為單詞賦予含義。但是對于圖像,該算法必須決定每個(gè)像素如何與一個(gè)概念相對應(yīng),同時(shí)考慮到其在不同圖片中拍攝角度、視圖和形狀的差別。
換句話說,研究人員需要大量數(shù)據(jù),并且需要一個(gè)能夠從這種復(fù)雜的信息池中推導(dǎo)出所有可能的視覺概念。
為了完成此任務(wù),Goyal和她的團(tuán)隊(duì)從Facebook AI在自監(jiān)督學(xué)習(xí)中的現(xiàn)有工作中改編了一種新算法,稱為SwAV,該算法將顯示相似的圖像聚集到單獨(dú)的組中??茖W(xué)家還設(shè)計(jì)了卷積網(wǎng)絡(luò),也就是一種深度學(xué)習(xí)算法,算法對人腦中神經(jīng)元的連接模式進(jìn)行建模,根據(jù)重要性分配給圖像中的不同對象。
至少可以說,借助Instagram的10億張圖片的數(shù)據(jù)集,該系統(tǒng)的規(guī)模很大。Facebook的團(tuán)隊(duì)使用了具有32GB RAM的V100 Nvidia GPU,并且隨著模型尺寸的增加,必須將模型放入可用的RAM中。但是Goyal解釋說,進(jìn)一步的研究將對確保計(jì)算功能適應(yīng)新系統(tǒng)很有用。
“隨著我們在越來越多的GPU上訓(xùn)練模型,這些GPU之間的通信需要快速進(jìn)行??梢酝ㄟ^開發(fā)軟件來解決給定的內(nèi)存和運(yùn)行時(shí)間帶來的挑戰(zhàn)?!彼f。
盡管仍有許多工作要做,但是,在可以將SEER應(yīng)用于現(xiàn)實(shí)世界的用例之前,Goyal認(rèn)為不應(yīng)低估該技術(shù)的影響。她說:“借助SEER,我們現(xiàn)在可以通過大量隨機(jī)的互聯(lián)網(wǎng)上的圖像訓(xùn)練大型模型,在計(jì)算機(jī)視覺方面取得更大的進(jìn)步?!?/p>
“這一突破可以實(shí)現(xiàn)計(jì)算機(jī)視覺的自監(jiān)督學(xué)習(xí)革命,類似于我們在自然語言處理文本中所看到的?!?/p>
在Facebook內(nèi)部,SEER可用于各種計(jì)算機(jī)視覺任務(wù),從自動生成圖像描述到幫助識別違反政策的內(nèi)容。在公司外部,該技術(shù)還可用于圖像和元數(shù)據(jù)有限的領(lǐng)域,例如醫(yī)學(xué)成像。
Facebook的團(tuán)隊(duì)呼吁開展更多工作,以將SEER推進(jìn)到其下一階段的開發(fā)。作為研究的一部分,該團(tuán)隊(duì)開發(fā)了一種基于PyTorch的全能庫,用于自監(jiān)督學(xué)習(xí),稱為VISSL,該庫是開源的,鼓勵更多的AI社區(qū)成員對該技術(shù)進(jìn)行測試。
當(dāng)被問及是否已通知Instagram用戶使用其圖像來訓(xùn)練SEER或用戶是否有機(jī)會選擇其圖像不被用來學(xué)習(xí)時(shí),Goyal指出,F(xiàn)acebook在其數(shù)據(jù)政策中告知Instagram帳戶持有人,其使用圖片等信息來支持研究,其中包括支持SEER的研究。也就是說,F(xiàn)acebook并不打算分享這些圖片或SEER模型本身,部分原因是該模型可能包含無意識的偏見。
Facebook在一篇博客文章中寫道:“自我監(jiān)督學(xué)習(xí)一直是Facebook人工智能的重點(diǎn),因?yàn)樗箼C(jī)器可以直接從世界上大量可用的信息中學(xué)習(xí),而不僅僅是從專門為人工智能研究創(chuàng)建的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。就像在其他研究領(lǐng)域一樣,自我監(jiān)督學(xué)習(xí)對未來的計(jì)算機(jī)視覺有著不可思議的影響。消除了對人工注釋和元數(shù)據(jù)的需要,使計(jì)算機(jī)視覺社區(qū)能夠處理更大、更多樣化的數(shù)據(jù)集,從隨機(jī)公共圖像中學(xué)習(xí),并可能減輕數(shù)據(jù)管理中出現(xiàn)的一些偏見。自我監(jiān)督學(xué)習(xí)還可以幫助在圖像或元數(shù)據(jù)有限的領(lǐng)域(如醫(yī)學(xué)成像)對模型進(jìn)行專門研究。無需人工提前標(biāo)記,模型可以更快地創(chuàng)建和部署,能夠?qū)焖僮兓那闆r做出更快、更準(zhǔn)確的反應(yīng)。”
編輯:lyn
-
AI
+關(guān)注
關(guān)注
88文章
35117瀏覽量
279664
發(fā)布評論請先 登錄
任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來呢?
軟通計(jì)算機(jī)重磅發(fā)布DeepSeek大模型一體機(jī)產(chǎn)品

NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)

NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計(jì)算機(jī)視覺的支持

虹軟推出新一代視覺大模型ArcMuse 2025 V1.1
NVIDIA推出個(gè)人AI超級計(jì)算機(jī)Project DIGITS
量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

新思科技如何應(yīng)對量子計(jì)算機(jī)的威脅
【小白入門必看】一文讀懂深度學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)及學(xué)習(xí)路線

評論