本文介紹了近期在機(jī)器學(xué)習(xí)/人工智能領(lǐng)域一些非常有創(chuàng)意的突破,每一個(gè)都腦洞大開(kāi),不管是否是相關(guān)從業(yè)人員都值得一讀。并附上一些論文、視頻鏈接和簡(jiǎn)要總結(jié)。
與其他領(lǐng)域相比,機(jī)器學(xué)習(xí)/人工智能現(xiàn)在發(fā)展的非常快,經(jīng)常有一些有趣的突破。讓你不由自主的發(fā)出“wow”甚至“人間值得”的感嘆!(兩分鐘論文作者的口頭禪)
兩分鐘論文
https://www.youtube.com/channel/UCbfYPyITQ-7l4upoX8nvctg
免責(zé)聲明:我并沒(méi)有對(duì)“振奮人心”或“突破”進(jìn)行嚴(yán)格的定義;這只是一個(gè)非正式的清單。我會(huì)用可能不那么嚴(yán)格的術(shù)語(yǔ)來(lái)讓這篇文章更通俗易懂。
從看似不可用的信息中得出驚人的準(zhǔn)確估計(jì)
透過(guò)墻對(duì)人體姿態(tài)做估計(jì)
麻省理工學(xué)院研究人員的網(wǎng)站/視頻(2018年)
我們可以根據(jù)某人對(duì)WiFi信號(hào)的擾亂,準(zhǔn)確地估計(jì)此人在墻壁另一側(cè)是如何站著/坐著/走路的。
從視頻中測(cè)量材料的物理特性
麻省理工學(xué)院研究人員的文章/視頻(2015年)
http://news.mit.edu/2015/visual-microphone-identifies-structural-defects-0521
研究人員在2014年首次展示了根據(jù)振動(dòng)情況從薯片包裝袋的視頻(沒(méi)有聲音)中重現(xiàn)人類(lèi)的語(yǔ)音。該成果沒(méi)有涉及機(jī)器學(xué)習(xí)。2015年,他們使用機(jī)器學(xué)習(xí),并展示了通過(guò)視頻來(lái)估計(jì)材料的剛度、彈性、單位面積的重量等(在某些情況下,僅僅空氣正常循環(huán)引起的振動(dòng)就足夠了)。
從鍵盤(pán)旁邊的智能手機(jī)估計(jì)鍵盤(pán)敲擊
論文,2015
https://www.sigmobile.org/mobicom/2015/papers/p142-liuA.pdf
研究人員發(fā)現(xiàn),從一臺(tái)放在鍵盤(pán)旁邊的智能手機(jī)中錄制的音頻,可以以94%的準(zhǔn)確率估計(jì)鍵盤(pán)敲擊。與以前在鍵盤(pán)周?chē)胖迷S多麥克風(fēng)的情況下使用有監(jiān)督的深度學(xué)習(xí)方法不同,這篇論文實(shí)際上使用了相對(duì)簡(jiǎn)單的機(jī)器學(xué)習(xí)技術(shù)(k-均值聚類(lèi))和無(wú)監(jiān)督學(xué)習(xí)。
生成模型
逼真的面部生成、樣式混合和移植
Nvidia研究人員的論文/視頻(2018年)
論文
https://arxiv.org/abs/1812.04948
視頻
https://www.youtube.com/watch?v=kSLJriaOumA
研究人員將一種新的結(jié)構(gòu)與大量的GPU結(jié)合起來(lái),創(chuàng)造出極其逼真的人造人臉,這些人臉是其他人臉之間的移植,或者是一個(gè)人臉到另一個(gè)人臉的“樣式”應(yīng)用。這項(xiàng)工作建立在過(guò)去關(guān)于生成對(duì)抗網(wǎng)絡(luò)(GANs)的工作之上。GANs是在2014年發(fā)明的,從那時(shí)起對(duì)它的研究就出現(xiàn)了爆炸式增長(zhǎng)。GANs最基本的解釋是兩個(gè)相互對(duì)抗的神經(jīng)網(wǎng)絡(luò)(例如,一個(gè)是將圖像分類(lèi)為“真實(shí)”或“假冒”的神經(jīng)網(wǎng)絡(luò),另一個(gè)是以試圖“欺騙”第一個(gè)神經(jīng)網(wǎng)絡(luò)將假冒圖像錯(cuò)誤分類(lèi)為真實(shí)的方式生成圖像的神經(jīng)網(wǎng)絡(luò)……因此,第二個(gè)神經(jīng)網(wǎng)絡(luò)是第一個(gè)的“對(duì)手”)。
總的來(lái)說(shuō),關(guān)于對(duì)抗性機(jī)器學(xué)習(xí)有很多很酷的研究,已經(jīng)存在了十多年。對(duì)網(wǎng)絡(luò)安全等也有許多令人毛骨悚然的影響,但我再講就跑題了。
很酷的研究
https://github.com/yenchenlin/awesome-adversarial-machine-learning
教機(jī)器繪圖
Google Brain的博客帖子(2017年)
https://ai.googleblog.com/2017/04/teaching-machines-to-draw.html
兩幅圖之間的插值
我在Google Brain的好朋友David Ha用一個(gè)生成循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)繪制基于矢量的圖形(除了自動(dòng)以外,我認(rèn)為這就是Adobe Illustrator)。
David Ha
https://twitter.com/hardmaru
把炫酷的舞步遷移給不會(huì)跳舞的人
加州大學(xué)伯克利分校研究人員的網(wǎng)站/視頻(2018年)
網(wǎng)站
https://carolineec.github.io/everybody_dance_now/
視頻
https://www.youtube.com/watch?v=PCBTZh41Ris
想想“舞蹈版的Auto-Tune”。通過(guò)姿勢(shì)估計(jì)和生成對(duì)抗訓(xùn)練,研究人員能夠制作任何真人(“目標(biāo)”人物)跳舞的假冒視頻,視頻中的人舞技精湛。所需輸入僅為:
一段舞蹈高手的跳舞短視頻
幾分鐘目標(biāo)人物跳舞的視頻(通常很糟,因?yàn)榇蠖鄶?shù)人都不擅長(zhǎng)跳舞)
我還看到了Nvidia的首席執(zhí)行官黃延森(Jensen Huang)展示了一段自己像邁克爾杰克遜一樣跳舞的視頻(用這種技術(shù))。很高興我之前參加了GPU技術(shù)大會(huì),哈哈。
強(qiáng)化學(xué)習(xí)
世界模型-人工智能在自己的夢(mèng)里學(xué)習(xí)
Google Brain網(wǎng)站(2018年)
https://worldmodels.github.io/
人類(lèi)并不真正了解或思考我們生活的世界里的所有細(xì)節(jié)。我們的行為基于我們頭腦中世界的抽象。例如,如果我騎在自行車(chē)上,我不會(huì)想到自行車(chē)的齒輪/螺母/螺栓;我只是大致了解車(chē)輪、座椅和把手的位置以及如何與它們交互。為什么不對(duì)人工智能使用類(lèi)似的方法呢?
這種“世界模型”方法(同樣,由David Ha等人創(chuàng)建)允許“agent”(例如,在賽車(chē)游戲中控制汽車(chē)的人工智能)創(chuàng)建一個(gè)世界/周?chē)h(huán)境的生成模型,這是對(duì)實(shí)際環(huán)境的簡(jiǎn)化/抽象。所以,你可以把這個(gè)世界模型看作是一個(gè)存在人工智能頭腦中的夢(mèng)。然后人工智能可以通過(guò)強(qiáng)化學(xué)習(xí)在這個(gè)“夢(mèng)”中得到更好的表現(xiàn)。因此,這種方法實(shí)際上是將生成性機(jī)器學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合。通過(guò)這種方式,研究人員能夠在特定的電子游戲任務(wù)上實(shí)現(xiàn)目前最先進(jìn)的水平。
[2019/2/15更新]在上述“世界模型”方法的基礎(chǔ)上,谷歌剛剛發(fā)布了PlaNet:Deep Planning Network for Reinformation Learning,與以前的方法相比,數(shù)據(jù)效率提高了5000%。
PlaNet:Deep Planning Network for Reinformation Learning
https://ai.googleblog.com/2019/02/introducing-planet-deep-planning.html
AlphaStar——擊敗頂級(jí)職業(yè)玩家的星際爭(zhēng)霸II AI
DeepMind(Google)的博客文章,e-sports-ish視頻,2019年
博客文章
https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/
e-sports-ish視頻
https://www.youtube.com/watch?v=cUTMhmVh1qs
我們?cè)诶钍朗虳eepMind AlphaGo之間的歷史性圍棋比賽之后已經(jīng)走了很長(zhǎng)的路,這場(chǎng)比賽震撼了全世界,它僅僅發(fā)生在3年前的2016年(看看NetFlix紀(jì)錄片,讓一些人哭泣)。更令人驚訝的是,盡管沒(méi)有使用任何來(lái)自人類(lèi)比賽的訓(xùn)練數(shù)據(jù),2017年的AlphaZero在圍棋方面比AlphaGo更好(也比國(guó)際象棋、日本象棋等領(lǐng)域的其他算法更好)。但2019年的AlphaStar更驚人。
李世石和DeepMind AlphaGo之間的歷史性圍棋比賽
https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol
NetFlix紀(jì)錄片
https://www.netflix.com/sg/title/80190844
自1998年以來(lái),作為一名星際迷,我很了解星際的精髓“……需要平衡短期和長(zhǎng)期目標(biāo),適應(yīng)意外情況……這是一個(gè)巨大的挑戰(zhàn)?!边@是一個(gè)真正困難和復(fù)雜的游戲,需要多層次的理解才能玩得好。自2009年以來(lái),對(duì)星際游戲算法的研究一直在進(jìn)行。
AlphaStar基本上使用了監(jiān)督學(xué)習(xí)(來(lái)自人類(lèi)比賽)和強(qiáng)化學(xué)習(xí)(與自身對(duì)抗)的組合來(lái)實(shí)現(xiàn)其結(jié)果。
人類(lèi)訓(xùn)練機(jī)器人
通過(guò)一次人工演示將任務(wù)傳授給機(jī)器
Nvidia研究人員的文章/視頻(2018年)
文章
https://news.developer.nvidia.com/new-ai-technique-helps-robots-work-alongside-humans/
視頻
https://www.youtube.com/watch?time_continue=1&v=B7ZT5oSnRys
我可以想到三種典型的方法來(lái)教機(jī)器人做一些事情,但都需要大量的時(shí)間/勞力:
針對(duì)每種情況手動(dòng)編程機(jī)器人的關(guān)節(jié)旋轉(zhuǎn)等
讓機(jī)器人多次嘗試這個(gè)任務(wù)(強(qiáng)化學(xué)習(xí))
多次向機(jī)器人演示任務(wù)
通常對(duì)深度學(xué)習(xí)的一個(gè)主要批評(píng)是,產(chǎn)生數(shù)以百萬(wàn)計(jì)的示例(數(shù)據(jù))是非常昂貴的。但是,有越來(lái)越多的方法不依賴(lài)如此昂貴的數(shù)據(jù)。
研究人員根據(jù)一個(gè)單一的人類(lèi)演示視頻(一個(gè)實(shí)際的人類(lèi)用手移動(dòng)方塊),找到了一種機(jī)器人手臂成功執(zhí)行任務(wù)的方法(例如“拿起方塊并將其堆疊起來(lái),使它們按順序排列:紅色、藍(lán)色、橙色”),即使視頻是從不同角度拍攝的。該算法實(shí)際上生成了一個(gè)它計(jì)劃執(zhí)行的任務(wù)的可讀描述,這對(duì)于故障排除非常有用。該算法依賴(lài)于具有姿態(tài)估計(jì),合成訓(xùn)練數(shù)據(jù)生成和模擬到現(xiàn)實(shí)傳遞的對(duì)象檢測(cè)。
無(wú)監(jiān)督機(jī)器翻譯
Facebook人工智能研究博客(2018年)
https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/
通常,你需要一個(gè)龐大的翻譯文檔訓(xùn)練數(shù)據(jù)集(例如聯(lián)合國(guó)議項(xiàng)的專(zhuān)業(yè)翻譯),以便很好地進(jìn)行機(jī)器翻譯(即監(jiān)督學(xué)習(xí))。然后,許多主題和語(yǔ)言之間沒(méi)有高質(zhì)量、豐富的訓(xùn)練數(shù)據(jù)。在這篇論文中,研究人員發(fā)現(xiàn),可以使用無(wú)監(jiān)督學(xué)習(xí)(即不使用翻譯數(shù)據(jù),只使用每種語(yǔ)言中不相關(guān)的語(yǔ)料庫(kù)),達(dá)到最先進(jìn)的監(jiān)督學(xué)習(xí)方法的翻譯質(zhì)量。Wow。
基本思想是,在任何語(yǔ)言中,某些單詞/概念往往會(huì)出現(xiàn)在很近的位置(例如“毛茸茸的”和“貓咪”)。他們把這描述為“不同語(yǔ)言中的詞嵌入具有相似的鄰域結(jié)構(gòu)?!焙冒?,我明白這個(gè)想法,但是使用這種方法,他們可以在沒(méi)有翻譯數(shù)據(jù)集的情況下達(dá)到如此高的翻譯質(zhì)量,仍然讓人吃驚。
結(jié)語(yǔ)
如果你之前沒(méi)有對(duì)機(jī)器學(xué)習(xí)/人工智能的發(fā)展感興趣的話,我希望這篇文章能幫到你。也許一年后我會(huì)再寫(xiě)一篇類(lèi)似的文章。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29733瀏覽量
212843 -
模型
+關(guān)注
關(guān)注
1文章
3519瀏覽量
50418 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134598
原文標(biāo)題:腦洞大開(kāi)!機(jī)器學(xué)習(xí)與AI突破(附鏈接)
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
CES Asia 2025蓄勢(shì)待發(fā),聚焦低空經(jīng)濟(jì)與AI,引領(lǐng)未來(lái)產(chǎn)業(yè)新變革
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門(mén)學(xué)習(xí)課程參考2025版(大模型篇)
人工智能和機(jī)器學(xué)習(xí)以及Edge AI的概念與應(yīng)用

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能中的價(jià)值
人工智能工程師高頻面試題匯總——機(jī)器學(xué)習(xí)篇

嵌入式和人工智能究竟是什么關(guān)系?
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

評(píng)論