制作表情包還能獲得研究生學分?如果使用深度學習技術(shù)來實現(xiàn)的話,是有可能的。
23歲的Lawrence Peirson正在攻讀斯坦福大學的理論天體物理學博士學位,但今年卻決定進修幾門AI課程。在一個班級項目中,他和自己的同班同學E.Meltem Tolunay開發(fā)了一個神經(jīng)網(wǎng)絡,可為表情包生成說明文字。他們發(fā)布了一份關(guān)于該網(wǎng)絡的白皮書,其標題十分貼切:“Dank Learning”(“Dank”是“Cool”的同義詞)。
雖然現(xiàn)在已經(jīng)存在很多訓練深度學習模型為圖片生成文字說明的例子。例如,準確地為一張圖片生成說明性文字“踏著沖浪板的男人”或“拿著蛋卷冰淇淋的孩子”。但對于表情包,Peirson想挑戰(zhàn)一下神經(jīng)網(wǎng)絡能否突破字面解釋,創(chuàng)造出具有幽默感的文字說明。
盡管一開始Peirson對所生成表情包的趣味性持懷疑態(tài)度,但最終他發(fā)現(xiàn)深度學習模型確實可以生成“一些非常有趣的原創(chuàng)幽默內(nèi)容”。
獲得“深度表情包”
該神經(jīng)網(wǎng)絡為一類流行的動物表情包生成說明文字。為了收集用于訓練該深度學習模型所需的數(shù)據(jù),Peirson從memegenerator.net網(wǎng)站上搜集了大約40萬個由用戶生成的表情包。該網(wǎng)站提供各類表情包模板,并允許用戶自己搭配文字說明。
該數(shù)據(jù)集包含大約3000個基本圖像,每個圖像都配有多種不同的文字說明。由于輸入數(shù)據(jù)均來自用戶,深度學習模型所處理的表情包文字說明的質(zhì)量良莠不齊。
“我們使用了40萬個表情包,其中的大部分沒有那么有趣,但是至少它們能夠教會系統(tǒng)表情包是什么,以及什么樣的笑話才是與圖片內(nèi)容相關(guān)的,”他說道。
互聯(lián)網(wǎng)表情包在網(wǎng)絡上早已流傳多年,Reddit、Facebook、9GAG和Quick Meme等網(wǎng)站是它們的大本營。最火爆的表情包可能會配有超過200萬種原創(chuàng)文字說明。
表情包引用的通常是流行文化、時事或某個特定的互聯(lián)網(wǎng)亞文化群體才明白的“?!薄#≒eirson創(chuàng)建了一個名為“The specific heat capacity of europium at standard temperature and pressure”的表情包頁面。)
這些表情包同時汲取了數(shù)字文化的精華與糟粕。其論文指出,訓練數(shù)據(jù)中大多是關(guān)于咒罵、種族主義和性別歧視的表情包。Peirson覺得需要在未來訓練中過濾掉這些內(nèi)容,但他指出這一問題并不是表情包所獨有的,“這在自然語言處理中是一個普遍存在的大問題”。
該深度學習模型利用CUDA語言編寫,使用了一塊NVIDIA GPU。Peirson和Tolunay同時嘗試了使用無標記的數(shù)據(jù)和標有表情包標題的數(shù)據(jù)(例如,成功小子或暴走漫畫),但并沒有發(fā)現(xiàn)表情包的質(zhì)量有任何顯著差異。
“這些表情包非常有趣,不過是‘也還說得過去,但其實并不是那么搞笑’這種程度,” Peirson說道,“表情包就是借用了這種幽默感。
該神經(jīng)網(wǎng)絡為此類動物表情包生成了說明文字。
讓表情包變酷可不容易
為了評估深度學習模型成功與否,兩人開發(fā)了一個“困惑指數(shù)”(perplexity score),用其檢查神經(jīng)網(wǎng)絡是否可以明確識別出數(shù)據(jù)的模式。他們針對幾百張帶有預設(shè)格式的表情包計算出了“困惑指數(shù)”。如Boromir(電影《魔戒》中的角色)表情包,該表情包的文字說明始終都帶有“one does not simply”的字樣。
但對于表情包的真正考驗在于其是否搞笑。
在一項定性調(diào)查中,Peirson與其白皮書的共同作者同時向受訪者展示了人類創(chuàng)作的表情包和深度學習模型生成的表情包。他們向受訪者提出了兩個問題:“表情包是由人類創(chuàng)作的還是由計算機創(chuàng)作的?”,以及“如何評價表情包的幽默程度?”。
Peirson表示,訪問結(jié)果顯示深度學習模型創(chuàng)作的表情包“與人類創(chuàng)作的表情包幾乎無法區(qū)分”。
他們還研究了其神經(jīng)網(wǎng)絡如何為訓練數(shù)據(jù)集之外的表情包生成文字說明。在這種情況下,算法會基于其在訓練數(shù)據(jù)中看到的內(nèi)容推理未知圖像的模式。為了測試這一點,Peirson甚至向深度學習系統(tǒng)展示了他自己的照片,生成的文字也相當有趣。
Peirson在深度學習模型中輸入了自己的照片,模型生成了這張表情圖。
表情包通常會進行病毒式傳播,并成為“網(wǎng)紅”,而以表情包為主題的白皮書也受到了歡迎。當該項目獲得媒體報道并受到關(guān)注時,Peirson表示自己“倍感震驚”。一款名為Dank Learning的移動應用也即將登陸App Store。
他說,這個項目讓他打開了新的視角:原來表情包的影響力如此巨大。每天,全球有數(shù)百萬用戶在社交媒體網(wǎng)站上傳播表情包。
在Peirson看來,強大的AI有潛力根據(jù)時事“突發(fā)奇想”,生成表情包,從而影響公眾認知。而廣告主也可以使用表情包提升品牌知名度:“讓表情包進行病毒式傳播是一種絕妙的營銷方式?!?/p>
-
AI
+關(guān)注
關(guān)注
88文章
35196瀏覽量
280327 -
深度學習
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122825
原文標題:表情包生產(chǎn)基地:AI像人類一樣為圖像生成搞笑文字說明
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
求CS32A010K8V7的庫函數(shù)使用教程
HarmonyOS AI輔助編程工具(CodeGenie)UI生成
關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明
聚云科技獲亞馬遜云科技生成式AI能力認證
聚云科技榮獲亞馬遜云科技生成式AI能力認證
聚云科技榮獲亞馬遜云科技生成式AI能力認證 助力企業(yè)加速生成式AI應用落地
生成式AI工具好用嗎
Google兩款先進生成式AI模型登陸Vertex AI平臺
蘋果推送iOS18.2 增加AI功能
生成式AI工具作用
Freepik攜手Magnific AI推出AI圖像生成器
STAR AI進軍美股科技星智能領(lǐng)跑生成式AI賽道

NVIDIA攜手Meta推出AI服務,為企業(yè)提供生成式AI服務
NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

評論