99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

以后不用學(xué)習(xí)拍照技術(shù)了實(shí)時(shí)在線AI構(gòu)圖模型VPN讓你變身攝影大神

WpOh_rgznai100 ? 來(lái)源:未知 ? 2019-06-16 10:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

一年一度的人機(jī)交互領(lǐng)域國(guó)際頂級(jí)會(huì)議 ACM CHI 將于 5 月 4 號(hào)在英國(guó)格拉斯哥舉行,我的一篇文章 SmartEye: Assisting Instant Photo Taking via Integrating User Preference with Deep View Proposal Network 被會(huì)議接收,并獲得了最佳論文提名獎(jiǎng)。(本文希望從思路上回憶自己產(chǎn)出這篇論文的過(guò)程,更多的描述了一個(gè)以用戶為中心的人機(jī)交互(HCI)領(lǐng)域的科研成果的形成過(guò)程,本文用到了計(jì)算機(jī)視覺(jué)機(jī)器學(xué)習(xí)的相關(guān)方法,但并非一個(gè)技術(shù)文章,如果有技術(shù)方面的問(wèn)題歡迎留言和我聯(lián)系)

動(dòng)機(jī)

當(dāng)我們看到好看的風(fēng)景,有趣的小東西,可口的菜肴,可愛(ài)的小狗,我們喜歡掏出兜里的手機(jī)拍一張照。但是對(duì)著同樣的景物,有的人拍的很好看有的人拍的不那么好看,這其中的原因是什么?是構(gòu)圖的區(qū)別,構(gòu)圖在很大程度上決定了一張照片的美學(xué)質(zhì)量。但是構(gòu)圖并非一件容易的事,很多非專業(yè)的人無(wú)法掌握構(gòu)圖的技巧,因此我們打算利用技術(shù)幫助人們更好的去對(duì)照片進(jìn)行構(gòu)圖。

專業(yè)和非專業(yè)的攝影者拍攝出來(lái)的照片效果天差地別

現(xiàn)有問(wèn)題:現(xiàn)在有很多幫助人們構(gòu)圖的算法,不過(guò)存在著一個(gè)很關(guān)鍵的問(wèn)題就是實(shí)時(shí)性不夠強(qiáng),需要先拍照,然后再離線處理,這樣會(huì)帶來(lái)兩個(gè)問(wèn)題,一個(gè)是會(huì)需要額外的存儲(chǔ)和時(shí)間,另一個(gè)是離線算法是基于已經(jīng)拍好的照片的,會(huì)極大受限于這張照片,在拍照時(shí)移動(dòng)手機(jī)的過(guò)程中好的構(gòu)圖很容易被錯(cuò)過(guò)。

解決方案:我們利用了一個(gè)基于百萬(wàn)級(jí)圖片訓(xùn)練出來(lái)的深度學(xué)習(xí)模型 View Proposal Network(VPN)來(lái)幫助構(gòu)圖[1],這是我們這篇文章的合作者魏子鈞博士發(fā)表在 CVPR 2018 中的一篇文章。VPN 具有 state-of-the-art 的表現(xiàn),以及具有很好的實(shí)時(shí)性(基于 One-stage object detection),可以達(dá)到 75fps。其作用可以簡(jiǎn)單的描述為:輸入一張照片,基于圖片裁剪的方式(對(duì)原圖進(jìn)行各種 aspect ratio,size…… 的裁剪),生成一系列構(gòu)圖候選(Composition candidate),并且對(duì)每一個(gè)構(gòu)圖候選進(jìn)行打分,按照從高到低的順序輸出。

構(gòu)圖推薦網(wǎng)絡(luò)(View Proposal Network)流程圖

VPN 的效果圖(給定一張照片,可以給出一系列推薦構(gòu)圖)。

只有算法還不夠,還需要搭配更友好的交互方式:

但是僅僅有了一個(gè)實(shí)時(shí)的深度學(xué)習(xí)模型還不夠,我們需要讓這個(gè)算法能夠友好的為用戶所使用,應(yīng)用到拍照?qǐng)鼍爸腥?,這樣才是真正的幫助人們進(jìn)行拍照構(gòu)圖。

我們將 VPN 封裝為后端的算法,設(shè)計(jì)了一個(gè) APP 來(lái)讓算法真正實(shí)用,同時(shí)設(shè)計(jì)了友好新穎的用戶界面和豐富的功能和特性來(lái)連接用戶和深度學(xué)習(xí)模型。

用戶界面圖:(a)用戶使用 SmartEye(b)主要用戶界面(c)功能和手勢(shì)支持圖

界面整體分為兩個(gè)部分,上面是一個(gè)視圖區(qū),下面是一個(gè)縮略圖列表,視圖區(qū)就像是一個(gè)普通的拍照取景區(qū)域,有三個(gè)功能,一個(gè)是用于實(shí)時(shí)的展示 SmartViewfinder(下面會(huì)介紹)的推薦,一個(gè)是可以放大顯示下方的縮略圖,還有一個(gè)是作為用戶選定構(gòu)圖之后的一個(gè)預(yù)覽窗口,下方的縮略圖列表顯示著由 VPN 推薦的各種比例的構(gòu)圖推薦,可以左右滑動(dòng)來(lái)切換和查看各種各樣的構(gòu)圖。

我們還設(shè)計(jì)了幾種強(qiáng)大的功能支持:

SmartViewfinder。當(dāng)我們移動(dòng)手機(jī)時(shí),基于實(shí)時(shí)的相機(jī)鏡頭捕捉到的圖像,SV 實(shí)時(shí)的提供構(gòu)圖推薦,在視圖區(qū)展示最好的一個(gè),在縮略圖列表中存放著其他的。

SmartViewfinder 實(shí)時(shí)構(gòu)圖推薦

SmartScore。為當(dāng)前鏡頭進(jìn)行實(shí)時(shí)的打分,顯示在視圖區(qū)的最上方,鏡頭一旦移動(dòng)或者鏡頭中的景物一旦變化,分?jǐn)?shù)就會(huì)隨著做出改變,如果當(dāng)前構(gòu)圖質(zhì)量很高,視圖區(qū)的邊框會(huì)變?yōu)榫G色,反之紅色,用來(lái)實(shí)時(shí)的提醒用戶給用戶反饋。

SmartScore 幫助鏡頭自動(dòng)打分

因顯示視頻數(shù)量限制,Demo視頻可瀏覽:

http://v.qq.com/x/page/i0884109zj4.html

SmartZoom。一個(gè)智能的縮放功能,可以幫助用戶自動(dòng)的縮放到一個(gè)最合適的尺度,這個(gè)功能旨在讓縮放操作變得更容易,因?yàn)槿藗兛偸且徊恍⌒木涂s放過(guò)了。

SmartZoom 實(shí)現(xiàn)智能縮放

除此之外我們還提供了一些其他的功能,比如自定義推薦數(shù),用戶可以自己選擇在縮略圖列表中展示的推薦書(shū),自由裁剪,在系統(tǒng)給出的構(gòu)圖推薦基礎(chǔ)上,用戶如果有一些不滿意,可以在此基礎(chǔ)上拖動(dòng)裁剪框,再次進(jìn)行裁剪邊界的調(diào)整。APP 還提供了豐富的手勢(shì)來(lái)觸發(fā)和切換這些功能,比如左右滑來(lái)瀏覽 SmartViewfinder,手指上下滑動(dòng)來(lái)進(jìn)行 SmartZoom 縮放,長(zhǎng)按來(lái)激活 SmartScore。

好不好用?

我們找了一些人來(lái)使用這個(gè) APP,收集了大家的反應(yīng)。大家都對(duì)這個(gè) APP 持有積極的看法,但是一些用戶也提出了意見(jiàn),“為什么我喜歡的構(gòu)圖排在了后面”、“如果這張構(gòu)圖能夠稍微向左靠一點(diǎn)就好了”、“盡管我可以通過(guò)裁剪加以調(diào)整,但是我希望系統(tǒng)能直接推薦給我我想要的”。

我們也發(fā)現(xiàn)了一些問(wèn)題,VPN 按照得分高低順序推薦,但是在很多情況下,用戶并沒(méi)有選擇排在第一位的構(gòu)圖,我們簡(jiǎn)單的做了一個(gè)實(shí)驗(yàn),固定 VPN 推薦的數(shù)量為 5,邀請(qǐng)了 16 個(gè)被試(被試情況在后面敘述)進(jìn)行了拍照,每個(gè)人拍攝 10 張照片,我們記錄了每張照片最后用戶選擇的是第幾張,結(jié)果如圖所示:

16 個(gè)被試拍攝 10 張照片的過(guò)程中,不同位置的選擇人次(No.1 代表構(gòu)圖候選列表中的第一個(gè),以此類推,F(xiàn)reely cut 代表用戶沒(méi)有選擇推薦構(gòu)圖而是自己進(jìn)行了裁剪)

可以發(fā)現(xiàn)盡管第一位的數(shù)量有很多,但是第二位到第五位也同樣不少,還有一些用戶選擇了自己裁剪。

新的問(wèn)題:用戶偏好的存在(本文核心)

于是我們挑選了 10 張照片,每張照片由 VPN 生成 5 個(gè)推薦構(gòu)圖,然后打亂順序,讓 16 個(gè)參與者分別挑選最喜歡的構(gòu)圖,我們對(duì)結(jié)果做了可視化的分析,得到了一個(gè)發(fā)現(xiàn),同樣一張照片,不同用戶最喜歡的構(gòu)圖方式(裁剪區(qū)域)有所不同,比如下面的這個(gè)圖中,為了容易看清,我們可視化了 3 位用戶最喜歡的構(gòu)圖方式,可以看到是不一樣的。

對(duì)于某一張照片三個(gè)用戶最喜歡的構(gòu)圖的邊框并不相同

然后我們?cè)诿繌垐D片上繪制了 16 個(gè)用戶最喜歡的構(gòu)圖中心點(diǎn)分布的 heatmap,可以發(fā)現(xiàn)并非所有的人都喜歡同樣的構(gòu)圖。這個(gè)發(fā)現(xiàn)十分明確和易于理解,因?yàn)橐磺€(gè)人眼中有一千個(gè)哈姆雷特,每個(gè)人的審美標(biāo)準(zhǔn)都不同,構(gòu)圖相對(duì)而言是一個(gè)主觀性十分強(qiáng)的任務(wù)(并不類似于計(jì)算機(jī)視覺(jué)中其他目標(biāo)檢測(cè)任務(wù)),而 VPN 只是通過(guò)眾包數(shù)據(jù)學(xué)習(xí)到了一個(gè)通用的審美標(biāo)準(zhǔn),所以我們認(rèn)為有必要將用戶的個(gè)人偏好考慮進(jìn)推薦算法中。

兩張照片中不同用戶最喜歡的構(gòu)圖的中心點(diǎn)組成的 heatmap

如何考慮用戶偏好?

這個(gè)問(wèn)題是我們這片論文的一個(gè)難點(diǎn)。我們的第一個(gè)考慮十分直接,就是從數(shù)據(jù)出發(fā),VPN 既然能夠生成不同的構(gòu)圖,并且給它們打分,那我們就改造一下 VPN,讓它能夠把用戶的偏好也學(xué)習(xí)進(jìn)去。我們嘗試了一些方法來(lái)調(diào)整 VPN,包括 retrain 和 fine-tune,但是都因?yàn)閿?shù)據(jù)量的問(wèn)題以失敗告終了,因?yàn)槲覀兒茈y通過(guò)少量的帶有用戶偏好的數(shù)據(jù)來(lái)調(diào)整一個(gè)已經(jīng)訓(xùn)練好的深度學(xué)習(xí)模型。

既然直接修改 VPN 并不容易,我們考慮加入一個(gè)模塊,能夠考慮用戶的偏好,這個(gè)模塊需要做到可以針對(duì)一張構(gòu)圖生成一個(gè)打分,這樣就可以用這個(gè)新的打分來(lái)調(diào)整一個(gè)構(gòu)圖最終的得分,從而調(diào)整模型最終的輸出順序。我們稱這個(gè)模塊為 Preference 模塊(P-Module),我們對(duì) P-Module 有一些要求,一是能夠準(zhǔn)確的對(duì)用戶偏好進(jìn)行建模,而且對(duì)噪聲要有一定魯棒性;二是在分?jǐn)?shù)預(yù)測(cè)方面十分高效;三是 P-Module 要比較小巧,可以用小量的數(shù)據(jù)來(lái)訓(xùn)練和更新,代表著用戶偏好的圖片越多,P 模塊就理論上越能夠考慮用戶的偏好。

敲定了上述需求,P-Module 可以視為一個(gè)機(jī)器學(xué)習(xí)中的回歸問(wèn)題,我們可以通過(guò)設(shè)計(jì)特征來(lái)對(duì)用戶偏好建模。

如何對(duì)偏好建模?

我們起初,直觀上覺(jué)得既然用戶的選擇來(lái)源于 VPN 的各種各樣構(gòu)圖推薦,不同的構(gòu)圖之間最明顯的區(qū)別是什么呀?是大小、位置、長(zhǎng)寬比之類的啊,我們?yōu)楹尾荒軓倪@些方面入手,簡(jiǎn)簡(jiǎn)單單就可以 model 用戶偏好,豈不美哉?事實(shí)操作發(fā)現(xiàn)根本不怎么 work。

簡(jiǎn)單的特征不奏效,那么我們就設(shè)計(jì)更復(fù)雜更有力的美學(xué)特征唄,于是我們通過(guò)閱讀相關(guān)的用戶偏好建模文獻(xiàn),以及攝影、美學(xué)相關(guān)的文章,從中吸取了大量經(jīng)驗(yàn),設(shè)計(jì)出了一個(gè)復(fù)雜的 feature set,又做了一系列特征選擇,但是發(fā)現(xiàn)效果并沒(méi)有多么理想,甚至在一些 test set 上還不如一開(kāi)始最簡(jiǎn)單的十來(lái)維特征有效。

那該怎么辦?用戶偏好為什么這么難以 model?我不禁問(wèn)自己,總說(shuō)要對(duì)偏好進(jìn)行建模,那在構(gòu)圖這個(gè)任務(wù)中,用戶偏好到底是什么???

經(jīng)歷了短暫的郁悶期,我突然清醒,既然你要研究用戶偏好,為何從用戶中來(lái),到用戶中去呢?于是我深入群眾,去探討用戶偏好是什么的問(wèn)題。

我們進(jìn)行了一些前期的 User Study 工作(在 User Study 部分會(huì)有詳細(xì)描述),收集了一大波用戶反饋意見(jiàn),進(jìn)行了細(xì)致的整理和歸納,得到了許許多多有用的建議(在我的論文中進(jìn)行了歸納和整理,為了節(jié)約篇幅這里不做描述),并且基于用戶的這些建議和之前調(diào)研的一些攝影、構(gòu)圖、美學(xué)方面的知識(shí)我們?cè)O(shè)計(jì)并選擇了 4 類 32 維特征,分別是基于幾何學(xué)的、基于顯著區(qū)域的、基于構(gòu)圖規(guī)則的、基于拍照的。

設(shè)計(jì)的 4 類 32 維特征

其中提取顯著區(qū)域的效果如下

圖片的顯著區(qū)域(由一個(gè)橢圓包圍)

(這里需要提一句的是:我們并不是說(shuō)這些特征是最好用的,相反,我們希望其他人或者我在接下來(lái)的工作里可以通過(guò)設(shè)計(jì)新的 feature vector 從而獲得更好的結(jié)果。構(gòu)建能夠?yàn)槲覀兊娜蝿?wù)提供非常好的性能并且可以有效計(jì)算的特征集仍然是一個(gè)有趣的開(kāi)放性問(wèn)題。)

特征設(shè)計(jì)完了,到底有沒(méi)有用呢?我們進(jìn)行了詳細(xì)的實(shí)驗(yàn)得出結(jié)論——特征顯著性和相關(guān)性都比較強(qiáng),這個(gè)問(wèn)題留在最后的 User Study 中敘述,我們接下來(lái)要討論的是構(gòu)建模型。

如何構(gòu)建 P-Module?

首先我們要確定模型類別,考慮到用戶在使用我們的 APP 時(shí),從 N 個(gè)構(gòu)圖推薦中選擇最滿意的一個(gè)點(diǎn)擊 “拍照” 按鈕,然后保存到本地相冊(cè),這是一個(gè)最自然不過(guò)的打 0/1 標(biāo)簽的過(guò)程(被選擇的是正樣本,其他的被隨機(jī)選擇為負(fù)樣本,避免樣本不均衡問(wèn)題),所以我們暫定了 LogisticRegression 作為我們的打分模型(將 1 的概率映射為分?jǐn)?shù)),而且在收集的數(shù)據(jù)中(用戶實(shí)驗(yàn)部分將要描述)跑了一下結(jié)果,發(fā)現(xiàn)作為一個(gè) score model,各項(xiàng)指標(biāo)還是蠻不錯(cuò)的。

給定一個(gè)構(gòu)圖 來(lái)自一張照片 , 我們提取了它的特征 并且把它送進(jìn) LR 模型得到了一個(gè)標(biāo)準(zhǔn)化的用戶偏好得分。

LR 的簡(jiǎn)單性使得 P-Module 對(duì)噪聲魯棒、易于在線交互式的更新、以及高效的預(yù)測(cè)得分。

如何將 P-Module 和 VPN 進(jìn)行結(jié)合?

我們依據(jù)了一個(gè)基于記憶的算法(這個(gè)算法基于用戶過(guò)去的打分來(lái)預(yù)測(cè)現(xiàn)在的分?jǐn)?shù))把 VPN 打分和 P-Module 打分結(jié)合了起來(lái)。更具體的,我們動(dòng)態(tài)的調(diào)整了對(duì)于一張構(gòu)圖 ,VPN 的打分 和 P-Module 的打分 的權(quán)重:

其中 是一個(gè)置信度(confidence score),用來(lái)描述當(dāng)前照片 和用戶過(guò)去選擇過(guò)的構(gòu)圖有多么相似。我們基于一個(gè)假設(shè):如果一個(gè)相似的圖片已經(jīng)作為知識(shí)(訓(xùn)練樣本)被 P-Module 學(xué)習(xí)過(guò)了,我們有理由相信最終的得分應(yīng)該更依賴于 P-Module 的打分。因此,我們通過(guò)計(jì)算當(dāng)前照片與已處理過(guò)的照片的構(gòu)圖距離來(lái)計(jì)算置信度。當(dāng)前照片與已有照片越相似,置信度越高,P-Module 的打分在最終打分中占的比重就越大。

置信度的計(jì)算公式如下:

其中 是兩個(gè)構(gòu)圖的特征向量 之間的歐氏距離。 是一個(gè)超參數(shù)來(lái)控制 的變異率。在本文工作中,我們固定 。值得一提的是,置信度可以簡(jiǎn)單的描述為當(dāng)前算法做出的推薦是更多依賴于 VPN 還是更多依賴于 P-Module,也就是用戶個(gè)人偏好,我們將置信度顯示在 APP 的界面中,并且進(jìn)行實(shí)時(shí)的更新,在之后的用戶實(shí)驗(yàn)中也證明:在這種主觀性較強(qiáng)的,用戶可能不是十分相信 AI 算法的任務(wù)中,如果給用戶展示一個(gè)“當(dāng)前算法有多少依賴于你”,能讓用戶在查看算法給出的推薦時(shí),更加容易做出選擇和覺(jué)得被尊重,也會(huì)讓用戶覺(jué)得系統(tǒng)更加人性化。

為了直觀表述兩張照片(構(gòu)圖)的相似性,我們對(duì)不同照片(構(gòu)圖)的特征向量進(jìn)行了 PCA 降維。

不同照片(構(gòu)圖)的特征向量在二維空間上的分布

算法整體流程

到此為止,我們的算法部分完全形成了,讓我們?cè)僖黄鸹仡櫼幌滤惴ǖ牧鞒獭?/p>

本文算法的整體流程,基于學(xué)到的用戶偏好,P-Module 調(diào)整 VPN 給出的推薦,同時(shí)用戶新的選擇也會(huì)反過(guò)頭來(lái)去更新 P-Module

給定一張照片,算法流程如下:

VPN 給出構(gòu)圖建議

針對(duì) VPN 給出的所有推薦構(gòu)圖,P-Module 計(jì)算用戶偏好得分

通過(guò)插值算法動(dòng)態(tài)的調(diào)整二者的權(quán)重,得到最終的得分,然后從高到低排序,展示給用戶

用戶從構(gòu)圖候選中選擇一個(gè)最喜歡的,這個(gè)被選擇的構(gòu)圖也會(huì)作為正樣本繼續(xù)更新 P-Module

整個(gè)算法交互式地、逐漸地學(xué)習(xí)到用戶偏好,這項(xiàng)技術(shù)屬于交互式機(jī)器學(xué)習(xí)(interactive Machine Learning)的范疇。

至此,整個(gè)系統(tǒng)可以用下面的這么一張圖來(lái)表示其核心內(nèi)涵。

(a)左上角是一張輸入照片,View Proposal Network(VPN)會(huì)推薦一組多樣化的構(gòu)圖(如右上圖所示); P-Module 根據(jù)所學(xué)習(xí)的用戶偏好實(shí)時(shí)調(diào)整建議(如下圖所示);(b)SmartEye 以交互方式逐步學(xué)習(xí)用戶偏好:當(dāng)用戶在屏幕底部選擇他們喜歡的構(gòu)圖時(shí),P-Module 會(huì)隨之更新。 因此系統(tǒng)會(huì)逐漸掌握用戶偏好。

用戶實(shí)驗(yàn)

來(lái)到了人機(jī)交互領(lǐng)域研究中相當(dāng)重要的一個(gè)部分——用戶實(shí)驗(yàn)(User Study)。

我們部署了兩個(gè)用戶實(shí)驗(yàn)來(lái)探究如下三個(gè)問(wèn)題:

1) 構(gòu)圖任務(wù)的個(gè)性化偏好建模中什么特征比較重要;

2) P-Module 是否幫助模型更好地吻合用戶的選擇;

3) 用戶使用 SmartEye 時(shí)的用戶體驗(yàn)如何。

我們找了 16 個(gè)參與者(在人機(jī)交互學(xué)科中成為被試),其中有 8 位男性 8 位女性,有 8 位在攝影方面沒(méi)有基礎(chǔ),標(biāo)為 P1-P8,有 8 位具有一定的攝影基礎(chǔ),其中 5 位是大學(xué)攝影協(xié)會(huì)的,標(biāo)為 P9-P13,還有 3 位專業(yè)是美術(shù)和影視專業(yè)的,標(biāo)為 P14-P16。他們平均具有 4.13 年的攝影(拍照)經(jīng)驗(yàn)。

Study 1 Effectiveness of P-Module

為了探究 P-Module 的有效性,我們?cè)O(shè)計(jì)了兩個(gè)任務(wù)。

Task1:從 VPN 的推薦構(gòu)圖打分

目的:看看該設(shè)計(jì)什么樣的特征,順便收集帶標(biāo)注的數(shù)據(jù)。

這個(gè)任務(wù)也是最基礎(chǔ)的一個(gè)任務(wù),涉及到特征的設(shè)計(jì),我們?cè)谇懊嬉延刑岬?,在這進(jìn)一步詳細(xì)說(shuō)明。

我們首先隨機(jī)收集了一個(gè)數(shù)據(jù)集 PhotoSetA,其中包含 50 張照片,以涵蓋人們通常拍攝的各種日常照片。然后,我們要求每位參與者貢獻(xiàn)他們拍攝的 100 張照片以形成 PhotoSetB(包括 16 位參與者拍攝的總共 1600 張照片)。這兩個(gè)數(shù)據(jù)集中的照片在內(nèi)容,樣式和寬高比等方面不做任何限制。

我們用 VPN 處理了 PhotoSetA 和 PhotoSetB 中的所有照片,每張照片都有 5 個(gè)推薦的構(gòu)圖。對(duì)于每個(gè)參與者,我們給了他 / 她 150 張照片(50 張來(lái)自 PhotoSetA,100 張來(lái)自 PhotoSetB 中自己拍攝的)以進(jìn)行評(píng)分,我們收集了 12000 張(16 張參與者 ×150 張照片 ×5 張構(gòu)圖)帶有主觀評(píng)分的照片。我們還要求每位參與者填寫(xiě)調(diào)查問(wèn)卷并就一些問(wèn)題進(jìn)行了采訪。對(duì)于參與者剛剛打分的一些照片,我們問(wèn)了被試一些問(wèn)題:

a) 你在進(jìn)行構(gòu)圖選擇時(shí)考慮了哪些因素?

b) 你為什么喜歡這一個(gè)(構(gòu)圖)?

c) 你認(rèn)為你選擇的這一個(gè)比其他的好在哪?

從中獲得了很多有價(jià)值的見(jiàn)解,這也幫助我們?cè)O(shè)計(jì)了前面提到的 feature vector。

Task1 流程圖

需要說(shuō)明的是,16 個(gè)被試所標(biāo)注的圖片數(shù)據(jù)將用來(lái)分別為這 16 個(gè)人訓(xùn)練自己的 P-Module 用于 Task2。

Task2:從不同的算法推薦的構(gòu)圖中進(jìn)行挑選

目的:我們想要探究 P-Module 是否有用,是否 outperform 了其他算法。

我們通過(guò)具有挑戰(zhàn)性的用戶實(shí)驗(yàn)證明了 SmartEye 所推薦的構(gòu)圖的質(zhì)量,為此我們額外收集了 50 張不同風(fēng)格和內(nèi)容的照片。

對(duì)于每張照片,我們選擇了不同模型生成的前 5 種構(gòu)圖,讓參與者選擇最佳構(gòu)圖(第 1 名)。我們的實(shí)驗(yàn)所用到的模型如下:1)帶有 P-Module 的 VPN;2)VPN; 3)基于顯著區(qū)域檢測(cè)和面部檢測(cè)的算法,表示為 Sal + Face。 Sal + Face 的工作原理如下:給出一張照片,Sal + Face 計(jì)算其顯著性圖并檢測(cè)面部,然后計(jì)算顯著性得分和面部得分之和,挑選具有最高得分的 5 種構(gòu)圖方式推薦給用戶。我們混合了不同模型的輸出(去掉順序?qū)Y(jié)果的影響)并將它們展示給 16 個(gè)參與者。我們要求他們?cè)诿繌堈掌羞x擇他們喜歡的構(gòu)圖。實(shí)驗(yàn)結(jié)果在 Results 部分展示。

Task2 流程圖

Study 2: Usability of SmartEye

Task 3: 在手機(jī)上使用不同的算法進(jìn)行拍照

目的:探究在實(shí)際環(huán)境下,融合了 P-Module 的 SmartEye 是否好用

我們?cè)?Android 設(shè)備上部署了以下系統(tǒng):1)搭載了 P-Module 和 VPN 的 SmartEye,2)只有 VPN 的 SmartEye,3)搭載了 Sal + Face 的 APP。我們還加入了 Android 原生相機(jī),作為非構(gòu)圖推薦系統(tǒng)的參考。

我們引導(dǎo)參與者如何使用我們的系統(tǒng),并鼓勵(lì)他們?cè)陂_(kāi)始此任務(wù)之前嘗試所有功能。我們隨機(jī)分配了不同系統(tǒng)使用的順序來(lái)消除影響。參與者被要求使用每個(gè)系統(tǒng)拍攝至少 30 張照片。然后他們被要求填寫(xiě)一個(gè) post-task questionnaire。 此任務(wù)后調(diào)查問(wèn)卷包含對(duì)被測(cè)試的算法的看法,偏好建模的效果以及對(duì) SmartEye 中可用的支持功能的看法。

Task4:使用 SmartEye 一個(gè)月

目的:探究 SmartEye 是否可以隨著用戶越多使用,效果有越高的提升

在此任務(wù)中,我們讓每個(gè)參與者連續(xù)使用 SmartEye 一個(gè)月。每位參與者每天必須使用 SmartEye 拍攝至少 5 張照片。拍攝照片的內(nèi)容和風(fēng)格不受限制,這意味著用戶可以任意使用 SmartEye,只要他們每天拍攝 5 張照片。

在月底,我們收集了用戶們?cè)谶@一個(gè)月內(nèi)保存下來(lái)的構(gòu)圖,并研究了 P-Module 隨著時(shí)間增長(zhǎng)的進(jìn)步情況。

實(shí)驗(yàn)結(jié)果

Study 1

根據(jù)任務(wù) 1 中 16 位參與者的構(gòu)圖選擇數(shù)據(jù),我們計(jì)算了用戶得分與 32D 特征之間的 Spearman 和 Pearson 相關(guān)系數(shù)。相關(guān)性如下圖所示??梢钥吹剑煌瑓⑴c者的相關(guān)性有所不同。幾乎每個(gè)參與者都關(guān)注基于幾何的特征和基于顯著性的特征。同樣有趣的是,有一定攝影基礎(chǔ)的用戶似乎更關(guān)注基于顯著性和基于構(gòu)圖規(guī)則的特征,而其他人可能更多地依賴于幾何和基于照片的特征。特征相關(guān)性的差異也反映了參與者之間構(gòu)圖偏好的差異。

參與者偏好的特征相關(guān)分析。每個(gè)直方圖列的上方(淺色)表示 Pearson 相關(guān)系數(shù),下方(深色)表示 Spearman 相關(guān)系數(shù)。大多數(shù)特征與用戶偏好顯著(p<0.05)相關(guān)??傮w而言,所提出的特征與用戶偏好具有很好的相關(guān)性。另請(qǐng)注意,不同參與者的偏好與所提取的特征有不同的相關(guān)性,顯示了用戶偏好的差異性。

我們還評(píng)估了系統(tǒng)建議的第一張構(gòu)圖恰好是用戶最喜歡構(gòu)圖的比率。我們將此度量表示為 Top 1 selection rate。下圖顯示了基于任務(wù) 2 中收集的參與者數(shù)據(jù)的 VPN,P-Module 和 Sal + Face 的比較。我們可以看到 P-Module 在每個(gè)用戶的構(gòu)圖選擇數(shù)據(jù)上表現(xiàn)優(yōu)于 VPN,總體而言,它大幅度的超越了其他 Baseline?;诔蓪?duì) t 檢驗(yàn),我們發(fā)現(xiàn)結(jié)果很明顯:將 VPN 與 P-Module 進(jìn)行比較,T 值為 - 7.229,p <.001; 將 VPN 與 Sal + Face 進(jìn)行比較,T 值為 11.597,p <.001; 比較 P-Module 和 Sal + Face,T 值為 16.318,p <.001。我們還計(jì)算了三個(gè)模型的標(biāo)準(zhǔn)偏差值,如下圖所示。

VPN,P 模塊和 Sal + Face 在每個(gè)用戶的 Top 1 selection rate 的比較。 P-Module 在很大程度上優(yōu)于 VPN 和 Sal + Face 算法。帶有 P-Module 的 VPN 和純 VPN 之間的差距證明了建模用戶偏好的好處。

Study 2

我們收集了任務(wù) 4 中各個(gè)參與者 30 天內(nèi)的拍照構(gòu)圖選擇,并在下圖中他們每天的平均 Top 1 selection rate。值得注意的是,總體來(lái)說(shuō),帶有 P-Module 的 SmartEye 的 Top 1 selection rate 在時(shí)間尺度上逐漸提高。它表明 SmartEye 能夠模擬用戶偏好并通過(guò)收集更多的用戶選擇數(shù)據(jù)來(lái)改進(jìn)自身。在第 6 天和第 15 天,性能略有下降。我們推測(cè)這些下降可能是由于用戶偏好會(huì)隨時(shí)間在某一天有所改變。照片構(gòu)圖任務(wù)與用戶的主觀判斷密切關(guān)聯(lián),在某些時(shí)間范圍內(nèi)可能發(fā)生局部下降。調(diào)查更為長(zhǎng)期的影響可能是一項(xiàng)有趣的未來(lái)工作。

30 天內(nèi)所有參與者每一天的平均 top 1 selection rate

另外,下圖展示了在 30 天里每周的 4 種類型的特征和挑選出來(lái)的兩個(gè)用戶(P11 和 P5)構(gòu)圖偏好之間相關(guān)系數(shù)的變化。這個(gè)結(jié)果和 Task1 中的結(jié)果共同說(shuō)明了不同的用戶可能依賴于不同的構(gòu)圖因素。它還表明一些用戶可能會(huì)隨著時(shí)間的推移個(gè)人喜好也會(huì)有所變化。同時(shí),它有力的證明了為主觀任務(wù)建模用戶偏好的必要性。

兩個(gè)參與者在四周時(shí)間內(nèi)偏好情況。這也表明了一些用戶的個(gè)人偏好會(huì)隨時(shí)間改變

Feedback from Interviews and Questionnaires

在這部分我們整理和收集了大量用戶的反饋意見(jiàn),并進(jìn)行了歸納,為節(jié)約篇幅不做描述。

Preliminary and Post-Task Questionnaires

我們的實(shí)驗(yàn)前問(wèn)卷和實(shí)驗(yàn)后問(wèn)卷基于 5 分制,其中 5 分對(duì)應(yīng)強(qiáng)烈同意,1 分對(duì)應(yīng)強(qiáng)烈不同意。 下圖中的 Q1-Q8 驗(yàn)證了自動(dòng)構(gòu)圖和個(gè)性化構(gòu)圖推薦算法的有效性。Q9-Q20 顯示了關(guān)于本文提出的算法和設(shè)計(jì)的系統(tǒng)獲得的相關(guān)用戶反饋??傮w而言,用戶對(duì)本文提出的 SmartEye 表達(dá)了相當(dāng)積極的態(tài)度。

調(diào)查問(wèn)卷和用戶訪談結(jié)果

討論

啟發(fā)

我們從中學(xué)習(xí)到了一些經(jīng)驗(yàn)教訓(xùn),以進(jìn)一步改善具有個(gè)性化偏好建模的自動(dòng)構(gòu)圖系統(tǒng)的用戶體驗(yàn)。我們相信這些經(jīng)驗(yàn)也適用于試圖將個(gè)性化偏好納入主觀任務(wù)的其他系統(tǒng)。

建模個(gè)性化偏好對(duì)于主觀任務(wù)很重要。根據(jù)訪談,我們發(fā)現(xiàn)參與者可以從系統(tǒng)從歷史數(shù)據(jù)中學(xué)習(xí)習(xí)慣和偏好的過(guò)程中獲益。

我們最好向用戶顯示系統(tǒng)如何 or 為何提出建議,而不是讓系統(tǒng)成為 “黑匣子”。在我們的采訪中,我們發(fā)現(xiàn) Smart Score 的得分以及置信度值得到了很多積極的反饋; 它幫助用戶完成構(gòu)圖任務(wù),并使系統(tǒng)更加透明和可靠。在更多細(xì)節(jié)中顯示“系統(tǒng)為什么這么認(rèn)為” 是這方面可能的未來(lái)方向。

未來(lái)工作

研究更 general 的構(gòu)圖推薦模型。我們的工作基于 VPN,并通過(guò)集成 P-Module 改善用戶體驗(yàn)。請(qǐng)注意,VPN 并非一個(gè)自動(dòng)構(gòu)圖的完美算法。通過(guò)采用更好的構(gòu)圖推薦模型,SmartEye 可以進(jìn)一步提升其性能。

使用協(xié)作過(guò)濾擴(kuò)展到多個(gè)用戶。我們的偏好學(xué)習(xí)工作中的 P-Module 針對(duì)單個(gè)用戶進(jìn)行了更新; 因此,該推薦僅基于他 / 她自己的構(gòu)圖歷史。開(kāi)發(fā)算法和交互技術(shù)以在許多用戶之間共享學(xué)習(xí)結(jié)果并以協(xié)作方式利用它們也是有趣的。

推薦手機(jī)鏡頭的移動(dòng)方向。在拍照時(shí)實(shí)時(shí)地推薦手機(jī)移動(dòng)方向似乎是我們的算法的直接擴(kuò)展,但我們發(fā)現(xiàn)它在實(shí)踐中非常具有挑戰(zhàn)性:首先,因?yàn)橐粋€(gè)圖像可能有多個(gè)好的建議,當(dāng)系統(tǒng)給出移動(dòng)建議,但是用戶隨著指示移動(dòng)鏡頭后,發(fā)現(xiàn)得到的構(gòu)圖不是自己想要的時(shí)候,它可能會(huì)損害用戶體驗(yàn);第二,系統(tǒng)必須跟蹤,平滑和記錄運(yùn)動(dòng)歷史,以預(yù)測(cè)下一個(gè)方向;第三,更絲滑的推薦移動(dòng)方向(不讓用戶有延遲感),可能對(duì)系統(tǒng)響應(yīng)時(shí)間有更高的要求,解決它也可能是有趣的未來(lái)工作。

解釋有關(guān)模型決策的更多信息。VPN 是一種數(shù)據(jù)驅(qū)動(dòng)模型,可直接從人類數(shù)據(jù)中學(xué)習(xí)構(gòu)圖知識(shí)。盡管我們有意收集了各類圖像數(shù)據(jù)用于構(gòu)圖,但很難保證我們現(xiàn)有的推薦模型考慮到了光照、聚焦等攝影學(xué)因素。通過(guò)觀察模型的輸出,我們推測(cè) VPN 已經(jīng)隱含地考慮了這些方面。但是,在數(shù)據(jù)驅(qū)動(dòng)模型的輸出中,很難明確地顯示哪個(gè)方面有多大程度的貢獻(xiàn)。為了明確地 model 其他方面的構(gòu)圖因素,我們可以在模型的輸出之后附加模塊,這些模塊特定于這些方面,畢竟許多這些方面的現(xiàn)成模型已經(jīng)取得了不錯(cuò)的性能。

結(jié)論

我們研究了照片構(gòu)圖中的用戶偏好建模的概念,并且實(shí)現(xiàn)了一個(gè)新穎的系統(tǒng),該系統(tǒng)可以逐漸且交互式地學(xué)習(xí)用戶對(duì)照片構(gòu)圖的偏好。

同時(shí),我們已經(jīng)證實(shí),在構(gòu)圖任務(wù)中,不同用戶之間的偏好是不同的,甚至每個(gè)人的偏好也可能隨時(shí)間而變化,這進(jìn)一步表明了將用戶偏好學(xué)習(xí)應(yīng)用于當(dāng)前系統(tǒng)的必要性。 此外,我們將 P-Module 和 VPN 集成到一個(gè)交互式的實(shí)時(shí)的移動(dòng)系統(tǒng) SmartEye 中,具有新穎的界面和一系列實(shí)用功能,如實(shí)時(shí)智能取景器,智能分?jǐn)?shù)和智能變焦。我們的用戶研究證明了 SmartEye 的有效性:我們已經(jīng)證明 SmartEye 優(yōu)于其他構(gòu)圖算法,系統(tǒng)支持的交互功能很有幫助,用戶對(duì) SmartEye 整體十分滿意。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺(jué)
    +關(guān)注

    關(guān)注

    163

    文章

    4597

    瀏覽量

    122908
  • VPN
    VPN
    +關(guān)注

    關(guān)注

    4

    文章

    298

    瀏覽量

    30595
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279991

原文標(biāo)題:拍照技術(shù)爛?實(shí)時(shí)在線AI構(gòu)圖模型VPN,讓你變身攝影大神!

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    for Science的技術(shù)支撐”的學(xué)習(xí)心得,可以從以下幾個(gè)方面進(jìn)行歸納和總結(jié): 1. 技術(shù)基礎(chǔ)的深入理解 在閱讀第二章的過(guò)程中,我對(duì)于AI for Science所需的
    發(fā)表于 10-14 09:16

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    科正將AI能力體系化并賦能終端生態(tài)。 大會(huì)上,聯(lián)發(fā)科定義“智能體化用戶體驗(yàn)”的五大特征:主動(dòng)及時(shí)、知懂你、互動(dòng)協(xié)作、學(xué)習(xí)進(jìn)化和專屬隱私信息守護(hù)。這五大特征需要跨越從芯片、
    發(fā)表于 04-13 19:52

    攝影新手必備器材

    : 入門或中階級(jí)DSLR單反相機(jī)一部(APS-C格式便可,學(xué)習(xí)時(shí)不用買全片幅Full-frame的),買哪一種取決的預(yù)算,一部中階機(jī)可以
    發(fā)表于 06-23 16:41

    玩轉(zhuǎn)延時(shí)攝影,compass黑盒子的秘密

    拍照錄視頻,重要的是還有延時(shí)攝影的功能。以前一提到延時(shí)攝影,以前聽(tīng)起來(lái)就很高大上,不是什么攝影大V都玩不好的樣子。但是現(xiàn)在越來(lái)越簡(jiǎn)便設(shè)備和處理系統(tǒng),連手機(jī)都有自備的延時(shí)
    發(fā)表于 01-12 21:35

    運(yùn)動(dòng)相機(jī)5種建筑攝影構(gòu)圖技巧

    怎樣才能讓的建筑攝影作品更出彩呢?別光想著什么對(duì)焦、曝光、HDR、后期調(diào)色之類的事兒,先從最基本的構(gòu)圖說(shuō)起。恰當(dāng)?shù)?b class='flag-5'>構(gòu)圖,能起到化腐朽為神奇的作用,
    發(fā)表于 08-15 14:37

    年輕人,以后AI給你升職加薪吧

    進(jìn)行提問(wèn)和打分,有時(shí)候會(huì)覺(jué)得Ta沒(méi)能完全看出深藏于靈魂的才華。但是,如果有一天對(duì)面坐的不再是一個(gè)“人”,那么這樣的面試,能想象嗎?
    發(fā)表于 08-28 09:16

    AI學(xué)習(xí)AI概論:(Part-A)與AI智慧交流

    任務(wù)一:電腦+AI電腦擁有學(xué)習(xí)能力)目標(biāo):安裝Python和TensorFlow。安裝Keras、Numpy、OpenCV。安裝ResNet50人工智慧模組(模型)。 運(yùn)行測(cè)試程序
    發(fā)表于 10-30 14:04

    AI概論:來(lái)來(lái)來(lái),成為AI的良師益友》高煥堂老師帶你學(xué)AI

    AI---邁入機(jī)器學(xué)習(xí);傳遞觀察到的新特征;觀察特征的更多(新的組合);觀察更多食物和特征;創(chuàng)作自己的AI
    發(fā)表于 11-05 17:55

    《來(lái)來(lái)來(lái),成為AI的良師益友》高煥堂老師AI學(xué)習(xí)資料大集合

    AI---邁入機(jī)器學(xué)習(xí);傳遞觀察到的新特征;觀察特征的更多(新的組合);觀察更多食物和特征;創(chuàng)作自己的AI
    發(fā)表于 11-26 11:57

    基于MPLS的VPN技術(shù)原理及其實(shí)現(xiàn)

    在研究基于MPLS的VPN技術(shù)的原理和工作的基礎(chǔ)上,給出了基于BGP擴(kuò)展實(shí)現(xiàn)的MPLSVPN的一個(gè)網(wǎng)絡(luò)組成模型,同時(shí)描述
    發(fā)表于 10-26 17:02 ?0次下載

    攝影/構(gòu)圖,攝影/構(gòu)圖是什么意思

    攝影/構(gòu)圖,攝影/構(gòu)圖是什么意思 攝影 電影攝影師、電視攝像師拍攝前的工作術(shù)語(yǔ)。
    發(fā)表于 04-12 10:28 ?3359次閱讀

    VPN技術(shù)在數(shù)字社區(qū)的應(yīng)用

    在闡述 VPN 及其關(guān)鍵技術(shù) 隧道技術(shù)的基礎(chǔ)j:,重點(diǎn)分析數(shù)字社區(qū)網(wǎng)絡(luò)安全布局結(jié)構(gòu)及其設(shè)計(jì)技術(shù),提出r實(shí)現(xiàn)數(shù)字社區(qū)
    發(fā)表于 08-09 15:38 ?28次下載
    <b class='flag-5'>VPN</b><b class='flag-5'>技術(shù)</b>在數(shù)字社區(qū)的應(yīng)用

    攝影小白拍出大片的 OPPO R15 了解一下

    但問(wèn)題來(lái)了,拍照技術(shù)不好能拍出夏日清新大片嗎?答案是肯定的,最近 OPPO R15 就憑借出色的外觀及過(guò)硬的拍照性能俘虜不少人心,并且憑借 AI
    的頭像 發(fā)表于 04-25 16:30 ?5093次閱讀

    不懂攝影知識(shí),不會(huì)構(gòu)圖,拍不出好照片?試試華為P20系列AI智慧攝影

    P20系列手機(jī),自帶了AI攝影大師功能,AI智慧攝影能夠進(jìn)行場(chǎng)景識(shí)別,自動(dòng)選擇拍照模式,更能提供拍照
    發(fā)表于 04-28 17:54 ?1755次閱讀

    AI模型與深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過(guò)程,實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識(shí)別。AI模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來(lái)進(jìn)行訓(xùn)練和推理。深度
    的頭像 發(fā)表于 10-23 15:25 ?2895次閱讀