99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

計算機可以被用來做什么?新的基元將會如何改變和擴大人類思考的方式呢?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-03 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

計算機不僅可以是解決數學問題的工具,還可以是擁有實時交互能力,協(xié)助人類解決問題,甚至完成創(chuàng)造性工作的輔助系統(tǒng)。具有可交互界面的的機器學習工具,可以幫助人類更高效地設計字體、制作圖片,甚至創(chuàng)造出藝術作品。人工智能可以大大增強人類智能,本文詳細介紹了這方面的一些探索。本文作者是谷歌大腦團隊科學家Shan Carter和物理學家、YC Research的Michael Nielsen,英文原文發(fā)表于可視化機器學習平臺Distill。

計算機可以被用來做什么?

在歷史上,這個問題的不同答案——即對計算的不同見解——有助于啟發(fā)和確立最終建立的人性化計算系統(tǒng)。早期的電子計算機 ENIAC,是世界上第一臺通用電子計算機,它的目的是為美國軍隊計算火炮射擊表。其他早期的計算機也被用于解決數值問題,如模擬原子彈爆炸、預測天氣、規(guī)劃火箭的運動。在批處理模式下運行的機器,使用粗糙的輸入和輸出設備,而且沒有任何實時的交互。這種觀點把計算機看作是數值處理機器,用于加速在之前要花費數周、數月或需要一個團隊人力才能完成的計算任務。

在 20 世紀 50 年代,對計算機用來做什么的另一個不同的觀點開始發(fā)展起來。在 1962 年,當 DouglasEngelbart 提出計算機可以被看作一種增強人類智能[1] 的方式時,這個觀點開始變得明確起來。在這種觀點下,計算機不是主要解決數值計算問題的工具,而是實時交互的系統(tǒng),有著豐富的輸入和輸出,使得人類可以一起工作來支持和擴展他們自己解決問題的過程。

這種智能增強(Intelligence Augmentation,簡稱IA)的觀點深深地影響了很多其他人,包括研究員如施樂帕克研究中心(Xerox PARC 的 Alan Kay 和企業(yè)家如蘋果的 Steve Jobs,而且導致了很多現代計算系統(tǒng)的關鍵想法的產生。這個觀點同樣深深地影響了數字藝術與音樂,還有交互設計、數據可視化、計算創(chuàng)造力和人機交互等領域。

IA 領域的研究經常和人工智能(Artificial Intelligence,簡稱 AI)的研究相互競爭:在研究經費上的競爭,吸引有才能的研究員上的競爭。盡管這兩個領域之間總是存在著交叉,但是IA 通常專注于構建系統(tǒng)使人類和機器可以共同協(xié)作,而 AI 則專注于將智能任務完全外包給機器。尤其是,AI 的問題通常專注于匹配或者超過人類水平:在象棋或圍棋上打敗人類;學會像人類一樣識別語音和圖像或翻譯語言;等等。

本文描述了一個新的領域,這個領域來自于 AI 和 IA 的綜合。我們建議將這個領域命名為人工智能增強(artificial intelligence augmentation,簡稱 AIA):使用 AI 系統(tǒng)幫助開發(fā)智能增強(IA)的新方法。這個新領域引入了新的重要的基礎問題,這些問題無法關聯到任何的父領域中。我們相信 AIA 的原理和系統(tǒng)將會與大多數存在的系統(tǒng)完全不同。

我們的文章開始于對近期技術工作的調查,這些工作隱含了人工智能增強技術,包括生成式界面(generative interfaces)的工作——可用于探索和可視化生成機器學習模型。這樣的模型發(fā)展出一種生成模型的制圖學,使人們可以用于去探索模型以及從模型中構建意義,并且融合模型知道的信息到他們創(chuàng)造性的工作中。

本文不僅僅是技術工作的綜述。我們相信這是個好的時間點,在這個新領域的建立中識別出一些廣泛而根本的問題。這些新工具能夠多大程度激發(fā)創(chuàng)造力?他們能被用于生成令人驚訝的新的想法嗎?還是說這些想法只是陳詞濫調,是基于現存想法的無價值的再結合?這樣的系統(tǒng)能被用于發(fā)展出基礎性的新的接口基元嗎?這些新的基元將會如何改變和擴大人類思考的方式呢?

使用生成模型產生有意義的創(chuàng)意操作

讓我們看一個例子,機器學習模型使一類新的接口成為可能。為了理解接口,想象你是一個字體設計師,正在創(chuàng)造一種新的字體。在描述了一些最初的設計后,你希望用粗體、斜體和壓縮的變體進行試驗。讓我們看看一個工具,能從初始設計中生成和探索這些變體。結果的質量是相當粗糙的,我們將在稍后解釋具體原因,請諒解。

當然,變化粗度(如重量)、斜度和寬度只是變化字體的三種方法。想象一下不是構造特定的工具,而是用戶可以僅僅通過選擇現存的字體樣例來構造他們自己的工具。比如,假設你想變化字體的襯線的程度。在下面,請在頂部的盒中,選擇 5 至 10 個無襯線字體,然后拖到左邊的盒子;接著選擇 5 至 10 個襯線字體,拖到右邊的盒子。當你在操作時,運行在瀏覽器中的機器學習模型將會自動從這些例子中,推測出如何在襯線或無襯線的方向上對初始字體進行調整:

原文中的控件 1 截圖(可點擊 閱讀原文 操作)

實際上,我們使用這個相同的技術構造了上面的粗體、斜體和濃縮工具。為了實現工具,我們使用了下面的例子:粗體和非粗體、斜體和非斜體、濃縮和非濃縮字體:

為了構建這些工具,我們使用了生成模型(generative model),具體使用的是 James Wexler[2] 訓練的模型。為了理解生成模型的用法,想象一下描繪一個字體原本似乎需要大量的數據。比如,如果字體是 64x64 的像素,那么我們需要 64x64=4096 個參數去描述單個字形。但是我們可以使用生成模型找到一個更簡單的描述。

我們通過構建一個神經網絡來實現,它只使用了少量的輸入變量,叫隱變量(latent variable),來產生整個的字形輸出。在我們使用的模型中,隱變量空間維度是 40 維,并將其映射到 4096 維可以描述所有字形像素的空間中。換句話說,這個想法是將一個低維的空間映射到一個高維空間:

我們使用的生成模型是一類叫做變分自編碼器(variational autoencoder, VAE)[3] 的神經網絡。對我們的目的來說,生成模型的細節(jié)并不是很重要。重要的是,通過改變作為輸入的隱變量,能夠得到不同的字體作為輸出。所以隱變量的一種選擇將會產生一種字體,然而另一種選擇將會產生另一個不同的字體:

你可以把隱變量看成是一種緊湊的、高層次的字體表示。神經網絡輸入高層次表示,并且轉化成全像素數據。值得注意的是,我們只需要 40 個數字就能捕捉一個字形的表面復雜性,而最初需要 4096 個變量。

我們使用的生成模型是從 Bernhardsson[4] 在公開網頁收集的超過 5 萬個字體的訓練集中學習到的。在訓練中,網絡的權重和偏置被調整,只要隱變量被恰當地選擇,就能使得網絡輸出對任意訓練集字體的近似。在某種程度上,模型在學習一個所有訓練集字體的高度壓縮的表示。

實際上,模型不僅重現了訓練字體,而且能泛化、產生訓練集中沒有的字體。通過被強制尋找訓練樣本的一個緊湊描述,神經網絡學習到了一個抽象的、更高層次的字體表征模型。更高層次的模型使得在已知的訓練樣本上的泛化成為可能,能產生具有真實感的字體。

理想情況下,一個好的生成模型在面對少量訓練樣本時,能夠利用它泛化到所有可能的人類可識別的字體的空間。對任意可能的字體——已經存在的或可能在未來可想象的——我們可能找到正好對應那個字體的隱變量。當然我們使用的模型還遠達不到理想的效果——一個非常嚴重的失敗是很多模型生成的字體遺漏了大寫字母 “Q” 的尾部(你可以在上面的例子中看到)。然而,記住一個理想的生成模型能做什么還是有用的。

在某些方式上,這些生成模型類似于科學理論的作用方式??茖W理論經常極大地簡化對出現的復雜現象的描述,把大量的變量減少為僅僅很少的變量,并從中可以推導出系統(tǒng)行為的很多方面。而且,好的科學理論有時能夠被一般化來發(fā)現新的現象。

作為一個例子,考慮普通的物體。這些物體有著物理學家稱為相(phase)的東西——它們可能是液態(tài)、固態(tài)、氣態(tài)或有時可能更奇異,像超導體或波爾 - 愛因斯坦凝聚態(tài)。起初,這樣的系統(tǒng)看起來極其復雜,涉及到 10^23 或更多的分子。但是熱力學定律和統(tǒng)計力學使我們找到一個更簡單的描述,把復雜性減少為僅僅幾個變量(溫度、壓力等等),但是包含了系統(tǒng)的大量行為。

而且,有時可能被一般化來預測意想不到的新的相態(tài)。例如,在 1924 年,物理學家使用熱力學和統(tǒng)計力學預測了一個顯著的新的相態(tài),波爾 - 愛因斯坦凝聚態(tài),其中所有原子可能全部處于相同的量子狀態(tài),導致驚人的大規(guī)模量子干涉效應。稍后我們在關于創(chuàng)造性和生成模型的討論中會回到這種預測能力上的話題上來。

回到生成模型的具體細節(jié)上來,我們如何使用這種模型做基于樣例的推理,像上述工具所展示的?讓我們考慮粗體工具的情形,在那個例子中,我們分別對所有用戶指定的粗體字體和非粗體字體取均值。然后,我們計算這兩個均值向量的差:

我們把它成為稱為粗體向量(bolding vector),為了使給定的字體變粗,我們簡單地加入一點粗體向量到相關的隱變量中,加入粗體向量的量控制著結果的粗度:

這個技術是由 Larsen 等人 [5] 提出的,類似粗體向量的向量有時叫做屬性向量(attribute vectors)。相同的想法被用于所有上述的工具的實現中。于是,我們利用樣例字體產生一個粗體向量、一個斜體向量、一個壓縮向量和一個用戶自定義的襯線向量。所以,這個界面提供了在這四個方向上隱空間的一個探索方法。

我們展示的工具有很多的不足。比如,我們從中間的樣例字體開始,分別向右或向左,增加或減小字體的粗度:

檢查在左邊和右邊的字體,我們看到很多不幸的變形。尤其最右邊的字體,邊緣開始變得粗糙,襯線開始消失。一個更好的生成模型會減少這些變形。這是一個好的長期的研究項目,它展現了很多有趣的問題。但是即使是當前的模型,生成模型的使用同樣有著引人注目的優(yōu)勢。

為了理解這些優(yōu)勢,考慮一種簡單的加粗方法,我們簡單地加入一些額外的像素在字體的邊緣,使其變厚。盡管這種加厚可能符合一種非專家的思考字體設計的方式,但是專家會做更多深入的事情。下面,我們展示了這種簡單加厚程序結果和 Georgia 和 Helveticade 所做的字體的比較:

正如看到的,簡單的加粗方法在兩種情形下都產生了相當不同的結果。例如,在 Georgia 的結果中,左邊筆畫只加粗改變了一點點,而右邊的筆畫極大地被增大,但是只在一邊。在兩種字體中,加粗不會改變字體的高度,然而這種簡單的方法會改變。

如這些例子展現的,好的加粗方法不是一個簡單的加厚字體的過程。專業(yè)的字體設計師有很多關于粗體的啟發(fā)式,這些啟發(fā)是從很多過去的實驗中和歷史樣例的仔細研究中推斷出來。在傳統(tǒng)程序中捕捉這些啟發(fā)是個繁重的工作。使用生成模型的好處是它可以自動學習很多的啟發(fā)。

例如,一個簡單的粗體工具會在字母 “A” 的封閉的上部區(qū)域,快速地填充封閉的負空間。字體工具不會這樣做,它會保留封閉的負空間,向下移動 "A" 的橫桿,相比于外部更加緩慢地填充內部筆畫。在上述例子中,這個原則是明顯的,尤其對 Helvetica ,它也被看成是字體工具的操作:

保留封閉負空間的啟發(fā)不是一個明顯的先驗直覺,然而,它在很多專業(yè)的字體設計中被采用。如果檢查上面的例子,你會容易知道為什么:它提高了清晰度。在訓練中,我們的生成模型從它看過的樣例中自動推測出這個原則,而且我們的加粗界面將其提供給用戶。

實際上,模型捕捉到很多其他的啟發(fā)。比如,在上面的例子中,字體的高度是幾乎不變的,這是專業(yè)字體設計中的規(guī)范。同樣,粗體操作不僅僅是將字體的加粗,而是應用了一個從生成模型推測出的更微妙的啟發(fā)。這些啟發(fā)式可以被用于創(chuàng)造帶有屬性的字體,而這些屬性是之前用戶幾乎不可能想到的。所以,這個工具擴展了普通人類在有意義的字體空間中的探索能力。

字體工具是認知技術的一個例子。尤其,它包含的基本操作能夠內化為用戶思考方式一部分。在這里,它類似于一個 Photoshop 或 3D 圖形軟件。它們都提供了一組新奇的界面基元,這些基本元素能被用戶內化為他們思考過程中基本的新元素。新元素內化是很多智能增強領域工作的基礎。

字體工具中的想法可以擴展到其他領域。使用相同的接口,我們可以使用一個生成模型來操作人臉圖像,如基于表情、性別或頭發(fā)顏色等屬性;或基于長度、諷刺或語氣操作句子;或基于化學性質操作分子。

該生成接口提供了一種生成模型的繪圖法,一種人類使用生成模型探索和創(chuàng)造意義的方法。

我們之前看到字體模型自動地推理出關于字體設計的相對深刻的原則,并提供給用戶。然而這樣的深刻原則能被推理出來是很好的,但是有時,模型推測出一些錯誤或令人不快的東西。例如,White 指出 [6] 一些臉部模型中微笑向量的加入將會使臉部不僅僅出現更多微笑,而且變得更女性化。為什么呢?因為在訓練數據中,微笑的女性比微笑的男性更多。所以,這些模型不僅僅學習到關于世界的深刻事實,而且同時內化了偏見或錯誤的信仰。一旦偏差被知道,通常它是可能被糾正的。但是為了找到那些偏見需要對模型進行仔細的審核,而且迄今我們仍不清楚如何保證這些審核是徹底的。

更廣泛地說,我們可以問為什么屬性向量有作用,它們什么時候起作用,什么時候不起作用?現在,我們對這些問題的答案了解甚少。

為了使屬性工作,我們需要輸入任意開始字體,通過在隱空間中加入相同向量來構造相關的粗體版本。然后,我們知道,沒有理由使用單個常量向量的移動才會工作,也許我們應該用很多不同的移動方法。比如,用于粗體襯線和無襯線字體的啟發(fā)是相當不同的,所以似乎應該使用非常不同的移動方法:

當然,我們可以做比使用單個常量屬性向量更復雜的事情。給定一對樣例字體(非粗體,粗體),我們能夠訓練一個機器學習算法,輸入非粗體版本的隱向量,輸出粗體版本的隱向量。給出更多字體權重的訓練數據,機器學習算法能學習生成任意權重的字體。屬性向量只是一種實現這類操作的極其簡單的方法。

由于這些原因,屬性向量將不太可能作為一種最終的操作高層次特征的方法。在未來幾年,更好的方法將會發(fā)展出來。然而,我們仍能夠期望接口能夠提供廣泛地類似于上面描述的操作,能夠操作高層次的和潛在的用戶定義的概念。接口模式不再依賴于屬性向量的技術細節(jié)。

交互生成對抗模型

讓我們看另一個使用機器學習模型增強人類創(chuàng)造力的例子。它是 2016 年,Zhu 等人 [9] 提出的交互生成對抗網絡(interactive generative adversarial networks)或 iGAN。

這篇文章中的一個例子是在一個接口中使用 iGAN 生成消費品的圖片,如鞋子。傳統(tǒng)上,這個接口需要程序員編寫一個包含大量鞋子相關知識的程序:鞋底、鞋帶、鞋跟等等。Zhu 等人沒有這樣做,而是使用從 Zappos 下載的 5 萬張鞋子的圖片,訓練了一個生成模型。然后他們使用這個生成模型構建了一個界面讓用戶可以大概地描述鞋子的形狀、鞋底、鞋帶等等:

視覺效果并不是太好,部分因為 Zhu 等人使用的生成模型在現代(2017)的標準中是過時的——使用更現代的模型,視覺效果會更好。

但是視覺效果不是重點。在這個原型中,很多有趣的事情正在發(fā)生。比如,注意當鞋底被填滿時,鞋子的整體形狀會如何顯著地變化——它變得更窄和更光滑。很多小的細節(jié)被填滿,像白色鞋底上方的黑條,和鞋子上部到處填滿的紅色。這些和其他的事實是自動從底層的生成模型中推斷出來的,我們將會簡單描述該方法。

相同的界面可能被用于描述風景。唯一的區(qū)別是背后的生成模型使用的是風景圖片來訓練,而不是鞋子的圖片。在這種情形下,只描述和風景相關的顏色變得可能。

在這些接口中使用的生成模型不同于我們的字體模型,不是使用變分自編碼器,而是基于生成對抗網絡(generative adversarial networks, GANs)。但是背后的想法仍然是找到一個低維的隱空間,能夠表示所有的風景圖片,并且將該隱空間映射到相關的圖片中。同樣,我們可以認為隱空間中的點是描述風景圖片的一種緊湊的方法。

大概來說,iGAN 的工作方式如下所示。不論當前的圖片是什么,它關聯到隱空間中的一些點:

假設,如之前視頻中發(fā)生的,用戶現在用筆劃描述山的形狀輪廓。我們可以認為筆劃是圖片上的一個約束,在隱空間中選擇一個子空間,該子空間由匹配輪廓的圖片的所有隱空間中的點組成:

接口工作的方法是找到隱空間中一個距離當前圖片最近的點,所以圖片不僅變化很大,同時也接近滿足強制的約束。這是通過優(yōu)化一個目標函數實現的,該目標結合了到每個強制約束的距離和偏移當前點的距離。如果只有單個約束,比如,關于山的筆劃,它看起來如下圖:

然后,我們可以把它看作是一種應用對隱空間的約束,用有意義的方式移動圖片。

iGAN 和我們之前展示的字體工具有很多共同點。它們的操作都編碼了很多關于世界的精細的知識,比如當它學習理解山看起來是什么或加粗字體時,推測出封閉負空間應該保留。iGAN 和字體工具都提供了理解和在高維空間導航的方法,使我們保持在字體、鞋子或風景的自然空間中。

如 Zhu 等人提到的:

對我們大多數人,Photoshop 中簡單的圖片處理呈現了不可逾越的困難。任何不那么完美的編輯立刻使圖片看起來完全不真實。換另一種方式,傳統(tǒng)的視覺操作范式不會防止用戶 “脫落” 自然圖片的流形。

像字體工具一樣,iGAN 是一種認知技術。用戶可以內化界面的操作為他們思考中的新的基本元素。比如,在鞋子的例子中,他們可以學習用他們想要應用的差異來思考,如加入鞋跟或更高的頂部或特別的高亮。這比傳統(tǒng)方式中非專家對鞋子的思考(“尺碼 11, 黑色” 等等)更加豐富。

在非專家用更復雜的方式思考的范圍——“使頂部更高點或更光滑”——他們在這種思考方式下得到的經驗很少,或很難看到他們選擇的結果。像這樣的界面使探索、發(fā)展風格的能力、規(guī)劃的能力、和朋友交換想法等等都更簡單。

計算的兩種模型

讓我們重新審視本文開始的問題,計算機可以被用來做什么?它和智能增強有什么關系。

計算機的一個常見概念是——它們是解決問題的機器:“計算機,在這樣或者那樣的風向下(等等情況)下發(fā)射炮彈的結果是什么?”;“計算機,在未來 5 天東京的最高溫度是多少?”;“計算機,當圍棋棋盤處于這個位置時,最好的選擇是什么?”;“計算機,這個圖片該如何分類?” 等等。

在計算機作為數字運算機器的早期看法中,還有大量 AI 上的工作中,在歷史和今天的看法中,這是一個很常見的概念。這個模型是計算機作為一種外包認知的方法。在 AI 未來的可能推測上,這種外包認知模型在 AI 的視角下經常作為預言家出現,能夠以比人類更好的水平解決一些大類問題。

但是對于計算機為了什么這個問題,一個非常不同的概念是可能的,一個和智能增強的工作更一致的概念。

為了理解另一個觀點,考慮我們對于思考的主觀經驗。對很多人,這個經驗是口頭上的:他們用語言思考,在頭腦中形成單詞鏈,類似于演講或寫在紙上的句子。對于另一些人,思考是一個更加視覺的體驗,處理像圖和地圖的表示。仍然有些人混合了數學到他們的思考中,使用代數表示或圖表技術,比如費曼圖和彭羅斯圖。

在每種情形下,我們都使用了別人發(fā)明的表示來思考:單詞、圖、地圖、代數、數學圖表等等。隨著成長,我們內化了這些認知技術,并且使用它們作為我們思考的一種基底。

在大多數歷史中,可獲取的認知技術的范圍是緩慢、逐漸變化的。一個新的單詞或一個新的數學符號將被引入。更少見的,一個激進的新的認知技術將會被發(fā)展。例如,在 1637 年,笛卡爾發(fā)表了他的《方法論》,解釋了用代數表示幾何觀點,反之亦然:

這使得我們在對代數和幾何的思考方式發(fā)生了根本上的改變和擴展。

歷史上,持久的認知技術很少被發(fā)明出來。但是現代計算機是元 - 媒介(meta-medium),使得很多新的認知技術被快速發(fā)明出來??紤]一個相對平常的例子,例如 Photoshop,精于 Photoshop 的用戶經常出現之前不可能有的想法比如:“讓我們對這個的層應用克隆圖章”。這是一個更一般的思考類型的例子:“計算機,【新型動作】這個【新設想的對象類的新型表示】”。當它發(fā)生時,我們在使用電腦擴展我們可以思考的想法范圍。

這種認知轉換模型(cognitive transformation model)成為了大量智能增強領域中那些深入工作的基礎。不僅僅是外包認知,它改變了我們用于思考的操作和表示;它改變了思想本身的基底。而且雖然認知外包很重要,這種認知轉換觀點提供了一種對智能增強更有意義的模型。在這種觀點下,計算機是改變和擴大人類思想的工具。

歷史上,認知技術是人類發(fā)明家發(fā)展出來的,從在蘇美爾和中美洲的寫作的發(fā)明,到現代界面的設計,如 Douglas Engelbart,Alan Kay 和其他設計師。

本文描述的例子表明,AI 系統(tǒng)推動了新的認知技術的發(fā)明。字體工具不僅僅是當你需要一個新字體時可以咨詢的預言家。而且,它們可以被用于探索和發(fā)現,提供新的表示和操作,能夠被內化為用戶思考的一部分。雖然這些例子只處于早期階段,但是它們預示著 AI 不僅僅是關于認知外包。對于 AI 的一個不同觀點是,它幫助我們發(fā)明新的認知技術,轉換我們思考的方式。

本文中,我們集中于少量例子,更多涉及隱空間的探索。有很多其他人工智能增強的例子,舉一些,但不全面:sketch-rnn system[11],用神經網絡輔助畫畫;Wekinator[12],使用戶快速建立新的樂器和藝術系統(tǒng);TopoSketch[13],通過探索隱空間生成動畫;機器學習模型設計整個印刷排版 [15];生產模型能在樂句間插值[15]。在每種情形下,系統(tǒng)使用機器學習把新的元素整合到用戶的思考中。更廣泛地,人工智能增強將會開拓像計算創(chuàng)造性[16] 和交互機器學習 [17] 這樣的領域。

尋找強大的思想新基元

我們認為機器學習系統(tǒng)能有助于創(chuàng)造表示和操作,作為人類思考中的新基元。在這些新基元中我們應該尋找什么樣的性質?這是一個太大的問題,無法在一篇短文中全面地回答。但是我們將會簡略地探索一下。

歷史上,重要的新媒介形式剛引入時通常看起來很奇怪。很多這樣的故事傳到流行文化中:“斯特拉文斯基Stravinsky和尼金斯基Nijinksy的《春之祭》的首映禮的暴亂”;” 早期立體畫派引起的恐慌,紐約時報對其評論:‘他們在表達什么?這些畫的作者是否失去理智?這是藝術還是瘋狂?誰知道呢?’”。

另一個例子來自物理學。在 20 世紀 40 年代,量子電動力學的理論構想獨立地由物理學家朱利安 · 施溫格Julian Schwinger、朝永振一郎Shin’ichirō Tomonaga和理查德 · 費曼Richard Feynman發(fā)展出來。在他們的工作中,施溫格和振一郎使用傳統(tǒng)代數的方法,沿著其他物理學家相似的路線。而費曼使用一個更激進的方法,基于現在有名的費曼圖,用于描述光和物質的交互:

最初,施溫格和振一郎的方法更容易被其他物理學家理解。當費曼和施溫格在 1948 年討論會上展示他們的工作時,施溫格立刻受到贊揚。相反,費曼的工作使觀眾感到困惑。

如 James Cleick 在他的費曼傳記 [19] 中寫到:

這打擊了費曼,每個人都有一個喜歡的原理或定理,他當時全部違背了它們... 費曼知道他失敗了。當時,他極其痛苦。后來,他簡單地說:“我的東西太多了,我的機器來自太遙遠的地方。”

當然,僅僅是因為奇怪的奇怪是沒有用的。但是,這些例子暗示了在表示上的重大突破在一開始經常顯得奇怪。還有其他正確的潛在原因嗎?

部分原因是因為如果一些表示是非常新的,那么它看起來會和你之前見到的事情不同。費曼圖、畢加索的畫、斯特拉文斯基的音樂都揭示了真正的有意義的新方法。好的表示能讓你敏銳地洞察事物,幫助使熟悉的事物盡可能生動地展現出新事物。但是因為對不熟悉的強調,表示會看起來很奇怪:它展示了你之前從未見過的關系。在某種程度上,設計師的任務是識別出關鍵的奇特,然后盡可能地放大它。

奇特的表示經常是難以理解的。開始,物理學家們喜歡施溫格 - 振一郎的方法甚于費曼的。但是,隨著費曼的方法慢慢被物理學家理解,他們意識到雖然施溫格 - 振一郎的方法和費曼的在數學上是等價的,費曼的方法更加強大。

如 Gleick 所說:

施溫格的學生們在哈佛處于競爭的劣勢,一如別處的同僚們與之而言,同僚們懷疑他們是不是在偷偷地使用著費曼圖。這有時是正確的,默里蓋爾曼之后花了一個學期待在施溫格的家里,后來喜歡說他已經搜索了費曼圖的每個地方,他沒有找到什么,除了一個已經被鎖上的門...

這些想法不僅對歷史上的表示是正確的,對計算機的接口同樣是。然而我們對奇怪的主張違反了很多傳統(tǒng)界面的智慧,特別是被廣泛持有的信念,它們應該是 "用戶友好" 的,如簡單、初學者能立刻使用。

這經常意味著界面是陳舊的,是用傳統(tǒng)元素以標準的方法構造而成。然而雖然使用陳舊的界面可能是簡單和有趣的,它輕松的像閱讀一部公式化的浪漫小說。它意味著界面沒有揭示任何關于主題區(qū)域的真正新奇的東西。所以它幾乎不能加深用戶的理解,或改變他們思考的方式。對一般的任務是沒問題的,但是對更深刻的任務,在更長期上,你想要一個更好的接口。

理想上,界面能展示主題下的更深的原則,向用戶揭示一個新的世界。當你學會這個界面,你能內化這些原則,擁有更強大的對世界的推理能力。這些原則是你理解中的擴散器,它們是你真正想看見的全部,其他都是處于最好的支持或最壞的不重要的碎渣。最好的界面的目的在淺層意義上不是用戶友好的,它是更強意義上的用戶友好,是具體化有關世界的原則 [20],使它們成為用戶生活和創(chuàng)造的工作環(huán)境。在那時,一旦看起來奇怪的反而變得舒服和熟悉,變成思考模式的一部分。

在智能增強上使用 AI 模型意味著什么?

我們希望,如我們看到的,我們的機器學習模型將會幫助我們構建接口,用對用戶有意義的方式使深刻原則具體化。為了實現它,模型必須發(fā)現關于世界的深刻原則、識別出這些原則、而且盡可能用一種用戶理解的方式,生動地在接口中表現出來。

當然,這是離譜的要求,我們展示的例子僅僅只是一個開始。確實我們的模型有時能發(fā)現深刻的原則,像在加粗字體時對封閉負空間的保留,但是這僅僅隱藏在模型中。然而,我們已經構建了能利用這些原則的工具,如果模型能自動地推測出重要的原則,并找到方法明確地表現出這些原則(鼓勵過程朝著 infoGAN[21] 的結果前進,它使用了信息論的想法找到隱空間的結構),這就更好了。理想地,這樣的模型開始得到真正的解釋,不只是靜態(tài)的形式,還有動態(tài)的形式,用戶可以操作的。但是我們離那一點還有很長的路要走。

這些交互界面會抑制創(chuàng)造力嗎?

懷疑我們已經描述的界面的表達豐富性,是件誘人的事情。如果一個界面約束我們只探索圖片的自然空間,是否意味著我們只在做被期望的事情呢?是否意味著這些接口只能被用于生成視覺的陳詞濫調呢?它會阻止我們生成真正新的東西、做真正有創(chuàng)造性的工作嗎?

為了回答這些問題,識別出創(chuàng)新的兩種不同的模式是有幫助的。這兩種模式的模型是過于簡化的:創(chuàng)造力并不能很好地分為這兩類。盡管如此,這個模型還是澄清了在創(chuàng)造性工作中新接口的角色。

創(chuàng)造的第一個模式是一個工匠每天從事工作的創(chuàng)造性。比如,一個字體設計師的大量工作是由最好的現存經驗重新組合而成。這樣的工作通常是許多創(chuàng)造性的選擇,以滿足預期的設計目標,而不是開發(fā)關鍵的新的內在原則。

對于這樣的工作,我們一直討論的生成接口是有前景的。雖然它們目前有很多局限性,但未來的研究將發(fā)現并解決許多不足。這在 GAN 身上發(fā)生得很快:最初的 GAN 有很多限制 [10],但很快又出現了更適合圖片的模型 [22],改進了分辨率,減少了工件等等。有了足夠的迭代,這些生成界面將成為工藝工作的強大工具。

第二種創(chuàng)造模式的目的是發(fā)展新的原則,從根本上改變創(chuàng)造性表達的范圍。人們可以在畢加索或莫奈等藝術家的作品中看到這一點,他們違反了現存的繪畫原則,發(fā)展出新的原則,使人們能夠以新的方式看到事物。

在使用生成接口時,是否有可能做這樣的創(chuàng)造性工作呢?這樣的接口會不會限制我們在自然圖片或自然字體的空間,因此阻止了我們積極地在創(chuàng)造性工作中探索有趣的方向?

情況比這更復雜。

在某種程度上,這是一個關于我們的生成模型的能力的問題。在某些情況下,模型只能夠生成現存想法的重新組合。這是理想的 GAN 模型的限制,因為一個經過完美訓練的 GAN 生成器將復制訓練數據的分布。這樣的模型不能創(chuàng)造一個新的基本原則來直接生成圖片,因為這樣的圖片沒法從在訓練數據中得來。

像 Mario Klingemann 和 Mike Tyka 這樣的藝術家現在用 GAN 來創(chuàng)作有趣的藝術品。他們使用的是 “不完美的” GAN 模型,他們似乎能用來探索有趣的新原則;也許不好的 GAN 比理想的 GAN 模型在藝術上更有趣。此外,沒有說接口只能幫我們探索隱空間。也許可以添加一些操作,故意將我們帶出隱空間,或者減少自然圖片空間的可能性(以及更令人驚奇的)部分。

當然,GAN 不是唯一的生成模型。在一個足夠強大的生成模型中,模型發(fā)現的概括可能包含了超越人類發(fā)現的思想。在這種情況下,對隱空間的探索可能使我們能夠發(fā)現新的基本原則。模型會比人類專家發(fā)現更強的抽象。想象一下,在立體畫派出現之前,一個專門研究繪畫的生成模型;也許通過探索這個模型,我們就有可能發(fā)現立體主義嗎?正如本文之前所討論的,這將是類似于對波爾 - 愛因斯坦凝聚態(tài)預測的類比。這種發(fā)明超越了當今的生成模型,但似乎是對未來模型的一種有價值的渴望。

到目前為止,我們的例子都是基于生成模型的,但是有一些啟發(fā)性的例子不是基于生成模型的??紤]由 Isola 等人 [23] 提出的 pix2pix 系統(tǒng)這個系統(tǒng)訓練成對的圖片,例如表現貓的邊緣和實際的貓。一旦經過訓練,就可以顯示一組邊緣,并要求它為生成實際對應的貓的圖片,它經常表現得很好:

在不尋常的限制條件下,pix2pix 可以產生驚人的圖片:

這也許不是畢加索式的高級創(chuàng)造力,但仍是驚人的。這當然不像我們大多數人以前見過的圖片。pix2pix 和它的用戶是如何達到這種效果的呢?

與前面的例子不同,pix2pix 不是生成模型。這意味著它沒有隱空間,也沒有對應的自然圖片空間。而是一個神經網絡,令人困惑地被稱為生成器——這與我們早期的生成模型并不同——它以約束的圖片作為輸入,并生成填充的圖片。

生產器的訓練和判別器網絡的訓練是對抗的,判別器的工作是區(qū)分出從真實數據中生成的圖片組和由生成器生成的圖片組。

雖然這聽起來很像傳統(tǒng)的 GAN,但是有一個關鍵的區(qū)別:生成器中沒有隱向量輸入,相反,這里只有一個輸入約束。當人輸入一種與訓練數據不一樣的約束時,網絡就被迫即興發(fā)揮,盡其所能地根據之前所學的規(guī)則來解釋這個約束。創(chuàng)造力是由訓練數據推斷出的知識與用戶提供的約束一起作用的結果。因此,即使是相對簡單的想法——比如面包或眼睛貓——也能產生引人注目的新型圖片,這些圖片并不在我們之前認為的自然圖片的空間中。

總結

傳統(tǒng)觀念認為人工智能將改變我們與計算機交互方式。不幸的是,人工智能社區(qū)中的許多人大大低估了接口設計的深度,往往將其視為一個簡單的問題,主要是關注于如何使事物變得漂亮或易于使用。從這個角度來說,接口設計是一個交給別人的問題,而繁重的工作是訓練一些機器學習系統(tǒng)。

這種觀點是不正確的,接口設計最深層的含義是開發(fā)人類思考和創(chuàng)造的基本要素。這個問題的知識起源可以追溯到字母表的發(fā)明者、制圖學的發(fā)明者、音樂符號的發(fā)明者以及現代的巨人如笛卡爾、普萊菲爾、費曼、恩格爾巴特和凱。這是人類所面臨的最困難、最重要、最根本的問題之一。

如前所述,在人工智能的一個普遍觀點中,我們的計算機將繼續(xù)在解決問題方面做得更好,但人類基本保持不變。在第二種常見的觀點中,人類將在硬件層面進行修改,可能直接通過神經接口,或者間接通過全腦模擬。

我們描述了第三種觀點,AI 實際上改變了人類,幫助我們發(fā)明了新的認知技術,擴展了人類思維的范圍?;蛟S有一天,這些認知技術將反過來加速 AI 的發(fā)展,形成良性循環(huán):

它不會是機器中的奇點,相反,它將是人類思維中的一個奇點。當然,這個循環(huán)目前僅僅只是一個推測。我們所描述的系統(tǒng)可以幫助開發(fā)更強大的思維方式,但至多有一種間接的感覺,即這些思維方式被用來開發(fā)新的 AI 系統(tǒng)。

當然,從長期來看,機器在所有或大部分認知任務上都有可能超過人類。即便如此,認知轉換仍將是一個有價值的目標,值得我們自己去追求。學習下象棋或圍棋是有趣和有價值的,即使機器做得更好。而在諸如講故事之類的活動中,益處往往更多地來自建構故事和人物關系這一過程,而非最終的產物。個人的改變和成長還具有內在的價值,除了工具性利益以外。

我們討論的面向接口的工作超出了用來評價 AI 中大多數現有工作的敘述。它不涉及擊敗某個分類或回歸問題的基準。它無需非得在譬如圍棋這樣的比賽中,擊敗人類的冠軍。相反,它涉及一個更為主觀和難以衡量的標準:它是否有助于人類以新的方式思考和創(chuàng)造?

這給這類工作帶來了困難,尤其是在研究環(huán)境中。比如,這應該發(fā)表在哪里呢?它屬于什么社區(qū)呢?應該用什么標準來評判這樣的工作呢?好的工作和壞工作的區(qū)別是什么?

我們相信,在未來幾年內,將出現一個能夠回答這些問題的社區(qū)。它將舉辦研討會和會議。它將在類似 Distill 等地方發(fā)表工作。它的標準將來自許多不同的社區(qū):有藝術社區(qū)和音樂社區(qū)的探討;有數學社區(qū)的對抽象的品味及 “好” 的定義;以及現有的 AI 和 IA 社區(qū)(包括計算創(chuàng)造力和人機交互的工作)。

對成功的長期測試將是開發(fā)被創(chuàng)造者廣泛使用的工具。藝術家們是否在使用這些工具來開發(fā)不同尋常的新風格?其他領域的科學家是否用它們來發(fā)展用其他方法不可能獲得的理解?這些都是偉大的理想,需要一種建立在傳統(tǒng)人工智能上的方法之上,但也包含了非常不同的規(guī)范。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3808

    瀏覽量

    138110
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103695
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134656

原文標題:【深度好文】怎樣用可交互對抗網絡增強人類創(chuàng)造力

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    量子計算機或將提前實現

    1000量子比特的體量,并且業(yè)內其他專家也基本認可這個預期?! 」雀杌蚱渌镜哪M量子計算機一旦成功,則可以用來分析并解開醫(yī)學和能源領域的難題,這些領域要求進行原子級別的大規(guī)模仿真
    發(fā)表于 06-13 10:31

    如何讓計算機視覺更進一步接近人類視覺?

    如何讓計算機視覺更進一步接近人類視覺?
    發(fā)表于 06-01 06:27

    微型計算機在那些機器內部做些什么

    的兒童玩具也使用微型計算機。那么,究竟微型計算機在那些機器內部做些什么?微型計算機控制硬件,這是這些設備運行的關鍵。例如,它接收來自按鈕和按鍵的輸入,并根據預設程序控制外圍電路,如電
    發(fā)表于 09-10 09:24

    什么是計算機

    我們人類無時無刻不想著,自己能夠創(chuàng)造一個世界。什么是計算機?計算社會我們人類已經步入了計算社會??v覽人類
    發(fā)表于 09-10 08:41

    電子計算機體積,世界上體積最大的計算機 精選資料分享

    作為我們日常使用的電腦,小巧方便,那么世界上體積最大的計算機是什么!下面是學習啦小編為您收集整理的文章!世界上體積最大的計算機計算機(computer)俗稱電腦,是20世紀最先進的科
    發(fā)表于 09-13 08:24

    計算機科學與技術專業(yè)

    計算機科學與技術是當代科學技術的先導,它的應用正在改變社會的生產方式人類的生活方式。本專業(yè)以加強基礎、拓寬專業(yè)、面向系統(tǒng)、兼顧應用為指導思
    發(fā)表于 03-23 00:02 ?45次下載

    有關計算機體系結構的思考匯總

    有關計算機體系結構的思考匯總的內容:幾類網格計算機、Farming 計算模型與應用、指導計算機設計的ASC模型、DSAG 的理論模型、程序模
    發(fā)表于 11-03 22:13 ?22次下載

    計算機取證工具及方式

    本內容講述了計算機取證技術,如何進行計算機取證,計算機取證工具及方式等知識
    發(fā)表于 05-07 15:11 ?4683次閱讀

    什么是量子計算機?量子計算機的誕生,人類是否有望模擬出來?

    中國制造出了世界上第一臺量子計算機,通過大量的量子計算,能夠大規(guī)模地模擬復雜的物質系統(tǒng),其中可能包括完整的生物體,甚至人類。這些說法聽起來似乎很瘋狂,但是誰又能證明,我們不是模擬出來
    發(fā)表于 05-19 17:41 ?2510次閱讀

    感知計算機,靈感來自人類大腦的全新計算機架構

    和編程模型收集的算法庫可以模仿人類大腦的神經網絡執(zhí)行的所有基本功能,它旨在形成未來類人腦計算機的各種感知功能。 我們所做的是創(chuàng)建一種全新的計算機架構(包括硅片和軟件),靈感來自
    發(fā)表于 09-14 16:58 ?2次下載
    感知<b class='flag-5'>計算機</b>,靈感來自<b class='flag-5'>人類</b>大腦的全新<b class='flag-5'>計算機</b>架構

    人工智能的興起與思考和印度十大人工智能公司的初創(chuàng)現狀

    和工業(yè)部門部署。 人工智能包括建造可以人類一樣自主做出聰明決定的計算機。機器學習和其它各子領域,如深度學習,是實現人工智能的方式。傳統(tǒng)的編程是告訴
    發(fā)表于 09-22 15:06 ?0次下載

    量子計算機將如何改變大數據能力?

    我們正處于傳統(tǒng)計算機數據處理能力的極限,而數據卻依然在不斷增長。正因為如此,業(yè)界領導者們展開了激烈競爭,看誰能首先要推出一款比現有計算機更強大的量子計算機,來處理我們每天產生的所有數據,并解決日益復雜的問題。那么量子
    發(fā)表于 02-05 16:06 ?1533次閱讀

    和超級計算機相比,人類的大腦很弱嗎

    縱觀人類的發(fā)展史,電子計算機(也稱電腦)絕對是一個劃時代的產物,憑借著強大、精準的計算能力,電子計算機一舉將人類從繁復、枯燥的工作中解脫出來
    的頭像 發(fā)表于 04-01 16:19 ?2979次閱讀

    未來已來!足以改變世界的量子計算機

    在當前階段,量子計算機認為將會引導新一輪的技術革新,可謂是至關重要。量子計算機目前主要有兩種:光量子計算機和分子量子
    的頭像 發(fā)表于 09-11 14:51 ?3920次閱讀

    量子計算機可以用來破解世界上一些最常見的加密算法?

    現代計算機從根本上改變了日常生活,而且它們每天都在變得更加強大。你現在用來讀這篇文章所使用的智能手機,相比較幾十年前的超級計算機來說,也更加強大了。 但即使是今天最強大的
    的頭像 發(fā)表于 07-06 15:44 ?1530次閱讀