麻省理工學院的三位材料科學家及其同事發(fā)表的論文中,描述其 AI系統(tǒng)可通過科學論文和提取“食譜”合成特定類型的材料。
2017年11月,美國麻省理工學院的三位材料科學家及其同事發(fā)表論文,描述了一種新的人工智能系統(tǒng),可鉆研科學論文并提取“配方”,合成特定類型的材料。
這一工作被看做向為僅理論描述的材料生成配方的系統(tǒng)邁出的第一步?,F(xiàn)在,在《計算材料學》(Computational Materials)期刊發(fā)表的一篇論文中,這三位材料科學家聯(lián)合麻省理工學院電機工程與計算機科學系(EECS)的一位同事將這項工作繼續(xù)往前推進,提出了一種新的人工智能系統(tǒng),可以識別與配方一致的更高水平特征。例如,該新系統(tǒng)能確定材料配方中所用的“前體”化學物與得到產(chǎn)品的晶體結(jié)構(gòu)之間的關(guān)系。后來發(fā)現(xiàn),在文獻中已記錄了相同的關(guān)系。
該系統(tǒng)還依賴于提供了產(chǎn)生原始配方自然機制的統(tǒng)計學方法。在論文中,研究人員利用該機制為已知材料提出了不同的配方,且這些建議配方與真正的配方一致。
與過去10年很多表現(xiàn)頗佳的人工智能系統(tǒng)一樣,麻省理工學院研究人員的這個新系統(tǒng)是所謂的神經(jīng)網(wǎng)絡(luò),通過分析大量的訓練集來學習執(zhí)行計算任務(wù)。傳統(tǒng)而言,利用神經(jīng)網(wǎng)絡(luò)生成材料配方的努力要解決兩大問題,研究人員將其描述為稀疏與稀少。材料的配方可被表示成矢量,通常是一長串數(shù)字。每個數(shù)字代表著配方的一個特征,例如某種化學品的濃度、溶解它的溶劑、或者發(fā)生反應(yīng)的溫度。
由于任何制定的配方都只會用到文獻中描述的各類化學品和溶劑的其中幾種,所以大多數(shù)數(shù)字為零。這就是研究人員所謂的“稀疏”。類似地,要學習改變反應(yīng)參數(shù)——例如化學濃度和溫度——如何會影響最終產(chǎn)品,理想情況下系統(tǒng)會接受大量例子的訓練,在這些例子中參數(shù)發(fā)生了改變。但是,對于有些材料——尤其是較新的材料,文獻可能只含有少量的配方。這就是稀少。“人們認為有了機器學習,我們就需要大量數(shù)據(jù),如果數(shù)據(jù)很稀疏,我們就需要更多的數(shù)據(jù)?!毖芯咳藛T說,“如果我們嘗試專注于很具體的系統(tǒng),我們不得不用到高維數(shù)據(jù),但這種數(shù)據(jù)我們沒有很多,這種情況下,我們還能不能用這些神經(jīng)機器學習技術(shù)呢?”
神經(jīng)網(wǎng)絡(luò)一般按層排布,每一層都包含了數(shù)千個簡單處理單元,即節(jié)點。每個節(jié)點都與上下層的數(shù)個節(jié)點相連。數(shù)據(jù)輸入底層,后者操作數(shù)據(jù)并將其傳送到下一層,然后這層又操作數(shù)據(jù)并將其傳送到下一層,以此類推。在訓練中,節(jié)點之間的連接不斷地調(diào)整,直至最后一層的輸出與某些計算的結(jié)果大體一致。
稀疏的高維數(shù)據(jù)存在的問題是,對于任何指定的訓練示例,底層的大多數(shù)節(jié)點沒有接收數(shù)據(jù)。這會需要一個相當大的訓練集才能保證整個網(wǎng)絡(luò)有足夠的數(shù)據(jù)來學習進行可靠的歸納。
麻省理工學院研究人員的網(wǎng)絡(luò)旨在將輸入矢量精煉成更小的矢量,讓其中所有的數(shù)據(jù)對于每個輸入都有意義。為了實現(xiàn)這個目標,該網(wǎng)絡(luò)有一個節(jié)點很少的中間層,在有些實驗中只有2個節(jié)點。
訓練的目的很簡單,對網(wǎng)絡(luò)進行配置,使得它的輸出與輸入盡可能相近。如果訓練成功,中間層的這些少數(shù)節(jié)點必須能代表輸入矢量中包含的絕大部分信息,但結(jié)構(gòu)更精簡。這種系統(tǒng)稱為“自動編碼器”,它的輸出努力與輸入相匹配。自動編碼補償了稀疏,但是要處理稀少,研究人員不僅用生產(chǎn)具體材料的配方來訓練網(wǎng)絡(luò),還用生產(chǎn)很相似材料的配方進行訓練。他們利用了三種相似性,其中一種旨在保留晶體結(jié)構(gòu)的前提下將材料之間的不同之處降至最低,例如用一個原子替代另一個原子。在訓練中,網(wǎng)絡(luò)提供示例配方的權(quán)重根據(jù)其的相似性分數(shù)而有所不同。
事實上,研究人員的網(wǎng)絡(luò)不僅僅是自動編碼器,而是“變分自動編碼器”。這意味著,在訓練中對該網(wǎng)絡(luò)的評價不僅僅取決于其輸出與輸入的匹配性有多高,還取決于中間層得到的值與統(tǒng)計學模型的一致性有多高,例如我們熟悉的鐘形曲線或正態(tài)分布。換言之,在整個訓練集中,中間層得到的值應(yīng)該圍繞著中間值聚集,然后按照有規(guī)律的速率向四周逐漸減少。研究人員利用二氧化錳及相關(guān)化合物配方的兩節(jié)點中間層訓練變分自動編碼器后,構(gòu)建了二維地圖描述兩個中間節(jié)點為訓練集的每個范例所取值。
明顯的是,使用相同前體化學品的訓練范例都集中在地圖的相同區(qū)域,各區(qū)域之間有清晰的界限。對于生成了二氧化錳四種常見的“多晶型”或晶體結(jié)構(gòu)的訓練范例,也得到了相同的結(jié)果。將兩個地圖結(jié)合起來,顯示出具體前體與具體晶體結(jié)構(gòu)之間的關(guān)系。“區(qū)域是連續(xù)的,我們認為這很棒?!毖芯咳藛T說,“因為沒有原因表明這應(yīng)該是這樣。”
變分自動編碼也是讓研究人員的系統(tǒng)能產(chǎn)生新配方的原因。因為中間層所采用的值堅持了一種概率分布,隨機從這種分布中取一個值都可能得到一種可行的配方?!斑@實際上涉及到機器學習領(lǐng)域目前熱門的多種話題?!毖芯咳藛T表示,“以結(jié)構(gòu)化的事物進行學習,讓專家進行解釋并交流,產(chǎn)生結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)——我們把上述都結(jié)合了起來?!?/p>
“‘可合成性’是材料科學中重要概念,但缺乏好的基于物理的描述?!睂⒋髷?shù)據(jù)和人工智能技術(shù)用于材料科學研究的美國公司Citrine Informatics創(chuàng)始人暨首席科學家指出,“因此,預(yù)期材料合成方面的難以理解多年來一直阻礙了新材料的計算平臺發(fā)展。研究人員在這項研究中采用了數(shù)據(jù)驅(qū)動的新穎方法來描繪材料合成,為使我們在計算方面確定有令人激動的特性且能在實驗室中實際合成的材料作出了重要貢獻?!?/p>
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103550 -
AI
+關(guān)注
關(guān)注
88文章
35093瀏覽量
279476 -
人工智能
+關(guān)注
關(guān)注
1806文章
49007瀏覽量
249275
原文標題:AI系統(tǒng)能幫助合成新材料
文章出處:【微信號:AI_News,微信公眾號:人工智能快報】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
PanDao應(yīng)用:輸入工件材料
人工合成石墨片與天然石墨片的差別
PanDao:確定工件材料成本
石英光纖是合成材料嗎
AWG電纜的常見材料類型
超導材料的制造工藝 超導材料的分類與比較
雙束FIB-SEM系統(tǒng)在材料科學中的應(yīng)用

評論