作者:Conor Griffin | Don Wallace |Juan Mateos-Garcia lHanna Schieve | Pushmeet Kohli,
翻譯:劉力 算力魔方創(chuàng)始人
編者按:文并不是逐字逐句翻譯,而是以更有利于中文讀者理解的目標(biāo),做了刪減、重構(gòu)和意譯,并替換了多張不適合中文讀者的示意圖。
原文鏈接:https://deepmind.google/public-policy/ai-for-science/
全球?qū)嶒?yàn)室正悄然興起一場(chǎng)革命,科學(xué)家對(duì)AI的使用正迅猛增長(zhǎng)。超過三分之一的博士后已利用大語言模型輔助整理文獻(xiàn)、撰寫綜述、編寫代碼等等。2024年10 月,AlphaFold 2的創(chuàng)建者 Demis Hassabis 和 John Jumper因使用人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)而獲得諾貝爾化學(xué)獎(jiǎng),讓整個(gè)科學(xué)界迅速感受到用AI加速科學(xué)發(fā)現(xiàn)的益處。
科學(xué)家們致力于探究、預(yù)測(cè)并影響自然界與社會(huì)的運(yùn)行規(guī)律,旨在激發(fā)并滿足人們的好奇心,同時(shí)解決社會(huì)面臨的重大問題??茖W(xué)家對(duì)人工智能(AI)日益增長(zhǎng)的運(yùn)用,可能預(yù)示著更為深遠(yuǎn)的變革——即科學(xué)能力邊界的一次非連續(xù)性飛躍。下面是五個(gè)我們認(rèn)為迫切需使用AI的科學(xué)領(lǐng)域,這些機(jī)遇跨越不同學(xué)科,涵蓋從提出有力新假設(shè)到向世界分享研究成果的各個(gè)環(huán)節(jié)。
一,知識(shí):改變科學(xué)家消化和交流知識(shí)的方式
為了做出新的發(fā)現(xiàn),科學(xué)家需要掌握一個(gè)不斷呈指數(shù)增長(zhǎng)且越來越專業(yè)化的現(xiàn)有知識(shí)體系。這種“知識(shí)負(fù)擔(dān)”解釋了為什么取得突破性發(fā)現(xiàn)的科學(xué)家年齡越來越大、跨學(xué)科合作增多,并且更多地集中在頂尖大學(xué)中。這也說明了為何單人或小團(tuán)隊(duì)撰寫的論文比例在下降——盡管小團(tuán)隊(duì)往往更擅長(zhǎng)推進(jìn)顛覆性的科學(xué)理念。在分享研究成果方面,雖然出現(xiàn)了諸如預(yù)印本服務(wù)器和代碼庫等有益創(chuàng)新,但大多數(shù)科學(xué)家仍然通過內(nèi)容密集、術(shù)語繁重且僅限英文的論文來交流他們的發(fā)現(xiàn)。這種方式可能會(huì)阻礙而非激發(fā)政策制定者、企業(yè)和公眾對(duì)科學(xué)研究的興趣。科學(xué)家們已經(jīng)開始使用大語言模型(LLM)及其基礎(chǔ)上開發(fā)的早期科學(xué)助手來應(yīng)對(duì)這些挑戰(zhàn),例如通過綜合文獻(xiàn)中最相關(guān)的見解。在一次早期演示中,我們的科學(xué)團(tuán)隊(duì)利用Gemini,在一天內(nèi)從20萬篇相關(guān)論文中找到了特定數(shù)據(jù)并進(jìn)行了提取與填充。未來的技術(shù)進(jìn)步,如針對(duì)更多科學(xué)數(shù)據(jù)微調(diào)LLM以及長(zhǎng)上下文窗口和引用使用的改進(jìn),將穩(wěn)步提升這些能力。正如我們?cè)谙挛闹兴懻摰?,這些機(jī)遇并非沒有風(fēng)險(xiǎn)。但它們?yōu)閺母旧现匦滤伎寄承┛茖W(xué)任務(wù)提供了契機(jī),比如在一個(gè)科學(xué)家可以利用LLM幫助批判、調(diào)整其對(duì)于不同受眾的意義或?qū)⒅D(zhuǎn)化為“交互式論文”或音頻指南的世界里,“閱讀”或“撰寫”一篇科學(xué)論文意味著什么。
二,數(shù)據(jù):挖掘、提取與標(biāo)注大規(guī)??茖W(xué)數(shù)據(jù)集
盡管人們常談?wù)摂?shù)據(jù)豐富的時(shí)代,但在自然與社會(huì)世界的諸多領(lǐng)域,從土壤、深海、大氣到非正規(guī)經(jīng)濟(jì),科學(xué)數(shù)據(jù)依然長(zhǎng)期匱乏。人工智能(AI)能以多種方式助力解決這一問題。
首先,AI能提升現(xiàn)有數(shù)據(jù)收集的準(zhǔn)確性。例如,在DNA測(cè)序、樣本中細(xì)胞類型的檢測(cè)或動(dòng)物聲音的捕捉過程中,AI能夠減少可能出現(xiàn)的噪聲和錯(cuò)誤。同時(shí),科學(xué)家們還能利用大型語言模型(LLMs)日益增強(qiáng)的跨圖像、視頻和音頻處理能力,從科學(xué)出版物、檔案以及教學(xué)視頻等不那么顯而易見的資源中,挖掘出隱藏的非結(jié)構(gòu)化科學(xué)數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)集。此外,AI還能為科學(xué)數(shù)據(jù)標(biāo)注所需的輔助信息,以便科學(xué)家更好地利用這些數(shù)據(jù)。舉例來說,至少有三分之一的微生物蛋白質(zhì)缺乏關(guān)于其預(yù)期功能的可靠標(biāo)注。2022年,我們的研究人員利用AI預(yù)測(cè)蛋白質(zhì)功能,為UniProt、Pfam和InterPro等數(shù)據(jù)庫增添了新條目。一旦經(jīng)過驗(yàn)證,AI模型還能成為合成科學(xué)數(shù)據(jù)的新來源。例如,我們的AlphaProteo蛋白質(zhì)設(shè)計(jì)模型就是基于AlphaFold 2生成的超過1億個(gè)AI蛋白質(zhì)結(jié)構(gòu),以及來自蛋白質(zhì)數(shù)據(jù)庫的實(shí)驗(yàn)結(jié)構(gòu)進(jìn)行訓(xùn)練的。這些AI技術(shù)的應(yīng)用能夠與其他急需的科學(xué)數(shù)據(jù)生成工作相輔相成,共同提高效益。例如,通過檔案數(shù)字化,或資助新的數(shù)據(jù)捕獲技術(shù)與方法(如當(dāng)前正在進(jìn)行的單細(xì)胞基因組學(xué)研究,旨在以前所未有的詳細(xì)程度創(chuàng)建單個(gè)細(xì)胞的強(qiáng)大數(shù)據(jù)集),我們可以進(jìn)一步豐富科學(xué)數(shù)據(jù)的寶庫。
三,實(shí)驗(yàn):模擬、加速并指導(dǎo)復(fù)雜實(shí)驗(yàn)
許多科學(xué)實(shí)驗(yàn)耗資巨大、復(fù)雜且進(jìn)展緩慢。有些實(shí)驗(yàn)甚至因研究者無法獲取所需的設(shè)施、參與者或投入而根本無法進(jìn)行。核聚變就是一個(gè)典型的例子。它有望成為一種幾乎無限、零排放的能源,并能推動(dòng)海水淡化等高能耗創(chuàng)新技術(shù)的規(guī)?;瘧?yīng)用。為實(shí)現(xiàn)核聚變,科學(xué)家需要?jiǎng)?chuàng)造并控制等離子體——物質(zhì)的第四種基本狀態(tài)。然而,建設(shè)所需設(shè)施極為復(fù)雜。國(guó)際熱核聚變實(shí)驗(yàn)堆(ITER)的原型托卡馬克反應(yīng)堆于2013年開始建設(shè),但最早也要到2030年代中期才能開始進(jìn)行等離子體實(shí)驗(yàn),盡管其他團(tuán)隊(duì)希望在更短的時(shí)間內(nèi)建造出更小的反應(yīng)堆。人工智能(AI)有助于模擬核聚變實(shí)驗(yàn),并顯著提高后續(xù)實(shí)驗(yàn)時(shí)間的利用效率。一種方法是在物理系統(tǒng)的模擬上運(yùn)行強(qiáng)化學(xué)習(xí)算法。2019年至2021年間,我們的研究人員與瑞士洛桑聯(lián)邦理工學(xué)院合作,展示了如何使用強(qiáng)化學(xué)習(xí)(RL)來控制托卡馬克反應(yīng)堆模擬中的等離子體形狀。這些方法可以擴(kuò)展到其他實(shí)驗(yàn)設(shè)施,如粒子加速器、望遠(yuǎn)鏡陣列或引力波探測(cè)器。雖然不同學(xué)科使用AI模擬實(shí)驗(yàn)的方式各不相同,但共同之處在于,模擬通常是為了指導(dǎo)和啟發(fā)物理實(shí)驗(yàn),而非取代它們。例如,每個(gè)人的DNA中平均有9000多個(gè)錯(cuò)義變異,即單個(gè)字母的替換。這些遺傳變異大多無害,但有些會(huì)破壞蛋白質(zhì)的功能,從而導(dǎo)致囊性纖維化等罕見遺傳病以及癌癥等常見病。測(cè)試這些變異影響的物理實(shí)驗(yàn)通常僅限于單一蛋白質(zhì)。而我們的AlphaMissense模型能夠?qū)?100萬個(gè)潛在的人類錯(cuò)義變異中的89%進(jìn)行分類,判斷其可能有害還是無害,從而使科學(xué)家能夠?qū)⑽锢韺?shí)驗(yàn)的重點(diǎn)放在最有可能導(dǎo)致疾病的變異上。
四,模型:模擬復(fù)雜系統(tǒng)及其組件間的相互作用
在1960年的一篇論文中,諾貝爾物理學(xué)獎(jiǎng)得主尤金·維格納對(duì)數(shù)學(xué)模型在模擬行星運(yùn)動(dòng)等重要自然現(xiàn)象時(shí)所展現(xiàn)出的“不可思議的有效性”贊嘆不已。然而,在過去的半個(gè)世紀(jì)里,那些依賴于方程組或其他確定性假設(shè)的模型在捕捉生物學(xué)、經(jīng)濟(jì)學(xué)、天氣等領(lǐng)域系統(tǒng)的全部復(fù)雜性時(shí)卻顯得力不從心。這反映了構(gòu)成這些系統(tǒng)的交互部分?jǐn)?shù)量龐大,以及它們所具備的動(dòng)態(tài)性和出現(xiàn)新興、隨機(jī)或混沌行為的潛力。對(duì)這些系統(tǒng)進(jìn)行建模的挑戰(zhàn)阻礙了科學(xué)家預(yù)測(cè)或控制它們行為的能力,尤其是在面對(duì)溫度升高、新藥問世或稅收政策調(diào)整等沖擊或干預(yù)時(shí)。人工智能(AI)能夠通過吸收更多關(guān)于這些系統(tǒng)的數(shù)據(jù),并學(xué)習(xí)數(shù)據(jù)中更強(qiáng)大的模式和規(guī)律,從而更準(zhǔn)確地構(gòu)建這些復(fù)雜系統(tǒng)的模型。例如,現(xiàn)代天氣預(yù)報(bào)就是科學(xué)與工程的杰出成果。對(duì)于政府和工業(yè)界而言,它為從可再生能源規(guī)劃到颶風(fēng)和洪水防范等各項(xiàng)工作提供了重要信息。對(duì)于公眾而言,天氣是Google搜索中最受歡迎的非品牌查詢。傳統(tǒng)的數(shù)值預(yù)測(cè)方法基于精心定義的物理方程,這些方程為大氣復(fù)雜動(dòng)態(tài)提供了非常有用但并非完美的近似。同時(shí),這些方法的計(jì)算成本也很高昂。2023年,我們發(fā)布了一個(gè)深度學(xué)習(xí)系統(tǒng),能夠提前10天預(yù)測(cè)天氣狀況,在準(zhǔn)確性和預(yù)測(cè)速度方面均優(yōu)于傳統(tǒng)模型。如下文所述,利用AI預(yù)測(cè)天氣變量還有助于緩解和應(yīng)對(duì)氣候變化。例如,當(dāng)飛機(jī)飛過潮濕區(qū)域時(shí),可能會(huì)形成凝結(jié)尾跡,從而加劇航空業(yè)對(duì)全球變暖的影響。Google科學(xué)家最近利用AI預(yù)測(cè)潮濕區(qū)域可能出現(xiàn)的時(shí)間和地點(diǎn),以幫助飛行員避免飛越這些區(qū)域。在許多情況下,AI將豐富而非取代傳統(tǒng)的復(fù)雜系統(tǒng)建模方法。例如,基于主體的建模通過模擬個(gè)體(如企業(yè)和消費(fèi)者)之間的交互,來理解這些交互如何影響更大、更復(fù)雜的系統(tǒng)(如經(jīng)濟(jì))。傳統(tǒng)方法要求科學(xué)家事先指定這些計(jì)算主體應(yīng)如何行為。我們的研究團(tuán)隊(duì)最近概述了科學(xué)家如何利用大語言模型(LLMs)創(chuàng)建更靈活的生成式主體,這些主體能夠進(jìn)行交流并采取行動(dòng)(如搜索信息或進(jìn)行購買),同時(shí)還能對(duì)這些行動(dòng)進(jìn)行推理和記憶??茖W(xué)家還可以利用強(qiáng)化學(xué)習(xí)來研究這些主體在更動(dòng)態(tài)的模擬中如何學(xué)習(xí)和適應(yīng)其行為,例如在新能源價(jià)格出臺(tái)或疫情應(yīng)對(duì)政策實(shí)施時(shí)的反應(yīng)。
五,解決方案:在廣闊的搜索空間中識(shí)別問題的新穎解決方案
眾多重要的科學(xué)問題都伴隨著數(shù)量龐大到幾乎無法理解的潛在解決方案。例如,生物學(xué)家和化學(xué)家的目標(biāo)在于確定諸如蛋白質(zhì)等分子的結(jié)構(gòu)、特性及功能。這類工作的一個(gè)目標(biāo)就是設(shè)計(jì)出這些分子的新型版本,以用作抗體藥物、塑料降解酶或新材料。然而,在設(shè)計(jì)一種小分子藥物時(shí),科學(xué)家們面臨著超過10400種選擇。這種龐大的解空間并不僅限于分子領(lǐng)域,而是許多科學(xué)問題的常態(tài),比如尋找數(shù)學(xué)問題的最佳證明、計(jì)算機(jī)科學(xué)任務(wù)的最有效算法,或是計(jì)算機(jī)芯片的最佳架構(gòu)。傳統(tǒng)上,科學(xué)家們依靠直覺、試錯(cuò)法、迭代或暴力計(jì)算等方法的組合來尋找最佳的分子、證明或算法。但這些方法在探索龐大的潛在解空間時(shí)顯得力不從心,導(dǎo)致許多更優(yōu)解未被發(fā)掘。人工智能(AI)能夠開辟這些解空間的新領(lǐng)域,同時(shí)更迅速地鎖定那些最有可能可行且有用的解決方案——這是一項(xiàng)需要精妙平衡的任務(wù)。例如,在7月,我們的AlphaProof和AlphaGeometry 2系統(tǒng)在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(一項(xiàng)精英高中生競(jìng)賽)中正確解決了六道題目中的四道。這些系統(tǒng)利用我們的Gemini大語言模型架構(gòu),為給定的數(shù)學(xué)問題生成大量新穎的想法和潛在解決方案,并結(jié)合基于數(shù)學(xué)邏輯的系統(tǒng),迭代地逼近最有可能正確的候選解。
六,人工智能科學(xué)家還是人工智能賦能的科學(xué)家?
隨著人工智能在科學(xué)領(lǐng)域的日益廣泛應(yīng)用,以及早期人工智能科學(xué)助理的出現(xiàn),人們開始質(zhì)疑人工智能的能力究竟能多快、多遠(yuǎn)地發(fā)展,以及這對(duì)人類科學(xué)家意味著什么。當(dāng)前基于大語言模型(LLM)的人工智能科學(xué)助理在相對(duì)狹窄的任務(wù)范圍內(nèi),如支持文獻(xiàn)綜述方面,僅做出了相對(duì)較小的貢獻(xiàn)。有合理的短期預(yù)測(cè)認(rèn)為,它們將在這些任務(wù)上表現(xiàn)得更加出色,并有能力承擔(dān)更具影響力的任務(wù),如幫助生成有力的假設(shè),或幫助預(yù)測(cè)實(shí)驗(yàn)結(jié)果。
然而,當(dāng)前的系統(tǒng)在人類科學(xué)家所依賴的更深層次創(chuàng)造力和推理能力方面仍顯不足。為提升這些人工智能能力,人們正在付出努力,例如通過在我們的AlphaProof和AlphaGeometry 2實(shí)例中,將大型語言模型與邏輯推理引擎相結(jié)合,但還需取得更多突破。對(duì)于那些需要在濕實(shí)驗(yàn)室進(jìn)行復(fù)雜操作、與人類參與者互動(dòng)或涉及冗長(zhǎng)過程(如監(jiān)測(cè)疾病進(jìn)展)的實(shí)驗(yàn),實(shí)現(xiàn)加速或自動(dòng)化將更為困難。盡管如此,這些領(lǐng)域的研究也在進(jìn)行中,例如新型實(shí)驗(yàn)室機(jī)器人和自動(dòng)化實(shí)驗(yàn)室的研發(fā)。即使人工智能系統(tǒng)的能力得到提升,最大的邊際效益仍將來自于將其部署在能夠發(fā)揮其相對(duì)優(yōu)勢(shì)的用例中——如從海量數(shù)據(jù)集中快速提取信息的能力——以及幫助解決科學(xué)進(jìn)步中的真正瓶頸,如上文概述的五個(gè)機(jī)遇,而非自動(dòng)化人類科學(xué)家已經(jīng)做得很好的任務(wù)。隨著人工智能使科學(xué)變得更經(jīng)濟(jì)、更強(qiáng)大,對(duì)科學(xué)和科學(xué)家的需求也將增長(zhǎng)。例如,近期的突破已經(jīng)催生了蛋白質(zhì)設(shè)計(jì)、材料科學(xué)和天氣預(yù)報(bào)等領(lǐng)域的一系列新興創(chuàng)業(yè)公司。與其他領(lǐng)域不同,盡管過去有人持相反觀點(diǎn),但未來對(duì)科學(xué)的需求似乎幾乎沒有上限。新的進(jìn)步總是在科學(xué)知識(shí)的地圖上開辟出新的、不可預(yù)測(cè)的領(lǐng)域,人工智能也將如此。正如赫伯特·西蒙所設(shè)想的那樣,人工智能系統(tǒng)也將成為科學(xué)研究的對(duì)象,科學(xué)家將在評(píng)估和解釋其科學(xué)能力,以及開發(fā)新型人機(jī)結(jié)合的科學(xué)系統(tǒng)中發(fā)揮主導(dǎo)作用。
如果你有更好的文章,歡迎投稿!
稿件接收郵箱:nami.liu@pasuntech.com
更多精彩內(nèi)容請(qǐng)點(diǎn)擊下方名片,關(guān)注“算力魔方?”公眾號(hào)!
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
88文章
35136瀏覽量
279774 -
人工智能
+關(guān)注
關(guān)注
1806文章
49014瀏覽量
249435
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論