概述
由 DeepMind 在 2021 年發(fā)布的 AlphaFold2,憑借自身在蛋白質(zhì)結(jié)構(gòu)預(yù)測上的高可信度,以及遠(yuǎn)優(yōu)于傳統(tǒng)實驗方法的效率和成本表現(xiàn),樹起了一座“AI for Science”的全新里程碑。它不僅在生命科學(xué)領(lǐng)域掀起了顛覆式的革新,也成為了 AI 在生物學(xué)、醫(yī)學(xué)和藥學(xué)等領(lǐng)域落地的核心發(fā)力點。
隨著各類 AlphaFold2 項目在產(chǎn)、學(xué)、研各細(xì)分領(lǐng)域中的啟動與落地,其技術(shù)管線對于推理的高通量和高性能的需求也是與日劇增。一直活躍在“AI for Science”創(chuàng)新前沿的英特爾結(jié)合自身優(yōu)勢,以內(nèi)置 AI 加速能力的產(chǎn)品技術(shù),特別是至強(qiáng) 可擴(kuò)展平臺為硬件基座,對 AlphaFold2 實施了端到端的高通量優(yōu)化,并在實踐中實現(xiàn)了比專用 AI 加速芯片更為出色的表現(xiàn)—累計通量提升可達(dá)優(yōu)化前的 23.11 倍1。
如此顯著的優(yōu)化成效,基于英特爾 架構(gòu)的軟硬件協(xié)作功不可沒:
●硬件支撐:英特爾 至強(qiáng) 可擴(kuò)展平臺的核心產(chǎn)品和技術(shù)特性,例如第三代英特爾 至強(qiáng) 可擴(kuò)展處理器在算力輸出上的出色表現(xiàn),及其內(nèi)置的 AI 加速技術(shù),如英特爾 高級矢量擴(kuò)展 512(英特爾 AVX-512)等技術(shù)帶來的并行計算優(yōu)化,還有英特爾 傲騰 持久內(nèi)存對“內(nèi)存墻”障礙的突破,及這一突破對長序列高通量的并行推理優(yōu)化的強(qiáng)力支持;
●軟件加成:軟件是充分利用或釋放硬件加速潛能的“鑰匙”,例如在模型推理階段,序列長度為 n 的情況下,推理時間復(fù)雜度為 O (n2),此時原始 AlphaFold2 在 CPU 上的推理時長是難以接受的。英特爾為此采取了一系列軟件調(diào)優(yōu)舉措,包括對注意力模塊(attention unit)開展大張量切分(tensor slicing),以及使用英特爾 oneAPI 工具套件實施算子融合等優(yōu)化方法,解決了 AlphaFold2 在 CPU 平臺上面臨的計算效率低和處理器利用率不足等難題,同時也緩解了調(diào)優(yōu)方案執(zhí)行各環(huán)節(jié)中面臨的內(nèi)存瓶頸等問題。
圖一 基于英特爾 至強(qiáng) 可擴(kuò)展平臺的
AlphaFold2推理優(yōu)化路線圖及其實現(xiàn)的性能提升2
本文的核心任務(wù),就是要介紹上述基于英特爾 架構(gòu)、致力于在 CPU 平臺上加速 AI 應(yīng)用的軟硬件產(chǎn)品技術(shù)組合在 AlphaFold2 端到端優(yōu)化中扮演的關(guān)鍵角色,并詳細(xì)分享對它們進(jìn)行配置、調(diào)優(yōu)以求持續(xù)提升 AlphaFold2 應(yīng)用性能表現(xiàn)的核心經(jīng)驗和技巧,從而為所有計劃開展或正在推進(jìn)類似探索、實踐的合作伙伴及最終用戶們提供一些關(guān)鍵的參考和建議,讓整個產(chǎn)業(yè)界能夠進(jìn)一步加速相關(guān)應(yīng)用的落地并盡可能提升其收益。
蛋白質(zhì)結(jié)構(gòu)解析任務(wù)繁重,
AlphaFold2 生逢其時
如生物學(xué)中心法則(Central Dogma)所揭示的,脫氧核糖核酸(DNA)、核糖核酸(RNA)和蛋白質(zhì)(包括多肽、氨基酸)之間“轉(zhuǎn)錄-翻譯”的關(guān)系,清晰呈現(xiàn)了有機(jī)體內(nèi)的信息傳遞路徑,也讓人們認(rèn)識到:對蛋白質(zhì)三維結(jié)構(gòu)開展有效解析與預(yù)測,就能對有機(jī)體的構(gòu)成,及其運(yùn)行和變化的規(guī)律實施更深層次的詮釋和探究,進(jìn)而可為生物學(xué)、醫(yī)學(xué)、藥學(xué)乃至農(nóng)業(yè)、畜牧業(yè)等行業(yè)和領(lǐng)域的未來研究與發(fā)展提供高質(zhì)量的生物學(xué)假設(shè)。
圖二 生物學(xué)中心法則
雖然許多基于傳統(tǒng)實驗方法的蛋白質(zhì)結(jié)構(gòu)解析工具,包括 X-射線晶體衍射、冷凍電鏡、核磁共振等已獲普遍運(yùn)用,但通過傳統(tǒng)實驗方法進(jìn)行結(jié)構(gòu)解析的速度,遠(yuǎn)趕不上氨基酸序列的增加速度,這就造成海量待測樣品/序列可能會在實驗室中等待數(shù)月乃至數(shù)年才能得到解析。以UniProtKB/Swiss-Prot 數(shù)據(jù)庫搜集和整理的數(shù)據(jù)為例,單從實驗獲得的已知蛋白序列就已高達(dá) 57 萬條之多4。
AI 技術(shù)的高速發(fā)展,則為破解上述效率問題提供了新的思路--人們開始將深度學(xué)習(xí)等方法運(yùn)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測,其中由 DeepMind 在 2020 年 CASP 145上提出的 AlphaFold2 方案尤其令人矚目,它以驚人的 92.4 分(GDT_TS 分?jǐn)?shù))的表現(xiàn)實現(xiàn)了原子級別的預(yù)測精度,被認(rèn)為“已可替代傳統(tǒng)實驗方法”6。
AlphaFold2 端到端預(yù)測:
三個階段協(xié)作增效
與以往多是間接預(yù)測蛋白質(zhì)結(jié)構(gòu)的 AI 方法不同,AlphaFold2 提供了完整的端到端蛋白質(zhì)三維結(jié)構(gòu)預(yù)測流程。如圖三所示,其工作流程大致可分為預(yù)處理(Preprocessing)、深度學(xué)習(xí)模型推理(DL Model Inference)以及后處理(Postprocessing)三個階段,各階段執(zhí)行的功能如下:
圖三 AlphaFold2 基本架構(gòu)
●預(yù)處理:由于初始輸入的氨基酸序列所含信息往往較少,因此 AlphaFold2 在預(yù)處理階段會先利用已知信息(包括蛋白質(zhì)序列、結(jié)構(gòu)模板)來提升預(yù)測精度。包括借助一些蛋白質(zhì)搜索工具在特定序列數(shù)據(jù)庫中使用多序列比對(MSA)方法,以及在特定結(jié)構(gòu)數(shù)據(jù)庫中進(jìn)行模板搜索,從而獲得不同蛋白質(zhì)之間的共有進(jìn)化信息;
●深度學(xué)習(xí)模型推理:在該階段中,AlphaFold2 首先會借助嵌入(Embedding)過程,將來自預(yù)處理階段的模板 MSA 信息、MSA 和目標(biāo)構(gòu)成 MSA 表征(MSA representation)的三維張量,同時也將模板鄰接信息和額外的 MSA 構(gòu)成鄰接表征(pair representation)的三維張量,隨后兩種表征信息會通過一個由 48 個塊(Block)組成的 Evoformer 網(wǎng)絡(luò)進(jìn)行表征融合。在這一進(jìn)程中,模型將通過一種 Self-Attention 機(jī)制來學(xué)習(xí)蛋白質(zhì)的三角幾何約束信息,并讓兩種表征信息相互影響來使模型推理出相應(yīng)的三維結(jié)構(gòu),且循環(huán)三次;
●后處理:這一階段,AlphaFold2 將使用 Amber 力場分析方法對獲得的三維結(jié)構(gòu)參數(shù)優(yōu)化,并輸出最終的蛋白質(zhì)三維結(jié)構(gòu)。
AlphaFold2 在預(yù)測精度上取得的優(yōu)勢,源于四點全新的設(shè)計思路:
●在預(yù)處理階段通過 MSA 方法等,將模板蛋白質(zhì)結(jié)構(gòu)和序列保守性信息融入預(yù)測特征;
● 在特征嵌入階段,將保守性最高的 MSA 特征單獨取出,壓縮其余的 Extra MSA,并與模板特征交互;
●在模型推理階段,采用獨特的雙軌注意力模塊和深層 Transformer 架構(gòu),并引入循環(huán)回收機(jī)制;
●在結(jié)構(gòu)網(wǎng)絡(luò)層引入不變點注意力(Invariant Point Attention)機(jī)制。但這也意味著 AlphaFold2 從執(zhí)行之初,直至整個推理過程都需要面對高通量的計算壓力。
五大步驟:至強(qiáng) 可擴(kuò)展平臺
助 AlphaFold2 實現(xiàn)端到端優(yōu)化
隨著越來越多的科研機(jī)構(gòu)、實驗室和企業(yè)開始借助 AlphaFold2 進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測,各行業(yè)和領(lǐng)域內(nèi)的使用者也開始遇到越來越多、也漸趨嚴(yán)峻的挑戰(zhàn)。例如結(jié)構(gòu)預(yù)測各環(huán)節(jié)面臨著龐大的計算量,使用者需要更加充分地挖掘硬件的計算潛力來提升執(zhí)行效率;為縮短結(jié)構(gòu)預(yù)測時間,他們還需要利用更多計算節(jié)點來構(gòu)建效率更高的并行計算方案等。
基于第三代英特爾至強(qiáng)可擴(kuò)展平臺提供的內(nèi)置 AI 加速能力,對于運(yùn)算和存儲性能的均衡設(shè)計,以及對硬件和軟件協(xié)同優(yōu)化能力的兼顧,英特爾著手對 AlphaFold2 進(jìn)行了端到端的全面優(yōu)化,以幫助生物學(xué)等領(lǐng)域的使用者們應(yīng)對以上挑戰(zhàn)。針對 AlphaFold2 的設(shè)計特點,該優(yōu)化方案主要聚焦在預(yù)處理和模型推理兩個層面,并可基本劃分為以下五個步驟。
第一步:預(yù)處理階段-高通量優(yōu)化
預(yù)處理階段的高通量計算需求,使方案在執(zhí)行時面臨非常明顯的并行計算壓力。借助第三代英特爾 至強(qiáng) 可擴(kuò)展處理器的多核優(yōu)勢及其內(nèi)置的英特爾 AVX-512 技術(shù),方案能夠?qū)崿F(xiàn)針對預(yù)處理階段的高通量優(yōu)化。
如前文所述,AlphaFold2 會在預(yù)處理階段對特定序列數(shù)據(jù)庫和結(jié)構(gòu)數(shù)據(jù)庫中的已知序列/模板信息進(jìn)行搜索,包括使用 jackhammer 等蛋白質(zhì)搜索工具來執(zhí)行 MSA 方法,即從數(shù)據(jù)庫中抽取和輸入與氨基酸序列相近的序列并進(jìn)行對齊的過程,其目的是找出同源的序列/模板組成表征信息來為后續(xù)推理過程提供輸入,由此提高預(yù)測精度。
這一過程中,計算平臺需要執(zhí)行大量的向量/矩陣運(yùn)算。以模板搜索為例,其本質(zhì)為計算兩個隱馬爾可夫模型(Hidden Markov Model,HMM)間的距離。當(dāng)輸入的氨基酸序列很長(例如執(zhí)行中輸入長度達(dá)數(shù)百的氨基酸序列)且需并行執(zhí)行大量實例時,如果無法讓處理器的算力“火力全開”去提升平臺的并行計算效率,那么整個預(yù)處理過程的效率就會變得乏善可陳。
在實踐中,第三代英特爾 至強(qiáng) 可擴(kuò)展處理器一方面能憑借出色的微架構(gòu)設(shè)計,尤其是多核心、多線程和大容量高速緩存,來保證 AlphaFold2 獲得充足的總體算力,以滿足整個結(jié)構(gòu)預(yù)測過程所需;另一方面,其內(nèi)置的英特爾 AVX-512 及其支持的 NUMA (Non-Uniform Memory Access,非一致存儲訪問) 架構(gòu)等技術(shù),也為方案提供了更進(jìn)一步的性能調(diào)優(yōu)空間。
針對序列/模板搜索所需的大量向量/矩陣運(yùn)算需求,英特爾 AVX-512 技術(shù),能以顯著的高位寬優(yōu)勢(最大可提供 512 位向量計算能力)來提升計算過程中的向量化并行程度,從而有效提升向量/矩陣運(yùn)算效率。這一步在需要配備上述硬件平臺的同時,在 icc 編譯器中做如下設(shè)置(該設(shè)定支持所有英特爾 至強(qiáng) 可擴(kuò)展處理器,不僅限于代號為 Ice Lake 的第三代英特爾 至強(qiáng) 可擴(kuò)展處理器):
第二步:模型推理階段-將深度學(xué)習(xí)模型
遷移至面向英特爾 架構(gòu)優(yōu)化的 PyTorch
原始版本的 AlphaFold2 是基于 DeepMind 的 JAX 和 haiku-API 做的網(wǎng)絡(luò)實現(xiàn),但目前 JAX 上還沒有面向英特爾 架構(gòu)平臺的優(yōu)化工具。而 PyTorch 擁有良好的動態(tài)圖糾錯方法,與 haiku-API 有著相似的風(fēng)格,并可以采用面向 PyTorch 的英特爾 擴(kuò)展優(yōu)化框架(Intel Extensions for PyTorch,IPEX,可由英特爾 oneAPI AI 工具套件提供)。為實現(xiàn)更好的優(yōu)化效果,方案選擇將深度學(xué)習(xí)模型遷移至面向英特爾 架構(gòu)優(yōu)化的PyTorch,并最終逐模塊地從 JAX/haiku 上完成了代碼遷移。
第三步:模型推理階段-PyTorch JIT
為提高模型的推理速度,便于利用 IPEX 的算子融合等加速手段,優(yōu)化方案中還對遷移后的代碼進(jìn)行了一系列的 API 改造,在不改變網(wǎng)絡(luò)拓?fù)涞那疤嵯拢?PyTorch Just-In-Time (JIT) 圖編譯技術(shù),將網(wǎng)絡(luò)最終轉(zhuǎn)化為靜態(tài)圖。
第四步:模型推理階段-
切分 Attention 模塊和算子融合
AlphaFold2 的嵌入過程是構(gòu)成 MSA 表征張量和鄰接表征張量來作為 Evoformer 網(wǎng)絡(luò)輸入的關(guān)鍵步驟。從其算法設(shè)計可以獲知,其注意力模塊中包含了大量的偏移量(bias)計算。
這種偏移量計算是通過張量間的矩陣運(yùn)算來完成的,因此運(yùn)算過程中會伴隨張量的擴(kuò)張。當(dāng)張量達(dá)到一定規(guī)模后,擴(kuò)張過程對內(nèi)存容量的需求就會變得巨大。以一個“5120 x 1 x 1 x 64”的張量為例,其初始內(nèi)存需求為 1.25MB,但在擴(kuò)張過程中,對內(nèi)存容量的需求卻可達(dá) 930MB。
這就使 AlphaFold2 在嵌入過程中面臨兩個問題:一方面是巨大的內(nèi)存峰值壓力,其需求量會使內(nèi)存資源在短時間耗盡,尤其是內(nèi)存峰值在相互疊加之后,進(jìn)而可能造成推理任務(wù)的失敗;另一方面,大張量運(yùn)算所需的海量內(nèi)存也會帶來不可忽略的內(nèi)存分配過程,從而增加執(zhí)行耗時。
為此,英特爾提出了”對注意力模塊進(jìn)行大張量切分”的優(yōu)化思路,即,將大張量切分為多個較小的張量,來降低擴(kuò)張中的內(nèi)存需求。例如將上述“5120 x 1 x 1 x 64”的張量切分為“320 x 1 x 1 x 64”后,其擴(kuò)張所需的內(nèi)存就由 930MB 降至 59.69MB,僅為未進(jìn)行張量切分時的 6.4% 左右,有效消減了內(nèi)存峰值壓力。相關(guān)代碼示例如下:
英特爾發(fā)現(xiàn),利用 PyTorch 自帶的 Profiler 對 AlphaFold2 的 Evoformer 網(wǎng)絡(luò)進(jìn)行算子跟蹤分析時, Einsum 和 Add 這兩種算子占用了大部分的算力資源。因此,英特爾就考慮使用 IPEX(建議版本為 IPEX-1.10.100 或更高)提供的算子融合能力來實現(xiàn)上述兩種計算過程的融合。
圖四 Evoformer 模塊的熱點算子
傳統(tǒng)的深度學(xué)習(xí)計算過程都是逐一操作:例如 Einsum 計算過程結(jié)束后,函數(shù)返回值需要在 Python 進(jìn)程中建立一個臨時緩存,然后通過調(diào)用 Add 算子,再次進(jìn)入 oneDNN 完成第二個函數(shù)的運(yùn)算,這中間來回折返的過程時間消耗不可忽略。如圖五所示,算子融合帶來的優(yōu)勢就在于,在前一操作結(jié)束后可以馬上執(zhí)行后一操作,節(jié)省了中間建立臨時緩存數(shù)據(jù)結(jié)構(gòu)的時間。同時從時間軸上不難看出,經(jīng)過融合后,兩個連續(xù)的算子合并為一個,用時也顯著縮短。
圖五 算子 Einsum+Add 融合效果圖
第五步:模型推理階段-
破解多實例運(yùn)算過程中的計算和內(nèi)存瓶頸
為了讓推理性能在多實例進(jìn)程中獲得更接近線性的增長表現(xiàn),優(yōu)化方案也借助英特爾 至強(qiáng) 可擴(kuò)展平臺提供的高效且更為均衡的計算和存儲優(yōu)勢實施了有針對性的優(yōu)化。
圖六 英特爾 至強(qiáng) 可擴(kuò)展處理器提供多核并行算力輸出
方案首先是借助基于 NUMA 架構(gòu)的核心綁定技術(shù),來充分挖掘至強(qiáng) 可擴(kuò)展處理器的多核心優(yōu)勢。如圖六所示,這一技術(shù)可對處理器節(jié)點以及訪問本地內(nèi)存進(jìn)程予以精確控制,讓每個推理工作負(fù)載都能穩(wěn)定地在同一組核心上執(zhí)行,并優(yōu)先訪問對應(yīng)的近端內(nèi)存,從而提供更優(yōu)、也更穩(wěn)定的并行算力輸出。在執(zhí)行中可使用以下 numactl 指令:
得益于英特爾 至強(qiáng) 可擴(kuò)展處理器在微架構(gòu)設(shè)計上的優(yōu)勢,物理核與物理核之間的數(shù)據(jù)通信平均延時較短,每個 NUMA 在并行計算中的工作效率也會更高。
同時,在大規(guī)模服務(wù)器集群上開展多實例并行推理計算時,節(jié)點間的數(shù)據(jù)交互量會呈平方增長,導(dǎo)致大量占用通信帶寬并損失計算效率。英特爾 MPI 庫的引入,能針對并行計算的需求進(jìn)行自動調(diào)整,幫助方案實現(xiàn)更優(yōu)的時延、帶寬和可擴(kuò)展性。方案中可以加入以下優(yōu)化指令:
在開展并行多實例計算優(yōu)化之外,英特爾還注意到,內(nèi)存的容量限制,或者說瓶頸是限制 AlphaFold2 發(fā)揮潛能的另一個重要因素。通過對算法架構(gòu)的解析可知,AlphaFold2 中大量的矩陣運(yùn)算過程都需要大容量內(nèi)存予以支撐。其最大輸入序列長度越長,計算中所需的內(nèi)存也就越大。而在并行計算能力得到有效優(yōu)化后,更多計算實例的加入也會進(jìn)一步突顯內(nèi)存瓶頸問題。
受限于產(chǎn)品規(guī)格、主板架構(gòu)和成本,僅使用傳統(tǒng) DRAM(Dynamic Random Access Memory,動態(tài)隨機(jī)存取存儲器)內(nèi)存很難實現(xiàn) TB 級的大容量部署。英特爾傲騰持久內(nèi)存方案則是破解這一難題的有效途徑,基于創(chuàng)新的存儲介質(zhì),這一產(chǎn)品能為方案提供大容量和高性價比的內(nèi)存支撐。
如圖七所描繪的,在面向不同蛋白質(zhì)的結(jié)構(gòu)預(yù)測工作中,序列長度越長,推理計算復(fù)雜度就越大。結(jié)合更多的并行計算,所需的內(nèi)存容量也就越高。如果用“星際探索”來比喻這種趨勢,那么:
●對 3GEH 蛋白的結(jié)構(gòu)預(yù)測就相當(dāng)于探索地球
●而對某病毒相關(guān)的刺突(Spike)蛋白的結(jié)構(gòu)預(yù)測就相當(dāng)于將探索擴(kuò)大到了整個太陽系;
●對諾貝爾生理學(xué)或醫(yī)學(xué)獎發(fā)現(xiàn)的 PIEZO2 蛋白結(jié)構(gòu)進(jìn)行預(yù)測則是進(jìn)一步將探索擴(kuò)展到了銀河系;
●對低密度脂蛋白受體相關(guān)蛋白 2(LRP2) 的結(jié)構(gòu)預(yù)測,就好比是宇宙級的探索。
可見,不同的探索范圍,所需耗費(fèi)的資源(內(nèi)存)也全然不同。在實踐中,進(jìn)行 3GEH 蛋白(長度為 765aa)的結(jié)構(gòu)預(yù)測,內(nèi)存大小在 100GB 就足以。而對 Spike 蛋白和 PIEZO2 蛋白進(jìn)行預(yù)測時,由于序列長度分別達(dá)到了 1200aa 和 2700aa,就需要部署 512GB 范圍的內(nèi)存。而當(dāng)人們對 LRP2 蛋白進(jìn)行結(jié)構(gòu)預(yù)測時,其 4700aa 的序列長度要求的內(nèi)存容量就遠(yuǎn)大于 1.3TB。如果 64 個實例并行執(zhí)行,內(nèi)存容量的需求就會沖到一個令人驚嘆的量級,如果無法滿足這個需求,就會形成阻礙應(yīng)用工作效能發(fā)揮的“內(nèi)存墻”。
圖七 大量長序列結(jié)構(gòu)預(yù)測都會遇到“內(nèi)存墻”問題
以英特爾 傲騰 持久內(nèi)存 200 系列為例,其最高可提供 512GB 的單模組容量,在與雙路平臺的第三代英特爾 至強(qiáng) 可擴(kuò)展處理器搭配后,在提供 3200MT/S 內(nèi)存帶寬的基礎(chǔ)上,理論上可實現(xiàn)每路高達(dá) 4TB 的英特爾 傲騰 持久內(nèi)存容量配置,以及每路高達(dá) 6TB 的內(nèi)存總?cè)萘浚ㄅc DRAM 內(nèi)存組合使用),足以支撐 AlphaFold2 高密度部署方案。值得一提的是,在提供更大容量的同時,英特爾 傲騰 持久內(nèi)存還能輸出接近 DRAM 內(nèi)存的性能表現(xiàn)。
多個優(yōu)化步驟實施后的總體性能表現(xiàn)
基于英特爾至強(qiáng)可擴(kuò)展平臺開展的 AlphaFold2 端到端優(yōu)化,包括一系列并行計算能力優(yōu)化舉措和英特爾傲騰持久內(nèi)存產(chǎn)品的引入,使得整個 AlphaFold2 端到端處理過程的性能獲得了質(zhì)的提升。如圖八所示,通過以上的優(yōu)化流程,每個優(yōu)化步驟獲得的提升累積后,最后相比優(yōu)化前通量提升可達(dá) 23.11 倍7。
圖八 推理過程中多種優(yōu)化措施帶來的累計性能提升8
在探索和驗證上述端到端 AlphaFold2 優(yōu)化方案、步驟和經(jīng)驗的過程中,英特爾扮演的角色并非“獨行俠”,而是與同在尋求相關(guān)解決方案的,專攻醫(yī)藥和生命科學(xué)研究和創(chuàng)新的產(chǎn)、學(xué)、研領(lǐng)域用戶及合作伙伴們積極開展了廣泛及深入的協(xié)作,這些協(xié)作起到了博采眾長的效果,也為方案的普適性帶來了助益。
同樣,在優(yōu)化方案基本定型,并展現(xiàn)了顯著的通量提升效果以及能夠擔(dān)起更長序列蛋白質(zhì)結(jié)構(gòu)預(yù)測重任的能力后,眾多合作伙伴與用戶也第一時間參考和借鑒了方案中的方法、經(jīng)驗與技巧,并結(jié)合自身特定的環(huán)境、應(yīng)用現(xiàn)狀和需求,開展了實戰(zhàn)驗證和更進(jìn)一步的探索。
總結(jié)與展望
得益于 AI 技術(shù)的高速發(fā)展和演進(jìn),它與科學(xué)前沿研究的結(jié)合正在快速地改變世界并造福人們的生活。以 AlphaFold2 為例,雖然其問世時間不長,但已經(jīng)有生物學(xué)家將其應(yīng)用到對抗新型傳染病和其他疾病的研究中,并取得了一定的成果9。
始終走在 AI 應(yīng)用創(chuàng)新與落地一線的英特爾,也在這一過程中借助至強(qiáng)可擴(kuò)展平臺,包括其硬件層面的第三代英特爾至強(qiáng)可擴(kuò)展處理器和英特爾傲騰持久內(nèi)存,以及其軟件層面的英特爾 oneAPI 工具套件等,基于這些軟硬件之間的無縫組合與高效協(xié)作,以及多樣化的 AI 優(yōu)化方法,為 AlphaFold2 提供了端到端的高通量計算優(yōu)化方案。
面向未來,英特爾還將繼續(xù)攜手科學(xué)前沿領(lǐng)域的合作伙伴,推進(jìn)更多英特爾產(chǎn)品、技術(shù)與 AlphaFold2 等新技術(shù)開展交互與融合,在更多層面助力和加速“AI +Science”的技術(shù)創(chuàng)新,讓 AI 應(yīng)用為各類前沿科學(xué)研究和探索帶來更多加速、助力與收獲。
-
英特爾
+關(guān)注
關(guān)注
61文章
10196瀏覽量
174672 -
軟硬件
+關(guān)注
關(guān)注
1文章
313瀏覽量
19701 -
模型
+關(guān)注
關(guān)注
1文章
3520瀏覽量
50418
原文標(biāo)題:至強(qiáng)? 平臺上五步優(yōu)化 AlphaFold2 端到端推理,通量提升達(dá) 23.11倍!
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
智能駕駛領(lǐng)域,英特爾有何優(yōu)勢?
英特爾將在2014年推出14納米處理器芯片
英特爾多款平板電腦CPU將于明年推出
產(chǎn)業(yè)風(fēng)暴,英特爾能否扳倒ARM?
為什么選擇加入英特爾?
蘋果Mac棄用英特爾芯片的原因
英特爾重點發(fā)布o(jì)neAPI v1.0,異構(gòu)編程器到底是什么
超越英偉達(dá)Pascal五倍?揭秘英特爾深度學(xué)習(xí)芯片架構(gòu) 精選資料推薦
英特爾Optane DC PMM硬件的相關(guān)資料分享
決戰(zhàn)AI芯片!英特爾押寶Nervana NNP
軟硬件結(jié)合,英特爾助推計算力指數(shù)級提升
英特爾推嵌入式3D攝像頭 將虛擬場景變?yōu)楝F(xiàn)實
英特爾推出基于Xe-LP微架構(gòu)的首款數(shù)據(jù)中心GPU
英特爾軟硬件構(gòu)建模塊如何幫助優(yōu)化RAG應(yīng)用

英特爾2024產(chǎn)品年鑒:AI與軟硬件的融合發(fā)展

評論