伽利略曾認(rèn)為自然是用數(shù)學(xué)書寫,而生物學(xué)可能是用文字來書寫。自然語言處理(下文簡稱 NLP)算法現(xiàn)在能夠生成蛋白質(zhì)序列,并預(yù)測(cè)病毒突變、包括預(yù)測(cè)能幫助新冠病毒躲避免疫系統(tǒng)攻擊的關(guān)鍵突變。
上述之所以能實(shí)現(xiàn),得益于一重要洞見,即生物系統(tǒng)許多特性可以用單詞和句子來解釋。麻省理工學(xué)院計(jì)算生物學(xué)家邦妮·伯格說:“我們正在學(xué)習(xí)進(jìn)化的語言?!?/p>
過去幾年里,遺傳學(xué)家喬治·丘奇的實(shí)驗(yàn)室團(tuán)隊(duì)、Salesforce 團(tuán)隊(duì)等研究人員已經(jīng)證明,蛋白質(zhì)序列和遺傳密碼可以使用 NLP 技術(shù)建模。
最近,伯格及其同事的研究發(fā)表于《科學(xué)》雜志。在研究中,伯格等人將幾種毒株集合在一起,利用 NLP 來預(yù)測(cè)能幫助病毒躲避人體免疫系統(tǒng)抗體的突變。病毒躲過抗體稱作“病毒免疫逃逸”,該研究的基本觀點(diǎn)認(rèn)為,免疫系統(tǒng)解讀病毒類似于人類解讀句子。
Salesforce 科學(xué)家阿里·馬達(dá)尼正利用 NLP 預(yù)測(cè)蛋白質(zhì)序列,他說:“論文寫得很好,延續(xù)之前工作的發(fā)展勢(shì)頭?!?/p>
伯格團(tuán)隊(duì)使用了語法和語義(或稱意義)這兩種語言學(xué)概念,病毒感染宿主的能力等遺傳或進(jìn)化適應(yīng)性特征,可從語法正確程度的角度來解讀。病毒傳染性強(qiáng),在語法層面為正確;病毒傳染性不強(qiáng),則為不正確。
同樣,病毒突變可以用語義來解釋。比如,病毒表面蛋白質(zhì)突變,某些抗體便無法發(fā)現(xiàn)病毒,像這樣導(dǎo)致病毒在環(huán)境中與其它事物區(qū)分開來的變異,便是改變了病毒的語義。病毒突變可以有不同語義,而每一種有自身語義的病毒可能需要不同抗體來解讀。
為建立這些特性的模型,研究人員使用了 LSTM 神經(jīng)網(wǎng)絡(luò),LSTM 誕生在基于變形金剛的神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前,后者現(xiàn)為 GPT-3 等大型語言模型所使用。LSTM 等存在較久的網(wǎng)絡(luò)所需訓(xùn)練數(shù)據(jù)比變形金剛少得多,并且在許多應(yīng)用中仍然表現(xiàn)良好。
研究人員不是用數(shù)百萬個(gè)句子,而是利用取自三種病毒的數(shù)千個(gè)基因序列訓(xùn)練 NLP 模型。這些序列為流感病毒株的 4.5 萬個(gè)獨(dú)特序列、HIV 病毒株的 6 萬個(gè)獨(dú)特序列、以及新冠病毒病毒株的 3000 到 4000 個(gè)獨(dú)特序列。麻省理工學(xué)院研究生布萊恩·希建立了模型。他說:“由于對(duì)新冠病毒的監(jiān)測(cè)較少,新冠病毒的數(shù)據(jù)較少?!?/p>
NLP 模型在數(shù)學(xué)空間中對(duì)單詞進(jìn)行編碼,單詞和單詞間若含義相近,距離會(huì)更近,反之,距離則更遠(yuǎn)。這一過程稱為“嵌入”。在病毒層面,基因序列的嵌入便是根據(jù)病毒突變的相似性,對(duì)病毒進(jìn)行分組。
該方法的總目標(biāo),是識(shí)別那些可能幫助病毒逃逸免疫系統(tǒng)、且不降低病毒傳染性的突變,也就是說要識(shí)別那些改變病毒含義、而又不導(dǎo)致病毒語法錯(cuò)誤的突變。為測(cè)試模型,研究團(tuán)隊(duì)使用評(píng)估機(jī)器學(xué)習(xí)模型所做預(yù)測(cè)的通用度量標(biāo)準(zhǔn),該標(biāo)準(zhǔn)給精確度打分的區(qū)間為 0.5(相當(dāng)于意外發(fā)生的概率)到1(完美)。
研究中,研究人員采用由模型識(shí)別、最有可能出現(xiàn)的突變,并在實(shí)驗(yàn)室中利用病毒,檢查這些突變中有多少確實(shí)是會(huì)幫助病毒逃逸免疫的突變。精確度分?jǐn)?shù)最低值為針對(duì) HIV 病毒株的預(yù)測(cè)結(jié)果精確度,為 0.69;最高值為針對(duì)新冠病毒病毒株的預(yù)測(cè)結(jié)果精確度,為 0.85。研究人員表示,實(shí)驗(yàn)結(jié)果比其他最先進(jìn)模型的結(jié)果要好。
預(yù)先警告
知道可能會(huì)有哪些突變,醫(yī)院和公共衛(wèi)生當(dāng)局便更容易提前計(jì)劃。例如,要模型顯示出某種流感病毒的語義自 2020 年以來發(fā)生了多大變化,就能預(yù)計(jì)人們已經(jīng)產(chǎn)生的抗體在今年會(huì)發(fā)揮多大作用。
該研究團(tuán)隊(duì)表示,正在根據(jù)新冠病毒新變種運(yùn)行模型。針對(duì)的新變種包括英國出現(xiàn)的變異病毒、丹麥水貂體內(nèi)出現(xiàn)的變異病毒、以及南非、新加坡和馬來西亞出現(xiàn)的變異病毒。研究人員已經(jīng)發(fā)現(xiàn),這些變異病毒免疫逃逸潛力可能很高,但尚未在實(shí)驗(yàn)室外進(jìn)行測(cè)試。
不過,模型沒有預(yù)測(cè)到南非變異病毒出現(xiàn)的一種變異。人們已經(jīng)開始擔(dān)心,這種變異可能幫助病毒躲避疫苗接種,目前研究人員正在嘗試探明原因。伯格說:“南非變異病毒里包含多個(gè)突變,我們認(rèn)為,這些突變組合起來產(chǎn)生的效應(yīng)可能會(huì)導(dǎo)致免疫逃逸?!?/p>
使用 NLP 可以加速原本緩慢的研究進(jìn)程,以前是從醫(yī)院里一名新冠患者身上提取病毒、測(cè)序基因組,并在實(shí)驗(yàn)室里重新創(chuàng)造和研究相應(yīng)突變。項(xiàng)目研究人員麻省理工學(xué)院生物學(xué)家布賴恩·布萊森說,以前的做法可能需要幾周時(shí)間,NLP 模型可以直接預(yù)測(cè)潛在突變,實(shí)驗(yàn)室研究便找到重點(diǎn)、工作速度也加快。
布萊森說:“整個(gè)工作很大開眼界。”每周都有新病毒序列。布萊森說:“一邊更新模型,一邊跑去實(shí)驗(yàn)室進(jìn)行實(shí)驗(yàn)測(cè)試,很奇妙。計(jì)算生物學(xué)好就好在這。”
但這也只是開始。將基因突變視為語義變化,可以在生物學(xué)中有不同應(yīng)用。布萊森說:“一個(gè)好類比,能起很大作用?!?/p>
例如,希認(rèn)為研究團(tuán)隊(duì)的方法可以應(yīng)用于研究抗藥性。希說,“比如癌細(xì)胞蛋白質(zhì)對(duì)化療產(chǎn)生耐藥性、或者細(xì)菌蛋白質(zhì)對(duì)抗生素產(chǎn)生耐藥性”,這些變異也可以看作是意義上出現(xiàn)變化,“我們解讀語言模型,可以有很多創(chuàng)意?!?/p>
馬達(dá)尼說:“我認(rèn)為,生物學(xué)正處在革命邊緣。我們不再僅僅收集大量數(shù)據(jù),而正在轉(zhuǎn)向?qū)W習(xí)如何深入理解數(shù)據(jù)?!?/p>
總體來說,研究人員正在關(guān)注 NLP 的發(fā)展,同時(shí)發(fā)掘語言和生物學(xué)之間的新類比,來利用NLP取得的進(jìn)步。不過,布萊森、伯格和希都認(rèn)為,生物學(xué)和 NLP 算法交叉可以是雙向,即新 NLP 算法受生物學(xué)概念啟發(fā)而誕生。伯格說:“生物學(xué)有自己的語言。”
責(zé)任編輯:lq6
相關(guān)推薦
單克隆抗體(monoclonalantibody,mAb)是由單一B細(xì)胞克隆產(chǎn)生的高度均一、僅針對(duì)某....
發(fā)表于 2023-06-15 14:48?
2292次閱讀

如果您懷疑自己的 Android 智能手機(jī)可能已被黑客入侵,以下是一些有關(guān)如何確定的提示
發(fā)表于 2022-08-25 14:51?
4305次閱讀

多功能酶標(biāo)分析儀是對(duì)酶聯(lián)免疫檢測(cè)(EIA)實(shí)驗(yàn)結(jié)果進(jìn)行讀取和分析的醫(yī)療設(shè)備。其優(yōu)點(diǎn)在于能夠快速、高精....
發(fā)表于 2021-12-09 10:41?
1665次閱讀

酶標(biāo)儀是什么?酶標(biāo)儀是酶聯(lián)免疫吸附試驗(yàn)的專用醫(yī)療設(shè)備,又稱微孔板檢測(cè)器。比較簡單的說法就是比分光光度....
發(fā)表于 2021-09-03 10:15?
4528次閱讀

默沙東從康方生物引進(jìn)的 CTLA-4 單抗聯(lián)合療法在華獲批臨床 ?中國國家藥品監(jiān)督管理局藥品審評(píng)中....
發(fā)表于 2021-03-09 11:55?
1929次閱讀

如果不需要或者不信任第三方殺毒軟件,微軟Win10自帶的Defender殺毒軟件也夠用了,比較煩人的....
發(fā)表于 2021-01-19 15:06?
1760次閱讀

想要了解引導(dǎo)型病毒的攻擊原理,首先要了解引導(dǎo)區(qū)的結(jié)構(gòu)。硬盤有兩個(gè)引導(dǎo)區(qū),在0面0道1扇區(qū)的稱為主引導(dǎo)....
發(fā)表于 2021-01-03 16:33?
3908次閱讀

計(jì)算機(jī)病毒(Computer Virus)是人為制造的、能夠進(jìn)行自我復(fù)制的、對(duì)計(jì)算機(jī)資源具有破壞作用....
發(fā)表于 2020-12-25 15:54?
14280次閱讀

富士康被黑客攻擊,索要2.3億元贖金 據(jù)外媒報(bào)道,富士康母公司鴻海集團(tuán)的墨西哥工廠被勒索軟件“Dop....
發(fā)表于 2020-12-09 15:53?
2117次閱讀

11月27日消息,據(jù)媒體報(bào)道,330萬臺(tái)老年機(jī)被植入木馬病毒,數(shù)以萬計(jì)的公民個(gè)人信息被非法獲取。 據(jù)....
發(fā)表于 2020-11-27 15:34?
2662次閱讀

近來,科學(xué)家們?cè)谖⑿碗姵厣先〉昧酥匾黄?。他們開始利用只有直徑只有6納米的病毒來制造電池,這種微型電....
發(fā)表于 2020-11-12 17:07?
1558次閱讀

據(jù)美國媒體報(bào)道稱,該國的佛羅里達(dá)州宣布,已經(jīng)批準(zhǔn)向環(huán)境中釋放7.5億只轉(zhuǎn)基因蚊子,以減少當(dāng)?shù)剡@種吸血....
發(fā)表于 2020-11-06 10:23?
1098次閱讀

勒索病毒與挖礦病毒可以說是“老熟人”了,各類安全事件一直不乏他們活躍的身影:在第二季度,亞信安全共攔....
發(fā)表于 2020-08-27 10:15?
2452次閱讀

Signify的首席執(zhí)行官近日指出有將紫外線燈產(chǎn)量提高八倍的計(jì)劃,此前Signify已經(jīng)與波士頓大學(xué)....
發(fā)表于 2020-07-28 10:59?
757次閱讀

昕諾飛宣布,在其與波士頓大學(xué)美國國家新發(fā)傳染性疾病實(shí)驗(yàn)室(NEIDL)聯(lián)合開展的研究證實(shí),昕諾飛的U....
發(fā)表于 2020-07-23 11:42?
884次閱讀

在新型冠狀病毒肺炎疫情爆發(fā)之后,美國哥倫比亞大學(xué)和日本神戶大學(xué)皆宣布開展研究證明了波長為222nm的....
發(fā)表于 2020-07-21 10:22?
2577次閱讀

一種新的基于Node.js的遠(yuǎn)程訪問木馬惡意軟件正在通過偽裝成美國財(cái)政部的電子郵件進(jìn)行傳播。
發(fā)表于 2020-07-02 14:37?
6806次閱讀

在我們?nèi)粘J褂秒娔X過程,經(jīng)常會(huì)遇到如下問題:學(xué)生做網(wǎng)絡(luò)實(shí)驗(yàn)時(shí)一臺(tái)電腦不夠用,身邊又沒有其他電腦;想要....
發(fā)表于 2020-07-01 15:29?
2432次閱讀

而且如果中了病毒的計(jì)算機(jī)屬于高性能的服務(wù)器,病毒還會(huì)在這臺(tái)電腦當(dāng)中植入“挖礦”程序, 如果中招的電腦....
發(fā)表于 2020-06-30 11:15?
5574次閱讀

“盡管專家們似乎對(duì)COVID-19是否通過空氣傳播(除了非常特殊的情況,比如當(dāng)給感染的病人插管時(shí))沒....
發(fā)表于 2020-06-11 10:00?
2662次閱讀

此外基于實(shí)際應(yīng)用需求,電殺菌材料同時(shí)要滿足如下幾個(gè)條件:1) 選擇材料通透性和耐腐蝕性能要好,不影響....
發(fā)表于 2020-06-05 10:46?
3334次閱讀

《自然-通訊》發(fā)表的一篇論文A human monoclonal antibody blocking....
發(fā)表于 2020-06-05 10:38?
2567次閱讀

目前根據(jù)最新的消息稱“WannaRen”病毒存在兩個(gè)變體,一個(gè)通過文字,另一個(gè)通過圖片發(fā)送勒索信息。
發(fā)表于 2020-04-13 11:13?
1342次閱讀

近日據(jù)相關(guān)媒體報(bào)道,互聯(lián)網(wǎng)上出現(xiàn)了一種新型的勒索軟件“ WannaRen”病毒,它的攻擊行為類似于此....
發(fā)表于 2020-04-10 14:22?
702次閱讀

據(jù)媒體報(bào)道,近日網(wǎng)絡(luò)上出現(xiàn)了一種名為“WannaRen”的新型比特幣勒索病毒,與此前的“WannaC....
發(fā)表于 2020-04-08 09:41?
2860次閱讀

近日,工業(yè)控制系統(tǒng)安全國家地方聯(lián)合工程實(shí)驗(yàn)室發(fā)布了《IT/OT一體化工業(yè)信息安全態(tài)勢(shì)報(bào)告》。報(bào)告顯示....
發(fā)表于 2020-03-12 11:28?
463次閱讀

2019年12月23日發(fā)表在《美國國家科學(xué)院院刊》上的一項(xiàng)新研究描述了由賓夕法尼亞州立大學(xué)和紐約大學(xué)....
發(fā)表于 2020-01-13 10:35?
1397次閱讀

據(jù)《數(shù)據(jù)泄露損失研究》評(píng)估顯示,遭遇數(shù)據(jù)泄露事件的公司企業(yè)平均要損失386萬美元,同比去年增加了6.....
發(fā)表于 2019-08-08 11:47?
884次閱讀

專家表示,十五年前的病毒MyDoom依舊極具破壞力,迄今已造成超過380億美元的損失。
發(fā)表于 2019-07-31 17:31?
2399次閱讀

據(jù)外媒報(bào)道,Dridex是著名的特洛伊木馬,專門竊取網(wǎng)上銀行憑證。該惡意軟件于2014年被首次發(fā)現(xiàn),....
發(fā)表于 2019-07-03 14:51?
2246次閱讀

誰能想到你下載的盜版插件竟然能在背地里用你的電腦為他人挖礦?
發(fā)表于 2019-07-01 16:32?
3042次閱讀

黑客利用了至少三家托管服務(wù)提供商,用于擴(kuò)散勒索軟件。
發(fā)表于 2019-06-25 15:34?
2097次閱讀

工控系統(tǒng)和一般的辦公設(shè)備不同,工控系統(tǒng)冗余量小,一旦被感染,即使是只有部分的設(shè)備也會(huì)造成整個(gè)生產(chǎn)線的....
發(fā)表于 2019-06-18 11:40?
1375次閱讀

為未來開發(fā)新一類抗病毒藥物提供了理論支持。
發(fā)表于 2019-06-14 10:22?
4375次閱讀

GandCrab的工作人員表示:“目前已經(jīng)將這筆錢兌換成了現(xiàn)金,該退休了,這些錢是我們應(yīng)得的,并不存....
發(fā)表于 2019-06-03 11:16?
3047次閱讀

美國Verint公司的以色列辦事處受到了勒索軟件的攻擊,F(xiàn)ireEye公司正協(xié)助恢復(fù)工作。
發(fā)表于 2019-04-23 16:23?
2777次閱讀

研究人員最近在美國發(fā)現(xiàn)了一件不尋常的事,在美國注冊(cè)的十多臺(tái)服務(wù)器上,托管著10個(gè)不同的惡意軟件家族!
發(fā)表于 2019-04-08 15:57?
2877次閱讀

安全研究人員發(fā)現(xiàn)了Mirai物聯(lián)網(wǎng)僵尸網(wǎng)絡(luò)的一個(gè)新變種,這次的變種是針對(duì)商業(yè)環(huán)境的嵌入式設(shè)備。這些新....
發(fā)表于 2019-03-21 10:19?
3019次閱讀

奧地利殺毒測(cè)試機(jī)構(gòu)AV-Comparatives研究發(fā)現(xiàn),大約三分之二的安卓殺毒軟件并沒有合格的殺毒....
發(fā)表于 2019-03-18 14:45?
2114次閱讀

俄羅斯殺毒軟件公司 Dr.Web 近日公開了一個(gè)被稱為 Linux.BtcMine.174 的新型木....
發(fā)表于 2018-11-25 10:30?
3980次閱讀

國內(nèi)醫(yī)療系統(tǒng)受到攻擊,醫(yī)院不能正常開診;受病毒入侵,國內(nèi)部分加油站不能通過加油卡和網(wǎng)上支付消費(fèi)……這....
發(fā)表于 2018-08-25 11:41?
867次閱讀

DDoS攻擊:學(xué)名為分布式拒絕服務(wù)攻擊,在此我們稱它為“搗蛋鬼軍團(tuán)”。這幫“家伙”可是串通一氣的,它....
發(fā)表于 2018-08-22 15:45?
4618次閱讀

8月3日晚,臺(tái)積電突然傳出消息,營運(yùn)總部和新竹科學(xué)園區(qū)的的12英寸晶圓廠的電腦,遭到勒索病毒入侵,生....
發(fā)表于 2018-08-08 11:34?
6255次閱讀

在消費(fèi)者對(duì)蘋果最新產(chǎn)品翹首以待之時(shí),上游晶圓制造商臺(tái)灣積體電路制造股份有限公司(簡稱臺(tái)積電)突發(fā)的一....
發(fā)表于 2018-08-08 10:02?
2875次閱讀

臺(tái)積電剛剛公布了遭受電腦病毒攻擊之后的詳細(xì)恢復(fù)進(jìn)展,同時(shí)還警告稱,該公司產(chǎn)品發(fā)貨可能因此推遲,營收也....
發(fā)表于 2018-08-07 11:33?
621次閱讀

` 去年五月份的WannaCry讓我第一次知道了勒索病毒,記得病毒爆發(fā)的時(shí)候,那家...
發(fā)表于 2018-03-09 14:00?
9982次閱讀

工業(yè)物聯(lián)網(wǎng)以物聯(lián)網(wǎng)為基礎(chǔ),與工業(yè)生產(chǎn)相結(jié)合,是從數(shù)據(jù)傳輸?shù)叫畔⒄?、再通過信息來控制設(shè)備的一個(gè)過程,....
發(fā)表于 2017-11-23 09:09?
6051次閱讀

10月25日據(jù)多家國外媒體報(bào)道,一種名叫“壞兔子(Bad Rabbit)”的新型勒索病毒從俄羅斯和烏....
發(fā)表于 2017-10-25 23:48?
83378次閱讀

`論壇是不是中病毒了啊?`
發(fā)表于 2017-08-22 08:36?
2905次閱讀

據(jù)外媒消息,烏克蘭等多國正在遭遇Petya勒索病毒的襲擊,政府、銀行等重要系統(tǒng)受攻擊影響。此次黑客使....
發(fā)表于 2017-07-03 17:06?
724次閱讀

27號(hào),包括烏克蘭在內(nèi)的多個(gè)歐洲國家遭遇新一撥的大范圍電腦病毒攻擊,多地出現(xiàn)電腦故障和互聯(lián)網(wǎng)中斷。有....
發(fā)表于 2017-06-29 09:26?
857次閱讀

6月27日晚間,總部位于倫敦的全球最大廣告公司 WPP,是英國第一家被爆受到波及的公司,員工們已經(jīng)被....
發(fā)表于 2017-06-28 11:48?
798次閱讀

前段時(shí)間,Windows平臺(tái)下的比特幣勒索病毒在全球大規(guī)模爆發(fā),引發(fā)了人們對(duì)網(wǎng)絡(luò)安全的再次警覺。
發(fā)表于 2017-06-20 15:59?
879次閱讀

五月中旬,名為 WannaCry (想哭)的勒索病毒在全球范圍大爆發(fā),超過150個(gè)國家和地區(qū)在24小....
發(fā)表于 2017-05-24 11:28?
843次閱讀

想必周末的時(shí)候,wannacry的新聞已經(jīng)刷爆了小伙伴們的朋友圈,周一上班關(guān)于“勒索病毒”的消息更是....
發(fā)表于 2017-05-19 14:41?
864次閱讀

你被病毒黑客勒索了嗎?從上周五開始,一款名為“WannaCry”(想哭)的勒索病毒開始在全球范圍內(nèi)肆....
發(fā)表于 2017-05-18 15:42?
785次閱讀

評(píng)論