合成DNA作為一種高密度數(shù)據(jù)存儲(chǔ)介質(zhì),多年來(lái)一直吸引著數(shù)字未來(lái)學(xué)家。整個(gè)互聯(lián)網(wǎng)可以被編碼成鞋盒大小的DNA鏈,而DNA分子非常穩(wěn)定,可以持續(xù)數(shù)萬(wàn)年甚至幾十萬(wàn)年。例如,2013年,科學(xué)家們對(duì)一具70萬(wàn)年前的馬化石的整個(gè)基因組進(jìn)行了測(cè)序。
一旦儲(chǔ)存起來(lái),DNA幾乎不需要任何維護(hù)。畢竟,化石在地下生活了數(shù)百萬(wàn)年后仍然保存著DNA序列。DNA存儲(chǔ)也不需要任何能量--在有人決定訪問(wèn)它之前,只需要一個(gè)涼爽、黑暗的地方就可以了。
然而,將一種數(shù)據(jù)格式轉(zhuǎn)換為另一種格式并不簡(jiǎn)單。德克薩斯大學(xué)奧斯汀分校(University Of Texas At Austin)的研究團(tuán)隊(duì)提出了一種在DNA鏈中存儲(chǔ)信息的方法,同時(shí)也糾正了錯(cuò)誤。他們開(kāi)創(chuàng)了一套DNA數(shù)據(jù)編碼和解碼算法,可能會(huì)開(kāi)創(chuàng)高密度、長(zhǎng)期數(shù)據(jù)存儲(chǔ)的新領(lǐng)域。
其工作讓人想起了開(kāi)創(chuàng)量子密碼技術(shù)領(lǐng)域的里程碑式的BB84 protocol,有朝一日,它將成為基因組數(shù)據(jù)存儲(chǔ)應(yīng)用領(lǐng)域的基礎(chǔ),而基因組數(shù)據(jù)存儲(chǔ)應(yīng)用是以每克千兆字節(jié)為單位重新想象而來(lái)的。
Stephen Jones是Press所在小組的博士后,也是《美國(guó)科學(xué)院院刊》(Proceedings of the National Academy of Sciences)論文的合著者,他說(shuō),最好從了解數(shù)據(jù)存儲(chǔ)錯(cuò)誤通常在哪里蔓延開(kāi)始。
像所有的數(shù)據(jù)存儲(chǔ)方法一樣,DNA也有一些缺點(diǎn)。最重要的前期障礙是成本。除此之外,DNA也容易出錯(cuò)?;叵胍幌陆M成DNA階梯的四個(gè)核苷酸堿基。平均而言,DNA在每100到1000個(gè)核苷酸中會(huì)引入一個(gè)錯(cuò)誤。它們可以采取三種形式:替換、插入和刪除。
在替換突變中,一串核苷酸中的一個(gè)字母可能會(huì)被換成另一個(gè),DNA鏈的長(zhǎng)度保持不變。然而,在插入或缺失時(shí),DNA會(huì)獲得一個(gè)額外的核苷酸堿基,或者移除一個(gè)堿基。但與計(jì)算機(jī)代碼中的錯(cuò)誤不同的是,在移除的堿基曾經(jīng)居住的地方?jīng)]有留下任何空間,當(dāng)你去解碼存儲(chǔ)在DNA中的數(shù)據(jù)時(shí),這可能很快就會(huì)出現(xiàn)問(wèn)題。
事實(shí)上,DNA數(shù)據(jù)存儲(chǔ)的相對(duì)性質(zhì)是Press,Jones和合著者的HEDGESprotocol的關(guān)鍵。他們的研究方案中沒(méi)有一個(gè)單獨(dú)的核苷酸包含有用的數(shù)據(jù)。相反,正是核苷酸序列的積累提供了一個(gè)強(qiáng)大的存儲(chǔ)系統(tǒng),他們預(yù)測(cè)這個(gè)系統(tǒng)可以實(shí)現(xiàn)DNA的高密度潛力,同時(shí)還能經(jīng)久不衰。
研究小組使用了L. Frank Baum的The Wizard of Oz,并將其翻譯成世界語(yǔ),作為他們要存儲(chǔ)的樣本數(shù)據(jù)集。Jones說(shuō),現(xiàn)在合成的DNA通常是由大約100對(duì)堿基組成的。這就是他們的“硬盤(pán)”的基礎(chǔ)。
因此,他們的研究方案需要能夠被分割成數(shù)千或數(shù)百萬(wàn)的幾百個(gè)核苷酸序列,每一個(gè)序列都包含重組源文本所需的信息,即使存在未知數(shù)量的替換、插入和刪除錯(cuò)誤。
然后,將The Wizard of Oz編碼成DNA,涉及到通過(guò)“外部”編碼層和“內(nèi)部”編碼層傳遞數(shù)據(jù)。(將這些步驟看作是復(fù)雜密碼標(biāo)準(zhǔn)中的兩個(gè)獨(dú)立算法。)
外層將源數(shù)據(jù)對(duì)角化,這樣任何給定的DNA鏈都將包含信息許多部分的碎片。內(nèi)層,即模糊限制,然后根據(jù)一種算法將每一位轉(zhuǎn)換成A、C、T或G,該算法既依賴于該位的零或一個(gè)值,又取決于它在數(shù)據(jù)流中的位置的附加信息,以及它前面的數(shù)據(jù)位。
然后,一旦Oz被翻譯成核苷酸的語(yǔ)言,它就可以被寫(xiě)在合成的DNA鏈上了。
“我把DNA打得粉碎,”Jones表示,“它顯示了DNA是多么強(qiáng)大?!睆腄NA存儲(chǔ)器中解碼數(shù)據(jù)需要首先對(duì)the Wizard of Oz的基因組進(jìn)行測(cè)序,然后將這些遺傳數(shù)據(jù)轉(zhuǎn)換回位。一旦他們弄清楚哪些位是“address”位,他們就可以將剩余的信息位串回到一個(gè)單獨(dú)的、連接的數(shù)據(jù)文件中。
博士后研究員、合著者John Hawkins表示,“展望未來(lái),基于DNA的存儲(chǔ)的潛力幾乎是無(wú)限的。他提出了一種未來(lái)的愿景,在那里,用數(shù)據(jù)編碼的DNA可以被合并到其他材料中。”
即使團(tuán)隊(duì)已經(jīng)取得了突破,但基于DNA的數(shù)字存儲(chǔ)還需要一段時(shí)間。研究人員表示,“數(shù)據(jù)能否保存到未來(lái)只是問(wèn)題的一半。你還需要在另一端能夠閱讀。只要人類(lèi)是由DNA構(gòu)成的,我們就會(huì)一直希望周?chē)臋C(jī)器能夠讀取DNA。但我不認(rèn)為它會(huì)在十年或更長(zhǎng)時(shí)間內(nèi)可成為大眾市場(chǎng)產(chǎn)品。”
-
算法
+關(guān)注
關(guān)注
23文章
4710瀏覽量
95405 -
數(shù)據(jù)存儲(chǔ)
+關(guān)注
關(guān)注
5文章
999瀏覽量
51743 -
DNA
+關(guān)注
關(guān)注
0文章
244瀏覽量
31554
原文標(biāo)題:科學(xué)家為何將“The Wizard of Oz”儲(chǔ)存在DNA中
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
博士學(xué)位論文-永磁同步電機(jī)脈振高頻信號(hào)注入無(wú)位置傳感器技術(shù)研究
現(xiàn)代直線電機(jī)關(guān)鍵控制技術(shù)及其應(yīng)用研究
顯著改善異步電機(jī)動(dòng)態(tài)性能的磁鏈觀測(cè)方法
無(wú)刷直流電機(jī)雙閉環(huán)串級(jí)控制系統(tǒng)仿真研究
無(wú)刷直流電機(jī)改進(jìn)型直接轉(zhuǎn)矩控制研究
無(wú)電解電容逆變器永磁同步電機(jī)驅(qū)動(dòng)系統(tǒng)控制研究
輪邊電機(jī)驅(qū)動(dòng)汽車(chē)性能仿真與控制方法的研究
兩種感應(yīng)電機(jī)磁鏈觀測(cè)器的參數(shù)敏感性研究
一種分段氣隙的CLLC變換器平面變壓器設(shè)計(jì)
一種混合顏料光譜分區(qū)間識(shí)別方法

一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA

一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

一種半動(dòng)態(tài)環(huán)境中的定位方法

評(píng)論