近年來,DNA因其高密度、低能耗、長壽命等特性,成為極具潛力的下一代數(shù)據(jù)存儲(chǔ)介質(zhì)。然而,DNA在測序過程中易產(chǎn)生替換、插入、缺失等錯(cuò)誤,嚴(yán)重影響數(shù)據(jù)解碼的準(zhǔn)確性與完整性。
近日,南方科技大學(xué)蔣興宇團(tuán)隊(duì)在 《ACS Nano》 上發(fā)表題為《Integrated Error Correction to Enhance Efficiency of Digital Data Storage Based on DNA Nanostructures》的研究,提出了一種集成糾錯(cuò)算法IEC,顯著提升了DNA數(shù)據(jù)存儲(chǔ)的效率和可靠性。

IEC算法三大核心機(jī)制
1、 “頭-尾”區(qū)域Levenshtein距離聚類
傳統(tǒng)Levenshtein距離計(jì)算復(fù)雜度高,不適用于海量DNA序列。IEC僅提取序列的頭部和尾部區(qū)域進(jìn)行相似度計(jì)算,將復(fù)雜度從 O(m2)(m 為全序列長度)降至 O(n2)(n 為頭尾區(qū)間長度),聚類速度提升10倍,且對頭尾錯(cuò)誤具備強(qiáng)容錯(cuò)能力。

2、基于Sliding Window-Optimized的Hamming距離糾錯(cuò)
傳統(tǒng)Hamming距離要求序列等長,IEC引入滑動(dòng)窗口機(jī)制,實(shí)現(xiàn)對變長序列的插入、缺失、替換錯(cuò)誤檢測與校正。

3、Score-weighted Majority Voting剔除“噪音序列”
在聚類與糾錯(cuò)后,IEC采用分?jǐn)?shù)加權(quán)的majority voting機(jī)制,進(jìn)一步提升序列選擇的準(zhǔn)確性。相比傳統(tǒng)majority voting,缺失序列率降低約2%,覆蓋率和準(zhǔn)確率也更高。

實(shí)驗(yàn)驗(yàn)證:
團(tuán)隊(duì)以醫(yī)療影像數(shù)據(jù)(MRI 圖像,122KB) 為存儲(chǔ)對象,通過 Twist Bioscience 合成 DNA oligo pool,經(jīng)多輪PCR 擴(kuò)增(模擬長期使用中的序列退化),全面驗(yàn)證IEC的實(shí)用性。
1、研究中使用的DNA oligo pool通過杭州沃森生物訂購,包含4468條DNA序列,每條長度200 nt,結(jié)構(gòu)如下:
2、合成后的DNA經(jīng)過多輪連續(xù)PCR擴(kuò)增,模擬多次讀取中錯(cuò)誤的累積效應(yīng)。
擴(kuò)增產(chǎn)物經(jīng)瓊脂糖凝膠電泳驗(yàn)證后,在Illumina平臺(tái)上進(jìn)行150 bp雙端測序。發(fā)現(xiàn)IEC處理后前4輪均能成功解碼,5輪后仍能保持80%以上,序列效率也顯著提高,待解碼序列數(shù)畢傳統(tǒng)DNA Fountain方法減少0.5%-29.89%,數(shù)據(jù)量縮小3個(gè)數(shù)量級(jí)。

IEC算法通過三重糾錯(cuò)機(jī)制協(xié)同工作,在不依賴高冗余編碼的前提下,實(shí)現(xiàn)了對DNA存儲(chǔ)中常見錯(cuò)誤的高效校正。其低冗余、高密度、強(qiáng)糾錯(cuò)的特性,適用于醫(yī)療數(shù)據(jù)、個(gè)性化醫(yī)療、大數(shù)據(jù)存儲(chǔ)等場景。
代碼已開源:
https://github.com/lasso-sustech/IEC_Codes/tree/reponse
參考文獻(xiàn):
Mao, C. et al. ACS Nano 2025. DOI: 10.1021/acsnano.5c08183