Science封面：華人學(xué)者開(kāi)發(fā)AI模型，學(xué)會(huì)生命的語(yǔ)言，生成新型CRISPR系統(tǒng)乃至整個(gè)基因組

熱門(mén)推薦： CRISPR系統(tǒng) , AI模型 , DNA序列 ,

作者：王聰來(lái)源：生物世界

2024-11-15

生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學(xué)過(guò)程，并開(kāi)辟新途徑，將生物學(xué)轉(zhuǎn)化為有用的技術(shù)。

眾所周知，生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學(xué)過(guò)程，并開(kāi)辟新途徑，將生物學(xué)轉(zhuǎn)化為有用的技術(shù)。然而，即便是最簡(jiǎn)單的微生物基因組也極其復(fù)雜，例如被人類(lèi)研究的最為透徹的大腸桿菌，其基因組包含數(shù)百萬(wàn)堿基對(duì)，用于編碼DNA、RNA和蛋白質(zhì)之間的相互作用，而這三者是細(xì)胞功能的關(guān)鍵參與者，它們之間的信息流動(dòng)構(gòu)成了生命的“中心法則”?；蚪M的這種復(fù)雜性存在于多個(gè)尺度上，從單個(gè)分子到整個(gè)基因組，代表著在進(jìn)化過(guò)程中經(jīng)過(guò)功能選擇的龐大的遺傳信息景觀。

人工智能（AI）的快速發(fā)展使得大語(yǔ)言模型（large language model，LLM）能夠在大量數(shù)據(jù)的訓(xùn)練下展現(xiàn)出越來(lái)越先進(jìn)的多任務(wù)推理和生成能力。如果開(kāi)發(fā)出一種能夠在大基因序列上保持單核苷酸分辨率的模型，就可能提取出關(guān)于嵌入在自然進(jìn)化變異模式中的復(fù)雜分子相互作用的功能信息。

2024年11月15日，Arc研究所的 Patrick D. Hsu 和 Brian L. Hie 團(tuán)隊(duì)在國(guó)際頂尖學(xué)術(shù)期刊 Sciencce 上發(fā)表了題為：Sequence modeling and design from molecular to genome scale with Evo 的研究論文【1】，該論文還被選為當(dāng)期的封面論文。

該研究開(kāi)發(fā)了從分子到基因組尺度都能進(jìn)行預(yù)測(cè)和生成任務(wù)的基因組基礎(chǔ)模型——Evo模型。這是第一個(gè)在全基因組規(guī)模上以單核苷酸分辨率預(yù)測(cè)和生成DNA序列的模型。

通過(guò)對(duì)整個(gè)基因組信息進(jìn)行學(xué)習(xí)，Evo模型能夠?qū)W習(xí)微小的核苷酸序列變化如何影響整個(gè)生物體的適應(yīng)性，從而預(yù)測(cè)哪些基因?qū)τ谏矬w至關(guān)重要，還能夠生成長(zhǎng)度超過(guò)百萬(wàn)堿基對(duì)的具有合理基因組結(jié)構(gòu)的DNA序列。研究團(tuán)隊(duì)還使用Evo模型生成了CRISPR-Cas分子復(fù)合物和IS200/IS605轉(zhuǎn)座子，并驗(yàn)證了它們的功能活性，這也是首次通過(guò)語(yǔ)言模型實(shí)現(xiàn)蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設(shè)計(jì)的實(shí)例。

在生物中，一切都從DNA開(kāi)始，基因組攜帶構(gòu)成完整生命體的一整套DNA（遺傳密碼），這是世代進(jìn)化的結(jié)果，反映了生命對(duì)不斷變化的環(huán)境的適應(yīng)。其他復(fù)雜的生物語(yǔ)言則是從DNA衍生而來(lái)，包括蛋白質(zhì)和RNA，蛋白質(zhì)負(fù)責(zé)執(zhí)行生命功能，RNA幫助DNA傳遞信息并幫助蛋白質(zhì)執(zhí)行功能。盡管這三者看起來(lái)是多層次的，但它們都被“中心法則”統(tǒng)一在基因組中。

人工智能基礎(chǔ)模型的出現(xiàn)，為生物序列建模指明了一條有前景的道路，但尚未實(shí)現(xiàn)全基因組水平的建模。DNA序列非常長(zhǎng)，例如我們?nèi)祟?lèi)有著30億堿基對(duì)，簡(jiǎn)單如大腸桿菌也有這數(shù)百萬(wàn)堿基對(duì)。要想充分理解進(jìn)化的影響，需要具有單個(gè)核苷酸分辨率的分辨率，這些問(wèn)題使得大規(guī)模預(yù)訓(xùn)練特別具有挑戰(zhàn)性。

到目前為止，還不清楚人工智能（AI）模型是否能夠在這么長(zhǎng)的基因組序列中有效地學(xué)習(xí)其復(fù)雜模式。因此，現(xiàn)有的利用AI建模生物序列的突破主要集中在短上下文、特定任務(wù)和單模態(tài)能力，例如AlphaFold、ESMFold、Nucleotide Transformer。

因此，我們需要一個(gè)基礎(chǔ)模型（Foundation Model），該模型可以整合長(zhǎng)基因組序列上的信息，同時(shí)保持對(duì)單核苷酸變化的敏感性。一個(gè)有效地學(xué)習(xí)基因組的模型不僅可以理解個(gè)體的DNA、RNA和蛋白質(zhì)組分，還可以理解這些成分如何通過(guò)相互作用來(lái)創(chuàng)建復(fù)雜系統(tǒng)。這有助于加速我們對(duì)生物學(xué)機(jī)制的理解，以及設(shè)計(jì)生命的能力。

Brian L. Hie（左）和Patrick D. Hsu（右）

在這項(xiàng)研究中，研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)DNA基礎(chǔ)模型——Evo模型，旨在捕捉生物的兩個(gè)基本方面：中心法則的多模態(tài)性和進(jìn)化的多尺度特性。中心法則（Central Dogma）將DNA、RNA和蛋白質(zhì)統(tǒng)一在一個(gè)編碼體系和可預(yù)測(cè)的信息流中，而進(jìn)化（Evolution）則將分子、通路、細(xì)胞和生物體這些在功能上極為不同的尺度統(tǒng)一起來(lái)。

研究團(tuán)隊(duì)使用主流架構(gòu)進(jìn)行DNA預(yù)訓(xùn)練后發(fā)現(xiàn)，Transformer模型在以單核苷酸、字節(jié)級(jí)分辨率進(jìn)行訓(xùn)練時(shí)，可擴(kuò)展性不太好，這表明自然語(yǔ)言中的主要架構(gòu)不一定能遷移到DNA語(yǔ)言中。為了克服與長(zhǎng)序列和字節(jié)級(jí)分辨率的基因組序列建模相關(guān)挑戰(zhàn)，研究團(tuán)隊(duì)使用了基于深度信號(hào)處理技術(shù)的最新架構(gòu)——StripedHyena，相比Transformer，StripedHyena架構(gòu)將Evo的參數(shù)數(shù)量擴(kuò)大到了70億，同時(shí)在131千堿基（131kb）的上下文長(zhǎng)度中保持了單核苷酸分辨率。

Evo模型是在270萬(wàn)種原核生物和噬菌體的基因組上進(jìn)行訓(xùn)練的，它能夠在DNA、RNA和蛋白質(zhì)模式下實(shí)現(xiàn)零樣本功能預(yù)測(cè)，其性能與或優(yōu)于特定領(lǐng)域的語(yǔ)言模型。

基于原核生物基因組預(yù)訓(xùn)練的長(zhǎng)文本基因組基礎(chǔ)模型

基于StripedHyena的Evo模型架構(gòu)

通過(guò)對(duì)整個(gè)基因組的信息進(jìn)行學(xué)習(xí)，Evo能夠理解微小的核苷酸序列變化（基因突變）如何影響整個(gè)生物體的適應(yīng)性，從而預(yù)測(cè)哪些基因?qū)τ谏矬w至關(guān)重要。而在實(shí)驗(yàn)室中進(jìn)行基因必要性研究，通常需要6個(gè)月到1年時(shí)間。

由于Evo模型是在包含蛋白質(zhì)編碼序列的長(zhǎng)基因組序列上訓(xùn)練的，因此研究團(tuán)隊(duì)測(cè)試了該模型是否也能很好地學(xué)習(xí)蛋白質(zhì)語(yǔ)言，從而執(zhí)行零樣本（Zero-shot）蛋白質(zhì)功能預(yù)測(cè)。結(jié)果顯示，Evo模型優(yōu)于所有其他已測(cè)試的核苷酸模型，包括僅在蛋白質(zhì)編碼序列上明確訓(xùn)練的模型，甚至可以與最先進(jìn)的蛋白質(zhì)語(yǔ)言模型競(jìng)爭(zhēng)（例如ESM或ProGen）。值得注意的是，Evo模型能夠?qū)崿F(xiàn)非編碼RNA（ncRNA）和調(diào)節(jié)性DNA的零樣本功能預(yù)測(cè)，從而跨越“中心法則”的所有三種成分——DNA、RNA和蛋白質(zhì)。

Evo模型的學(xué)習(xí)能力橫跨蛋白質(zhì)、RNA和DNA

目前，生物學(xué)的生成模型通常只關(guān)注一種模式——例如只生成蛋白質(zhì)或只生成RNA。而Evo模型的一個(gè)關(guān)鍵突破之處在于可執(zhí)行多模態(tài)生成任務(wù)，研究團(tuán)隊(duì)使用Evo模型生成了全新的CRISPR系統(tǒng)，這種由蛋白質(zhì)和RNA組成的大型蛋白復(fù)合體，是現(xiàn)有的生成模型無(wú)法做到的。

CRISPR系統(tǒng)是原核生物中天然存在的免疫系統(tǒng)，被改造用于基因編輯。通常情況下，我們需要從自然界基因組中搜尋以發(fā)現(xiàn)新的CRISPR系統(tǒng)。而現(xiàn)在，Evo模型能夠直接生成一個(gè)全新的CRISPR系統(tǒng)，讓我們擁有了創(chuàng)造新型基因組編輯工具的能力。

設(shè)計(jì)生成新型CRISPR-Cas分子復(fù)合物

研究團(tuán)隊(duì)將Evo模型設(shè)計(jì)生成的EvoCas9-1與sgRNA進(jìn)行重組表達(dá)和純化，其在體外的基因編輯效率與spCas9-sgRNA相當(dāng)。

Evo模型設(shè)計(jì)生成的CRISPR-Cas9系統(tǒng)及功能驗(yàn)證

此外，研究團(tuán)隊(duì)還使用Evo模型設(shè)計(jì)生成了IS200/IS605轉(zhuǎn)座子系統(tǒng)，并實(shí)驗(yàn)驗(yàn)證了其功能活性。

據(jù)悉，這也是首次通過(guò)語(yǔ)言模型實(shí)現(xiàn)蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設(shè)計(jì)的實(shí)例。

并能夠生成長(zhǎng)度超過(guò)百萬(wàn)堿基對(duì)的具有合理基因組結(jié)構(gòu)的DNA序列。像Evo這樣的大規(guī)模生物序列模型的進(jìn)一步發(fā)展，結(jié)合DNA合成技術(shù)以及基因組工程技術(shù)的進(jìn)步，將加快我們對(duì)生命進(jìn)行工程化的能力。

除了在多分子（蛋白質(zhì)和ncRNA）規(guī)模上生成序列，Evo模型還能夠生成長(zhǎng)度超過(guò)百萬(wàn)堿基對(duì)的具有合理基因組結(jié)構(gòu)的DNA序列，且生成的序列中包含了數(shù)千個(gè)潛在的蛋白質(zhì)編碼序列，從而讓我們擁有了全基因組規(guī)模序列生成的潛力。這種大規(guī)模的序列生成是由Evo模型的長(zhǎng)上下文功能和高效的推理模式實(shí)現(xiàn)的。

Evo模型，能夠從單個(gè)核苷酸到整個(gè)基因組學(xué)習(xí)生物復(fù)雜性

研究團(tuán)隊(duì)表示，Evo模型標(biāo)志著我們?cè)谀M生物序列的一個(gè)轉(zhuǎn)折點(diǎn)，相信這項(xiàng)技術(shù)有潛力加速我們科學(xué)（包括生物學(xué)、化學(xué)或材料科學(xué)）的發(fā)現(xiàn)和理解，以及應(yīng)用于現(xiàn)實(shí)世界的問(wèn)題（包括藥物發(fā)現(xiàn)、農(nóng)業(yè)和可持續(xù)性）?；A(chǔ)模型將成為越來(lái)越重要的科學(xué)工具，期待訓(xùn)練更大的模型，提高它們的生成能力，并將Evo預(yù)訓(xùn)練擴(kuò)展到人類(lèi)基因組。通過(guò)增強(qiáng)這些模型學(xué)習(xí)的生物復(fù)雜性，相信我們可以在對(duì)抗復(fù)雜疾病和改善人類(lèi)健康方面取得重大進(jìn)展。

最后，研究團(tuán)隊(duì)表示即將開(kāi)源更大規(guī)模的3000億token的訓(xùn)練數(shù)據(jù)集——OpenGenome，由270萬(wàn)個(gè)公開(kāi)可用的原核基因組和噬菌體基因組組成，這是公開(kāi)可用的最大的DNA預(yù)訓(xùn)練數(shù)據(jù)集，希望它將有助于加速DNA語(yǔ)言模型這個(gè)令人興奮和有影響的領(lǐng)域的研究。

相關(guān)閱讀：

2024年10月30日，北京理工大學(xué)邵斌教授課題組在 Nature Communications 期刊發(fā)表了題為：A long-context language model for deciphering and generating bacteriophage genomes 的研究論文【2】。詳情：邵斌團(tuán)隊(duì)實(shí)現(xiàn)首個(gè)生成式DNA大語(yǔ)言模型——破譯并生成病毒基因組

該研究實(shí)現(xiàn)了首個(gè)生成式DNA大語(yǔ)言模型——megaDNA。該模型利用無(wú)標(biāo)注的噬菌體基因組數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，不僅能準(zhǔn)確預(yù)測(cè)噬菌體的必需基因，更能夠生成長(zhǎng)達(dá)10萬(wàn)堿基對(duì)的嶄新基因組片段，也就是能夠像寫(xiě)作自然語(yǔ)言一樣生成DNA序列。另外，該模型在學(xué)習(xí)過(guò)程中獲得的深層信息（embedding），還能應(yīng)用于蛋白質(zhì)突變效果預(yù)測(cè)、基因調(diào)控研究，以及無(wú)標(biāo)注DNA片段分類(lèi)等多個(gè)下游任務(wù)，展現(xiàn)出良好的泛化能力。