Science封面：基因組基礎模型 Evo，從分子到基因組理解生命複雜性

導語

隨著大語言模型時代的到來，各領域都湧現出了一批使用、強算力訓練出的基礎模型，它們在評測中表現優異，並能泛化到各種下游任務。在 AI for Life Science 領域，單細胞基礎模型 scGPT、scFoundation，蛋白大模型Alphafold3、ROSTTAFold 等相繼湧現。2024年11月15日，美國 Arc 研究所（Arc Institute）和斯坦福大學的研究團隊提出了一種基因組大模型 Evo，能夠以無與倫比的準確性解碼和設計從分子到基因組規模的 DNA、RNA 和蛋白質序列，打通“中心法則”，這一成果刊登在當期 Science 封面，為解碼複雜生命系統提供了利器。

關鍵詞：AI for Science，基因組基礎模型，基因組設計

董弘禹| 作者

論文題目：Sequence modeling and design from molecular to genome scale with Evo 論文連結：https://www.science.org/doi/10.1126/science.ado9336

在生活中，ChatGPT 可以寫小說、編寫計算機程式碼、提供出行建議，它能夠閱讀網際網路上的所有語言文字資訊，並生成問題的答案。在分子生物學中，DNA 序列是碳基生物的“語言文字”，讀懂這些資訊就能夠掌握遺傳密碼。科學家已經開發了一些模型，可以像分析大語言模型中的單詞一樣分析 DNA 序列，如 DNABERT2 等。然而，這些模型只能解釋和預測相對較短的 DNA 片段，並且訓練資料也十分有限，泛化效能不高。基於此，科學家們研發了 Evo 模型。它以數十億條基因序列為基礎，可以推斷出細菌和病毒基因組的運作方式，並利用這些資訊設計新的蛋白質甚至整個微生物基因組。

圖1. 基因組基礎模型 Evo 具有70億個引數，可以學習從單個核苷酸到整個基因組的生命複雜性。

1. 基因組基礎模型 Evo：架構與訓練細節

想要理解大批次的基因資料，首先就要改進模型架構。Evo 採用了基於 StripedHyena 的框架，在 270 萬個進化多樣的原核生物和噬菌體基因組上進行預訓練，從而獲得對遺傳語言的基本理解，預測 DNA 的功能或生成新的 DNA 序列。

StripedHyena 架構如圖1B所示，該模型混合了密集二次 Transformer 運算元和次二次型 Hyena 運算元用於提高計算效率。同時，該模型將上下文視窗擴增到長達13萬鹼基，顯著提高了模型識別基因與其他基因調控元件（如啟動子、增強子等）之間聯絡的能力。為了為了確定 Evo 的最佳架構和縮放比例，圖1F、G比較了在計算最優邊界上預訓練的不同模型的縮放率，在資料集大小和模型大小之間進行最佳計算分配。

從訓練角度來看，為了防止惡意使用者設計生物武器，研究人員從 AI 的訓練集中刪除了任何攻擊人類或其他真核生物的病毒序列，並在接近 3000 億核苷酸序列資訊上進行了4周的訓練。

圖2. 在原核生物中預訓練基因組基礎模型

2. Benchmark與效能比較

為了測試 Evo 模型的效能，研究人員首先衡量它是否能夠預測突變對生物序列的影響。具體而言，在零樣本功能預測的條件下使用 Evo 與其他模型，預測蛋白質突變對功能的影響、非編碼 RNA 突變對功能的影響、調控 DNA 序列對基因表達的影響。圖2展示其相關性的強度超過了之前從 DNA 序列資料推斷突變效應的人工智慧模型；其工作效果與其他依賴蛋白質序列的 AI 模型一樣好。

圖3. Evo 對蛋白質、非編碼 RNA 和調控 DNA 進行零樣本功能預測

3. 下游應用：

從分子到基因組尺度的序列設計

除了判別式任務之外，基礎模型也應有生成能力。ChatGPT 能夠生成文章，Evo 模型也能夠生成基因序列。為此，研究團隊讓 Evo 設計新版本的 CRISPR 基因編輯器。如圖3所示，Evo 首先研究了 70,000 多個編碼 Cas 蛋白及其伴侶 RNA 的細菌 DNA 序列。然後，該模型設計了數百萬個分子的潛在版本。研究人員挑選了 11 個最有可能的 Cas9 變體，並在實驗室中合成了這些蛋白質。在試管實驗中，設計的 Cas9 酶中最好的一種，在切割 DNA 方面與商業版本的蛋白質一樣好。

圖4. 在 CRISPR-Cas 序列上進行微調可實現蛋白質-RNA 複合物的生成性設計

此外，Evo 還擅長多元件系統生成任務，如圖4所示，團隊透過對 CRISPR-Cas 序列和IS200/IS605 序列進行微調，可以實現合成 CRISPR-Cas 分子複合物和轉座系統。研究人員實驗驗證了 Evo 生成的 CRISPR-Cas 分子複合物以及 IS200 和 IS605 轉座系統的功能活性，這是使用語言模型進行蛋白質-RNA 和蛋白質-DNA 協同設計的第一個例項。

圖5. 在 IS200/IS605 序列上進行微調可實現轉座生物系統的生成性設計

最後，研究人員使用 Evo 生成了長達 1MB 的 DNA 序列作為細菌的基因組，這些序列展現出真實基因組的多個特徵，包括編碼密度、基因組織、密碼子使用偏好性、四核苷酸使用模式等（圖5）。

圖6. Evo 生成具有密集編碼架構的基因組規模序列

總體而言，Evo 經過 270 萬個原核生物和噬菌體基因組的訓練，展示了跨 DNA、RNA 和蛋白質模態的零樣本函式預測，其效能可與特定領域的語言模型相媲美，甚至優於特定領域的語言模型。模型首次實現了單核苷酸解析度下的長序列 DNA 建模，實現了從分子到基因組尺度的序列設計能力。這些突破為生物工程和基因組設計開闢了新的可能性。

大模型與生物醫學：

AI + Science第二季讀書會

生物醫學是一個複雜且富有挑戰性的領域，涉及到大量的資料處理、模式識別、理論模型建構和實驗驗證等問題。AI基礎模型的引入，使得我們能夠從前所未有的角度去觀察和理解這個領域的問題，加速科學研究的步伐，提高醫療服務的效率和效果。這種交叉領域的合作，標誌著我們正在向科技與生物醫學深度融合的新時代邁進，對於推動科學研究、最佳化醫療服務、促進人類健康有著深遠的影響。

集智俱樂部聯合西湖大學助理教授吳泰霖、斯坦福大學計算機科學系博士後研究員王瀚宸、博士研究生黃柯鑫、黃倩，華盛頓大學博士研究生屠鑫明，共同發起以“大模型與生物醫學”為主題的讀書會，共學共研相關文獻，探討基礎模型在生物醫學等科學領域的應用、影響和展望。讀書會已完結，現在報名可加入社群並解鎖回放影片許可權。

詳情請見：

生命複雜性讀書會：

生命複雜系統的構成原理

在生物學中心法則的起點，基因作為生命複雜系統的遺傳資訊載體，在生命週期內穩定存在；而位於中心法則末端的蛋白質，其組織構成和時空變化的複雜性呈指數式增長。隨著分子生物學數十年來的突飛猛進，尤其是生命組學（基因組學、轉錄組學、蛋白質組學和代謝組學等的集合）等領域的日新月異，當代生命科學臨近爆發的邊緣。如此海量的資料如何幫助我們揭示宇宙中最複雜的物質系統——“人體”的構成原理和設計原理？闡釋人類發育、衰老和重大疾病的發生機制？

集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰，國家蛋白質科學中心（北京）副研究員常乘、李楊，香港浸會大學助理教授唐乾元，北京大學前沿交叉學科研究院研究員林一瀚，中國科學院分子細胞科學卓越創新中心博士後唐詩婕，共同發起「」讀書會，從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度，梳理生命科學領域中的重要問題及重要資料，由生物學家提問，希望促進統計物理、機器學習方法研究者和生命科學研究者之間的深度交流，建立跨學科合作關係，激發新的研究思路和合作專案。讀書會從2024年8月6日開始，每週二晚19:00-21:00進行，持續時間預計10-12周。歡迎對這個生命科學、物理學、計算機科學、複雜系統科學深度交叉的前沿領域感興趣的朋友加入！

詳情請見：