導語
隨著大語言模型時代的到來,各領域都湧現出了一批使用、強算力訓練出的基礎模型,它們在評測中表現優異,並能泛化到各種下游任務。在 AI for Life Science 領域,單細胞基礎模型 scGPT、scFoundation,蛋白大模型Alphafold3、ROSTTAFold 等相繼湧現。2024年11月15日,美國 Arc 研究所(Arc Institute)和斯坦福大學的研究團隊提出了一種基因組大模型 Evo,能夠以無與倫比的準確性解碼和設計從分子到基因組規模的 DNA、RNA 和蛋白質序列,打通“中心法則”,這一成果刊登在當期 Science 封面,為解碼複雜生命系統提供了利器。
關鍵詞:AI for Science,基因組基礎模型,基因組設計
董弘禹| 作者
論文題目:Sequence modeling and design from molecular to genome scale with Evo 論文連結:https://www.science.org/doi/10.1126/science.ado9336
在生活中,ChatGPT 可以寫小說、編寫計算機程式碼、提供出行建議,它能夠閱讀網際網路上的所有語言文字資訊,並生成問題的答案。在分子生物學中,DNA 序列是碳基生物的“語言文字”,讀懂這些資訊就能夠掌握遺傳密碼。科學家已經開發了一些模型,可以像分析大語言模型中的單詞一樣分析 DNA 序列,如 DNABERT2 等。然而,這些模型只能解釋和預測相對較短的 DNA 片段,並且訓練資料也十分有限,泛化效能不高。基於此,科學家們研發了 Evo 模型。它以數十億條基因序列為基礎,可以推斷出細菌和病毒基因組的運作方式,並利用這些資訊設計新的蛋白質甚至整個微生物基因組。
圖1. 基因組基礎模型 Evo 具有70億個引數,可以學習從單個核苷酸到整個基因組的生命複雜性。
1. 基因組基礎模型 Evo:架構與訓練細節
想要理解大批次的基因資料,首先就要改進模型架構。Evo 採用了基於 StripedHyena 的框架,在 270 萬個進化多樣的原核生物和噬菌體基因組上進行預訓練,從而獲得對遺傳語言的基本理解,預測 DNA 的功能或生成新的 DNA 序列。
StripedHyena 架構如圖1B所示,該模型混合了密集二次 Transformer 運算元和次二次型 Hyena 運算元用於提高計算效率。同時,該模型將上下文視窗擴增到長達13萬鹼基,顯著提高了模型識別基因與其他基因調控元件 (如啟動子、增強子等) 之間聯絡的能力。為了為了確定 Evo 的最佳架構和縮放比例,圖1F、G比較了在計算最優邊界上預訓練的不同模型的縮放率,在資料集大小和模型大小之間進行最佳計算分配。
從訓練角度來看,為了防止惡意使用者設計生物武器,研究人員從 AI 的訓練集中刪除了任何攻擊人類或其他真核生物的病毒序列,並在接近 3000 億核苷酸序列資訊上進行了4周的訓練。
圖2. 在原核生物中預訓練基因組基礎模型
2. Benchmark與效能比較
為了測試 Evo 模型的效能,研究人員首先衡量它是否能夠預測突變對生物序列的影響。具體而言,在零樣本功能預測的條件下使用 Evo 與其他模型,預測蛋白質突變對功能的影響、非編碼 RNA 突變對功能的影響、調控 DNA 序列對基因表達的影響。圖2展示其相關性的強度超過了之前從 DNA 序列資料推斷突變效應的人工智慧模型;其工作效果與其他依賴蛋白質序列的 AI 模型一樣好。
圖3. Evo 對蛋白質、非編碼 RNA 和調控 DNA 進行零樣本功能預測
3. 下游應用:
從分子到基因組尺度的序列設計
除了判別式任務之外,基礎模型也應有生成能力。ChatGPT 能夠生成文章,Evo 模型也能夠生成基因序列。為此,研究團隊讓 Evo 設計新版本的 CRISPR 基因編輯器。如圖3所示,Evo 首先研究了 70,000 多個編碼 Cas 蛋白及其伴侶 RNA 的細菌 DNA 序列。然後,該模型設計了數百萬個分子的潛在版本。研究人員挑選了 11 個最有可能的 Cas9 變體,並在實驗室中合成了這些蛋白質。在試管實驗中,設計的 Cas9 酶中最好的一種,在切割 DNA 方面與商業版本的蛋白質一樣好。
圖4. 在 CRISPR-Cas 序列上進行微調可實現蛋白質-RNA 複合物的生成性設計
此外,Evo 還擅長多元件系統生成任務,如圖4所示,團隊透過對 CRISPR-Cas 序列和IS200/IS605 序列進行微調,可以實現合成 CRISPR-Cas 分子複合物和轉座系統。研究人員實驗驗證了 Evo 生成的 CRISPR-Cas 分子複合物以及 IS200 和 IS605 轉座系統的功能活性,這是使用語言模型進行蛋白質-RNA 和蛋白質-DNA 協同設計的第一個例項。
圖5. 在 IS200/IS605 序列上進行微調可實現轉座生物系統的生成性設計
最後,研究人員使用 Evo 生成了長達 1MB 的 DNA 序列作為細菌的基因組,這些序列展現出真實基因組的多個特徵,包括編碼密度、基因組織、密碼子使用偏好性、四核苷酸使用模式等 (圖5) 。
圖6. Evo 生成具有密集編碼架構的基因組規模序列
總體而言,Evo 經過 270 萬個原核生物和噬菌體基因組的訓練,展示了跨 DNA、RNA 和蛋白質模態的零樣本函式預測,其效能可與特定領域的語言模型相媲美,甚至優於特定領域的語言模型。模型首次實現了單核苷酸解析度下的長序列 DNA 建模,實現了從分子到基因組尺度的序列設計能力。這些突破為生物工程和基因組設計開闢了新的可能性。
大模型與生物醫學:
AI + Science第二季讀書會
生物醫學是一個複雜且富有挑戰性的領域,涉及到大量的資料處理、模式識別、理論模型建構和實驗驗證等問題。AI基礎模型的引入,使得我們能夠從前所未有的角度去觀察和理解這個領域的問題,加速科學研究的步伐,提高醫療服務的效率和效果。這種交叉領域的合作,標誌著我們正在向科技與生物醫學深度融合的新時代邁進,對於推動科學研究、最佳化醫療服務、促進人類健康有著深遠的影響。
集智俱樂部聯合西湖大學助理教授吳泰霖、斯坦福大學計算機科學系博士後研究員王瀚宸、博士研究生黃柯鑫、黃倩,華盛頓大學博士研究生屠鑫明,共同發起以“大模型與生物醫學”為主題的讀書會,共學共研相關文獻, 探討基礎模型在生物醫學等科學領域的應用、影響和展望。 讀書會已完結,現在報名可加入社群並解鎖 回放 影片許可權。
詳情請見:
生命複雜性讀書會:
生命複雜系統的構成原理
在生物學中心法則的起點,基因作為生命複雜系統的遺傳資訊載體,在生命週期內穩定存在;而位於中心法則末端的蛋白質,其組織構成和時空變化的複雜性呈指數式增長。隨著分子生物學數十年來的突飛猛進,尤其是生命組學(基因組學、轉錄組學、蛋白質組學和代謝組學等的集合)等領域的日新月異,當代生命科學臨近爆發的邊緣。如此海量的資料如何幫助我們揭示宇宙中最複雜的物質系統——“人體”的構成原理和設計原理?闡釋人類發育、衰老和重大疾病的發生機制?
集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰,國家蛋白質科學中心(北京)副研究員常乘、李楊,香港浸會大學助理教授唐乾元,北京大學前沿交叉學科研究院研究員林一瀚,中國科學院分子細胞科學卓越創新中心博士後唐詩婕,共同發起「」讀書會,從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度,梳理生命科學領域中的重要問題及重要資料,由生物學家提問,希望促進統計物理、機器學習方法研究者和生命科學研究者之間的深度交流,建立跨學科合作關係,激發新的研究思路和合作專案。讀書會從2024年8月6日開始,每週二晚19:00-21:00進行,持續時間預計10-12周。歡迎對這個生命科學、物理學、計算機科學、複雜系統科學深度交叉的前沿領域感興趣的朋友加入!
詳情請見:
1.
2.
3.
4.
5.
6.