“我們透過少量實驗資料和高效的計算模型顯著提升了活性,標誌著蛋白質工程領域的一次重要突破。”談及和團隊近期發表在Science的論文,美國麻省理工學院博士生薑凱議如是說。
研究人員結合蛋白質大模型、主動學習和迴歸模型,開發了一種創新的蛋白質工程方法 EVOLVEpro(EVOlution Via Language model-guided Variance Exploration for proteins)。
並且,首次展示了其能夠在少於 60 次預測下,顯著提升蛋白質的功能。
例如,單克隆抗體的結合親和力提升了 40 倍,微型 CRISPR 核酸酶的基因編輯效率提升了 5 倍,T7 核糖核酸(RNA,Ribonucleic Acid)聚合酶在轉錄純度和效能方面則提升了 100 倍。
相比於傳統的定向進化,該模型展示了在低樣本數環境下的優越效能,同時有效降低了成本。並且,在體內和臨床前階段的測試下,EVOLVEpro 表現出超越現有方法的最佳效果。
該研究攻克了蛋白質大模型高效預測蛋白質突變體對活性影響的難題。相關實驗證明,EVOLVEpro 是一種強大的通用工具,有望廣泛應用於生物學和醫學的蛋白質工程領域,尤其適用於那些難以透過高通量篩選的蛋白質進化任務。
審稿人對該研究評價稱,“姜凱議等人提出了一項非常及時的研究工作,利用的嵌入進行蛋白質最佳化。該論文的願景非常有趣,這類方法在分子技術領域的前景也極為廣闊,該研究將這種方法應用於多樣化且有附加價值的蛋白質集合中。”
近日,相關論文以《透過蛋白質語言模型 EVOLVEpro 進行快速體外定向進化》(Rapid in silico directed evolution by a protein language model with EVOLVEpro)為題發表在Science[1]。
麻省理工學院博士生薑凱議、博士後研究員顏兆慶和博士生馬特奧·迪·貝爾納多(Matteo Di Bernardo)是共同第一作者,奧馬爾·O·阿布達耶(Omar O.Abudayyeh)研究員和喬納森·S·古騰堡(Jonathan S.Gootenberg)研究員擔任共同通訊作者。
打破傳統蛋白質進化方法的侷限性
傳統的定向進化通常非常複雜,以美國哈佛大學劉如謙(David Liu)教授實驗室的噬菌體輔助連續進化(PACE,Phage-Assisted Continuous Evolution)系統為例,儘管該系統已被應用於進化各種 CRISPR 工具,但該系統至今沒有普及到大多數實驗室。
原因之一在於,當新實驗室試圖搭建這類定向進化平臺時,仍需要投入大量時間和專業的知識的支援。
更重要的是,實現基於碳基生物的定向進化是一項複雜的任務,需要透過(DNA,Deoxyribonucleic Acid)電路的方式,將特定蛋白的活性與生物的生存或繁殖能力聯絡起來。
此外,許多蛋白質難以匹配到合適的 DNA 電路。不僅於此,生物工程和醫學領域對蛋白質的多功能性具有嚴格的要求,而傳統定向進化方法在同時最佳化多個特性方面存在挑戰。
針對上述挑戰,該課題組開發了 EVOLVEpro,其針對當前蛋白質工程中的諸多挑戰提供瞭解決方案,包括勞動強度大、難以多目標最佳化,以及易受區域性極值困擾等。
需要了解的是,傳統大模型透過訓練所有已知蛋白質序列資訊,提煉出不同序列在進化中的功能和活性。
而 EVOLVEpro 則提出了與之相反的假設:在進化過程中,蛋白質活性資訊並不直接儲存在序列資訊中。
原因在於,碳基生物進化是一個系統最佳化的過程,不僅需要同時最佳化系統中的所有成分,有時甚至還需要降低某些蛋白質的活性,來提升物種的存活能力。
基於這種假設,研究人員引入了上層迴歸模型,其專注於學習大模型向量和活性的關聯,從而使模型能夠快速學習蛋白質活性的變化,而不是從序列本身直接推斷活性資訊。
EVOLVEpro 結合了預訓練蛋白質大模型中的資訊向量,以及上層迴歸模型。其使用主動學習策略,可在每輪進化中對突變體進行排名,並選擇高活性候選進行實驗驗證。
姜凱議指出,AI for Science 的發展不應侷限於計算基準的比較,尤其在生物領域,優秀的模型需要在多樣的生物體系和臨床相關靶點上證明,其能夠設計出超越現有理性工程方法的突變體。
為此,他學習了所在實驗室之前未涉及的多種實驗技術,並開展了大量實驗,以驗證模型在不同蛋白質上具有有效性,以及其能否為特定蛋白和靶點提供高活性的突變體。
最終,在 mRNA 生產、抗體和 DNA 切割酶等領域展示了先進的突變體和應用。
他表示:“EVOLVEpro 在不到 60 次的預測裡,找到了比現有自然界 T7 RNA 聚合酶高效 100-500 倍的突變體,並超越了跨國製藥公司莫德納(Moderna)之前發表的最佳化版本,展示了其強大的效果。”
需要了解的是,這裡提到的 T7 RNA 聚合酶是一種廣泛應用於生物技術領域的蛋白,通常用於合成 mRNA 藥物和 mRNA 疫苗。
然而,該酶需要在多個特性方面進行同時最佳化,且依賴體外分析化學方法鑑定,限制了傳統定向進化技術的直接應用。
由於 EVOLVEpro 減少了對大量資料點進行學習的需求,並大幅度降低了成本,相比於 Moderna 公司以往透過理性工程進行酶工程化所需的數千次嘗試,EVOLVEpro 顯著加快了這一步驟。
在實驗中,EVOLVEpro 在 12 個深度突變掃描資料集上的表現顯著優於現有方法,展示了其優異的基準效能。
例如,在單克隆抗體 CD71 的最佳化中,模型不僅提升了抗原結合力,還改進了抗體的表達水平。透過對 CRISPR 核酸酶、編輯酶 Bxb1 等其他蛋白的最佳化,EVOLVEpro 展現出其對多種蛋白活性的提升潛力。
在實際應用中,研究人員還展示了經過進化的 T7 RNA 聚合酶能夠替代現有酶,用於生產更優質的 mRNA 藥物和環狀 RNA。
“我們在進化抗體親和力和穩定性的資料,將為單克隆和雙克隆抗體的生物科技公司提供新的思路,以更少的資料來更高效地完成抗體設計和進化。”姜凱議說。
有望助力精準醫療設計合理的藥物
從 DNA、RNA 再到蛋白質,大部分的生物計算和細胞物種多樣性都由蛋白質負責執行,因而蛋白質也被稱為生物學的“中心法則”(Central Dogma)中的最後一環。
在現代醫學中,抗體藥物作為最常用和最普遍的大分子藥物代表。該研究表明,抗體的最佳化和設計,對於 mRNA 和基因療法的構建來說只是一小部分。
隨著模型預測能力的進一步提升,未來有望設計出更多蛋白質,以最佳化現代醫學,併為解決環境問題提出新方案。
從控制成長因子、調節免疫反應的細胞因子,到抵抗病毒細菌的抗體,再到重新設計光合作用的蛋白質來提高碳中和效率,掌握蛋白質活性的設計能力是合成生物學控制碳基生物計算機控制的關鍵。
EVOLVEpro 標誌著“迴圈實驗室(lab in a loop)”的開始,與網際網路大模型不同,由於蛋白質進化的空間維度極高,現有技術難以全面覆蓋,因此生物大模型受限於高質量資料不足。
以一個 300 氨基酸的蛋白質為例,理論上其共有 20300 種可能的序列,但目前 DNA 合成和測序能力還遠未達到測量這一空間的 1%。因此,主動學習和迴圈實驗室將有可能成為未來研究的重點。
此外,這些模型由於資料需求較低,未來可能在個體基因背景下學習和確定最佳藥物,以助力精準醫療設計合理的藥物。
據悉,該技術已申請專利。在該研究中所進化酶的專利,有望在 Moderna 和 New England Biolabs 等生物科技公司直接應用。後續,課題組計劃將 EVOLVEpro 模型孵化成平臺公司。
姜凱議本科畢業於美國萊斯大學生物工程系,師從卡列博·巴沙爾(Caleb Bashor)教授。之後,他來到麻省理工學院生物工程系讀博,導師為喬納森和奧馬爾。
他的研究經歷中既包含了理性工程和生物物理模型方向,也積累了蛋白質工程方面的經驗。
例如,他基於生物物理模型預測和構建了人工磷酸通路,展示了物理建模在蛋白設計中的指導作用,目前相關論文已被Science接收 [2]。
此前,他在工程 CRISPR 系統進行研究,利用理性工程和結構生物學來指導蛋白設計,發現在真核生物及其病毒中廣泛存在可程式設計的 RNA 引導的 DNA 內切酶,並展示了 III-E 型 CRISPR 核酸酶-蛋白酶透過 RNA 觸發的蛋白質切割和細胞生長抑制 [3-4]。
憑藉“利用生物多樣性與機器學習技術開發細胞工程技術工具箱,在疾病治療和分子生物學機制理解方面具有重要價值”,姜凱議成為 2024 年度《麻省理工科技評論》“35 歲以下科技創新 35 人”亞太區入選者之一。
目前,他的研究方向主要集中在 RNA 方向。與蛋白質不同的是,RNA 大模型尚在發展初期,由於 RNA 的不穩定性,針對 RNA 的設計算法仍處於在初期階段。
他認為,AI 在 RNA 研究領域將發揮重要作用,尤其是在高通量 RNA 資料積累推動下,有望促進 mRNA 治療和 mRNA 迴路設計的先進模型開發。
AI 生物大模型因其豐富的資訊量在蛋白質設計和突變預測中不可或缺,有助於縮短臨床藥物開發的時間與成本,並提高成功率。
該論文是系列研究的開端,研究人員將繼續探索和解決相關問題。例如,結合多模態大模型、整合序列和結構資訊,以及最佳化主動學習策略。此外,他們還打算繼續最佳化模型,並將在多個臨床靶點上實現突破。
“從長遠的角度來看,我認為應該在基礎生物物理研究方面多投入研究,因為只有掌握了正確的模型和理論,才能真正具有理性設計的能力。”姜凱議表示。
參考資料:
1.K.Jiang et al. Rapid in silico directed evolution by a protein language model with EVOLVEpro.Science,2024. https://www.science.org/doi/10.1126/science.adr6006
2.X.Yang,J.W. Rocks,K. Jiang et al. Engineering synthetic phosphorylation signaling networks in human cells,bioRxiv, 2023.https://www.biorxiv.org/content/10.1101/2023.09.11.557100v2
3.K.Jiang et al. Programmable RNA-guided DNA endonucleases are widespread in eukaryotes and their viruses,Science Advances9,39,2023. https://www.science.org/doi/full/10.1126/sciadv.adk0171
4.K.Kato et al. RNA-triggered protein cleavage and cell growth arrest by the type III-E CRISPR nuclease-protease,Science378,6622,2022. https://www.science.org/doi/full/10.1126/science.add7347
運營/排版:何晨龍