大自然擅長設計蛋白質。科學家甚至更擅長,人工智慧(AI)有望幫助人類多次實現定向蛋白質進化。
來自哈佛醫學院、麻省理工學院等多家頂尖學術機構聯合組成的研究團隊在這一領域帶來了新的突破,他們開發了一個人工智慧(AI)平臺 EVOLVEpro,將蛋白質設計精準度推向新高度——
EVOLVEpro 平臺基於少樣本主動學習框架,結合蛋白質語言模型(PLMs)和迴歸模型,無需依賴結構資訊、專家經驗或其他先驗資料,僅透過蛋白質序列進行高效最佳化,實現了快速預測高活性蛋白突變體。
更重要的是,EVOLVEpro 在 RNA 生產、基因編輯及抗體結合等應用中展示出了優越的效能,能使所需特性提升 100 倍。研究結果顯示,平臺在癌細胞中大幅優化了基因編輯工具的活性,同時也改良了抗體的結合能力和表達水平。
此外,針對新型脂質奈米顆粒(LNP)的最佳化實驗表明,EVOLVEpro 幾乎完全消除了基因編輯工具的脫靶效應,為精準醫療的應用提供了堅實基礎。
相關研究論文以 “Rapid in silico directed evolution by a protein languagemodel with EVOLVEpro” 為題,已發表在權威科學期刊 Science 上。
這種創新方法為跨領域應用提供了全新可能性,從抗體最佳化到基因編輯工具改良,都展現出了優異效能。
攻克蛋白質最佳化與基因編輯難題
在生物醫學領域,如何最佳化蛋白質以提高其特定活性始終是極具挑戰的任務。這種最佳化對於抗體研發、基因編輯工具改良以及疫苗設計等領域至關重要。
然而,傳統技術如深度突變掃描(DMS)或定向進化,往往需要大量實驗驗證,不僅耗時費力,還容易陷入區域性最優解。
基因編輯技術也面臨類似難題。例如,CRISPR-Cas9 技術儘管顯著推動了基因編輯的進展,卻在精準性和遞送效率上面臨瓶頸。一方面,脫靶效應使得編輯可能產生非預期突變,帶來副作用風險;另一方面,現有的 mRNA 遞送系統在目標細胞中表現出較低的穩定性,限制了基因治療的效果。
近年來,深度學習技術的發展為蛋白質最佳化領域注入了新動能。蛋白質語言模型透過大規模序列資料庫訓練,能夠捕捉蛋白質序列與其結構和功能之間的複雜關係。
然而,這些模型在最佳化蛋白質活性時表現有限,在最佳化蛋白質活性時,它們難以精準捕捉複雜適應度景觀,特別是在涉及蛋白質非結合特徵的任務中。
為突破這一困境,研究團隊開發了 EVOLVEpro。該平臺結合深度學習與主動學習策略,不僅降低了對實驗資料的依賴,還透過智慧選擇最優突變體進行實驗驗證,大幅減少了實驗次數。
圖|開發用於蛋白質語言模型引導工程的 EVOLVEpro 並進行基準測試
與傳統的定向進化和現有 AI 方法相比,EVOLVEpro 顯現出三大優勢:
突破資料依賴:無需蛋白質結構資訊、專家知識或複雜實驗資料,完全基於少量蛋白質序列實現高效最佳化。
高效主動學習:透過主動學習框架,EVOLVEpro 能夠智慧選擇最優突變體進行實驗驗證,大幅減少實驗次數。
跨領域應用潛力:在 mRNA 遞送、基因編輯工具改良等多個領域表現出卓越的效能。
研究團隊透過 12 個深度突變掃描資料集,優化了 EVOLVEpro 引數,採用網格搜尋選擇最佳蛋白質語言模型(如 ESM2),並測試了不同迴歸模型(如隨機森林、k 近鄰迴歸器)對效能的影響。
全方位突破:從抗體最佳化到基因編輯工具
為了驗證 EVOLVEpro 的實際效能,研究團隊以 C143 抗體和抗人轉鐵蛋白受體的 aCD71 抗體為目標,評估了它在抗體結合能力最佳化中的表現。
研究結果顯示,經過四輪最佳化後,C143 抗體的最佳輕鏈突變體 N28R 顯著提升了結合親和力,其結合半數抑制濃度(IC50)降至 60 pM,多突變體結合親和力提高至野生型的 35 倍。
圖|利用 EVOLVEpro 對高活性微型 CRISPR 核酸酶進行改造
在針對 aCD71 抗體最佳化實驗中,則發現最佳重鏈突變體 S92A 結合 IC50 達到 29 pM,進一步設計的多突變體結合 IC50 效率達到 19 pM,同時提升了抗體的表達水平和親和力。
而在與多種蛋白質語言模型比較中,ESM-2 15B 引數模型作為 EVOLVEpro 的潛在空間模型,在多數資料集上表現優於其他模型,返回的高活性突變體比例最高,且只有少數蛋白質語言模型的預測準確性明顯高於獨熱編碼,突出了基礎層模型對 EVOLVEpro 效能的關鍵重要性。
在基因編輯工具方面,研究團隊將目標鎖定在微型 CRISPR 核酸酶 PsaCas12f 和 Bxb1 整合酶的活性改良上。透過四輪單突變體最佳化,PsaCas12f 在多個靶點的插入缺失效率顯著提高。
圖|用 EVOLVEpro 對 prime editor 進行進化
研究發現,最佳變體 PsaCas12f K333V 在 RNF2 基因位點的插入缺失效率提高至 40%,進一步組合的多突變體則將效率提升至約 50%。組合多突變體的平均編輯活性提高 2.2 至 44 倍,相較其他 Cas12f 效應子表現優異。
類似地,在 Bxb1 整合酶進化實驗中,經過多輪進化得到的突變體活性提升至野生型的 2.6 倍以上,在基因組中基因貨物的整合效率提高多達 4 倍,為基因組編輯和大基因貨物整合提供了更強的工具。
此外,針對 mRNA 生產中的 T7 RNA 聚合酶,EVOLVEpro 透過多輪進化顯著提升 T7 RNA 聚合酶效能。
在 T7 RNA 聚合酶進化實驗中,經過四輪最佳化,最佳突變體 E643G 產生的熒光素酶 mRNA 較野生型的翻譯效率提升 34 倍,免疫原性比野生型降低 98%。
在臨床相關的 IVT 環境下,與野生型和之前工程改造的突變體比較,最佳化版 epT7 酶生產的 mRNA 在體外轉錄實驗中,翻譯效率較野生型高 120 倍,免疫原性低 256 倍。
圖|為高產且低免疫原性的 mRNA 生產對 RNA 聚合酶進行工程改造
此外,研究人員還進行了多維度效能驗證與機制解析,不僅驗證了 EVOLVEpro 的優越效能,也揭示了突變提升活性的機制。
透過 AlphaFold3 對不同蛋白質的結構預測以及對模型關注殘基的分析,研究團隊發現,PsaCas12f 中的 K333V 突變透過穩定結構和調節模板結合增強了活性,而 T7 RNA 聚合酶中的 E643G 突變則顯著減少了免疫反應。
圖|epT7 在環狀 RNA 生產及體內生物發光方面的應用
不足與展望
儘管 EVOLVEpro 展現了極大的潛力,但研究團隊也指出了一些存在的挑戰。
EVOLVEpro 在一定程度上克服了蛋白質語言模型的一些問題,但蛋白質語言模型固有的侷限性依然存在影響。例如,蛋白質語言模型是透過學習掩碼序列重建任務訓練的,自然序列不一定選擇最優蛋白質活性,導致其學習的活性景觀與實際蛋白質活性景觀常不相關,即使增加蛋白質語言模型的引數也未必能更好地預測蛋白質活性及其他下游任務。
其次,在一些蛋白質的研究中,如不同蛋白質的適應度與活性之間的關係雖然透過分析有了一定的瞭解,但整體上這種關係還不夠明確和穩定,不同蛋白質呈現出不同的相關性情況,給準確預測和最佳化帶來一定難度。
為此,研究團隊計劃,隨著自迴歸蛋白質語言模型或下一代表示模型的出現,將繼續改進 EVOLVEpro 模型,利用其模組化設計將新的模型優勢整合進來,進一步提高模型的效能和預測準確性。
他們表示,將把 EVOLVEpro 應用到更多型別的蛋白質和生物醫學相關領域,進一步探索其在不同蛋白質特性最佳化、不同應用場景下的表現,深入研究蛋白質活性提升的各種機制以及不同突變之間的複雜相互作用,以更好地實現蛋白質工程的目標,滿足生物醫學等領域對高效能蛋白質的需求。
研究人員還將嘗試基於生物物理的模型與 EVOLVEpro 建立的迴歸頂層方法相結合,進一步提高預測準確性,並實現對功能獲得性突變體的更快速準確識別,從而更高效地最佳化蛋白質的各種特性。
EVOLVEpro 的問世為蛋白質最佳化與基因編輯工具的研發提供了全新視角。從抗體設計到精準基因編輯,再到高效 mRNA 生產,EVOLVEpro 透過 AI 驅動的高效突變體篩選,正在重新定義生物醫學的研發效率與可能性。
隨著技術的持續迭代與最佳化,未來生命科學或將迎來更多突破性發現,為癌症治療、基因療法以及新藥研發提供新的可能。
作者:田小婷
如需轉載或投稿,請直接在公眾號內留言