新智元報道
編輯:Aeneas
【新智元導讀】這個自動化蛋白質設計系統可以自己設計和測試新的蛋白質,不需要人類的幫助。就像一個能自己做實驗的機器人科學家。它能透過自主學習自行進行蛋白質設計,同時在實驗室裡自動進行測試。
AI Agent,已經可以不需要人類幫助,就能自行設計和測試全新的蛋白質了!
這個AI能夠自主學習蛋白質結構與功能關係。而且在糖苷水解酶領域創造出的新蛋白質,比原始蛋白質更穩定。
最近,威斯康星大學麥迪遜分校研究者的這項研究,登上了Nature子刊。
自主設計全新蛋白質
蛋白質工程在化學、能源和醫學領域有著近乎無限的應用,但創造具有新功能的新蛋白質的工作,目前仍然是緩慢、勞動密集且效率低下。
威斯康星大學麥迪遜分校研究者,研究出了用於蛋白質景觀探索的自動駕駛自主機器 (SAMPLE) 平臺,可以用於完全自主的蛋白質工程。
SAMPLE由智慧體驅動,這個智慧體會學習蛋白的質序列-功能關係,設計新蛋白質,並將設計傳送到全自動機器人系統。
這個系統會透過實驗測試設計的蛋白質,並提供反饋,以提高智慧體對系統的理解。
研究者部署了四種SAMPLE試劑,目的是設計具有增強耐熱性的糖苷水解酶。
實驗結果表明,儘管智慧體的搜尋行為存在個體差異,但四種藥物都迅速收斂了在熱穩定酶上。
可以說,這種自動駕駛實驗室是自動化的,它加速了科學發現過程,在蛋白質工程和合成生物學領域具有巨大潛力。
實驗過程
以往,研究者設計生物系統,是透過設計實驗來測試假說,進行實驗後解釋結果資料,完善對系統的理解。
隨著過程被迭代,研究者們會收斂生物學機制的知識,並設計出具有改進特性和行為的新系統。
然而,儘管在生物工程和合成生物學方面取得了顯著的成就,但這一過程仍然非常低效、重複和費力,需要多個假設生成和測試周期,可能需要數年時間才能完成。
而機器人科學家和自動駕駛實驗室,可以將自動化學習、推理和實驗相結合,來加速科學發現,設計新的分子、材料和系統。
智慧機器人系統可以跨不同資料來源和資料模式進行學習,在不確定的情況下做出決策,不間斷地連續執行,透過完整的元資料跟蹤和實時資料共享,生成高度可重複、優於人類的資料。
自動駕駛實驗室在蛋白質工程和合成生物學領域具有巨大的前景,但這些應用並沒有那麼容易,因為生物表型是複雜和非線性的,基因組搜尋空間是高維的。
生物實驗需要多個容易出錯、難以自動化的手動處理步驟。
以前也有一些合成生物學的自動化工作流程的例子,需要一些人工輸入和手動樣本處理,但這些工作流程在沒有人工干預的情況下,並不是完全自主的。
而本項研究中的這個用於蛋白質景觀探索的自動駕駛自主機器 (SAMPLE) 平臺,無需人工干預、反饋或主觀性,即可快速設計蛋白質。
平臺由智慧體驅動,智慧體從資料中學習蛋白質序列-功能關係,並設計新的蛋白質來測試假設。
智慧體透過一個全自動的機器人系統與物理世界互動,透過合成基因、表達蛋白質和執行酶活性的生化測量,來測試設計的蛋白質。
智慧體和實驗自動化之間的無縫整合,可以實現完全自主的設計-測試-學習週期,以理解和最佳化序列-功能環境。
研究者部署了四種獨立的SAMPLE試劑,來探索糖苷水解酶的前景,並發現了具有增強熱耐受性的酶。
試劑的最佳化軌跡從探索性行為開始,目的是瞭解廣泛的景觀結構,然後迅速收斂到高度穩定的酶上,這些酶比初始序列至少穩定12°C。
可以觀察到,由於實驗測量噪聲,各個智慧體的搜尋行為存在顯著差異,但所有智慧體在搜尋不到整個景觀的2%時,都能可靠地識別出熱穩定設計。
SAMPLE智慧體透過主動資訊採集不斷完善對景觀的理解,SAMPLE可以有效地發現最佳化的蛋白質。
作為一個通用的蛋白質工程平臺,SAMPLE可以廣泛應用於生物工程和合成生物學。
結果:用於蛋白質工程的完全自主系統
在這項工作中,研究者試圖建立一個完全自主的系統,來模仿人類的生物發現和設計過程。
人類研究者可以被視為在實驗室環境中執行操作、接收資料作為反饋的智慧體。
透過與實驗室環境的反覆互動,人類智慧體可以理解系統、學習行為,以實現工程目標。
SAMPLE由一個智慧體組成,這個智慧體會在實驗室環境中自主學習、做出決策並採取行動,以探索蛋白質序列-功能關係,並設計蛋白質(圖1a)。
這個蛋白質適應度景觀,描述了從序列到功能的對映,可以想象為山峰、山谷和山脊的陸地景觀。
SAMPLE智慧體,可以從最初未知的序列-功能景觀中識別高活性適應度峰值(即效能最佳的序列)。
在這個過程中,智慧體會主動查詢環境以收集資訊,並構建對景觀的內部感知。
智慧體必須在勘探和開發之間分配資源,以瞭解景觀結構,並利用當前的景觀知識來確定最佳序列配置。
研究者將智慧體的蛋白質工程任務視為貝葉斯最佳化(BO)問題,該問題旨在最佳化未知的目標函式,並且必須在探索和開發之間進行有效的權衡。
SAMPLE智慧體會使用高斯過程 (GP) 模型,從有限的實驗觀察中構建對適應度景觀的理解。
這個模型必須考慮感興趣的蛋白質功能,以及由於蛋白質結構不穩定而產生的景觀中的非活性「孔」。
研究者會使用多輸出GP,同時模擬蛋白質序列是否為活性/非活性以及感興趣的連續蛋白質特性。
以先前發表的細胞色素P450資料為基準,該資料包括331個非活性序列和187個帶有熱穩定性標記的活性序列。多輸出GP表現出出色的預測能力,具有83%的主動/非主動分類準確率,並且對於主動序列的子集,預測熱穩定性時r=0.84
在序列函式資料上訓練的GP模型,代表了SAMPLE智慧體的當前知識,從這裡開始,智慧體必須決定接下來要評估哪些序列,以實現蛋白質工程目標。
BO技術解決了不確定性下順序決策的問題。置信上限(UCB)演算法迭代取樣具有最大置信上限(預測均值加預測區間)的點,並被證明可以快速收斂到最佳點,樣本效率高。
然而,UCB在蛋白質工程中的實現是有限的,因為景觀中的非活動「孔」沒有提供任何資訊來改進模型。
因此,研究者設計了兩種啟發式BO方法,考慮主動/非主動GP分類器(P (active) )的輸出,將取樣重點放在功能序列上。
「UCB陽性」方法僅考慮GP分類器預測為活動序列的子集 (P (active) > 0.5),並選擇具有最高UCB值的序列。「預期UCB」方法透過乘以GP 分類器P (active) 來獲取UCB分數的期望值。研究者透過使用細胞色素P450資料執行10,000次模擬蛋白質工程實驗,來測試這些方法
平均而言,UCB陽性和預期UCB方法僅透過26次測量,就發現了熱穩定的P450,並且所需的樣品比標準UCB和隨機方法少三到四倍。
研究者還在批次設定中測試了BO方法,其中多個序列並行測試,發現在較小批次中執行實驗略有好處。
該試劑設計蛋白質後,會將其傳送到SAMPLE實驗室環境,以提供實驗反饋。
研究者開發了一種高度精簡、穩健和通用的流程,用於自動化基因組裝、無細胞蛋白表達和生化表徵。
程式使用克隆組裝預合成的DNA片段25 ,以產生完整的基因和基於T7的蛋白質表達所需的5/3非翻譯區域。
然後透過擴增組裝的表達盒,並使用熒光染料EvaGreen驗證產物以檢測雙鏈DNA。
然後將擴增的表達盒直接新增到基於T7的遊離蛋白表達試劑中,以產生靶蛋白。最後,使用比色/熒光測定法對錶達的蛋白質進行表徵,以評估其生化活性和性質。
在這項工作中,研究者專注於糖苷水解酶及其對高溫的耐受性。
在鏈黴菌屬的四種不同的糖苷水解酶家族1(GH1)酶上,研究者測試了自動化實驗流程的重現性。
該系統可靠地測量了酶的熱穩定性。
該過程需要∼1小時的基因組裝,1小時的PCR,3小時的蛋白質表達,3 小時的熱穩定性測量,以及9小時的從請求的蛋白質設計到物理蛋白質樣品再到相應資料點。
基於雲端的糖苷水解酶自主設計
應用SAMPLE的目的,就是導航和最佳化GH1的熱穩定性圖景。
研究者在Strateos雲實驗室上實施了實驗管道,以增強其他研究人員的可擴充套件性和可訪問性。
為此,他們部署四個獨立的SAMPLE試劑,每個試劑都接種了相同的六個天然GH1序列。
智慧體根據預期 UCB 標準設計序列,每輪選擇三個序列,總共執行20輪(圖 3a)。
這四種智慧體的最佳化軌跡顯示出景觀的逐漸攀升,早期階段以探索行為為特徵,後期輪次一致地對熱穩定設計進行取樣。
在兩種情況下,質量過濾器遺漏了錯誤資料,並錯誤地將熱穩定性值分配給非活動序列。
研究者故意不糾正這些錯誤的資料點,以觀察智慧體在獲取更多景觀資訊時,如何從錯誤中恢復。
有大量不確定的實驗,如圖3a底部的問號所示。
其中大多數是非活性酶的結果,試劑必須測試兩次才能將其指定為非活性酶。大約9%的實驗失敗,可能是由於液體處理錯誤。
每種試劑發現的GH1序列,都要比六個初始天然序列至少穩定12°C。
智慧體在搜尋不到2%的完整組合景觀時,就能識別出這些序列。
研究者可視化了智慧體的搜尋軌跡,發現每個智慧體在收斂到相同的全域性適應度峰值之前廣泛探索了序列空間(圖3b)。
所有四個智慧體都到達了景觀的相似區域,但每個智慧體發現的頂部序列都是獨一無二的。
熱穩定序列往往由 P6F0、P1F2或P5F2和P1F3基因片段組成,這表明相應的氨基酸片段可能含有穩定殘基和/或相互作用。
因此,可以相信智慧體已經確定了1,352個成員組合序列空間的全域性適應度峰值,因為所有四個智慧體都收斂到同一個峰值,並且使用所有智慧體收集的所有資料訓練的GP模型,都預測到了與智慧體發現的序列相似的頂級序列。
參考資料:
https://www.nature.com/articles/s44286-023-00002-4