引言
在生物分子領域,蛋白質複合體的結構預測是理解生物學功能和疾病機制的關鍵。儘管深度學習模型,如AlphaFold2和RosettaFold,已經能夠以高精度預測單個蛋白質的結構,但對於因其規模和多個亞基間複雜相互作用而難以預測的大型蛋白質複合體,這仍然是一個挑戰。2月7日發表於Nature Methods的研究“CombFold: predicting structures of large protein assemblies using a combinatorial assembly algorithm and AlphaFold2”,提出了CombFold方法,這是一種結合了組合裝配演算法(combinatorial assembly algorithm)和AlphaFold2的技術,用於預測大型蛋白質複合體的結構。
在傳統的結構表徵技術,如X射線晶體學(X-ray crystallography)和核磁共振(Nuclear Magnetic Resonance Spectroscopy)中,大型蛋白質複合體的結構決定尤其具有挑戰性。雖然低溫電子顯微鏡(cryo-electron microscopy, cryo-EM)取得了一些進展,但高通量結構測定仍然具有挑戰性。CombFold的提出,旨在透過利用AlphaFold2預測的亞基間配對相互作用(pairwise interactions),透過一種層級化和組合式的裝配策略,準確預測大型蛋白質複合體的結構。
CombFold的準確度得到了驗證,它在兩個資料集中預測的複合體中,有72%的複合體在前10個預測中的TM得分(TM-score)超過0.7,表明了其高精度。此外,與Protein Data Bank (PDB)條目相比,預測的複合體結構覆蓋率高出20%。CombFold還支援基於交聯質譜(crosslinking mass spectrometry)的距離限制和快速列舉可能的複合體化學計量學(complex stoichiometries)。CombFold的高精度使其成為了擴充套件結構覆蓋範圍到單體蛋白質以外的有希望的工具。
Highlights
創新的組合裝配演算法(Combinatorial Assembly Algorithm):CombFold透過結合AlphaFold2的深度學習技術和一種創新的組合裝配演算法,成功預測了大型蛋白質複合體的結構。這一方法突破了僅依靠傳統技術或單一計算模型難以解決的大型蛋白質複合體結構預測的限制。
高精度預測:在兩個資料集中,CombFold能夠在前10個預測中以TM得分(TM-score)超過0.7的高精度預測出72%的蛋白質複合體結構,這顯示了其在大型蛋白質複合體結構預測方面的高效能。
結構覆蓋率提高:與現有的蛋白質資料庫Protein Data Bank (PDB)條目相比,CombFold預測的複合體結構展示了20%的結構覆蓋率提高,這意味著能夠為科學研究提供更完整的結構資訊。
支援距離限制和複合體化學計量學列舉:CombFold不僅能夠準確預測結構,還支援基於交聯質譜(crosslinking mass spectrometry)的距離限制和快速列舉可能的複合體化學計量學(complex stoichiometries),進一步增強了其在結構生物學研究中的應用潛力。
應用範圍廣泛:該方法不僅限於單個蛋白質的結構預測,還能夠處理沒有已知結構的複雜蛋白質組裝體,為複雜生物分子機制的解析和藥物開發提供有力的工具。
Strategies
該研究中,CombFold方法的核心是結合AlphaFold2的深度學習能力與一種創新的組合式裝配演算法(combinatorial assembly algorithm),以預測大型蛋白質複合體的三維結構。這種方法的具體實現步驟如下:
利用AlphaFold2預測亞基間的配對相互作用(Pairwise Interactions):首先,CombFold使用AlphaFold2對複合體中所有可能的亞基對(subunit pairs)進行結構預測,獲取亞基間的相互作用資訊。這一步驟是基於AlphaFold2對單鏈蛋白質或蛋白質複合體的預測能力進行的擴充套件。
組合和層級化裝配(Combinatorial and Hierarchical Assembly):基於從AlphaFold2獲得的亞基間配對相互作用資訊,CombFold採用一種組合和層級化的策略來組裝蛋白質複合體。這一過程透過最佳化亞基之間的配對組合,來尋找最可能正確的裝配方式。
生成配對子單元的統一表示(Unified Representation of Subunit Pairings):為了準備進行最終的組裝階段,需要從AlphaFold2預測的多個模型中選擇代表性的亞基結構。這一步驟涉及到對每個亞基在不同配對條件下預測的結構進行綜合評估,選出最具代表性的結構用於後續的組裝。
計算亞基間的轉換(Transformations between Subunits):根據選出的代表性亞基結構,計算亞基間可能的空間位置轉換,包括旋轉和平移。這些轉換資訊用於在組裝過程中正確定位各個亞基。
組合裝配演算法(Combinatorial Assembly Algorithm):在得到所有必要的亞基間轉換資訊後,CombFold採用組合裝配演算法對亞基進行層級化組裝。這一演算法透過列舉所有可能的亞基組合和相應的空間定位,尋找最終能夠正確組裝出整個複合體的方法。
距離限制和化學計量學列舉(Distance Restraints and Stoichiometry Enumeration):CombFold支援基於交聯質譜資料的距離限制,以及對未知結構的複合體進行化學計量學(stoichiometry)的快速列舉,這一功能使得CombFold能夠在缺乏完整結構資訊的情況下,也能進行高度可信的結構預測。
CombFold的三個階段(Credit: Nature methods)
透過上述步驟,CombFold能夠有效地預測出大型蛋白質複合體的三維結構,即使是對於那些由多個不同亞基構成、結構複雜度高的複合體也同樣適用。這種方法的成功,展示了深度學習與傳統生物資訊學方法相結合的巨大潛力,為未來的結構生物學研究提供了新的工具和思路。
Prospects
動態結構預測:當前CombFold主要預測蛋白質複合體的靜態結構。然而,許多蛋白質在生物學過程中會呈現出動態變化和多種構象。如何預測和理解這些動態過程和構象變化仍是一個挑戰。
複合體中未知亞基的預測:對於一些複合體,其組成亞基的完整資訊可能未知。當前的方法需要已知複合體的化學計量學(stoichiometry)資訊,對於那些部分亞基未知或存在亞基變異的複合體,如何有效預測它們的結構尚未明確。
大規模複合體的處理能力:對於極其龐大的蛋白質複合體,即使是CombFold這樣的先進方法也可能面臨計算資源和演算法效率的限制。如何提高演算法的處理能力,以應對更大規模的複合體預測,是一個待解決的問題。
複合體異質性的解析:許多蛋白質複合體在生物體內以不同的亞基組合形式存在,展現出高度的異質性。如何準確捕捉並預測這種複合體的多樣性和異質性是一個重要的研究方向。
實驗資料的整合和利用:CombFold雖然能夠整合交聯質譜(crosslinking mass spectrometry)等實驗資料,但如何更有效地利用其他型別的實驗資料(如FRET、Cryo-EM等),以提高預測精度和可靠性,還需要進一步探索。
預測結果的驗證:CombFold預測的結構需要透過實驗方法進行驗證。如何系統地對預測結果進行驗證,並根據驗證結果最佳化演算法,是實現預測方法實用化的關鍵一步。
應用領域的擴充套件:CombFold的潛在應用領域非常廣泛,如何在藥物設計、疾病機理研究等領域具體應用這些預測技術,以及如何根據應用需求進一步最佳化演算法,都是未來研究的重要內容。
https://www.nature.com/articles/s41592-024-02174-0
Shor B, Schneidman-Duhovny D. CombFold: predicting structures of large protein assemblies using a combinatorial assembly algorithm and AlphaFold2. Nat Methods. 2024 Feb 7. doi: 10.1038/s41592-024-02174-0. Epub ahead of print. PMID: 38326495.
責編|探索君
排版|探索君
End