生物細胞裡有三種大分子:DNA、RNA和蛋白質。DNA和RNA記錄了生物的遺傳資訊,但真正在細胞裡面執行功能的是蛋白質。人體內約有10萬種以上的蛋白質,每種蛋白質都有自己特定的功能,但它們都是由20種氨基酸按不同比例組合而成,各種氨基酸在蛋白質裡摺疊成特定的三維結構,正是這個三維結構決定了每種蛋白質的功能。
因此,對蛋白質的三維結構的解析,對於深入理解蛋白質功能、人體生理現象、內在機制、疾病歸因和藥物研發等都起著關鍵性的作用。這就是為什麼幾十年來,科學家千方百計地想搞清各種蛋白質的三維結構的原因。
相簿版權圖片,轉載使用可能引發版權糾紛
乍看之下,大部分蛋白質都像一團雜亂無章擠在一起的原子,但仔細看看則會發現其實它們都是按照一定層次組織起來的複雜結構。在最底層,一些氨基酸透過肽鍵結合在一起,組成一些多肽鏈,多肽鏈內部的氨基酸序列,被稱為蛋白質的一級結構。然後,不同的多肽鏈又透過氫鍵連線,摺疊成簡單的形狀,如螺旋狀或環狀等,這種結構被稱為蛋白質的二級結構。
接下來,在更大的層面上,螺旋或環又進一步摺疊成一個三維空間內緊湊的結構,被稱為蛋白質的三級結構。所有蛋白質都有三級結構,三級結構跟蛋白質的穩定性關係最大,如果三級結構被破壞,蛋白質就會失去部分或全部功能。部分蛋白質還有四級結構,
傳統實驗室觀測蛋白質結構的方法主要有三種,即核磁共振、X射線晶體學、冷凍電鏡,但這些方法往往依賴昂貴的裝置,還要反覆試錯,搞清楚每種蛋白質的三維結構都需要花費數年時間。人體內約有10萬種以上的蛋白質,被科學家解析過三維結構的少之又少,為了對大量未知的蛋白質展開研究,必須發明全新的方法,比如,在搞清蛋白質的一級結構之後,就利用人工智慧對它的二級、三級、四級結構進行預測。
2018年,人工智慧正式參與蛋白質三維結構的預測,在其中大顯身手,它速度極快,能用幾天甚至僅僅幾分鐘就預測出以前要花費數十年才能得到的具有高置信度的蛋白質結構,極大地促進了生物化學、細胞生物學、遺傳發育、神經生物學、微生物學、病理藥理等領域的發展。
2023年10月9日,國際頂級學術期刊《自然》旗下子刊《機器智慧》發表了百度飛槳螺旋槳聯合百圖生科研發的文心生物計算大模型的一項成果,提出了全球首個開源、提供線上服務、無需MSA輸入的蛋白結構預測大模型HelixFold-Single。這是百度在生物計算領域的又一突破性成果,打破了AlphaFold2等主流模型依賴 MSA檢索的速度瓶頸,創新了新的人工智慧訓練方案,將蛋白結構預測速度平均提高數百倍,實現了秒級別的預測。以門蛋白7et2_H(蛋白長度697)為例,用AlphaFold2預測其結構需要1280秒(超過21分鐘),而HelixFold-Single只需要11秒,速度提高了115倍。
人工智慧大模型技術正驅動生物計算領域的高速發展,可以幫助生命科學領域的研究人員更便捷、更高效地工作,進行更多開拓性的研究,例如探索針對特定癌症、病毒類感染疾病的治療方法,開發新的抗生素、靶向藥,或者研發更高效率的工業酶等,為人類健康與產業發展貢獻源源不斷的價值。
參考文獻
[1]https://www.nature.com/articles/s42256-023-00721-6
策劃製作
本文為科普中國-星空計劃作品
出品|中國科協科普部
監製|中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
作者丨曾心月 科普創作者
稽核丨陶寧中科院生物物理研究所 副研究員
責編丨鍾豔平 祁媛(實習生)