編輯丨王多魚
排版丨水成文
人類必需蛋白(Human essential protein,HEP)對於個體的生存和發育是必不可少的。然而,鑑定HEP的實驗方法往往昂貴、耗時和勞動密集型的,例如CRISPR-Cas9基因敲除實驗及基因過表達實驗,且這些實驗方法難以推廣到人類全組。
因此,亟需計算方法來快速準確預測人類全部蛋白質的重要性,但現有的計算方法只能在人源細胞系水平預測HEP,而實際上,HEP在人類、細胞系和動物模型中存在高度差異性。這就要求我們在設計預測演算法時,不僅需要提升演算法的預測精度,還要需要考慮蛋白質重要性存在的變異性。
近年來,深度學習(Deep Learning,DL)和大語言模型(Large Language Model,LLM)技術的快速發展,為蛋白質重要性預測提供了新思路。
2024年11月27日,崔慶華團隊在 Nature 子刊Nature Computational Science上發表了題為:Comprehensive prediction and analysis of human protein essentiality based on a pre-trained protein large language model 的研究論文。
該研究透過微調預訓練的蛋白質語言模型,開發了一個基於序列的深度學習模型——蛋白質重要性計算器(Protein Importance Calculator,PIC) ,實現人類蛋白必要性/重要性的綜合預測和分析 。
該研究提出的PIC演算法相較於此前最先進的計算方法DeepCellEss獲得顯著效能提升(AUROC和AUPRC分別提升9.64%和10.52%)。
除了具有優異的效能外,PIC演算法是首個可以同時預測蛋白質在人體、人源細胞系和小鼠中的重要性評分的工具,能夠為人類所有蛋白質的重要性進行綜合的預測評估。 在案例研究中, 研究 團隊使用PIC演算法 成功預測了人類乳腺癌中的關鍵蛋白質靶點 ,並證明了其作為乳腺癌患者預後標誌物的價值。
最後,研究團隊使用PIC演算法首次為617462種人類微蛋白(Human microproteins)的重要性進行了預測,這將為微蛋白的研究提供有力幫助。
北京大學基礎醫學院醫學生物資訊學系博士生康伯銘和已畢業博士樊銳為論文共同第一作者,崔慶華教授(現為武漢體育學院教授)為論文通訊作者,北京大學基礎醫學院為論文第一單位。
論文連結:
https://www.nature.com/articles/s43588-024-00733-1