年終福利大放送
2024年10月9日,瑞典皇家科學院決定將2024年諾貝爾化學獎的一半授予David Baker,以表彰他在“計算設計”方面的貢獻,並將另一半授予Demis Hassabis和John M. Jumper,以表彰他們在“蛋白質結構預測”方面的貢獻。
2024 年 5 月 8 日, DeepMind 與 Isomorphic Labs 聯合在《自然》期刊上釋出蛋白質領域最新人工智慧模型 AlphaFold 3!這一模型能夠準確預測蛋白質、DNA、RNA 以及配體等生命分子的結構及其相互作用方式。這是繼AlphaFold 2 之後的又一重大突破。
在預測類藥物相互作用方面,AlphaFold 3 實現了前所未有的準確度,包括蛋白質與配體的結合以及抗體與其靶蛋白的結合。在 PoseBusters 的基準測試中,AlphaFold 3 的準確率比現有最佳傳統方法高出 50%,而且無需任何結構資訊輸入,成為首個超越傳統物理預測工具的人工智慧系統。這種預測抗體與蛋白質結合的能力,對於理解人類免疫反應的各個方面以及新抗體的設計至關重要。
四大序列模型大比拼
1.ProteinMPNN是基於資訊傳遞神經網路(MPNN)開發的,能夠透過給定的蛋質骨架結構找到正確摺疊的氨基酸序列。它的功能是透過蛋白質骨架特徵如Cα-Cα原子間距離、二面角等資訊,生成預測的氨基酸序列。與傳統的Rosetta(Rosetta的原理為基於物理的方法將序列設計視為能量最佳化問題,在給定的輸入結構中尋找具有最低能量的氨基酸身份和構象的組合)相比,ProteinMPNN在序列恢復、計算效率和適用範圍上具有顯著優勢。該方法廣泛應用於單體、環低聚物、蛋白質奈米顆粒和蛋白質-蛋白質介面的設計
2.ABACUS-R是一個深度學習模型,在給定主鏈的情況下可以設計序列。方法使用一個具有編碼器和解碼器的網路模型,使用多工方法訓練。環境的特徵使用氨基酸型別,但是沒有顯式描述氨基酸的側鏈構象(Rotamer-Free)。透過X-ray的實驗驗證,ABACUS-R超過了目前最優秀的序列從頭設計算法,可以作為非常有效的蛋白質設計工具
3.CarbonDesign 是蛋白質序列設計版的 AlphaFold,它從用於蛋白質結構預測的 AlphaFold 模型中汲取靈感,並專門針對蛋白質序列設計進行了演算法改進。該工具能夠準確且穩健的設計蛋白質序列,可以被廣泛應用於不同蛋白質設計場景,並且可以預測蛋白質突變的功能影響。
4.CARBonAra模型。該模型基於幾何變換器架構,可以同時處理蛋白質骨架和周圍的任何型別分子,包括其他蛋白質、核酸、配體、離子等,從而實現更加精確和靈活的蛋白質序列設計
國內主要從事AI蛋白質設計的高校
北京大學、國際機器學習研究中心、清華大學
中國科學院計算技術研究所、中國人民大學、
復旦大學、上海科技大學、中國科學院上海藥物研究所
中國科學院分子細胞科學卓越創新中心
浙江大學、西湖大學、浙江工業大學、 深圳先進技術研究院、清華大學深圳國際研究生院 南方科技大學、中國科學技術大學、中國科學院微生物研究所 廈門大學、山東大學、中國科學院天津工業生物技術研究所
2
2
發CNS必須要學的五大課程
0
01.AI蛋白質設計
02.AIDD人工智慧藥物發現與設計
03.CADD計算機輔助藥物設計
04.深度學習基因組學
05.機器學習代謝組學
2
2
01
AI蛋白質設計
*涉及使用程式碼/計算工具的操作
一、蛋白質相關的深度學習簡介
1.基礎概念
1.1.機器學習簡介:從手寫數字識別到大語言模型
1.2.蛋白質結構預測與設計回顧
1.3.Linux簡介
1.4.程式碼環境:VS code和Jupyter notebook*
1.5.Python關鍵概念介紹*
2.常用的分析/視覺化蛋白質及相關分子的方法
2.1.常用資料庫與同源序列搜尋和MSA構建
2.2.使用pymol和Mol*視覺化蛋白質結構*
2.3.使用biopython與biotite分析生物序列與結構資料*
2.4.使用fpocket與point-site分析蛋白質結構口袋*
3.深度學習蛋白質設計與傳統蛋白質設計之間的差異
3.1.深度學習的本質
3.2.傳統方法:全原子能量函式Rosetta與統計勢
3.3.深度學習:幾何深度學習
3.4.深度學習與傳統的物理方法的互補性
3.5.深度學習蛋白質設計的優越性
4.蛋白質語言模型
4.1.語言模型:從RNN到Transformers
4.2.理解蛋白質語言
4.3.生成式蛋白質語言模型
4.4.結構模型與語言模型的比較分析
5.基於深度學習的蛋白質功能與性質預測
5.1.蛋白質功能分類預測*
5.2.訊號肽、跨膜區、亞細胞定位預測
5.3.蛋白質同源結構搜尋
5.4.酶活性位點預測
二、深度學習與蛋白質結構預測
1.傳統蛋白質(複合物)結構預測
1.1.使用modeller、swiss-model進行同源建模
1.2.基於分子動力學的從頭建模
1.3.分子對接加入非蛋白質部分,AutoDock Vina實際操作*
2.現代深度學習用於蛋白質結構預測
2.1.RaptorX:從計算機視覺到蛋白質結構
2.2.AlphaFold2
2.3.AlphaFold3:生成式結構預測
2.4.ESMFold:語言模型與結構預測的融合
3.AlphaFold2 原理回顧
3.1.從共進化到結構
3.2.注意力機制
3.3.EvoFormer
3.4.Structural Module
4.AlphaFold3 介紹
4.1.擴散模型
4.2.訓練資料
4.3.AlphaFold3 的成績與不足
5.AlphaFold2/3 實際操作與結果分析
5.1.AlphaFold2實操*
5.2.AlphaFold2分析*
5.3.AlphaFold server使用*
5.4.本地版的AlphaFold3*
5.5.AlphaFold3分析*
6.ESMFold
6.1.從語言模型到結構預測
6.2.什麼時候使用ESMFold,什麼時候使用AlphaFold
6.3.ESMFold使用*
三、固定主鏈蛋白質序列設計
1.傳統的蛋白質序列設計
1.1.基於全原子力場*
1.2.基於統計勢
2.融入結構知識的語言模型設計蛋白質序列
2.1.ESM-IF原理介紹
2.2.ESM-IF的應用*
3.基於CNN的序列設計
3.1.CNN原理簡介
3.2.DenseCPD設計方法
3.3.有側鏈構象的設計方法
4.基於GNN設計序列
4.1.ProteinMPNN 的成功經驗分析
4.2.ProteinMPNN 的廣泛應用
4.3.ProteinMPNN 實際操作*
5.其他的序列設計模型
5.1.ABACUS-R 簡介與實際操作*
5.2.CarbonDesign 從結構預測來到序列設計去*
5.3.CARBonAra 環境感知的序列設計*
6.固定主鏈序列設計在功能蛋白設計中的應用
6.1.新骨架蛋白質表達量最佳化(Science文章復現)*
6.2.抗體親和力最佳化(Science文章復現)*
6.3.結合進化資訊的酶性質全方位最佳化(JACS文章復現)*
四、深度學習蛋白質結構設計
1.傳統思路回顧
1.1.結構域拼接
1.2.SCUBA:無側鏈的蛋白質力場
2.基於蛋白質表面幾何深度學習的binder設計
2.1.masif原理簡介
2.2.masif用於識別蛋白表面的PPI熱點
2.3.masif設計binder
3.基於擴散模型的蛋白質骨架設計模型
3.1.FrameDiff:基於IPA的主鏈生成*
3.2.Chroma:等變圖神經網路結構設計
3.3.RFDiffusion:基於RosettaFold
3.4.RFDiffusion-All-Atom:基於RosettaFold-All-Atom
4.序列-結構共設計
4.1.trDesign
4.2.AlphaFold Hallucination
4.3.Rfjoint
4.4.Protein Generator
5.結合蛋白從頭設計Nature Communication文章流程*
5.1.功能表位的選取
5.2.帶限制條件的骨架生成
5.3.迭代最佳化
6.熒光素酶結構從頭設計
6.1.Theozyme理論解釋
6.2.骨架生成策略
6.3.活性位點設計與活性進化
五、面向功能的蛋白質序列設計
1.語言的深度學習建模方法
1.1.Transformer
1.2.BERT: Bidirectional Encoder Representations from Transformers
1.3.GPT: Generative Pre-trained Transformers
2.蛋白質語言模型的代表:ESM
2.1.模型框架
2.2.ESM系列工作:ESM-1/2,MSA Transformer,ESM3
2.3.ESM模型實際操作*
3.基於蛋白質語言模型的功能蛋白設計
3.1.預訓練+微調的正規化
3.2.條件式生成模型:Progen與ZymCTRL
3.3.Progen案例分析
3.4.上手微調ZymCTRL*
4.非自迴歸的序列生成模型
4.1.ProteinGAN:生成序列
4.2.DeepEvo:生成耐熱酶
4.3.Prot-VAE
4.4.P450Diffusion:基於擴散模型設計功能P450*
5.功能蛋白生成後的評估指標
5.1.天然序列相似性評估*
5.2.多樣性評估*
5.3.結構合理性評估*
六、基於深度學習的蛋白質挖掘與改造應用
1.酶學性質預測
1.1.DLKcat與GotEnzyme資料庫介紹
1.2.UniKP:利用預訓練模型挖掘、改造Kcat*
1.3.CLEAN:基於對比學習的EC號預測挖掘稀有脫滷酶*
2.蛋白質熱穩定性改造
2.1.MutCompute介紹
2.2.利用MutCompute改造PETase(Nature)*
2.3.ThermoMPNN介紹與使用*
2.4.Pythia介紹與使用*
3.機器學習輔助定向進化/蛋白質工程
3.1.零樣本突變效應預測原理
3.2.零樣本改造基因編輯酶*
3.3.Low-N策略用於蛋白質工程
3.4.預訓練模型的Evo-tuning*
3.5.ECNet介紹
3.6.蛋白質相互作用中的突變效應預測
4.針對自己的實驗資料,訓練自己的神經網路*
4.1.神經網路訓練框架
4.2.資料收集、整理
4.3.特徵提取方式
4.4.預訓練模型的選取
4.5.模型訓練、測試
4.6.新突變的預測
5.深度學習輔助的新酶挖掘*
5.1.基因編輯脫氨酶挖掘(Cell工作復現)
5.2.耐熱塑膠水解酶挖掘(Nature Communications
5.3.使用FoldSeek進行基於結構的挖掘
可以上下滾動檢視
02
AIDD人工智慧藥物設計與發現
第一天
1.AIDD概述及藥物綜合資料庫介紹
2.人工智慧輔助藥物設計AIDD概述
3.安裝環境
(1)anaconda
(2)vscode
(3)pycharm
(4)虛擬環境
4.第三方庫基本使用方法
(1)numpy
(2)pandas
(3)matplotlib
(4)requests
5.多種藥物綜合資料庫的獲取方式
(1)KEGG(requests爬蟲)
(2)Chebi(libChEBIpy)
(3)PubChem(pubchempy / requests)
(4)ChEMBL(chembl_webresource_client)
(5)BiGG(curl)
(6)PDB(pypdb)
第二天ML-based AIDD
1.機器學習
(1)機器學習種類:
①監督學習
②無監督學習
③強化學習
(2)典型機器學習方法
①決策樹
②支援向量機
③樸素貝葉斯
④神經網路
⑤卷積神經網路
(3)模型的評估與驗證
(4)分類評估:準確率、精確率、召回率、F1分數、ROC曲線、AUC計算
(5)迴歸評估:平均絕對誤差、均方差、R2分數、可釋方差分數
(6)交叉驗證
2.sklearn工具包基本使用
3.rdkit工具包的基本使用
4.化合物編碼方式和化合物相似性理論知識
5.專案實戰1:基於ADME和Ro5的分子篩選
6.專案實戰2:基於化合物相似性的配體篩選
7.專案實戰3:基於化合物相似性的分子聚類
8.專案實戰4: 基於機器學習的生物活性預測
9.專案實戰5:基於機器學習的分子毒性預測
第三天GNN-based AIDD
1.圖神經網路
(1)框架介紹: PyG,DGL,TorchDrug
(2)圖神經網路訊息傳遞機制
(3)圖神經網路資料集設計
(4)圖神經網路節點預測、圖預測任務和邊預測任務實戰
2.論文精講:DeepTox: Toxicity Prediction using Deep Learning
3.專案實戰1:基於圖神經網路的分子毒性預測
(1)SMILES分子資料集構建PyG圖資料集
(2)基於GNN進行分子毒性預測
4.專案實戰2:基於圖神經網路的蛋白質-配體相互作用預測
(1)蛋白質分子圖形化,構建PyG圖資料集
(2)基於GIN進行網路搭建及相互作用預測
第四天NLP-based AIDD
1.自然語言處理
(1)Encoder-Decoder模型
(2)迴圈神經網路 RNN
(3)Seq2seq
(4)Attention
(5)Transformer
2.專案實戰1:基於自然語言的分子毒性預測
(1)SMILES分子資料集詞向量表示方法
(2)基於NLP模型進行分子毒性預測
3.專案實戰2:基於Transformer的有機化學反應產量預測 (Prediction of chemical reaction yields using deep learning)
4.論文精讀及程式碼講解:《Mapping the space of chemical reactions using attention-based neural networks》
第五天分子生成與藥物設計
1.蛋白質資料庫介紹與相關資料爬取
(1)PDB資料庫
(2)UniProt資料庫
2.蛋白質相關藥物設計專案實戰
專案實戰 (1):基於RDKit的生化反應與蛋白質基本處理
專案實戰 (2):基於序列的蛋白質屬性預測
專案實戰 (3):基於結構的蛋白質屬性預測
專案實戰 (4):基於NGLView視覺化的蛋白質-配體相互作用
專案實戰 (5):基於機器學習的蛋白質-配體相互作用親和力預測
專案實戰 (6):基於蛋白質三維結構使用原子卷積網路的進行蛋白質-配體相互作用預測
可以上下滾動檢視
03
CADD計算機輔助藥物設計(即報即學)
第一天上午
背景與理論知識以及工具準備
1.PDB資料庫的介紹和使用
1.1資料庫簡介
1.2靶點蛋白的結構查詢與選取
1.3靶點蛋白的結構序列下載
1.5批次下載蛋白晶體結構
2.Pymol的介紹與使用
2.1軟體基本操作及基本知識介紹
2.2蛋白質-配體相互作用圖解
2.3蛋白-配體小分子表面圖、靜電勢表示
2.4蛋白-配體結構疊加與比對
2.5繪製相互作用力
3.notepad的介紹和使用
3.1優勢及主要功能介紹
3.2介面和基本操作介紹
3.3外掛安裝使用
下午
一般的蛋白
-配體分子對接講解
1.對接的相關理論介紹
1.1分子對接的概念及基本原理
1.2分子對接的基本方法
1.3分子對接的常用軟體
1.4分子對接的一般流程
2.常規的蛋白-配體對接
2.1收集受體與配體分子
2.2複合體預構象的處理
2.3準備受體、配體分子
2.4蛋白-配體對接
2.5對接結果的分析
以新冠病毒蛋白主蛋白酶靶點及相關抑制劑為例
第二天
虛擬篩選
1.小分子資料庫的介紹與下載
2.相關程式的介紹
2.1 openbabel的介紹和使用
2.2 chemdraw的介紹與使用
3.虛擬篩選的前處理
4.虛擬篩選的流程及實戰演示
案例:篩選新冠病毒主蛋白酶抑制劑
5.結果分析與作圖
6.藥物ADME預測
6.1ADME概念介紹
6.2預測相關網站及軟體介紹
6.3預測結果的分析
第三天
拓展對接的使用方法
1.蛋白-蛋白對接
1.1蛋白-蛋白對接的應用場景
1.2相關程式的介紹
1.3目標蛋白的收集以及預處理
1.4使用算例進行運算
1.5關鍵殘基的預設
1.6結果的獲取與檔案型別
1.7結果的分析
以目前火熱的靶點
PD-1/PD-L1等為例。
2.涉及金屬酶蛋白的對接
2.1金屬酶蛋白-配體的背景介紹
2.2蛋白與配體分子的收集與預處理
2.3金屬離子的處理
2.4金屬輔酶蛋白-配體的對接
2.5結果分析
以人類法尼基轉移酶及其抑制劑為例
3.蛋白-多糖分子對接
4.1蛋白-多糖相互作用
4.2對接處理的要點
4.3蛋白-多糖分子對接的流程
4.4蛋白-多糖分子對接
4.5相關結果分析
以α-糖苷轉移酶和多糖分子對接為例
5.核酸-小分子對接
5.1核酸-小分子的應用現狀
5.2相關的程式介紹
5.3核酸-小分子的結合種類
5.4核酸-小分子對接
5.5相關結果的分析
以人端粒
g -四鏈和配體分子對接為例。
操作流程介紹及實戰演示
第四天
拓展對接的使用方法
1.柔性對接
1.1柔性對接的使用場景介紹
1.2柔性對接的優勢
1.3蛋白-配體的柔性對接
重點:柔性殘基的設定方法
1.4相關結果的分析
以週期蛋白依賴性激酶
2(CDK2)與配體1CK為例
2.共價對接
2.1兩種共價對接方法的介紹
2.1.1柔性側鏈法
2.1.2兩點吸引子法
2.2蛋白和配體的收集以及預處理
2.3共價藥物分子與靶蛋白的共價對接
2.4結果的對比
以目前火熱的新冠共價藥物為例。
3.蛋白-水合對接
3.1水合作用在蛋白-配體相互作用中的意義及方法介紹
3.2蛋白和配體的收集以及預處理
3.3對接相關引數的準備
重點:水分子的加入和處理
3.4蛋白-水分子-配體對接
3.5結果分析
以乙醯膽鹼結合蛋白
(AChBP)與尼古丁複合物為例
第五天
分子動力學模擬(linux與gromacs使用安裝)
1. linux系統的介紹和簡單使用
1.1 linux常用命令列
1.2 linux上的常用程式安裝
1.3體驗:如何在linux上進行虛擬篩選
2.分子動力學的理論介紹
2.1分子動力學模擬的原理
2.2分子動力學模擬的方法及相關程式
2.3相關力場的介紹
3.gromacs使用及介紹
重點:主要命令及引數的介紹
4.origin介紹及使用
第六天
溶劑化分子動力學模擬的執行
1.一般的溶劑化蛋白的處理流程
2.蛋白晶體的準備
3.結構的能量最小化
4.對體系的預平衡
5.無限制的分子動力學模擬
6.分子動力學結果展示與解讀
以水中的溶菌酶為例
第七天
蛋白-配體分子動力學模擬的執行
1.蛋白-配體在分子動力學模擬的處理流程
2.蛋白晶體的準備
3.蛋白-配體模擬初始構象的準備
4.配體分子力場拓撲檔案的準備
4.1高斯的簡要介紹
4.2 ambertool的簡要介紹
4.3生成小分子的力場引數檔案
5.對複合物體系溫度和壓力分別限制的預平衡
6.無限制的分子動力學模擬
7.分子動力學結果展示與解讀
8.軌跡後處理及分析
以新冠病毒蛋白主蛋白酶靶點及相關抑制劑為例
可以上下滾動檢視
04
深度學習基因組學
第一天
理論部分
深度學習演算法介紹
1.有監督學習的神經網路演算法
1.1全連線深度神經網路DNN在基因組學中的應用舉例
1.2卷積神經網路CNN在基因組學中的應用舉例
1.3迴圈神經網路RNN在基因組學中的應用舉例
1.4圖卷積神經網路GCN在基因組學中的應用舉例
2.無監督的神經網路演算法
2.1自動編碼器AE在基因組學中的應用舉例
2.2生成對抗網路GAN在基因組學中的應用舉例
實操內容
1.Linux作業系統
1.1常用的Linux命令
1.2 Vim編輯器
1.3基因組資料檔案管理,修改檔案許可權
1.4檢視探索基因組區域
2.Python語言基礎
2.1.Python包安裝和環境搭建
2.2.常見的資料結構和資料型別
第二天
理論部分
基因組學基礎
1.基因組資料庫
2.表觀基因組
3.轉錄基因組
4.蛋白質組
5.功能基因組
實操內容
基因組常用深度學習框架
1.安裝並介紹深度學習工具包tensorflow, keras,pytorch
2.在工具包中識別深度學習模型要素
2.1.資料表示
2.2.張量運算
2.3.神經網路中的“層”
2.4.由層構成的模型
2.5.損失函式與最佳化器
2.6.資料集分割
2.7.過擬合與欠擬合
3.基因組資料處理
3.1安裝並使用keras_dna處理各種基因序列資料如BED、GFF、GTF、BIGWIG、BEDGRAPH、WIG等
3.2使用keras_dna設計深度學習模型
3.3使用keras_dna分割訓練集、測試集
3.4使用keras_dna選取特定染色體的基因序列等
4.深度神經網路DNN在識別基序特徵中應用
4.1實現單層單過濾器DNN識別基序
4.2實現多層單過濾器DNN識別基序
4.3實現多層多過濾器DNN識別基序
第三天
理論部分
卷積神經網路CNN在基因調控預測中的應用
1.Chip-Seq中識別基序特徵G4,如DeepG4
2.Chip-Seq中預測DNA甲基化,DeepSEA
3.Chip-Seq中預測轉錄調控因子結合,DeepSEA
4.DNase-seq中預測染色體親和性,Basset
5.DNase-seq中預測基因表達eQTL,Enformer
實操內容
復現卷積神經網路CNN識別基序特徵DeepG4、非編碼基因突變DeepSEA,預測染色體親和性Basset,基因表達eQTL
1.復現DeepG4從Chip-Seq中識別G4特徵
2.安裝selene_sdk,復現DeepSEA從Chip-Seq中預測DNA甲基化,非編碼基因突變
3.復現Basset,從Chip-Seq中預測染色體親和性
4.復現Enformer,從Chip-Seq中預測基因表達eQTL
第四天
理論部分
深度學習在識別複製數變異DeepCNV、調控因子DeepFactor上的應用
1.SNP微陣列中預測複製數變異CNV,DeepCNV
2.RNA-Seq中預測premiRNA,dnnMiRPre
3.從蛋白序列中預測調控因子蛋白質,DeepFactor
實操內容
1.復現DeepCNV利用SNP微陣列聯合影象分析識別複製數變異
2.復現RNN工具dnnMiRPre,從RNA-Seq中預測premiRNA
3.復現DeepFactor,從蛋白序列中識別轉錄調控因子蛋白質
第五天
理論部分
深度學習在識別及疾病表型及生物標誌物上的應用
1.從基因表達資料中識別乳腺癌分型的深度學習工具DeepType
2.從高維多組學資料中識別疾病表型,XOmiVAE
3.基因序列及蛋白質相互作用網路中識別關鍵基因的深度學習工具DeepHE
實操內容
1.復現DeepType,從METABRIC乳腺癌資料中區分乳腺癌亞型
2.復現XOmiVAE,從TCGA多維資料庫中識別乳腺癌亞型
3.復現DeepHE利用基因序列及蛋白質相互作用網路識別關鍵基因
第六天
理論部分
深度學習在RNA測序資料中準確鑑別RNA編輯與DNA突變的應用
1.透過深度學習模型DeepDDR高效準確地從單個RNA測序資料中識別RNA編輯和DNA突變
2.介紹DEMINING框架的創新設計和應用
實操內容
1.資料篩選:篩選標準去除轉錄組資料中的測序和比對錯誤
2.提取高可信度的RNA編輯位點和相同數量的DNA突變位點,分別用於訓練、驗證和測試模型
3. 使用多個層次的卷積和池化操作,提取突變位點周圍的序列和讀段比對特徵,增強模型對突變的識別能力
4.識別突變位點,並捕捉到更大範圍內突變的上下文資訊,以準確區分RNA編輯和DNA突變
5.對識別出的突變進行功能分析,評估其對宿主基因表達的影響,為潛在的疾病機制提供新的見解
6.利用遷移學習將DeepDDR模型應用於非靈長類RNA測序樣本,展示其在不同物種中的適用性和有效性
可以上下滾動檢視
05
機器學習代謝組學
第一天上午:
A1 代謝物及代謝組學的發展與應用
(1) 代謝與生理過程;
(2) 代謝與疾病;
(3) 非靶向與靶向代謝組學;
(4) 空間代謝組學與質譜成像(MSI);
(5) 代謝組學與藥物和生物標誌物;
(6) 代謝流與機制研究。
A2 代謝通路及代謝資料庫
(1) 幾種經典代謝通路簡介;(2) 三大常見代謝物庫:HMDB、METLIN 和 KEGG;
(3) 代謝組學原始資料庫:Metabolomics Workbench 和 Metabolights.
A3 參考資料推薦
第一天下午:
A4 代謝組學實驗流程簡介
A5 色譜、質譜硬體與原理解析
(1) 色譜分析原理與構造;
(2) 色譜儀和色譜柱的選擇;
(3) 色譜的流動相:梯度洗脫法;
(4) 離子源、質量分析器與質量檢測器解析;
(5) 質譜分析原理及動畫演示;
(6) 色譜質譜聯用技術(LC-MS);
第二天上午:
B1 代謝物樣本處理與抽提
(1) 各種組織、血液和體液等樣本的提取流程與注意事項;
(2) 代謝物抽提流程與注意事項;
(3) 樣本及代謝物的運輸與儲存問題;
B2 LC-MS 資料質控與搜庫
(1) LC-MS 實驗過程中 QC 和 Blank 樣本的設定方法;
(2) LC-MS 上機過程的資料質控監測和分析;
(3) 代謝組學上游分析原理——基於 Compound Discoverer 與 Xcms 軟體;
(4) Xcms 軟體資料轉換、提峰、峰對齊與搜庫;
第二天下午:
B3 R 語言基礎
(1) R 和 Rstudio 的安裝;
(2) Rstudio 的介面配置;
(3) R 中的基礎運算和統計計算;
(4) R 中的包:包,函式與引數的使用;
(5) R 語言語法,資料型別與資料結構;
(6) R 基礎畫圖;
B4 R 語言畫圖利器——ggplot2 包(1) ggplot2 簡介
(2) ggplot2 的畫圖哲學;
(3) ggplot2 的配色系統;
(4) ggplot2 資料探勘與作圖實戰;
第三天上午:機器學習
C1 有監督式機器學習在代謝組學資料處理中的應用
(1) 人工智慧、機器學習、深度學習的關係;
(2) 迴歸演算法:從線性迴歸、Logistic 迴歸與 Cox 迴歸講起;
(3) PLS-DA 演算法:PCA 降維後沒有差異的資料還有救嗎?
(4) VIP score 的意義及選擇;
(5) 分類演算法:決策樹,隨機森林和貝葉斯網路模型;
C2 一組代謝組學資料的分類演算法實現的 R 演練
(1) 資料解讀;
(2) 演練與操作;
第三天下午:
C3 無監督式機器學習在代謝組學資料處理中的應用
(1) 大資料處理中的降維;
(2) PCA 分析作圖;
(3) 三種常見的聚類分析:K-means、層次分析與 SOM
(4) 熱圖和 hcluster 圖的 R 語言實現;
C4 一組代謝組學資料的降維與聚類分析的 R 演練
(1) 資料解析;
(2) 演練與操作;
第四天上午:
D1 線上代謝組分析網頁 Metaboanalyst 操作
(1) 用 R 將資料清洗成網頁需要的格式;
(2) 獨立組、配對組和多組的資料格式問題;
(3) Metaboanalyst 中的上游分析(原始資料峰提取、峰對齊與搜庫)
(4) Metaboanalyst 的 pipeline 以及引數設定和注意事項;
(5) Metaboanalyst 的結果檢視和匯出;(6) Metaboanalyst 的資料編輯;
(7) 全流程演練與操作。
第四天下午:
D2 代謝組學資料清洗與 R 語言進階
(1) 代謝組學中的 t、fold-change 和響應值;
(2) 資料清洗流程;
(3) R 語言 tidyverse;
(4) 資料預處理:資料過濾與資料標準化(樣本的 Normalization 和代謝物的 Scaling);
(5) 代謝組學資料清洗演練;
第五天上午:
E1 文獻資料分析部分復現(1 篇)
(1) 文獻深度解讀;
(2) 實操:從原始資料下載到圖片復現;
(3) 學員實操。
第五天下午:
E2 機器學習與代謝組學頂刊解讀(3 篇);
(1) Signal Transduction and Targeted Therapy 一篇有關飢餓對不同腦區代謝組學影響變
化的小鼠腦組織代謝圖譜類的文獻;(資料庫型)
(2) Nature communication 一篇胃癌患者血漿代謝組學使用機器學習得出預測模型用於胃
癌的診斷和預後的文獻;(血液生物標誌物型)
(3) Nature 一篇對胰腺癌患者腸道菌群的代謝組學分析找到可以提高化療效果的代謝物的
文獻。(機制研究型)
可以上下滾動檢視
學習目標
01.深度學習蛋白質設計
本課程圍繞蛋白設計基礎與前沿工作展開講述,從蛋白結構的預測與最佳化到蛋白的從頭設計進行深度教學,本課程從零基礎開始講解,對基礎知識進行詳細講解,並且會結合前沿文獻講解相關技術的應用。幫助學員們, 透過本次培訓學員將瞭解蛋白質設計的底層邏輯與基本規則,並掌握蛋白質設計中的常見蛋白質設計算法的實際操作,具備基的蛋白質設計算法開發的基礎能力及前沿視野。
02.AIDD人工智慧藥物發現與設計
本課程讓學員瞭解藥物發現的前沿背景,學習人工智慧領域的各類常見演算法,熟悉工具包的安裝與使用,掌握一定的演算法程式設計能力,能夠運用計算機方法研究藥物相關問題。透過大量的案例講解和實踐操作,具備一定的AIDD模型構建和資料分析能力
03.CADD計算機輔助藥物設計
掌握包括PDB資料庫、靶點蛋白、蛋白質-配體、蛋白-配體小分子、蛋白-配體結構、notepad的介紹和使用、分子對接、蛋白-配體對接、虛擬篩選、蛋白-蛋白對接、蛋白-多糖分子對接、蛋白-水合對接、Linux安裝、gromacs分 子動力學全程實操、溶劑化分子動力學模擬
04.深度學習在基因組學中的應用
深入學習與瞭解深度學習基本框架與邏輯,同時掌握基本的生物資訊學軟體(Linux、R、python等)的使用,讓學員能更好的應對基因組資料,挖掘出超越已有知識的新知識。而構建好的深度學習模型去探求新的研究思路和尋找新的潛在生物學機制,更好的服務於自身的科學研究和探索的過程中。
05.機器學習代謝組學
1. 熟悉代謝組學和機器學習相關背景知識以及硬體和軟體;2. 入門 R 語言和機器學習理論和常規
使用;3. 掌握代謝組學從樣本處理到上下游資料分析以及出圖的全流程;4. 能復現 CNS 及其子
刊級別雜誌中代謝組學相關文章中的圖片;5. 能靈活熟練地分析自己的代謝組資料
講師介紹
AI蛋白質設計
主講老師在國內頂尖課題組中從事人工智慧蛋白質設計研究,目前的主要研究方向是蛋白質設計機器學習演算法開發與應用,在蛋白質工程和生物相關演算法開發有豐富的實戰經驗。已在Nature communications、ACS Catalysis等國際知名期刊和ICML等機器學習會議上發表論文數十篇
AIDD人工智慧藥物設計與發現
AIDD授課老師曹老師,有十餘年的計算機演算法研究和程式設計經驗。研究方向涉及生物資訊學,深度學習,藥物合成路徑設計,藥物不良反應等。發明專利5項,參與國家重點科研專案4項,發表SCI高水平論文10篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。
CADD計算機輔助藥物設計
主講老師來自國內高校、中科院等單位,老師主要擅長深度學習、機器學習、藥物虛擬篩選、計算機輔助藥物設計、人工智慧藥物發現、分子對接、分子動力學等方面的研究。
深度學習基因組學
主講老師來自荷蘭在讀博士陳老師授課。在國內外學術刊物發表論文數篇,包括Nature Communication, Cell Regeneration等知名期刊,研究方向主要為染色質三維結構,生物資訊學,發育生物學和遺傳學等。利用多組學資料,透過深度學習演算法進行資料分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解決並回答領域內多個基礎的生物學機制。
機器學習代謝組學
主講老師來自985高校神經科學博士,主要利用代謝組學、轉錄組學和分子生物學等技術研究神經內科慢性病的發病機制和生物標誌物。擅長-質譜聯用(LC-MS)技術進行非靶向和靶向代謝組學從樣本製備到資料分析的全流程研究,以及多組學大資料的生物資訊學整合分析。5年內在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等雜誌發表SCI論文1
深度學習基因組學
主講老師來自荷蘭在讀博士陳老師授課。在國內外學術刊物發表論文數篇,包括Nature Communication, Cell Regeneration等知名期刊,研究方向主要為染色質三維結構,生物資訊學,發育生物學和遺傳學等。利用多組學資料,透過深度學習演算法進行資料分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解決並回答領域內多個基礎的生物學機制。
授課時間
#01-AI蛋白質設計
2024.12.27(19:00-22:00)
2024.12.28(13:30--17:00)
2024.12.29(09:00--11:30 -13:30--17:00)
2025.01.03(19:00-22:00)
2025.01.04(13:30--17:00)
2025.01.05(09:00--11:30 -13:30--17:00)
2025.01.10(19:00-22:00)
2025.01.11(13:30--17:00)
2025.01.12(09:00--11:30 -13:30--17:00)
#02-AIDD人工智慧藥物設計與發現
2024.12.28--2024.12.29(09:00--11:30 -13:30--17:00)
2025.01.04--2025.01.05(09:00--11:30 -13:30--17:00)
2025.01.11(09:00--11:30 -13:30--17:00)
#03-CADD計算機輔助藥物設計
影片錄影回放課(即報即學,含資料,軟體,程式碼,PPT,進群解疑)
#04-深度學習基因組學
2024.12.28--2024.12.29(09:00--11:30 -13:30--17:00)
2025.01.02-2025.01.03(19:00-22:00)
2025.01.04-2025.01.05(19:00-22:00)
2025.01.11--2025.01.12(09:00--11:30 -13:30--17:00)
#05-機器學習代謝組學
2024.12.26——2024.12.27(晚上19:00-22:00)
2025.01.04-2025.01.05(09:00--11:30 -13:30--17:00)
2025.01.07-2025.01.10(19:00-22:00)
2025.01.11--2025.01.12(19:00-22:00)
年終培訓費用超值福利
0
課程報名費用:
AI蛋白質設計直播課:
公費價:每人每班¥6880元 (含報名費、培訓費、資料費、提供課後全程回放資料)
自費價:每人每班¥6480元 (含報名費、培訓費、資料費、提供課後全程回放資料)
AIDD藥物發現與設計直播課
公費價:每人每班¥5880元 (含報名費、培訓費、資料費、提供課後全程回放資料)
自費價:每人每班¥5480元 (含報名費、培訓費、資料費、提供課後全程回放資料)
計算機輔助藥物設計回放課(即報即學)
公費價:每人每班¥4980元 (含報名費、培訓費、資料費、提供全程回放影片+資料+軟體+進群解疑)
自費價:每人每班¥4580元 (含報名費、培訓費、資料費、提供課回放影片+資料+軟體+進群解疑)
深度學習基因組學、機器學習代謝組學、
公費價:每人每班¥4980元 (含報名費、培訓費、資料費、提供課後全程回放資料)
自費價:每人每班¥4580元 (含報名費、培訓費、資料費、提供課後全程回放資料)
重磅優惠:
優惠1:
報二送一(同時報名兩個班免費贈送一個學習名額贈送班任選)
兩班同報:10880元 (原價18640)
三班同報:14880元 (原價23620)
報四贈二:17880元 (原價32680)
五班同報:24880元 (可免費學習一整年本單位舉辦的任意課程)
特惠二:28880元(可免費學習兩整年本單位舉辦的任意課程)
優惠2:提前報名繳費可享受300元優惠(僅限十五名)
優惠3:報名直播課程可贈送往期課程回放(報多少贈雙倍回放課)
(可點選跳轉詳情連結):
回放一:
回放二:
回放三:
回放四:
回放五:
回放六:
回放七:
2
2
培訓特色及福利
1、課程特色--全面的課程技術應用、原理流程、例項聯絡全貫穿
2、學習模式--理論知識與上機操作相結合,讓零基礎學員快速熟練掌握
3、課程服務答疑--主講老師將為您實際工作中遇到的問題提供專業解答
授課方式:透過騰訊會議線上直播,理論+實操的授課模式,老師手把手帶著操作,從零基礎開始講解,電子PPT和教程開課前一週提前傳送給學員,所有培訓使用軟體都會發送給學員,有什麼疑問採取開麥共享螢幕和微信群解疑,學員和老師交流、學員與學員交流,培訓完畢後老師長期解疑,培訓群不解散,往期培訓學員對於培訓質量和授課方式一致評價極高!
騰訊會議實時直播解答|手把手帶著操作
報名諮詢方式(請二維碼掃描下方微信)
報名諮詢聯絡方式
報名諮詢方式(請二維碼掃描下方微信)
聯絡人:齊老師
電話:18638922736