2024年法國國家科學研究中心Damien Laage教授發表名為《Neural-network-based molecular dynamics simulations reveal that proton transport in water is doubly gated by sequential hydrogen-bond exchange》的文章,利用振動光譜計算和基於神經網路的分子動力學模擬來確定質子的傳輸機制。發現質子遷移遵循一個由兩次連續氫鍵交換驅動的三步機制:第一步降低質子受體水配位,導致質子轉移;第二步,即限制速步,透過增加質子供體配位防止快速反向轉移。這種順序機制與質子擴散的實驗特徵一致,解釋了振動光譜中的低活化能和中間壽命延長的原因。
作者透過模擬確定的質子傳輸機制表明,質子在水中的擴散是一個多步驟過程,受限於兩次連續穩定的氫鍵交換,其中關鍵的一次是質子傳輸後前質子供體上氫鍵的重構。這種順序機制確定了近期實驗檢測到的長壽命結構,並解釋了低擴散活化能的原因。
在現代物理學、化學和材料科學領域,第一性原理計算已成為不可或缺的研究手段,用於預測和解釋材料性質。這類方法不依賴於實驗資料與經驗引數,而是基於量子力學的基本原理,透過數值求解薛定諤方程來預測多電子相互作用系統的物理性質,從而為理解材料性質和設計新材料提供了新途徑。然而,儘管第一性原理計算已成為多個學科不可或缺的重要方法,但其高昂的計算成本限制了其實際應用,計算複雜度隨著體系中原子數目的增加而迅速上升,限制了其在高通量材料篩選和大尺度系統模擬中的廣泛應用。
近年來,深度學習方法在各個領域取得了令人矚目的成果,為第一性原理計算開闢了新的機遇。深度學習深度學習方法透過從海量資料中學習,利用神經網路自動發掘隱藏的規律和模式,高效建模特徵表示和複雜函式關係,從而準確高效地進行預測和分析。深度學習模型可以基於有限的訓練資料,建立精度接近第一性原理計算方法的近似模型,從而大幅降低計算成本。由於兼具準確性和計算效率,深度學習模型有望超越傳統的第一性原理演算法,顯著加速第一性原理計算過程。
2024 年諾貝爾物理獎與化學獎都頒給“AI for Science”相關領域,這一重大事件無疑為該領域的蓬勃發展注入了強勁動力。在科學研究的新正規化——“AI for Science”時代,基於資料驅動的機器學習力場(ML-FFs)成功化解了第一性原理電子結構方法與傳統經驗力場之間在準確性和效率方面的矛盾。近年來,該領域發展態勢迅猛,在 Web of Science 平臺的檢索結果中清晰可見相關工作頻繁登上 Nature、Science、Cell 等頂尖學術刊物。
隨著計算機算力的迅速發展,透過 ML-FFs 實現第一性原理級別精度的大規模分子模擬研究已成為現實。機器學習方法還使人們對原本以為熟知的系統有了新的化學認知,例如小分子的非對稱電子效應等現象,使研究者們能夠更好地理解實驗結果。由此可見,ML-FFs 極有可能成為現代計算化學與分子模擬的重要組成部分。
然而,作為新興的跨學科領域,該領域知識涵蓋面廣、門檻較高,涉及量子化學、分子模擬和機器學習等多個學術領域。相關資料和學習平臺相對匱乏,資訊科技也不夠開放。在這種情況下,專業培訓學習顯得尤為迫切。
01
機器學習分子動力學
本次授課內容豐富,涵蓋快速上手量化軟體、深入理解機器學習、熟練運用 LAMMPS 模擬軟體、精通機器學習力場模型等,並附帶大量相關程式碼與示例指令碼。本次課程不僅帶來生態最完善的 DeePMD 系列軟體的詳細解讀和使用方法,還將介紹機器學習力場領域具有超高資料效率的等變模型(NequIP/MACE/Allegro),從而顯著降低高昂的資料生產成本。此外,還有機器學習力場領域的 ChatGPT 產品——開箱即用、免費開源的通用大模型(MACE-OFF23,MACE-MP0,DPA 等)的使用與微調技巧。
02
機器學習第一性原理
本次課程介紹了深度學習在第一性原理計算中兩個方面的應用——深度神經網路勢函式和深度學習密度泛函微擾理論,授課內容豐富。透過此次課程,學員能夠快速上手深度學習方法,全面認識DP、MPNN和Allegro等深度學習勢函式模型,深入理解DeepH和DFPT等深度學習密度泛函微擾理論方法;並安排了較多的上機實驗,提供大量相關程式碼與示例教程,幫助學員熟悉各種深度學習第一性原理計算方法的使用,快速復現頂刊論文結果。
01
機器學習分子動力學
第一天:理論與實操並行,開啟分子動力學探索之旅
第一天的課程內容豐富多樣。理論部分從諾貝爾獎的 AI 元年出發,探討 AI 與 SCIENCE 的交叉,介紹科學研究的四正規化,重點闡述了從大資料時代到 AI4SCIENCE 時代,如 Google DeepMind/微軟研究院/Meta FAIR 等著名 AI 團隊的 AI4SCIENCE 工作。接著深入講解了 AI4SCIENCE 時代的分子動力學模擬,包括分子模擬基本方法與發展歷史、經驗力場與第一性原理方法的對比與區別、機器學習力場方法的興起。還介紹了基於機器學習的分子動力學方法在各個領域的應用情況與發展趨勢,以及相關支撐專案,闡述了機器學習的分子動力學的特點、分類和工作流程,以及資料集的常見收集方式與建議。實操內容涵蓋 Linux 系統與超算伺服器的常規操作、虛擬環境(Anaconda 或 Mamba)的使用、Python 的整合開發環境(IDE)的介紹與基本使用、分子模擬軟體介紹,包括 LAMMPS 和 OpenMM 的入門與使用,以及量子化學計算軟體的介紹與快速上手。
第二天:深入機器學習力場模型設計理論與實操
第二天主要聚焦機器學習力場的模型設計。理論方面,快速入門機器學習與深度學習,介紹常見概念與分類、機器學習的發展歷史以及通用近似理論,透過互動的視覺化案例理解神經網路的通用近似理論,解釋神經網路對 GPU 的依賴,講解神經元、反向梯度下降、損失函式、過/欠擬合、殘差連線等基本概念,介紹 ANN、CNN、RNN、TRANSFORMER、ResNet 等經典深度神經網路的基本框架的介紹與特點,並推薦相關學習資源。同時,深入講解科學領域的機器學習模型,包括 AI 模型在 SCIENCE 領域需要遵守的幾個物理約束/物理對稱性,高效描述區域性環境方法的分類與特點,基於描述符的機器學習力場模型如 HDNNPs(BPNN)模型、有機體系的 ANI 模型、生態最好的機器學習力場模型 DeePMD 系列工作,以及基於圖框架的機器學習力場模型等。實操內容包括 DeePMD 的離線安裝與驗證測試、輸入檔案詳解、常見功能及問題分析,綜合使用 LAMMPS 和 DeePMD 執行高精度的分子動力學模擬,分子模擬的資料後處理與分析,以及 DPGEN 軟體的安裝、介紹與工作流程、輸入和輸出檔案引數詳解、跨計算分割槽提交任務示例、常用命令與使用經驗等。
第三天:高階課程聚焦等變模型系列與領域熱點
第三天進入高階課程,探索等變模型系列與領域熱點。講解不變系列模型的總結、等變模型的概念、特點、分類和應用,介紹等變的概念、等變模型的分類與特點、高階等變模型的介紹、群的簡要介紹、SO(3)群的簡單入門與張量積、歐式神經網路(E3NN)的介紹與注意事項、高階等變模型與傳統模型及經驗力場的區別,詳解 Nat. Commun.上高被引的 NequIP 模型的詳解和程式碼框架。實操內容包括 DeePMD 軟體的進階使用與補充講解,包括多 GPU 並行訓練,LAMMPS 以多 GPU 並行方式執行機器學習力場模型,使用 Python 程式碼快速視覺化機器學習力場模型在等變與不變設計上的區別,使用多種機器學習的降維方法結合 K-Means 聚類從分子模擬軌跡中以低冗餘方式提取多幀結構檔案,NequIP 模型的超引數介紹和使用,復現 Nat. Commun.文章結果,使用 wandb 進行超引數調優與訓練過程中各種資訊的視覺化分析。
第四天:聚焦高效/高精度等變模型與通用大模型
第四天主要聚焦高效/高精度的基於 ACE 的等變模型,介紹 ACE 方法、訊息傳遞和等變框架的集大成者 MACE 模型及其在多個領域的應用,認識機器學習力場領域的 ChatGPT 模型及通用大模型,包括有機分子體系的通用大模型 MACE-OFF23、幾乎涵蓋元素週期表所有元素的材料領域的通用大模型 MACE-MP0 以及其他大模型,介紹適用於大規模 GPU 並行框架的等變模型如 Allegro 模型和 SevenNet 模型。實操部分包括 MACE 模型和 Allegro 模型的超引數介紹和使用經驗,MACE 模型與 DeePMD 模型的對比,Libtorch 與 LAMMPS 軟體的編譯,機器學習力場領域的 ChatGPT 的使用與分析,快速上手 MACE-OFF23 和 MACE-MP0 模型,對通用大模型進行微調與分析,以及 DPA-1 和 DPA-2 的介紹與特點。
課程大綱如下:
《基於機器學習的分子動力學》
1. 第一天理論內容
a) 諾貝爾獎的AI元年
i. AI與 SCIENCE的交叉:
b) 科學研究的四正規化
i. 從大資料時代到AI4SCIENCE時代,如Google DeepMind/微軟研究院/Meta FAIR等著名AI團隊的AI4SCIENCE工作介紹
c) AI4SCIENCE時代的分子動力學模擬
i. 分子模擬基本方法與發展歷史
ii. 經驗力場與第一性原理方法的對比與區別
iii. 機器學習力場方法的興起
d) 基於機器學習的分子動力學方法在各個領域的應用情況與發展趨勢,以及相關支撐專案
e) 機器學習的分子動力學的特點,分類和工作流程
f)資料集的常見收集方式與建議
2. 實操內容
a) Linux系統與超算伺服器的常規操
i. ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch以及vim的常見操作
b) 虛擬環境(Anaconda或Mamba)的使用
i. conda create/activate/deactivate/install/info/env等命令
c) Python的整合開發環境(IDE)的介紹與基本使用
i. Python的基本資料型別
ii. Pycharm的常見用法與程式碼除錯,以及虛擬環境的配套
d) 分子模擬軟體介紹
i. LAMMPS的入門與使用
1. 軟體發展趨勢與特點
2. 大規模並行的原理:域分解演算法介紹
3. 輸入檔案的詳細解析與注意事項
4. 相關勢函式和晶格常數的獲取渠道
5. 分子模擬軌跡的後處理與分析:徑向分佈函式與擴散係數
6. 機器學習勢函式在LAMMPS中的使用
ii. OpenMM的入門與使用
1. 軟體發展趨勢與方法特點
2. 執行指令碼與注意事項
3. GAFF(Amber)力場的簡要介紹
4. 使用sobtop軟體和Python快速、自動化生成任意有機分子的力場引數檔案(同時也適用GROMACS)
e)量子化學計算軟體的介紹與快速上手
i.量子化學中常見理論方法的分類與區別,DFT相關泛函的簡要介紹
ii. CP2K軟體的介紹與快速上手:
1. 軟體發展趨勢與特點
2. 安裝與使用,以及贗勢檔案的介紹與獲取
3. 使用MULTIWFN軟體快速生成CP2K的單點能或分子動力學模擬的輸入檔案
4. 輸入檔案的欄位解釋與注意事項
5. 使用Python實現自動化提交任務與任務後處理
6. 在CP2K中使用GFN1-xTB方法,適合新手快速入門的理論方法
iii. ORCA軟體的介紹與特點:
1. 軟體發展趨勢與特點
2. 使用MULTIWFN軟體快速生成單點能或分子動力學模擬的輸入檔案,以及注意事項
3. 使用Python實現自動化提交任務與任務後處理
4. ωB97M-V泛函的介紹與在ORCA中的使用
iv.XTB軟體的發展介紹與特點:
1.軟體發展趨勢與特點:發展迅猛!年被引用增長率高達87%;能夠執行單點能,幾何最佳化,分子模擬等功能
2. 安裝與常用命令
3. GFN系列方法的簡要介紹
4. 使用Python實現自動化提交任務與任務後處理
v. DFTB(簡單介紹)
1. 執行單點能,幾何最佳化,分子模擬等
2. 使用Python實現自動化提交任務與任務後處理
f) 案例:傳統力場方法與機器方法力場方法的對比
i. 使用OpenMM執行有機體系的分子模擬
ii. 基於機器學習力場方法,結合LAMMPS執行合金體系,鋰電池體系的分子模擬
iii. 使用MDtraj等軟體進行模擬結果的後處理分析與Python高質量科研繪圖,包括:能量與力的預測曲線,徑向分佈函式,鍵長鍵角二面角分佈,電池電壓曲線等.
3. 第二天理論內容(機器學習力場的模型設計)
a) 機器學習與深度學習的快速入門
i. 常見概念與分類
ii.機器學習的發展歷史以及通用近似理論:
1.透過互動的視覺化案例,理解神經網路的通用近似理論
2. 解釋神經網路對GPU的依賴
iii. 神經元,反向梯度下降,損失函式,過/欠擬合,殘差連線等基本概念
iv. ANN, CNN, RNN, TRANSFORMER,ResNet等經典深度神經網路的基本框架的介紹與特點
v. 相關學習資源的推薦
vi. Pytorch與Tensorflow的發展現狀
b) 科學領域的機器學習模型介紹
i.AI模型在SCIENCE領域需要遵守的幾個物理約束/物理對稱性
ii.高效描述區域性環境方法的分類與特點
1. 基於核方法或深度神經網路方法
2. 基於描述符或分子圖方法
iii. 基於描述符的機器學習力場模型
1. HDNNPs(BPNN)模型詳解與發展
a) 機器學習力場的開篇工作
2. 有機體系的ANI模型的介紹
3. 生態最好的機器學習力場模型
a) DeePMD系列工作的詳解
b) DeePMD的發展和幾種描述符的介紹,特點與應用
c) DeePMD的壓縮原理與特點
d) DPGEN的工作原理
iv. 基於圖框架的機器學習力場模型
1. 圖神經網路、圖卷積網路和訊息傳遞神經網路的發展與理解
2. 圖神經網路的機器學習力場模型的經典模型
3. SchNet模型的特點與程式碼實現
4.基於三維空間建模的完備性與效率的幾何系列模型:
a)DimeNet, SphereNet和ComENet模型的詳解與比較
5. 其他機器學習力場模型概述:DTNN和PhysNet等
c) 實操內容
i. DeePMD的離線安裝與驗證測試
ii. DeePMD輸入檔案詳解:與理論課的模型框架相對應地進行超引數設定的講解,及使用經驗
iii. DeePMD的常見功能,包括訓練,重啟,凍結,壓縮和測試
iv. DeePMD的常見問題與訓練過程的分析
v. 綜合使用LAMMPS和DeePMD, 執行高精度的分子動力學模擬
vi. 分子模擬的資料後處理與分析
vii. DPGEN軟體的安裝,介紹與工作流程
viii. DPGEN軟體的輸入和輸出檔案:param.json和machine.json檔案的引數詳解
ix. DPGEN軟體跨計算分割槽的提交任務示例;不同量化級別方法的示例
x. DPGEN軟體的常用命令與使用經驗,以及不同體系收斂的參考標準
4. 第三天(高階課程 —— 等變模型系列,領域熱點)
a) 不變系列模型的總結
b)等變模型的概念,特點,分類和應用
c)等變的概念
d) 等變模型的分類與特點
e) 高階等變模型的介紹:超高資料利用率與優秀的泛化能力
f) 群的簡要介紹
g) SO(3)群的簡單入門與張量積
h) 歐式神經網路(E3NN)的介紹與注意事項
i) 高階等變模型與傳統模型,經驗力場的區別
j) 常見誤區的提醒
k) 等變機器學習力場的經典模型
i. Nat. Commun.上高被引的NequIP模型的詳解和程式碼框架
l) 實操內容
i. DeePMD軟體的進階使用與補充講解,包括多GPU並行訓練
ii. LAMMPS以多GPU並行方式執行機器學習力場模型
iii. 使用Python程式碼快速視覺化機器學習力場模型在等變與不變設計上的區別
iv. 使用多種機器學習的降維方法,結合K-Means聚類,從分子模擬軌跡中以低冗餘方式提取多幀結構檔案。
v. NequIP模型的超引數介紹和使用
vi. 復現Nat. Commun.文章結果,包括計算徑向分佈函式、鍵角分佈等性質
vii. 使用wandb進行超引數調優與訓練過程中各種資訊的視覺化分析
5. 第四天
a) 高效/高精度的基於ACE的等變模型
b) ACE方法,訊息傳遞和等變框架的集大成者:MACE模型
c) 方法的完備性,效率和系列發展
d) MACE模型在多個領域的應用
e) 機器學習力場領域的ChatGPT模型
f) 有機分子體系的通用大模型:MACE-OFF23
g)幾乎涵蓋元素週期表所有元素的材料領域的通用大模型:MACE-MP0
h)其他大模型的簡要介紹
i) 適用於大規模GPU並行框架的等變模型
i. 訊息傳遞模型的不足
ii. NequIP團隊在Nat. Commun.上的新作--Allegro模型的方法詳解與比較
iii. SevenNet模型的介紹與比較
j) 實操部分
i. MACE模型和Allegro模型的超引數介紹和使用經驗
ii. MACE模型與DeePMD模型的對比,包括精度,資料效率等
iii. Libtorch與LAMMPS軟體的編譯
iv. 機器學習力場領域的ChatGPT的使用與分析
v. 快速上手MACE-OFF23和MACE-MP0模型
vi. 對通用大模型進行微調與分析
vii.DPA-1和DPA-2的介紹與特點
02
機器學習第一性原理
第一部分:第一性原理基礎和Python程式設計
1. 理論內容
(1) 課程引言
① 深度學習在第一性原理的應用和優勢
② 課程內容安排
(2) 第一性原理計算介紹
① 第一性原理計算的發展歷程——從薛定諤方程到密度泛函理論
② 密度泛函理論(DFT)——從波函式到電子密度
③ 常用的原子建模環境軟體——ASE和pymatgen
④ 常用的第一性原理計算軟體——VASP和GPAW
2. 實操內容
(1) Linux系統的常用命令和超算伺服器的使用
① 命令列終端軟體——iTerm和Xshell
② ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch等命令列操作
③ vim文字編輯
(2) Python程式語言基礎和整合開發環境(IDE)的介紹
① 資料型別、函式、類和物件、模組
② Pycharm軟體的使用和常見用法
(3) Python環境管理軟體Anaconda的使用
① 使用Conda命令建立環境、安裝Python庫
② 使用Conda命令管理環境和環境的回溯
③ Pytorch的安裝和呼叫GPU訓練模型
(4) 原子建模環境軟體ASE的使用
① 使用ASE對體系結構進行建模,得到cif檔案
② ASE和GPAW軟體結合使用
(5) 第一性原理計算軟體GPAW的使用
① 第一性原理計算軟體的引數設定和結果收斂性檢查
② 以晶體材料為例,使用GPAW進行第一性原理計算
③ 體系能量、原子受力和極化等性質的計算
第二部分:深度學習在第一性原理計算中的應用—神經網路勢函式(一)
1. 課程內容
(1)深度學習的發展歷程和優勢
① 人工神經網路與萬能近似定理
② 以ResNet為例入門深度神經網路
③ 常用的神經網路框架——Pytorch介紹
④ 人工智慧課程相關的學習資源推薦
(2)神經網路勢函式
① 從高斯核迴歸到神經網路勢函式
② 神經網路勢函式的基本假設——局域性假設和對稱性要求
③ 原子結構和周圍化學環境的表徵
④ BPNN描述符和DP深度神經網路勢函式
⑤ 神經網路勢函式作為分子動力學模擬的力場模型
2. 實操內容
(1) 深度學習專案實踐——ResNet殘差網路用於手寫數字識別
① 手寫資料集的準備
② 訓練ResNet模型
③ ResNet模型的測試和評估
④ 熟悉Pytorch的使用
⑤ 熟悉使用GPU訓練神經網路模型
(2) DeePMD的使用
① DeePMD的離線安裝與測試
② DeePMD模型的訓練和驗證
③ 使用DeePMD模型進行高效的分子動力學模擬
④ 資料的處理和分析
⑤ 使用wandb視覺化訓練過程
第三部分:深度學習在第一性原理計算中的應用—神經網路勢函式(二)
1. 課程內容
(1) 圖神經網路和MPNN訊息傳遞神經網路
① 具有不變性的訊息傳遞神經網路
② 晶體CGCNN
③訊息傳遞神經網路的一般框架和組成
(2)SchNet和DimeNet++等不變訊息傳遞神經網路的介紹
① SchNet和DimeNet++的特點
② DimeNet++中角度資訊的引入——球諧基函式
③ 深入理解訊息傳遞過程——圖卷積
④ 圖卷積和影象卷積的區別
2. 實操內容
以不變訊息傳遞神經網路SchNet為例,介紹SchNetPack的安裝和使用,包括:
① QM9資料集的準備
② 使用QM9資料集訓練SchNet模型
③ 模型對體系能量和原子受力預測精度的評估
④ 將SchNet模型用於分子動力學模擬
⑤ 原子對徑向分佈函式等性質的計算
第四部分:深度學習在第一性原理計算中的應用—神經網路勢函式(三)
1. 課程內容
(1) 具有等變性的訊息傳遞神經網路
① 等變的概念
② 等變性和不變性的區別
③ 理解等變性——群論的初步介紹
④等變訊息傳遞神經網路和不變等變訊息傳遞神經網路的對比
(2)常見的等變模型——PaiNN、NequIP和Allegro模型
① PaiNN——透過距離矩陣實現等變性
② NequIP和Allegro——透過不可約表示實現等變性
2. 實操內容
(1) 高精度、輕量化的PaiNN等變神經網路
① PaiNN模型程式碼的詳解
② PaiNN模型的訓練和使用
③ SchNet和PaiNN模型的對比——精度
④ 切身體會不變性和等變性訊息傳遞神經網路的區別
(2) NequIP模型的安裝和使用,以及Nature Communications頂刊論文結果復現
① NequIP軟體包的安裝
② 超引數的設定和介紹
③復現Nature Communications論文結果
第五部分:深度學習在第一性原理計算中的應用——高階內容
1. 課程內容
(1) 在神經網路勢函式模型中加入長程相互作用
① 使用神經網路預測離子電荷
② 基於離子電荷計算長程相互作用
(2)利用神經網路對密度泛函理論哈密頓量進行建模
①DeepH方法
②深度學習密度泛函微擾理論(DFPT)方法
(3) 課程進階:通用原子體系大模型——MACE框架
① 原子簇展開(ACE)方法
② MACE:MPNN和ACE方法的結合
2. 實操內容
(1) Allegro模型的安裝和使用以及Nature Communications頂刊論文結果復現
① Allegro程式碼框架詳解
② Allegro軟體的安裝和使用
③ Allegro和LAMMPS分子動力學軟體結合使用
④Nature Communications論文結果復現,
(2)聲子譜的計算
① 使用Phonopy軟體計算固體材料的聲子譜
②使用深度學習勢函式加速聲子譜的計算
免費贈送錄播課程(可以滑動檢視)
一、機器學習材料
二、深度學習材料
三、材料基因組
四、CP2K專題
機器學習材料
第一天
理論內容
1.機器學習概述
2.材料與化學中的常見機器學習方法
3.應用前沿
實操內容
Python基礎
1.開發環境搭建
2.變數和資料型別
3.列表
4.if語句
5.字典
6.For和while迴圈
實操內容
Python基礎(續)
1.函式
2.類和物件
3.模組
Python科學資料處理
1.NumPy
2.Pandas
3.Matplotlib
第二天
理論內容
1.線性迴歸
1.1 線性迴歸的原理
1.2 線性迴歸的應用
2. 邏輯迴歸
2.1原理
2.2 使用方法
3. K近鄰方法(KNN)
3.1 KNN分類原理
3.2 KNN分類應用
4. 神經網路方法的原理
4.1 神經網路原理
4.2神經網路分類
4.3神經網路迴歸
實操內容
1.線性迴歸方法的實現與初步應用(包括L1和L2正則項的使用方法)
2.邏輯迴歸的實現與初步應用
3.KNN方法的實現與初步應用
4.神經網路實現
專案實操
1.利用機器學習設計高體積模量高熵合金
2.訓練機器學習模型預測多孔材料的催化效能
這兩個實操專案同時穿插講解如下內容
A1 機器學習材料與化學應用的典型步驟
A1.1 資料採集和清洗
A1.2 特徵選擇和模型選擇
A1.3 模型訓練和測試
A1.4 模型效能評估和最佳化
第三天
理論內容
1.決策樹
1.1決策樹的原理
1.2決策樹分類
2.整合學習方法
2.1整合學習原理
2.2隨機森林
2.3Bosting方法
3.樸素貝葉斯機率
3.1原理解析
3.2 模型應用
4. 支援向量機
4.1分類原理
4.2核函式
實操內容
1.決策樹的實現和應用
2.隨機森林的實現和應用
3.樸素貝葉斯的實現和應用
4.支援向量機的實現和應用
專案實操
1.使用實驗資料訓練機器學習模型預測金屬有機框架材料中的氣體吸附
2.透過機器學習方法篩選新型四元半導體化合物
這兩個實操專案同時穿插講解如下內容
A1 模型效能的評估方法
A1.1 交叉驗證:評估估計器的效能
A1.2 分類效能評估
A1.3 迴歸效能評估
第四天
理論內容
1. 無監督學習
2.1 什麼是無監督學習
2.2 無監督演算法——聚類
2.3 無監督演算法——降維
2. 材料與化學資料的特徵工程
2.1分子結構表示
2.2 獨熱編碼
3. 資料庫
3.1材料資料庫介紹
3.2 Pymatgen介紹
實操內容
1. 分子結構的表示與特徵提取
2. 聚類、降維等無監督學習方法應用於分子特徵處理
專案實操
1. 在機器學習技術的指導下加速鈣鈦礦材料的發現
2. 機器學習對CO2 封存的解釋和預測
第五天
專案實操
1. 基於分子特徵和邏輯迴歸預測分子性質
2. 基於分子特徵的無監督學習綜合應用
專案實操
1. 透過機器學習預測 NiCoFe 氧化物催化劑的活性
2. 利用基於成分的能源材料描述符進行機器學習模型的綜合預測
學習目標
機器學習(ML)在材料研究中的應用,讓學員能夠掌握學習理論知識及熟悉程式碼實操,文章的復現,學會anaconda、Python、pymatgen等軟體、以及機器學習資料採集及清洗、分子結構表示及提取、模型訓練和測試、效能評估及最佳化,KNN、線性迴歸方法,學會機器學習材料預測,材料分類,材料視覺化,多種機器學習方法綜合預測等操作技能,獨自完成自己的課題研究專案
深度學習材料
第一天上午
理論內容
1.材料資料庫:介紹Material Project, OQMD, AFLOW等資料庫的特點和使用方法。
2.深度學習入門:基礎概念,包括神經網路、啟用函式、損失函式等。
3.圖神經網路:圖神經網路的基本原理和在材料科學中的應用。
4.材料特徵工程:如何從材料資料中提取有用的特徵。
實操內容
Pytorch深度學習框架演練:安裝和配置Pytorch,基礎的神經網路模型構建和訓練。
第一天下午
實操內容
1.Pymatgen介紹及結構檔案生成
2.Pymatgen構建機器學習特徵:
3.ASE(Atomic Simulation Environment)的使用
4.爬蟲獲取二維資料集
5.材料結構分析與視覺化
第二天上午
實操內容
1. AFLOW資料庫的資料獲取
1.1 AFLOW資料庫功能練習
1.2. 爬蟲獲取AFLOW資料庫的資料
2. OQMD資料庫
2.1 OQMD資料庫功能練習
2.2 OQMD資料庫的資料獲取
第二天下午
實操內容
1. material project資料庫
1.1 新版material project獲取材料XRD、DOS圖、能帶圖、吸收譜等資料
1.2 Pymatgen按照屬性要求獲取material project材料資料
2. 材料特徵工程工具matminer演練
2.1 matminer獲取材料資料集
2.2 matminer生成材料描述符演練
第三天上午
理論內容
卷積神經網路(CNN)基礎
卷積層、池化層、卷積核、特徵圖
經典的CNN架構,如LeNet、AlexNet、VGGNet、GoogLeNet和ResNet
迴圈神經網路(RNN)基礎
時間步和隱藏狀態、梯度消失和梯度爆炸、RNN的變體
實操和演示內容
基於CNN方法訓練掃描電鏡影象對鋰離子陰極成分及狀態的預測
基於RNN和CNN輔助識別有序結構
第三天下午
實操內容
基於資料驅動的功能材料開發案例二(晶體圖神經網路實現材料屬性預測):
1. 用PYG搭建圖神經網路(GCN、GAT)
2. 晶體圖神經網路CGCNN模型程式碼原理
3. 利用晶體圖神經網路實現材料屬性預測
第四天上午
理論內容
長短期記憶網路、門控網路的架構與原理
輸入門、遺忘門、輸出門
自注意力機制、多頭注意力機制、位置編碼、殘差連線、編碼器和解碼器
Transformer
實操內容
基於LSTM、GRU的分子生成模型
Transformer用於聚合物性質預測
第四天下午
理論內容(約1小時)
自迴歸模型、自編碼器、序列生成模型
變分自編碼器(VAE)基礎
生成對抗網路(GAN)基礎
實操內容(約2小時):
GAN模型的構建
訓練GAN進行材料屬性預測
GAN在材料設計中的案例研究
自編碼器和的訓練
變分自編碼器在材料設計中的應用
培訓目標
1.學習Material Project,AFLOW,OQMD三大材料資料庫的資料獲取方法。
2.學習卷積神經網路、和晶體圖神經網路等深度學習方法在材料預測方面的應用。
3.學習主流材料資料庫的資料獲取方法;
4.深度學習方法在材料預測方面的應用。
部分案例圖片
材料基因組
第一天
Python講解與實操
理論內容:
1.材料基因組概述
2.材料基因組的基本方法
3.材料資料庫material project, OPMD, AFLOW
實操內容 :
Python基礎
1.開發環境搭建
2.變數和資料型別
3.列表
4.if語句
5.字典
6.For和while迴圈
實操內容 :
Python基礎(續)
1.函式
2.類和物件
3.模組
4.Python科學資料處理
5.NumPy
6.Pandas
7.Matplotlib
第二天
材料基因組與資料庫
實操內容:
1. Scikit-learn機器學習操作入門(約1小時)
2. AFLOW資料庫
2.1 AFLOW資料庫功能練習
2.2. AFLOW資料庫的資料獲取
實操內容 :
1. OQMD資料庫
1.1 OQMD資料庫功能練習
1.2 OQMD資料庫的資料獲取
2. material project資料庫
2.1 Pymatgen練習
2.2 Pymatgen獲取material project材料資料
第三天
結構資料驅動的高通量計算
實操和演示內容:
基於結構資料驅動的高通量計算:
1. pymatgen大批次結構獲取
2. 基於pymatgen的計算檔案生成
3. 大批次計算結果的獲取與統計
實操內容:
案例一:基於資料驅動的功能材料開發(合金材料)
1. 背景介紹
2. 資料獲取
3. 構建特徵
4. 機器學習
5. 討論與評測
穿插常見機器學習演算法的介紹
第四天
基於資料驅動的多個功能材料開發案例實操
案例二:基於資料驅動的功能材料開發(半導體材料)
1. 背景介紹
2. 資料獲取
3. 構建特徵
4. 機器學習
5. 討論與評測
穿插材料特徵工程的介紹
案例三:基於資料驅動的功能材料開發(鈣鈦礦材料)
1. 背景介紹
2. 資料獲取
3. 構建特徵
4. 機器學習
5. 討論與評測
CP2K專題
第一天
CP2K與量子力學
理論內容
1. CP2K框架
2. DFT(密度泛函理論)基礎
3. CP2K的核心:GAPW(Gaussian-augmented plane wave approach)介紹
4. CP2K的input
QM(量子力學)計算實操內容-1
1. 基組檔案和勢場檔案選取
2. 分子體系單點能計算
3. 分子結構最佳化
4. 分子結構和電子結構的視覺化
理論內容
1.分子動力學模擬介紹
2.週期性邊界條件
3.MD模擬系綜
4.勢函式
MM(分子力學)計算實操內容-1
1. 溶劑體系的構造與視覺化
2. L-J勢場的引數設定
3. 利用L-J勢場對溶劑體系的模擬
4. 分子動力學模擬分析(徑向分佈函式RDF,均方位移MSD,模擬退火…)
第二天
量子力學實操
理論內容
1. 週期性體系
2. 平面波與倒空間
3. DOS(態密度)知識基礎
4. 能帶知識基礎
QM(量子力學)計算實操內容-2
1. 晶體結構的獲取與視覺化
2. 晶體結構的單點能和結構最佳化
3. DOS計算和分析
4. 能帶計算和分析
理論內容
CP2K、GROMACS和力場型別介紹
MM(分子力學)計算實操內容-2:
1. CP2K、GROMACS計算MD詳解
2.熱浴、退火計算與分析
3.VMD視覺化軌跡與分析
4.Gromacs對軌跡進行後處理分析
5.自由能勢能面的模擬
第三天
量子力學實操
理論內容
1. 晶體表面和晶面指數
2. 過渡態理論介紹
QM(量子力學)計算實操內容-3
1. 晶體表面的構造與視覺化
2. 晶體表面的結構最佳化
3. 晶體表面的分子吸附與成鍵狀態分析
4. NEB方法計算離子遷移路徑
理論內容
1. AIMD(從頭計算分子動力學)的基本知識和應用
2. 自由能勢能面介紹
AIMD(從頭計算分子動力學)計算實操內容
1.Cu顆粒熔化過程的MD模擬
2.Cu顆粒在CO2中結構演變的MD模擬
3.催化劑作用下N2分解的二維自由能曲面計算
第四天
QM+MM
理論內容
元動力學(metadynamics)介紹
QM(量子力學)計算實操內容-4
1. metadynamics方法的關鍵引數設定
2. metadynamics方法計算分子解離過程
3. 鋰離子電池電極材料鋰離子遷移過渡態的計算
理論內容
1.QM/MM理論介紹
2.QM/MM在不同體系的應用
QM/MM計算實操內容-2
1. 一般的溶劑化蛋白的處理流程
2. 蛋白晶體的準備
3. 結構的能量最小化
4. 對體系的預平衡
5. 無限制的分子動力學模擬
6. RMSD、RMSF、能量變化及蛋白的迴旋半徑分析
第五天
QM+AIMD
理論內容
1. TDDFT計算激發態的介紹
2. 振動熵和零點能的計算
QM(量子力學)計算實操內容-5
1. 分子激發態的計算和結果分析
2. 電化學催化ORR(氧還原反應)過程的計算矯正和臺階圖繪製
理論內容
1.不同體系下AIMD建模
2. CP2K電子結構與MD
文獻案例分析 實操內容
1.AIMD研究Au/TiO2對CO的催化機理
2.利用DFT和AIMD研究N5H對CO2的催化機理
講師介紹
機器學習分子動力學專題
主講老師來自國內高校胡老師授課,已發表SCI論文近20餘篇,研究方向為基於機器學習的分子動力學模擬,包括 構建高效、高精度的AI分子力場模型,採用主動學習或大模型的知識蒸餾方法來獲取高質量訓練資料集, 開發基於C++的高效能的多GPU並行的LAMMPS的外掛。熟知各種AI模型DeePMD, SchNet, DimeNet, SphereNet, DPA2和等變系列模型的Nequip, MACE, Allegro等,精通所有量子化學軟體!
機器學習第一性原理專題
主講老師來自國內985重點高校,擁有兩年海外留學經歷,計算物理和計算材料研究方向,參與多項國家自然科學基金面上專案。熟悉深度學習方法和第一性原理計算及相關軟體的使用,具有豐富的程式設計經驗,對深度學習方法應用於第一性原理計算有深入的研究和優秀的成果,在Physical Review Letters、Physical Review B等PR系列期刊和Journal of Physical Chemistry C等期刊上發表15餘篇論文。
授課時間
機器學習分子動力學專題
2024.12.21-----2024.12.22(上午09:00-11:30 下午13:30-17:00)
2024.12.28-----2024.12.29(上午09:00-11:30 下午13:30-17:00)
機器學習第一性原理專題
2024.12.23-----2024.12.26(晚上19:00-22:00)
2024.12.30-----2024.12.31(晚上19:00-22:00)
2025.01.04-----2025.01.05(上午09:00-11:30 下午13:30-17:00)
培訓費用
機器學習分子動力學 機器學習第一性原理
公費價:每人每個課程¥4980元 (含報名費、培訓費、資料費)
自費價:每人每個課程¥4680元 (含報名費、培訓費、資料費)
優惠福利:
福利一:同時報名兩個課程¥9680元 報二贈一(含報名費、培訓費、資料費)
免費參加一年課程價格:16680元 (含報名費、培訓費、資料費)
福利二:現在報名一門贈送一門往期課程回放
報名兩門贈送四門往期回放
優惠三:提前報名繳費學員可得300元優惠(僅限前15名)
報名費用可開具正規報銷發票及提供相關繳費證明、邀請函,可提前開具報銷發票、檔案用於報銷
培訓特色及福利
1、課程特色--全面的課程技術應用、原理流程、例項聯絡全貫穿
2、學習模式--理論知識與上機操作相結合,讓零基礎學員快速熟練掌握 3、課程服務答疑--主講老師將為您實際工作中遇到的問題提供專業解答
授課方式:透過騰訊會議線上直播,理論+實操的授課模式,老師手把手帶著操作,從零基礎開始講解,電子PPT和教程開課前一週提前傳送給學員,所有培訓使用軟體都會發送給學員,有什麼疑問採取開麥共享螢幕和微信群解疑,學員和老師交流、學員與學員交流,培訓完畢後老師長期解疑,培訓群不解散,往期培訓學員對於培訓質量和授課方式一致評價極高!
學員對於培訓給予高度評價
報名諮詢方式(請掃描下方二維碼新增微信)
聯絡人:江老師
微信:13017692038
電話:13017692038
引用往期參會學員的一句話:
發現真的是腳踏實地的同時 需要偶爾仰望星空
非常感謝各位對我們培訓的認可! 祝願各位心想事成!