導語
控制複雜物理系統的演化是科學和工程領域的一項重要任務。經典控制技術存在適用性有限的問題,而近期基於深度學習和強化學習的方法在系統動力學約束下,往往難以最佳化長期控制序列。西湖大學助理教授吳泰霖課題組近期針對複雜物理系統提出了一種新的生成式控制方法。該方法引入了物理系統的擴散控制(Diffusion Physical Systems Control,簡稱DiffPhyCon),透過在整個狀態軌跡和控制序列上同時最小化控制目標和學習到的生成能量模型,可以在物理系統動力學約束下,對控制目標進行全域性最佳化。此外,該方法還引入了先驗重加權技術,用於發現與訓練分佈顯著偏離的更優控制序列。多個控制任務上的效果驗證了該方法優於經典控制方法以及現有的深度學習和強化學習方法。有趣的是,DiffPhyCon 揭示了 “快閉慢開” 是一種高效的水母拍動模式,這與流體動力學領域的已有發現一致。該工作發表於即將在加拿大溫哥華召開的人工智慧領域國際頂級會議NeurIPS 2024上。
關鍵詞:複雜物理系統控制,人工智慧,能量模型,擴散模型,先驗重加權
魏龍| 作者
論文題目:DiffPhyCon: A Generative Approach to Control Complex Physical Systems 論文地址:https://arxiv.org/abs/2407.06494 GitHub:https://github.com/AI4Science-WestlakeU/diffphycon 論文作者:魏龍*,胡佩炎*,馮睿琪*,馮浩東,杜奕軒,張濤,王銳,汪躍,馬志明,吳泰霖†
1. 背景介紹
複雜物理系統的動力學建模是科學和工程領域中的一類重要問題。通常,我們不僅關心物理系統的演化行為,還希望注入時變訊號來引導其演化,並且最佳化特定的目標,這就是複雜物理系統控制問題。這個問題在科學和工程領域廣泛存在,例如,可控核聚變控制、流體控制、水下裝置和航天控制等 (如圖1所示) ,具有重要的科學價值和廣泛的應用前景。
圖1. 複雜物理系統控制的典型應用場景。
該問題具體描述為:對於給定的控制目標,系統的動力學約束 和系統初始狀態u0,求解最優的控制序列w*,使得由w*產生的系統狀態軌跡u(w*)和w*共同最最佳化控制目標,即
這裡u和w的長度T是透過時間離散化後得到的系統軌跡或控制序列的長度, 表示系統動力學約束。這篇論文考慮更為一般的資料驅動場景,即 的具體表達形式可以是已知的,也可以是未知的。在第一種情況下, 通常由一組偏微分方程 (Partial differential equation, PDE) 表示,透過數值模擬來生成訓練資料;在第二種情況下,只能透過離線收集的觀測資料作為訓練集。第二種情況在實際控制問題中更為常見,在控制效果方面也更有挑戰性,因為不能線上訓練控制模型。每條訓練軌跡包含如下四元組:初始狀態u0、控制序列w=[w1,…,wT]、狀態軌跡u=[u1,…,uT]、控制目標值(u,w)。問題的設定具體見圖2。
圖2. 複雜物理系統控制的問題示意圖。
求解該問題面臨多重挑戰。首先,物理系統通常是高度非線性的,並且經過時空離散化後,收集到的狀態軌跡資料往往是高維的。此外,與機器人控制領域不同,物理系統控制領域的專家軌跡難以獲得,訓練集中的控制序列通常遠非最優。因此,求解該問題的關鍵在於如何在訓練分佈之外找到接近最優的解,同時確保控制序列和生成的狀態軌跡符合物理系統的動力學。
儘管已有多種控制技術試圖解決物理系統控制問題,但都未能完全應對上述挑戰。傳統PID控制雖然高效,但適用範圍有限,尤其不適用於多輸入多輸出系統。模型預測控制 (MPC) 雖然更通用,但計算成本高且需要顯式的系統動力學模型,這在我們的假設下難以獲取。近年來,基於監督學習和強化學習的方法取得顯著進展,但這些方法要麼存在短視缺陷,即長時間範圍內控制效果不佳;要麼產生不符合物理系統動力學的不合理軌跡。
2. 方法介紹
這篇論文提出一種全新的生成式控制方法 DiffPhyCon 用於求解問題(1)。它藉助能量模型 (Energy-based model) 對物理系統約束建模,全域性求解控制序列與系統狀態。接著用擴散模型學習該能量模型,並以控制目標為生成條件或引導手段取樣控制序列,最後將控制序列輸入到求解器或者真實環境中測試。此外,還提出先驗重加權技術,以此生成比訓練集更優的控制序列。DiffPhyCon 的創新之處在於:利用擴散模型善於學習高維資料分佈的優勢,解決系統動力學的高維非線性挑戰;並透過先驗重加權技術,解決訓練集中控制序列遠離最優解的挑戰。該方法示意圖見圖 3。
圖3. 論文提出的 DiffPhyCon 方法示意圖。該方法透過學習去噪模型,能夠從噪聲開始,在控制目標的引導下和先驗重加權技術的輔助下,同時取樣到控制序列和狀態軌跡,取得顯著優於訓練集的控制效果。
2.1 能量模型
DiffPhyCon 從能量模型最佳化的角度來解決問題(1)。它將物理約束 建模為一個引數化的能量模型 E θ (u,w,c) ,這裡c表示控制條件,即初始狀態u0、邊界條件等。能量模型和資料的觀測機率之間存在如下的對應關係:p(u,w|c)∝exp{(-Eθ(u,w,c))},即Eθ(u,w,c)越低,或者等價地,p(u,w|c) 越高,意味著w和u更好地滿足物理約束。透過引入能量模型,問題(1)可以轉換為:
其 中λ是一 個超引數。也就是說,我們希望求解出來的控制序列及其產生的狀態軌跡既具有儘可能低的能量,又能最小化控制目標。
訓練:
但是直接最佳化能量模型是困難的,我們轉而利用擴散模型來估計Eθ的梯度 ∇ z Eθ[1],這裡z=[u,w]來表示u和w拼接起來的變數。然後,用引數 為θ的 去噪網路 ϵ θ來近似∇zEθ,學習每個去噪步驟中應該去除的噪聲。ϵθ採用和擴散模型DDPM[2]中相似的損失函式訓練。
控制最佳化:
在去噪網路ϵθ訓練完成後,問題(2)可以透過Langevin取樣過程進行最佳化。我們從一個初始樣本開始,在控制目標的的引導下,從k=K到k=1迭代執行以下采樣過程,就得到最佳化問題(2)的最終解:
其中zk=[uk,wk]。這裡是從zk估計出的無噪聲樣本,並且這裡採用訓練完成的去噪網路ϵθ替換了∇zEθ。
2.2 先驗重加權
動機:
如上所述,在物理系統控制中,一個關鍵挑戰在於獲得遠優於訓練資料集中的控制序列。儘管公式(3)的取樣過程包含了控制目標的引導,但生成的控制序列仍然受限於訓練資料集中控制序列的先驗分佈 p(w|c) 的影響,這促使我們探索減輕這種先驗影響的策略。
從機率分解p(u, w|c)=p(w|c)p(u|w,c)出發, 我們引入一個可調節的超引數γ >0作為指數來調整 p(w|c) 的影響,從而得到 p(u, w|c) 的一個先驗重加權版本的機率分佈:
其中Z是一個歸一化常數,這裡“重加權”的含義即是先驗分佈p(w|c) 能夠發揮的影響取決於超引數γ 。透過將原始的能量模型Eθ(u,w,c) 替換為與pγ(u, w|c) 對應的先驗重加權的能量模型E(γ)(u, w, c),問題(2)可以轉換為:
這樣一來,問題(2)相當於問題(5)在γ=1時的退化版本。我們假設問題(2)的全域性最優解位於聯合分佈p(u, w|c)的低機率區域 (這個假設與前文中訓練集裡面控制序列普遍遠非最優的設定一致,因此是合理的) 。當取0 <γ<1時,對問題(5)進行最佳化,會增加從p(u, w|c)的低機率區域取樣的可能性,即增加了在全域性最優解處取樣的機率,同時最小化控制目標,這樣生成的控制序列將優於退化版本問題(2)的最佳化結果。先驗重加權的直觀理解如圖 4所示。< pan>
圖4. DiffPhyCon方法中的先驗重加權技術的示意圖。透過將重加權的超引數γ設定為小於1,能夠使得先驗重加權的機率分佈pγ(u, w)更加平坦,從而增加最佳化過程中在全域性最優解(下圖中紅色點)處取樣的機率。
訓練:
為了學習E(γ)(u, w, c),我們對等式(4)的兩邊先取對數,再關於(u, w)取梯度,就可以將其梯度引數化為兩部分之和:
其中是-∇log p(w|c)的引數化模型。注意這裡∇log Z消失了,因為Z是一個常數。由於∇ Eθ(u, w, c)已經透過上文中學習到的去噪網路ϵθ近似,因此只需要引入一個新的去噪網路ϵΦ 來近似。 ϵ Φ 的訓練損失函式和ϵθ類似。
控制最佳化:
在ϵθ和ϵΦ都訓練完成之後,透過迭代以下采樣過程最佳化問題(5):
其中zk=[uk,wk]。這個迭代方案與公式(3)的區別在於它使用了一個額外的取樣步驟,即在每一個迭代步,根據ϵΦ預測的噪聲來二次更新wk。
3. 實驗結果
論文在三個具有挑戰性的任務上評估了 DiffPhyCon 方法的效果:
(1)一維 Burgers 方程控制:透過控制外力項,使系統的最終狀態與目標狀態一致。
(2)二維水母運動控制:透過控制水母的張開角度,最大化水母平均運動速度並最小化能量消耗,同時滿足週期性條件。
(3)二維煙霧間接控制:透過間接控制外部力場,最小化從非目標出口逸出的汙染物比例。
實驗設定詳見論文。對比方法包括經典控制方法 (PID、MPC) 、最新的監督學習方法 (SL) 、常用的模仿學習方法 (BC) 和強化學習方法 (SAC、BPPO) 。為了增加挑戰性,實驗不僅包括常規的全區域可觀測 (FO) 和全區域可控制 (FC) ,還設定了部分割槽域可觀測 (PO) 和部分割槽域可控制 (PC) 的場景。此外,實驗評估了帶有先驗重加權的完整版 DiffPhyCon 和不帶此技術的退化版 DiffPhyCon-lite,即 γ= 1的效果。
結果顯示,DiffPhyCon 方法在這三個任務中均表現出色,相比基準方法,優勢明顯,尤其在部分觀測和部分 / 間接控制場景中,表現出更強的泛化性。這些結果證實了生成式控制是實現物理系統控制的有效路徑。例如在水母運動控制中,驗證了“快閉慢開”是一種高效的控制方法,這和流體力學的已有研究結論一致 [3]。透過進一步使用先驗重加權技術,DiffPhyCon能夠在測試集上得到與訓練集中顯著不同的控制序列模式。例如在水母運動控制中,取得最好控制效果的控制序列在訓練集中沒有出現過,表現出更為激進的快速閉合模式。
圖5. 一維 Burgers 方程控制的視覺化對比結果。相比對比方法,DiffPhyCon能夠在最終時刻(t=10)取得和目標狀態(黑色虛線)之間更小的誤差。
表1. 二維水母運動控制任務的實驗對比結果。在全區域可觀測和部分割槽域可觀測兩種設定下,DiffPhyCon都能獲得顯著優於對比方法的平均運動速度和控制目標。特別地,先驗重加權技術的提升效果顯著。
圖6. 二維水母運動控制任務的視覺化對比結果。上圖展示了3個測試樣例,橫軸表示一個運動週期,縱軸表示水母張開的角度,DiffPhyCon取得了符合預期的“快閉慢開”運動模式。下圖展示了上圖位於中間的水母的運動過程和將控制序列輸入到求解器中產生的流場視覺化。
圖7. 二維煙霧間接控制的實驗設定(左上圖)、對比結果(右上表)和我們方法的控制視覺化結果(下圖)。
4. 展望
複雜物理系統控制有著非常廣闊的應用前景。火箭的成功控制,將加速商業航天的步伐;可控核聚變若能被有效控制,更有望為人類提供無窮無盡的能源。然而,實際應用場景中存在諸多挑戰:如何確保控制效率滿足實時要求?如何在每一步引入系統反饋,實現閉環控制?如何進行線上訓練或模擬線上環境訓練,以增強模型的探索能力?這些問題亟待解決。
本文展示了生成式控制技術在複雜物理系統中的巨大潛力。儘管基於擴散模型的模仿學習在機器人控制領域已取得顯著進展,但在複雜物理系統控制這個具有自身獨特挑戰性的領域,生成式控制的研究才剛剛起步。未來需要更深入的研究來挖掘其潛力和優勢,以應對上述現實挑戰。
參考文獻:
[1] Yang Song et al. "How to Train Your Energy-Based Models." arXiv preprint arXiv:2101.03288.
[2] Jonatha Ho et al. "Denoising diffusion probabilistic models." NeurIPS 2020.
[3] Linlin Kang et al. "Propulsive performance and vortex dynamics of jellyfish-like propulsion with burst-and-coast strategy". Physics of Fluids, 35(9), 2023.
AI+Science 讀書會
AI+Science 是近年興起的將人工智慧和科學相結合的一種趨勢。 一方面是 AI for Science,機器學習和其他 AI 技術可以用來解決科學研究中的問題,從預測天氣和蛋白質結構,到模擬星系碰撞、設計最佳化核聚變反應堆,甚至像科學家一樣進行科學發現,被稱為科學發現的“第五正規化”。 另一方面是 Science for AI,科學尤其是物理學中的規律和思想啟發機器學習理論,為人工智慧的發展提供全新的視角和方法。
集智俱樂部聯合斯坦福大學計算機科學系博士後研究員吳泰霖(Jure Leskovec 教授指導)、哈佛量子計劃研究員扈鴻業、麻省理工學院物理系博士生劉子鳴(Max Tegmark 教授指導),共同發起以”為主題的讀書會,探討該領域的重要問題,共學共研相關文獻。 讀書會已完結,現在報名可加入社群並解鎖回放影片許可權。
詳情請見:
控制科學前沿理論與方法系列課程
對複雜動態系統的定量認識與科學調控,系統學與控制論是關鍵基礎。控制理論是一門高度綜合、充滿活力的交叉學科,處於數學、計算機科學和工程技術科學相互作用的前沿,是資訊科學與系統科學的重要組成部分,同時與自然科學和管理科學的各門分支也有密切的聯絡。在工程、國防軍事、社會、經濟、生物、環境等領域複雜系統中的調控問題,發揮著重要作用。《控制科學前沿理論與方法》系列課程,為面向控制專業領域學生以及跨領域的學習者做深度科普,幫助學習控制論的核心思想、框架與方法。參看:
1.
2.
3.
4.
5.
6.