?

課程-遷移學習物理信息神經網絡用于長時間非線性波傳播模擬1)

2024-04-15 02:53傅卓佳劉肖廷趙海濤
力學學報 2024年3期
關鍵詞:邊界條件時域步長

郭 遠 傅卓佳 , 閔 建 劉肖廷 趙海濤 ,3)

* (河海大學力學與材料學院工程與科學數值模擬軟件中心,南京 211100)

? (中國三峽集團公司科學技術研究院,北京 101199)

** (河海大學土木與交通學院,南京 210098)

引言

非線性波傳播廣泛存在于眾多自然現象和工程應用中,如水波[1-2]、光波[3]、聲波[4]和地震波[5]等.非線性波傳播的分析和模擬對于理解和控制這些現象具有重要的意義.然而,非線性波傳播的數學模型通常是高度非線性的偏微分方程,它們的解析解很難推導得到或者不存在閉合的解析解[6],因此數值模擬是研究非線性波傳播過程的主要方法之一.

目前,已有許多數值方法如有限差分法(finite difference method,FDM)[7]、有限元法(finite element method,FEM)[8]、譜方法(spectral method)[9]和格林函數方法(Green’s function method)[10]被成功用于求解波動方程,但是這些方法都存在一些局限性和挑戰.例如,有限差分法和有限元法要求構造高質量的網格,譜方法和格林函數方法需要預先推導得到問題對應的譜函數及格林函數.此外這些方法在處理非線性問題時附加的非線性項也會影響其計算結果的精度和穩定性[11],特別是在解決長時間歷程的非線性波傳播問題時,這種影響尤為顯著.

近年來,人工神經網絡作為一種強大的機器學習工具[12-14],被廣泛應用于各種復雜問題的求解和預測[15-18].特別是,物理信息神經網絡(physicsinformed neural networks,PINN)將物理守恒定律和先驗物理知識編碼到神經網絡中[19],通過最小化殘差來求解偏微分方程.目前,PINN 已經被成功應用于求解各種非線性方程,如Schrodinger 方程[20-21]、Burgers 方程[22-23]、對流擴散方程[24-25]等.然而,PINN 也存在一些局限性和挑戰;其中一個問題是PINN 難以進行長時間歷程模擬[26-27].由于神經網絡的參數空間是有限的,當時間域擴展到一定程度時,PINN 難以保持足夠的精度和穩定性.此外,PINN 也可能受到初始條件、邊界條件和噪聲等因素的影響,導致訓練過程陷入局部最小甚至發散[28].

為了克服這些問題,國內外研究者提出了一些解決方法.Meng 等[27]使用了一個串行的全求解域上的粗求解器和若干個并行的子域上的精細PINN,粗求解器的解用作每個子域中精細PINN 的初始條件,從而將一個長時間問題分解為許多獨立的短時問題.Penwarden 等[29]提出了一種新的時域堆疊分解方法,通過遵循多種形式的因果關系并通過限制每次優化迭代所需的計算來提高可擴展性,并使用遷移學習方法來初始化域中的子網絡和子域的基于容錯的傳播;上述兩種方法的核心是將求解域分解并結合并行技術提高求解效率.Guo 等[28]結合重采樣策略和現有的優化器組合技術并使用多重預訓練策略來提高PINN 方法求解時間相關偏微分方程的收斂性和準確性,其本質上是一種課程學習技術.Xu 等[26]引入遷移學習來順序更新深度算子網絡(DeepONet),作為在不同時間幀中學習的傳播子的代理,提高了DeepONet 長時間模擬的精度.

以上這些研究者的工作主要集中在時間一階問題的研究上,并未涉及到本文研究的時間二階波動問題.本文結合了Penwarden 等[29]時域堆疊分解的思想和Xu 等[26]遷移學習的方法,在Guo 等[28]提出的方法的基礎上進行了改進和發展,提出了一種基于課程學習(curriculum learning)[30]和遷移學習(transfer learning)[31]的物理信息神經網絡,簡稱為課程-遷移學習物理信息神經網絡(CTL-PINN),并將其用于長時間非線性波傳播分析.CTL-PINN 繼承了PINN 的優點,相較于傳統數值方法,無需劃分網格,避免了網格數值算法中的網格畸變問題;能夠融合方程與各種觀測數據,形成物理和數據雙驅動模型,對于處理反問題具有顯著優勢;在一定程度上規避了維數災難,無論是一維、三維還是更高維問題,其實現方式都相同.與傳統PINN 相比,CTL-PINN可求解的時域更長,訓練結果更為精確和穩定.

1 基于課程學習和遷移學習的PINN 方法

1.1 瞬態非線性波傳播問題

本文考慮如下瞬態非線性波傳播問題,其控制方程可以表示為

其中,X為空間位置,? 為空間域,t為時間,T為求解的最后時刻,?2為拉普拉斯算子,c為波的傳播速度,u=u(X,t) 為待求位移,Q(X,t) 為已知波源函數,f(u) 為非線性項,其初始條件為

其中,? (X) 和 φ (X) 是給定的函數,表示初始時刻的位移和速度分布,其邊界條件為

其中,Γ1∪Γ2=Γ,Γ1∩Γ2=?,Γ=?? 為 ? 的邊界,Γ1為第一類邊界條件或狄里克雷(Dirichlet)條件,Γ2為第二類邊界條件或諾依曼(Neumann)條件,n是 Γ2上的單位外法向量,是給定的函數.

1.2 傳統物理信息神經網絡

PINN 方法通過深度神經網絡(deep neural network,DNN)來近似方程(1)的解,其求解過程如圖1 所示,神經網絡的輸入為時空坐標 (X,t),對應于方程(1)的時空自變量,輸出是方程(1)的近似解uθ,其中 θ 為神經網絡待優化參數.損失函數反映了方程的物理信息,它由3 部分組成:初始和邊界條件的殘差項以及控制方程的殘差項,如下式所示

圖1 傳統PINN 求解瞬態非線性波動問題Fig.1 Solving transient nonlinear wave propagation problem by standard PINN

式(4)中,wi,wb和wr分別是損失函數中3 部分的權重,Li和 Lb分別表示初始條件和邊界條件上的監督學習損失,Lr表示在殘差數據集中定義的殘差損失.式(5)~式(7)中,uθ(X,t) 為神經網絡預測值,其各類導數可通過自動微分(automatic differentiation,AD)獲得;根據速度和位移兩類初始條件和兩類邊界條件,將Ni和Nb分為兩部分,,Nb=Nr和 表示各訓練點的個數,訓練點通常通過隨機采樣獲得.將初始條件和邊界條件的數據集以及殘差數據集分別保存為

通過最小化損失函數,神經網絡輸出的近似解uθ逼近真實解,PINN 可以在求解域內得到滿足物理信息的預測.用 Σ 表示數據集的總和,即 Σ={τi,τb,τr},PINN 的訓練就是一個使損失函數取得最小值的優化過程

神經網絡優化算法常用的有Adam 算法和LBFGS 算法.神經網絡參數 θ 的更新通過反向傳播算法來實現,激活函數 σ 是高階可微的,常用的有tanh和sin.

1.3 課程-遷移學習物理信息神經網絡

本文引入課程學習和遷移學習技術,提出了課程-遷移學習物理信息神經網絡(CTL-PINN),將其應用于長時間物理力學行為模擬.如圖2 所示,CTLPINN 求解長時間歷程問題可分為三個階段:第一階段是預訓練,采用傳統PINN 方法在短時間內進行;第二階段是課程學習,用于時域擴大;第三階段是遷移學習,用于時域遷移.具體實現步驟參見算法1.課程學習使單個神經網絡可求解的時域盡可能足夠大,以便使后續遷移學習獲得較大的學習步長.而后續的遷移學習本質上是一種時域堆疊分解方法,它能夠進一步擴大可求解的時域.

圖2 課程-遷移學習物理信息神經網絡求解長時間歷程問題示意圖Fig.2 Schematic diagram of curriculum-transfer-learning-based physics-informed neural networks for solving long-term problems

CTL-PINN 第一階段得以實現的原因是傳統PINN 方法能夠訓練得到良好的短時間問題的解;在獲得初始階段預訓練的模型后,進入后續的課程學習和遷移學習階段,其在某一訓練步中所執行的具體操作如圖3 所示,每個訓練過程可視為一個獨立的PINN 求解過程,課程學習和遷移學習階段實現原理詳見1.3.1 和1.3.2 節.

圖3 在課程學習或遷移學習某一訓練步中所執行的具體操作Fig.3 Specific operations performed during a training step in curriculum learning or transfer learning

1.3.1 課程學習階段

課程學習是一種訓練策略,模仿人類的學習過程,主張讓模型先從容易的樣本開始學習,并逐漸進階到復雜的樣本和知識[30];本研究則是基于預訓練的部分中較小時域的模型,逐步擴大時域,若課程學習部分經n次時域擴大由時域 (0,Tp] 最終擴大至時域 (0,Te],擴大過程描述為

內訓練完成的神經網絡在 (X,t) 處的預測值,用Nsp表示額外監督學習點的數量,則額外監督學習數據集如下所示

其中損失函數如下式所示

其中wsp是額外監督學習部分的權重,Lsp是額外監督學習部分的損失,其表達式如下

在課程學習過程中,為了保證訓練的準確性,擴大步長不宜過大;為了盡可能地求解更長時間的問題,使用小步長多次擴大.每次課程學習都可以擴大可求解的時域,當然,受限于單個神經網絡的擬合能力,不可能一直擴大下去.

1.3.2 遷移學習階段

遷移學習是一種機器學習技術,它可以將一個預訓練模型應用于一個新的問題[31].在本研究中,以課程學習最終時域 (0,Te] 的模型為基礎,將其可求解域進行遷移,若遷移學習部分經m次時域遷移后可求解域由時域 (0,Te] 最終擴大至時域 (0,Tt],遷移過程描述為

其中損失函數如下式所示

2 數值算例及討論

本節將課程-遷移學習物理信息神經網絡(CTLPINN)應用于長時間非線性波傳播模擬中,并通過算例驗證其有效性和魯棒性.為了評估求解的準確性,引入L2誤差,其計算方法如下式所示

本節中的所有算例都是在深度學習框架TensorFlow1.4 版本下實現的,激活函數為tanh,優化算法為L-BFGS 算法,損失函數中各部分的權重均取為1.

2.1 立方體內非線性簡諧波傳播

2.1.1 模型超參數討論

超參數的選擇對神經網絡的訓練結果有重要影響,本算例探索了神經網絡的深度和寬度及殘差點數量Nr對訓練結果的影響.考慮以下的非線性波動方程及其對應的精確解

其中 (x,y,z,t)∈(0,1)3×(0,T],求解域為邊長為1 的立方體,右端源項Q(x,y,z,t) 可將精確解代入控制方程中求得;其初始條件如下

其邊界條件如下

令c=1,A=1,kx=1,ky=2,kz=3,ω=0.2π,初始點數量=200,邊界條件為第一類邊界條件,邊界點數量=100×6=600,殘差點數量Nr=1000,非線性項f(u)=sinu.采用傳統PINN 方法在時域(0,30 s]內使用不同的深度和寬度的神經網絡對上述問題求解,記錄其L2誤差,如表1 所示.

表1 在T=30 s 時不同隱藏層數和神經元個數計算結果的L2誤差Table 1 L2 error with different numbers of hidden layers and neurons at T=30 s

神經網絡為15 層,每層30 個神經元效果最佳;由于后續的算例中要進行時域擴大,要求神經網絡有較高的擬合能力;綜合考慮,在后續的算例中,神經網絡模型中隱藏層數取為15,每層含有40 個神經元.圖4 繪制了Nr取不同值時,其L2誤差的變化;Nr=1000 時,誤差趨于穩定,Nr=1200 其L2誤差最小,為4.88×10-4,因此在后續的算例中Nr均取為1200.

圖4 不同的殘差點數量對應的 L2 誤差Fig.4 L2 error corresponding to different numbers of residual points

2.1.2 課程學習和遷移學習

CTL-PINN 時域擴大方法采用傳統PINN 方法在時域(0,20 s]內對波動方程求解,控制方程、初始和邊界條件和參數與算例2.1.1 相同,以此作為課程學習的初始模型;每次將時域擴大2 s,即課程學習步長 ?T=2 s,課程學習額外監督學習點數量Nsp=1000,最終將可求解時域擴大為(0,100 s],即T=100 s.同時采用傳統PINN 方法在時域(0,T]對波動方程求解,T依次取為20,24,28,···,96 和100 s,每次求解相互獨立,參數與算例2.1.1 一致.如圖5 所示,繪制出二者的L2誤差隨時域變化,可以發現傳統PINN 方法在短時間內能夠訓練出高精度的結果,這也是CTL-PINN 得以實現的基礎,但是隨著所需求解時域的增大,其誤差急劇增大且不穩定,而通過CTL-PINN 訓練的結果更為精確和穩定.如圖6 所示,當t=100 s 時,CTL-PINN 預測解和精確解基本一致,絕對誤差在 7.0×10-3以內,說明了CTL-PINN 模擬長時間非線性波傳播過程的有效性.

圖5 傳統PINN 與CTL-PINN 的 L2 誤差隨時域增大變化Fig.5 L2 error variation with respect to the increase of the time domain by standard PINN and CTL-PINN

圖6 當 t=100 s 時在 z=0.5 處切片,即 u(x,y,0.5,100)Fig.6 Slice at z=0.5 at t=100 s,i.e.,u(x,y,0.5,100)

圖7 給出了不同課程學習步長對訓練結果的影響,課程學習步長越短其訓練的精度越高,推進過程中誤差的變化越平穩,過長則完全無法訓練,但是課程學習步長越短其在時間軸上的增長越慢,對于課程學習步長的選擇需要綜合考慮.

圖7 不同課程學習步長CTL-PINN 的 L2 誤差隨時域增大變化Fig.7 L2 error variation with respect to the increase of the time domain by CTL-PINN with different time step sizes in curriculum learning stage

CTL-PINN 時域遷移方法以課程學習方法完成訓練的較大時域的模型為基礎模型,并使用該模型預測的中間時刻的值作為遷移后時域的初始值,并在兩時域的交集的時域內均勻采樣2000 個點作為額外的監督學習點.如表2 所示,不同遷移學習步長均取得了較低的誤差,對于本問題,遷移學習步長以50~70 s 為宜.

表2 不同遷移學習步長對應的 L2 誤差Table 2 L2 error corresponding to different transfer learning step sizes

2.1.3 其他非線性項

選取非線性項為u2,u3及eu,初始和邊界條件及參數與算例2.1.2 節相同,探討CTL-PINN 方法對不同非線性問題的適應性.如圖8 所示,對于u2及u3,在100 s 以內均可較高精度地求解,二者結果絕對誤差分布如圖9(a) 和圖9(b) 所示.而 eu在推進至88 s 處誤差突然增大,由于非線性過強,無法繼續再進行時域擴大.以(0,88 s]的模型作為遷移學習的基礎模型,遷移學習步長為12 s,使用2 個神經網絡可將求解域擴大為(0,100 s],其結果絕對誤差分布如圖9(c)所示,遷移學習在保持較大的學習步長的基礎上進一步擴大了可求解的時域.CTL-PINN方法對不同的非線性問題都有很好的適應性.

圖8 不同的非線性項CTL-PINN 的 L2 誤差隨時域增大變化Fig.8 L2 error variation with respect to the increase of the time domain by CTL-PINN with different nonlinear terms

圖9 在求解時域為(0,100 s]時的絕對誤差分布 (y=0.5,z=0.5)Fig.9 Absolute error distributions in the time domain of(0,100 s] (y=0.5,z=0.5)

2.2 球體內非線性衰減波傳播

考慮一個具有以下控制方程和精確解的非線性衰減波

其中 (x,y,z,t)∈?×(0,T],求解域 ? 為半徑為1 的球體,初始和邊界條件滿足精確解,源項可由精確解得到,邊界點在球面上,數量,ω=0.3π,其他參數與2.1 節相同.

如圖10 所示,相比傳統PINN,CTL-PINN 訓練的結果更為精確和穩定,可求解的時域更長;而對于無速度初始條件與初始和邊界條件訓練點數據附帶1‰隨機噪聲這兩種求解難度更高的情況,CTLPINN 亦能求解,說明了CTL-PINN 具有良好的魯棒性.如圖11 所示,衰減波在傳播過程中振幅逐步減小,造成這種現象的原因通常是波的能量在傳播過程中轉化為熱能,或者被傳播介質吸收.當T=80 s時,CTL-PINN 預測解和真實解基本一致,而傳統PINN 預測解和真實解相差甚遠,體現了CTL-PINN處理復雜波傳播問題的有效性.

圖10 傳統PINN、CTL-PINN、無速度初始條件的CTL-PINN (not IC2)與初始和邊界條件訓練點數據附帶1‰隨機噪聲的CTL-PINN(1‰ noisy data)的 L2 誤差隨時域增大變化圖Fig.10 L2 error variation with respect to the increase of the time domain by standard PINN,CTL-PINN,CTL-PINN (not IC2) without velocity initial conditions and CTL-PINN (1‰ noisy data) with 1‰random noise attached to the initial and boundary conditions training point data

圖11 在點(0.5,0.5,0.5)處的真實解、傳統PINN 與CTL-PINN 的預測解Fig.11 True solution,predicted solution by standard PINN and CTLPINN at point (0.5,0.5,0.5)

2.3 無源項的非線性波傳播

上述2 個算例證明了CTL-PINN 在模擬長時間非線性波傳播過程的有效性和魯棒性.本算例除去源項,研究非線性項的強弱對波傳播的影響,其控制方程如下所示

圖12 不同的非線性項系數 λ 在點(0.5,0.5,0.5)處的CTL-PINN 的預測解Fig.12 Predicted solution by CTL-PINN at point (0.5,0.5,0.5) for various nonlinear term coefficients λ

3 結論

本文提出了課程-遷移學習物理信息神經網絡,有效地解決了傳統物理信息神經網絡在長時間歷程模擬中存在的計算穩定性差和無法獲得有效解的問題.通過將長時間歷程模擬問題轉化為若干個短時間歷程模擬子問題,并結合課程學習和遷移學習技術,實現了長時間非線性波傳播模擬.此外,本文方法還利用當前步物理信息神經網絡訓練得到的神經網絡參數及額外監督學習點信息,避免了傳統物理信息神經網絡陷入局部最優解的問題.通過幾個基準算例的驗證,證明了本文方法在模擬長時間非線性波傳播過程中的有效性和魯棒性.

(1) CTL-PINN 方法可以獲得比傳統PINN 方法更精確的解,并且可以求解更長的時域.然而,由于需要反復導入模型進行訓練,其訓練時間較長.如何在增大學習步長的同時保證精度,是一個必須考慮的問題.為了解決這個問題,可以在后續研究中開發步長自適應算法,采用并行技術以提高訓練效率.

(2)額外監督學習點可以提升神經網絡的訓練效果,但是由于額外監督學習的數據是由神經網絡預測得到,其與精確值之間存在一定誤差,會導致一定的誤差累積.

(3)本文對非線性波傳播正問題進行了求解,后續可在此基礎上進一步將該算法拓展到反問題.

猜你喜歡
邊界條件時域步長
基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
一類帶有Stieltjes積分邊界條件的分數階微分方程邊值問題正解
帶有積分邊界條件的奇異攝動邊值問題的漸近解
基于時域信號的三電平逆變器復合故障診斷
基于極大似然準則與滾動時域估計的自適應UKF算法
基于時域逆濾波的寬帶脈沖聲生成技術
基于時域波形特征的輸電線雷擊識別
基于逐維改進的自適應步長布谷鳥搜索算法
帶Robin邊界條件的2維隨機Ginzburg-Landau方程的吸引子
一種新型光伏系統MPPT變步長滯環比較P&O法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合