?

基于啟發式動態規劃的盾構土壓平衡優化控制

2018-09-22 03:30劉宣宇，許勝，張凱舉，曹雨濛

大連理工大學學報 2018年5期

關鍵詞：密封艙土壓權值

劉宣宇，許勝，張凱舉，曹雨濛

（1.遼寧石油化工大學信息與控制工程學院，遼寧撫順 113001；2.吉林大學數學學院，吉林長春 130012）

0 引言

隨著城市化進程不斷加快，土壓平衡盾構已被廣泛應用于軟土地層的地下工程建設.各地地質條件不同，對盾構施工過程中盾構密封艙土壓控制要求也就不同.施工過程中，盾構密封艙土壓無法得到有效控制，易導致地表變形和嚴重的安全事故.因此，實現土壓平衡盾構的密封艙土壓平衡控制，是避免地表變形和保障施工安全的關鍵所在.

土壓平衡盾構主要通過調整螺旋輸送機轉速，改變密封艙渣土體積，維持密封艙土壓與開挖面壓力平衡，有效控制地表變形［1］.王林濤等［2］提出基于前饋-密封艙壓力反饋的土壓控制方法，通過調節推進速度實現土壓平衡.張曉峰［3］以螺旋輸送機轉速為控制量，利用神經網絡算法優化控制量，實現土壓平衡控制.曹麗娟等［4］提出基于PID神經元的密封艙土壓控制方法.Yang等［5］利用傳統PID控制器控制密封艙土壓，取得了較好控制效果.但以上控制方法均是以單變量優化控制密封艙土壓，沒有考慮其他控制參數的影響作用，密封艙土壓控制精度有待進一步提高.

啟發式動態規劃（heuristic dynamic programming，HDP）是自適應動態規劃的一種，是解決傳統動態規劃“維數災”問題的一種近似最優控制方法［6］.其利用函數近似結構逼近代價函數，通過離線迭代或在線更新方式獲得系統的最優代價函數及最優控制律，能有效解決非線性系統的多變量優化控制問題.其已被應用于倒立擺平衡控制［7］、水泥立磨生料細度控制［8］、儲能系統優化控制［9］等實際系統中，成為現代科學理論與工程領域中對復雜系統研究的一種重要方法.

因此，本文提出基于HDP的密封艙土壓優化控制方法.通過對盾構掘進經驗數據分析，發現刀盤扭矩是影響密封艙土壓平衡的重要因素，兩者之間存在非線性依賴關系［10－11］.為提高密封艙土壓預測精度，本文將刀盤扭矩作為模型輸入之一，建立密封艙土壓預測模型，進而構建密封艙土壓優化控制代價函數和HDP控制器.最后，通過實驗仿真驗證所提出方法的有效性.

1 HDP基本結構與原理

密封艙土壓HDP控制器結構如圖1所示.

圖1 密封艙土壓HDP控制器結構Fig.1 Structure of HDP controller for soil pressure in sealed cabin

圖1 中，p（k）為k時刻密封艙土壓；p（k＋1）為k＋1時刻密封艙土壓；γ∈（0，1］，為折扣因子；u（k）＝（n（k） v（k） F（k） T（k））T，為k時刻控制向量，其中F（k）、n（k）、v（k）、T（k）分別為總推力、螺旋輸送機轉速、推進速度、刀盤扭矩；U（k）＝f（p（k），u（k），k），為密封艙效用函數，對密封艙土壓和控制向量做出評價；J（·）為密封艙土壓優化控制代價函數.

各信號流向如實線所示，評價網絡與執行網絡的誤差反饋路徑如虛線所示.密封艙土壓作為執行網絡的輸入，輸出為控制向量；模型網絡的輸入為密封艙土壓和控制向量，輸出為下一時刻密封艙土壓，其作為評價網絡的輸入，輸出密封艙土壓優化控制代價函數近似值.評價網絡實現密封艙土壓優化控制代價函數的近似，執行網絡以最小化密封艙土壓優化控制代價函數為目標，優化控制向量.各網絡詳細訓練流程和參數優化過程，見下文HDP控制器設計部分.

HDP的基本原理是采用迭代形式訓練評價網絡以近似Bellman動態規劃方程中的代價函數：

其中J（k）表示效用函數從k時刻開始的迭代值.通過折扣因子進行折算，顯示效用函數迭代的時間效應.HDP的目標是選擇最優控制向量，使得式（1）取極小值.

盾構機為高度復雜的非線性系統，本文假設盾構系統為下式所示的離散系統：

對于盾構系統式（2），式（1）可表示為

式（3）經過推導可表示為

根據Bellman優化原理，若以式（4）作為網絡權值調整的目標，則可以通過網絡訓練使得代價函數逐步趨向當前控制策略下的最優值.本文以式（4）作為密封艙土壓優化控制的代價函數，設計基于HDP的土壓平衡控制器.為了使評價網絡近似J（k），定義如下評價網絡誤差：

其中J＊（k）為k時刻代價函數估計值，J＊（k＋1）為k＋1時刻代價函數估計值.

執行網絡的訓練以最小化式（4）為目標，獲得最優控制向量.因此，定義如下執行網絡誤差：

2 HDP控制器設計

2.1 密封艙土壓預測模型建立

王洪新等［12－13］通過對盾構掘進過程機理分析，推導出盾構總推力、密封艙土壓、螺旋輸送機轉速、推進速度等掘進參數間的關系表達式.根據該研究結果，設定本文的密封艙土壓預測模型的輸入變量為當前密封艙土壓p（k）、當前螺旋輸送機轉速n（k）、當前推進速度v（k）、當前總推力F（k）、當前刀盤扭矩T（k）；輸出為下一時刻密封艙土壓p（k＋1）.即有

BP神經網絡因其強大的非線性映射能力，被廣泛用于復雜工業控制系統的建模.本文將雙極性函數和線性函數作為隱藏層和輸出層的傳遞函數；隱藏層節點個數選擇對模型的訓練效果至關重要，因此本文首先統計了隱藏層節點個數為5～16的土壓預測模型的土壓預測誤差；通過Matlab仿真驗證，當網絡隱藏層節點個數為9時，密封艙土壓預測誤差為10.5%，而其他的均超過12.2%.因而，構建基于3層BP神經網絡的密封艙土壓預測模型，結構如圖2所示.

圖2 密封艙土壓預測模型Fig.2 Forecasting model of soil pressure in sealed cabin

2.2 密封艙土壓效用函數

密封艙土壓效用函數是整個HDP控制器設計過程中與密封艙土壓直接相關的重要指標.實際上，在自適應動態規劃中，設計效用函數的過程本質上就是優化設計HDP控制器的過程.在某種程度上，效用函數的選擇決定了控制器動態控制的優劣.在對工業系統的控制過程中，效用函數必須能夠反映實際系統的控制特效和系統自身屬性，所設計的控制器才可滿足控制要求.本文控制對象是密封艙土壓，目的是使其穩定于0.18～0.22MPa，因此選擇的效用函數為

2.3 評價網絡的訓練

隱藏層節點個數的選擇方法同2.1節，通過仿真驗證，當隱藏層節點個數為8時，代價函數收斂值為0.068，其他節點個數的代價函數收斂值大于0.1.因此，本文評價網絡采用1-8-1結構的3層BP神經網絡.評價網絡的訓練流程如圖3所示，各信號流向如實線所示，反向傳播路徑如虛線所示.

根據Bellman優化原理，k時刻密封艙土壓控制器的最優代價函數可表示為

由式（5）、（6）定義的誤差，根據梯度下降算法和鏈式法則，評價網絡隱藏層到輸出層的權值更新規則如下：

輸入層到隱藏層的權值更新規則如下：

式中：lc∈（0，1］，為評價網絡學習率；ΔWc（k）為k時刻評價網絡權值增量；Wc1（k）為k時刻評價網絡輸入層到隱藏層的權值；Wc2（k）為k時刻評價網絡隱藏層到輸出層的權值；Wc（k＋1）為k＋1時刻評價網絡權值.

2.4 模型網絡的訓練

本文模型網絡采用如圖2所示的3層BP神經網絡結構.將該模型網絡輸出與上文基于BP神經網絡的密封艙土壓預測模型式（9）輸出之間產生的誤差em（k＋1），用于模型網絡權值更新.

根據梯度下降算法和鏈式法則，通過最小化下式定義的模型網絡誤差實現權值更新：

其中p（k＋1）為密封艙土壓預測模型輸出，p＊（k＋1）為模型網絡輸出.

同理，模型網絡隱藏層到輸出層的權值更新規則如下：

輸入層到隱藏層的權值更新規則如下：

式中：lm∈（0，1］，為模型網絡學習率；ΔWm（k）為k時刻模型網絡權值增量；Wm1（k）為k時刻模型網絡輸入層到隱藏層的權值；Wm2（k）為k時刻模型網絡隱藏層到輸出層的權值；Wm（k＋1）為k＋1時刻模型網絡權值.

2.5 執行網絡的訓練

隱藏層節點個數的選擇方法同2.1節，通過仿真驗證，相較于其他節點個數，當隱藏層節點個數為8時，由執行網絡優化獲得的控制向量更加近似實際參數值.因此，本文執行網絡采用1-8-4結構的3層BP神經網絡.執行網絡目標是最小化評價網絡輸出的密封艙土壓優化控制代價函數，獲得最優控制向量.執行網絡利用反向傳播的評價網絡誤差，實現其權值更新.執行網絡的訓練流程如圖4所示，各信號流向如實線所示，反向傳播路徑如虛線所示.

圖4 執行網絡的訓練流程Fig.4 Training process of action network

根據Bellman優化原理，k時刻的最優土壓控制向量可表示為

根據式（7）、（8）定義的誤差，同理，執行網絡隱藏層到輸出層的權值更新規則如下：

輸入層到隱藏層的權值更新規則如下：

式中：la∈（0，1］，為執行網絡學習率；ΔWa（k）為k時刻執行網絡權值增量；Wa1（k）為k時刻執行網絡輸入層到隱藏層的權值；Wa2（k）為k時刻執行網絡隱藏層到輸出層的權值；Wa（k＋1）為k＋1時刻執行網絡權值.

2.6 HDP控制器訓練策略

（1）初始各網絡的權值，賦值各網絡學習率和折扣因子，并設置最大迭代步數qmax.

（2）設定初始密封艙土壓p（k）.將其作為執行網絡輸入，輸出控制向量u（k）＝（n（k） v（k）F（k） T（k））T.

（3）將p（k）輸入評價網絡，輸出密封艙土壓優化控制代價函數J＊（k）；同時，將當前密封艙土壓p（k）與控制向量u（k）輸入模型網絡，獲得k＋1時刻密封艙土壓p＊（k＋1）.

（4）求解效用函數U（k）.

（5）將p＊（k＋1）作為評價網絡輸入，輸出下一時刻密封艙土壓優化控制代價函數J＊（k＋1）.

（6）依據評價網絡誤差ec（k），更新網絡權值，逼近密封艙土壓優化控制代價函數.

（7）執行網絡根據評價反饋的誤差ea（k），實現權值更新，優化控制向量.

（8）判斷迭代誤差.在誤差允許范圍內，執行下一步；反之，返回（5），循環更新網絡權值.

（9）判斷迭代步數，若q≤qmax，更新狀態和控制向量，返回（3）；否則，訓練結束.

3 仿真實驗

3.1 預測模型訓練及仿真

為建立密封艙土壓預測模型，需要足夠多的樣本數據才能反映實際掘進過程.本文實驗所用數據來源于北京某地鐵施工現場的實測數據.密封艙土壓數據通過4個安置于密封艙隔板的壓力傳感器獲取，傳感器分布如圖5所示.本文以傳感器1的壓力數據為例進行仿真實驗.

圖5 密封艙隔板壓力傳感器分布Fig.5 Pressure sensor distribution of the seal bulkhead

本次實驗仿真采集了800組實測數據，經過數據處理，剔除一部分異常數據后得到650組有效數據，用其中的550組作為訓練樣本，另外100組作為測試樣本.通過Matlab對密封艙土壓預測模型進行仿真.有無刀盤扭矩的密封艙土壓預測模型仿真如圖6所示；密封艙土壓預測誤差如圖7所示；兩種預測模型均方誤差如表1所示.

圖6 有無刀盤扭矩的密封艙土壓預測模型仿真Fig.6 Simulation of soil pressure prediction model for sealed cabin with or without cutterhead torque

圖7 密封艙土壓預測誤差Fig.7 Prediction error of soil pressure in sealed cabin

表1 預測模型均方誤差Tab.1 Mean square error of prediction models

由表1可知，當刀盤扭矩作為模型控制量之一時，其均方誤差更小，說明考慮刀盤扭矩的土壓預測模型具有更好的預測精度.如圖6、7所示，考慮刀盤扭矩的模型，其預測值與實測值整體擬合效果較好.由于地質條件或工況的不確定性，個別點擬合效果較差，但誤差基本在±0.02MPa（10%）以內，滿足工程要求.

3.2 HDP控制器仿真

根據本文HDP控制器設計部分，通過Matlab對提出的控制方法進行實驗仿真.系統初始密封艙土壓p（k）＝0.18MPa；la、lc初始值為0.7；折扣因子γ＝1.

密封艙土壓優化控制代價函數軌跡如圖8所示；密封艙土壓優化軌跡如圖9所示；相應的，刀盤扭矩、總推力、推進速度、螺旋輸送機轉速的優化軌跡如圖10所示.

圖8 密封艙土壓優化控制代價函數軌跡Fig.8 Cost function trajectory of optimization control of soil pressure in sealed cabin

圖9 密封艙土壓優化軌跡Fig.9 Optimization trajectory of soil pressure in sealed cabin

圖10 控制量優化軌跡Fig.10 Optimization trajectory of control variables

為了驗證HDP控制器對密封艙土壓優化效果，本文采用文獻［3］中盾構土壓平衡控制器進行仿真對比，其密封艙土壓控制軌跡如圖11所示.

圖11 盾構土壓平衡控制器土壓控制軌跡Fig.11 Soil pressure control trajectory of controller of soil pressure balance of shield

通過對土壓優化和控制軌跡圖9、11對比，可以看出，相較于文獻［3］中設計的控制器，HDP控制器對密封艙土壓優化調節時間更短，超調更小，優化控制過程更加穩定.文獻［3］盾構土壓平衡控制器僅可對螺旋輸送機轉速單變量控制，而HDP控制器可實現對刀盤扭矩、總推力、推進速度、螺旋輸送機轉速多變量同步協調控制.對4個控制量的調整過程及相應密封艙土壓變化趨勢，符合實際盾構施工時控制參數變化情況.

為了驗證HDP控制器抗干擾能力，在迭代70步時加入干擾.如圖8所示，密封艙土壓優化控制代價函數仍能快速收斂，說明HDP控制器對密封艙土壓優化控制是有效的，具有較好的動態性能.如圖9、10所示，加入干擾后密封艙土壓很快達到穩定狀態，4個控制量同樣達到最優，說明HDP控制器具有較強的抗干擾能力.

4 結語

本文基于BP神經網絡將刀盤扭矩作為預測模型控制量之一，建立密封艙土壓預測模型.與不考慮刀盤扭矩模型相比，考慮刀盤扭矩能夠有效提高預測模型的預測精度.針對密封艙土壓難以穩定控制的問題，在上述密封艙土壓預測模型的基礎上，本文提出基于HDP的密封艙土壓優化控制方法.相較于單變量控制，該方法可實現對刀盤扭矩、總推力、推進速度、螺旋輸送機轉速的多變量控制；并且該方法收斂速度更快，穩定性較好，具有強抗干擾能力.基于HDP的密封艙土壓控制器，能夠滿足密封艙土壓的控制要求，達到穩定土壓目的，為實現盾構掘進過程的優化控制提供了一種新途徑.如何提高密封艙土壓模型的預測精度并增強HDP控制器的魯棒性及其跟蹤效果是今后的研究重點.

猜你喜歡

密封艙土壓權值

載人充氣密封艙飛行試驗方案研究

載人航天(2022年6期)2023-01-05

一種融合時間權值和用戶行為序列的電影推薦模型

成都信息工程大學學報(2022年3期)2022-07-21

沈陽師范大學學報(教育科學版)(2021年2期)2021-02-01

基于權值動量的RBM加速學習算法研究

自動化學報(2017年7期)2017-04-18

淺談土壓平衡盾構下穿密集建筑群施工技術

中國工程咨詢(2017年7期)2017-01-31

基于多維度特征權值動態更新的用戶推薦模型研究

現代電子技術(2016年15期)2016-12-01

載人航天器密封艙內除濕研究

航天器環境工程(2015年4期)2015-12-23

南昌地鐵土壓平衡盾構機刀具設計及改進

鑿巖機械氣動工具(2015年3期)2015-11-11

土壓平衡盾構泡沫劑性能與改良效能評價

筑路機械與施工機械化(2014年5期)2014-03-01

土壓平衡盾構施工引起公路地表沉降分析

城市道橋與防洪(2014年1期)2014-02-27

大連理工大學學報2018年5期

大連理工大學學報的其它文章: InSb薄膜熱導率溫度特性及傳熱機理; 重載交通下CTCP-CRCP復合路面振動試驗研究; 混凝土開裂對BFRP混凝土界面應力的影響; 應用于海洋工程中水平受荷樁特性分析的修正P-y曲線模型; 求解帶時間窗動態車輛路徑問題的改進蟻群算法; 若干Mycielski圖鄰點可區別Ⅰ-均勻全染色

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合