?

基于深度強化學習的尾旋改出技術

2024-04-18 06:13譚健美王君秋

航空兵器 2024年1期

關鍵詞：強化學習深度學習飛機

譚健美王君秋

摘要：????? 本文搭建了飛機仿真環境，基于近端策略優化（PPO）算法建立了尾旋改出算法測試模型，設計了基準版單階段、基準版雙階段、加深版單階段、加深版雙階段四種網絡結構，用于探究網絡結構和改出階段對尾旋改出效果的影響，設置了魯棒性測試試驗，從時延、誤差和高度等方面進行了算法測試和結果分析。

關鍵詞：???? 尾旋改出；深度學習；強化學習；近端策略優化；算法測試; 飛機

中圖分類號：??? ??TJ760; V271.4

文獻標識碼：??? A

文章編號：??? ?1673-5048（2024）01-0077-12

DOI： 10.12132/ISSN.1673-5048.2023.0135

0 引? 言

現代先進的作戰飛機為提高空戰效能，在設計過程中更加注重其機動性和敏捷性，并要求具有一定的過失速機動能力，而在完成過失速機動時，飛機表面流場變化復雜，流動的分離情況、渦的不對稱性以及破裂位置的激烈變化，導致作用在飛機上的氣動力和力矩隨著狀態參數的變化呈現強烈的非線性、非定常的遲滯特性，出現抖振、機翼非指令性的搖晃、機頭非指令性的側偏、全機非指令性的俯仰擺動或突然抬頭、迎角增加等不期望的危險飛行狀態。此時，飛機的操縱性明顯變差，有時甚至完全喪失操縱性，很有可能進入過失速偏離、尾旋等危險狀態，給飛行安全造成隱患，嚴重時可能導致致命事故［1］。

過失速偏離是飛機從可控飛行狀態向尾旋等失控狀態過渡的一種短暫運動過程，可能增加飛機進入尾旋的趨勢。偏離過程通常是一種大振幅的、非指令性的和發散的運動。一般來說，過失速偏離運動是不發散的。但若駕駛員快速向后拉桿或采取順尾旋的橫航向操縱，則有可能使飛機進入尾旋狀態。

尾旋是飛機失速后發生的一種自發的持續偏航運動，且可能伴有繞飛機俯仰、滾轉和偏航等三軸的振蕩運動。飛機航跡沿半徑很小的、很陡的垂直螺旋線軌跡急劇下降，因而尾旋也稱為“螺旋”。尾旋的產生與機翼自轉有很大關系。當飛機處于臨界迎角范圍時，可能具有一定的滾轉角速度。若飛機發生右滾，左側機翼迎角變小、升力下降，右側機翼迎角變大、升力增加，從而產生左滾力矩阻止飛機進一步滾轉，起到阻尼作用。然而，當飛機處于超臨界迎角范圍時，若具有一定的右滾角速率，則左側機翼迎角減小，由于迎角處于超臨界范圍，迎角減小可能會使升力增加；同理，右側機翼的迎角增加可能引起升力減小，二者共同作用會加劇飛機的右滾，使得滾轉角速度不斷增大。即使飛機初始沒有滾轉角速度，但氣流不對稱或其他原因都有可能引起飛機的滾轉運動，并在機翼產生的不對稱升力的作用下加速滾轉，從而形成機翼自轉。此外，尾旋本身復雜的旋轉和振蕩，使得慣性交感力矩在尾旋運動中也起到了重要作用。慣性交感力矩一般起到不穩定力矩的作用，使飛機迎角有增大的趨勢。

研究尾旋特性的手段［2］較多，如風洞中的旋轉天平測量試驗和動態試驗、立式風洞試驗［3］、模型飛行試驗以及飛機試飛等。此外，還可通過數值計算、在飛行模擬器上進行尾旋運動的半物理仿真試驗、開展尾旋預防與改出訓練等方法［4］，掌握并驗證飛機尾旋時的運動特性和改出方法。

考慮到飛機尾旋運動的非線性和不確定性較強、氣動特性的遲滯效應較大，且在尾旋的發展過程中飛機動力學特性隨時間變化較大，常規的研究方法存在一定的局限性。隨著智能技術的發展，特別是深度學習和強化學習的發展，計算機在感知過程的數學建模及策略的學習問題等取得了一定的進步。因此，本文基于深度學習和強化學習方法，開展了飛機尾旋改出問題的研究工作。

1 強化學習尾旋改出解決方案

飛機尾旋改出的主要目標是減小迎角并盡快達到安全速度，同時將高度損失降至最低。雖然從尾旋中改出的具體技術取決于飛機和尾旋的類型，但通常通過減少飛機自轉角速度、恢復飛機迎角的策略可以改出大部分尾旋。采用深度學習和強化學習技術能夠在發生尾旋時自動執行改出操作。經過多年研究，強化學習發展出多種技術途徑。 Tomar D S等［5］采用強化學習和監督學習技術開展了飛機失速改出技術研究；? Kolb S等［6］開展了飛機深失速實時探測和改出程序研究； Cao H H等［7］采用強化學習技術開展了雙階段飛機尾旋改出策略研究； Kim D等［8］采用強化學習技術開展了無人機平尾旋最優改出策略研究； Chao H Y等［9］開展了無人機失速/尾旋探測技術的飛行試驗研究；? Bunge R A等［10-11］開展了無人機的失速/尾旋探測與飛行試驗技術研究。

強化學習通過智能體與環境的交互學習獲得好的策略，在解決飛機尾旋改出具有廣闊前景。強化學習控制方案有可能發展為常規尾旋改出的替代方案，但強化學習也面臨一些問題，研究側重于解決相應的問題。學習算法期望從當前動作中獲得累積獎勵，因此它可以避免不希望的軌跡，例如高迎角、大角速率和大過載的狀態。強化學習經常被用來控制黑盒系統，包括不確定性，它保證了在預定狀態空間和動作空間上的最優性。然而，在利用強化學習解決尾旋改出問題時，存在相當具有挑戰性的問題。一個問題是維度爆炸的問題。隨著狀態空間和動作空間維度的增加，相應的計算負載呈指數增長。另一個問題是函數逼近器的復雜性。由于學習技術通過使用單個狀態操作獎勵集進行迭代來更新連續狀態上的獎勵，因此需要一個覆蓋整個狀態空間的函數逼近器。函數逼近器的復雜性應確定為正確反映目標函數，而不會出現欠擬合和過擬合。

智能體獲得的策略需要滿足諸多要求。強化學習算法應當學習以獲得更好的策略，而更好的策略體現在如下三個方面：

（1）強化學習獲得的策略應當符合安全性的要求。符合安全性要求的策略應當盡量避免事故的發生。對于尾旋改出這種從事故中解脫的策略而言，安全性更是極其重要的方向。

（2）強化學習獲得的策略應具備穩定系統的能力。在系統控制過程中，應當能夠將系統從不穩定控制轉化為穩定控制。對于尾旋改出策略而言，控制策略執行后，飛機應當能夠轉為平穩飛行，更要避免二次失速。

（3）強化學習應當能夠完成目標化的探索，從而避免智能體學習到存在安全隱患的高獎勵策略。強化學習是通過最大化獲得獎勵獲取策略，如果對獎勵的考慮不夠充分，可獲得最大獎勵的策略。

在利用深度強化學習技術進行飛機尾旋改出的過程中，需要著重解決強化學習的獎勵函數無法兼顧策略安全性與穩定性的問題、策略的探索與輸出難以預測和約束的問題，以及難以靈活地應對動態的多目標控制問題。

2 算法設計與實現

2.1 問題建模

飛機的兩個相鄰時刻的飛行狀態可近似看成飛機在給定操作下狀態之間的轉移，飛機下一時刻的狀態僅和當前時刻的狀態有關，與上一時刻的狀態無關，所以在理論層面上，飛機的飛行狀態具有馬爾科夫性，然后將飛機飛行過程在飛行時間的維度上離散化，可以近似將飛機的飛行過程建模為離散時間的馬爾科夫鏈［12］（Discrete-Time Markov Chain， DTMC）。飛機的尾旋改出過程其本質是通過操作桿對飛機的狀態轉移加以控制，使飛機達到某個目標狀態，故飛機的尾旋改出過程就是在飛機飛行過程的馬爾科夫鏈的基礎上加入決策控制，故可將飛機尾旋改出過程建模為馬爾科夫決策過程（Markov Decision Process， MDP）。

將飛機的尾旋改出過程建模為馬爾科夫決策過程， MDP是一個序貫決策過程，可以由一個5元組來表示，具體建模內容規范如下：

飛機的尾旋改出是一個連續控制問題［13］，在MDP決策過程中，采用強化學習方法去解決尾旋改出連續控制問題。以飛機進入尾旋后的初始狀態作為強化學習網絡的環境初始化之后的第一個狀態，然后設計合理的強化學習網絡去擬合狀態和動作的映射關系，以強化學習網絡的輸出值（即動作值）作為飛機控制桿的控制量，飛機獲得新的控制量后對當前狀態進行更新并獲得新的狀態，此時環境會根據飛機的新狀態對這次控制決策給出一個獎勵值，隨后以該新狀態作為強化學習網絡的下一個輸入值，如此每一次循環，飛機將完成識別當前狀態—執行控制指令—到達下一狀態—獲取獎勵值這一完整流程，強化學習的目的是讓每一輪中飛機獲得的累計獎勵值達到最大，在合理的獎勵函數引導下，就可以引導網絡做出有利于尾旋改出的決策，直至將飛機改出尾旋狀態，恢復平穩飛行。

在基于值函數的強化學習算法中，深度神經網絡的輸出是當前狀態s的所有可執行動作的狀態-動作價值Q（s， a; θ）所組成的向量，因此該方法只能處理離散動作空間問題。而本文的尾旋改出場景是連續動作空間問題，比如動作設定為飛機操縱桿的幅度值，基于值函數的強化學習算法不適用。策略梯度方法利用參數化的深度神經網絡來近似策略，從而可以輸出連續的動作策略，解決尾旋改出問題中涉及的連續動作問題。策略梯度方法在每次進行策略更新前，需要采用當前的策略與環境進行交互產生多條軌跡，計算梯度后對模型進行更新，得到新的策略。

由此可見，策略梯度是一種在線策略（On-Policy）的更新方法，導致該算法對樣本的利用率較低。同時，由于策略梯度算法輸出的是動作的概率分布，而不是一個確定性的動作，導致改出算法收斂速度較慢且不穩定，而基于值函數的強化學習方法可以解決這個問題。

綜上，可以將策略梯度和值函數相結合，構建一個新的強化學習架構，即Actor-Critic（AC）架構［14-15］。本文采用基于AC架構建立的近端策略優化算法［16］（Proximal Policy Optimization， PPO）開展尾旋改出試驗。 PPO算法是一種新型的在線策略梯度方法，它綜合了“策略梯度方法（PG）”和“置信域策略優化（TRPO）”的優點。

2.2 算法模型

2.2.1 狀態空間

在尾旋改出場景中，強化學習狀態空間的變量由飛機的10個飛行狀態量構成，分別為空速、迎角、側滑角、滾轉角、俯仰角、偏航角、滾轉角速度、俯仰角速度、偏航角速度、垂直速度。在強化學習的網絡訓練過程中，狀態信息被表征為一個10維向量。表1為強化學習狀態空間的變量表。

2.2.2 動作空間

在尾旋改出場景下，強化學習動作空間的控制變量包含升降舵、副翼、方向舵和油門桿等4個操縱面。表2通過對操縱面進行歸一化處理，給出了每一個控制變量的名稱、含義及其取值范圍。

2.2.3 獎勵函數

針對飛機尾旋改出場景，獎勵函數的設計目的是引導網絡做出最優決策，從而控制飛機完成改出。因此，獎勵函數應設計為一系列與狀態變量有關的函數。為了使目標網絡更容易收斂，與各狀態變量相關的獎勵函數應統一，獎勵函數r的形式如下：

式中：函數變量Curval表示智能體中當前該狀態分量的值； Tarval表示智能體中該狀態分量的目標值； Θ為縮放系數。當Θ為0.02時，該函數如圖1所示。

該獎勵函數有以下特點：

（1）越靠近目標值，獎勵值越大。從圖中可以看出，當前狀態值與目標值越接近，函數值越大，而且在目標值附近時函數值變化十分劇烈，這是為了讓強化學習網絡在目標值附近決策時，依然可以獲取較大的獎勵差值，使網絡更容易收斂至最優點。

（2）通過調整Θ值來代替正向動作獎勵。正向動作獎勵是指若當前決策使得該狀態分量比上一次決策更接近目標值，則獲得正值的獎勵，否則獲得負值的懲罰，這會引導智能體在每一次決策中趨向于做出當前狀態下的正向決策。在該獎勵函數中，通過調整縮放系數Θ，可以改變曲線與x軸的交點，而通過調整交點位置，可以在一定程度上代替正向動作獎勵，同時又避免了正向動作獎勵在目標值附近振蕩的缺點。試驗證明，當交點為（40， 0）左右時，訓練效果最好，此時對應的縮放系數Θ取值為0.02。

（3）將獎勵值歸一到［-1， 1］。獎勵值歸一化有利于減少因各個獎勵的標量值不同對總體獎勵的影響，同時也更加方便對不同參數的獎勵設置不同的權重，設置更加明確的獎勵函數和權重。

總獎勵Rtot為各狀態分量相關獎勵的加權和，即

權重Wi表示網絡對第i個狀態分量的重視程度，在實際的訓練過程中，各項權重將根據訓練的不同階段進行調整。

實際訓練中，使用空速、迎角、側滑角、滾轉角、俯仰角、偏航角、滾轉角速度、俯仰角速度、偏航角速度、垂直速度等10個狀態變量進行計算，然后，將各訓練輪次的獎勵函數取值進行疊加，得到最終的獎勵函數取值，即

Rtot=Rα+R+Rθ+RΨ+Rp+Rq+Rr+RVh（3）

式中： Rα， R， Rθ， Rψ， Rp， Rq， Rr， RVh分別表示迎角、滾轉角、俯仰角、偏航角、滾轉角速度、俯仰角速度、偏航角速度、垂直速度對應的獎勵函數分量。各分量對應的獎勵函數的參數設置如表3所示。

2.3 訓練和測試環境

強化學習模型的訓練和測試環境是基于開源的飛機仿真程序，其低保真模型迎角范圍為-20°～45°，高保真模型［17］迎角范圍為-20°～90°。為了研究飛機的尾旋運動，本文使用高保真模型進行仿真。其中飛機本體運動方程、作動器模型、標準大氣模型等都基于飛機仿真程序說明文檔及公開資料［18］。本文采用常規遍歷進入方法，生成若干尾旋軌跡，作為強化學習尾旋改出算法的數據集。

尾旋軌跡構建的主要過程是，首先選定不同高度，將飛機在規定速度下配平，然后選擇控制升降舵使飛機到達超臨界迎角區域，再通過不同副翼、方向舵偏轉進入尾旋。高度取值方法為2 000 ft到20 000 ft中每2 000 ft取一個值，速度均取為300 ft/s。

根據上述方法進入尾旋，生成了足夠數量的尾旋軌跡，尾旋中飛機平均迎角60°左右，平均偏航角速度80 （°）/s。每條軌跡由北向位置、東向位置、高度、空速、迎角、側滑角、滾轉角、俯仰角、偏航角、滾轉角速度、俯仰角速度、偏航角速度、發動機狀態、升降舵偏轉、副翼偏轉、方向舵偏轉等16個時序數據構成。圖2展示了一條典型的尾旋軌跡三維圖，圖3給出了在該軌跡上飛機狀態量的變化情況。

由圖3可見， 10 s之后飛機迎角快速超過50°，進入過失速狀態，并發生橫航向的向左偏離運動。 40 s左右，飛機偏航速率達到100 （°）/s、平均迎角約為70°，開始進入較為典型的平尾旋狀態，飛機沿著一條半徑極小的螺旋線急速下墜，如圖2所示。

3 智能體訓練和測試

3.1 試驗條件設置

3.1.1 訓練初始狀態

在強化學習網絡訓練過程中，每個控制回合的開始需要初始化環境，然后控制網絡接受的第一個狀態量為初始狀態。表4列出了訓練中的部分初始條件，其余條件可根據給出的要求和飛機尾旋時自身狀態計算得到。

3.1.2 訓練終止條件

一輪循環中飛機控制步數達到給定數量（由超參數max_step指定）后將自動結束本輪循環，若最后一個狀態仍未達到尾旋改出標準，則將此次控制視為改出失敗。

達到給定尾旋改出成功條件：一輪循環中若控制輸出步數未達到最大執行步數，且飛機狀態達到給定的尾旋改出成功狀態值，則將此次控制視為改出成功。表5為給定的尾旋改出成功狀態值表。

3.2 網絡結構設計

本文PPO算法設計了兩種動作網絡（Actor）結構。其中，基準版的網絡結構只有一個隱藏層，其網絡寬度為64，其結構如圖4所示。

加深版Actor網絡中的隱藏層變為3層，同時將網絡的寬度擴增為128，其結構如圖5所示。

本文PPO算法設計了兩種評價網絡（Critic）結構。其中，基準版的網絡結構只有一個隱藏層，其網絡寬度為64，其結構如圖6所示。

加深版Critic網絡的隱藏層變為3層，同時將網絡的寬度擴增為128，其結構如圖7所示。

3.3 訓練的超參數設置

飛機仿真積分時間： 0.001 s

強化學習算法決策控制間隔： 0.03 s

隨機種子： 10

經驗池大?。˙atch_size）： 2 048

單批次更新大?。∕ini_batch）： 64

單次經驗池的更新次數（K_epochs）： 5

策略的熵（Policy Entropy）： 0.01

優化器eps參數（Adam Epsilon）： 1×10-5

Actor和Critic網絡的學習率： 3×10-4

折扣因子（γ）： 0.99

泛化優勢估計器參數（λ）： 0.95

PPO 截斷參數（Epsilon）： 0.2

網絡隱藏層寬度（Hidden_width）： 64

最大步長（Max_step）： 50 000

3.4 訓練過程的優化方法

3.4.1 初始改出狀態點的隨機化處理

在訓練過程中，選取了16條不同的尾旋軌跡，在尾旋軌跡上隨機選取了共計1 500個發生尾旋的飛機飛行狀態點，并在這1 500個飛行狀態點上隨機仿真0～10 s后，再使智能體操縱飛機舵面，開始尾旋改出訓練。這樣就可以使智能體在盡可能多的狀態下開展尾旋改出訓練，拓展智能體的狀態空間取值范圍，增加初始狀態點的隨機性，從而學習到更為全面的改出操縱方法，提高智能體的改出成功率。

3.4.2 分階段的獎勵函數設置

在尾旋改出過程中，目前普遍適用的操縱方法是：首先令飛機“止旋”，然后再操縱飛機“拉平”。因此，在訓練過程中可以將尾旋改出的獎勵分為兩部分。第一部分是在飛機姿態變化率較大（p， q或r的絕對值超過10 （°）/s）時，將p， q和r對應的獎勵值設置更大的權重；第二部分是在飛機姿態變化率較?。╬， q和r的絕對值小于10 （°）/s）時，則增加對滾轉角、俯仰角和偏航角的獎勵值，鼓勵智能體完成“拉平”控制。

雙階段獎勵函數的第一階段：

Rtot=Rp+Rq+Rr+RVh（4）

其中各分量對應的獎勵函數系數如表6所示。

雙階段獎勵函數的第二階段：

Rtot=R+Rθ+RΨ+RVh（5）

式中各分量對應的獎勵函數系數如表7所示。

4 試驗結果

4.1 訓練與測試表現

在訓練環境下將尾旋進入-改出整個過程分為三個階段。（1）第一階段：平飛階段；（2）第二階段：采用一定的控制操作使飛機進入尾旋；（3）第三階段：改出控制階段，強化學習動作網絡將輸出操縱動作值，控制飛機從尾旋狀態中改出。

此外，本文在開展尾旋改出控制時，通過改變獎勵函數的設置，提出了單階段改出和止旋-拉平雙階段改出等兩種改出策略。

4.1.1 單階段改出

圖8展示了采用單階段改出策略進行智能體訓練時，尾旋改出過程中飛機飛行狀態量的變化曲線。圖8中標注了多條垂直于橫軸的短豎線，? 代表在該狀態點，飛機已經滿足改出訓練設置的終止條件；曲線的起始點代表智能體接管飛機控制的起點，? 當前程序設定的是進入穩態尾旋后10 s，智能體開始介入改出控制。

圖9和圖10分別展示了低空狀態和高空狀態下采用訓練好的智能體進行尾旋改出過程中飛機飛行狀態量的變化曲線。從圖9中可以看出，開始改出操縱后飛機迎角逐漸穩定到20°左右、滾轉角和側滑振蕩收斂到0°附近，飛機恢復到無側滑、機翼水平的穩定對稱飛行姿態，改出過程時長為16 s，高度損失為550 ft。可見，通過強化學習訓練得到的智能體能夠將飛機從尾旋狀態中改出，過程耗時較短、高度損失較小且沒有進入其他的危險狀態。從圖10中可以看出，開始改出操縱后飛機迎角從60°減小到20°左右、滾轉角和側滑振蕩快速收斂到0°附近，飛機恢復到無側滑、機翼水平的穩定對稱飛行姿態，改出過程時長為35 s，高度損失為2 500 ft。因此，強化學習訓練得到的智能體能夠將飛機從尾旋中改出。

與圖9的低空改出結果相比，高空改出耗時更長、高度損失更多。由于高空狀態下空氣密度較小，導致飛機各操縱舵面的操縱效能較低；而在智能體的訓練過程中，沒有考慮飛行高度變化對尾旋改出策略的影響，導致智能體在高空和低空的改出操縱策略一致，當高空操縱效能降低后，其改出效率也會隨之下降。在后續研究中，可嘗試將高度因素納入到智能體的狀態變量空間中，使其在高空和低空具備不同的改出操縱策略，并優化高空的改出效果。

4.1.2 雙階段改出

圖11展示了采用雙階段改出策略進行智能體訓練時，尾旋改出過程中飛機飛行狀態量的變化曲線。圖11中標注了多條垂直于橫軸的短豎線，代表在該狀態點，飛機已經滿足改出訓練設置的終止條件。當前程序設定的是進入穩態尾旋后10 s，智能體開始介入改出控制。圖12和圖13則分別展示了低空和高空狀態下采用訓練好的智能體進行尾旋改出過程中飛機飛行狀態量的變化曲線。

從圖12中可以看出，開始改出操縱后飛機迎角逐漸穩定到20°左右、滾轉角和側滑振蕩收斂到0°附近，飛機恢復到無側滑、機翼水平的穩定對稱飛行姿態，改出過程時長為18 s，高度損失約為550 ft；與圖9中展示的單階段改出效果基本一致。綜上，單階段和雙階段的改出策略均能夠將飛機從尾旋狀態中改出，且過程耗時較短、改出過程中高度損失較小，且沒有進入其他的危險狀態。

從圖13中可以看出，開始改出操縱后飛機迎角從60°減小到20°左右，滾轉角和側滑振蕩快速收斂到0°附近，飛機恢復到無側滑、機翼水平的穩定對稱飛行姿態，改出過程時長為8 s，高度損失約為1 000 ft。與圖10對比可知，雙階段改出策略的改出效率明顯高于單階段改出策略，且單階段改出過程中飛機姿態會出現較大幅度的振蕩，而在雙階段改出過程相對平穩。綜上，雙階段的改出策略能夠更高效地將飛機從尾旋狀態中改出，且過程耗時更短、改出過程中高度損失更小，且不會進入其他的危險狀態。

4.2 魯棒性試驗設置

4.2.1 系統時延干擾試驗

系統時延是指輸入智能體動作網絡的飛機狀態時刻與飛機當前的真實狀態時刻之間的時間間隔，如圖14所示。

為了驗證系統的魯棒性，需要在不同的系統時延條件下進行尾旋改出試驗。

4.2.2 傳感器誤差干擾試驗

傳感器誤差是指在現實環境中獲取飛機各項狀態值與飛機真實值之間存在無法消除的工程誤差。在仿真環境下，通過在獲取狀態值之后添加一個給定方差的白噪聲來模擬這一情況，如圖15所示。從仿真環境中獲得的飛機真實狀態為S*，輸入到決策網絡的狀態為添加噪聲δ之后的狀態S，即

S=S*+δ（6）

為了驗證系統的魯棒性，需要在不同的系統誤差條件下進行尾旋改出試驗。

4.2.3 不同高度下隨機初始化條件試驗

為了驗證網絡的泛化能力，需要在不同高度下進行隨機初始化條件的尾旋改出試驗。

4.2.4 交叉試驗

為了驗證各因素對尾旋改出的影響，需要在不同干擾項疊加因素下開展交叉試驗。

4.2.5 網絡結構試驗

由于基準版的網絡結構在初步試驗中，發現其效果不太理想，故設計加深版網絡試驗，進行對照，希望加深版網絡可以更好地擬合尾旋改出操作，帶來更好效果。

4.3 魯棒性試驗改出效果

根據上述魯棒性試驗設置，本文對基準版網絡單階段、基準版網絡雙階段、加深版網絡單階段、加深版網絡雙階段算法分別進行了魯棒性試驗。結果證明，強化學習可以應用在飛機的尾旋改出中。

4.3.1 系統時延干擾試驗

系統時延會使改出時間增加，所以在低空狀態時，增加的操作時間會使得網絡沒有足夠的時間進行尾旋改出，降低尾旋改出的成功率，但是在高空狀態時，由于高度足夠，對尾旋改出的成功率幾乎沒有太大的影響。這主要是因為系統時延會不可避免地增加模型的決策時間間隔，但不影響決策的有效性，因此增加系統時延對模型的決策干擾是十分有限的。

4.3.2 傳感器誤差干擾試驗

傳感器誤差在達到50%時，對模型的尾旋改出性能會有較少影響；在大于50%誤差后，反而會使改出時間降低。結合系統時延對比試驗的數據，說明模型對干擾的抵抗是很有效果的。

4.3.3 不同高度下隨機初始化條件試驗

在大于3 000 ft的高度下尾旋，盡管發生尾旋時飛機的初始狀態不同，改出的成功率會普遍升高且改出時間相近，但在2 500 ft以下的低空進行改出時，成功率會隨著高度的降低而降低，尤其是尾旋高度低于2 000 ft后，改出成功將完全取決于發生尾旋時飛機的初始狀態，若初始狀態十分不利于改出，則會改出失敗。

4.3.4 交叉試驗

在高空情況下，系統試驗和傳感器誤差的干擾對模型決策的影響較小，但在低空情況下，這兩項干擾會顯著降低改出成功率，說明尾旋高度越低，模型的抗干擾能力越差。

4.3.5 不同網絡結構試驗

通過基準版單階段與加深版單階段的網絡對比發現，網絡的加深有利于更好地擬合較為復雜的狀態，可以帶來更好的表現。

在基準版單階段與雙階段的對比中可以發現，雙階段的效果是優于單階段的效果，但是在加深版的試驗中上述表現卻恰恰相反。其原因可能是，由于網絡加深以及雙階段帶來的訓練難度增加，加深版的神經網絡還未訓練到最優狀態，從而出現了加深版雙階段智能體的改出效果不如加深版單階段的智能體。

5 結? 論

本文基于飛機仿真環境，形成了16組典型尾旋軌跡數據樣本，采用通用性較強、易于調參的PPO算法，建立了深度強化學習尾旋改出算法模型，設計了基準版單階段、基準版雙階段、加深版單階段、加深版雙階段四種網絡結構，開展了低空和高空狀態的改出算法訓練，設置了魯棒性測試試驗，從時延、誤差和高度等方面給出了試驗結果。總體結論如下：單階段和雙階段的改出策略均能將飛機從尾旋狀態中改出，過程耗時較短，改出過程中高度損失較小，且沒有進入其他的危險狀態；單階段改出過程中飛機姿態會出現較大幅度的振蕩，而在雙階段改出過程相對平穩；雙階段改出策略的改出效率總體高于單階段改出策略，改出過程耗時更短、高度損失更小，且不會進入其他的危險狀態。

現階段工作主要存在三個方面的問題：一是原型系統氣動力模型精確度有限；二是缺乏對尾旋改出難度的評估；三是尾旋改出方案的設計還需進一步優化。目前，飛機原型系統氣動力模型的精確度有限，難以生成更接近于實際的足夠數量的尾旋軌跡數據，導致訓練和測試樣本不足。本文雖能進入一定數量的不同的尾旋模態，但是對尾旋改出難度的劃分還缺乏一個明確的定量標準，僅通過偏航角速率的大小來判斷改出難度的方法不夠精確，不利于后續建立統一的衡量改出方案效果的評價標準。對于尾旋改出方案，現階段嘗試了單階段和雙階段兩種改出方式，兩種方案在不同規模的網絡中表現出一定的差異性，其原因還有待進一步分析，同時單階段方案在“止旋”階段存在一定的往復振蕩，雙階段方案則不存在這個問題，往復振蕩會大大增加尾旋改出的總時間，姿態調整階段通常會花費較多的時間，該問題有待進一步解決。

針對大迎角氣動力模型的精確度問題，當前除了基于數學模型的傳統建模方法，汪清［19-20］、何磊［21］、王超［22］等人嘗試了支持向量機等機器學習方法用于大迎角非定常氣動力建模，取得了較好的效果。在后續研究中，可嘗試上述方法改善氣動力模型。針對尾旋改出難度的評估，可以嘗試將剩余舵效大小作為評估量。尾旋改出的難度除了體現在其運動本身的復雜性外，還體現在可使用的力和力矩的大小，如剩余舵面效能足夠大，則即使是復雜的尾旋運動也可較為簡單地改出，因此，剩余舵效是衡量尾旋改出難度的重要指標之一，應將其納入考慮范圍。為了改進尾旋方案設計，應進一步探究單階段中“止旋”往復振蕩出現的原因，同時研究雙階段中各階段不同的任務目標是否會影響改出時間。明確不同階段的任務目標應有助于提高尾旋改出的效率，可在姿態調整階段設計傳統的最優控制來替換強化學習以達到更短的改出時間。

參考文獻：

［1］ Kenny D J， Collins J， Sable A. Stall and Spin Accidents： Keep the Wings Flying ［EB/OL］. （2022-12-10）［2023-07-04］.https：∥www.aopa.org/-/media/files/aopa/ home/pilot-resources/safety-and-proficiency/accident-analysis/special-reports/stall_spin.pdf

［2］ Bihrle W， Barnhart B. Spin Prediction Techniques［C］ ∥Proceedings of the 6th Atmospheric Flight Mechanics Conference， 1980.

［3］顏巍. 立式風洞與立式風洞試驗［J］. 民用飛機設計與研究， 2016（3）： 52-55.

Yan Wei. Vertical Wind Tunnel and Vertical Wind Tunnel Experiments［J］. Civil Aircraft Design & Research， 2016（3）： 52-55. （in Chinese）

［4］ Sidoryuk M E， Khrabrov A N. Estimation of Regions of Attraction of Aircraft Spin Modes［J］. Journal of Aircraft， 2019， 56（1）： 205-216.

［5］ Tomar D S， Gauci J， Dingli A， et al. Automated Aircraft Stall Recovery Using Reinforcement Learning and Supervised Learning Techniques［C］∥IEEE/AIAA 40th Digital Avionics Systems Conference， 2021： 1-7.

［6］ Kolb S， Montagnier O， Hétru L， et al. Real-Time Detection of an Aircraft Deep Stall and Recovery Procedure［J］. Journal of Gui-dance， Control， and Dynamics， 2019， 42（5）： 1185-1194.

［7］ Cao H H， Zeng W F， Jiang H T， et al. Two-Stage Strategy to Achieve a Reinforcement Learning-Based Upset Recovery Policy for Aircraft［C］∥2021 China Automation Congress （CAC）， 2022.

［8］ Kim D ， Oh G ， Seo Y ，et al.Reinforcement Learning-Based Optimal Flat Spin Recovery for Unmanned Aerial Vehicle［J］.Journal of Guidance， Control， and Dynamics， 2017， 40（4）： 1074-1081.

［9］ Chao H Y， Flanagan H P， Tian P Z， et al. Flight Test Investigation of Stall/Spin Detection Techniques for a Flying Wing UAS［C］∥Proceedings of the AIAA Atmospheric Flight Mechanics Conferen-ce， 2017.

［10］ Bunge R A， Kroo I. Automatic Spin Recovery with Minimal Altitude Loss［C］∥Proceedings of the AIAA Guidance， Navigation， and Control Conference， 2018.

［11］ Bunge R A， Munera Savino F， Kroo I. Approaches to Automatic Stall/Spin Detection Based on Small-Scale UAV Flight Testing［C］∥Proceedings of the AIAA Atmospheric Flight Mechanics Conference， 2015.

［12］ Sutton R S. Barto A G. Reinforcement Learning： An Introduction ［J］.IEEE Transactions on Neural Networks， 1998， 9（5）： 1054.

［13］ Lillicrap T P， Hunt J J， Pritzel A， et al. Continuous Control with Deep Reinforcement Learning［EB/OL］. （2019-07-05）［2023-07-04］. https：∥arxiv.org/abs/1509.02971.

［14］ Haarnoja T， Zhou A， Abbeel P， et al. Soft Actor-Critic： Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor［EB/OL］. （2019-08-08）［2023-07-04］. https：∥arxiv.org/abs/1801.01290.

［15］ Fujimoto S， van Hoof H， Meger D. Addressing Function Approximation Error in Actor-Critic Methods［EB/OL］. （2018-10-22）［2023-07-04］.https：∥arxiv.org/abs/1802.09477.

［16］ Schulman J， Wolski F， Dhariwal P， et al. Proximal Policy Optimization Algorithms［EB/OL］. （2017-08- 28）［2023-07-04］. https：∥arxiv.org/abs/1707.06347.

［17］ Russell R S. Non-Linear F-16 Simulation Using Simulink and MATLAB ［R］. 2003.

［18］ Gillert W P， Nguyen L T， Van Gunst R W. Simulator Study of the Effectiveness of an Automatic Control System Designed to Improve the High-Angle-of-Attack Characteristics of a Fighter Airplane： NASA TN- D-8176［R］. Hampton Va： Langley Research Center， 1976.

［19］汪清，錢煒祺，丁娣. 飛機大迎角非定常氣動力建模研究進展［J］. 航空學報， 2016， 37（8）： 2331-2347.

Wang Qing， Qian Weiqi， Ding Di. A Review of Unsteady Aerodynamic Modeling of Aircrafts at High Angles of Attack［J］. Acta Aeronautica et Astronautica Sinica， 2016， 37（8）： 2331-2347. （in Chinese）

［20］ Wang Q， Qian W Q， He K F. Unsteady Aerodynamic Modeling at High Angles of Attack Using Support Vector Machines［J］. Chinese Journal of Aeronautics， 2015， 28（3）： 659-668.

［21］何磊，錢煒祺，汪清，等. 機器學習方法在氣動特性建模中的應用［J］. 空氣動力學學報， 2019， 37（3）： 470-479.

He Lei， Qian Weiqi， Wang Qing， et al. Applications of Machine Learning for Aerodynamic Characteristics Modeling［J］. Acta Aerodynamica Sinica， 2019， 37（3）： 470-479. （in Chinese）

［22］王超，王貴東，白鵬. 飛行仿真氣動力數據機器學習建模方法［J］. 空氣動力學學報， 2019， 37（3）： 488-497.

Wang Chao， Wang Guidong， Bai Peng. Machine Learning Method for Aerodynamic Modeling Based on Flight Simulation Data［J］. Acta Aerodynamica Sinica， 2019， 37（3）： 488-497. （in Chinese）

Aircraft Spin Recovery Technique Based on Deep

Reinforcement Learning

Abstract： This paper builds an aircraft simulation environment， and establishes a test model of an automated spin recovery algorithm based on proximal policy optimization （PPO） algorithm. Four kinds of network structures are designed， that are basis single stage， basis double stage， deep single stage and deep double stage， to explore the influence of network structure and recovery stage on spin recovery effect. A robustness test experiment is set up， and the algorithm is tested and the results are analyzed from the aspects of delay， error and height.

Key words： spin recovery； deep learning； reinforcement learning； proximal policy optimization； algorithm test; aircraft

猜你喜歡

強化學習深度學習飛機

環球時報(2022-05-30)2022-05-30

“拼座飛機”迎風飛揚

當代陜西(2019年11期)2019-06-24

基于強化學習的在線訂單配送時隙運能分配

上海海事大學學報(2017年2期)2017-07-14

論“以讀促寫”在初中英語寫作教學中的應用

中學課程輔導·教學研究(2017年13期)2017-07-01

作文周刊·小學一年級版(2017年9期)2017-06-20

智能交通車流自動導引系統

大經貿(2017年5期)2017-06-19

MOOC與翻轉課堂融合的深度學習場域建構

新教育時代·教師版(2016年23期)2016-12-06

大數據技術在反恐怖主義中的應用展望

法制與社會(2016年32期)2016-12-01

分布式系統中基于非合作博弈的調度算法

湖南大學學報·自然科學版(2016年10期)2016-11-30

深度學習算法應用于巖石圖像處理的可行性研究

軟件導刊(2016年9期)2016-11-07

航空兵器2024年1期

航空兵器的其它文章: 單/雙站輔助的干涉儀標校與選站方法; 基于L-FPN的無人機上小目標識別模型輕量化方法; 干涉儀對頻分正交MIMO雷達的測向性能分析; 基于天塞主鏡的多尺度長焦成像系統設計; 基于磁梯度測量的磁校準方法; 基于分數階自適應神經網絡的電動舵機伺服系統摩擦干擾補償控制

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合