?

基于強化學習的多目標點航關聯方法

2022-04-21 05:18丁國勝蔡民杰
指揮控制與仿真 2022年2期
關鍵詞:航跡關聯誤差

丁國勝,蔡民杰

(南京電子技術研究所,江蘇 南京 210039)

點跡-航跡關聯主要是完成航跡更新與航跡維持,也就是以確定航跡的預測值為中心,根據某種特定的準則篩選符合條件的點跡,并利用點跡進行濾波的過程。因此,點跡-航跡關聯主要涉及目標跟蹤中常用的濾波算法,如最近鄰 (Nearest Neighbor, NN) 濾波、概率數據互聯(Probability Data Association, PDA)濾波、聯合概率數據互聯(Joint Probability Data Association, JPDA)濾波、多假設跟蹤(Multiple Hypothesis Tracking, MHT)濾波、交互多模型(Interacting Multiple Model, IMM)濾波及概率假設密度(Probabilistic Hypothesis Density, PHD) 濾波等。

多目標點跡-航跡關聯技術一直都是研究熱點,學者利用目標的運動特性和傳感器特點進行分析,并取得了一定的成果。但隨著時代的發展,目標受到了強雜波、強干擾等自然和人類行為等因素影響,很難有效辨別真實數據和受污染的數據,尤其是目標真實數據丟失時,關聯難度大大增加。不考慮虛警、漏警等傳統數據關聯問題,還可能因目標做出高機動、交互運動等動作出現數據混亂、交叉等更加復雜的問題,這也是多目標點跡-航跡關聯領域亟待解決的問題。

機器學習是當前流行的人工智能手段,利用機器學習理論分析大量數據已經較為普遍。RL技術是機器學習的一個分支,其主旨是在某一環境下作出能夠獲得最大預期收益的動作。RL起源于二十世紀六十年代,發展至今已取得很多成果,如Q學習、動態規劃、Policy Gradients、Deep-Q-Network等。

結合數據關聯和強化學習兩大技術的共同特點,利用人工智能的方式實現數據的高速處理,完成多目標點跡-航跡關聯,不僅有較高的工程實踐意義,也對國家國防建設有重要意義,這將可能會成為未來發展的一種趨勢。本文提出一種基于Q學習的多目標點跡-航跡關聯算法,該方法在雜波環境下,以強化學習(RL)方法為基礎,結合量測數據和目標運動狀態信息,實現機動與非機動情況下多個目標的點跡-航跡關聯,為跟蹤濾波過程提供了較準確的點跡數據。

1 基于RL的多目標點跡-航跡關聯算法

傳感器提供的點跡數據中存在大量虛假信息,且傳統點跡-航跡關聯方法同時處理多個目標量測數據時容易出現關聯混亂、目標丟失等問題,因此,本文提出了基于RL的多目標點跡-航跡關聯算法,有效解決了機動與非機動情況下多個目標的點跡-航跡關聯問題。該算法首先基于量測數據和目標狀態信息的特性,設置了狀態空間和行為空間;其次,利用目標狀態預測值與量測數據的相關程度選擇當前狀態的動作,并按照行為空間的選擇定義獎勵函數;然后,對Q表進行訓練學習,直到所有量測數據訓練一遍后,停止迭代循環,重新訓練學習;最后,由于雜波環境下目標點跡-航跡關聯受雜波影響較大,尤其是當目標發生強機動時,機器對雜波的分辨能力減弱,訓練學習后量測集合中仍然可能有雜波存在,大大影響了算法的關聯精度,因此,利用目標運動的先驗信息,對學習結束后選擇的所有量測進行再學習,并更新Q表中對應Q值。

1.1 模型建立

建模是實現RL方法的首要步驟,模型實際是馬爾可夫決策(Markov decision process, MDP)過程。但不同于常規Q學習算法的是,一般的MDP過程是一個機器對應一個過程,要處理多目標點跡-航跡關聯問題,若將一個目標看作一個機器,則應該是多個MDP過程。然而,實際情況是目標數未知,則MDP過程的數量也是未知的。因此,該方法將整個多目標點跡-航跡關聯過程視作一個大的MDP過程,單個時刻一個機器可以在多個不同的狀態下選擇不同的動作,也可以在一個狀態下選擇多個不同動作,且狀態選擇動作的過程互不相關。

模型確定后,需要設置MDP過程的狀態集合和行為集合。由于多個目標運動的實際環境比較復雜,狀態時刻受到環境影響,對機器訓練學習的過程也造成了影響,因此,這里設置了兩個狀態集合。

第一個狀態集合是由每個時刻獲得的量測數據構成:

={},=0,1,2,…

(1)

第二個狀態集合是由每個時刻的目標狀態預測值構成:

={,},=0,1,2,…

(2)

式中,是第個時刻的狀態預測值集合,是第個時刻的狀態協方差預測值集合。

集合為主狀態集合,集合為輔助狀態集合,的功能是輔助機器在狀態下選擇合適的動作。一般的RL方法中機器是隨機選擇動作的,雖然這樣會顯得機器更加智能,但是,在處理多目標點跡-航跡關聯時,實際環境中雜波較多,機器會同時處于很多不同的狀態,同樣面臨的選擇也會很多,這樣大大增加了機器找到正確點跡的時間,算法復雜度太高。因此,本方法設置了雙狀態集合,利用輔助機器選擇正確的動作轉移到下一個狀態。

模型的狀態轉移函數設為(,,),其計算方式與Q學習的狀態轉移函數相同。

1.2 動作選擇與獎勵函數

動作選擇過程的流程如下:

(3)

(4)

=[][]

(5)

求出偏離程度后,作如下判斷:

(6)

當前,RL方法中獎勵函數的定義方式大致分兩種:終點(成功)獎勵和瞬時獎勵。多目標點跡-航跡關聯過程沒有明確的終點,也沒有成功的標志,因此,本方法采用瞬時獎勵的方式。獎勵函數的定義如下:

(7)

1.3 學習與再學習

Q表的訓練學習是Q學習算法的核心步驟,學習結果直接影響機器選擇動作。本方法每個時刻的Q表學習方式與Q學習算法相同,即

(,,,+1,+1)=(1-)(,,,+1,+1)+

(8)

(9)

式中,函數(·)表示求兩點間歐氏距離的公式。若滿足

(10)

(11)

(12)

2 仿真實驗與結果分析

本文方法分別在非機動和強機動情況下進行測試,在單一情況下與NN算法和JPDA算法進行對比,記本文方法為RL-MA算法。

2.1 非機動環境

2.1.1 仿真環境設置

假定探測區域內有5個目標在雜波環境下做勻速直線運動,這5個目標的運動情況是:目標1的初始位置為[600 m,-600 m],初始速度為[-12 m/s, 6 m/s];目標2的初始位置為[-800 m,-200 m],初始速度為[26 m/s, 6 m/s];目標3的初始位置為[600 m,-600 m],初始速度為[-25/3 m/s, 40/3 m/s];目標4的初始位置為[-200 m, 800 m],初始速度為[5 m/s,-25 m/s];目標5的初始位置為[-800 m,-200 m],初始速度為[20 m/s,-10 m/s]。目標最小速度_min=10 m/s,最大速度_max=100 m/s。采樣周期=1,目標的檢測概率為0.98,雜波服從均值為λ的泊松分布。蒙特卡羅仿真次數為100,每個仿真時間為80 s,單次蒙特卡羅仿真中訓練次數為100。訓練數據和測試數據都是仿真雷達數據,學習率為0.01,衰減因子為0.98。圖1是目標真實運動軌跡情況,也是點航關聯結果的理論軌跡圖,圖中,紅色航跡為真實數據,橫軸與縱軸的單位均為m(圖8與此圖例相同)。

圖1 理論軌跡圖

假設目標的運動過程滿足狀態轉移方程

=-1+-1

(13)

量測數據滿足方程

=+

(14)

2.1.2 仿真結果與分析

圖2是單次蒙特卡羅仿真中雜波個數均值=1時的量測圖。圖中,黑色點跡為量測數據,橫軸與縱軸的單位均為m(下文圖9與此圖例相同)。

圖2 λ=1時量測圖

本文使用最優子模式分配(OSPA)計算三種算法的關聯誤差。圖3表示=1時三種算法的關聯誤差比較圖。圖中,黑色線表示NN算法,綠色線表示JPDA算法,紅色線表示RL-MA算法,橫軸表示仿真時間,單位為s,縱軸表示關聯誤差距離,單位為m(下文中圖5、6、7、10、11、12、13與此圖例相同)。

圖3 λ=1時三種算法的關聯誤差

從圖3可以看出,=1時NN算法的性能最差,而JPDA算法和RL-MA算法的性能都比較好,且關聯精度相差不大。

圖4~圖6分別表示=10、=30和=50時三種算法的關聯誤差比較圖。

圖4 λ=10時三種算法的關聯誤差

圖5 λ=30時三種算法的關聯誤差

圖6 λ=50時三種算法的關聯誤差

對比圖3~圖6可以明顯看出,隨著雜波強度增大,NN算法的性能依然最差,JPDA算法和RL-MA算法的性能沒有明顯下滑,關聯精度依然很高。

綜上,JPDA算法和RL-MA算法都能夠適應非機動環境,受雜波影響較小,而NN算法性能較差。

2.2 強機動環境

2.2.1 仿真環境設置

假定探測區域內有3個目標在雜波環境下機動,這3個目標的運動情況是:目標1的初始位置為[450 m,-500 m],初始速度為[-50 m/s, 0 m/s];目標2的初始位置為[800 m, 700 m],初始速度為[0 m/s,-50 m/s];目標3的初始位置為[-900 m,-300 m],初始速度為[50 m/s, 0 m/s]。目標最小速度_min=10 m/s,最大速度_max=100 m/s。采樣周期=1,目標的檢測概率為0.98,雜波服從均值為的泊松分布。蒙特卡羅仿真次數為100,每個仿真時間為50 s,單次蒙特卡羅仿真中訓練次數為100。訓練數據和測試數據都是仿真雷達數據,學習率為0.01,衰減因子為0.98。圖7是目標真實運動軌跡情況,也是點航關聯結果的理論軌跡圖。目標的運動過程滿足狀態轉移方程(13),量測數據滿足方程(14)。

圖7 理論軌跡圖

2.2.2 仿真結果與分析

圖8是單次蒙特卡羅仿真中雜波個數均值=1時的量測圖。圖9表示=1時三種算法的關聯誤差比較圖。從圖8、9可以看出,=1時NN算法的性能最差,JPDA算法次之,RL-MA算法的性能最好,關聯誤差較低。

圖8 λ=1時量測圖

圖9 λ=1時三種算法的關聯誤差

圖10~圖12分別表示=10、=30和=50時三種算法的關聯誤差比較圖。對比圖9~圖12可以明顯看出,隨著雜波強度增大,NN算法和JPDA算法的性能依然很差, RL-MA算法的性能雖然有所下滑,但關聯精度仍然較高。綜上,只有RL-MA算法能夠適應密集雜波下的強機動環境,性能較好。

圖10 λ=10時三種算法的關聯誤差

圖11 λ=30時三種算法的關聯誤差

圖12 λ=50時三種算法的關聯誤差

總的來說,相比NN算法和JPDA算法,RL-MA算法既能適應非機動環境,也能夠適應強機動環境,受雜波影響較小,具有較高的關聯精度。

3 結束語

本文針對密集雜波環境下的多目標點跡-航跡關聯問題,提出了一種基于Q學習的多目標點跡-航跡關聯算法。該算法的優點如下:

1)基于量測數據和目標狀態信息的特性,建立了符合多目標點跡-航跡關聯的MDP模型,設置了狀態空間和行為空間,保證了算法的可靠性。

2)利用目標狀態預測值與量測數據的相關程度選擇當前狀態的動作,并按照行為空間的選擇定義獎勵函數。以特定規則輔助智能體選擇動作,避免了錯誤動作的重復選擇,加快找到正確量測速度的同時,提高了關聯結果的準確性。

3)針對雜波環境下目標點跡-航跡關聯受雜波影響較大,尤其是當目標發生強機動時,機器對雜波的分辨能力減弱,訓練學習后量測集合中仍然可能有雜波存在的問題,利用目標運動的先驗信息,對學習結束后選擇的所有量測進行再學習,并更新Q表中對應Q值,提升了算法的有效性。

4)從算法復雜度方面來看,與NN算法和JPDA算法相比,雖然RL-MA算法的復雜度較高,但是,仿真結果表明,在強機動與非機動兩種情況下,RL-MA算法依然能夠保證點跡-航跡關聯過程的穩定性和關聯結果的高精度性,其性能明顯優于NN算法和JPDA算法,具有良好的工程應用前景。

猜你喜歡
航跡關聯誤差
基于自適應視線法的無人機三維航跡跟蹤方法
基于高斯過程的航跡片段關聯算法*
基于K-means++時間聚類的飛行航跡預測
隧道橫向貫通誤差估算與應用
隧道橫向貫通誤差估算與應用
奇趣搭配
拼一拼
智趣
精確與誤差
基于AIS航跡擬合的船舶航跡帶寬度計算與分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合