魏浩然
(四川大學國家空管自動化系統技術重點實驗室,成都 610065)
數據有效性分析是數據挖掘中的一個重要方面,用來發現“小的模式”,即數據集中顯著不同于其他數據的對象,在很多領域都有其應用,如氣象預報、金融領域、網絡入侵檢測、藥物研究,等等。對數據集進行有效性分析,能夠找出那些異常的噪聲數據,降低原始數據中的勘誤影響,提高數據質量,從而提高計算精度。文獻[1]將數據有效性分析應用到計算語言清晰度的實驗中,并且對比了三種有效性檢驗方法的檢驗效果。文獻[2]采用C4.5算法定義各個傳感器所采集數據對目標傳感器的支持度以決定目標傳感器數據的有效性,結果表明,該算法能準確判斷目標傳感器數據的有效性和故障傳感器在時域中發生的位置。文獻[3]給出了仿真模型確認中的若干種數據有效性分析方法,用來保證仿真數據的正確性和可信度。文獻[4]提出一種基于自適應閾值的軌跡異常點檢測算法,有效檢測出全部異常點,大幅度提高軌跡數據的質量。文獻[5]系統地對目前國內外異常點檢測算法進行了較為全面的闡述,并就這些算法在數據流挖掘中的可用性進行了研究與探討。
針對多源航跡融合過程中的數據特性,本文考慮將數據有效性分析環節加入其中,通過基于距離的方法,檢測并處理融合數據集中的異常數據,以提高融合結果的準確性。
多源航跡融合摒棄了單一傳感器局限且不穩定的缺點,通過對同一目標的多個觀測值進行歸納、綜合,實現對目標更精確的識別,其處理過程[6]通常包含以下幾個重要步驟:
(1)時空配準:從時間角度說,由于各傳感器掃描周期不同,即便周期相同傳感器位置不同各自所掃描到的目標時間也都不同,所以要將各個傳感器報告的位置數據外推到同一時間點。從空間角度來說,每個傳感器可能報告大地坐標、極坐標、直角坐標,坐標中心也有可能不同,融合之前需要將這些位置數據換算到同一公共坐標系下。
(2)數據關聯:其目的是為了尋找量測值之間的聯系,通過數據關聯我們可以將來自不同傳感器的同一目標的位置信息進行匹配,保證后續融合處理的合理性與正確性。
(3)融合估計:將融合關聯表中的各個位置信息納入計算,通過某種算法得出最終的狀態估計值,常見的航跡融合算法有加權平均融合法、自適應加權平均融合法等。
通過上述流程可以將來不同雷達探測到的來自同一目標數據的進行綜合,從而得到該目標更確的狀態。
融合估計的要點是要求參與估計的信息盡量準確,任何一個誤差大的觀測值都會對目標飛行狀態的估計產生影響。一方面,由于環境的復雜性和信號的不穩定性,傳感器本身報告的目標位置信息可能存在較大的誤差,另一方面,經過目標跟蹤模塊形成的航跡往往是一條鋸齒形的,特別是沒有經過濾波、平滑處理[7]的航跡,“鋸齒現象”更加突出。若將跟蹤航跡中的這種異常數據輸入給多源航跡融合模塊進行融合估計,勢必會對融合結果產生不利影響。如圖1所示。
圖1 某時刻航跡關聯情況
點跡A和點跡B雖然在關聯門限內,但由于是航跡“鋸齒突出”點,會與其他的點跡數據相距較遠。經典的加權平均融合法計算公式如下:
其中(xi,yi)代表第i個量測,ri為其權值。若航跡A、B權值很大的話,那融合估計結果受到的影響更大,所以消除這種異常位置數據十分有必要。
對于上述問題,我們需要一種有效的方法去檢測數據集中可能存在的異常值。在統計學中,數據有效性檢測最常用的方法就是標準差檢驗法[8],用不一致性來測試識別異常。
假設在本周期有n個點跡數據加入到融合列表中。(Xi,Yi)為第i個點的位置信息,其中i=1,2,…,n。先計算這 n個點的中心位置。
然后再計算這n個點到中心點的距離的標準差S。我們將離中心點三倍標準差距離的范圍確定為有效數據范圍,落在范圍之外的位置數據為異常數據。標準差檢驗法簡單、常用,但有效性檢測的精度不高,效果一般,并且必須保證數據集符合某種特定分布才行,具有局限性。
基于距離的方法是最先由Knorr和Ng[9]提出,其對異常點數據判定規則為:數據集T中的一個對象O稱為異常點,如果它滿足下列性質:數據集T中至少p*100%的對象與O的距離大于D。其實現算法流程如下:
該算法的重點是需要不斷調整參數D和p,尋找一個合適的值,使其符合實際場景。若r偏大,會檢測不出異常點;若r偏小,則可能把大部分數據都檢測為異常點。參數的可調整性使得基于距離的檢測方法能應用于不同場景。
檢測出異常點后,我們需要考慮如何處理這些異常數據,一般有鄰值替代法,均值替代法或者直接剔除法[10]等。直接剔除法最為簡單(后續實驗中若不另外強調,默認采用直接剔除法),但是沒有考慮到某些特殊場景,可能確實存在目標緊急情況下偏離軌跡的情況,異常點數據一定程度上也代表著真實數據可能偏向某一方的特性,所以理論上鄰值替代法會更加適合,即選擇一個離它距離最近的點進行替換。一方面,替代點與異常點距離最接近,替代前后引起的誤差最小,另一方面,替代數據與異常數據具有相似性質,都是樣本域的邊界點。因此,采用鄰近點數據替代異常數據是一種較好的處理方法。
用δ2代表報告位置與真實位置的距離方差,則δ2衡量了數據源的穩定性,δ2越大的航跡越容易出現鋸齒點,δ2越小的航跡越貼近于真實軌跡。本實驗模擬了12部雷達在同一時間段下對同一目標進行跟蹤,總共持續 30個周期,δ2分別為(24.6,1.9,3.2,3.1,2.5,3.4,6.2,3.1,2.7,5.0,2.2,25.1)。
實驗假設這12條模擬航跡都位于同一目標的關聯航跡列表中,原始的方法只需把同一個周期內的12個點跡進行融合即可,改進過的方法則需要在融合之前對這些點跡數據進行異常點檢測、處理。
我們在同一場景下進行了15次實驗,比較原始處理方法、標準差檢驗法、基于距離的檢驗方法(在r=8,p=60%的情況下)三種處理方式下的最終融合效果。檢測到異常點后將其直接剔除。15次實驗的結果如圖2所示。
圖2 三種方法的融合結果誤差比較
折線圖中的每一個點代表著某一次實驗下30個周期內融合結果與真值距離誤差的平方和。從圖2中可以看出,在大多數情況下,加入了數據有效性分析環節的融合算法計算出的結果與真值的誤差更小,并且,基于距離的方法檢驗效果要強于標準差檢驗法。
為了驗證哪一種異常點處理方式更合適,我們在基于距離的異常點檢測方法下,對異常點分別進行了均值替代、直接剔除和鄰值替代三種處理,15次實驗對比結果如圖3所示。分析可知,80%的情況下,采用鄰近點替代異常點后,融合計算出的結果與真實位置的誤差最小,而均值替代的誤差介于直接剔除法和鄰值替代法之間,直接剔除法的總體誤差最大。
圖3 三種異常點處理方法誤差比較
本文從提高融合結果精度的角度出發,提出了一種加入異常點檢測、處理的改進融合算法,并對數據有效性檢驗方法、異常點的處理方法作出了對比和分析,實驗結果表明,對于多源航跡融合,加入了異常點檢測、處理環節的改進融合算法比傳統融合算法的融合計算結果更加接近于真實值,并且基于距離的檢測法要比一般的標準差檢驗法檢測效果要好。在異常點處理方面,建議采用鄰值替代法。