?

基于DBSCAN聚類算法的衛星數據分區異常檢測

2024-04-09 10:58尚星宇
科技創新與應用 2024年10期
關鍵詞:電子密度電離層鄰域

尚星宇

摘? 要:隨著我國第一顆電磁監測衛星的發射,衛星探測的海量數據不斷涌現,探究空間載荷數據變化特征已成為當前研究熱點。為了對張衡一號衛星LAP載荷數據進行異常檢測,該文將處理后的數據按地理緯度劃分為南緯50°到南緯20°,南緯20°到北緯20°,北緯20°到北緯50°三個區域,依次采用DBSCAN密度聚類算法進行聚類異常檢測。結果表明,該方法可用于對LAP數據的異常檢測。DBSCAN密度聚類算法可用于檢測衛星異常數據,為檢測衛星探測數據異常、研究空間數據變化特征提供思路參考。

關鍵詞:ZH-1衛星;原位電子密度觀測數據;異常檢測;DBSCAN;聚類算法

中圖分類號:P352.7? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)10-0138-05

Abstract: With the launch of China's first electromagnetic monitoring satellite and the continuous emergence of massive data detected by the satellite, exploring the changing characteristics of space load data has become a current research hotspot. In order to detect the anomaly of ZH-1 satellite LAP load data, the processed data are divided into three regions: from 50° south latitude to 20° south latitude, from 20° south latitude to 20° north latitude, and from 20° north latitude to 50° north latitude. The clustering anomaly detection is carried out by using DBSCAN density clustering algorithm in turn. The results show that this method can be used for anomaly detection of LAP data. DBSCAN density clustering algorithm can be used to detect satellite abnormal data, which provides a reference for detecting abnormal satellite data and studying the changing characteristics of spatial data.

Keywords: ZH-1 satellite; in situ electron density observation data; anomaly detection; DBSCAN; clustering algorithm

張衡一號衛星(以下簡稱“ZH-1衛星”)是我國自主研發的第一顆近地軌道電磁場環境監測科學試驗衛星,可觀測全球電磁場、電離層等離子體、高能粒子等觀測數據,實現對電離層空間環境多角度的探測分析,其主要科學目標之一是:對中國及周邊區域開展電離層動態實時監測和地震前兆跟蹤監測,探索地震電離層擾動機制[1-2]。衛星上搭載了3類8種科學載荷,第一類是用于電離層電磁場探測的載荷,包括高精度磁強計、感應式磁力儀和電場探測儀;第二類是用于原位等離子體參數探測的載荷,包括朗繆爾探針、等離子體分析儀和高能粒子探測器;第三類是用于電離層結構探測的載荷,包括GNSS掩星接收機和三頻信標發射機[3-4]。

為研究空間電磁場和電離層的變化,起初需要人工統計分析相關數據特征,而異常數據常常淹沒隱藏在海量數據中,使用傳統人工方法雖然能夠滿足相關研究需要,但費時耗力且效率低下,嚴重制約了后續各種數據的分析和研究工作。依據衛星跨度范圍廣,衛星探測數據復雜的特點,常用到的方法,如王秀英等[5]采用滑動窗口求標準差,通過設置閾值的方式檢測出頂部電離層不規則結構并進行研究;張學民等[6]采用四分位距法對張衡一號衛星探測等離子體參量數據異常提取,并對2020年新疆于田6.4級地震前電離層異?,F象進行分析。

數據挖掘中常用聚類算法可以對數據進行異常檢測和處理。通過對處理后的數據進行聚類分析,將相似數據點歸為一個聚類簇,將出現的單個數據為一類或者極少數數據為一類的數據判定為異常數據[7]。常用的一種用于異常檢測的DBSCAN密度聚類算法有很多研究成果,阮嘉琨等[8]利用DBSCAN算法對高速公路交通流進行異常數據檢測;潘淵洋等[9]針對環境監測應用,利用DBSCAN算法對訓練時段內的數據進行訓練并提取環境特征集,節點根據特征集對新采集的數據進行異常數據檢測。因此,本文嘗試使用DBSCAN聚類密度算法,根據衛星軌道數據特點設計按地理緯度劃分3個區域依次進行聚類,設置鄰域參數檢測異常數據。

1? 數據及預處理

本文選用ZH-1衛星朗繆爾探針(Langmuir probe,LAP)載荷探測的電子密度(electronic density,Ne)原位數據。該數據探測范圍為5×102~107 cm-3。為了避免極地干擾,本文僅選用中低緯度即南北緯50°之間的電子密度數據,圖1為2022年9月30日得到的同一軌道(編號:25863)升軌(衛星從南向北飛)和降軌(衛星從南向北飛)電子密度觀測數據隨緯度變化的連續曲線。由圖1可知,2個數據曲線都伴隨南北地理緯度顯示出較大尺度的趨勢性變化,而這種趨勢性變化隨季節、太陽活動等影響有所變化。圖1中軌道為升軌的電子密度觀測數據總體上比較平穩,而軌道為降軌的觀測數據在赤道附近急劇上升,有較大幅度變化。

圖1? 升降軌電子密度連續觀測數據隨緯度的變化曲線

由于ZH-1衛星探測范圍跨越南北緯度90°距離較大、記錄的科學數據種類較多、數據存儲量巨大,且衛星在軌工作狀態下,每隔一段時間工作模式會進行調整與切換,在調整和切換工作模式時數據記錄有時會出現數據缺失、信號突跳較大的情況,這些離群值數據對后續聚類會造成較大影響,所以需要對原始數據設計專門的數據預處理方法。本文根據軌道LAP電子密度數據的特點,將離群值數據置為空值,采用均值填充的方法,用數據附近的前后數據進行填充,并對缺失數據進行擬合預處理。經過離群值和缺失值處理,數據的質量將大大提高,有助于提高后續研究的精確度。后續數據處理均是在去除離群值和補齊缺失數據操作后進行的。另外,對于軌道有多個缺失數據的情況,該軌道數據不參加計算。

2? 方法介紹與研究

聚類分析屬于無監督學習,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一種典型的基于密度的聚類算法,這類聚類算法一般假定類別可以通過樣本分布的精密程度決定,同一類別的樣本,在該類別任意樣本周圍不遠處一定有同類別樣本存在[10]。DBSCAN對象需要設置以下2個主要參數:半徑eps和最小樣品點數min_samples,通過設置一組鄰域(eps, min_samples)來描述樣本集的緊密程度。半徑eps是指從一個觀察值到另一個觀察值的最遠距離,超過這個距離將不再認為二者是鄰居。最小樣品點數min_samples是指最小限度的鄰居數量,如果一個觀察值在其周圍小于半徑eps距離的范圍內有超過這個數量的鄰居,就被認為是核心觀察值。DBSCAN算法從數據集中隨機選擇一個核心點作為“種子”,由該“種子”出發確定相應的聚類簇,當遍歷完所有核心點時,算法結束。

在DBSCAN聚類技術中,所有數據點都被定義為核心點(Core Points)、邊界點(Border Points)或噪聲點(Noise Points)。若樣本xi的半徑eps鄰域內至少包含了min_samples個樣本,則稱樣本xi為核心點;若樣本xi的半徑eps鄰域內包含的樣本數目小于min_samples,但是它在其他核心點的鄰域內,則稱樣本點xi為邊界點;對于非核心點的樣本xi,若xi不在任意核心點半徑eps的鄰域里都是噪聲點,也被標識為異常值。DBSCAN算法的流程圖如圖2所示。

DBSCAN算法步驟為:①首先在樣本集D={x1,x2,...,x■■}中任意選取一點xi,判斷xi是否可以作為核心點,如果xi不能滿足核心點的定義,那么從D中繼續取點。如果xi滿足核心點定義,那么能夠以xi為核心點形成新的簇Cm。②從xi的半徑eps鄰域內選取其他點xj,判斷xj是否可以作為該簇新的核心點繼續擴張該簇。如果xj不滿足核心點定義,那么xj為邊界點,不再進一步處理。如果xj滿足核心點定義,那么將xj的半徑eps鄰域內的點加入xi所形成的簇Cm,同時再從Cm繼續選點進行核心點的判斷和簇的擴張,直至簇Cm中的核心點已經全部遍歷完成,無法繼續擴張為止。③將簇Cm中的所有點從樣本集D去除,此時完成簇Cm的聚類。接著繼續從樣本集D中取出新的點進行新簇的聚類,直至樣本集D中所有點全部經過判斷與聚類,剩下的點既不滿足核心點條件,也未被某一簇包含,定義其為噪聲點,也就是異常值。

圖2? DBSCAN算法流程圖

簡單來說,根據給定的鄰域參數半徑eps和最小樣品點數min_samples確定所有的核心點,對每一個核心點,選擇一個未處理過的核心點,找到滿足鄰域參數eps和min_samples的樣本生成聚類“簇”,重復以上過程。當完成這些所有步驟時,會得到一個關于簇劃分的集C={C1,C2,...,Cm},凡是在聚類周圍但又不是核心點的觀察值將被認為屬于這個聚類,而那些離聚類很遠的觀察值將被標記為異常值。

ZH-1衛星探測區域緯度覆蓋了從赤道到中高緯度區,由于電離層電子密度隨緯度變化較大,為了盡可能減少指標之間的量級和取值范圍差異的影響,避免太大的數引發數值問題,采用分區的DBSCAN算法更為合適。同時考慮到在數據赤道附近的變化幅度劇烈,為方便計算將軌道數據劃分為3個區域,分別是南緯50°到南緯20°,南緯20°到北緯20°,北緯20°到北緯50°。通過按地理緯度劃分區域的方式,使異常檢測結果更加可靠準確,不會受到整個軌道數據背景的影響。為了消除趨勢性影響,首先對數據進行一階差分計算,為了更直觀展示本文檢測方法,這里以具體軌道(6886號降軌軌道)觀測數據為例,如圖3(a)表示軌道號6886原始數據隨地理緯度的變化曲線,圖3(b)表示進行差分計算后的數據隨地理緯度的變化曲線。差分計算后的數據可以消除趨勢變化,原始電子密度數據中變化劇烈的地方,差分計算后的數據同樣變化劇烈。

這里對檢測過程中某些參數的設置稍加說明,半徑eps、最小樣品數目min_samples可以根據研究目的設定,半徑eps越小可以檢測更大空間尺度的異常數據,min_samples越小代表對異常區域的判斷更細致。使用Python語言編寫DBSCAN算法,對算法進行初步調試后,經過進一步分析后發現,在處理LAP電子密度數據時,半徑eps=0.01,最小樣品點數min_samples=5時,異常提取結果較為理想,與人工篩選結果吻合度更高。選用6886號軌道采用緯度分區的DBSCAN聚類密度算法對LAP電子密度處理后的數據進行異常檢測,再將檢測結果隨地理緯度展開,異常檢測結果如圖4所示,其中圖例標注為異常值,不同顏色的數據點代表屬于不同的簇,顏色越深的數據點說明聚類更集中。圖4中從左至右依次檢測得到的噪聲比和分簇數目為:圖4(a)的噪聲比為3.12%,分簇的數目為1;圖4(b)的噪聲比為24.23%,分簇的數目為7;圖4(c)的噪聲比為7.23%,分簇的數目為5,整個軌道數據的加權平均噪聲比為12.79%(保留小數點后2位有效數字)。由異常檢測結果可知,異常數據出現在緯度-20°到緯度20°之間的概率更高,符合原始數據在赤道附近波動的情況,與人工對比結果相吻合。

為了與不分區域的DBSCAN密度聚類算法異常檢測結果作對比,同樣采用同一軌道降軌的電子密度數據,使用整個軌道數據不進行緯度分區,用同樣的鄰域參數進行異常檢測得到的檢測結果如圖5所示,整個軌道的噪聲比為7.52%,分簇的數目為8。圖4和圖5展示了DBSCAN密度聚類算法對異常數據的檢測結果,根據對差分計算數據進行聚類分析,算法可成功標記正常數據和異常數據,但是對整個軌道數據采用DBSCAN算法會使部分數據,如緯度-50°和緯度50°附近的數據,埋沒在整個數據的背景場中,從而導致這些異常數據判斷為正常值,因此采用分區域劃分的DBSCAN密度聚類算法效果更佳。綜上,通過本文提出的基于DBSCAN密度聚類算法的衛星軌道數據分區異常檢測方法,可以對數據進行判斷分析,標記正常數據和異常數據,且按地理緯度劃分區域的DBSCAN密度聚類算法檢測效果更好。

3? 結束語

本文基于張衡一號衛星朗繆爾探針載荷探測原位電子密度觀測數據,對衛星軌道地理緯度南北50°之間觀測數據按緯度劃分3個區域,分別是南緯50°到南緯20°、南緯20°到北緯20°、北緯20°到北緯50°,利用DBSCAN密度聚類算法對電離層電子密度數據進行異常結構檢測和分析,結果表明本文提出的異常數據檢測方法可行有效,能夠對ZH-1衛星LAP探測數據進行異常檢測,可以作為衛星數據處理的方案之一,且按緯度分區域劃分得到的異常結果效果更好。

但是空間電離層變化是復雜多變的,且異常的判定也是人為標注的,參數閾值的設定仍需具體估計,不同閾值下的異常提取結果沒有進行對比,所以有關異常的判定和DBSCAN密度聚類算法的異常檢測方法的優異仍需進一步討論與研究。

參考文獻:

[1] 袁仕耿,朱興鴻,黃建平.電磁監測試驗衛星(張衡一號)系統設計與關鍵技術[J].遙感學報,2018,22(S1):32-38.

[2] 澤仁志瑪,劉大鵬,孫曉英,等.張衡一號電磁衛星在軌情況及主要的科學成果[J].地球與行星物理論評(中英文),2023,54(4):455-465.

[3] 申旭輝,張學民,崔靜,等.中國地震遙感應用研究與地球物理場探測衛星計劃[J].遙感學報,2018,22(S1):1-16.

[4] 申旭輝.發展電磁監測衛星 推進天基地震觀測系統建設[J].防災博覽,2017(2):62-65.

[5] 王秀英,楊德賀,張學慶,等.基于ZH-1衛星探測的太陽活動低年頂部電離層不規則結構的時空特征[J].地球物理學報,

2022,65(3):862-881.

[6] 張學民,劉靜,熊攀,等.2020年新疆于田6.4級地震前電離層擾動現象分析[J].地震,2021,41(2):145-157.

[7] 黃靜,官易楠.基于改進DBSCAN算法的異常數據處理[J].軟件導刊,2020,19(4):219-223.

[8] 阮嘉琨,蔡延光,樂冰.基于DBSCAN密度聚類算法的高速公路交通流異常數據檢測[J].工業控制計算機,2019,32(7):92-94.

[9] 潘淵洋,李光輝,徐勇軍.基于DBSCAN的環境傳感器網絡異常數據檢測方法[J].計算機應用與軟件,2012,29(11):69-

72,111.

[10] 徐書揚,俞鴻烽,潘華錚,等.DBSCAN聚類處理的改進蟻群算法在車輛路徑問題中的應用[J].電腦知識與技術,2020,16(19):182-186.

猜你喜歡
電子密度電離層鄰域
一種電離層TEC格點預測模型
Kalman濾波估算電離層延遲的一種優化方法
顧及地磁影響的GNSS電離層層析不等像素間距算法*
稀疏圖平方圖的染色數上界
不同GPS掩星電離層剖面產品相關性分析
等離子體電子密度分布信息提取方法研究
基于鄰域競賽的多目標優化算法
一種適用于電離層電子密度重構的AMART算法
電離層對中高軌SAR影響機理研究
關于-型鄰域空間
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合