基于K均值聚類算法的霧霾天氣自動識別?

2019-01-03 07:36邵利民徐冠雷

艦船電子工程 2018年12期

馬嘯邵利民徐冠雷郭策

（1.海軍大連艦艇學院海洋氣象教研室大連 116018）（2.91937部隊舟山 316000）

1 引言

隨著計算機視覺技術的迅猛發展，戶外視覺系統開始廣泛應用于軍事、交通、安全監控等領域。惡劣天氣造成的圖像模糊和信息覆蓋等，會直接或間接影響戶外視覺系統的性能，導致高速公路、機場、船運碼頭等基礎公共交通設施無法正常運轉，給人們的生產、生活造成極大影響［1］。霧霾天氣是頻繁出現的惡劣天氣之一，研究霧霾天氣的自動識別方法，不僅可以克服目前人工觀測天氣需要消耗大量人力和物力的不足，而且可以對戶外視覺系統采集到的圖像進行預處理，自動識別出有霧圖像，推進智能去霧技術的發展。

近年來，國內外學者從不同角度出發提出了不同的天氣識別方法。文獻［2］通過檢測不同天氣條件下建筑物直線模糊邊緣的刃邊函數，求取線擴散函數的跨度值，達到識別天氣的目的［2］，但該方法對霧天的識別率較低。文獻［3］采用基于決策樹的支持向量機（SVM）方法識別不同的天氣現象［3］，文獻［4］將改進的K近鄰算法與支持向量機融合進行天氣識別［4］，兩種方法對霧天的識別率均較高，但不適用于大規模數據的處理；文獻［5］在雙色大氣散射模型的基礎上提出一種識別天氣現象的方法，對霧天具有良好的判別效果，但該識別方法必須基于同一場景圖像進行天氣識別［5］。文獻［6］基于貝葉斯統計的方法實現霧天的自動識別，但準確率不高［6］；文獻［7］基于傳統的K均值聚類算法進行霧天天氣識別，識別準確率較高，但算法采用歐式距離來度量樣本間的相似度，忽略了樣本間的相關性［7］。

為從大量采集到的圖片信息中快速識別出霧霾天氣，并提高識別準確率，本文采用適合處理大量數據的K均值聚類算法實現霧霾天氣的自動識別。

2 K均值聚類算法

2.1 K均值聚類算法的基本思想

K均值聚類算法是由麥克奎因（J.B.Mac-Queen）于1967年提出的一種劃分式聚類算法，是到目前為止應用最廣泛最成熟的一種聚類分析算法，具有簡單快速、適用于處理大規模數據的優點［8］。

其基本思想是從含有大量數據對象的數據集中隨機選擇K個數據對象作為初始聚類中心，計算每個數據對象與K個聚類中心的距離，將所有數據劃分到與它距離最近的聚類中心代表的類中，根據新生成的各類中數據對象的均值更新K個聚類中心。若相鄰迭代次數內聚類中心值的變化超過規定的閾值，則根據新的聚類中心對所有數據對象進行重新劃分；若相鄰迭代次數內聚類中心值的變化小于規定的閾值，則算法收斂，輸出聚類結果。

2.2 傳統K均值聚類算法流程

1）從數據集中隨機選取K個初始聚類中心，分別計算數據集中每個數據與K個聚類中心間的歐式距離，將數據對象逐個劃分到與其距離最近的聚類中心代表的類中，計算分類后的誤差平方和準則函數E，如式（1）所示。其中 Cj（ j=1，2，…，K）表示聚類后的第 j類，x表示類Cj中的數據對象，mj表示類Cj的均值。E的值越小，說明數據樣本與聚類中心間的差異越小，聚類結果越好。

2）用各個類中所包含數據對象的均值更新初始聚類中心，并用新的聚類中心計算E值。比較相鄰兩次迭代計算得到的E值之差，若差值小于規定的閾值則聚類準則函數收斂，輸出聚類結果；否則返回步驟1）。

傳統K均值聚類算法的主要流程如圖1所示。

圖1 傳統K均值聚類算法流程圖

3 K均值聚類算法識別霧霾天氣

3.1 算法思想

要從戶外視覺系統采集的圖像中識別出霧霾天氣，就要處理大量圖像數據，本文從算法是否適合處理大規模數據的角度出發，選擇K均值聚類算法處理圖像。由于在霧霾天氣條件下，戶外視覺系統采集到的圖像與晴天采集到的圖像相比，飽和度明顯降低，本文選擇與飽和度的均值和方差作為識別霧霾天氣的特征［7］。

傳統的K均值聚類算法通常采用歐式距離作為數據樣本間相似性的度量方法，考慮到這種度量方法更適用于具有球狀分布的數據，且歐氏距離忽略了數據間的相關性，而馬氏距離在一定程度上消除了數據間相關性的影響，本文采用馬氏距離代替傳統K均值聚類算法中常用的歐氏距離作為相似性度量。此外，為節省算法的運行時間，本文不采用誤差平方和函數作為算法收斂的準則函數，而直接采用相鄰迭代次數內聚類中心變化的距離是否小于規定的閾值作為收斂準則，如式（2）所示：

其中ε為規定的閾值，mj，mj′為相鄰兩次迭代得到的第j類的聚類中心。

3.2 霧霾天氣識別步驟

1）數據預處理：為提取飽和度特征，從大量圖片信息中濾除飽和度為零的灰度圖像，并將所有彩色RGB圖像轉化為HSV模式。其中RGB為圖像的默認彩色模式，R、G、B分別代表紅、綠、藍三種顏色。HSV模式中H代表色調，S代表飽和度，V代表圖像純度。

2）特征值提?。簭腍SV模式的圖像中提取飽和度分量S，其計算如式（3）所示；計算飽和度分量S的均值M和方差V，將M和V作為圖像的特征值，組合成代表圖像特征的數據點[M，V]，所有代表圖像特征的點構成一個數據集I，如式（4）所示，其中n為數據集中圖像總數。

3）聚類：從圖像數據集I中隨機選取兩個數據點u1，u2作為初始聚類中心，計算數據集中各個數據點與兩個初始聚類中心的馬氏距離，如式（5）所示。其中，x為數據集I中的任一數據點，ui(i=1，2)表示聚類中心，V為數據集I中所有樣本點的協方差矩陣。

將各個數據點劃分到離它距離最近的聚類中心所代表的類中，計算各類中包含數據點的均值ui

′(i=1，2)；計算各類中樣本均值 ui′(i=1，2)與初始聚類中心ui(i=1，2)的距離Δ，Δ的計算如式（6）所示。若Δ小于規定的閾值ε，則輸出聚類結果，否則，將樣本均值ui′(i=1，2)作為新的聚類中心，重新對數據集中所有數據點進行聚類。

霧霾天氣的識別流程如圖2所示。

圖2 霧霾天氣識別流程

4 仿真實驗與分析

為驗證本文自動識別霧霾天氣算法的有效性，使用 Intel（R） Core（TM） i5-6300HQ CPU@2.30GHz，8GB內存的機器，在Matlab2014a平臺下編程設計實現了本文提出的算法。

實驗分為訓練過程和測試過程兩部分。訓練圖像集由哥倫比亞大學開放的圖像數據庫WILD中部分圖像以及本文實驗前期采集圖像組成，其中晴天、霧霾天圖像各400張。測試圖像集由本文實驗后期采集圖像組成，其中晴天、霧霾天圖像各100張。整個圖像集中部分晴天圖像如圖3所示，部分霧霾天圖像如圖4所示。

圖3 圖像集中部分晴天圖像

圖4 圖像集中部分霧天圖像

4.1 訓練過程

實驗訓練過程中，首先提取訓練圖像集中所有圖像的飽和度，計算飽和度的均值M和方差V，組成訓練數據集I，訓練前的數據點如圖5（a）所示。接著按照3.2節中霧霾天氣識別步驟3）對訓練數據點進行聚類，聚類后的訓練數據點如圖5（b）所示。訓練后得到兩個聚類中心，分別為centerA=[0.3892，0.0600]和center B=[0.1102，0.0157]，其中飽和度均值較大的A類數據點代表晴天圖像，飽和度均值較小的B類數據點代表霧霾天圖像。

圖5 聚類前后的訓練數據點

圖6 聚類前后的測試數據點

4.2 測試過程

得到了代表兩類圖像的聚類中心centerA和center B后，提取測試圖像集中所有圖像的飽和度，計算其均值M和方差V，形成測試數據集O。聚類前的測試數據集如圖6（a）所示。接著計算測試數據集中所有測試數據點與兩個聚類中心centerA和center B的馬氏距離，將測試數據點劃分到與之距離較小的聚類中心代表的類中，聚類后的測試數據點如圖6（b）所示。

4.3 實驗分析

測試過程結束后，經統計被劃分為霧霾天的測試圖像數量為95張，其中被正確識別的霧霾天氣圖像有92張，識別正確率將近97%，如式（7）所示。

文獻［7］中采用傳統K均值聚類算法識別霧天的正確率為90%，經比較可以看出，本文識別霧霾天氣的正確率顯著提高，驗證了本文算法的有效性。

5 結語

本文提出了一種基于K均值聚類算法的霧霾天氣自動識別方法，該方法計算簡便快速，適用于處理大規模數據，實驗證明該方法的識別正確率高于采用傳統K均值聚類算法識別霧霾天氣的正確率，識別效果較好。