?

Himawari-8衛星云下海表溫度反演的機器學習方法比較研究

2024-01-05 11:10范冬林楊鑫曾優何宏昌付波霖
遙感信息 2023年5期
關鍵詞:海表瑞利反演

范冬林,楊鑫,曾優,何宏昌,付波霖

(1.桂林理工大學 測繪地理信息學院,廣西 桂林 541006;2.桂林理工大學 生態時空大數據感知服務重點實驗室,廣西 桂林 541006)

0 引言

高精度海表溫度(sea surface temperature,SST)是研究海洋的重要參數之一,被廣泛用于研究海洋氣候和水域生態系統,是預估海洋和大氣之間復雜關系的基礎物理變量[1]。海洋動力(漩渦、上升流、鋒面等)變化特征和海洋災害(黑潮、臺風等)均與海表溫度變化密切相關[2-3]。海表溫度不僅是評估全球變暖的重要物理變量,同時是局部生態系統健康指標。因此,構建高精度、高空間覆蓋率的海表溫度是一項非常重要的任務。

衛星遙感技術由于具有監測尺度大、覆蓋范圍廣的特點,被廣泛用于對海表溫度的獲取?;谛l星的紅外輻射計使用黑體輻射定理可以方便地估算海表溫度[4]。此類方法以輻射出射度與熱力學溫度關系為基礎,使用多波段差消除不同氣體對輻射的影響[5],進而建立多波段亮溫和SST的擬合方程。如美國國家航空航天局海洋生物處理小組基于中分辨率成像光譜儀(moderate-resolution imaging spectroradiometer,MODIS)紅外波段開發的非線性海表溫度算法[6]、Mcclain等[7]根據多個通道開發的多通道海表溫度算法。這一類算法及其派生算法作為業務化方法被廣泛用于反演衛星SST產品,包括美國國家海洋與大氣應用管理局、美國國家航空航天局和歐洲氣象衛星開發組織等提供的SST產品。然而,這類算法受限于云干擾,易受不同氣體及氣溶膠對輻射的影響[8],無法準確評估在云遮擋情況下的海表溫度,在云廣泛存在的熱帶地區云遮擋問題尤為突出。

由于云層覆蓋,傳統SST反演算法導致云層下墊面海表溫度的缺失。為了提高海表溫度覆蓋率,需針對缺失的海表溫度數據進行預估。利用多種衛星海表溫度產品進行數據融合或者利用時序的海表溫度產品數據進行海溫預估[9-10]是提高海表溫度覆蓋率的常用方法。然而,上述方法不能實現遙感衛星海溫數據的實時補缺。如靜止衛星Himawari-8衛星影像數據,由于成像頻率遠高于極軌衛星,難以利用其他衛星溫度產品進行融合。因此,通過遙感紅外熱輻射直接反演海表溫度是提高靜止衛星海表溫度產品覆蓋率的主要方法。目前衛星紅外圖像云下海表溫度反演的研究有限,少部分研究開展了單一條件下(卷云)海表溫度反演[11-12]、云類型分組條件下海表溫度反演[13],但尚未有文獻針對Himawari-8衛星數據開展云下海表溫度反演。因此,為了彌補這項研究的缺失,本文基于近紅外波段(λ=1 609.8 nm)瑞利校正后的閾值建立6種不同閾值區間的樣本數據集,利用機器學習算法探究在不同閾值區間下云下海表溫度的反演性能。本文建立的算法可以有效提高Himawari-8衛星單次成像下海表溫度的空間覆蓋率。

1 數據源與數據處理

1.1 數據源及數據匹配

Himawari-8是日本氣象廳發射的一顆覆蓋西太平洋和東亞地區的靜止氣象衛星,以10 min超短周期作業,其紅外波段空間分辨率為2 km×2 km,是葵花系列衛星的一種。其搭載的高級葵花成像儀(advanced himawari imager,AHI)傳感器共有16個通道,為3個可見光、3個近紅外以及10個紅外通道[14]。

本文使用已進行輻射校正和幾何校正的L1級數據作為遙感數據源。實測海表溫度數據為2019年、2020年日本氣象廳海洋浮標采集的海表溫度,該數據的采樣頻率為1 h,本文選取采集區域位于15°N~45°N,120°E~170°E的海洋浮標海表溫度實測數據。為保證實測數據的正確性,本文對浮標實測海表溫度數據進行質量監測。首先,通過數據預處理刪除重復的數據,監測數據空間位置的合理性,刪除空間位置在陸地和近海岸區域的數據。其次,監測數據內部一致性,對同一個浮標采集的數據進行噪聲過濾,其過濾過程如下[15]:由于實測SST在某些采樣頻率存在數據缺失問題,因此,先對缺失數據進行插值。本文設置插值滑動窗口為5 h,即當前點SSTi在[SSTi-5,SSTi+5]范圍內存在實測值時才滿足插值條件,插值方法直接使用滑動窗口內的均值;對插值后的實測數據進行連續性判斷,如果斷裂則分割為一個片段,當片段中的SST數據值小于10個,直接忽略該片段;對每一個片段利用孤立森林[16]進行異常檢測,剔除異常值;最后只在實測SST數據中選取非異常值的數值作為合理的SST。圖1展示了其中一個浮標設備實測數據進行去噪后的結果,圖2為剔除噪聲后實測數據的空間分布以及有云和無云的數據直方圖,其中有云和無云數據通過Himawari-8衛星云產品數據判別。

圖1 海表溫度實測數據噪聲去除結果

圖2 實測數據空間分布和直方圖

然后對去噪后的實測數據與Himawari-8衛星L1級數據進行匹配。數據匹配方法是以實測數據時空信息為基準,先匹配實測點時間在±10 min以內的Himawari-8衛星L1級全盤數據,然后以實測點空間位置為中心,選擇3×3窗口計算單元,并計算第5波段(λ=1 609.8 nm)反照率(albedo)在該窗口內的平均值和標準差,如果中心像元的值超過2倍的標準差,則忽略該匹配點。由于Himawari-8衛星L1 1~6波段存儲的并非大氣頂層反射率,需要按照式(1)對其轉換為ρTOA。

(1)

式中:ρ是大氣層頂(top of atmosphere,TOA)的表現反射率;θ是太陽天頂角。

1.2 數據預處理

數據匹配后的數據集需進行云識別以便于開發和訓練有云、無云情況下的模型。云的種類多、厚度參差不一且隨時序動態變化,導致衛星采集存在云干擾的數據易產生多樣性及復雜性。如果存在云,則輻射傳輸時將改變傳輸的方向,在數據中表現出反射率增大、亮度溫度降低。出現誤差主要是部分輻射來源于云頂,這成為云下海表溫度預估時的重大阻礙?;陂撝捣椒ū蛔钤邕\用云的判別,是一種高效且準確的方法[17]。例如,在開闊海域,利用近紅外波段(SeaWiFSλ=865 nm,MODISλ=869 nm)瑞利校正后的閾值0.027判別是否有云[18];在近岸海域,利用短波紅外(MODISλ=1 240 nm)瑞利校正后的閾值0.023 5進行近岸海域云檢測[19]。本文采用閾值方法,根據瑞利散射原理,利用6S模型計算第5波段(λ=1 609.8 nm)的瑞利校正反射率值進行云層判別,并將其標記為云層值(RC5),后文中將以該值為依據劃分有云情況下的樣本。與標準6S模型不同是,本文將Himawari-8衛星第5波段的光譜響應函數作為波長參數進行瑞利校正。根據實驗,閾值為0.125時無云數據和Himawari-8衛星官方提供的云掩膜數據最匹配,二者的相似度達到92%。因此,RC5≤0.125被認為是無云,RC5>0.125被認為是有云。然后,不斷增大RC5的閾值,構建不同閾值下的樣本集。由于6S模型無法判別剔除太陽天頂角(solar zenith angle,SOZ)大于70°時是否存在云,在對匹配點對進行瑞利校正時,剔除SOZ大于70°的數據。

2 方法

為了評估不同機器學習方法在有云和無云情況下海表溫度反演的精度,本文基于3種典型的機器學習算法以評估RC5閾值遞增變化情況下海表溫度反演性能。3種算法都是擬合數據關系并依據原理具有針對性的選取,MLP對特征值的加權側重無云情況下擬合數據關系;RFR隨機選取訓練數據側重對偶然誤差的消除;SVR空間降低維度側重有云情況下處理復雜的訓練數據。

MLP由輸入層、輸出層和一個或多個隱含層構成,隱含層類似回歸性函數逼近器并且包含多個神經元,單個神經元是輸入層特征值賦予權重后添加非線性激活函數,其本身是神經網絡模型[20]。為了模型更準確地進行預估,需要使用優化器不斷迭代選取最佳權重,本文使用每層具有100個隱藏單元的5個隱藏層,激活函數為ReLU,優化器為adam,迭代次數5 000次的模型參數進行模型訓練。RFR使用回歸器對決策樹的結果按照權重進行合并。使用bootstrap算法引入隨機性,將樣本數據有放回地進行取樣,組建子樣本并用于構建決策樹,在每個樹種的分裂點選取部分特征來判定特征與目標值之間的關系,通過樹深度決定每棵樹對樣本數據的學習程度。本文使用決策樹數量為1 000,最大特征值為5,以訓練RFR模型。支持向量機是自監督的非參數統計學習技術,它使用徑向基核函數將特征變量從低維映射到高維空間,在分類中使用超平面將特征變量劃分為不同類型,以此為基礎衍生出SVR。在本文中,通過迭代不同核函數(線性、多項式、高斯、徑向基等)以確定各閾值樣本集合的最優模型。

3 實驗結果與分析

3.1 輸入特征構建

海表溫度反演模型的特征包括從Himawari-8衛星獲得的10個波段亮溫值以及傳感器成像的4個幾何參數,即太陽天頂角、太陽方位角(solar azimuth angle,SOA)、衛星天頂角(satellite zenith angle,SAZ)和衛星方位角(satellite azimuth angle,SAA)??紤]到近紅外和紅外波段在輻射傳輸模型中其離水反射率約為0,這些波段瑞利校正后的遙感反射率僅受氣溶膠和云的影響。因此,本文將Himawari-8衛星第4波段(近紅外)、第5波段、第6波段(紅外)瑞利校正后的反射率作為特征引入模型。由于3.1~4.1 μm和10~12 μm是紅外波段大氣窗口存在的中心波長,本文根據物理算法將紅外大氣窗口波段相減作為亮溫波段間的差值,一共擴展4個差值的特征。在實驗過程中,由于SAZ和SAA過于集中,使得模型易造成模型發生過擬合現象,所以SAZ和SAA不作為模型輸入特征。本文最終選取SOA、SOZ、RC4、RC5、RC6、BT7、BT8、BT9、BT10、BT11、BT12、BT13、BT14、BT15、D7-14、D13-15、D13-11、D13-14作為模型訓練的輸入特征變量,其中RC表示瑞利校正后的遙感反射率,BT表示亮溫,D表示差值,數字代表Himawari-8衛星高級成像儀對應的波段序號。如RC5表示第5波段瑞利校正后的值,BT12表示第12波段的亮溫,D13-15表示第13波段和第15波段亮溫差。

3.2 模型性能評估

本文根據Himawari-8衛星第5波段瑞利校正后反射率,將樣本數據按照閾值0.125、0.2、0.3、0.4、0.5和0.6共劃分為6個等級的樣本集合,各等級樣本直方圖如圖3所示。圖3中,N表示樣本數量,RC5表示第5波段瑞利校正值,A表示閾值遞增新增樣本數量。

注:RC5表示第5波段瑞利校正值;A表示閾值遞增新增樣本數量。圖3 樣本直方圖

通過核密度曲線可以發現,每一個樣本集合的實測溫度分布較為一致。當閾值增加時,在整個溫度范圍內都有新增樣本,使得核密度曲線波峰都維持在4個。

為了準確對比模型在不同閾值下的性能指標,本文將6種閾值樣本按照7∶3的比例劃分訓練和測試樣本集。6種閾值下模型在測試數據集上的性能指標如表1所示。在完全無云閾值下(0.125),模型的R2都高于0.98,說明3種模型(MLP、RFR、SVR)在無云情況下具有較高的建模能力。由于0.2閾值條件下可能存在云,因此可以看到當閾值從0.125增到0.2時,模型性能指標都存在不同程度降低。以MLP模型為例,R2從0.98降低到0.93,MAE和RMSE分別從0.4 ℃、0.75 ℃升高到0.74 ℃、1.39 ℃。隨著閾值不斷增加,3個模型性能指標都不斷下降。閾值從0.125到0.4范圍內,模型性能下降幅度最大,說明在這個范圍內,云類型、云層光學厚度變化較大,每個閾值內的樣本差異較大,導致性能急劇下降。3種模型性能指標幾乎同時在閾值為0.4以后趨于平穩,說明0.4閾值之后,樣本的差異性較低。導致該結果的另一個原因是新增樣本數量的減少(A0.5=835,A0.6=571)。其中,SVR模型的性能下降幅度最大,MLP和RFR的變化較為接近。當閾值為0.6時,MLP和RFR的R2同時下降到0.79,SVR的R2下降得更低,為0.74。在MAE指標上,MLP和RFR約為1.5 ℃,SVR則為1.69 ℃。在RMSE指標上,MLP和RFR約為2.4 ℃,SVR約為2.7 ℃。圖4展示了不同閾值模型在訓練和測試數據集上的性能指標變化折線圖。在無云情況下,3個模型的性能指標都高于葵花衛星海表溫度產品。整體而言,SVR 3個性能指標普遍低于MLP和RFR。

表1 MLP、RFR和SVR模型在不同閾值下的性能指標

注:黑色虛線表示葵花衛星產品在無云情況下的性能。圖4 MLP、RFR和SVR模型指標變化圖

3.3 不同閾值的模型對無云區域的影響

不同閾值模型需要避免對無云區域影響,確保無云區域反演精度。本文利用不同閾值模型評估無云測試數據(n=632)的性能。利用各個模型差值(預測值-預測值0.125)繪制點圖,使用差值的平均值作為中心趨勢的估計值,如圖5所示。RFR和SVR模型形態較為一致,隨著閾值增加,模型對無云區域呈現高估現象。其中RFR模型的影響明顯低于SVR,當閾值在[0.3,0.6]范圍時,RFR差值的均值保持在0.05 ℃上下,而SVR殘差均值則在0.1 ℃左右。MLP模型對無云數據的評估形態有輕微的波動,在閾值為0.2時,預測值相對于0.125閾值模型的預測值具有較大的變化。當閾值在[0.125,0.5]范圍時,MLP差值的均值逐漸上升。在閾值為0.6時,出現輕微的下降。隨著有云樣本數據的加入,3類模型對無云區域的海表溫度評估的不確定性不斷增加。由于云的遮擋,傳感器獲得的亮溫值會被削弱,當這部分數據被引入到訓練樣本后,機器學習算法為獲得整體最優精度,會加重有云區域的輸入特征的權重,從而使得模型在預測無云時出現整體略偏高。

注:圓點為差值的均值;豎線表示95%的置信區間。圖5 殘差點趨勢圖

3.4 模型制圖能力評估

為了評估閾值模型的可用性,本文進一步分析了閾值模型的制圖能力。選取2020年4月10日20°N~30°N,120°E~130°E為制圖區域,對該區域Himawari-8衛星L1級數據進行瑞利校正,評估6個閾值模型的制圖表現能力,為了展示該區域的海表溫度變化,制圖過程掩膜了陸地區域。以AHI海表溫度產品作為參照,對比分析不同閾值下模型的制圖性能和估算準確性,其中為量化模型空間制圖比例引入空間覆蓋率(spatial coverage percent,SCP)。由于AHI產品無有云區域的海表溫度,因此,需要對有云區域模型預估值與實測海表溫度進一步進行對比驗證。為了增加驗證點的數量,實測點與預估值的時間差擴大到±1 h。圖6分別是制圖區域AHI海表溫度產品、制圖區域第5波段瑞利校正后的反射率(RC5)和實測點對應像素的RC5。圖6中AHI產品缺失的數據與RC5高亮部分具有高度的一致性,說明瑞利反射率判別云層的準確性。實測點中有3個點處于云下區域,4個點為無云區。

圖6 海表溫度與瑞利反射率

圖7展示了各個閾值模型的制圖結果及高于該閾值的瑞利校正反射率,表2是7個實測點的葵花海表溫度及隨閾值遞增3種模型預估海表溫度值。當閾值為0.125時,3種模型制圖結果與葵花海表溫度產品相比未表現出明顯的差異,表明3種模型在無云區域的預估準確性高,制圖結果準確。但仍可以發現RFR相比MLP和SVR具有更多的噪聲,主要表現在第6點、第7點周圍出現的綠色噪聲點(低估現象)。但這些噪聲點在0.2閾值以后就消失了,根據圖7瑞利校正反射率(RC5)推斷是由于只有少量突然升高的瑞利校正反射率樣本導致。當0.2閾值及以后樣本集包含更多訓練樣本后,模型在該部分的訓練不足得到補償,從而噪聲消失。

表2 3種算法在6個閾值模型下的預估值

圖7 6個閾值條件下MLP、RFR、SVR模型的制圖結果,藍色點為海表溫度實測點

當閾值在[0.125,0.3]時,MLP在無云區域預估結果與葵花海表溫度產品相比無明顯變化。閾值從0.4起,無云區域在制圖區域內出現明顯的低估現象。不同閾值下RFR在無云區域的預估結果出現略微的高估現象。SVR預估結果在局部區域出現低估現象,該現象主要存在于閾值0.4之后的2號點附近。為驗證機器學習模型的制圖效果引用平滑性,其中確定平滑性的依據是海表溫度的實際分布是隨空間逐漸變化平滑過渡的過程,不會發生明顯的突變,因此,以此為依據引用平滑性來驗證模型的制圖效果。不同模型制圖效果的平滑性主要在閾值0.4以后的有云區域發生變化,其中6號點附近最為明顯。閾值遞增至0.3之前,3種模型的平滑性都較好,從0.4開始,不同模型制圖效果的平滑性明顯降低,遞增至0.6時平滑性最差。從整體而言,隨著閾值逐漸增大,模型對有云區域的預估準確性和制圖效果逐漸降低,空間覆蓋率明顯增加(從75%增加到99%)。其中閾值0.4是重要的分界線。高于閾值0.4,有云區域的預估結果出現明顯低估現象,其中RFR低估現象最為明顯,SVR次之。海表溫度低估最大值主要出現在閾值0.5以后,表現為海表溫度的明顯躍遷現象。如我國臺灣省東部無云-有云區域的海表溫度隨著閾值模型發生明顯突變,海表溫度從25 ℃突然降至20 ℃,造成模型制圖結果的平滑性發生明顯降低。

3.5 模型敏感性分析

不同的模型在訓練期間將對輸入特征進行重要性評估,但隨著閾值逐漸增大,輸入特征重要性的變動及訓練效果造成模型的敏感性發生改變。本文基于模型性能指標評估特征重要性(圖8)。使用該方法計算第k個閾值數據集,第i個特征的重要性過程如下。

圖8 特征重要性

步驟4:按照式(3)計算對第i個特征在所有特征中的權重比例(feature weight,FW),即為重要性,其中n為特征數量。RFR算法在所有閾值模型中,都強依賴于特征BT7。MLP算法對輸入特征的敏感性集中于特征RC4、BT12值和D7-14,其余特征在不同閾值的敏感性出現間斷性的提升。最明顯的是RC4,當閾值大于0.4以后,MLP對該特征的依賴逐漸加重。由于特征RC4是λ=856 nm 為中心波段的瑞利校正值,該波段常被用于判別開放海域是否有云。因此,當閾值不斷增加時,該特征的重要性不斷增加。該現象同樣出現在SVR算法中,在[0.125,0.4]閾值范圍內,特征RC5保持一定的重要性,在[0.5,0.6]閾值范圍時,RC5重要性減低,但RC4的重要性增加。由于RFR算法中BT7特征的重要性權重太大,由云引起的RC4、RC5特征重要性增加并未出現閾值模型中。

(2)

(3)

4 結束語

本文針對物理算法無法估算云下海表溫度的問題,使用機器學習算法構建了閾值海表溫度反演模型。通過瑞利校正的短波紅外閾值建立6種閾值樣本數據集,利用MLP、RFR和SVR算法分別為不同的閾值建立了對應的海表溫度反演模型。MLP、RFR和SVR在無云閾值模型中的精度都超過了葵花衛星海表溫度產品。整體而言,MLP和RFR算法在各個閾值模型的性能相當,SVR算法性能略差。隨著閾值的增大,雖然閾值模型精度有所下降,但增加了海表溫度反演的空間覆蓋率。3個算法的性能同時在閾值為0.4時趨于平穩,說明本文建立的0.5和0.6閾值的樣本有限,無法體現與RC5≤0.4樣本的差異性,因此,這兩個閾值的性能指標需要增加更多的樣本后進一步評估。

雖然3個算法的閾值模型對有云區域出現不同程度的低估,但在無云區域的制圖效果與葵花衛星海表溫度產品具有較高一致性。海表溫度低估最大值主要出現在閾值0.5,因此需要謹慎0.5和0.6閾值模型的應用條件。算法的特征敏感性分析表明,RFR嚴重依賴BT7特征,這將很可能影響算法泛化能力,在跨地區進行海表溫度反演時需重新訓練區域性模型。MLP和SVR算法沒有出現單一的依賴特征,具有一定的泛化能力??紤]到二者性能的差別,MLP算法進行海表溫度反演具有更好的優勢。

本文利用不同閾值樣本,建立機器學習海表溫度反演模型,通過不斷提高閾值,可以增加海表溫度反演結果的空間覆蓋率。本文提出的方法對遙感衛星數據云下海表溫度反演具有一定的借鑒意義??紤]到業務化葵花海表溫度產品的RMSE約為1 ℃,本文提出的閾值模型有待進一步研究,今后可以通過增加實測數據,與深度學習結合,引入同步微波輻射量以提高云下海表溫度反演精度。

猜你喜歡
海表瑞利反演
反演對稱變換在解決平面幾何問題中的應用
基于無人機的海表環境智能監測系統設計與應用
2016與1998年春季北大西洋海表溫度異常的差異及成因
融合海表溫度產品在渤黃東海的對比分析及初步驗證
太陽總輻照度對熱帶中太平洋海表溫度年代際變化的可能影響
基于低頻軟約束的疊前AVA稀疏層反演
基于自適應遺傳算法的CSAMT一維反演
馬瑞利推出多項汽車零部件技術
瑞利波頻散成像方法的實現及成像效果對比研究
疊前同步反演在港中油田的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合