?

基于相似系數的海溫中長期統計預報方法研究

2021-09-13 09:41苑福利
海洋學研究 2021年1期
關鍵詞:海溫方根觀測

李 科,苑福利,劉 廠

(1.中國人民解放軍 海軍研究院,天津 300061;2. 哈爾濱工程大學 智能科學與工程學院,黑龍江 哈爾濱 150001)

0 引言

21世紀被稱為海洋的世紀,海洋和人類生活的各方面息息相關,由此凸顯出海洋的重要性。海洋的特性及變化可以通過海溫的分布及演變規律進行反映,同時,海溫演變所引發的各類海洋現象對于海洋經濟發展、海上油氣資源開發、海洋環境安全保障以及軍事活動有至關重要的影響[1]。因此,對海溫的準確、快速預報對于國家政治、經濟和國防安全等都具有重要意義。

近代以來,世界各國都開展了海溫分析預報研究和業務化運行等相關工作。20世紀60年代初,我國逐漸開始進行海溫的分析預報研究工作,包括最初的近海海域的海表溫度統計預報方法研究,到后來基于站點觀測海表溫度分析預報方法以及基于衛星觀測海表溫度的二維空間場分析預報研究[2]。同時,隨著科學技術的不斷進步和社會經濟的發展,對海溫的預報也提出了新要求,相應的預報方法研究也呈現多樣化的趨勢。

海溫分析預報的方法主要包含以下三類:經驗預報方法、數值預報方法和統計預報方法[3]。其中,經驗預報方法主要取決于人的主觀因素,客觀性較差。數值預報方法存在計算資源需求量大、對初始條件敏感以及受物理時效性限制等缺點。統計預報方法作為數據驅動方法,能夠彌補數值預報對計算資源需求量大、預報時效短的缺點;同時由于數值預報方法逐漸逼近可預報性上限,統計預報方法作為數值預報方法的補充手段,其必要性日益凸顯。近年來,隨著觀測技術的不斷進步和再分析數據的不斷發展,統計預報方法的預報精度有了極大的提升。因此,本文選取統計分析預報作為海溫中長期預報的方法。

相似預報作為統計分析預報中簡單易實現的方法,是依據相似的大氣-海洋形勢或者相似的因子場能夠產生相似的大氣-海洋動力過程,并因此出現相似的大氣-海洋現象的客觀物理規律,通過計算相似性判據,從大量歷史樣本中找出相似度高的若干組樣本數據,將其預報時期大氣-海洋演變結果作為大氣-海洋預報結論。相似預報相比于非線性方法具有建模簡單、計算量較小的特點,因此在大氣-海洋預報中具有廣泛的應用場景,是該領域進行快速準確預報的重要方法[4]。1991年,TOTH[5]對比了多種相似預報模型對海面高度的預報能力,證明采用平均絕對誤差(MAE)作為相似判據比皮爾遜相關系數更加準確。1995年,ZORITA et al[6]將大尺度氣象變化與局部的預報量相聯系,將相似方法應用到了降尺度中。2001年,任福民 等[7]采用相似預報對ENSO的重要指標——NINO 3區海溫指數進行預報,證明相似預報較持續性預報在預報效果上有明顯的提高且對于轉折事件具有較好的預報能力。2003年,FERNNDEZ et al[8]提出了將典型相關分析和相似方法相結合的降尺度方法。2006年,HAMILL et al[9]研究了不同相似預報方法對模型結果的訂正效果。

盡管基于相似性判據的預報方法在大氣-海洋領域的氣溫、海表高度等預報中已經有了深入的研究,且取得了較好的進展[10-12],但相似預報方法在海溫的中長期時間序列預報方面的相關研究比較欠缺[13-14]。因此,本文在長時間海洋觀測資料的基礎上,構建了基于相似系數的統計預報模型來實現海溫中長期預報的相關研究。本文首先運用統計分析方法對長時間的海溫資料進行特征分析;之后采用相似系數作為相似性判據構建海溫的相似預報模型;最后利用偏差訂正方法對相似預報模型的預報結果進行訂正,以實現海溫時間序列的快速、準確的中長期預報。

1 數據和方法

1.1 數據

本文所使用的海溫數據集是由國家海洋信息中心提供的西北太平洋海域再分析產品(CORA v1.0)。CORA數據集的空間范圍為10°S-52°N,99°E-150°E??臻g格網分辨率為1/2°~1/8°變網格;時間范圍為1958年1月1日至2017年12月31日共59 a,時間分辨率為1 d。該數據產品采用的氣象驅動場為NCEP(National Centers for Environmental Prediction)氣象再分析場,選用的海洋模式為普林斯頓廣義坐標系統海洋模式。采用多重網格三維變分海洋數據同化方法,以便有效提取多源海洋數據中的多尺度時空信息,實現現場溫鹽觀測、衛星遙感測溫和測高資料等海洋觀測資料的同化[15]。

1.2 相似預報方法

相似預報方法是一種經典的統計預報方法,在天氣預報中得到了廣泛的應用。相比于統計回歸分析,相似預報方法的模型更易于構建[16-18]。相似預報方法基本思路是:根據預設的相似準則,通過相似性分析從歷史樣本數據中尋找出與待預報樣本數據的主要特征最為相似的樣本,并把歷史樣本數據的相似性分析結果作為依據,從而實現待預報樣本數據的相似預報。大氣和海洋學中通用的相似判據有海明距離(Hamming Distance)、相似系數(Similarity Coefficient)和相似離度 (Similar Disparity) 三種[19]。

1.2.1 海明距離

假設以Hij表示兩個不同樣本數據間的海明距離,則其公式為

(1)

式中:i、j為不同樣本數據,m為樣本數據的個數,x為每個樣本數據的數值,k為樣本數據序號。海明距離Hij的取值范圍為[0,N),N由樣本差值決定。海明距離Hij越接近0,表示不同樣本數據間相似性越高;Hij越接近1,相似性越低[20]。此外,歐式距離Oij如下式所示

(2)

由式(1)和式(2)可知,海明距離和歐氏距離具有相同的性質,但是,海明距離反映的是不同樣本數據值之間的差異情況,即空間距離,海明距離無法對不同樣本數據間相似性的形狀差異進行分析。

1.2.2 相似系數

假設以Rij代表樣本間的相似系數,其公式為

(3)

式中:i、j為不同樣本數據,x為每個樣本數據的數值,m為樣本數據的個數,k為樣本數據的序號。相似系數Rij的值域為[0,1],當Rij越接近1表示不同樣本間的相似度越高,越接近0表示不同樣本間的相似度越低[4,21]。

1.2.3 相似離度

相似離度是可以反映不同樣本之間“形”和“值”的差距的統計量,假設X為樣本集,X=(X1,X2…,Xn), 其中Xi=(xi1,xi2,…,xid),則不同樣本數據間的相似離度Cij為

(4)

式中,用dk表示不同樣本之間的第k個因子差,即

(5)

(6)

dk=xik-xjk

(7)

(8)

式中:m為樣本中的因子數量,Dij為值系數;Sij為形系數;Eij為不同樣本數據之間差值之和的均值[4,22]。

1.2.4 相似判據選取

為更準確地比較海明距離、相似系數和相似離度三種相似判據的相似特性優劣,選取4組不同的樣本數據進行相似性分析[23]。其中,每組樣本數據包含5個因子,如下表1所示。

表1 3種相似性判據對比分析Tab.1 Comparative analysis of the three similarity criterions

將所選取的4組不同的樣本數據繪制成折線圖(圖1)。由圖1可知,樣本數據1和樣本數據2、3、4之間存在一定的相似度,樣本數據1和2之間的相似度較高。但是從表1中可知,樣本數據1和樣本數據2、3、4之間的海明距離相等,這與圖形結果相矛盾,說明海明距離無法反映不同樣本數據之間的形狀差異程度。同時,樣本數據1和樣本數據2、3、4的均值均為6,相似離度均為2.40。這與圖形結果相矛盾,說明相似離度也無法作為不同樣本數據之間相似度的衡量標準。此外,樣本數據1和樣本數據2、3、4之間的相似系數分別為0.52、0.30和 0.14,這與圖1所示一致,說明相似系數可以作為不同樣本數據之間相似度的衡量標準。進一步分析,樣本1和樣本3、4之間的相似系數差別較大,但是樣本1和樣本3、4之間的平均絕對誤差接近,因此相似系數對數值差異具有一定的分辨能力但無法達到預期。

圖1 不同相似性判據的相似性比較示意圖Fig.1 Schematic diagram of similarity comparisonfor different similarity criterion

綜上分析,相比于其他2種相似性判據,相似系數是同時可以分辨出不同數據樣本之間的“值”和“形”差異的相似性判據,但是對樣本之間“值”的差異分辨能力不足,需要額外加入偏差量值作為“值”判據的補充。因此本文選擇將偏差和相似系數結合,構造新的相似系數,并將新的相似系數作為不同數據樣本之間相似性的判斷標準。

1.3 預報結果評估方法

基于相似系數構建統計分析預報模型,并通過該模型進行海溫的中長期預報得到預報結果后,需要針對預報模型的預報性能進行評估檢驗。在海洋學中,通常采用平均絕對誤差、均方根誤差以及相關系數對統計分析預報模型的性能進行評估檢驗[23-24]。

平均絕對誤差(Mean Absolute Error,MAE)是觀測值Xi和預測值Yi之間誤差的絕對值的算術平均值,所有樣本數據差異在平均值上的權重都相等,可以表征出模型預測結果中誤差的分布情況。MAE的計算公式為

(9)

均方根誤差(Root Mean Square Error,RMSE)是觀測值Xi和預測值Yi之間殘差的標準差,能夠很好地反映出樣本數據的離散程度。RMSE的計算公式為

(10)

相關系數(Correlation coefficient, 常用R表示)為反映觀測值Xi和預測值Yi之間相關關系的統計性指標,該指標可以定性地描述不同樣本數據之間相關性的具體關系及方向,但無法對不同樣本數據之間相關的具體程度進行定量確切的描述[25]。R的計算公式為

(11)

2 相似預報模型

2.1 相似預報模型構建

基于相似系數的相似性判據能夠較好地反映出不同樣本數據間“形”和“值”的差異,本文將已加入偏差的相似系數作為不同樣本數據之間的相似性判據,構建海溫的單點時間序列相似預報模型。模型構建的基本步驟如下:(1)依據待預報時間及預報時長等參數,選取單個空間格點待預報時間對應的時間序列海溫樣本數據作為基準樣本數據,將基準樣本數據與再分析數據集歷史樣本數據中的同類型樣本數據進行相似性判別,依據加入偏差的相似系數的計算結果對各個歷史樣本進行重新排序得到新歷史樣本數據集XX=(XX1,XX2,…,XXn),作為模型的預報因子;(2)將計算結果中對應的相似系數集合SC(M)作為預報模型的權重值;(3)計算各個歷史樣本數據與基準樣本數據之間的偏差集合E(M)以及E(M)和SC(M)加權集合平均值;(4)綜合上述計算結果,可以得到基于相似系數的海溫單點時間序列相似預報模型:

(12)

式中:SSTd表示待預報時段內第d天海溫的預報值,M表示選擇相似年份的數量,xmd表示第m個相似年份樣本中第d天海溫的觀測值。

基于相似系數的海溫單點時間序列相似預報模型流程如圖2所示。待預報海域中其他點的海溫也可以采用上述模型得到海溫的中長期預報結果。

圖2 基于相似系數的海溫單點時間序列相似預報模型流程圖Fig.2 Flow chart of the similarity forecast modelbased on similarity coefficient for a single-pointtime series of SST

本文選取1981—2015年的CORA再分析數據為歷史樣本數據,2016年的CORA再分析數據作為待預報樣本數據,基于上述方法構建基于相似系數的海溫單點時間序列相似預報模型。

2.2 預報數據偏差訂正

根據上述式(8)分析可知,歷史樣本數據與待預報樣本數據之間存在偏差Eij,因此在進行模型預報之前需要將歷史樣本數據減去偏差值Eij,以便于實現模型的偏差訂正。具體做法如下:定義偏差Eij為待預報年份中指定時間段內數據的算術平均值減去各個歷史年份對應數據的算術平均值[26],將計算得到的偏差Eij按照對應相似系數降序排列的方式進行重組以得到偏差序列集合E,E表示第i個歷史樣本數據偏差,與XXi相對應。按相似系數大小降序排列將歷史樣本數據分別進行加權集合平均從而得到預報數據。

為進一步解釋基于相似系數的海溫單點時間序列相似預報模型的預報及偏差訂正過程,以研究海域空間點(17.25°N,115.25°E)為研究對象,基于2016年1月1日至2016年1月9日的待預報數據及歷史樣本數據計算相似系數,進一步實現1月10日溫度數據的預報。經過相似系數的計算、排序,結果如表2 所示。

表2 歷史樣本數據和待預報數據之間的相似系數計算結果排序Tab.2 Sorting of similarity coefficient calculation results between historical sample data and data to be forecasted

分析表2可知,在選擇的歷史樣本數據中,1997年、1987年、2002年、2007年、1988年的歷史樣本數據與待預報數據的相似系數最高,因此選取這5組歷史樣本數據進行待預報數據的海表溫度預報,在此基礎上進行偏差訂正得到的海溫預報值為24.85 °C,海溫觀測值為24.15 °C,誤差為0.065 °C,預報結果優于氣候態的相關結果。

2.3 預報結果

通過上述基于相似系數的海溫單點時間序列相似預報模型的建立及預報誤差訂正等相關計算分析,得到2016年的待預報數據的預報結果,并選取1月、4月、7月、10月作為各個季節的代表月份,基于觀測數據對上述所建立的海溫單點時間序列相似預報模型的預報能力進行分析驗證。

本文以ARIMA模型和氣候態預報作為對比方案,采用平均絕對誤差、均方根誤差和相關系數作為重要指標來評估海溫的預報性能。其中,ARIMA模型是指將非平穩時間序列轉化為平穩時間序列,然后將待預報變量僅對其滯后值以及隨機誤差項的當前值和滯后值進行回歸建模所得到的預報值;氣候態預報指以累年日平均值作為下一年的預報值。

為了進一步詳細展示模型預報值與觀測值之間的變化趨勢,在所選研究海域中隨機選擇3個空間點(10.375°N,113.875°E)、(17.125°N,113.875°E)和(22.625°N,113.875°E)作為研究對象,將3個空間點在1月、4月、7月、10月的預報值、觀測值和氣候態值進行比較分析,驗證海溫單點時間序列相似預報模型的預報能力。

2.3.1 冬季預報結果分析

選取2016年冬季(即1月)的相似系數預報值、ARIMA預報值、氣候態預報值和觀測值之間的平均絕對誤差、均方根誤差和相關系數進行分析驗證,結果如表3和圖3所示。

表3 冬季預報結果MAE、RMSE和R對比表Tab.3 Comparison of MAE, RMSE and R for winter forecast results

圖3 冬季不同模型預報值與觀測值的對比圖Fig.3 Comparison of forecast values among different model and observation values in winter

由表3和圖3可知,3個空間點在2016年冬季的相似系數預報值比氣候態預報值更接近于觀測值,且相似系數預報的預報值與觀測值之間的相關系數大于ARIMA預報、氣候態預報的預報值與觀測值之間的相關系數;預報值與觀測值之間的均方根誤差和平均絕對誤差也均小于ARIMA預報、氣候態預報結果,證明該相似系數預報模型在冬季預報實驗中具有較ARIMA預報和氣候態預報方法更優的預報能力。

2.3.2 春季預報結果分析

選取2016年春季(即4月)的相似系數預報值、ARIMA預報值、氣候態預報值和觀測值之間的平均絕對誤差、均方根誤差和相關系數進行分析驗證,結果如表4和圖4所示。

表4 春季預報結果MAE、RMSE和R對比表Tab.4 Comparison of MAE, RMSE and R for spring forecast results

圖4 春季不同模型預報值與觀測值的對比圖Fig.4 Comparison of forecast values among different models and observation values in spring

由表4和圖4可知,3個空間點在2016年春季的相似系數預報和氣候態預報的相關系數接近,且大于ARIMA預報的相關系數??臻g點(10.375°N,113.875°E)的相似系數預報和ARIMA預報的均方根誤差和平均絕對誤差均顯著小于氣候態結果;空間點(17.125°N,113.875°E)的相似系數預報的均方根誤差和平均絕對誤差均略小于氣候態結果且顯著小于ARIMA預報結果;空間點(22.625°N,113.875°E)的相似系數預報的均方根誤差和平均絕對誤差均略大于氣候態結果,但小于ARIMA預報結果;此外,3個空間點的相似系數預報結果比氣候態預報和ARIMA預報結果均更接近于觀測值,證明該相似系數預報模型在春季預報實驗中具有較ARIMA預報和氣候態預報方法更優的預報能力。

2.3.3 夏季預報結果分析

選取2016年夏季(即7月)的相似系數預報值、ARIMA預報值、氣候態預報值和觀測值之間的平均絕對誤差、均方根誤差和相關系數進行分析驗證,結果如表5和圖5所示。

表5 夏季預報結果MAE、RMSE和R對比表Tab.5 Comparison of MAE, RMSE and R for summer forecast results

圖5 夏季不同模型預報值與觀測值的對比圖Fig.5 Comparison of forecast values among different models and observation values in summer

由表5和圖5可知,3個空間點在2016年夏季的相似系數預報值比氣候態預報值更接近于觀測值,且相似系數預報的預報值與觀測值之間的相關系數大于ARIMA預報、氣候態預報的預報值與觀測值之間的相關系數;預報值與觀測值之間的均方根誤差和平均絕對誤差也均顯著小于ARIMA預報、氣候態預報結果,證明該相似預報模型在夏季預報實驗中具有較ARIMA 預報和氣候態預報方法更優的預報能力。

2.3.4 秋季預報結果分析

選取2016年秋季(即10月)的相似系數預報值、ARIMA預報值、氣候態預報值和觀測值之間的平均絕對誤差、均方根誤差和相關系數進行分析驗證,結果如表6和圖6所示。

由表6和圖6可知,3個空間點2016年秋季的相似系數預報值比氣候態預報值更接近于觀測值,相似系數預報的預報值與觀測值之間的相關系數和ARIMA 預報、氣候態預報的預報值與觀測值之間的相關系數相差不大;相似系數預報的預報值與觀測值之間的均方根誤差和平均絕對誤差絕大部分小于ARIMA 預報、氣候態預報結果,證明該相似預報模型在秋季預報實驗中具有較ARIMA預報和氣候態預報方法更優的預報能力。

表6 秋季預報結果MAE、RMSE和R對比表Tab.6 Comparison of MAE, RMSE and R for autumn forecast results

圖6 秋季不同模型預報值與觀測值的對比圖Fig.6 Comparison of forecast values among different models and observation values in autumn

2.3.5 區域預報結果分析

上述內容中,僅在研究海域隨機選取3個空間點進行單點時間序列的相似預報實驗,由于空間點的選取存在一定偶然性,造成預報結果驗證的相關論證不夠完整。因此在上述單點驗證的基礎上,選取整個海域為研究對象,由單點預報拓展到區域海表溫度預報。研究區域共計 4 000個空間網格點,去除陸地后有效的空間網格點數為 3 478個。對每個點分別進行基于相似系數方法的海溫預報和基于氣候態方法的海溫預報,將得到的3 478個空間網格點的預報結果進行統計,得到不同季節、不同評估標準下滿足要求的空間點的個數如表7所示。

表7 不同季節、不同評估標準下滿足要求的空間點個數對比表Tab.7 Comparison of the number of space points meeting the requirements at different season and under different evaluation criteria 個

由表7可知,以春季預報結果為例,基于相似系數方法的預報結果中,相關系數大于0.8的空間網格點為3 107個,均方根誤差小于1 ℃的空間網格點為3 385個,均方根誤差小于0.5 ℃的空間網格點為 1 893個,平均絕對誤差小于1 ℃的空間網格點為 3 386個,平均絕對誤差小于0.5 ℃的空間網格點為 1 715個;基于氣候態方法的預報結果中,相關系數大于0.8的空間網格點為2 720個,均方根誤差小于1 ℃的空間網格點為1 502個,均方根誤差小于0.5 ℃的空間網格點為207個,平均絕對誤差小于1 ℃的空間網格點為2 067個,平均絕對誤差小于 0.5 ℃ 的空間網格點為419個。上述實驗結果證明,在春季預報實驗中,相同的指標下,基于相似系數方法的空間點個數顯著多于氣候態方法,其他3個季節的預報實驗也有類似的結果,因此證明,基于相似系數方法的海溫中長期預報方法優于基于氣候態分析的方法。

為進一步研究相似預報結果的空間形態分布,選取整個海域為研究對象,展示不同模型的SST預報場和真實結果之間的對比(圖7)。

圖7 相似系數預報、ARIMA預報、氣候態預報和觀測值在不同季節預報結果的對比Fig.7 Comparison among similarity coefficient forecasts, ARIMA forecasts, climatologyforecasts and observations at different seasons

由圖可知,在4個季節的預報實驗中,相比于其他2種方法,相似系數預報結果的空間分布都更加接近于實測值的空間分布。因此證明,基于相似系數方法的海溫中長期預報方法優于ARIMA預報方法和氣候態預報方法。

3 小結

本文在數理統計分析研究的基礎之上,計算分析了3種相似性判據,得出了相似系數作為相似性判據可以更好地分析不同海溫數據樣本之間相似性的結論,并將相似系數分析方法從氣象領域引入到海溫的中長期預報應用中,提出基于相似系數的海溫單點時間序列相似預報模型,并且分析驗證了不同季節對模型預報能力的影響,證明了該相似預報模型在海溫中長期預報中的適用性,為海溫預報提供了新思路。

猜你喜歡
海溫方根觀測
北太平洋海溫Victoria模態與ENSO年際關系的非對稱特征
隨機振動均方根加速度計算方法研究及應用
熱帶東太平洋海溫與亞洲夏季風的關系
我們愛把馬鮫魚叫鰆鯃
天文動手做——觀測活動(21) 軟件模擬觀測星空
FY-3衛星VIRR海表溫度產品進展
2018年18個值得觀測的營銷趨勢
可觀測宇宙
高分辨率對地觀測系統
數學魔術——神奇的速算
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合