?

時間冪函數與LSF在氣溫預測中的應用研究

2017-11-01 13:04黃天文
肇慶學院學報 2017年5期
關鍵詞:冪函數肇慶滑動

焦 飛,黃天文

(1.肇慶學院 教育技術與計算機中心,廣東 肇慶 526061;2.肇慶市氣象局,廣東 肇慶 526040)

時間冪函數與LSF在氣溫預測中的應用研究

焦 飛1,黃天文2

(1.肇慶學院 教育技術與計算機中心,廣東 肇慶 526061;2.肇慶市氣象局,廣東 肇慶 526040)

為將數據挖掘知識應用于氣象領域,現將肇慶市高要氣象觀測站1954—2014年的氣溫序列,采用滑動平均法進行處理;再利用時間冪函數與最小二乘法分析了肇慶地區氣溫的變化趨勢,得到擬合曲線圖和溫度變化趨勢回歸方程.用2014年與2015年的年平均氣溫實況對預測結果進行檢驗,發現擬合的相關系數與標準差比較理想;此外,還預測出肇慶的年平均氣溫呈上升趨勢.從20世紀中期到現在,氣溫上升趨勢明顯增大,這和全球氣候變暖的結論相一致.經實驗證明,該方法具備良好的因子信息提取能力,其預報建模方法對氣溫預報具有一定的價值.

數據挖掘;最小二乘擬合;滑動平均;時間冪函數;氣溫變化趨勢

0 引言

目前,數據挖掘在氣象上的應用主要集中于氣象預報、氣候預測和氣象災害預測等方面,常用的挖掘方法有決策樹法[1]、支持向量機[2]、序列模式挖掘技術[3]、降維分析[4]、關聯規則挖掘[5]等方法.回顧歷史可知,二戰以后各國開始致力于發展經濟,犧牲了環境,使得全球氣候明顯變暖.由于大氣層中二氧化碳等溫室氣體急劇增加,大量吸收地面紅外線長波輻射,使溫室效應增強,這在一定程度上又加劇了厄爾尼諾現象的出現頻率和負面影響.因氣溫的變化將影響到降水,且氣溫與人類社會及生態系統有著密切關系,因此對氣溫的長期變化趨勢進行研究是很有必要的.對肇慶地區“有器測資料”時間最長的高要氣象觀測站的氣溫數據進行研究,希望能用數據挖掘技術開發應用軟件,為肇慶地區的氣溫預測研究工作提供工具,提高預報員對中長期天氣的預報能力,從而更好地滿足用戶和預報服務的需求.

氣象數據由于其自身的特點,具有很強的時空關聯特性,因此,對氣象數據進行時空關聯分析,從而進行氣象預報是提高預報水平的一個有效方法.數據挖掘中對時間序列的分析與研究,已有相關研究者提供了寶貴資料.王永弟將模糊時間序列模型引入短期氣候預報,并與加權集成、人工神經網絡集成、數據挖掘集成等模型進行了精度比較和分析[6].潘航、宋敏紅、閆俊、徐文慧等[7-10]分別對南京近60年、雅魯藏布江流域46年、安徽49年、全球近百年的氣溫數據進行了分析和研究,提供了寶貴的方法與經驗.東京航空地方氣象臺的吉村純[11]曾就100多年來的全球平均地面氣溫進行研究,認為平均地面氣溫呈上升趨勢,特別是20世紀80年代氣溫顯著變暖,90年代繼續攀升.筆者將肇慶地區高要氣象觀測站的氣溫時間序列進行滑動平均預處理后,利用時間冪函數和最小二乘擬合(least square fitting;LSF)分析了氣溫變化趨勢并進行了預測,實驗效果良好.數據挖掘方法在氣象領域的應用值得推廣,特別是在大數據時代,氣象服務不斷拓寬領域,氣象部門需要永久保存的數據不斷增長,利用數理方法對這些數據進行挖掘、分析和預測的研究是可行和必要的.

1 資料處理與方法

1.1 資料來源

高要氣象觀測站是建國后1954年才建立的,觀測數據僅有60多年(圖1為肇慶市1954—2014年年平均氣溫變化趨勢圖).我們要對這些數據進行預處理,并對比處理前后所得實驗結果的檢驗因子,以證明實驗方法的可靠性.

圖1 肇慶市1954—2014年年平均氣溫變化趨勢圖

1.2 處理方法與原理

將氣溫數據可視化以直觀的方式表現出來,有助于發現該時間序列的特征.看對應的散點圖,根據經驗,氣溫變化趨勢可能是明顯增長,也可能是明顯減少,且該變化趨勢可能是線性的,也可能是二次曲線、三次曲線等.肇慶全年平均氣溫經過10年滑動平均,所得散點圖可以初步估計曲線方程的大致形式,然后利用最小二乘回歸方法得到擬合的氣溫變化趨勢方程,并對回歸方程的顯著性進行檢驗.

1.3 資料預處理

研究氣溫的變化趨勢,關注的是其長期性變化,首先要消除噪音.為將短期的變化消除掉,本實驗采用了滑動平均法.根據時間序列資料進行逐項推移,依次計算包含一定項數的序時平均值,以反映氣溫長期變化的趨勢.當時間序列的數值由于受周期變動和隨機波動的影響起伏較大,不易顯示出事件的發展趨勢時,使用滑動平均法可以消除這些因素的影響.滑動平均法的應用非常普遍,因為它的算法非常簡單,在計算機編程上很容易實現,所以它是降低隨機噪聲的最優選擇之一.前人在各種領域都運用了該方法,認為滑動平均可以快速實現目標[12].

對于氣溫序列x1,x2,…,xn,2項平均為(xn-1+xn)/2,3項平均為(xn-2+xn-1+xn)/3,還有4項、5項等平均,可統一表示為

在式(1)中:m表示由m項構成的滑動平均;k=1,2,3,….按照滑動平均數的數列,利用C#.NET的GDI+作圖技術,可點出其散布圖.如果通過散點圖仍看不出變化趨勢,則可以用滑動平均數的數列,求第2次滑動平均數列或加大滑動平均的年數.

1.4 時間冪函數與最小二乘擬合

關于短期氣候預測,特別是省級及其以下的臺站,主要依靠統計分析方法,其中應用最廣泛的是多元回歸分析法,其參數估計通常采用最小二乘參數估計法.通過參考相關的文獻,發現關于偏最小二乘法(partial least squares;PLS)的應用,很多研究者已做過大量研究[13-14],該方法適用于回歸模型自變量之間存在相關性的情況.由于本文的研究只有1個自變量,即年代,因此用最小二乘擬合(LSF)即能滿足要求[15-16].

在擬合曲線問題中,確定參數的最常見方法是最小二乘法.它是一種數學優化技術,通過最小化誤差的平方和尋找數據的最佳函數匹配.利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小.而氣溫的變化趨勢方程,根據原始數據的散點圖,一般認為是時間冪函數[17],其一般形式為

在式(2)中:t代表時間(年份);T代表對應的年平均氣溫值.若令t=x1,t2=x2,…,tm=xm,T=y′,則式(2)化為y′=b0+b1x1+b2x2+…+bmxm,由原來的非線性回歸方程轉化為多元線性回歸.多元線性回歸分析作為一種有效的數據處理方法,在工業、農業、醫學、社會調查、生物信息處理等領域被廣泛應用[18].所謂多元線性回歸預測,即利用歷史樣本數據,建立多元線性回歸模型,研究某一因變量和多個自變量之間關系的定量化分析方法[19].事實上,一種現象常常是與多個因素相聯系的,由多個自變量的最優組合共同預測或估計因變量,比只用1個自變量進行預測或估計更有效,更符合實際情況.從這個意義上講,多元線性回歸比一元線性回歸的實用意義更大.多元線性回歸的方法較為復雜,計算量也很大,一般采用計算機進行處理.

多元線性回歸方程建立后,確定參數b0,b1,…,bm.對這些回歸系數,需要根據最小二乘原理,尋求誤差平方和

2 顯著性檢驗

關于結果的顯著性檢驗,筆者參照早期的實驗成果,采用F-分布函數檢驗法(F-信度檢驗法).首先根據方程的回歸平方和U以及2個自由度(N1,N2)計算F-統計量FR,再根據(N1,N2)和FR,計算F-分布函數值.如果顯著性水平設為α,則F-分布函數值就是1-α,若以百分數表示,可稱為F-信度,記為FX.設定F-分布函數的臨界值為FC,如果FX>FC,則認為趨勢方程是顯著的;否則,若FX<FC,就認為趨勢方程是不顯著的[20].

3 結果分析

結合時間冪函數與最小二乘法,通過計算機編程并作圖,可得出全年年平均和各月月平均氣溫變化的擬合曲線圖.限于篇幅,本文僅以年平均氣溫變化趨勢方程的研究為例進行探討.肇慶地區歷年年平均地面氣溫的原始數據,需要經過滑動平均才能消除噪音.由計算機程序對原始數據分別執行項數為0,5,10的滑動平均,結果發現10項滑動平均是最優的.然后經過計算機編程和多次實驗,發現氣溫變化趨勢方程的階數為2時,擬合程度最高,方程擬合的相關系數高達0.93,標準差是0.1,由此設2階多項式擬合方程為

其中:t代表時間(年份),T代表對應的年平均氣溫值;各個系數b0,b1和b2的值分別為7.449E+002,-7.490E-001和1.939E-004.作為檢驗,r為因子t與原總序列的相關系數,S為其標準差.相關系數r的絕對值一般在0.8以上,認為是有強的相關性;0.3~0.8之間,可以認為有弱的相關性;在0.3以下,則認為沒有相關性.作為實驗,分別把年份t=2014和t=2015依次代入方程,可以得到相應的溫度T為23.1℃和23.2℃,而2014年和2015年肇慶高要站年平均氣溫實況分別為22.8℃和23.4℃,可見方程的擬合效果較好.

方程對應的擬合曲線圖如圖2所示,由此可知肇慶60多年來氣候逐漸變暖,年平均氣溫呈升高趨勢.

圖2 肇慶市高要站年平均氣溫變化趨勢

4 結語

時間冪函數結合最小二乘法,通過計算機編程實現對曲線的擬合,得到時間序列變化趨勢的回歸方程,檢驗結果令人滿意.通過對肇慶地區歷年氣溫資料的分析,認為60多年來肇慶的年平均地面氣溫呈上升趨勢,這與前人所講的“大氣變暖”相一致.特別是建國以后,隨著工業的快速發展,“粗獷型”的經濟騰飛帶來環境的破壞,一方面人類燃燒煤、石油等大量排放二氧化碳;另一方面,砍伐樹林等對綠色植物的破壞,減少了植物對二氧化碳的吸收,使得大氣中二氧化碳的含量增加.而二氧化碳對大氣有保溫作用,氣溫也就隨之升高了.以上研究結果對氣溫的長期預報、超長期預報和制定農業規劃,都具有參考價值.今后,還可以研究降雨量、蒸發量等的變化與預測.筆者對數據挖掘在氣象數據中的應用展開研究,主要源于氣象數據包含了大量信息,需要探索適合氣象數據特點的挖掘方法,提高挖掘算法的效率,這對于生產實踐和社會生活具有重要意義.

[1] 姜文瑞,王玉英,郝小琪,等.決策樹方法在氣溫預測中的應用[J].計算機應用與軟件,2012,29(8):141-144.

[2] 丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1):2-10.

[3] 李亮.序列模式挖掘在入侵檢測中的應用研究[J].計算機工程與科學,2012,34(11):68-71.

[4] 黎克波,陳磊,張翼.真比例導引律的降維分析方法[J].國防科技大學學報,2012,34(3):1-5.

[5] 宇星,陳彤兵,施伯樂.一種高效的多層和概化關聯規則挖掘方法[J].軟件學報,2011,22(12):2 965-2 980.

[6] 王永弟.模糊時間序列模型在短期氣候預測中的應用[J].南京信息工程大學學報,2012(4):316-320.

[7] 潘航.近60年來南京季節變化特征分析[J].氣象科學,2011,31(6):742-746.

[8] 宋敏紅,馬耀明,張宇,等.雅魯藏布江流域氣溫變化特征及趨勢分析[J].氣候與環境研究,2011,16(6):760-766.

[9] 徐文慧,李慶祥,楊溯,等.近百年全球地表月氣溫數據的概況與初步整合[J].氣候變化研究進展,2014,10(5):358-364.

[10] 閆俊,王海功,李紅梅.氣候變暖背景下安徽氣溫變化趨勢分析[J].安徽農業科學,2013,41(36):13 953-13 971.

[11] 吉村純.近110年來全球地面氣溫變化[J].氣象科技,1994(3):43-47.

[12] 熊波,尹周平.滑動平均和改進權重函數的快速非局部平均圖像去噪算法[J].中國圖像圖形學報,2012,17(5):628-634.

[13] 薛佳辰,馮鈞,雷震,等.基于偏最小二乘回歸的性別識別[J].計算機工程與設計,2013,34(9):3 226-3 254.

[14] 汪春輝,羅飛,舒紅平.偏最小二乘回歸在氣溫預測中的研究與應用[J].微計算機信息,2012,28(5):142-144.

[15] 王燕,吳文峰,梁國龍.基于穩健最小二乘的魯棒波束形成[J].電子學報,2013(12):2 321-2326.

[16] 曲付勇,孟祥偉.基于約束總體最小二乘方法的到達時差到達頻差無源定位算法[J].電子與信息學報,2014,36(5):1 075-1 081.

[17] 魏廣彬,徐蕊,孫和平,等.葉齡模型在水稻上應用的檢驗與比較[J].江蘇農業學報,2013,29(4):696-707.

[18] 劉錦萍,郁金祥.基于改進的粒子群算法的多元線性回歸模型參數估計[J].計算機工程與科學,2010,32(4):101-105.

[19] 代亮,許宏科,陳婷,等.基于MapReduce的多元線性回歸預測模型[J].計算機應用,2014,34(7):1 862-1 866.

[20] 焦飛,黃天文,何華慶.數據挖掘技術在氣溫長期變化趨勢預測中的應用[J].廣東氣象,2006(2):33-39.

Application of Time Power Function and Least Square in Air Temperature Forecast

JIAO Fei1,HUANG Tianwen2
(1.Information Center,Zhaoqing University,Zhaoqing,Guangdong 526061,China;2.Zhaoqing Meteorological Bureau,Zhaoqing,Guangdong 526040,China)

The air temperature sequence from 1954 to 2014 of Gaoyao weather station in Zhaoqing area is processed by moving average method to apply data mining method in meteorological fields.The fitting curves and the regression of temperature change trend are obtained by using time power function and east square method and the fitting correlation coefficient and the standard deviation are found to be ideal by checking with actual temperature of 2014 and 2015.It is concluded that the yearly mean temperature of Zhaoqing area increases slowly.The trend is obvious especially from 1950s up till the present moment,which is coincided with global warming.It is proved that the method has a good ability to extract factors information and the forecasting modeling methods will be of certain value in temperature prediction.

data mining;least square;moving average;time power function;temperature change trend

TP39

A

1009-8445(2017)05-0001-04

2017-02-27

廣東省氣象局科學技術研究項目(2016B51);肇慶市氣象局科學技術基金資助研究項目(201609)

焦 飛(1980-),男,河南虞城人,肇慶學院教育技術與計算機中心實驗師,碩士.

黃天文(1975-),女,廣東臺山人,肇慶市氣象局高級工程師.

(責任編輯:陳 靜)

猜你喜歡
冪函數肇慶滑動
大地回春—肇慶十八年林豐俗作品特展
冪函數、指數函數、對數函數(2)
冪函數、指數函數、對數函數(1)
冪函數、指數函數、對數函數(1)
基于指數模型的R = P(Y <X <Z)統計推斷
傳動軸滑動叉制造工藝革新
Big Little lies: No One Is Perfect
看圖說話,揭開冪函數的廬山真面目
用于滑動部件的類金剛石碳覆膜特性及其應用
一種基于變換域的滑動聚束SAR調頻率估計方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合