?

基于FCM的遼寧省氣溫聚類分析

2017-01-04 12:06宋英男
國土與自然資源研究 2016年5期
關鍵詞:高維降維遼寧省

宋英男

(遼寧師范大學城市與環境學院,遼寧大連116029)

基于FCM的遼寧省氣溫聚類分析

宋英男

(遼寧師范大學城市與環境學院,遼寧大連116029)

基于FCM算法,對遼寧省22個氣象站點的氣溫時間序列采用正交函數對數據進行降維處理,對并分3類降維后的數據進行聚類分析,聚類結果符合區域實際氣溫特征情況。

時間序列;FCM算法;降維;聚類

1 引言

隨著地理信息系統與空間數據挖掘的發展,已經有大量的算法應用到了氣象數據的分析中,時間序列已經頻繁的應用在經濟[1]、醫學[2]、農業[3]、環境監測[4]等很多領域,并且已經取得了大量的成果。

由于時間序列的高維數特征為時間序列聚類帶來了很多的計算困難,因此開展時間序列的降維計算是數據挖掘領域研究的重要問題之一。近年來,相繼出現大量的降維算法。1974年J.C.Dunn提出模糊C均值聚類算法FCM(Fuzzy C-Mean clustering algorithm)[5],FCM算法具有簡單,收斂速度快等優點,因此在實際中得到了廣泛的應用。本文采用了通過正交函數系對原始時間序列數據進行非線性映射,再通過FCM算法對數據聚類。解決了時間序列的高維數特征在處理過程中的時間復雜度過大的問題,最終達到降維的目的,實現高維數特征數據處理的高效性。最后將該算法應用于實際的地理數據的分析中。

2 基于正交函數系的降維方法

2.1 正交函數系

正交函數系是由一系列正交基構成的一個正交系統。本文所使用的是基于Fourier三角函數系的正交函數系的變形。

Fourier三角函數系定義。該三角函數系是將k個變量用[m,n](m,n為實數)上的一條曲線來表達,這條曲線保留原數據的全部信息。定義為:

其中xk為k個變量,t為該曲線的自變量。

2.2 FCM模型

模糊c均值(FCM)是一種采用交替的更新質心和指派每個對象到最近的質心的聚類方法,其定義如下:

其中cj是第j個簇的質心,而p是確定權值影響的指數,在1和∞之間取值。

2.3 基于正交函數系的聚類算法

通過2.1所提到的三角函數系,將原始數據映射到二維空間的函數。根據定積分的思想,在函數自變量-π到π之間平均取n個值所對應的函數值組成新的序列,用n個點近似的代表原始數據高維數據的特征,從而達到降維的目的。

具體算法:Input:目標矩陣,類數c,目標維數n;Output:隸屬度矩陣;Step1.對原始數據通過2.1所提到的三角函數系進行變換,并得到新的序列;Step 2.對得到的序列使用FCM算法。

3 實驗分析

采用本章所提出的算法對遼寧省22個站點的實測氣溫數據進行分析,該數據為1960年到2009年之間月平均氣溫,將每個站點的氣溫數據看作一條時間序列通過基于正交函數系的聚類算法進行數據維度的壓縮并使用FCM算法對降維后的數據進行聚類分析。其結果如圖1所示。

從圖中可以看出,遼寧省內的22個站點被分成了3類,其中藍色代表沈陽、本溪、朝陽、阜新、黑山、建平、岫巖和彰武,其地理分布處于遼寧省內陸,氣溫屬于同一類型;紅色代表鞍山、大連、錦州、綏中、瓦房店、興城、營口和莊河,其地理位置靠近海洋,屬于受海洋因素影響較大的類型;其余黃色表示鲅魚圈、撫順、桓仁、開原、寬甸、清原,這些區域由于特殊原因氣溫的特征處于內陸性和海洋性之間,故將它們劃為一類。其中鞍山的位置更靠近內陸,卻分為海洋性氣候區,據分析是受到渤海的內陸性特點所影響;撫順靠近沈陽卻沒有成為一組,可能是受其附近的大伙房水庫影響;丹東、岫巖一類的區域雖然沒有處于海洋附近,但是受到鴨綠江的影響,氣溫類型不屬于內陸型。

圖1 遼寧省氣溫聚類結果

4 總結

在實際的生產生活中,時間序列數據集巨大且復雜,如何解決這一問題在數據挖掘專業一直是研究熱點。本文采用基于正交函數系的算法處理數據,不僅降低了于高維時間序列的處理上的復雜度,并且對于數據聚類結果的影響非常小。本文提出的方法僅限于時間序列,對于其他數據集的應對方法還應做進一步研究。

[1]E.A.Maharaj,P.D'Urso,A coherence-based approach for the pattern recognition of time series,PhysicaA,389(2010):3516-3537.

[2]F.Gullo,G.Ponti,A.Tagarelli,G.Tagarelli,P.Veltri,A time series approach for clustering mass spectrometry data,Journal of Computational Science,3(2012):344-355.

[3]M.Debeljak,G.R.Squire,D.Kocev,C.Hawes,M.W.Young, S.Dzeroski,Analysis of time series data on agroecosystem vegetation using predictive clustering trees,Ecological Modelling,222(2011): 2524-2529.

[4]P.D'Urso,E.A.Maharaj,Wavelets-basedclusteringof multivariate time series,SciVerseScienceDirect,193(2012):33-61.

[5]J.C.Dunn,A fuzzy relative of the ISODATA process its use in detecting compact well-separated clusters,J.Cybernet,3(1974): 32-57.

The cluster analysis of air temperature in Liaoning Province Based on FCM

SONG Ying-nan
(College of Urban and Environment science,Liaoning Normal University,Dalian 116029,China)

Based on FCM algorithm,using orthogonal function to dimensionreduction22 temperature time series of meteorological stations in Liaoning province,then clusteringdata in 3 sorts, results are consistent with the regional characteristics of the actual temperature.

Time sequence;FCM algorithm; Dimension reduction;Clustering

P467

A

宋英男(1992-),女,滿族,籍貫山東泰安,碩士研究生,主要從事農業生態氣象與應用氣象研究。

(2016-08-25收稿劉曉佳編輯)

1003-7853(2016)05-0004-02

猜你喜歡
高維降維遼寧省
有向圖上高維時間序列模型及其在交通網絡中的應用
混動成為降維打擊的實力 東風風神皓極
降維打擊
遼寧省各級工會收看十九大開幕會
遼寧省環境保護廳與遼寧省氣象局進一步深化合作
基于矩陣模型的高維聚類邊界模式發現
遼寧省推廣“煤改氣”供暖執行居民氣價
遼寧省建環保舉報獎勵制度
一種改進的稀疏保持投影算法在高光譜數據降維中的應用
高維Kramers系統離出點的分布問題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合