?

降維系統聚類方法在地域劃分中的應用

2018-09-29 07:00俐,璐,
大連工業大學學報 2018年5期
關鍵詞:降維貢獻率聚類

劉 俐, 劉 璐, 王 智 森

( 大連工業大學 信息科學與工程學院, 遼寧 大連 116034 )

0 引 言

地域劃分已成為產業、投資、創新投入等的重要依據,是制定地域發展政策的首要參考。因此,研究地域劃分是為地域經濟持續發展、產業調整、區域布局等戰略設想的基礎。常見的地域劃分方法有行政劃分和地理劃分,這些方法屬于定性劃分,而隨著社會經濟發展和產業發展,定性的地域劃分不能及時反映地域發展狀態。近年來,國內外專家學者從不同角度對中國地域劃分進行了定量的聚類研究[1-3]。以農村居民人均消費數據為研究對象,應用聚類分析方法將31省、市、自治區劃分為較高、中等、較低3類區域,并提出促進消費的建議[4]。山東農業大學從肉羊產業發展的角度對山東省各市劃分為發展潛力區域、優勢欠缺區域和發展較成熟區域,進而分析各類區域的特征,并提出相應的發展建議[5]。范群林等[6]從環境技術創新能力的視角將中國30省、市的區域劃分為5類,并分析5類地區的環境技術創新能力分布特征,據此提出各類地區關于提升環境技術創新能力的相應策略,促進我國的可持續發展。

聚類分析在目前實際應用中,最常用的兩種方法是系統聚類法和快速聚類法。其中,快速聚類法雖然計算速度快,但需要實現根據樣本空間分布指定分類的數目,而當樣本的變量數超過3個時,該方法的可行性就較差。而系統聚類法利用樣本之間的距離最近原則進行聚類,由于類與類之間的距離計算方法靈活多樣,能使其適應不同的要求。但在聚類的過程中,如果對多個變量進行直接聚類,存在維度多和計算量大的問題,因此,本研究重點提出基于降維思想的系統聚類方法,使得降維后的聚類標準更加簡單直觀,降低計算量。利用中國城鎮居民消費數據對地域進行劃分,驗證該方法的可用性。

1 降維系統聚類方法

在實際問題中有p個指標,將這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是將p個指標通過線性組合轉化為p個新的指標,而這些新的指標C1,C2,…,Ck(k≤p)按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立,即

(1)

模型滿足的條件包括主成分之間相互獨立;主成分的方差依次遞減;每個主成分的系數平方和為1,即

(2)

根據主成分分析的數學模型,原始數據及模型條件,將數學模型中式(1)寫成

(3)

協方差矩陣的計算。利用原始數據計算協方差陣ΣX。

然后,根據協方差矩陣計算特征值和單位特征向量,即UT的列向量是λi,i=1,2,…,p對應的特征向量。

由式(4)計算特征值λi及其相應的單位特征向量ui=(ui1,ui2,…,uip),i=1,2,…,p,其中I表示單位陣。

ΣX-λiI=0

(4)

由于ΣX為非負定的對稱陣,必存在正交陣U,使得

(5)

ΣX的特征根λ1,λ2,…,λp分別代表主成分C1,C2,…,Cp的方差,且特征值依次遞減。

最后,根據特征值計算貢獻率(Cr)和累計貢獻率。貢獻率指某個主成分方差占全部方差的比重,也就是某個特征值占全部特征值合計的比重,如式(6)所示。累積貢獻率指前k個貢獻率的加和,為保留絕大部分數據信息,將選取累計貢獻率達90%以上的前k個主成分。

(6)

累積貢獻率選取前k個主成分,再由式(4)得到特征向量,得到C1,C2,…,Ck(k≤p)的具體線性表達式。對系統聚類的變量進行降維,以線性表達式中變量前的系數絕對值大于0.4為標準,篩選符合條件的主要變量集合進行系統聚類。

系統聚類法是先將n個樣品各自看成一類,然后規定類與類之間的距離,選擇距離最小的一對合并成新的一類,計算新類與其他類的距離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品都成為一類為止。

計算樣本間的歐氏距離。由于以地區為樣本,對樣本進行聚類,將距離作為聚類的統計量,且統計量采用歐氏距離,將每一個樣品看作p維空間的一個點,令dij為樣品Xi和Xj的距離,m為樣品指標具體維度。

(7)

選取離差平方和計算類間距離。應用離差平方和計算距離,先將n個樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和增加最小的兩類合并,直至所有的樣品歸為一類。

2 降維系統聚類的地域劃分

2.1 數據來源及變量選取

研究數據來源于《中國統計年鑒》[7],2011—2015年中國省級城鎮居民的人均消費支出數據,具體消費項目名稱及變量的選取如表1所示。

表1 居民消費項目表

2.2 降維系統聚類的地域劃分

對5年31個地區城鎮居民的8項消費支出項目進行主成分實證分析,得到主成分與8個變量之間的線性組合。并根據主成分的累計貢獻率,確定主成分個數。再依據變量前系數絕對值的大小,篩選出主要變量作為地域聚類的標準。

以2015年數據為例,首先,利用省級城鎮居民的人均八項消費數據計算得出協方差矩陣

根據式(4),得到特征值及相應的單位特征向量

根據累計貢獻率來確定需要選取的前k個主成分。由表2累積貢獻率可知,即k取2即可滿足主成分的選取標準,可見2015年主成分的選取保留了93.60%的原始信息。

表2 2015年主成分導出一覽表

由單位特征向量寫出主成分對應原始變量的系數,新成分選取為C1和C2與原始變量的線性關系。兩個主成分C1和C2代替了原來8個變量來描述城鎮居民的總消費支出情況。根據聚類變量降維篩選原則,在C1中符合條件的變量為X1和X3,在C2中為X1,因此2015年消費的聚類變量為X1和X3。利用同樣的方法,分別對2011—2014年省級城鎮居民人均消費支出的數據進行主成分分析,分別得到2011—2015年期間城鎮居民消費的聚類變量,如表3所示。

表3 系統聚類變量

將表3主成分降維的聚類變量作為聚類標準,利用系統聚類方法,分別對2011—2015年省級地區進行聚類。利用式(7)計算省級地區間的距離,用離差平方和計算類與類之間的距離,然后將距離較近的兩類合并為一類,以此類推,直至聚類結束,聚類結果如圖1所示。

圖1 省級地區的聚類結果

由圖1可見,就單個省級地區而言,從5年的聚類結果來看,很難實現跨類發展,始終保持鄰類別地區發展,即一二類內的地區之間波動,三四類內的地區之間波動。各地區的發展速度不同,導致有些地區發展速度快,超過了原處于同類別的地區,出現部分地區波動現象。

對比聚類結果與實際情況,發現此種方法的地域劃分結果與地域發展的實際情況相符。一方面,由于各地的自然資源、產業發展潛力、人均收入等不同,造成省級之間非均衡發展的趨勢,因此省級之間被聚為不同類別。另一方面,地域發展呈現階段性,通過近5年的聚類結果顯示,大部分省級地區保持穩定發展,而浙江、廣東、青海、新疆、安徽、湖北、廣西、云南、陜西在2013和2014年出現波動。這表明大部分地區發展較穩定,即使出現少數地區的波動現象,也是發生在鄰近類別之間。

3 結 論

利用降維系統聚類方法,對全國省級地區進行地域劃分,該方法對2011—2015年省級地區城鎮居民的消費數據進行實證分析。通過累積貢獻率對主成分進行篩選,根據主成分中變量前系數絕對值大小來降低聚類變量的維度,并利用居民消費數據對該方法進行驗證。結果顯示,就單個地區而言,各省級地區始終保持在鄰近類別之間發展,且未出現跨類發展的現象。表明各地區保持循序漸進的發展趨勢,這與地域發展規律相符,驗證了降維系統聚類方法的可用性。地域的有效劃分有助于找準地域定位,確定發展目標,能夠為探討地域的發展路徑提供有效參考。

猜你喜歡
降維貢獻率聚類
混動成為降維打擊的實力 東風風神皓極
一種通用的裝備體系貢獻率評估框架
降維打擊
基于K-means聚類的車-地無線通信場強研究
關于裝備體系貢獻率研究的幾點思考
基于高斯混合聚類的陣列干涉SAR三維成像
В первой половине 2016 года вклад потребления в рост китайской экономики достиг 73,4 процента
一種改進的稀疏保持投影算法在高光譜數據降維中的應用
一種層次初始的聚類個數自適應的聚類方法研究
基于特征聯合和偏最小二乘降維的手勢識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合