?

顧及參數空間平穩性的地理加權人口空間化研究

2021-09-24 01:06肖東升
自然資源遙感 2021年3期
關鍵詞:燈光土地利用人口

肖東升,練 洪

(1.西南石油大學土木工程與測繪學院,成都 610500;2.西南石油大學測繪遙感地理信息防災應急研究中心,成都 610500;3.四川師范大學公共安全與應急研究院,成都 610068)

0 引言

人口是社會學、地理學、環境學等學科研究的重要基礎,準確估計人口對許多國家都具有重要意義。精確的人口空間分布情況,不僅為政府制定合適的人口相關政策奠定重要基礎,制定區域長遠發展計劃提供參考,還對人口分布與社會經濟協調發展有著重要的參考價值,為資源配置和行政管理提供依據。目前,世界上大多數國家或地區實現人口調查的主要渠道是統計和分析,包括抽樣調查和全體普查2種方式[1]。雖然人口調查和統計具有權威、系統、規范等優勢,但是存在時間分辨率低、更新周期長、空間化精度低、不利于可視化和空間分析操作等問題,對人口空間分布的研究難以滿足[2]。而人口空間化可以彌補人口統計數據的缺陷和不足,并且可以與其他更精細的空間數據集結合進行分析,以促進人口相關研究的發展。

DMSP/OLS夜間燈光數據最初是用來探測云層對月光的反射以分析云層分布信息,后來被廣泛用于獲取地表夜間燈光以反映人類活動情況[3],并且證明有著極好的適用性[4]。但是夜間燈光數據的分辨率較低,且存在著像元飽和、溢出等現象,導致單一的夜間燈光數據只適用于大中尺度人口空間化的相關研究[5-6]。目前,基于人口統計數據和空間變量之間的關系來建立數學模型從而獲取人口格網數據是研究人口空間化的熱點。常用的方法主要有多源數據融合法[7-8]、夜間燈光與土地利用結合方法[9-10]、空間插值模型[11]等。此外,部分學者結合傳統最小二乘線性(ordinary least square,OLS)全局模型將人口統計數據重新分配在地理空間上,默認模型所有參數都不隨地理位置變化,即在空間上是平穩的,保持全局一致性,導致各變量在不同位置上的“平均行為”[12]。有些學者利用局部地理加權回歸(geographically weighted regression,GWR)建模的方法進行人口數據空間化研究,默認所有參數在不同地理空間位置是不一樣的,具有空間非平穩性[13-14],而實際上有的變量在不同地理空間位置的參數是相同的,即具有全局效應。也有學者使用分區建模對變量特征進行重分類,優化原有模型方法[15-16],盡管強調了分區間的差異,但是對分區內的差異仍然無法揭示[17]。因此,鑒于上述空間化方法的優缺點,本研究考慮變量的空間平穩性,采用變量的局部和全局模式進行混合地理加權回歸,以提高人口空間化精度。

綜上,本文旨在利用夜間燈光數據、土地利用數據和人口統計數據,基于半參數地理加權回歸模型(semi-parametric geographically weighted regression,S-GWR),提出了一種新的考慮參數平穩性的人口精確空間化方法,以四川省為研究區域進行比較和驗證。本文以夜間燈光與土地利用數據為權重因子,建立人口模型;在分析變量特征的基礎上,采用S-GWR模型處理變量的空間平穩性,減少區域誤差。最后生成四川省2010年1 km分辨率的人口空間分布圖(spatial distribution of population,SDP),并利用2個常用的數據集進行縣鄉分級精度驗證。此外,本文通過OLS,GWR和S-GWR 3種回歸模型進行比較和評價,分析不同模型的變量參數不同對人口空間化的影響。

1 研究區概況及數據源

1.1 研究區概況

四川省位于中國大陸西南腹地,地處長江上游,青藏高原和長江中下游平原的過渡帶,介于E97°21′~108°33′和N26°03′~34°19′之間,總轄區面積約484 144.02 km2。轄區有21個市級行政區,包括18個地級市和3個少數民族自治區,共計181個縣級行政區[18]。四川省具有聯動東西、帶動南北的區位優勢,是我國實施西部大開發戰略的重點地區之一,是中國“一帶一路”倡議下的絲綢之路的重要陸上出口區域[19]。四川省是中國西部人口重要的聚居地之一,2010年常住人口8 041.75萬人,其中城鎮人口3 231.2萬人,農村人口4 810.55萬人。由于經濟和地理上的差異,總體呈現川東地區人口密度高于川西地區的格局。四川省地震、洪澇和泥石流等自然災害多發,加上其地形地貌復雜,所以研究四川省的人口空間分布可以為防災減災提供技術支持和維持區域平衡發展提供決策。

1.2 數據源及其預處理

1)夜間燈光數據。本研究使用的夜間燈光數據(圖1(a))來源于美國地球物理國家數據中心(National Geophysical Data Center,https://NGDC.noaa.gov/eog/DMSP/download_radcal.html),選取2010年發布第四版分辨率為30″的DMSP/OLS夜間燈光穩定值數據,該數據通過了去云處理,并且消除了背景噪聲及短時光數據如火山氣體、森林火災、極光等。數據的柵格范圍值(DN值)為0~63,0為黑暗無燈光區域,大于0為燈光區域。夜間燈光數據投影為 Krasovsky_1940_Alebers 坐標系,采用最近鄰重采樣算法將投影后的地圖重采樣到1 km,然后根據研究區域行政邊界對影像進行掩模提取,最后得到四川省范圍的夜間燈光影像。

(a)夜間燈光數據圖 (b)土地利用分布圖

2)土地利用數據。本研究的土地利用數據來源于由中國科學院資源環境科學數據中心。采用2010年1∶10萬的土地利用數據集,該數據集根據分級分類系統分為6個一級土地利用類別(耕地、林地、草地、水域、城鄉工礦居民用地和未利用地)和25個二級類別(水田、灌木林、沙地、沼澤地等)(圖1(b))[20]。為了數據后續使用,利用ArcGIS將土地利用分辨率轉換為1 km,并通過漁網工具將25個二級子類土地利用類型分別輸出為25個柵格數據文件,每個柵格數據層代表了不同的土地利用類型。

3)人口統計數據。本研究的人口統計數據指的是常住人口數據,來源于四川省統計局的《四川省統計年鑒2010》。由于行政單元邊界與人口普查數不據不完全匹配,需要利用ArcGIS軟件將屬性數據與行政單位相應的空間數據進行關聯,最終獲得181個縣有效數據。

4)行政區劃數據??h鄉兩級行政區劃數據來源于原國家測繪局。

5)其他輔助數據。本研究還采用中國科學院資源環境科學數據中心發布的中國格網人口分布數據集(grid population distribution of China,CGPD)和美國國際地球科學網絡中心發布的第四版世界格網人口(grid population of world,GPWv4)。將上述數據集投影為 Krasovsky_1940_Alebers 坐標系,采用雙線性重采樣算法將分辨率重采樣為1 km,然后根據研究區域行政邊界對影像進行提取。具體數據如表1所示。

表1 數據類型及來源Tab.1 Data type and source

2 空間化方法與模型構建

在SPSS軟件下,將土地利用和人口數據進行相關性分析,得出與人口分布顯著正相關的土地利用類型。然后基于ArcGIS提取DMSP/OLS的亮元、暗元和燈光輻射區域,再與選定的土地利用類型進行疊加分析,得到各土地利用類型的燈光。通過行政區劃分區統計后,將變量空間平穩性納入人口空間化模型,利用GWR4.0軟件對變量進行地理變異性檢驗,以區分變量的全局和局部模式,最后通過S-GWR模型生成研究區的像元人口數據。具體流程如圖2所示。

圖2 人口空間化流程圖Fig.2 Flow chart of population

2.1 相關性檢驗與空間疊加分析

本研究利用皮爾遜相關系數(Pearson correlation coefficient,PCC)檢驗方法來獲取與人口相關的土地利用類型。在統計學中,皮爾遜相關系數可簡稱為相關系數 (R),是一個用來衡量變量x和y之間的線性相關關系的指標。計算公式為:

小時候家家戶戶捉襟見肘貧困潦倒,一日三餐尚且難以為繼,小孩子們要想額外得到點“零食”以解口腹之讒,實在來之不易。只有在家里來了客人或村里放電影唱大戲時,父母親才會炒點花生或黃豆,招待客人,并“慰勞”我們。

(1)

式中:R為相關系數的值;xi為第i縣的統計人口數據;yi為第i縣的某一土地利用類型面積;n為縣的個數。

根據人口分布的實際情況,本研究在土地利用數據與人口統計數據疊加過程中,水域和未利用土地不參與空間化分析。利用ArcGIS將不同土地利用類型面積根據縣界進行分區統計,基于SPSS軟件對土地利用與人口進行相關性檢驗。然后通過ArcGIS提取DMSP/OLS數據的燈光區、無燈光區和燈光輻射區,選取與人口數據顯著正相關的土地利用類型,采用空間分析工具中的疊加分析,將上述數據分別進行疊加統計,根據縣級行政區劃數據進行分區統計,最后得到各區縣各類土地的燈光區面積像元數(the number of light pixels,NL)、無燈光區面積像元數(the number of unlit pixels,NU)和燈光輻射總亮度值(light emission in pixels,LE)。在實際人口分布中,人口只存在于城鄉及建設用地等建成區,而本研究考慮了耕地是由于衛星遙感對土地利用產品解譯時的精度問題和像元混合問題,忽略了在林地、草地等都有可能存在零星分布農村居民點、農牧民獨立房屋、帳篷、氈房等設施,這些分散零星但數量眾多的居住設施在1∶10萬的土地利用中是無法展現出來但又是確實存在的。因此,為了不影響對農村人口估計的低估和對城市人口的高估,將其他土地利用類型賦予一定的權重并納入人口建模,并基于ArcGIS在縣一級對其面積進行分區統計。

2.2 人口空間化模型

全局OLS模型是假定全部變量之間的空間關系都是穩定的,即得到的回歸系數估計值就是整個研究區域內的平均值。而GWR模型是全局回歸模型的擴展,即在計算回歸參數時加入變量的空間地理位置信息,使得不同地理位置的回歸參數值不同,因而提高人口空間化建模的精度。然而,由于生活環境和經濟水平的不同,參數在不同地理位置有可能是會發生變化的,也有可能是固定的。因此,本研究利用混合固定系數和變化系數的S-GWR模型對人口空間化進行建模。與單純性的全局或局部的方法相比,混合全局固定參數和局部變化參數實現了半參數空間平穩,而且模擬效果比其他模型表現得更好。在建立模型之前有必要對統計人口數進行空間自相關檢驗,采用ArcGIS軟件中的空間統計工具分析空間自相關情況,通過Moran’s I指數值反映出研究區人口分布的集聚程度,取值范圍介于[-1,1]之間。S-GWR模型計算公式為:

(2)

式中:pi為第i縣的估計人口數;m為模型中變量的個數;k為模型中全局變量的個數;αl為第l個全局變量zil的固定系數;(ui,vi)為第i縣的質心坐標;xij為第i縣的第j個局部變量;βj(ui,vi)為第j個局部變量xij的地理變化系數;εi為滿足球面攝動假設的隨機誤差。此外,當k=0時,式(2)就變成了局部GWR模型。

計算出像元級的估計人口數據后,對初步估計人口結果進行優化和校正,確保預測的SDP總人口等于縣級行政單位的人口普查數據。計算公式為:

(3)

為區分變量的全局和局部模式,基于GWR4.0軟件對全部變量進行地理變異性測試。具體參數模型設置是選用自適應的二次平方空間核函數(Bi-square)進行建模,帶寬選取采用默認的黃金分割搜索程序,以赤池信息量準則(Akaike information criterion,AIC)作為信息評價準則,決定系數R2和調整決定系數adjR2對回歸性能進行評價。其中,在樣本小的情況下,AIC轉變為AICc ,AICc值可以反映模型的擬合優度和模型復雜度,在針對同一套因變量和自變量數據時,根據經驗法則,當差值大于或等于3,就表明模型有了明顯改善。

2.3 精度評價

對得到的模擬結果有必要進行精度評估和誤差分析,除了上述提到的相關系數R、調整決定系數adjR2、赤池信息量準則AICc等對模型進行評估外,本研究還選取平均絕對誤差(mean absolute error,MAE)、平均相對誤差(mean relative error,MRE)、均方根誤差(root mean square error,RMSE)、相對誤差(relative error,RE)、平均誤差(mean error,ME)來對結果進行評價。計算公式如下:

(4)

(5)

(6)

(7)

(8)

3 結果與討論

3.1 模型自變量參數

3.1.1 人口與土地利用相關性

通過SPSS軟件計算各土地利用類型和人口之間的相關性,考慮到人口分布的實際情況,水域和未利用土地未參與相關性分析。結果表明,耕地下的2個二級子類(水田、旱地)和城鄉工礦居民用地的3個子類(城鎮用地、居民用地、其他建成區)同人口數據顯著正相關,而林地、草地、水域和未利用土地均與人口顯著負相關或不相關。其中,在雙尾檢測時,城鄉居民工礦用地下的其他建成區檢測結果顯示為不相關,但在單尾檢測時結果是顯著正相關的。因此,為了提高對人口估計的精度,本研究將其作為一個變量納入人口空間化模型。表2顯示了土地利用與人口之間的相關性。

表2 各土地利用類型與人口數據的相關系數Tab.2 The correlation coefficient between land use types and population data

3.1.2 空間模型參數

對人口做自相關檢驗,得到縣級人口Moran’s I指數值為0.358,z值為21.95,表示人口數據在0.01水平上顯著自相關,說明181個縣域的人口分布具有明顯的集聚性。在分析土地利用與人口數據的相關性后,選取城鎮用地、農村居民用地、其他建成區與DMSP/OLS燈光數據進行疊加分析,得到3個子類的燈光區面積像元數(NL)、無燈光區面積像元數(NU)、燈光輻射總亮度值(LE)。然后對水田和旱地賦予一定的權重,將上述11個參數作為人口空間化模型的變量?;贕WR4.0軟件對全部變量進行參數估計及參數平穩性檢驗,利用參數在沒有空間變異性的情況下,參數的F統計量就遵循一定自由度的F分布,最后通過“DIFF of Criterion”結果以區分全局變量和局部變量(表3)。結果表明,城鎮用地NU和其他建成區的LE,NL,NU的“DIFF of Criterion”大于2,說明在空間上不具備空間非平穩性,故將其作為全局變量,而將其余7個變量作為S-GWR模型的局部變量。此外,可以通過AICc值來選取最優帶寬值,本研究最佳帶寬值為62?;贕WR4.0軟件進行地理變異性測試結果如表4,該表顯示了全局OLS、局部GWR和半參數混合S-GWR模型的性能及擬合優度,評價標準包括R2,adjR2和AICc值。當所有變量都作為全局變量的時候,OLS回歸模型的解釋力達到0.798;當把所有變量作為局部變量時,考慮到變量的局部影響,解釋力進一步增加到0.877,而AICc值從4 846降到了4 810,模型得到顯著提升;而當采用變量的混合模式時,S-GWR模型的解釋力增加為0.903,同時AICc值下降到4 786。雖然全局OLS模型和局部GWR模型都能得到較好的人口空間化結果,但是S-GWR模型進一步提高了人口空間化的解釋力,并且提高了人口空間化的精度。因此,考慮參數的空間平穩性,能夠使得模型擬合得更好。

表3 地理加權模型參數估計及參數平穩性檢驗Tab.3 Parameter estimation and parameter stationarity test of geographically weighted model

表4 3種模型的擬合優度評價Tab.4 Evaluation of goodness of fit of three models

3.2 人口空間化結果

基于土地利用和DMSP/OLS數據,利用S-GWR模型生成了四川省2010年的SDP(圖3(a)),和人口統計數據的人口密度分布圖相比較(圖3(b)),兩者有相同的人口分布趨勢,但是前者更突出了人口分布的細節。為了可以更清晰地看到兩者的區別,提取了成都市部分區縣SDP(圖3(c)),并與縣級統計數據人口密度圖進行對比(圖3(d)),可以看出人口空間分布情況大致相同,但是SDP可以提供更小的像元人口密度,將人口分配到了更細致的空間尺度上,更符合實際人口的分布情況。人口主要集中在居民地和城鎮建設用地上,各區縣的人口密度高值區主要集中在縣城所在地,同時,人口空間分布圖顯示的中心城區與周邊城區人口密度變化更加自然,印證了當代中國人口分布的實際情況。而稀疏零散的農村人口則被分配到耕地上,大多是無光或者光值很低的農村地區。當與夜間燈光數據(圖1(a))比較時,燈光越亮的地方,人口密度越高,人口密度低的地方,燈光亮度也相應較低。因此,利用S-GWR模型來生成人口空間分布圖在很大程度上符合人口實際分布。

(a)S-GWR生成SDP (b)區縣統計人口密度圖

3.3 分級驗證評估

精度評估是人口空間化研究的重點也是難點,基于前人的經驗和方法,本研究2010年世界格網人口第四版GPWv4和中國格網人口分布數據CGPD,分別在縣鄉兩級進行對比驗證。此外,縣鄉人口統計數據默認為真實人口數據。

在縣一級,分別計算了3種數據結果在研究區內的所有區縣的RE。為了揭露誤差的細節和總體情況,將3種數據的相對誤差用箱線圖表示出來(圖4(a)),圖中散點代表每個區縣的相對誤差值,兩端的短橫線代表最大值和最小值,而1%~99%之間的誤差顯示在交叉線中??梢钥闯?,GPWv4的RE最大是0.7,最小是-0.42,ME為1%;CGPD的RE最大是0.58,最小是-0.4,CGPD的ME為7%。

(a)縣級RE散點箱線圖 (b)500鄉鎮RE散點箱線圖

而由于SDP人口經過式(3)的系數調整,其RE和ME都接近于0。另外2種數據集對區縣不同程度的高估或低估,可能是由于這些縣的人口密度與其他縣的人口密度不一致,影響人口分布的因素不一樣,不能很好地從基于回歸模型中得出。上述3種數據都分別經過不同方法的調整,但通過上述分析可以知道,通過縣級人口統計數據來調整SDP是有必要的。在鄉鎮一級,根據隨機數的生成,隨機選取500個鄉鎮進行精度評價。將500個鄉鎮的人口統計數據視為真實人口值,分別計算估計人口與統計人口之間的RE,并分級統計分析,再分別計算整體的MAE,MRE,RMSE。

表5統計了3種數據集的誤差指標,可以看出SDP的3種誤差均小于其他兩種數據集,GPWv4和CGPD的MRE分別為47.48%和45.43%,而用S-GWR得到的SDP僅為34.54%;在MAE方面,GPWv4和CGPD分別為7 997.774人和7 256.342人,而SDP為5 715.703人;RMSE可以反映預測結果與實際數據的偏差,GPWv4和CGPD分別為18 846.285人和16 997.919人,兩者有相似的離散度,而且均高于SDP的12 085.932人。由此可以看出,SDP比其他兩種數據得到的結果更好,精度更高,說明SDP預測人口更接近于人口普查數據,具有更高的可信度。

表5 3種數據集精度對比Tab.5 Accuracy comparison of three datasets

為了可以直觀地看出3種數據的在局部鄉鎮上的差異和細節,同樣將鄉鎮誤差顯示在箱線圖中(圖4(b))??梢钥闯?,GPWv4的相對誤差最大是5.61,最小是-0.97,CGPD的相對誤差最大是4.79,最小是-0.94,SDP的相對誤差最大是2.26,最小是-0.88。異常值分布在高值區域,低值區域無較大差別,且大多都是由于對人口的高估所導致,說明GPWv4和CGPD這2種全球性數據集不適合在局部進行回歸,而SDP由于考慮了回歸變量的非平穩性,在局部獲得了較好的結果。SDP比另外2種數據的散點分布更集聚一些,其相對誤差更集中在0附近,與真實人口數據比較接近。

為了得到3種數據結果的誤差結構,將500個鄉鎮進行分級統計(表6),根據RE值分成5個范圍,分別是嚴重低估(≤-50%)、一般低估((-50%,-20%])、準確估計((-20%,20%])、一般高估((20%,50%])、嚴重高估(>50%)。圖5顯示了500個鄉鎮RE各級別的相對占比情況。

表6 500個鄉鎮相對誤差分級統計表Tab.6 Statistical table of relative error classification in 500 villages and towns (個)

圖5 500鄉鎮RE占比統計圖Fig.5 Relative error ratio of villages and towns

SDP的鄉鎮誤差分級統計個數分別是48,97,185,107和63個,誤差占比為9.6%,19.4%,37%,21.4%和12.6%;GPWv4分別為51,101,151,107和90個,誤差占比為10.2%,20.2%,30.2%,21.4%和18%;CGPD分別為56,114,158,97和75個,誤差占比為11.2%,22.8%,31.6%,19.4%和15%??梢钥闯?,3種結果均存在不同程度的高估,而人口高估的鄉鎮大多位于青藏高原東部和邛崍山脈以西的川西高原。此外,分析出現明顯高估和明顯低估的原因可能與該地區的氣候、海拔等其他影響人類分布的因素有關。在3種數據結果中,SDP準確估計的鄉鎮最多,多達185個,占比達到了37%,出現低估和高估的鄉鎮個數比另外兩個數據集要少,而且分布更為分散。因此,考慮參數的空間平穩性可以較好的提高人口空間化的精度和減少對鄉鎮人口的高估。

4 結論

1)Pearson相關檢驗結果顯示了土地利用類型與人口分布之間的相關性。研究選取了與人口顯著正相關的土地利用類型作為模型變量,根據建模結果表明,考慮人口分布建模的時候不應該只考慮與人口正相關的土地類型,其他土地類型林地、草地甚至水域都可能有人口分布。

2)該模型與傳統的全局模型和局部模型相比,其考慮了空間變量的平穩性,將全局變量和局部變量混合起來,通過局部變量在不同空間地理位置上的系數不同來提高人口空間化精度?;贕WR4.0軟件得出3種模型擬合優度,結果表明,S-GWR模型的擬合效果最優,決定系數R2和AICc值分別為0.903和4 786.263,較其他2個傳統模型均有明顯提升,進一步提高了對人口空間化的解釋力。

3)本研究對SDP進行了分級精度評估。在縣一級,GPWv4和CGPD這2種數據集的ME分別為1%和7%,而由于人口系數的調整,SDP的ME接近于0。在鄉鎮一級,隨機生成的500個鄉鎮中,與GPWv4和CGPD相比,SDP準確估計的鄉鎮個數最多,達37%,極端鄉鎮(嚴重低估和嚴重高估)數量較少,低估和高估鄉鎮個數都分別比另外2個數據集要少。在RE方面,SDP的RE最大是2.26,最小是-0.88,比另外2種數據集的范圍要??;在MAE方面,SDP,GPWv4和CGPD的誤差分別為5 715.703人,7 997.774人和7 256.342人;在MRE方面,SDP,GPWv4和CGPD的誤差分別為34.54%,47.48%和45.43%;在RMSE方面,SDP,GPWv4和CGPD的誤差分別為12 085.932人,18 846.285人和16 997.919人??偟膩碚f,SDP在人口預測方面比另外2種數據表現得更好,證明了S-GWR模型生成的SPD在準確重新分配人口方面優于其他數據集。

本研究使用S-GWR模型方法,可用于在區域尺度上產生地理空間細節不同的網格人口,其人口估計結果比傳統模型精度更高、效果更好,對生態學、災害評價等相關研究具有重要意義。但夜間光照和土地利用數據在全球范圍內都是免費提供的,因此更適合缺乏詳細數據的大規模人口空間化。因此,在未來可以利用更高分辨率和更高精度的數據進行研究,也可以從影響人口分布因素方面以進一步提高人口空間化的精度。

猜你喜歡
燈光土地利用人口
水中燈光秀
《世界人口日》
人口轉型為何在加速 精讀
今晚的燈光亮了天
來一場燈光派對
人口最少的國家
1723 萬人,我國人口數據下滑引關注
土地利用生態系統服務研究進展及啟示
濱??h土地利用挖潛方向在哪里
論低碳經濟與轉變土地利用方式
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合