區域地理加權回歸分析方法

2024-01-16 00:57王增錚張福浩趙陽陽仇阿根

測繪通報 2023年12期

王增錚,張福浩,,趙陽陽,仇阿根

(1. 西南交通大學地球科學與環境工程學院,四川成都 611756; 2. 中國測繪科學研究院地理空間大數據應用研究中心,北京 100036)

地理加權回歸(GWR)的提出有效地探測了空間非平穩特征,豐富了空間分析方法[1]。20多年來,國內外學者基于傳統GWR方法,從交叉驗證[2]、異方差剔除[3]、穩健估計[4]、時空特征探測[5-6]等方面發展了該方法,并廣泛應用到大氣反演[7]、疾病預測[8]、城市景觀[9]、房價估算[10-12]等多個自然社會領域。根據傳統GWR原理,空間權重是核心,反映了觀測點對回歸點的影響程度。

空間異質性是指過程和關系在空間上的變化[13],是地理學、生態學及空間分析中的一個重要概念,被視為局部統計的基礎[14]?？臻g異質性分為連續異質性和離散異質性[15],對兩者的精確解算是空間回歸分析能否揭示地理要素之間復雜的相互關系的決定性因素。在回歸模型中,空間異質性的存在要求回歸系數在空間上變化,即在空間不同單元之間離散變化或在空間上連續變化[16]。以往的空間回歸分析關注了空間離散異質性,卻對空間的連續性考慮不夠,遺漏了一些重要的局部變化[16-17]。GWR建立在“臨近相關,距離越遠相關性越小”的假設前提下,這種方法是對空間連續異質性的有效探測[16]。

但在現實中,受空間離散異質性的影響,空間距離相近的事務,屬性也會相差較遠[18]。特別是在社會經濟領域,受區劃因素的影響,距離相近的事物,屬性可能相差較遠。如商品房屋價格受區域政策和學區影響,即使兩個小區距離很近,價格也會相差很大。傳統的GWR方法僅考慮空間距離,但未考慮離散異質性導致的離散異質區的區域距離,這導致區域臨界處擬合不充分[19]。本文綜合考慮在GWR的空間核函數中增加區域判別,提出區域地理加權回歸方法(regionally geographic weighted regression, RGWR),通過構建區域空間權重計算策略有效篩選觀測點,修正核函數,優化權重計算方法,在探測空間非平穩性的同時探測空間離散異質性。

1 區域地理加權回歸分析方法

1.1 地理加權回歸方法

GWR在多元線性回歸基礎上,把位置參數嵌入回歸系數中[20],公式為

(1)

式中,(ui,vi)為第i個觀測點的坐標位置;βk(ui,vi)為第i個觀測點的第k個回歸系數;εi～N(0,σ2),Cov(εi,εj)=0(i≠j)。

1.2 區域地理加權回歸分析方法

RGWR是GWR的一個擴展,用于探索空間非平穩和空間離散異質性,其基本思路是通過向GWR中添加區域變量,將地理位置嵌入回歸系數中,允許每個單獨的點具有不同的值以估計回歸系數,且受每個回歸點的空間離散異質區域的影響[18]。模型可表示為

(2)

在估計采樣點i的回歸系數時,在GWR的基礎上添加了區域因子,因此當觀測點位于區域范圍之外時,該點參與回歸的權重除了受空間權重矩陣的影響,還受區域因子的影響。同樣使用局部最小二乘法,點i處的回歸系數估計值計算公式為

(3)

區域空間權重矩陣RWi表示為

(4)

式中,rwij表示觀測點對回歸點的區域空間權重。

(5)

(6)

1.2.1 區域空間權重計算策略

GWR用帶寬篩選“有效觀測點”進行回歸點估計,對于一個給定的回歸點X,采樣點的權重在該回歸點的位置上達到最大,隨著兩點之間距離的增加,權重逐漸下降。但是這種方式沒有考慮空間離散因素。為了更好地刻畫空間離散異質性在空間權重計算中的作用,本文提出了區域空間權重計算策略,引入特定因素解釋空間離散異質性,對不同空間離散異質區之間的區域影響因子進行分開計算。

受特定因素影響的區域權重的高斯函數rwij定義為

(7)

截尾型核函數為

(8)

式中,rij表示區域影響因子;dij表示觀測點i與采樣點j之間的距離;h表示帶寬。當觀測點i和采樣點j位于同一區域時,rwij=1,空間核函數的計算與傳統GWR沒有區別;當觀測點i和采樣點j位于不同區域時,根據不同空間離散異質區之間的主要差異,計算不同的區域間影響因子rij,如圖1所示。

圖1 GWR和RGWR高斯核函數空間權重計算策略

1.2.2 區域影響因子的計算方法

(1)一般情況下區域影響因子計算方法。在現實社會中,不同的研究問題和研究區域,影響空間離散異質性的特定因素不同。這需要在建模過程中,針對具體的空間過程和地理現象選定影響空間離散異質性的特定因素,再根據不同區域間主要因素的差異構建不同的影響因子。選定特定因素最簡單的方法可以參考混合地理加權回歸中直接指定常系數的方式[1,17],直接根據分析師對研究區域和研究對象的經驗和前人的研究指定。

例如,本文根據前人研究和對商品房價格研究的經驗[21],將研究區內受空間離散異質性影響大的因素劃定為研究區域內小學,引入各區重點小學和小學數量,以各區間優質小學教育資源的差異,建立各區受教育影響的區域影響因子為

(9)

式中,rij為區域教育影響因子;ri=qir/qiall;qir為i點所在區域內優質教育資源的數量;qiall為i點所在區域內所有教育資源的數量。

(2)特殊情況下的區域影響因子計算方法。根據式(7)-式(9)區域空間權重的計算存在一種特殊情況:不同空間離散異質區的區域影響因子都相等,rij=固定值。當觀測點與回歸點位于同一區域時,觀測點獲得的權重與GWR一致,當回歸點和觀測點處于不同區域內時,觀測點將獲得受區域影響因子影響較低的權重。圖2(a)為該情況下的固定型帶寬策略,圖2(b)為調整型帶寬策略。

圖2 RGWR特殊情況下的高斯核函數空間權重計算策略

當區域影響因子等于0時,此時區域空間權重相當于對不同的空間離散異質區進行了嚴格的區域判別,即當觀測點與回歸點位于同一區域時,該觀測點將參與回歸點的估算;觀測點與回歸點位于不同區域時,則該觀測點不參與回歸點的估算。圖2(c)為該情況下的固定型帶寬策略,圖2(d)為對應調整型帶寬策略。

由于特殊情況下區域影響因子rij=固定值,估算此情況下的區域影響因子可以參照GTWR估算時間因子的方法,先采用傳統GWR方法,按照Akaike信息量準則(Akaike information criterion,AIC)或交叉驗證方法(cross-validation, CV),選擇最優帶寬h,再采用RGWR方法,繼續按照AIC或CV方法,最終確定區域因子的取值。

2 算法流程

圖3為RGWR模型的算法流程。整體上RGWR估算分為兩部分:一是參數調優,即計算最優帶寬和區域影響因子;二是參數估計,即估算回歸系數、擬合值和模型評價指標。為了方便對區域影響因子的有效性進行比較,對采用特殊情況下的空間權重計算策略的區域地理加權回歸記為RGWR-S,其他情況下的區域地理加權回歸記為RGWR。

圖3 RGWR模型算法流程

數據包括自變量、因變量、空間位置變量、備選帶寬和區域影響因子。步驟流程如下:

(1)初始化數據。設置帶寬取值范圍,針對每個帶寬建立GWR模型,對每個觀測點構建空間核函數和空間權重矩陣,計算本組帶寬對應模型的AIC或CV值,循環上述過程,選擇最小AIC或CV值對應模型的參數,即為最優帶寬。

(2)設置區域影響因子取值范圍,針對每個區域影響因子采用最優帶寬建立RGWR-S模型,構建特殊情況下的區域地理加權空間核函數和空間權重矩陣,計算本組區域影響因子對應模型的AIC或CV值,循環上述過程,選擇最小AIC或CV值對應模型的參數,即為最優區域影響因子。

(3)利用最優帶寬建立GWR模型,對每個觀測點構建空間核函數和空間權重矩陣,并計算模型回歸系數、擬合值和評價指標。

(4)利用自變量、因變量、空間位置變量、最優帶寬和最優區域影響因子建立RGWR-S模型,對每個觀測點構建區域空間核函數和區域空間權重矩陣,并計算模型回歸系數、擬合值和評價指標。

(5)利用最優帶寬建立RGWR模型,構建空間核函數,在每個點i和點j之間建立受特定因素影響的區域影響因子。對每個觀測點,計算受特定因素影響的地理加權空間權重矩陣,并計算模型回歸系數、擬合值和評價指標。

3 試驗及結果分析

3.1 研究區和數據預處理

以武漢市住宅掛牌銷售價格為特征價格數據,區域劃分以武漢市區級行政區劃為標準,構建特征價格模型,開展試驗分析。收集了武漢城區957個小區作為樣本點,獲取各小區2019年12月住宅平均掛牌價格(元/m2)、容積率、綠化率、物業費(元/m2)和建造時間(以1988年為基準年,每增加一年建造時間加1)等屬性數據,同時采集了武漢市地鐵站、小學、中學等興趣點數據,見表1。

表1 特征價格變量

表2 RGWR和GWR方法性能對比

在建立模型之前,需要對數據進行預處理:首先,計算樣本點到最近不同興趣點的距離,單位均為m;其次,采用疊置分析獲取樣本點與武漢市各區的區劃關系;然后,為了減小量綱和異方差帶來的影響,對連續型變量取對數運算[22];最后,采用多重共線性分析和逐步回歸分析,確定自變量因素[23]。經計算選取容積率、綠化率、物業費、建造時間,以及小區中心點到最近地鐵口、醫院、商場、公園、小學和大學的距離作為自變量,小區住宅平均房價為因變量,分別采用GWR、RGWR和RGWR-S方法建立特征價格模型。采用AIC法確定GWR最優帶寬,其中最優帶寬固定型為12 000,調整型為355。試驗以GWR為對比方法,從區域影響因子有效性、模型性能、擬合效果3個角度進行分析。

3.2 試驗分析

3.2.1 區域影響因子有效性分析

為了觀察區域影響因子對RGWR的影響,令區域影響因子在特殊情況下分別取0,0.05,0.1,…,1,采用基于高斯核函數的RGWR,分別計算基于固定型帶寬和調整型帶寬下各模型的擬合優度(R2)、均方根誤差(root mean squared error, RMSE)和誤差項平方和(sum of squares for error,SSE)。結果顯示,首先,兩種帶寬策略下各模型的R2均大于0.6,說明采用RGWR方法可以建立可靠的特征價格模型,較好地估算武漢城區住宅銷售價格;然后,兩種帶寬策略下,R2隨著區域影響因子的增大而減小,RMSE和SSE隨著影響因子的增大而增大,當r=1時(即GWR),R2最小,RMSE和SSE最大,模型性能最差,當r不等于1時,R2、RMSE和SSE均有提升,證明區域因素存在且影響擬合精度,考慮區域因素影響后,模型精度有所提升;最后,圖4(a)顯示在固定型帶寬策略下,當r=0時,R2最大,RMSE和SSE最小,模型擬合效果最好,圖4(b)顯示在調整型帶寬策略下,當r=0.05時,R2最大,RMSE和SSE最小,模型擬合效果最好。說明區域影響因子越小,武漢城區住宅銷售價格特征模型精度越高?？紤]區域因素后,模型精度均有大幅度提升,說明區域影響因子對于改進地理加權回歸方法有顯著作用。

圖4 RGWR模型精度隨區域影響因子的變化趨勢

3.2.2 模型性能對比

由圖4可知,特殊情況下,在固定型帶寬策略下r=0時,RGWR模型擬合效果最好;在調整型帶寬下r=0.05時,RGWR模型效果最好。表1為RGWR模型、RGWR-S與GWR的相關指標對比情況。RGWR模型在固定型帶寬下,R2為0.766 2,比GWR模型提升了21.83%,調整R2(R2adj)提升了22.23%,MSE提升了37.09%,RMSE提升了20.64%,SSE提升了37.01%。RGWR模型AIC值為-319.122 4,比GWR小11.782 4。RGWR在調整型帶寬下,GWR模型和區劃因子r=0.05時的RGWR-S模型提升效果不如RGWR模型,此時RGWR模型R2為0.680 4,比GWR模型提升了10.58%,R2adj提升了10.75%,MSE提升了16.93%,RMSE提升了8.85%,SSE提升了16.91%。一般地,AIC相差3以上說明兩個模型有顯著差別,AIC值越小,模型擬合精度越高[24]。說明不論是固定型帶寬策略還是調整型帶寬策略,RGWR均能夠比GWR更好地模擬武漢城區住宅銷售價格。

3.2.3 模型擬合效果比較

通過比較RGWR和GWR模型中房價的預測值和實際值,可以直觀地探索模型的擬合效果。在前文中,已能夠說明在本文研究區域,無論是固定型還是調整型帶寬策略,RGWR模型估算效果最好,因此采用RGWR的擬合效果分布與兩種帶寬策略下的GWR模型進行對比。圖5為固定和調整型帶寬策略下RGWR和GWR的擬合效果分布,虛線表示實際值與預測值相同。因此,預測值點分布和真實值點位置越接近虛線,模型的擬合效果越好。

圖5 不同模型擬合散點

在相同的帶寬策略下,RGWR的點分布在虛線附近,顯著高于GWR的點分布,表明RGWR模型的擬合效果比GWR的擬合效果顯著提高。類似的,在固定帶寬策略和自適應帶寬策略之間,可以看到RGWR固定帶寬的點分布高于虛線附近的自適應帶寬。同時,固定帶寬策略下RGWR模型的R2值為0.777 7,比自適應帶寬下的R2值高18.64%。這表明,在本文的數據環境中,固定帶寬策略下RGWR模型的擬合效果優于自適應帶寬策略下的RGWR模型。

4 結語

本文提出了一種區域地理加權回歸方法,通過構建區域空間權重計算策略,在空間核函數計算中引入區域影響因子變量,修正空間核函數,優化空間權重,在探測空間非平穩性的同時探測空間離散異質性。最后以武漢市住房銷售價格為例開展試驗分析,證明了引入區域影響因子的有效性。研究發現,在武漢市住房銷售價格模型中,模型精度隨著區域影響因子的減小而增大,說明區域影響因子對于改進地理加權回歸方法有顯著作用。同時,當采用受教育影響區域影響因子時,模型的擬合效果好于采用固定值的方式,RGWR方法相比傳統的GWR方法R2提升了21.83%,說明RGWR能夠有效解決空間離散異質的區域對武漢市住房銷售價格影響的問題。

本文提出的“區域”并不只是行政區劃,在面對不同的研究問題時,可以根據不同的特征選擇不同的分區方式和分區尺度,如可以按照行政區劃、流域、溫度帶、經濟圈等方式對區域進行分區。后續研究將著力于如何進一步優化算法提高擬合精度,以及將該方法應用于不同分區尺度、不同領域的不同分區方式的適用性和差異性。