?

空間斷點回歸交互效應模型設定方法及其應用

2024-03-26 03:13戚兆坤隋博文
統計與決策 2024年5期
關鍵詞:控制區斷點實驗區

戚兆坤,隋博文,李 紅

(1.北部灣大學a.北部灣海洋發展研究中心;b.經濟管理學院,廣西 欽州 535011;2.廣西大學經濟學院,南寧 530000)

0 引言

斷點回歸方法具有實現隨機分組的決策機制,被認為是在以自然實驗理論為基礎的經濟學因果關系統計推斷中除工具變量法以外效果最佳的方法[1]。

空間斷點回歸是斷點回歸思想向地理空間的推廣,其將地理邊界視為“斷點”,不僅繼承了斷點回歸的主要框架和思路,還拓展了研究內容和方法??臻g斷點回歸研究的實驗場景是,以相鄰地理區域內的個體為研究對象,將相鄰地理區域視為準自然實驗分組,即實驗區和控制區,一般二者間存在明確的地理邊界且接受不同的處理[2]??臻g斷點回歸可充分借助經緯度、大地距離、弦距離等地理信息實現因果關系推斷,因此可獲得更可信的結論[3]。

根據空間斷點回歸的實驗場景,這類研究存在一個潛在問題。根據地理學第一定律,由于實驗區和控制區在地理上相鄰,邊界附近不同實驗分組的個體間存在互動關系或聯系,這種空間關聯會對因果關系推斷造成影響。梳理已有研究可以發現,在微觀層面上,這種空間關聯被視為對隨機實驗的一種干擾,被稱為干擾效應[4]。國外相關研究基本集中于微觀領域,Sobel(2006)[5]利用空間干擾效應模型研究了住房流動性的鄰居效應;Verbitsky-Savitz 和Raudenbush(2012)[6]利用空間干擾效應模型研究了警務項目對犯罪率的影響;Keele 和Titiunik(2018)[4]使用存在干擾效應的地理自然實驗方法研究了全郵件投票方式對總統選舉中公民參與率的影響。在宏觀層面上,這種空間關聯被視為由經濟活動引起的空間互動關系,一般將其稱為交互效應(interactive effects)[7],鮮有文獻從自然實驗的角度討論這種空間關聯。國內空間斷點回歸應用研究大多集中于宏觀領域:黃新飛等(2014)[8]研究了省際價格差異;李楠和林友宏(2016)[9]研究了清代西南地區“改土歸流”政策對經濟發展的影響;李衛兵和張凱霞(2019)[10]及其系列研究分析了空氣污染對企業生產率、人口遷移等的影響。

研究表明,當存在交互效應時,使用普通空間斷點回歸模型估計的處理效應是有偏和不一致的。國內相關研究基本忽視了交互效應的存在,更缺乏對交互效應模型化方法或思想的系統性討論。國外相關研究主要集中于微觀領域,普遍通過假設個體的潛在結果受到其他個體處理水平的影響來模型化交互效應,方法單一。若要將其推廣至宏觀領域,則必須突破以下局限。第一,引起交互效應的變量不能僅假設為其他個體的處理水平,應結合經濟理論進一步發掘其他可能或更深層次的動因;第二,應充分考慮宏觀經濟變量間的空間相關性,這是自然實驗方法向地理空間推廣帶來的普遍問題;第三,應充分利用地理信息對交互效應進行界定,特別是空間距離、經緯度信息等。

本文基于Rubin的潛在結果模型方法,提出模型化交互效應的更一般化方法,并將其應用于對重慶市升級為直轄市的經濟效應的統計推斷中。在戚兆坤等(2023)[2]提出的空間斷點回歸基本分析框架的基礎上,本文主要圍繞以下問題展開:首先,模型化交互效應的主要思想是什么,如何將這種思想具體化、可操作化?其次,如何實現對交互效應模型的有效統計推斷,核心參數如何定義,主要可識別假設有哪些?最后,交互效應模型與普通空間斷點回歸模型有何區別,統計推斷結論有何新意與變化?

1 空間斷點回歸交互效應模型設定方法

令Yi表示個體i的潛在結果變量;ti是處理變量,取值為0或1,代表兩種不同的處理水平;di表示所有影響個體i潛在結果的變量構成的向量,一般包括ti和協變量Xi,不妨設向量di的第一個元素為ti,即di1=ti;代表所有個體的di按照一定順序排列在一起構成的矩陣。假設個體i的潛在結果不僅受到自身處理水平和協變量的影響,還受到其他個體處理水平和協變量的影響(交互效應),則任何個體i的潛在結果都可以表示為D的函數,即:Yi=Yi(D)。

1.1 不含交互效應的相關假設①更多相關假設及模型設定方法請參考文獻[2]。

假設1:無交互效應假設。

所研究地理空間中任何個體i,其潛在結果只取決于自身的處理水平,不依賴于其他變量或其他個體。當且僅當di1=d′i1時,Yi(D)=Yi(D′)成立。

若該假設滿足,則說明不存在交互效應,Yi(D)可簡寫為Yi(ti)。此假設并不足以保證實驗是隨機分組或條件隨機分組的?,F實中實驗分組和潛在結果可能受到協變量X取值的影響,且在地理空間上應用隨機實驗,考慮到個體間可比性的問題,需要明確所考察的地理范圍。因此,需要條件隨機分組的相關假設。

假設2:條件均值獨立假設。

令hi表示個體i到邊界的距離,存在實數H>0,當hi≤H和以X為條件時,潛在結果條件均值獨立于地理處理分組,即:(E(Yi(0),E(Yi(1))⊥ti|Xi。

假設2 說明在邊界附近一個窄的帶狀區域內滿足潛在結果條件均值獨立于處理分組。此時,個體i的處理效應參數記為:

參與者的平均處理效應ATT可識別,可定義為:

第二個等號成立是依據τi(Xi)的定義,第三個等號成立是依據條件期望的線性性質,第四個等號成立是依據條件均值獨立假設。此時回歸方程可設計為:Yi=X′i β+τ·ti+μi,其中,τ為處理效應參數。

1.2 交互效應模型化思想

存在交互效應說明個體i的潛在結果受到其他個體處理水平或協變量的影響。主要考慮兩種情形:一是根據地理學第一定律,個體距離邊界越近,越容易受到交互效應的影響,可假設在邊界附近較小的鄰域內所有個體都受到交互效應影響,鄰域之外的個體沒有受到交互效應影響,并稱之為系統交互效應。二是依據空間相關性思想,某個體協變量取值越大,越容易對距離其一定范圍內的其他實驗分組中的個體產生交互效應影響,并稱之為基于某協變量的局部交互效應。本文先從簡單情形出發,假設交互效應是單向的②大部分微觀應用中僅假設交互效應是單向的。,即控制區個體可能受到實驗區個體的交互效應影響;再假設交互效應是雙向的,即實驗區和控制區個體均受到交互效應影響。

1.3 單向系統交互效應模型設定方法

其中,fi是處理水平和距離的二元函數,表示個體i是否受到交互效應影響;I(·)是示性函數,括號內條件滿足時取值為1,否則為0;si表示個體i到邊界的距離。若個體i處在控制區(即ti=0)且si小于某常數距離s,則認為其受到了實驗區個體的交互效應影響,此時fi的取值為1,否則為0。

此種設定下每個個體都有三種可能的潛在結果。假設潛在結果為處理水平和fi的函數,表示為Yi(ti,fi)。此時,Yi(1,0)表示個體i在處理水平為1 且沒有受到交互效應影響時的潛在結果,Yi(0,0)表示個體i在處理水平為0且沒有受到交互效應影響時的潛在結果,Yi(0,1)表示個體i在處理水平為0且受到交互效應影響時的潛在結果。為方便表述,將所有受到交互效應影響的控制區個體組成的集合稱為交互控制區,將所有未受到交互效應影響的控制區個體組成的集合稱為真實控制區;實驗區稱謂不變。

假設3:復合條件均值獨立假設一。

式(4)意味著實驗區和真實控制區是條件隨機分組的,保證了處理效應可識別;式(5)意味著交互控制區和真實控制區是條件隨機分組的,保證了交互效應可識別。此時,ATT可定義為:

參與者的平均交互效應AIT可定義為:

回歸方程設計為:Yi=X′i β+τ·ti+ωfi+μi。合理估計參數的關鍵在于恰當確定交互控制區范圍,即距離s的大小。本文的解決思路是:假設在某固定控制區內考察s,由于s的每個取值都唯一確定一個交互控制區,也唯一對應一個樣本回歸方程、處理效應估計值和交互效應估計值,因此令s從小到大連續變動,并分別估計回歸方程,根據AIC信息準則選擇擬合程度最高的樣本回歸方程,同時也確定了s的最優取值。

1.4 單向局部交互效應模型設定方法

單向局部交互效應模型設定的關鍵在于交互控制區的確定。解決思路是:首先,選擇可能引起交互效應的協變量,一般這種協變量會影響潛在結果且存在空間相關性;其次,按照協變量取值大小對實驗區所有個體進行排序,確定能夠產生交互效應的協變量取值最大的前m個樣本點,離這些樣本點越近,越容易受到交互效應影響;最后,確定某個效應點能夠產生交互效應影響的最大范圍s,即若控制區個體離這m個效應點的最小距離小于s,則認為其受到交互效應影響。通過上述方法確定的受到交互效應影響的樣本點構成的集合就是交互控制區。為方便表述,將前m個實驗區的樣本點稱為效應點,將交互控制區中的樣本點稱為交互點。上述確定交互控制區的邏輯規則可表示為:

其中,fij表示控制區的第i個樣本點是否受到實驗區第j個樣本點交互效應影響的函數,sij表示第i個樣本點與第j個樣本點的距離,s為某效應點能夠產生交互效應的最大范圍,o(xj)表示實驗區樣本點j按協變量取值大小排序后的位次,m是根據AIC信息準則確定的最優效應點數量。當同時滿足三個示性函數括號內的條件時,即認為控制區個體i受到了實驗區個體j的交互效應影響。能夠識別處理效應和交互效應的主要假設及ATT的定義方法等均與單向系統交互效應模型一致。

1.5 雙向系統交互效應模型設定方法

雙向系統交互效應模型化的關鍵在于確定交互實驗區和交互控制區,前者表示實驗區中受到控制區交互效應影響的所有個體組成的集合,后者表示控制區中受到實驗區交互效應影響的所有個體組成的集合。實驗區個體i和控制區個體j是否受到交互效應影響的確定規則如下:

當fci取值為1時,表示個體i屬于控制區且受到交互效應影響,即處在交互控制區;否則處在其他地區。當ftj取值為1 時,表示個體j處在交互實驗區;否則處在其他地區。

假設4:復合條件均值獨立假設二。

當假設4 成立時,處理效應和雙向交互效應才可識別。式(10)說明潛在結果條件均值獨立于真實實驗區和真實控制區的處理分組;式(11)、式(12)可類似理解。ATT和交互效應參數可分別定義(推導過程略)為:

回歸模型設定為:Yi=X′i β+τti+ωc·fci+ωt·fti+μi,其中,τ代表ATT參數,ωc代表實驗區對控制區的交互效應參數,ωt代表控制區對實驗區的交互效應參數。

1.6 雙向局部交互效應模型設定方法

雙向局部交互效應模型與局部單向交互效應模型基于相同理論,其確定交互實驗區和交互控制區的方案與單向局部交互效應模型的確定方案一致。ATT 的定義方法以及回歸方程的設計方法與雙向系統交互效應模型一致。

1.7 忽略交互效應的偏差

當忽略交互效應時,ATT可定義為:E[Yi(1)-Yi(0)|Xi,ti=1]。令p為交互控制區樣本量占控制區總樣本量的比重,根據式(6),當存在單向交互效應卻被忽略時,導致的ATT估計偏差(推導過程略)為:

p越小,說明受到交互效應影響的個體越少,ATT 估計偏差越小。當交互控制區條件均值大于真實控制區的條件均值時,將低估處理效應;反之,將高估處理效應。估計偏差不會隨樣本量的增加而消失,即忽略交互效應的估計量是不一致的。

令pt和pc分別表示實驗區和控制區受到交互效應影響的樣本量所占的比重,根據式(13),忽略雙向交互效應導致的ATT估計偏差為:

式(17)表示實驗區個體受到的總交互效應與控制區個體受到的總交互效應的差值,二者差值越大,ATT 估計偏差越大;反之,則ATT估計偏差越小。

2 空間斷點回歸交互效應模型的應用

1997 年重慶市升級為直轄市,將此事件視作準自然實驗,將重慶市視作實驗區,將四川省視作控制區,二者相鄰,符合空間斷點回歸方法應用的實驗場景[11]。本文使用包含交互效應的空間斷點回歸模型對重慶市升級為直轄市的經濟效應進行實驗設計、統計推斷和評價。

2.1 數據來源和平衡性檢驗

2.1.1 數據來源

相關數據來源于期刊《Journal of Public Economics》官方網站①原始數據來源于網址:https://www.sciencedirect.com/science/article/abs/pii/S0047272720302164?via%3Dihub。更多數據與變量相關信息請查閱文獻[11]。。數據集包含四川省和重慶市共5088 個鄉鎮級別的數據,主要變量有各鄉鎮衛星燈光密度(1996 年和2013 年)、經緯度、平均海拔、平均坡度,以及2013 年各鄉鎮工業產出、第二產業就業人數、人均國道里程等。少數民族比例來自2000年人口普查數據??紤]到個體間的可比性以及交互效應討論的充分性,本文將研究范圍限制在邊界兩側80千米內。

2.1.2 平衡性檢驗

圖1 中的平衡性檢驗結果②從主要經濟指標看,在邊界50千米內,城市化水平、人均GDP、人均工業產出等均無顯著差異[11]。表明,從基本稟賦看,坡度、少數民族比例、平均海拔等在邊界70千米內無顯著差異;1996 年平均燈光密度在邊界80 千米內沒有顯著差異。從鄉鎮間1996 年燈光密度差異看,重慶市鄉鎮間發展差異遠大于四川省。這具有重要啟示:首先,實驗區和控制區個體間差異過大,說明二者的研究個體可能不是來自同一分布的抽樣,雖然滿足條件均值獨立假設時可得到平均處理效應的一致估計,但當考察局部處理效應時,會得到不一致的估計,比如使用弦距離或局部交互效應模型;其次,這說明下文加入控制變量的重要性,比如在回歸模型中加入經緯度多項式以控制鄉鎮間的異質性;最后,差異的不平衡可能意味著燈光密度存在空間自相關性,這是存在交互效應的表現之一。綜上,可認為在邊界25~50千米范圍內,重慶市和四川省鄉鎮具有比較好的可比性。

圖1 平衡性檢驗(變量標準化后,5%的顯著性水平)

2.2 單向系統交互效應

捕捉單向系統交互效應的方案設計如下。首先,界定實驗區范圍。為保障討論的充分性,界定多個實驗區可能涉及的范圍,在70千米以內,每隔10千米即嘗試將其設置為實驗區。其次,確定控制區考察范圍。使用兩種方案:假設實驗區范圍為h千米,方案一是將控制區設定為2h千米,方案二是將控制區設定為h千米③方案一會使得不同實驗分組間樣本量差異過大,故同時考慮方案二。由于考察了多種范圍,因此該設定不影響最終結論。。最后,確定交互控制區的范圍,即最優距離s。令s連續變化(從2千米開始,每次增加1千米)至允許的最大距離(略小于控制區的范圍即可),并逐個進行參數估計,使用AIC信息準則確定最優距離s。普通空間斷點回歸模型和單向系統交互效應模型的回歸方程④根據戚兆坤等(2023)[2]的研究,當潛在結果為宏觀變量時,回歸模型多使用經緯度;當潛在結果為微觀變量時,回歸模型多使用空間距離。分別設計如下:

其中,ln 2013-1996i表示鄉鎮i2013年和1996年燈光密度取對數后的差分,描述了這期間燈光密度的增長率;Chongqingi代表重慶市指示變量,鄉鎮i位于重慶市時取值為1,否則為0;τ是處理效應參數;ω是交互效應參數;interc代表交互控制區指示變量;f1和f2表示潛在結果關于經緯度的函數,本文使用二次多項式函數。

由表1可知:首先,在單向系統交互效應模型下,處理效應估計值均顯著為正,在20 千米以外顯著大于普通空間斷點回歸模型的估計值,且t檢驗的顯著性更強;其次,在20 千米以外,交互效應估計值均顯著為正;最后,當在控制區60~160 千米內考察確定交互控制區時,發現最優距離s 都介于47~50 千米,說明在單向系統交互效應模型設計方案下,交互控制區的最優范圍在48千米左右。

表1 普通空間斷點回歸模型與單向系統交互效應模型(方案一)

由表2可知:首先,在交互效應模型下,處理效應估計值在40千米及以內小于普通空間斷點回歸模型的估計值,且顯著性不穩定,在40千米以外處理效應估計值顯著為正且大于普通空間斷點回歸模型的估計值;其次,交互效應估計值在40 千米及以內出現負值,但在50 千米以外顯著為正;最后,當將控制區限制在30千米內時,最優交互控制區范圍在8千米左右;當將控制區限制在50千米內時,最優交互控制區范圍介于47~48千米。

綜合上述討論,在單向系統交互效應模型設定下,最優交互控制區范圍在邊界48 千米左右,此時四川省的鄉鎮顯著受到重慶市鄉鎮的系統交互效應影響,且處理效應估計值顯著大于普通空間斷點回歸模型的估計值。

2.3 單向局部交互效應模型

捕捉單向局部交互效應的方案設計如下。首先,將實驗區和控制區設定為相同的距離范圍。其次,交互控制區的確定面臨兩個關鍵問題:一是實驗區信息內最優效應點數量m的確定,可令m連續變化并根據AIC 信息準則選擇最優值;二是距離s的確定,若假設s為固定距離s0,則不能進行充分討論,因此假設s隨實驗區考察范圍的擴大而擴大。假設要考察的實驗區范圍是s1,若選擇s=s1,則會導致實驗區中到邊界距離接近s1的效應點不可能產生交互效應;若選擇s=2s1,則當s1過大,比如為70千米時,一個效應點的影響范圍就達到140千米,也不太合理。因此本文選擇s=1.5s1①由于考察了實驗區的多種可能范圍,因此此種設定可保證對交互效應的充分討論,且不會影響最終結論。,即當控制區樣本點到實驗區效應點的最小距離小于1.5s1時,可認為其受到了該效應點的交互效應影響。依據交互效應產生的原因,主要選取2013年工業產出、2013年燈光密度、2013年第二產業就業人數、2008 年企業規模和企業產出、2013 年國道里程、1996—2013 年衛星燈光密度增長率和注冊企業數量增長率等為引起交互效應的主要協變量。單向局部交互效應模型的回歸方程設計如下:

回歸方程中并不包含經緯度,原因是真實控制區、交互控制區的地理形狀并不規則(由幾個點的附近區域組成),甚至不聯通,二者鄉鎮的經緯度取值相同或相近的可能性不大,為避免過度模型化引起更大偏差,局部交互效應模型均不控制經緯度。

假設工業發展的集聚特性是引起交互效應的主要原因,以2013 年各鄉鎮的工業產出作為引起交互效應的協變量進行單向局部交互效應分析,結果見表3。

表3 基于工業產出的單向局部交互效應模型

由表3可知:首先,在單向局部交互效應模型下,處理效應估計值均顯著為正,t 檢驗顯著性更強,在60 千米內均大于普通空間斷點回歸模型的估計值,在20、30、50 千米內更是顯著大于的;其次,交互效應估計值均顯著為正;最后,交互點數量占控制區中樣本量的比重呈增長趨勢,最高達到72.9%。

假設某地區經濟的迅速發展對周圍地區的帶動效應或示范效應是引起交互效應的主要原因,并將其稱為增長效應。使用各鄉鎮1996—2013年衛星燈光密度增長率作為引起交互效應的協變量進行局部交互效應分析。研究發現,在邊界50千米內,處理效應估計值出現負值但大多不顯著,交互效應估計值顯著為負,在60~70千米內,交互效應和處理效應估計值均顯著為正。說明在小范圍內增長效應并不顯著,這與Jia等(2021)[11]的研究結論一致,即發達城市周圍鄉鎮的發展程度并不顯著高于其他地區鄉鎮。

根據局部交互效應模型設計方案進一步考察其他8個主要變量作為引起交互效應的協變量時的結果,發現處理效應大多顯著為正,但交互效應估計值大小和顯著性并不穩健,說明這些變量沒有產生重要且穩定的空間交互效應。

2.4 雙向交互效應

2.4.1 雙向系統交互效應

捕捉雙向系統交互效應的關鍵在于確定交互實驗區和交互控制區范圍。與單向系統交互效應模型設計原理相同,均使用AIC信息準則確定最優范圍?;貧w方程設計如下:

由表4可知:首先,在雙向系統交互效應模型下,處理效應估計值顯著為正,在50~60千米內顯著大于普通空間斷點回歸模型的估計值,且t檢驗顯著性更強;其次,根據AIC 信息準則確定的交互控制區最優范圍與單向系統交互效應模型基本一致,在48 千米以內;最后,交互實驗區的最優范圍為10 千米,但交互效應估計值均為負,說明在邊界附近,四川省對重慶市幾乎沒有系統交互效應影響。

表4 雙向系統交互效應

2.4.2 雙向局部交互效應

捕捉雙向局部交互效應的原理與單向局部交互效應相同。下頁表5 的結果表明:首先,處理效應估計值均顯著為正,與普通空間斷點回歸模型相比,在30~60千米內,處理效應估計值有所降低,但并不顯著;其次,根據AIC信息準則確定的最優效應點數量與單向局部交互效應基本相同;最后,重慶市對四川省的交互效應遠大于四川省對重慶市的交互效應,且兩類交互效應基本上均顯著為正,說明工業產出引起的集聚效應是一種比較穩定的空間交互效應。

表5 基于工業產出的雙向局部交互效應

3 結束語

本文提出的交互效應模型為模型化交互效應或處理空間相關性問題提供了可參考的研究范式,將空間斷點回歸交互效應模型的應用推廣至宏觀領域,并進一步討論了兩種交互效應模型的設定方法。嚴格來說,系統交互效應模型過于粗略,不能充分發掘產生交互效應的具體機制,但簡單可行,在一定程度上可改善因忽略交互效應引起的偏誤。局部交互效應模型主要基于協變量的空間相關性來模型化交互效應,它描述了形成交互效應的潛在機制,對空間斷點回歸的理論研究和實證應用具有一定的啟發性。交互效應模型本質上是一種數據變換或數據重排,把地理空間中的個體按照是否具有某種關系重新分組,即對樣本點進行分類,從而有效規避這種關系對因果關系統計推斷的干擾,進而得到更一致的結論。普通空間斷點回歸結果實際上是對整個研究空間的一種平均,可能掩蓋重要的局部空間信息。交互效應模型能更客觀地描述潛在的數據生成過程,更深刻地揭示經濟活動的潛在規律。

猜你喜歡
控制區斷點實驗區
教育部辟謠義務教育教學改革實驗區“取消中考”
平江縣入選教育部學前教育實驗區
基于OMI的船舶排放控制區SO2減排效益分析
一類無限可能問題的解法
管好高速建筑控制區
阿什河流域非點源污染優先控制區識別
主導電回路發生斷點故障判斷方法探討
2016年國家文創實驗區規上文化產業收入近2000億元
足球應用型人才培養模式創新實驗區的探索與實踐——以學生社會實踐為突破口
北美海域新增排放控制區,推動船用燃料和潤滑劑規格變化
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合