?

計算扎根:定量研究的理論生產方法

2023-12-10 16:42陳茁陳云松
社會觀察 2023年10期
關鍵詞:扎根幸福感定量

文/陳茁 陳云松

引言

依托于客觀數據和模型的社會學定量研究對長期根植于邏輯思辨和歷史情境的社會學傳統研究方法形成了極為重要的補充,伴隨著大型社會調查的開展和數據模型的普及,已成為社會學研究的重要范式。定量研究原本只是對數字數據進行分析研究的統稱,但伴隨著范式的固化,特別是定性和定量研究的二元分立,學術界逐漸將量化研究自我限定在以演繹法為邏輯、以理論驗證為目的、以統計推論為手段的單一面向,不覺中忽視了數據和模型對于直接啟發理論的價值、歸納邏輯對于定量研究的應用可能性。

有沒有一種新的邏輯路徑和模型,能讓定量學者不僅能進行“后置”的科學檢驗,也能利用數據資料直接助產理論假說? 隨著大規模社會調查數據的日益豐富和機器學習等方法在社會學中的應用,我們已經發現了這種可能。在本文里,我們將提出一種基于大量數據和機器學習模型的量化理論生產方法:對于既定的Y和大量的解釋變量X,通過監督學習方法對一系列X對于Y的預測能力進行量化分析。利用因果關系和可預測性之間的邏輯關聯,我們可以對具有強大預測力的諸多X 進行挖掘和篩選,從而直接助產理論假說,為Y尋找到潛在的具有理論價值的新X,進而幫助社會學家生成、發展和修正理論。

這一方法雖然是典型的計算社會科學方法,但其邏輯起點和扎根理論的核心原則有異曲同工之妙:打破理論的先入為主,在不做任何理論假說前提的條件下扎根于數據本身,從而打破“演繹—驗證”的邏輯,打通經驗研究到理論研究的生成路徑。因此,我們將其命名為“計算扎根”。

證偽的限度:傳統定量研究的理論生產瓶頸

近四十年來,定量社會學研究的基本模式是基于調查問卷數據,采用多元模型回歸的方法,對解釋變量是否和被解釋變量存在關聯或因果進行統計推斷。彭玉生曾形象地把定量研究比作“洋八股文”,也即國內外主流社會科學刊物,都采用了比較標準化的“模板式”格式,按照問題、文獻、假設、測量、數據、方法、分析、結論八個部分各司其職,環環相扣。盡管相關的環節可以合并或細化,但其基本思路就是對所提出的零假說進行證偽。

但檢驗理論并非科學研究的全部工作。華萊士在《社會學中的科學邏輯》中提出“科學環”概念,指出社會學研究是包括理論建構和理論檢驗的循環往復、螺旋上升、永無止境的過程。很明顯,假設檢驗的定量范式都集中在科學環的右半部分。從理論建構到理論檢驗本是一項科學研究的完整路徑,但伴隨著定量和定性的分野,理論建構似乎成了定性研究的專屬使命,而定量研究日益將理論驗證奉為圭臬。這導致了定量研究在科學發現之旅中的后置化甚至缺席:量化研究使得現有理論更為精致化了,但卻很少產生新的理論建構。

不得不承認,量化學者在實際的研究過程中都曾經得到過數據本身帶來的啟發,只不過很多研究者在從數據中得到新發現后并不會按照真實的研究過程來表述自己的研究,而是通過文獻梳理的方式把自己的發現“裝扮”成已有的理論假設,然后再按照假設檢驗的邏輯來證明它。實際上,正如默頓所說,經驗研究遠遠超出檢驗理論的被動功能,它不僅僅是證實或反駁假設,在塑造理論的發展上至少執行著四個功能:創立、修訂、轉變和澄清理論。

計算扎根:用機器學習助產理論

計算扎根的思路是打通從數據到理論的“逆向”路徑,借助機器學習的預測能力和可解釋的歸因算法,基于因果是可預測性的充分不必要條件這一規律,實現用數據來直接生成關于既定因變量的機制理論。計算扎根的基本步驟可以由以下六個環節組成:

第一步,制定研究問題。根據社會調查問卷數據指標,結合研究興趣和需要來確定研究對象Y。

第二步,準備高維數據。社會調查數據往往是高維的,變量有上百個甚至更多。這些大量的指標,每一個都可能是潛在的Y的因,也即蘊含了扎根結果的可能性。

第三步,開展社會預測。使用監督學習的方法訓練Y的預測模型。只要能達到相對較好的預測效果,不必拘泥于算法是否復雜以及是否可解釋。

第四步,比較預測能力。依賴機器學習模型的可解釋性算法,對預測生成的黑盒模型進行歸因分析,根據X對Y的預測力排序尋找可能的因。其基本思路是:打亂某些特征X是否影響模型預測的準確率,改變特征將如何影響預測結果。

第五步,尋找潛在理論。根據一組按照預測力排序的X,尋找以往研究未曾涉及的社會關聯??梢砸罁撛陉P系模式將它們與既有研究比照,驗證或澄清理論;亦可以對相似的解釋項進行歸類,抽象出概念或歸納理論命題。

第六步,補充交叉驗證。驗證計算扎根結果的穩健性和理論假說的適用性。嘗試使用不同數據、其他機器學習和歸因算法對同一個因變量進行計算扎根,也可以對生成理論推導出的其他假說進行再檢驗,相互驗證完成科學環閉環。

計算扎根的邏輯基礎

作為理論生產方法的計算扎根理論,有著清晰的邏輯基礎。對于計算扎根理論而言,其邏輯前提主要是兩個方面:

1.扎根理論的歸納邏輯。扎根理論主張以逐級歸納的方法從經驗材料中直接創造出理論,再將其與現有理論和研究相比照。避免在研究開始前就有先入為主的觀念或猜想是確?!霸庇行У闹匾瓌t。值得一提的是,創立者格拉澤強調扎根理論是一種普適的方法論,既適用于質性資料,也適用于定量數據,兩者對理論的產生和驗證都是有幫助的。但隨著扎根理論的實際發展,人們發現它似乎還是更適合做質性研究。其原因不難理解:質性資料的深度和可解讀性往往更有利于運用社會學想象力直接提出理論假說,而定量數據作為一種數值指標具有高度簡化的抽象特征,其內在的數理統計關聯難以通過直觀的方式加以發現。

2.因果關系的可預測邏輯。社會現象之間的可預測性和因果機制是兩個不同但又高度關聯的范疇。計算扎根方法的邏輯基礎之一就是充分地運用預測和因果之間的重要關系,也即因果是預測的充分而非必要條件。這意味著,如果一個X可以很好地預測Y,那么X的確可能構成Y的原因。雖然這一關系只是可能而非必然,但其構成因果的概率總比不具備預測性的關聯要高得多。在社會學家逐漸把學科旨趣壓縮到兩兩變量的分析而放棄社會預測的大背景下,以機器學習的預測力來推動理論的生產對于定量研究具有重要意義。

計算扎根的方法基礎

計算扎根允許幾十、上百甚至上千個變量的互動,其通過對算法模型的相關特征值的預測力進行比較,比通過個人思維靈感來發現理論的過程要穩定和可靠得多。其具體的方法實現過程包括社會預測和預測力比較兩個方面。

1.社會預測:運用監督學習的算法模型擬合

著名統計學家布雷曼曾將統計建模方法分為兩種取向:一是數據模型,二是算法模型。數據模型事先假定數據服從某個函數分布f(x),然后對事先假定的f(x)的參數進行擬合估計。當前社會和行為科學中廣泛采用數據模型的思維方式,強調理想化模型中的特定系數是否具有統計顯著性以及影響的方向。但數據模型存在兩個明顯的問題:第一,為擬合特定參數模型,數據必須滿足一定的假定。而現實社會復雜多樣,要求數據滿足嚴格假設未免過于苛刻。第二,結論是關于模型的機制而非關于事實的機制。將簡單的參數模型強加于復雜系統生成的數據之上,會導致準確性和關鍵信息的損失。

另一種取向,算法模型不假定數據的任何分布特征,旨在找到一個函數g(x),通過g(x)可以對Y進行預測。算法模型往往采用非線性、非參數方法,通過一個或多個超參數來調整模型的復雜性。其對數據復雜性的尊重使得被分析的數據可以服從任意分布,而不需要滿足任何假設條件。我們認為,這種解放將至少從兩個方面提高生產理論的能力。第一,滿足真實社會過程中的非線性數據關系。大部分機器學習擬合過程不需要滿足既有的函數設定,而是以追求預測準確性為最高宗旨。第二,滿足真實社會過程中的高維復雜數據關系。通過在單個學習模型中同時考慮數千個不同的因素和各種復雜的交互作用模式,納入更多潛在的“因”,發現新的解釋維度的可能性也就更大。

2.預測力比較:解決黑箱模型可解釋性的歸因算法

盡管機器學習打破了以往統計模型的種種預設限制,帶來了數據生產力的解放,更好地模擬了事物的真實狀態,但它最廣為詬病的問題則在于其“黑箱過程”導致無法解釋。但較新的機器學習文獻中越來越多的證據表明,預測準確性和可解釋性之間的矛盾并沒有想象的那么嚴重。隨著對復雜模型可解釋性的迫切需求,越來越多“拆解黑箱”的方法得以發明且獲得了成熟應用,如基于聯盟博弈理論分配變量貢獻的SHAP方法;通過比較置換某列特征前后模型預測誤差的變化來衡量該特征的重要程度的置換特征重要性方法;通過對一個特征反復修改,建構出本不存在的事實狀態并再次預測,比較前后預測結果差異的部分依賴圖方法;等等。這些方法的創立和成熟為重新平衡預測的準確性與可理解性提供了可能,為計算扎根奠定了堅實的方法基礎。

計算扎根的實操和標準:理論生產示例

我們以“主觀幸福感”為例展示計算扎根如何助力于幸福感理論的啟發和澄清。本案例使用的數據為中國綜合社會調查(CGSS)2017年數據,本研究的被預測變量為“總的來說,您覺得生活是否幸?!?,預測變量為問卷中除被預測變量以外的其他所有變量。

分析結果顯示,問卷的所有變量中,對幸福感預測最大的特征是公平感,SHAP值約為1.4,其次是健康程度。為便于歸納,我們按照變量含義的相似性將幸福感最主要的影響維度歸納為五個方面。(1)主觀認知:公平感、信任感;(2)主客觀地位:自我階層定位、10 年后自我階層預期、當地家庭階層定位、自評社會經濟地位、住房面積;(3)人口學和健康因素:健康程度、出生年、健康影響;(4)婚姻家庭:配偶同住、配偶工作小時、配偶年收入、夫妻應分擔家務;(5)生活方式:休息放松、看電視、聽音樂、每周工作時間。理論上我們可以針對所有范疇進行層層歸納,抽象出更高層次的概念和關于幸福感的總體理論模型;也可以針對以往研究未曾關注的某一變量或某一具體維度作更深層次的挖掘和比較,探尋共同因素和共變規律,歸納出微觀層面的理論假說。

根據分析計算扎根結果我們發現,“配偶每周工作小時”這一變量排在預測的第9位,但既往研究卻沒有充分關注。我們將兩者的關系表述為一個新的經驗命題:配偶工作時間會影響另一半的主觀幸福感。由于命題還沒有在現象和本質之間建立起一種基于因果的理性認識,我們可以進一步通過虛假相關的排除和因果關系的確立、相關范疇的歸納與概念提煉、與既有理論的對話和邏輯推導、總結理論命題并使用其他數據方法進行再驗證等步驟相互補充,以填補命題到理論的鴻溝,并增加理論的科學性。

除了新理論命題的發現,計算扎根還可以通過探究復雜關系的多元模式來實現理論的精細化發展。例如,計算扎根的結果顯示,自我階層認知與幸福感的關系呈“梯”狀分布,也即存在關鍵轉折點;收入與幸福感的關系呈“廠”字形分布,也即服從邊際效益遞減;年齡與幸福感的關系呈“谷”狀分布,即中年人幸福感低,青年人和老年人幸福感高;家人交流時間與幸福感的關系呈“峰”狀分布,即家人相處距離需恰到好處。計算扎根可以充分捕捉變量之間的非線性關系,同時可以呈現不同群體或個體的同質異質效應等。

計算扎根方法的多重價值

計算扎根對傳統定量研究的補充是多方面的。在數據層面,模型納入的指標不再僅限于有限的幾個變量,而是盡可能地納入各類指標;在目標層面,不再強調模型系數的統計顯著性,而是重新平衡社會預測的準確性和機制的可解釋性;在觀察視野層面,不再局限于回歸系數大小和方向,而是細致挖掘變量間的非線性關系和群體異質效應。這些革新能夠為計算扎根方法帶來多方面的價值。

(一)理論創生價值:發現潛在模式。只要數據本身足夠豐富,計算扎根就能引導研究者通過發現新的解釋變量啟發新理論假說。通過一次計算扎根,我們就能夠對整個調查數據的上百個指標進行篩選比較。

(二)理論發展價值:捕捉復雜關系。真實社會中數據的兩兩關系遠沒有我們預期得那么整齊劃一。計算扎根方法能充分捕捉變量之間的復雜關系,解放傳統計量模型的線性枷鎖。

(三)學科范式價值:第二種想象力。米爾斯的社會學想象力是基于個人體驗的視角提升的思維,而計算扎根則提供了一種基于數據的以算法模型來直接助產理論的思維能力。

(四)知識體系價值:自主知識生產。有更多的新理論假說可以從大量數據中得到啟發、更細微的機制和關系特征可以被同時發現,進行系統化知識生產。

(五)社會治理價值:尋找干預因素。計算扎根通過立足于社會預測的問題導向,不斷模擬本身不存在的社會現象,能為社會治理找出關鍵干預變量。

猜你喜歡
扎根幸福感定量
顯微定量法鑒別林下山參和園參
奉獻、互助和封禁已轉變我們的“幸福感”
七件事提高中年幸福感
當歸和歐當歸的定性與定量鑒別
讓群眾獲得更多幸福感
10 種中藥制劑中柴胡的定量測定
一輩子扎根在農村
深入生活 扎根人民
深入生活、扎根人民
慢性HBV感染不同狀態下HBsAg定量的臨床意義
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合