離散選擇實驗潛類別logit模型在衛生服務領域的應用與Stata軟件的實現*

2023-10-18 14:03張春麗邱佳玲劉仲琦古羽舟魯永恒鄧瑜郝春郝元濤

中國衛生統計 2023年4期

張春麗邱佳玲陳莎劉仲琦古羽舟魯永恒鄧瑜,6 郝春,6△ 郝元濤,6

【提要】目的簡要介紹離散選擇實驗的設計步驟和潛類別分析模型的基本原理,通過實例演示介紹潛類別logit模型在Stata中的實現過程,為該模型在離散選擇實驗中的實際應用提供方法學的參考。方法基于廣州市艾滋病高危人群選擇HIV自檢試劑偏好的離散選擇實驗數據,通過實例演示潛類別logit分析模型的構建過程,并提供相應的Stata命令。結果最終確立了4個類別模型為最優分類,模型估計結果顯示4個類別模型中類別1(偏好尿液試劑),類別2(偏好更便宜的血液試劑配套說明書講解和自行判讀結果),類別3(偏好更便宜的尿液試劑),類別4(偏好血液試劑配套視頻講解和專業人員判讀結果)的差異具有統計學意義。結論潛類別logit模型用于離散選擇實驗數據的分析具有簡便性與靈活性,但也有其應用的局限性,因此需要進一步結合其他模型來優化分析。

離散選擇實驗(discrete choice experiment,DCE)是一種多因素變量的分析方法,目前已廣泛用于市場研究、運輸經濟學、心理學以及衛生服務利用等領域,以了解個體偏好。而個體對于某一商品或者服務的偏好可分為基于現實場景的顯示性偏好和基于假設場景的聲明偏好,顯示性偏好即在實際生活中對于已經確定屬性特征的商品或者服務的偏好,例如出行時對交通工具的選擇。而在聲明偏好中,商品或者服務的屬性特征組合是假定的,例如某運營商提前設置了假定的套餐A和套餐B來調查客戶對話費的選擇偏好。衡量顯示性偏好常用的為傳統問卷調查,而離散選擇實驗則是衡量聲明偏好的典型方法,其可以提供影響決策者選擇的各種商品或者服務特征相對重要性的定量信息[1]。

對于離散選擇實驗數據的分析,目前常用的有基礎的多項logit模型(multinomial logit model,MNL)、混合logit模型(mixed logit model,MXL)和潛類別logit模型(latent class model,LCL)等。在應用研究中,傳統的多項式logit模型需要遵循無關選擇獨立性(independence of irrelevant alternatives,IIA)假設,即刪除或者添加因變量中的類別不會影響剩余類別的選擇概率,然而在實際情景中,參與者做出的選擇決策之間往往呈現出一定的相關性,會違背IIA假設,因此多項式logit模型已經不適用于現實情況的分析,也無法處理隨機偏好差異[2]。但解釋個體選擇偏好的差異至關重要,即一些人比另一些人會更關心特定的產品屬性[3]。并且了解目標群體對特定商品或者服務的偏好異質性有助于決策者調整和多樣化他們的項目,以更好地匹配目標人群的需求[4],因此選擇其他的logit模型才能使得分析更加精細化?；旌蟣ogit模型和潛類別logit模型則能彌補該方面的不足,但混合logit模型需要事先假定參數的分布形式,從而導致在應用中受到限制。而潛類別logit模型則不需要對參數進行任何假設,其從群體層面解釋異質性,尤其在關于人群細分的研究中成為主流方法[5]。

潛類別模型的基本原理

社會科學領域一些比如智力、人格、社會經濟地位等概念往往不能直接測量,這些變量被稱為潛變量,根據其分布形態可以分為連續型和離散型,當潛變量為連續型時,可根據外顯變量是連續型和離散型分為因素分析和潛特質分析;當潛變量為離散型時,則根據外顯變量是連續型和離散型分為潛剖面分析和潛類別分析。潛類別模型是通過構建潛變量估計外顯指標間的關聯,并對目標人群分類[6],進而解釋研究對象群體的異質性對于外顯指標的影響[7],其假設潛變量X有t(t=1,2,…,T)個類別,A、B、C是三個外顯變量,且其水平數分別為I,J,K,可以表示為:

(1)

潛類別logit模型的原理

潛類別logit模型是基于潛類別模型的理論將人群細分后,結合多項式logit的似然函數進行偏好參數的估計,即基于偏好中未觀察到的或“潛在的”異質性來識別參與者類別[10],考慮了每個對象做出的多種選擇,并根據他們的選擇模式隨機分配其到有限的C類集合中(其中C是類別總數)。在同一類別內[11],參與者被假定偏好相同,而在類別及其亞組間有不同偏好,并且每個類別都有自己特定的偏好參數(效用函數),β=(β1,β2,…,βC)[12]。分析過程主要包括最優模型構建、模型擬合以及參數估計與解釋。

1.最優模型構建

在經驗應用中,通常通過檢驗信息準則(如貝葉斯信息準則(BIC)和一致性Akaike信息準則(CAIC))來選擇最優的潛類別數,BIC=-2lnL+mlnN,CAIC=-2lnL+m(1+lnN),其中lnL是最大樣本對數似然,m是擬合模型參數的總數,N是所研究數據集中的決策者數。BIC和CAIC通過使用隨決策者數量N增加而增加的補償函數,對具有額外參數的模型進行更嚴厲的補償。BIC和CAIC均建立在似然比卡方檢驗基礎之上,可用于比較對參數進行不同限制的模型,兩者均以越小表明適配度越好[13-14]。

2.模型擬合

為了更好地解釋潛類別logit模型,在這里先簡單介紹傳統多項式logit的建模,理論基礎為隨機效用理論,其效用函數Uij可以表示為:

Uij=Vij(β)+εij

(2)

Uij表示個體i選擇備選方案j的效用,其中i=1,…,n;j=1,…,k。Vij(β)是解釋變量的參數線性組合,β是一個參數向量,εij是誤差項,是服從Gumbel分布的隨機變量,則個體i選擇方案j的概率為[15]:

(3)

最大似然法(maximum likelihood,ML)可估算得到方程(2)中的系數,來表示各因素對選擇偏好的影響。

潛類別logit模型也主要采用最大似然法進行參數估計,其迭代過程常用的算法有EM(expectation-maximization)、NR(Newton Rapson)等算法,其中 EM 算法最為常用。潛類別logit模型構建如下:在類別C中,假設決策者n(n=1,2,3,…,N)在每個假設場景T中都面對J個備選。ynjt表示一個二元變量,如果決策者n在假設場景t中選擇備選j,則該變量等于1,否則等于0。在場景t中可供決策者選擇的備選j被具有K個屬性的xnjt所描述。βC為K系數的列向量,可以解釋為xnjt中相應條目的邊際效用。則決策者n的T個選擇的聯合概率Pn為[14,16]:

(4)

3.參數估計與解釋

使用潛類別logit模型對離散選擇實驗數據進行估計,會得出該類人群對所關注商品或服務某一特征屬性的選擇偏好參數β,β=(β1,β2,…,βC),數值為正,表示相對于參照水平,更偏好于選擇當前水平;數值為負,則表示更傾向于選擇參照水平,從而可了解每一類人群的選擇偏好。

實例分析

1.HIV自檢試劑盒的離散選擇實驗

離散選擇實驗的設計步驟主要有[18]:(1)確定商品或者服務的屬性及其水平;(2)構建選擇集及其選項方案,形成DCE問卷;(3)數據收集與整理;(4)統計分析與結果解釋。本研究確定了HIV自檢試劑盒的4個屬性,3個2水平,1個4水平,分別為樣本類型包括血液和尿液,操作說明方式包括說明書和視頻講解,結果判讀方式包括自行判讀和專業人員判讀,價格包括0元、20元、50元和80元。通過部分因子設計創建了8個選擇集(選擇集的創建參考文獻[18]),每個選擇集含有兩個選項方案。表1展示了經過以上設計而產生的一個選擇集及其兩個選項方案試劑盒A和試劑盒B的示例,其他7個選擇集差別在于兩個選項即試劑盒類型的不同,比如下一個選擇集其兩個選項可能為試劑盒C與D。調查在廣州市嶺南伙伴社區HIV檢測咨詢服務點開展,最終收集問卷200份。

表1 離散選擇實驗設計的選擇集示例

2.數據整理格式

傳統的數據即寬型數據,其排列格式為一行數據對應一個樣本,如表2,在第一個樣本中(PID),收入取值為2(5000～10000元),選擇集1的選擇為1(試劑盒A),選擇集2選擇為2(試劑盒D)。同理第二行對應第二個樣本的相應各變量取值。而在離散選擇實驗中,寬型數據無法展示商品或者服務的屬性變量,如HIV檢測試劑盒的樣本類型(血液或者尿液),并且因變量為8個選擇集的選擇結果,在寬型數據中只能橫向排列,在一列中無法進行體現,因此需要整理成長型數據,以本研究為例(文件:DCE樣本數據.dta),整理形式見表3,一個樣本對應多行數據。前兩行則表示PID為1的樣本,在GID為1的選擇集(包含兩個選項1和2)中進行選擇,兩個選項為試劑盒A和試劑盒B,根據表2中兩個試劑盒的配套情況,則可得試劑盒A對應第一行,其血液、說明書與自行判讀幾個變量的值為1,價格變量的值為0元,而第二行對應試劑盒B。在表3倒數第二列也即模型的因變量中,第一行的值是1,第二行是0,說明選擇了試劑盒A,同樣第三、四行對應選擇集2中試劑盒C與D。一個體(PID)會在相同的8個選擇集(GID)中選擇,因此一個樣本會產生8×1×2=16行數據,并且PID為9～16的選擇集的各試劑盒屬性是PID為1～8的重復,不隨個體變化。其中HIV試劑盒屬性中樣本類型(血液和尿液)、操作說明方式(視頻講解和說明書)和結果判讀方式(自行判讀和專業人員判讀),均是無序二分類變量,因此進行了虛擬變量設置(即血液的取值為1,尿液的取值則為0),并將其中一個分類作為參照,模型分析時僅代入非參照類別。價格是連續性變量可直接代入。個體屬性收入會隨PID變化。(附:本研究所用數據與代碼鏈接:https://pan.baidu.com/s/1CycvmsY-wtKVw70o_uptlg,提取碼:zsdx)

表2 傳統寬型數據的形式

表3 離散選擇實驗長型數據排列格式示例

3.潛類別logit模型過程在Stata實現步驟

(1)最優模型的建立

該過程使用Stata的外部命令lclogit來實現,其返回列表中保存了信息標準BIC和CAIC。表4列出了6種分類模型的適配估計指標,Classes為類別數,若Classes為3,表示根據某種潛在特征將研究對象分為3個類別,Classes最小為2,可以看到當分類模型的類別數目越多,BIC與CAIC的值逐漸減少,到Classes為5時又開始上升,在Classes為4時CAIC與BIC均到達最小,分別為1276.306和1254.306。因此考慮可選擇4個類別作為最優分類模型。

表4 Stata輸出模型分類數目及其適配估計指標

確定了最優分類模型后,接下來調用Stata的另一個外部命令lclogit2[16]來估計最優分類模型即4個類別模型中類別1～4(Class 1～4)對應的模型估計系數和類別分布比例。模型估計系數為正,則說明該類別人群對于HIV自檢試劑屬性水平的偏好可能大于其參照;系數為負,則可能更偏向于參照;價格的系數為負,表明可能更傾向于便宜的試劑。以樣本類型為例,Class 1的系數為1.611,說明相對于血液,該類人群可能更加偏向于尿液。價格的系數在4個分類中均為負,說明了Class 1～4都可能更愿意選擇便宜的試劑。同時還可以知道200個參與者在Class 1,Class 2,Class 3和Class 4中的分布比例分別為0.222,0.602,0.124和0.052,詳見表5。與潛類別logit模型每個解釋變量對應每個類別都會有其參數估計值不同的是,多項式logit模型沒有對研究群體進行類別區分,參數估計建立在整個人群上,每個解釋變量只對應一個參數。

表5 4類別模型對HIV檢測試劑各屬性水平偏好的參數估計及類別分布比例

(2)參數估計及解釋

前面初步得出了每一類別各屬性特征的模型估計參數,同包括多項式logit在內的其他logit模型相同,選擇偏好是否具有顯著性差異還需要對值與參數的P置信區間進行估計,可通過Stata中的lclogit2ml命令來進行,結果如表6,可以得出對樣本類型的偏好差異,Class 1(β=1.611,95%CI:1.108～2.113,P<0.001)和Class 3(β=1.830,95%CI:0.336～3.324,P=0.016)更愿意選擇尿液,而Class 2(β=-1.772,95%CI:-2.490～-1.054,P<0.001)和Class 4(β=-5.993,95%CI:-9.190～-2.796,P<0.001)更傾向于血液;對于操作說明方式,Class 2更愿意選擇說明書(β=1.893,95%CI:1.028～2.758,P<0.001),而Class 4則偏向于選擇視頻講解(β=-2.582,95%CI:-4.866～-0.297,P=0.027);而在結果判讀方式上,Class 2更愿意選擇自行判讀(β=-1.404,95%CI:-2.593～-0.214,P=0.021),而Class 4則偏好選擇專業人員判讀(β=2.364,95%CI:0.168～4.561,P=0.035);在價格方面,Class 2(β=-0.046,95%CI:-0.062～-0.030,P<0.001)和Class3(β=-0.044,95%CI:-0.088～-0.001,P=0.045)均更加傾向于便宜的試劑。

表6 HIV自檢試劑各屬性水平偏好的潛類別logit模型估計

而根據表5結果可知Class 1(22.2%)和Class 2(60.2%)人群占比較高,提示了這兩類艾滋病高危人群尿液和血液自檢試劑偏好提供配套的服務特征:Class 1偏好尿液自檢試劑配套視頻講解并由專業人員判讀的服務;Class 2偏好血液自檢試劑配套說明書并由檢測者自行判斷的服務。

討論

基于以上說明和案例,可見潛類別logit模型能夠基于潛在的變量將群體進行分類,并解釋類別間偏好的異質性。按照個體“潛在”特征來進行分類,只假定個體被隱含地分在某個類別中,并且潛類別logit模型沒有對這種潛在異質性的形式做出任何假設,參數的效應在同一類中相同而在不同類之間變化[2],這也使其在實際應用中更加靈活。但是其需要事先假定分類數,分類數目過多會導致模型不收斂,同時由于是在群體層面,故無法分析群體內個體的異質性。而分析偏好異質性的另一個常見模型混合logit模型則是從個體層面進行分析,允許解釋變量的系數是隨機的,但需要通過設定模型系數服從一定的分布,并估計出相應的分布參數[5],而且虛擬變量的設置會導致模型不收斂,該模型的詳細方法可查閱McFadden[19]等的文章?？傮w而言,兩個模型處理隨機偏好的結果雖然比較相近,但多數研究表明潛類別logit模型在擬合性、理論基礎、信息豐富度等方面還是略優于混合logit模型[5]

每個模型都有其自身的優缺點,因此國外有關離散選擇實驗的研究中分析異質性對于選擇偏好的影響常為兩個或多個模型的聯合對比使用或者混合建模,以減少單用一個模型帶來的限制。并且隨著研究的深入,衍生更多復雜的模型如隨機參數潛類別模型,馬爾科夫轉換模型等也會使分析更加優化。本文介紹了潛類別logit模型的基本理論,結合離散選擇實驗演示了該模型的建立與分析以及在Stata 中實現的過程,也為其他領域的相關研究提供借鑒。