疫苗真實世界研究中的統計方法

2023-02-28 12:52戚洋洋

中國食品藥品監管 2023年12期

關鍵詞：卡鉗真實世界組間

戚洋洋

上海市重大傳染病和生物安全研究院

北京康特瑞科統計科技有限責任公司

蔣志偉

北京康特瑞科統計科技有限責任公司

王永吉

北京康特瑞科統計科技有限責任公司

夏結來

西京醫院

汪萱怡*

上海市重大傳染病和生物安全研究院

復旦大學教育部/衛健委醫學分子病毒學重點實驗室

復旦大學生物醫學研究院

復旦大學附屬兒科醫院

隨機對照試驗通過隨機化分組，能夠最大限度地減少有效性估計過程中的偏倚與混雜影響，保證了可靠性。但其有局限性：①試驗人群的高度選擇性，在研究結論外推時面臨挑戰，如新冠病毒疫苗在孕婦人群的使用；②對于發病率低的罕見病等疾病，試驗難以實施。1993年，Kaplan 等[1]在雷米普利治療高血壓病療效的前瞻性研究中首次提出了“真實世界研究（real world study，RWS）”的概念。2016年，美國頒布了《21 世紀治愈法案》（21st Century Cures Act），提出了開展真實世界研究的方法，以及由此產生的真實世界證據（real world evidence，RWE）在藥物開發中的應用。目前，對于真實世界研究定義的共識是指針對預設的臨床問題，采用預設的研究設計，在真實世界環境下按照研究方案系統性收集與研究對象健康有關的原始數據（真實世界數據，real world data，RWD）或基于常規產生的二手數據進行分析，獲得臨床證據（RWE）的研究過程。概括地說，真實世界研究就是基于科學的設計，收集分析RWD，形成RWE 的研究[2]。

真實世界研究的流行病學方法學進展不大，常見的有隊列研究（cohort study）、病例對照研究（case-control study）、家庭續發率研究（secondary attack rates in families）。隊列研究由因及果，基于新發病例，能提供更多關于疾病自然史的信息以及發病率和相對風險的直接估計，能確立暴露與疾病之間的時間關系，可以研究與暴露相關疾病的多種結局[3-4]；但隨訪時間一般相對較長，需要樣本量較大，研究費用高，不適于罕見病研究。病例對照研究需要樣本量較小，研究的關鍵是識別病例，而不是跟蹤大量研究對象，因此經濟、高效。但病例對照研究通常只能分析單一的感染結局；沒有關于病例來源的人群信息，無法確定發病率和流行率；容易產生選擇偏倚、就醫行為偏倚、回憶偏差等，對疫苗保護效果的估計帶來偏差。家庭續發率研究通過估計指示病例家庭中的疾病續發情況，結合疫苗免疫記錄計算疫苗效果[5-6]。家庭續發率研究的優勢在于可以降低研究對象間病原暴露的差異所導致的偏倚[7]。因前期的計劃生育政策，國內家庭多為三口之家，給該類研究帶來不便。

在新冠病毒大流行期間，一些以往不常用的觀察性流行病學方法被運用到新冠病毒疫苗的效果評價中，包括檢測陰性設計、實用性臨床試驗，以及階梯式楔形設計。檢測陰性設計在傳統病例對照設計的基礎上進一步發展，其中對照組人群應符合與病例組相同的臨床病例定義，并通過實驗室檢測結果進行區分，目標病原體檢測陽性者為病例組，檢測陰性者為對照組，同時比較兩組疫苗接種情況，估計疫苗的保護效果[8]。該設計中，病例組和對照組通常來自相同的社區或在同一醫療機構尋求治療，減少了傳統病例對照設計所涉及的不同社區間，由于疫苗獲取和疾病風險的差異，以及就醫行為差異造成的選擇偏倚；可以利用常規監測系統，如嚴重急性呼吸道感染監測，經濟、快速評價流感疫苗或新冠病毒疫苗的保護效果。實用性臨床試驗旨在評價干預措施在真實世界環境日常實踐中的有效性[9]，表現為對研究對象不進行嚴格的納入和排除限制，具有廣泛代表性，包括弱勢人群[10-11]；但保留研究中心層面的隨機化以減少選擇偏倚[12-13]。階梯式楔形設計是指干預措施在若干時間段內按順序隨機給予不同集群，即在初始階段，所有集群都未暴露于干預措施，隨后每隔一段時間，隨機將部分集群從對照組轉移到干預組，最終所有的集群都暴露于干預。該設計多用于評價疫苗免疫的免疫屏障效應。

RWE 源于高質量的RWD和科學的研究設計。但由于缺乏對研究個體的隨機化，真實世界研究統計分析更需密切關注對混雜或偏倚的控制。不同于真實世界研究中的流行病學方法學，對于已知并可測量的混雜，統計學方法學除了配對分析、分層分析、協方差分析以及多因素分析等經典方法外，近些年還發展了一些新的統計方法，例如，對于已知并可測量混雜的傾向評分，以及對于未知或未測量混雜的工具變量。以下對真實世界研究常用統計學方法進行概述。

1 傾向評分

傾向評分作為一種分析觀察性研究的方法，應用十分廣泛，由Rosenbaum 和Rubin 于1983年在反事實理論的基礎上首次提出[14]。該方法在真實世界研究中可用于均衡協變量的組間分布，各組研究對象根據評分相同或相近的原則匹配成對，保證整體各匹配組特征協變量的分布是均衡可比的?？梢哉J為，不同組間存在的混雜因素基線的不均衡性對處理效應估計的影響被抵消了，相當于“類隨機化”或“事后隨機化”，從而控制組間偏倚，使得RWD 達到“接近受試者隨機入組”的效果。

傾向評分模型是由多個協變量共同構建的函數，是指在給定協變量的條件下，每個研究對象被劃分到處理組的條件概率。假設在給定協變量的情況下，第i個研究對象被分入處理組的條件概率表示為：

式中，G代表組別或處理因素，其中G=1 為處理組，G=0 為對照組；X為協變量向量，X=x1，x2，…，xm。當研究對象i所在組別G與協變量X相互獨立時，有P(G1，G2，…，Gn|X)=∏Ni=1e(X)Gi{1-e(X)}1-Gi。其中，e(X)即為傾向評分。

即，假如某個研究對象分配到處理組的傾向評分與另外一名雖然擁有不同基線特征（即不同的協變量取值）且為處理組的研究對象的傾向評分相同，則構建此傾向評分的多個協變量整體上在這兩個研究對象之間是均衡的。

在估計傾向評分后，有4 種研究方法可以使用該評分來控制協變量：傾向評分匹配、傾向評分分層、傾向評分協變量調整和傾向評分逆概率加權，可以提高組間的均衡性，從而減少或者消除協變量對治療效應估計的影響[15]。

1.1 傾向評分匹配

傾向評分匹配應用最為廣泛，可以將多個協變量或者混雜因素納入模型估計每個研究對象的傾向評分。針對處理組每個個體，在對照組中匹配與該研究對象評分相同或最相近的研究對象，最終達到組間協變量整體均衡。下面介紹傾向評分匹配中最常用的匹配方法：最近鄰匹配（nearest neighbor matching）和卡鉗匹配（caliper matching）。

最近鄰匹配是指將兩組研究對象進行隨機排序，從該組第一例研究對象起到最后一例，依次在對照組中選擇與其傾向評分最接近的研究對象匹配，形成具有相似傾向評分的處理組和對照組匹配數據集；而卡鉗匹配較最近鄰匹配需增加一個限制條件，該限制條件為處理組與對照組個體用傾向評分進行匹配時，需要在事先設定的處理組和對照組傾向性得分差值范圍內進行匹配，即匹配的研究對象之間的傾向評分差異最多相差此固定的卡鉗值寬度。因此，設定的卡鉗值大小會直接影響處理組研究對象能匹配到對照組研究對象的數量，較大的卡鉗值意味著在此得分差值范圍內，能夠匹配到較多較相似的研究對象，匹配后的數據集樣本量就越大，但相應地會降低組間協變量的均衡性；而較小的卡鉗值意味著傾向評分更接近，能夠匹配到更相似的研究對象，能夠增加組間協變量的均衡性，但匹配成功的概率降低，最終導致匹配后數據集的樣本量較小，甚至會出現處理組研究對象無法匹配到對照組研究對象的可能。Cochran 等[16]研究指出，卡鉗值使用兩組傾向評分logit 的合并標準差的60%可以消除由于測量的混雜因素所引起的86%～91%的偏倚，取傾向評分logit 的合并標準差的20% 至少消除98%～99%的偏倚。Austin[17]使用蒙特卡洛模擬來檢驗傾向評分匹配的卡鉗寬度與風險差異及均值差異估計間的關系，在應用中推薦使用20%的卡鉗值，或者取兩組間傾向性得分絕對差值為0.02 或0.03 等。根據近些年的研究成果，傾向評分經過logit變換后標準差的百分比較固定值更加適宜。也有研究者對三分組研究中傾向評分匹配的卡鉗值寬度進行研究，模擬結果同樣顯示，卡鉗值取傾向評分經過logit 變換后標準差的20%是比較合適的差值范圍[18]。

1.2 傾向評分分層

傾向評分分層是另一種常用的方法，用于調整研究中處理組和對照組間的系統差異，是將每個研究對象的傾向評分作為分層的標準，通過模型估計傾向評分后，確定傾向評分界值的范圍并劃分區間，將劃分好的區間作為分層因素進行分析。此時，同一分層內的基線協變量的組間分布應是均衡可比的。當各分層樣本量充足時，可以對每個分層進行單獨的分析，也可以對每個分層的處理效應進行權重賦值，再使用加權平均的方法估計處理效應。使用傾向評分分層進行分析的關鍵是合理的設定分層和權重，比較分層內傾向評分組間是否均衡是檢驗設定層數是否合理的方法。

1.3 傾向評分協變量調整

傾向評分協變量調整方法是將多個基線協變量納入模型后計算的傾向評分作為最終的協變量引入模型中，將結局變量作為因變量、組別變量或者暴露因素作為自變量、由多個協變量擬合的傾向評分作為回歸模型中的協變量進行建模，估計處理效應。有研究者認為，在此傾向評分作為協變量納入模型的基礎上，還需要納入構建該傾向評分的基線協變量或者與結局或者處理效應相關的協變量[19]。協變量調整的方法納入所有的研究對象進行分析，最大限度地保留了所有的原始數據信息，但兩組之間的協變量可能不具有可比性，不能像傾向評分匹配或傾向評分分層一樣控制研究中存在的偏倚，增加無效估計的可能性；但傾向評分校正是基于模型的分析，因此并不鼓勵使用該方法。

1.4 傾向評分逆概率加權

傾向評分逆概率加權可以調整觀察性研究中的混雜因素對結局造成的影響，通過估計每個研究對象的傾向評分，以此為基礎賦值權重，然后對每個個體進行逆概率加權，估計處理效應。該方法基于一個以所有研究對象為基礎的虛擬人群（合成樣本）。在該樣本中，觀察對象的暴露分組與可測量的基線協變量相互獨立，即組間可測量的協變量具有近似的分布。有研究者在應用時提出了不同的權重配置方法。一種最常用的方法是逆概率加權，觀察單位的權重定義為觀察單位實際接受處理組概率的倒數[18]。另一種方法是修飾逆概率加權，該方法會定義一個臨界值，臨界值通常根據權重分布的百分數來定義，如處理組權重分布的1%分位數，對照組權重分布的99%分位數。權重超過臨界值的觀察單位會被排除出估計處理效應的數據集，或將權重統一修飾為臨界值[20-22]。

傾向評分主要分為以下步驟[23]：①根據專業意義判斷，以組別變量為因變量，已知可測量的協變量作為自變量構建logistic 或probit 模型。②以現有的RWD擬合模型，估計參數。③估計每個研究對象的傾向評分，范圍在0～1 之間。④根據估計的傾向評分，通過傾向評分匹配或傾向評分分層等方法使納入模型的基線協變量在各組間的分布達到均衡。⑤選擇合適的統計方法評價使用傾向評分方法后基線協變量在組間分布的均衡性。⑥采用傳統分析步驟對校正均衡后的RWD 進行分析，估計處理效應。

2 工具變量

在經典回歸模型中，最小二乘法成立的重要前提是解釋變量（自變量）與模型誤差項不相關。如果自變量與結局變量之間未測量的混雜以及逆向因果關聯會使解釋變量與模型的誤差項相關，與經典回歸模型的假設不一致，則效應估計量會出現偏倚。上述傾向評分、基于回歸模型調整協變量的方法只能控制已知測量的混雜因素，不能控制未知或無法測量的混雜。工具變量由Wright于1928年首次提出，尤其適用于控制未知或無法準確測量的混雜因素，使用該方法能夠有效控制未觀測到的混雜，從而進行自變量與結局變量的因果推斷，但不能有效地調整混雜因素或協變量[24]。其因果圖模型如圖1 所示。

圖1 工具變量的因果圖模型

其中IV表示工具變量，X為暴露（處理因素），Y為結局，U表示X與Y之間的混雜集合，包括所有的可以測量的混雜因素和未知或不可測量的混雜因素。若某變量與暴露因素X相關，只能通過影響處理因素來影響結局變量，與暴露和結局的混雜因素不相關，則該變量可視作工具變量。

工具變量的統計學原理如下式所示，在傳統最小二乘法統計模型的兩側加工具變量Z，同時取協方差。

即σYZ=β1σXZ+σεZ，等式兩側除以X與Z的協方差σXZ，則，如σεZ=0，則。只要設法找到滿足條件的一個工具變量Z，即可得到X相對Y的無偏估計的效應量β1。因此，利用工具變量可排除解釋變量中與誤差項相關的部分，從而得到無偏倚的因果效應估計[25]。

工具變量的方法相當于在非試驗環境中模擬了一個隨機試驗，經過隨機后，組間可比性是可預期的，與實際暴露相關，可以直接推斷暴露于結局的關系，使混雜因素在組間均衡可比，即能夠很好地解釋暴露因素對研究結局的影響。

3 結語

相比傳統的隨機對照試驗（randomized controlled trial，RCT），真實世界研究的研究對象納入排除標準更為寬松，因而更具人群代表性；干預措施更加靈活，總體上更加貼近實際情況，可以彌補RCT 數據證據的不足，使研究結果適于外推，提高了外部有效性。同時，研究中也會存在較多的混雜偏倚，因此尤其要注重前期研究設計，并選擇適宜的統計方法。傾向評分因易于操作、步驟明確及使用效率高等優點，在觀察性研究中或者非隨機化研究中使用尤為廣泛，該方法在使用時也應考慮其統計效能以及應用范圍，在明確可測量混雜因素的基礎上，可以選擇傾向評分。當混雜因素未知或者不可測量，工具變量更為合適，但工具變量較難尋找。在新冠病毒大流行期間，全球各主要監管機構，包括世界衛生組織，都以超常規的程序批準了疫苗的緊急使用。在此背景下，真實世界研究設計與統計分析在新冠病毒疫苗安全性、有效性與持久性確認，以及疫苗免疫策略的制訂與調整中展示了極其重要的作用與貢獻。