?

臨床研究數據分析原則、要點和統計軟件實現

2022-07-06 14:27王瑞平李斌
上海醫藥 2022年11期
關鍵詞:臨床研究

王瑞平 李斌

摘 要 臨床研究數據分析是呈現研究結果的方式,是評估臨床研究干預措施效果的重要參考和依據。研究者選擇合適的數據采集工具收集數據,進行數據質量控制和清理后,便可以開展統計分析工作。本文主要介紹了臨床研究數據統計分析的原則、統計分析過程中須注意的事項和要點,以及如何應用SPSS軟件實現數據的統計分析等內容,以期為今后臨床研究人員開展數據統計分析提供參考。

關鍵詞 臨床研究 意向性分析 檢驗水準 統計學描述 統計推斷

中圖分類號:R-3 文獻標志碼:C 文章編號:1006-1533(2022)11-0036-06

引用本文 王瑞平, 李斌. 臨床研究數據分析原則、要點和統計軟件實現[J]. 上海醫藥, 2022, 43(11): 36-41; 79.

Principles, elements and statistical software implementation for the analysis of clinical research data

WANG Ruiping, LI Bin

(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)

ABSTRACT The analysis of clinical research data is a way of presenting the results of a study and is an essential reference and basis for assessing the effectiveness of clinical research interventions. After researchers have selected an appropriate data collection tool to collect the data and performed data quality control and cleaning, statistical analysis can then be carried out. This article introduces the principles of statistical analysis of clinical research data, the key points to note in the process of statistical analysis, and how to apply SPSS software to achieve statistical analysis of data so as to provide a reference for clinical researchers to carry out statistical data analysis in the future.

KEY WORDS clinical research; intention to treat analysis; testing level; statistical description; statistical reference

本刊2022年第43卷第1期“臨床研究規范”欄目刊發的《臨床醫學研究數據統計分析思路概述》[1]基于臨床研究數據分類,解讀了臨床醫學研究的統計分析思路,主要包括統計學描述和統計學推斷2個部分。然而,在臨床研究數據分析實踐中,仍會存在研究者不清楚統計分析數據庫的選擇原則、統計分析中須要注意細節和易錯點等情況。因此,為幫助研究者理清臨床研究數據分析的原則和要點,本文將重點介紹臨床研究數據統計分析的原則、統計分析過程中須注意的事項和要點,以及如何應用SPSS軟件實現統計分析等內容,以期為研究人員開展數據統計分析提供依據和參考。

1 臨床研究數據集選擇

廣義的臨床研究包括描述性研究(現況研究、縱向研究、病例系列研究等)、分析性研究(病例對照、隊列研究)、臨床試驗研究(社區試驗研究、個體試驗研究等)和數理研究(統計學建模、疾病轉歸預測等),而狹義的臨床研究是指隨機對照臨床試驗研究(randomized control trial, RCT)。無論是廣義臨床研究還是狹義臨床研究,項目組完成研究數據的采集、清理和質量控制后,都會產生數據庫,也即是統計分析數據集。描述性和分析性臨床研究均屬于觀察性研究范疇,研究者未對研究對象實施干預措施,而僅通過觀察和測量收集研究對象的人口學、生活行為、疾病特征等數據信息。除前瞻性隊列研究外,其他類別的觀察性臨床研究的研究周期短,項目完成后通常僅形成一個數據庫,后續統計分析將基于該數據庫(數據集)開展,研究者只須描述清楚研究對象的應答率、在隊列研究隨訪過程中的失訪情況,而對于因失訪而導致的數據缺失無須填補,后續通過比例風險回歸分析等展示即可。

在臨床試驗研究中,研究者的目標為驗證病因假設或評估干預措施的療效和安全性,并綜合考量研究周期、經費、倫理等方面問題,其研究對象的規模相比于觀察性臨床研究往往要小很多,而且在研究對象篩選方面也十分嚴格,因此須要對入組的每一個研究對象給予充分重視。在研究對象招募階段及整個研究全過程均須要與其保持密切溝通和聯系,盡可能避免研究對象的脫落和失訪,從而提高研究數據的完整性。鑒于臨床試驗研究的特殊性,理想的研究數據集應是包含所有入組對象在全研究周期內的所有數據,無漏填缺項,無失訪與脫落。但在臨床研究實踐中,由于種種原因還是會出現研究對象脫落、數據采集不完整等情況,所以在研究項目結束后,須對最后形成的數據庫進行判定和必要的技術修正,保證項目產生的有效數據的利用最大化。為此,臨床研究專家和統計學家對RCT的數據庫進行分類,包括意向性分析集(intention-to-treat population, ITT)、全分析集(full analysis set, FAS)和符合方案集(per-protocol analysis, PP)。

如圖1所示,①ITT納入了所有隨機化分組后的受試者進入分析,而不僅是實際完成的受試者。須注意的是,如果某受試者被隨機分配到了A組,后續ITT分析中該患者也必須一直在A組,即便該受試者后來接受的是B組的治療方案或沒有接受任何治療。這樣做的目的是要保持兩組間的基線特征均衡可比,使得除研究因素以外的其他變量完全均衡和匹配,能夠充分觀察干預效果。②FAS是ITT的子集,是指對所有隨機化受試者的數據做最少和公正的剔除后所得到的數據集,為的是保持原始數據集的完整性,減少偏倚。③PP則是FAS的一個子集,是指研究對象均依從干預措施的數據集,即該子集內的受試者在納入與排除標準、接受治療、主要指標測量等方面不存在嚴重違背方案的情況。一般情況下,臨床試驗研究優先選擇FAS進行統計分析,不過研究者也應報告基于PP的分析結果,將其作為補充材料(supplementary material)放在文章附件中。相比于PP,基于FAS的數據分析更容易得到無統計學差異的結果,在非劣性或等效性臨床研究設計時將會導致Ⅰ類錯誤風險的增加,研究者應給予充分關注,盡可能同時應用PP和FAS分析,綜合評估臨床研究中干預措施的療效和安全性。

2 臨床研究數據分析原則

臨床研究數據統計分析至少應包括4個方面的內容:①對臨床研究數據庫中的變量定義或分類處理給出解釋說明。如“吸煙率”“飲酒率”“治療有效率”等應給出定義和計算方法;“年齡”“文化程度”“收入”等分類變量給出具體的分組和依據。②統計學描述內容,應對臨床研究數據庫中的定量變量和定性變量的給出詳細描述方案。例如:定量變量如符合正態分布,用均數±標準差描述,如不符合正態分布,用中位數和四分位數間距描述;定性變量一般用率、構成比或百分比描述。③統計學檢驗和推斷內容,同樣應根據變量類型的不同,給出具體的統計分析方案。例如:定量變量如符合正態分布且方差齊,兩組之間的比較采用t檢驗,多組之間的比較采用方差分析;如方差不齊,兩組之間的比較采用t’檢驗,多組之間的比較先進行數據轉換(對數變換、平方根變換、平方根反正弦變換等)再采用方差分析;如不符合正態分布,則選擇非參數檢驗分析組間的差異。而對于定性變量,通常選擇χ2檢驗、趨勢χ2檢驗進行單因素分析,探討兩組或多組變量之間的差異;應用logistic回歸開展多因素分析,探索研究變量的獨立危險因素。④交代清楚數據分析所使用的統計學分析軟件及檢驗水準。常用的統計學分析軟件包括SPSS、SAS、Epi-info、Stata和R軟件等,檢驗水準一般設定為0.05或0.01,描述為“本研究以P<0.05提示差異有統計學意義”或“本研究以P<0.01提示差異有統計學意義”。在優效性設計、非劣性設計中,因統計學檢驗為單側,檢驗水準調整為0.025或0.005。

在臨床研究數據分析結果呈現的內容方面,觀察性臨床研究(現況研究、病例對照研究、隊列研究等)一般應包括3個方面內容:①研究對象的一般人口學特征,以及與不同暴露組或不同病例分組研究對象一般人口學特征比較;②暴露因素和結局變量(疾病、死亡等)之間的單因素分析,包括潛在混雜因素與暴露因素和結局變量之間的單因素分析結果;③暴露因素和結局變量之間的多因素分析,以控制混雜因素,評估暴露因素與結局之間的單獨效應。相比觀察型臨床研究,RCT呈現的分析結果則更加“固定”,一般包括1張圖和3個表,研究者可參考本專欄往期刊登的文章《隨機對照臨床試驗CONSORT聲明解讀》[2]。其中,1張圖為“隨機對照臨床研究各實施階段流程圖”(圖2),3個表分別為:①受試者一般情況表,包括試驗組和對照組;②主要療效指標和次要療效指標評估表;③安全性和不良反應情況表。

3 臨床研究數據分析要點和在SPSS軟件中的實現

臨床研究中,不同類型的設計其數據統計分析的整體思路實則一致,均包括統計學描述和統計學推斷兩個部分。如圖3所示,臨床研究數據統計分析方法的選擇均基于變量類型,同時不同變量類型還須要根據其自身分布特點來進一步選擇合適的指標和分析方法。統計分析方法選擇這部分內容研究者可參考本專欄往期發表的《臨床醫學研究數據統計分析思路概述》[1]或查閱其他統計學書籍,不再贅述。本文將重點介紹臨床研究數據統計過程中,研究者容易疏忽的細節,以及須注意的核心內容和易錯點。

1)定量變量分布的正態性 臨床研究數據統計分析實踐中,許多研究者對定量變量直接選擇均數±標準差進行描述,并應用t檢驗或方差分析進行組間差異的統計學檢驗。如前文所述,對于定量變量統計分析方法的選擇須首先考慮其是否符合正態分布,隨后才能相應地選擇合適的指標和統計學檢驗方法。正態性檢驗在SPSS軟件中可以用“explore”模塊實現。具體操作如圖4所示,選擇“analyze→descriptive statistics→explore”后,在“dependent list”放入須要分析的變量(例如“b2a”),然后點擊“plots”按鈕,在“descriptive”處勾選“histogram”,并將“normality plots with tests”勾選上,最后再選擇“continue→ok”即可。分析結果主要通過Sig值來判定,Shapiro-Wilk檢驗法對應的Sig值>0.05時,數據符合正態分布,頻數圖呈現“中間高,兩邊低,左右對稱”的特征。當Shapiro-Wilk對應的Sig值<0.05時,數據將不符合正態分布。而Kolmogorov-Smirnov檢驗法則常用于樣本量n>2 000時變量的正態性檢驗。

2)重復測量方差分析 RCT中,研究者常常設置多個療效評價時間點,對于這種類型的定量變量數據,不能簡單地使用不同評價時點測量值與基線測量值之間開展t檢驗來評估療效,這時候應該選擇重復測量方差分析,來分析不同組別、不同評估時間點干預措施臨床療效差異的“組間效應”“時間效應”和“組間與時間交互效應”。具體操作如圖5所示,選擇“analyze→general linear model→repeated measures”,在“define factors”中定義重復測量變量名稱和次數,完成后點擊“define”按鈕,在“within subjects variables”中放入重復測量變量,在“between subjects factors”中放入組別變量,點擊“plots”定義繪圖,在“post hoc”和“options”定義數據分析結果展現內容,最后再點擊“ok”即可。

3)χ2檢驗結果解讀 對于定性變量組間比較,通常采用χ2檢驗。具體操作如圖6所示,選擇“analyze→descriptive statistics→crosstabs”,在“rows”和“columns”處放入要分析的變量,點擊“statistics”按鈕,勾選“chi-square”,然后點擊“continue→ok”即可。這些操作過程對于研究者來說都比較熟悉,但須注意的是:不能把四格表χ2檢驗結果的第一行直接拿來使用,而是應該先看一下分析結果下方提示(“a.”“b.”“c.”)。其中,第1條提示四格表中每個格子期望值的大小,進而可以幫助研究者選擇合適的統計量和P值:①當樣本量n≥40,同時格子期望值T≥5,選擇“Pearson chisquare”對應的統計量和P值;②當樣本量n≥40,但有格子期望值1≤T<5時,采用連續性校正χ2檢驗,選擇“continuity correction”對應的統計量和P值;③當總樣本量n<40,或格子期望值T<1,采用Fisher確切概率法檢驗,即選擇“Fisher’s exact test”對應的統計量與P值。

4)定量變量轉換為定性變量 數據統計分析過程中,有時候須要將定量變量轉換為定性變量進行分析,如將患者的“實際年齡”根據一定的規則轉換為“年齡組”,這時候便要用到“transform”功能。具體操作如圖7所示,選擇“transform→x-y recode into different variable”,將須要進行轉換的變量放入“numeric variable→output variable”框,在“output variable”中定義新的變量名稱,點擊“change”進行轉換,然后再點擊“old and new variable”打開一個新的對話框,在這個新對話框中,根據自己設定的規則,將定量變換轉換為定性變量。須注意的是,盡管“transform→x-x recode into same variable”也可以使用,但這樣的操作會覆蓋掉原始變量值,無法恢復。因此,建議研究者優先使用“x-y recode into different variable”轉換新變量。

5)logistic回歸分析中多分類定性變量設置啞變量 在應用logistic模型進行回歸分析時,如果自變量中包含多分類定性變量,須將其設置為啞變量放入模型,否則統計分析結果展示的將不是各分類之間的差別,而是1/2/3/4等數量之間的差異。具體操作如圖8所示,選擇“analyze→regression”,點擊“binary logistic”打開對話框,在“dependent”框放入因變量,在“covariates”框放入自變量,然后點擊“categorical”打開新的對話框,將須要設置為啞變量的變量名放入“categorical covariates”,在下方“contrast”設定“indicator”選擇其余選項與第一個比(first)或其余選項與最后一個比(last),隨后再選擇“continue→ok”即可。

參考文獻

[1] 王瑞平, 李斌. 臨床醫學研究數據統計分析思路概述[J].上海醫藥, 2022, 43(1): 7-9.

[2] Moher D, Hopewell S, Schulz KF, et al. CONSORT 2010說明與詳述: 報告平行對照隨機臨床試驗指南的更新[J]. 中西醫結合學報, 2010, 8(8): 701-741.

[3] 王瑞平, 李斌. 隨機對照臨床試驗CONSORT聲明解讀[J]. 上海醫藥, 2022, 43(5): 58-62.

猜你喜歡
臨床研究
平竇膏治療濕熱毒瘀型肛隱窩炎40例
口干是否類風濕關節炎中醫陰虛證候關鍵指標的臨床研究
碳酸氫鈉溶液關節腔持續沖洗治療痛風性膝關節炎的臨床研究
腹腔鏡手術聯合促性腺激素釋放激素激動劑治療卵巢內異囊腫的臨床研究
黃芝通腦絡膠囊治療糖尿病周圍神經病變的臨床觀察
穴位注射輔助局麻下經皮椎間孔鏡椎間盤髓核摘除術術中鎮痛的臨床探究
小兒院前急救及急診心肺復蘇的臨床研究
動態X光片在頸椎病早期診斷中的臨床研究
血漿置換聯合血漿吸附治療慢性重型肝炎的臨床研究
復方硼酸含漱液的藥理毒理學研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合