?

診斷性試驗準確性的評估

2018-10-18 01:30FangyuLIHuaHE
上海精神醫學 2018年3期
關鍵詞:靈敏度患病受試者

Fangyu LI, Hua HE*

1.背景

根據全球疾病負擔研究的估計,精神性疾病的全球發病率很高,僅次于心血管疾病[1]。在精神性疾病中,抑郁癥目前是導致全球殘疾負擔的主要原因。在中國,抑郁癥是殘疾調整生命年(DALYs)的四個主要原因之一[2]。2012年中國所有成年人的抑郁癥總患病率為37.68%,重度抑郁癥患病率為4.08%,2013年至2015年,中國的疾病負擔估計增加了10%[3-4]。對于抑郁癥的診斷,DSMIV的結構化臨床訪談(SCID)被普遍認為是臨床實踐和研究的金標準,并將繼續被廣泛使用[5-8]。然而,SCID的使用受到一系列諸如成本和精神科醫生嚴重短缺等因素的限制。因為SCID不能用作自動提供精神病診斷的絕對可靠的清單,它必須由訓練有素的精神科醫生[9]執行,最終導致高費用和部分患者難以承受的精神衛生保健。中國精神科醫生的短缺也限制了患者獲得精神衛生專職人員治療的機會。此外,對一些患者(例如老年患者)進行檢查可能很困難且耗時。由于SCID的限制,一些易于操作的篩查工具,如漢密爾頓抑郁量表(HAM-D)、貝克抑郁量表(BDI),甚至更簡單的篩查工具,如患者健康問卷(PHQ-2,PHQ-9),被設計并用于對患者進行抑郁癥診斷[10]。例如,最常用的工具HAM-D量表是一種提供抑郁癥指征的多項問卷,它也是一份評估抑郁癥康復的指南[11]。同樣,貝克抑郁量表(BDI)的21個問題的多選式自我報告條目也被廣泛用于衡量抑郁癥的嚴重程度。然而,在篩選工具可以應用于患者之前,評估這些篩查工具相對于金標準SCID的準確性至關重要[12]。如果篩查工具可以正確地將患病受試者分類為患病,將非患病的受試者分類為未患病,則可以提倡將該篩查工具用于醫療實踐。否則,其實際使用應謹慎。在本文中,我們將討論如何評估診斷性試驗的準確性。

2.診斷性試驗的準確性

當診斷性試驗結果為二分類變量時,例如是和否,陽性與陰性,靈敏度和特異度被廣泛用于評估診斷性試驗的準確性。靈敏度是患病受試者中檢驗為陽性的概率,即檢驗正確地將患病受試者分類為患病的概率,而特異度是非患病受試者中檢驗呈陰性的概率,即檢驗可以正確地將未患病的受試者歸類為無病的可能性[13]。例如,靈敏度90%的檢驗能正確地將90%的患病受試者分類為患者,但將10%的患病受試者錯誤分類為非患病受試者。類似地,特異度90%的檢驗可以正確地將90%的非患病受試者分類為非患病,但將10%的非患病受試者錯誤地分類為患者。靈敏度和特異度范圍從0到1,其中1表示該檢驗可以正確地將所有患病受試者分類為患者并且所有未患病的受試者分類為非患病者。為了評估檢驗的準確性,必須綜合考慮靈敏度和特異度。顯然,良好的診斷性試驗需要高靈敏度和高特異度。具有100%靈敏度和特異度的檢驗可以正確地對所有患病和非患病受試者進行分類,因此是完美的檢驗。

然而,在實踐中,指標為連續性變量的診斷性試驗是非常常見的。在這種情況下,使用受試者工作特征曲線(ROC)評估該檢驗區分疾病的準確性。通過對連續性檢驗分數進行二分,可以在每個截點處計算靈敏度和特異度。通過連接連續性檢驗的所有可能截點處所有(1-特異度,靈敏度)對來構建ROC曲線。ROC曲線是一種在一系列截點上以圖形方式顯示真陽性與假陽性的方式[14],并提供該檢驗如何準確區分疾病狀態的圖片信息。不同的截點會得到不同的靈敏度和特異度。對于給定的檢驗,在靈敏度和特異度之間存在折衷。例如,如果較高的檢驗分數表明患病的可能性較大,則較低的臨界值將產生較高的靈敏度但特異度較低,在這種情況下,該檢驗可以正確地將大多數患病受試者分類為患者,但也有很高的幾率將非患病者歸類為患者,對于高臨界值,反之亦然。ROC曲線為我們提供了檢驗如何區分患病和非患病的全貌,其中靠近左上角的部分能夠更好地區分。對角線表示沒有區分能力。

ROC曲線是描述檢驗在每個截點區分患病狀態能力的極好的方法,但在實踐中,使用單個指標來總結該檢驗的整體性能也是非常重要的。ROC曲線下面積(AUC)是評估整體能力的指標。 AUC測量該檢驗正確分類患有和不患有疾病的能力。ROC曲線越接近左上角,曲線下面積越大,而值為1時表示完美區分。

接下來,我們將通過一項實際研究使用R來說明如何估計一項試驗的準確性。

3.舉例說明:老年服務客戶抑郁癥篩查

3.1 研究樣本

簽訂知情同意書后,377名講英語并接受初步家庭評估的老年受試者參與了試驗。

3.2 測量指標

SCID:SCID[15]作為確定當前重度抑郁發作(MDE)存在與否的金標準。在該研究中,SCID被用于研究樣本中的所有受試者。

PHQ-9/PHQ-2:患者健康問卷(PHQ-9)是患者健康問卷的九項抑郁量表,給予初級保健機構中的患者以篩查抑郁癥的存在和嚴重程度。每個問題的項目得分范圍從0到3,PHQ-9的總得分范圍從0到27。PHQ-2僅包括PHQ-9的前兩項,因此具有總得分范圍為0到6。盡管PHQ-9和PHQ-2總分可以被認為是連續性的,但通常使用10和3兩個截點來分別對PHQ-9和PHQ-2診斷抑郁癥。對于PHQ-9,分數低于10的受試者將被診斷為抑郁癥陰性,其他被診斷為陽性。同樣,對于PHQ-2,只有分數低于3的人才會被視為非抑郁癥。我們將通過將它們分別視為二分類和連續性檢驗來評估PHQ-9/PHQ-2在判斷SCID抑郁和非抑郁方面的準確程度。

3.3 二分類檢驗的靈敏度和特異度計算:

我們首先分析二分類PHQ-9的準確性,其截點為總分10分。在這種情況下,PHQ-9 < 10的受試者具有陰性檢驗結果,而PHQ-9 ≥ 10的受試者具有陽性檢驗結果。 因此,PHQ-9陽性/陰性和SCID抑郁/非抑郁可以使用下面的R代碼的2 x 2表進行匯總。

temp <- roc

temp$PHQ_9_SCORE <- ifelse(temp$PHQ_9_SCORE> 9,1,0)

crosstab<-table(temp$PHQ_9_SCORE, temp$SCID)

數據總結在下表3中:

表3.金標準

靈敏度和特異度計算如下

靈敏度=陽性檢驗結果數量/患病受試者數量

= 82/100

= 0.82

特異度=陰性檢驗結果數量/非患病受試者數量

= 242/277

= 0.87

當使用10為截點時,該檢驗對于PHQ-9> = 10受試者定義為陽性,對于PHQ-9 <10的受試者定義為陰性,并且靈敏度估計為82%,即82%真正患有抑郁癥的受試者可以成功歸類為抑郁癥,特異度估計為87%,即87%的非抑郁癥患者被正確歸類為非抑郁。

當PHQ-2使用3為截點時,即PHQ-2 < 3定義為陰性,PHQ-2 ≥ 3定義為陽性,結果總結在表4中:

表4.金標準

靈敏度和特異度估計為

靈敏度=陽性檢驗結果數量/患病受試者數量

= 82/100

= 0.82

特異度=陰性檢驗結果數量/非患病受試者數量

= 216/277

= 0.78

當檢驗陽性/陰性的截點定義為3時,80%的抑郁受試者可被正確分類為抑郁癥,78%的非抑郁癥受試者被正確分類為非抑郁癥。

不同的截點,其靈敏度和特異度將不同。 例如,如果使用4為截點,PHQ-2的靈敏度和特異度分別為57%和90%。對于PHQ-9,截點為11時的靈敏度和特異度為0.74和0.91。表1列出了PHQ-9和PHQ-2的一系列截點下的靈敏度和特異度。

從表1中可以明顯看出,靈敏度和特異度之間存在權衡。較低的截點可以得到較高的靈敏度和較低的特異度,這意味著更多抑郁癥的受試者可被正確分類為抑郁,但也有更多非抑郁的受試者被錯誤分類為抑郁癥。 由于靈敏度和特異度之間的權衡,通常在臨床實踐中使用最佳截點。通常靈敏度和特異度的總和最大化的截點被確定為最佳截點。對于PHQ-2,最佳截點為3.0,因為相應的靈敏度(80%)和特異度(78%)達到最大值。PHQ-9的最佳截點為10,因為靈敏度為82%,特異度為87%,其總和達到最大值。

表1.不同截點下的靈敏度和特異度

3.4 受試者工作特征曲線(ROC)的構建

在連續性診斷性試驗的每個截點,靈敏度和特異度顯示患病受試者和非患病受試者分類的準確程度。由于不同的截點產生不同的靈敏度和特異度,因此使用ROC曲線描述該檢驗區分患病和非患病的能力。而ROC曲線是連續性檢驗的每個可能的截點的靈敏度與(1-特異度)的關系圖。對于每個截點,可以根據檢驗分數是大于還是小于閾值來定義陽性和陰性檢驗結果,然后可以基于二分類陽性/陰性檢驗結果和真實疾病狀態的2X2表來估計特異度和靈敏度。通過連接所有截點處靈敏度(y軸)與(1-特異度)(x軸)來構建ROC曲線。PHQ_9和PHQ_2的ROC曲線如圖1所示,下面分別提供了構建PHQ_2和PHQ_9的ROC曲線的R代碼:

圖1.PHQ-2和PHQ-9的ROC曲線

3.5 ROC曲線下的面積(AUC)的測量及其解釋

盡管ROC曲線可以描述檢驗在每個截點區分患病與非患病的能力,但它無法提供一個總體指標來總結該檢驗的整體性能。ROC曲線下面積(AUC)是連續性檢驗診斷辨別能力的總體指標,它能衡量受試者被正確分類為患病和非患病的能力。AUC范圍為0.5到1。AUC值為0.5對應于ROC曲線的對角線,表示不提供用于分類的信息,而值為1表示該檢驗可以正確地將所有患病的受試者分類為患者,并且所有未患病的受試者分類為未患病,這是一個完美檢驗。表2總結了診斷性試驗準確性分類的粗略指南。AUC在0.90和1.00之間的檢驗具有極好的辨別能力,AUC從0.80到0.90,0.70到0.80,0.60到0.70和0.50到0.60分別表示區分能力良好、一般、較差和極差。下面提供了用于獲得PHQ-2和PHQ-9的AUC的R代碼。我們還可以通過檢驗兩個試驗之間的AUC是否存在顯著性差異來檢驗兩個診斷性試驗是否具有相同的辨別能力。

roc.test(roc1,roc2,paired=TRUE)

DeLong’s test for two correlated ROC curves

data: roc1 and roc2

Z = 2.6064, p-value = 0.00915

alternative hypothesis: true difference in AUC is not equal to 0

sample estimates:

AUC of roc1 AUC of roc2

0.9062635 0.8690794

在這種情況下,PHQ-9的AUC為0.9063,PHQ-2的AUC為0.8691。PHQ-9在將受試者分類為抑郁和非抑郁時達到了極好的準確度,而PHQ-2的準確度相對較低,但仍然相當不錯。 檢驗PHQ-9和PHQ-2之間AUC差異的p值為0.00915,這表明PHQ-9和PHQ-2區分抑郁癥與非抑郁癥受試者的能力不同,并且PHQ-9診斷抑郁和非抑郁的受試者更準確。

表2.根據AUC對診斷性檢驗準確性分類指南

4.討論

DSM-IV(SCID)的結構化臨床訪談一直被認為是臨床上診斷抑郁癥的金標準。然而,由于許多原因,SCID的實施不適用,需要替代性的診斷性試驗/篩選工具。在將診斷性試驗/篩查工具應用于目標人群之前,評估診斷性試驗/篩查工具的準確性至關重要。

在實踐中,除靈敏度和特異度外,還廣泛使用陽性預測值(PPV)和陰性預測值(NPV)。PPV是檢驗結果陽性的受試者也患病的可能性,NPV是檢驗結果為陰性的受試者也是非患者的概率。給定該疾病的患病率,PPV和NPV可以通過靈敏度和特異度來確定,反之亦然。

在臨床實踐中,金標準檢驗可能是侵入性的、價格昂貴并且風險較高(例如血管造影、活體組織檢查和手術),患者和醫生可能不愿意接受這樣的金標準檢驗。如果不對每個人進行金標準檢驗,則靈敏度和特異度的估計可能會有偏差,因為僅使用有金標準檢驗的受試者來估計靈敏度和特異度。這種偏倚稱為證實偏倚。目前已設計出一些方法來校正這種證實偏倚[19,20]。

資金來源

本研究沒有獲得任何外部資助。

利益沖突

作者報告沒有與本文相關的利益沖突。

猜你喜歡
靈敏度患病受試者
涉及人的生物醫學研究應遵循的倫理原則
涉及人的生物醫學研究應遵循的倫理原則
基于機電回路相關比靈敏度的機電振蕩模式抑制方法
涉及人的生物醫學研究應遵循的倫理原則
基于靈敏度分析提升某重型牽引車車架剛度的研究
野生動物與人獸共患病
涉及人的生物醫學研究應遵循的倫理原則
復合數控機床幾何誤差建模及靈敏度分析
穿甲爆破彈引信對薄弱目標的靈敏度分析
完形填空訓練
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合