?

基于人工神經網絡的前列腺癌診斷模型對前列腺癌的診斷價值研究

2012-01-04 01:53宋敏王開正杭永倫李光榮田剛劉靳波
中國全科醫學 2012年35期
關鍵詞:診斷模型前列腺癌數據挖掘

宋敏,王開正,杭永倫,李光榮,田剛,劉靳波

基于人工神經網絡的前列腺癌診斷模型對前列腺癌的診斷價值研究

宋敏,王開正,杭永倫,李光榮,田剛,劉靳波

目的結合前列腺腫瘤標志物檢驗組套和患者臨床信息進行數據挖掘,建立基于人工神經網絡(ANN)的前列腺癌診斷模型,為前列腺癌的臨床診斷和治療提供客觀的參考信息。方法通過實驗信息系統與醫院信息管理系統的數據信息平臺檢索并統計2010年1月—2011年7月我院前列腺腫瘤標志物檢驗組套病例365例,其中前列腺癌組60例,非前列腺癌組305例。采用受試者工作特征(ROC)曲線下面積法篩選出有價值的指標,用244例樣本(前列腺癌組40例,非前列腺癌組204例)建立ANN模型,并用121例樣本(前列腺癌組20例,非前列腺癌組101例)盲法測試和評估此模型。結果納入分析的指標有年齡、甲胎蛋白(AFP)、癌胚抗原(CEA)、總前列腺特異抗原(tPSA)和結合前列腺特異抗原(cPSA),各指標的曲線下面積分別為0.623、0.517、0.499、0.907和0.913,其中年齡、tPSA和cPSA與前列腺癌的發病有相關性(P<0.05);經方差分析前列腺癌組的年齡、tPSA和cPSA與非前列腺癌組比較,差異均有統計學意義(P<0.05)。建立的模型對訓練樣本預測的特異度為93.63%,敏感度為82.50%;此模型對121例測試樣本預測的特異度為93.07%,敏感度為80.00%。結論數據挖掘技術能夠提煉出高效的診治信息,基于ANN的前列腺癌診斷模型對前列腺癌的早期診斷具有一定價值。

前列腺腫瘤;腫瘤標記,生物學;神經網絡(計算機);ROC曲線;診斷

前列腺癌是男性生殖系統最常見的惡性腫瘤。我國前列腺癌的發病率雖然低于西方國家,但隨著我國人口老齡化及生活方式的改變,近年來發病率呈顯著增長趨勢。早期診斷、早期治療是提高前列腺癌患者生存率和降低病死率的關鍵,因此提高前列腺癌早期診斷有著重要意義。隨著醫療技術的發展,越來越多的實驗室檢查、臨床檢查、醫學影像和病理活檢技術用于前列腺癌的診斷。為了突破基于單一指標的診斷模式的局限性和臨床醫生診斷的局限性,本研究聯合檢測前列腺癌的多種相關指標,建立基于人工神經網絡(ANN)的前列腺癌診斷模型,將有限的檢驗數據提煉為高效的診治信息,試圖從技術層面上更好地協同臨床醫生對前列腺癌進行診斷和治療。

1 資料與方法

1.1 一般資料檢索并統計2010年1月—2011年7月我院檢驗科信息管理系統中前列腺腫瘤標志物檢驗組套病例共558例,年齡29~87歲,平均61.3歲。入選標準:(1)臨床診斷明確;(2)甲胎蛋白(AFP)、癌胚抗原(CEA)、總前列腺特異抗原(tPSA)和結合前列腺特異抗原(cPSA)4項腫瘤標志物檢查齊全;(3)為首次治療(包括手術切除、化療、放療及對癥治療等)前的檢驗結果。最終納入研究的共365例。根據臨床病理學分為兩組,前列腺癌組60例,非前列腺癌組305例。

1.2 標本采集所有患者在首次治療前采集清晨空腹外周靜脈血3 ml,離心后取血清并立即上機檢測。

1.3 儀器與方法AFP、CEA、tPSA和cPSA均采用Siemens ADVIA Centaur XP全自動免疫分析系統及其配套試劑進行檢測,并嚴格按照說明書操作。

1.4 統計學方法從實驗信息系統(LIS)智能統計模塊中,將所需信息以Microsoft Excel形式導出,用SPSS 17.0對納入統計的365例患者的分組信息、年齡和4項腫瘤標志物進行受試者工作特征(ROC)曲線分析,并以曲線下面積(AUC)的大小排列5個指標,以此來評價各個指標與前列腺癌的相關性。偏態分布資料以中位數(M)及四分位間距(QR)表示,采用Wilcoxon秩和檢驗,以P<0.05為差異有統計學意義。

1.5 ANN模型的建立將AUC具有統計學意義的指標作為ANN BP插件NNX 2.0的輸入節點,分組數值“1”和“0”作為輸出賦值。用244例樣本(前列腺癌組40例,非前列腺癌組204例)訓練人工神經網絡,建立ANN模型,并用121例樣本(前列腺癌組20例,非前列腺癌組101例)盲法測試評估模型。

2 結果

2.1 ROC曲線分析各指標與前列腺癌的相關性納入分析的指標有年齡、AFP、CEA、tPSA和cPSA,各指標的AUC分別為0.623、0.517、0.499、0.907和0.913,其中年齡、tPSA和cPSA與前列腺癌的發病有相關性(P值分別為0.016,0.000和0.000,見圖1)。前列腺癌組的年齡、tPSA和cPSA與非前列腺癌組比較,差異均有統計學意義(P<0.05,見表1),入選模型。

圖1 各研究指標的ROC曲線Figure 1 ROC curve of various research indicators

表1 前列腺癌組與非前列腺癌組各指標比較〔M(QR)〕Table 1 Comparison of each index between prostate cancer group and non-prostate cancer group

2.2 前列腺癌的ANN模型根據ROC曲線和Wilcoxon秩和檢驗,將具有統計學意義的指標:年齡、tPSA、cPSA作為ANN模型的輸入節點。建模參數:輸入層含3個神經元,隱含層1層含4個神經元,輸出層含1個神經元。目標輸出值(前列腺癌設為1,非前列腺癌設為0)。建立的模型對訓練集預測的特異度為93.63%,敏感度為82.50%(見表2);用此模型對121例測試樣本進行盲法驗證,預測的特異度為93.07%,敏感度為80.00%(見表3)。

表2 3個指標組合建立的ANN模型預測前列腺癌的結果Table 2.Results of predicting prostatic carcinoma using the neural network model established by the combination of three serum markers

表3 3個指標組合建立的ANN模型預測測試樣本的結果Table 3.Results of predicting test samples using the neural network model established by the combination of three serum markers to establish the neural network model

3 討論

數據挖掘就是通過對大量繁雜的數據進行選擇、探索、建模,提取隱含在其中的、人們事先不知道的、潛在有用的信息和知識的過程[1]。數據挖掘的常用方法有ANN、決策樹方法、貝葉斯分類、K-最臨近分類、支持向量機等,其精確度在很大程度上取決于挖掘方法與研究目標的匹配程度。數據挖掘技術在醫學領域中的應用能有效地將各種類型和各個時期的醫學信息進行深層次地分析研究,不僅能夠提煉出高效的診治信息,而且能夠優化醫院管理,提高工作效率。因此探索數據挖掘技術在醫學信息方面的研究具有重要的實用價值和廣闊的發展前景。本研究正是在數據挖掘基本思想的指導下,基于ANN的基本原理進行預測建模,為前列腺癌的早期診斷提供一種新的思路和方法。

ANN是一種在對人腦神經網絡基本認識的基礎上,用數理方法從信息處理的角度對人腦神經網絡進行抽象,并建立某種簡化模型的智能處理系統。ANN具有很強的自組織性、魯棒性和容錯性,在醫學數據挖掘中得到廣泛應用。ANN模型中目前應用最廣泛的是誤差反向傳播(BP)神經網絡模型。BP神經網絡模型的基本思想:信號從輸入層傳入,經隱含層逐層處理后,傳向輸出層。若輸出層的實際輸出與期望的輸出不符,則轉入BP階段。BP是將輸出誤差以某種形式通過隱含層逐層反傳,在此過程中逐層調整層間連接權值。這種信號正向傳播和BP周而復始地進行,直到網絡輸出的誤差減少到可接受的程度,或進行到預先設定的學習次數為止[2]。目前,ANN模型在前列腺癌中的應用已經得到美國食品藥品管理局(FDA)的認可[3]。利用ANN模型診斷前列腺癌可以提高診斷的準確性,在一定程度上減少不必要的穿刺等損傷。Matsui等[4]運用ANN模型預測前列腺癌,49%的患者減少了不必要穿刺。Stephan等[5]在綜合多個參數的基礎上,使用ANN模型提高了前列腺癌的診斷準確率,20%~25%的患者可以避免穿刺。本研究綜合了年齡、tPSA、cPSA指標,建立ANN模型,經盲法驗證預測的特異度為93.07%,敏感度為80.00%。說明基于ANN的前列腺癌診斷模型對前列腺癌的早期診斷具有一定價值。

ROC曲線的AUC可以反映某個診斷試驗的價值大小,也可以比較兩個診斷試驗的價值高低。AUC的取值范圍為0.5~1.0,AUC≥0.5且<0.7時診斷價值較低,0.7~0.9時診斷價值中等,>0.9時診斷價值較高[6]。因此,可從本研究看出tPSA和cPSA具有較高診斷價值;年齡具有較低診斷價值;AFP、ACE無診斷價值。隨著診療技術的發展,越來越多的檢測指標供臨床醫生參考,但并不是指標越多,診斷效果越好;相反,不好的指標會誤導臨床醫生的診斷,從而降低診斷的準確性。通過ROC曲線,提煉出與疾病有相關性的指標,建立優化組合,可減少一些不必要的檢查。ANN模型可以含多個輸入參數,所有臨床上的指標可以同時作為ANN模型的輸入節點,其可以有效地利用這些看似無關的變量,進行訓練預測,從而實現輔助診斷。在這些ANN模型的輸入變量中,比較常見的有前列腺體積、前列腺特異性抗原(PSA)相關指標、直腸指檢和年齡等。本研究利用ROC曲線AUC從AFP、CEA、tPSA、cPSA和年齡中篩選出年齡、tPSA、cPSA 3項指標,建立BP神經網絡模型具有可行性。在以后的研究中,可以將醫學影像、前列腺分泌物相關檢測指標等納入ROC曲線篩選,以建立更加優化的ANN模型。

完成一個診斷或治療的過程,也就是信息的獲取、處理和利用的過程??梢哉f,更廣泛地獲取信息,更科學地分析信息,更合理地利用信息,決定了醫療質量和醫療水平。在互聯網、醫院信息系統(HIS)和實驗信息系統(LIS)基本普及的信息時代,將臨床信息、檢驗信息和患者信息聯系起來,對本身具有統計分布屬性的檢驗結果進行數據挖掘有重要意義。毫無疑問,基于數據挖掘思想的ANN模型在前列腺癌的早期診斷、評估患者患有前列腺癌的風險、指導穿刺活檢等方面具有廣闊的應用前景。

1 Giudici P.Applied Data Mining:Statistical Methods for Business and Industry[M].Hoboken:Wiley Sons,2003:2.

2 韓力群.人工神經網絡教程[M].北京:北京郵電大學出版社,2006:58-59.

3 Reckwitz T,Potter SR,Snow PB,et al.Artificial neural networks in urology:Update 2000[J].Prostate Cancer Prostatic Dis,1999,2(5/6):222-226.

4 Matsui Y,Utsunomiya N,Ichioka K,et al.The use of artificial neural network analysis to improve the predictive accuracy of prostate biopsy in the Japanese population[J].Jpn J Clin Oncol,2004,34(10):602-607.

5 Stephan C,Xu C,Finne P,et al.Comparison of two different artificial neural networks for prostate biopsy indication in two different patient populations[J].Urology,2007,70(3):596-601.

6 李曉松.醫學統計學[M].北京:高等教育出版社,2008:236.

Artificial Neural Network-based Diagnostic Model for Prostatic Cancer

SONG Min,WANG Kai-zheng,HANG Yonglun,et al.Department of Laboratory Medicine,the Affiliated Hospital of Luzhou Medical College,Luzhou 646000,China

ObjectiveTo establish diagnostic model for prostatic carcinoma based on artificial neural network(ANN)by combining the serum markers of prostatic carcinoma and clinical information in order to provide references for clinical diagnosis and treatment of prostatic carcinoma.MethodsBased on experiment information system and hospital information system,365 patients whose serum markers of prostatic carcinoma were tested and collected from January 2010 to July 2011 were retrieved and they were divided into prostatic carcinoma group(60 cases)and non-prostatic carcinoma group(305 cases).The indicators were evaluated with the method of area under the ROC curves,and 244 cases(40 cases from prostatic carcinoma group and 204 cases from non-prostatic carcinoma group)were used to built the diagnostic model with artificial neural network and 121 samples(20 samples from prostatic carcinoma group and 101 samples from non-prostatic carcinoma group)were used to assess this model.ResultsAge,AFP,CEA,tPSA and cPSA were involved into the analysis.The areas under the curve of the indicators were 0.623,0.517,0.499,0.907 and 0.913,respectively.The incidence of prostatic carcinoma were related to age,tPSA and cPSA(P<0.05)and the three indicators showed statistically significant differences between prostatic carcinoma group and non-prostatic carcinoma group by analysis of variance(P<0.05).The specificity and sensitivity of this model were 93.63%and 82.50%for the exercise sample and 93.07%and 80.00%for the test sample.ConclusionThe technology of data mining can extract effective information of diagnosis and treatment.The diagnostic model for prostatic carcinoma which was based on artificial neural network may be a valuable clinical tool for early diagnosis of prostatic carcinoma.

Prostatic neoplasms;Tumor markers,biological;Neural networks(computer);ROC curve;Diagnosis

R 737.25

A

1007-9572(2012)12-4061-03

10.3969/j.issn.1007-9572.2012.12.043

四川省衛生廳科研課題([2010]493號100258)

646000四川省瀘州市,瀘州醫學院附屬醫院檢驗科

劉靳波,646000四川省瀘州市,瀘州醫學院附屬醫院檢驗科;E-mail:liujb7203@163.com

2012-06-03;

2012-11-20)

(本文編輯:張小龍)

猜你喜歡
診斷模型前列腺癌數據挖掘
改進支持向量機在特征數據挖掘中的智能應用
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
MTA1和XIAP的表達與前列腺癌轉移及預后的關系
前列腺癌,這些蛛絲馬跡要重視
軟件工程領域中的異常數據挖掘算法
前列腺癌治療與繼發性糖代謝紊亂的相關性
微小RNA-424-3p和5p對人前列腺癌細胞LNCaP增殖和遷移影響的比較
基于模糊優選反問題的電機電氣故障診斷模型
對于電站鍋爐燃燒經濟性診斷模型的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合