?

基于數據挖掘的疾病預測模型的構建與分析

2016-09-20 05:46李奮華趙潤林運城學院計算機科學與技術系運城044000中國科學院大學北京0090
現代計算機 2016年18期
關鍵詞:決策樹數據挖掘對象

李奮華,趙潤林(.運城學院計算機科學與技術系,運城 044000 2.中國科學院大學,北京 0090)

基于數據挖掘的疾病預測模型的構建與分析

李奮華1,2,趙潤林1
(1.運城學院計算機科學與技術系,運城044000 2.中國科學院大學,北京100190)

0 引言

自從1995年數據挖掘的概念提出以來,數據挖掘技術的發展雖然僅有二十多年的歷史,但其在商業、工程、電信等領域已經獲得了廣泛的應用,并取得了可觀的經濟效益和社會效益。然而,數據挖掘技術在醫學領域的應用尚處于起步階段。在信息爆炸的大數據時代,由于硬件和信息技術的迅猛發展,各行各業每時每刻都會產生大量的數據,人們被淹沒在數據的海洋中,如何從這些海量的數據中發現潛在、有價值的信息難度很大。

在醫療行業,隨著醫院信息系統(HIS)在全國各大醫院的逐步推廣和應用,醫院每天都會產生大量與病人相關的臨床數據,而且這些數據的規模越來越大,在這些真實的數據中蘊含著許多對病人和醫生來說潛在、有價值的信息[1]。如何有效地利用這些真實的臨床數據,并從中發現一些對病人治療和醫生診斷有價值的規律和信息十分關鍵,也是當前醫學信息處理研究中一個亟待解決的難題。上述問題的解決不僅能在一定程度上緩解當前社會上存在的緊張醫患關系,而且還能有效地輔助醫生診斷、決策和治療,提高醫生的工作效率,進而提高醫院的醫療服務質量和競爭力[2]。

本文將據挖掘技術引入到醫學數據分析中,提出了一種基于決策樹的疾病預測模型,并在實際的醫學疾病數據集上驗證了其效果。第2節簡要地介紹了決策樹算法的原理,在此基礎上,第3節提出一種基于決策樹的疾病預測模型,并在真實醫學數據集上(二型糖尿病臨床數據)進行了實驗驗證,預測效果良好。

1 決策樹算法的基本原理

決策樹算法是數據挖掘技術中常用的一種分類和預測方法[3]。該算法以研究對象的屬性為基礎,根據信息論的原理,通過多次遞歸的方式選擇信息增益最大的屬性來作為決策樹的當前節點(即:最佳節點),在決策樹構建過程中,已經使用過的屬性在決策樹的后續構建時不能再作為節點來使用,即:研究對象的每個屬性在決策樹中當且僅當出現一次。在決策樹的構建過程中,遞歸過程的終止情況有下列三種:

(1)當前節點對應的所有研究對象均屬于同一類別。

(2)沒有剩余屬性被用來進一步對當前研究對象進行分類。

(3)當前節點所對應的屬性值對應的研究對象個數為0。

假設M、m分別表示研究對象集合和該集合中包含對象的個數。L={l1,l2,l3,…,ln}表示研究對象的類別集合。mi表示類別 li中研究對象的個數,那么,根據信息論原理,對一個研究對象進行分類需要的信息量如下:

其中,pi=mi/m表示一個研究對象輸入類別li的概率。

設一個屬性 X的取值集合為X={x1,x2,…,xs}。屬性X能夠把研究對象集合M劃分為s個子集{M1,M2,…,Ms},其中Mi表示屬性X=xi的研究對象的集合。如果屬性 X被選為決策樹的當前節點,mij表示子集 Mj中屬于li類別的研究對象的個數,因此,采用屬 X對當前研究對象集合進行劃分所需信息熵的計算公式如下:

其中,pij=mi/(|Mj|)表示研究對象子集Mj中任意一個對象屬于類別 li的概率。由公式(1)和(2)可知,通過屬性對相應研究對象集合進行劃分的信息增益計算公式如下:

具體的決策樹算法描述如下:

2 基于決策樹的疾病預測模型的構建與分析

針對醫療行業的現狀,為提高醫生疾病診斷的效率和緩解醫患矛盾,在數據挖掘技術的基礎上,本文提出了一種基于決策樹的疾病預測模型,如圖1所示,并在真實醫學數據集上(即:二型糖尿病臨床數據)進行了實驗。

圖1 基于決策樹的疾病預測模型

本文采用Clementine 12數據挖掘工具來構建疾病預測模型,并在二型糖尿病臨床數據集上進行了有效實驗[4]。該數據集包含8個與二型糖尿病相關的臨床檢查病癥,共768條記錄,如圖2所示[5]。

在實驗過程中,本文把上述實驗數據集分為訓練集和測試集兩部分,通過訓練集來構建和提取決策樹規則,利用測試集來對該模型在實際應用中的效果進行驗證,預測效果如圖3所示。從圖3中,我們發現該疾病預測模型的預測正確率是74.52%,預測錯誤率是25.48%,這也有效地驗證了基于決策樹的疾病預測模型的有效性。實驗證明,該模型可以有效地輔助醫生進行疾病的診斷,提高醫生工作的效率,在一定程度上緩解病人看病難、排隊時間長的問題,具有一定的實用價值。

圖2 二型糖尿病臨床數據集

3 結語

針對醫療領域存在的問題,從數據挖掘的角度出發,本文提出了一種基于決策樹的疾病預測模型,在真實醫學數據集——二型糖尿病數據上進行了實驗,預測效果較明顯,能夠有效地輔助醫生進行疾病的診斷,提高醫生疾病診斷的效率,具有一定的實際意義。

圖3 二型糖尿病數據預測效果

[1]徐剛,袁兆康.數據挖掘在醫學領域的應用和展望[J].實用臨床醫學,2006,7(13):11-15.

[2]石義芳,孔令人.數據挖掘和知識發現技術在病人流量分析中的應用[J].現代預防醫學,2006,33(02),p23-25.[3]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:科學出版社,2009.

[4]熊平.數據挖掘算法與Clementine實踐[M].北京:清華大學出版社,2011.

[5]張承紅.醫學數據倉庫與數據挖掘[M].北京:中國中醫藥出版社,2008.

Big Data;Data Mining;HIS;Disease Prediction

Design and Analysis of Disease Prediction Model Based on Data Mining

LI Feng-hua1,2,ZHAO Run-lin2
(1.Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000;2.University of Chinese Academy of Sciences,Beijing 100190)

國家自然科學基金項目(No.61272480)

李奮華(1977-),男,山西昔陽縣人,博士,講師,研究方向為數據挖掘、社會計算和電子健康

2016-05-02

2016-06-20

在大數據時代,HIS在全國絕大多數醫院得到有效推廣,這在一定程度上提高醫院的工作效率,但是也產生一個亟待解決的重要問題:如何能在HIS的海量醫學數據中發現潛在、有價值的信息,從而有效地支持醫生進行疾病的診斷與決策,進而緩解當前緊張的醫患關系。把數據挖掘技術引入到海量醫學數據的分析中,提出一種基于決策樹的疾病預測模型,并在實際的醫學疾病數據集上進行驗證,能取得較好的預測效果。

大數據;數據挖掘;醫院信息系統;疾病預測

趙潤林(1960-),男,山西運城人,本科,副教授,研究方向為計算機系統結構

In big data era,HIS is applied in many hospitals of our country in order to improve their work efficiency.But there is a challenging problem to solve:how to find some latent and valuable information or principles from the massive data in HIS is very important,because this not only can support the disease diagnosis and decision of doctors in some extent,but also can relieve the tense relationships between doctors and patients.Applies data mining technologies to the analysis of massive medical data,proposes a disease prediction model based on decision tree method.Through the experiments of real medical datasets,some empirical studies are shown to demonstrate the effectiveness of this model on real medical data sets.

猜你喜歡
決策樹數據挖掘對象
涉稅刑事訴訟中的舉證責任——以納稅人舉證責任為考察對象
探討人工智能與數據挖掘發展趨勢
判斷電壓表測量對象有妙招
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
攻略對象的心思好難猜
基于決策樹的出租車乘客出行目的識別
區間對象族的可鎮定性分析
基于肺癌CT的決策樹模型在肺癌診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合