?

基于數據挖掘技術的門診合理用藥分析

2014-05-31 01:41韓蓉吳俊
中國醫療設備 2014年4期
關鍵詞:數據挖掘關聯門診

韓蓉,吳俊

南通市腫瘤醫院 信息科,江蘇 南通266000

0 前言

數據挖掘是指從大量的、不安全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中人們未知的、但又具有潛在應用價值的數據,建立模型,提供給分析預測部門[1]。將數據挖掘技術應用于門診合理用藥分析的研究不僅有利于門診用藥信息結構化,促進門診用藥合理化研究,還有利于提示門診用藥與季節、科室、醫保政策是否允許等多層關聯屬性的研究。近年來,國內將數據挖掘應用于醫學、藥學的研究越來越多,秦莉花等人[2]將其應用于絕經綜合征焦慮、抑郁的相關因素的研究中;于紅艷等人[3]將其應用于中藥藥性屬性與其他屬性的研究。臨床上利用數據挖掘算法找出提高孤立性肺結節(solitary pulmonary nodul,SPN,一種肺癌的先兆病癥)的診斷率[4];用數據挖掘方法來分析早期乳腺癌診斷的X光片,達到了比較滿意的準確率(70%以上)[5]。大量研究證明,醫學數據挖掘有廣闊的應用前景[6]。

1 目的

遏制藥品不當促銷行為,控制藥品費用不合理增長,使患者用上既安全又經濟的藥品一直是醫院藥事管理部門追求的目標,針對用藥的不合理性,國內大部分醫院的操作模式是從各個科室抽調負責人或技術骨干成立處方點評小組,由他們負責對門診處方用藥及配伍的合理性、用藥規范性進行考核及點評。這樣的手工模式效率低、誤差高,而且有時因人為原因不能及時進行處方點評,導致問題不能及時發現。因此本文嘗試將數據挖掘的方法應用于醫院門診用藥的合理性分析,從海量的醫療數據中找出門診各科室醫生、處方金額、藥品用量、是否醫保政策允許范圍藥品等之間的關聯規則,找出門診用藥可能存在的問題,及時指導、更正甚至處罰,真正做到減輕患者經濟負擔,解決人民群眾“看病難、看病貴”問題。

2 方法

2.1 數據預分類

數據預處理主要目的是消除或減少數據噪聲和處理缺失數據,盡量減少數據“不一致性”“不完整性”等干擾因素,提高數據質量[2]。針對本文挖掘的目的,我們將數據分成以下幾大類:

(1)疾病診斷類。病史類中的屬性是為了說明病人來院前和當時的病情狀況及相關情況。這部分屬性分疾病主診斷,疾病次診斷等。

(2)檢查類。檢查類中的屬性主要是反映病人入院后所做檢查的結果。該數據主要從病人的檢驗、體檢和其他檢查及病程記錄中抽取,如:血壓、脈搏、呼吸、血常規、大生化、凝血三項、超聲、胸片等屬性。該類屬性大多會有多屬性和多次檢查值,因此要建立這些屬性間的關聯及屬性值間的關聯。

(3)用藥類。該類中的屬性主要反映病人在我院門診開藥的情況,藥品單價、藥品數量、藥品金額、開單醫生等。

(4)醫保政策類。該類中的屬性主要反映病人的參保類型,有自費、醫保、農保等。

2.2 數據處理

對于抽取后存入數據庫的原始數據不完整和不一致的采用填充空缺值、糾正非法值和糾正數據不一致性的方法進行處理。這部分主要是如何將數據轉換成統一的格式,以適合數據的再處理。一般在海量的數據上進行復雜的數據分析和處理將花費很長的時間,甚至有時導致處理無法完成。而數據歸約技術則可以得到小數集的歸約表示,但仍能保持數據的完整性。

本文在研究過程中用到概念分層技術,主要涉及到的部分有開藥的日期、疾病診斷、開藥藥品單價、開單醫生、所屬科室等。醫保政策屬性則被歸約成醫保政策允許與不允許兩種。

維歸約技術是通過刪除不相關維來減少數據量的,屬性子集的選擇可以用基本子集的啟發式方法,這種方法主要包括逐步向前選擇、逐步向后刪除、向前選擇和向后刪除的結合和判定的歸納技術。本文采用逐步向后的刪除技術。

維歸約技術涉及到的維有病人癥狀、病人病史、個人史、輔助檢查、病人參保性質等。下面舉例說明維歸約技術在本文中的應用。

(1)醫保政策是否允許(Sfzl)。門診病人的醫保屬性有好多種,有農保、市區醫保、縣區醫保等,我們就將其歸約為醫保政策允許與不允許。

(2)藥品處方金額(Jined)。處方金額設定≥300元即為大處方,用d表示,反之用j1表示。

(3)開藥日期(yf)。這部分數據是以月份形式表示的,所以我們根據醫院專家的建議將其開藥時間分為4段,即0~3月為1段,4~6月為2段,7~9月為3段,10~12月為4段,也就是春夏秋冬四季,這樣劃分的意義在于,評估病人用藥的多少是否和季節有關。

(4)藥品單價(ypdjd)。根據抽取的數據,最小金額為1.12元,最大金額為2596元。所以將其劃分為0~50元、50~100元、100~150元、150~200元等幾部分,分別用b1、b2、b3、b4、b5、b6 表示。

(5)藥品數量(shuld)。根據抽取的數據,最小藥品數量為1支(粒),最大為1~10支(粒)、10~20支(粒)、20~30 支(粒)、30~40支(粒),40~50 支(粒)、50~100 支(粒),分別用 a、b、c、d、e、f表示。

(6)醫生科室(ksdm)。因為在數據庫中抽取的科室代碼均為數值型,我們將這些代碼均用字母代替,如 93、141、83、175、84、81 用 字 母 表 示 為 a、b、c、d、f、g。映射后得到的部分屬性數據庫,見表1。

表1 映射后的部分屬性數據庫

3 關聯規則挖掘與結果分析

根據研究目的的數據源數據屬性特點,本文采用關聯規則方法,關聯規則就是從事務數據庫、關系數據庫和其他信息存儲中的大量數據的項集之間發現有趣的、頻繁出現的模式關聯和相關性。若2個或多個變量的取值之間存在某種規律,就稱為關聯。關聯規則[7]是R.Agrawal等人于1993年首先提出的。關聯規則的挖掘過程:

找出所有的頻繁項集,即找出所有那些支持度大于事先給定的最小支持度的項集。由頻繁項集產生強關聯規則:這種規則必須同時滿足最小支持度和最小置信度。對每一頻繁項目集A,找到A的所有非空子集a,如果比率support(A)/support(a)≥min_conf,就生成關聯規則a≥(A-a)。support(A)/support(a)即規則a≥(A-a)的置信度。即此過程分為兩個步驟,第一步找出頻繁項集,第二步再從頻繁項集中找出置信度,或者說滿足置信度的關聯規則。這些既滿足置信度,又滿足支持度的關聯規則,就是強關聯規則,也就是我們挖掘的結果。

收集2012年某三甲醫院門診用藥信息,采用自主開發的軟件經過抽取、清理、轉換數據、最終裝載入數據庫,分析是否存在大處方的可能性,給定最小支持率minsup=0.1,最小置信度minconf=0.7,挖掘出74條關聯規則,這些關聯規則中有意義的部分及其最小支持度與最小可信度,見表2。

根據這些規則我們可以分析得出大處方存在的可能性,是否是醫保政策允許范圍的病人等。從表2可以看出,如果是醫保政策允許的病人則其處方金額≥300元,藥品單價<50元的可能性為81%,支持度為0.190752;同時我們也發現如果藥品數量<10且科室代碼為l(經查為婦科),則不是醫保政策允許范圍的病人且開的藥品單價<50元的小處方的可能性為91%,支持度為0.168519。

表2 有意義的關聯規則(minsup=0.1,minconf=0.7)

經過挖掘實例演示分析發現:關聯規則與輸入的參數有很大的關系,輸入的參數值不同,產生的關聯規則也不同,有時甚至產生大量模糊的關聯規則。同時若數據源選取的不同,也是會產生不同的關聯規則。

經過評估,數據挖掘階段發現出來的模式可能滿足用戶的需求,也可能不滿足。這就需要管理員在不斷完善挖掘過程中積累的經驗,對挖掘模型的參數進行調整,以達到更好的挖掘效果。

因為用戶在挖掘過程中也可能存在冗余或無關的模式,這時則需要整個發現過程回退到前一階段,如需要用戶重新選擇數據源,設定新的參數值,直到達到用戶滿意為止。

挖掘結果應用:① 門診有大處方存在,但是藥品單價并不高,而且一般是醫保政策允許范圍的病人,藥事管理部門就此情況在醫生處得到證實,這種情況比較普遍,因為參保病人(醫保政策允許范圍的病人)認為醫保帳戶上的款項取不出來,自己開藥也就順帶幫家人開些藥;② 分析看出,如果是自費病人(非醫保政策允許的病人),存在大處方的可能性很??;③ 我們還發現,該院婦科醫生開的處方一般性價比較高,金額都比較小。所以整體來說該院2012年全年門診用藥情況還算良好。

4 結論

本文采用自主開發的軟件抽取、清理、轉換數據、裝載入庫,通過設定最小支持度,最小可信度,挖掘出有意義的關聯規則,對這些規則分析解釋得出的結與門診科室真實情況大體一致,證明了關聯規則挖掘在門診合理用藥分析中的有效性。這些結論為藥事管理部門分析門診用藥合理性提供了重要的依據,得到藥事管理部門的認可與好評。隨著數據庫、人工智能等新技術的發展,在數據挖掘技術應用于醫學領域必會有很多知識發現[8],本文只是提供了一個用數據挖掘來指導門診用藥合理性分析的一種方法,下一步將嘗試其他合理用藥的分析研究,以后還會進一步嘗試將關聯規則的挖掘方法應藥理分析、抗菌素等其他合理用藥分析中。

[1]崔園.數據挖掘在中文病歷分類中的應用[J].計算機與數字工程,2011,(3):160-163.

[2]秦莉花,陳曉陽.基于數據挖掘的絕經綜合征焦慮、抑郁的相關因素研究分析[J].時珍國醫國藥,2013,24(6):1431-1432.

[3]于紅艷.許成剛關聯挖掘技術在中藥藥性及其他屬性間關系的應用研究[J].中國實驗方劑學雜志,2013,19(14):343-346.

[4]Rakesh Agrawal,Tomasz Imielinski,Arun Swami.Data Mining:Medical and Engineering Case Studies[A].Proceedings of thd ILE Research 2000 conference[C].Cleveland, OH,May 2000:1-7.

[5]翟愛珍,莊人戈.計算機輔助醫學診斷系統的數據挖掘和知識發現研究[J].國外醫學生物醫學工程分冊,2002, 25 (3):97-103.

[6]蔣儀,陳輝,管曉福,等.淺談抗菌藥物信息系統建設[J].中國醫療設備,2013,28(10)64-66.

[7]A kusiak,KH Kernstine,JA kern,et al.Database mining:A Performance Perspecetive[J].IEEE Transactions.on Knowledge and Data Engineering,1993,Vol.5:914-925.

[8]童元元,霍剛.數據挖掘技術在中藥研究中的應用進展[J].中華中醫藥學刊,2010,(5):1067-1069.

猜你喜歡
數據挖掘關聯門診
門診支付之變
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
“一帶一路”遞進,關聯民生更緊
奇趣搭配
智趣
漢字小門診系列(四)
漢字小門診系列(九)
漢字小門診系列(八)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合