?

基于規則的臨床病歷感染癥狀的檢測

2013-08-15 00:54王錦
科技視界 2013年10期
關鍵詞:術語短語規則

王錦

(安徽電子信息職業技術學院,安徽 蚌埠233030)

0 引言

大多數病歷中的臨床信息存儲在自由文本中。然而,以這種方式存儲信息很難在決策支持系統或自動監護系統中應用。提取計算機可讀信息的方式各不相同,許多系統采用字符串匹配的方法提取需要突出的數據元素。這種方法非常直接,但這種方法忽略強有力的同義詞和否定詞概念。更高級的自然語言處理系統已經開發出來,這些系統能夠得到不同程度的成功取決于臨床領域的范圍和所需數據的顆粒度。

臨床癥狀和體征是任何病歷文本中的關鍵部分,包含與疾病表現形式和藥物治療相關的信息。從自由文本的癥狀和體征信息中獲取信息是復雜的,有若干影響因素。這些數據在以雙字符串匹配及其概念為基礎的繪圖軟件中經常被記錄縮寫詞。審查系統信息中,以簡寫的形式記錄癥狀是普遍存在的。因為這些信息是必要的。此外,這些信息在不同部分的重復敘述,都有不同的解釋?;蛟S最重要的是頻繁地使用否定詞的臨床癥狀(術語)。當癥狀信息在文本中出現而報告中不存在時就可能導致假陽性檢測。

我們設法進行以規則為基礎的算法性能評估,使用自然語言處理系統作為輸出端,提取一組表現為非特異性的研究結果的感染性綜合征。這種類型的評估在急診和初級衛生保健的文檔中尚未完成。此外,我們得出確定、否定或不確定的癥狀,因為這樣的調查結果與經常使用的否定詞相關聯。

1 方法

1.1 研究設置及數據源

采用一個全國性的電子健康檔案(EHR),提取了大約33000名患者的臨床醫療記錄,這些患者均是從1999年9月30日至2012年9月30號在6個醫療中心手術住院的。所有由急診科(ED)、緊急護理診所(UC)、或一個初級保健診所(PCC)抽取的醫療文檔由醫師剔除地方和國家的文件標題。文檔的標題沒有完全符合邏輯觀察的標示符名稱和代碼(LOINC)規定的情況下,從該類別中的幾個具有代表性的標題中手工檢查以確定該類編的資格。然后我們產生不同的訓練和測試數據集。從數據集中采用隨機分層方式分別抽取ED、UC、PCC的臨床就診記錄20個共60個創建一個訓練集。以同樣的方式額外不重復從數據集中分別抽取ED、UC、PCC各148個共444個文檔創建一個測試集。

1.2 多線程臨床詞匯服務器

自然語言處理系統在這次評價中已經使用很長的一段時間,并在使用詞匯術語和術語之間臨床層次關系的醫學概念上建立索引。在UMLS、HL7、中的術語結構超過140萬個字符串,包括縮寫詞、詞匯、同義詞、修飾詞和限定詞。該系統還具有一個拼寫檢查和修正功能。(MCVS)評估敘述性文本,以從候選詞中選取最終的概念和主張。這些候選詞根據每個字或詞的值的詞義提供的覆蓋范圍和它們在臨床術語之間的關系選取。

1.3 規則的演變

每個癥狀的檢測規則演變了三個迭代。迭代應用在訓練集文檔,并使用關鍵詞和概念匹配。精確匹配的字符串在NLP系統中定義成術語,并定義為關鍵字。這些規則可以表示為非展開概念的任何組合,這些概念包括它們的孩子,和(或)關鍵字匹配法。當關鍵字匹配法包含多個單詞時,一個成功的匹配被定義為找出在同一個句子的跨越兩個短語以任何順序排列的所有分量的詞。此外,規則中有被推翻的術語。這意味著有的否定癥狀術語當作一個確定的術語。例如,確定術語 “無黃疸”和否定術語“黃疸之間”,“非腹脹”與“腹脹”。因為我們不能改變NLP系統的代碼,所以我們無法進行迭代改善否定詞的性能。NLP系統分配關鍵詞和概念的描述。萬一關鍵詞和概念規則分量存在描述分歧,概念規則通常要判斷。

1.4 數據分析

為了衡量癥狀檢測規則的性能,我們在訓練集中規則迭代完成后在測試集評價規則的性能。分析單位是短語。在每個短語中,每個癥狀可能存在一個單一的時間上。一個癥狀匹配算法在人工審核和以規則為基礎的自動算法中對一個癥狀短語(不管描述)的判定是相符的。癥狀匹配法的描述是手動審核和自動化算法的協議。

以規則為基礎的自動化算法從查全率、精確度及F值進行評估,分別用測試集中的結果真陽性(TP)、假陽性(FP)及假陰性(FN)表示。對于每個癥狀,假陽性是由系統查找,沒有通過手動標注器,而假陰性是通過手動標注器發現的。

2 結果

該系統一共分析了12224條句子,這些句子均來自444個文檔。這些句子分解成28040個短語,以便將它們映射到SNOMED-CT的概念和關鍵字中以及檢測概念和關鍵字描述。這使得90673條短語被映射成概念,其余36410條短語沒有被映射,保留作為關鍵字。

一共有2679條癥狀短語在人工評審和第三方評審的測試中檢測到。呼吸急促癥狀出現3次,水腫出現343次,可以作為表2中真陽性和假陰性結果數的總和。在這些癥狀短語中,976個癥狀短語(36.4%)為確定性描述,1542個癥狀短語(57.6%)否定性描述,161個癥狀短語(6.0%)不確定性描述。有917個癥狀短語有歧義,913個癥狀短語由單獨評審發現。有91個歧義描述由兩個主要評審中發現。所有手工評審的F度量的平均值為0.805。在第三次評審判別歧義癥狀短語后,734個癥狀短語(80%)被評審人證實是正確的,183個癥狀短語是不存在的,6個屬于不同癥狀的。

通過以規則為基礎的自動化檢測算法,在測試集中一共檢測出2451個結果,分別有2236個真陽性結果和215個假陽性結果。表2中癥狀的真陽性和假陽性之和可以確定癥狀的出現。1223個癥狀(49.9%)為確定性描述,1215個癥狀(49.6%)為否定性描述,13個癥狀(0.5%)為不確定性描述。

相比于手工評審集,自動化癥狀檢測算法的整體性能的測量精度為0.91,查全率為0.84,F值為0.87((TP=2236,FP=215,FN=443)。9個不同變化頻率的癥狀重,黃疸的變化范圍為0.35~1.00?;叵胍幌聫?.30~1.00變化范圍的癥狀(黃疸、打噴嚏和厭食),這些癥狀都是比較特殊的。

相比于手工評審集,癥狀檢測算法的整體性能測量精度為0.67,查全率為0.62,F值為0.64(TP=1654,FP=807,FN=1035)。例如,腹脹,19(6+13)情況下被自然語言處理系統發現,并沒有被手工評審發現。另外,有NLP系統和手工評審均通過的34個癥狀中,NLP系統認為是確定性描述,手工評審認為是否定性描述。請注意,由于對于一個癥狀的描述,計算單個多級別精度和查全率的測量值是不平衡的算法,所以某些應變矩陣的元素的FP和FN應計算多次。表4描述的是每個癥狀規則的癥狀檢測描述性能測量值(準確率、查全率和F值)。該系統正確檢測出84.7%(646/762)的確定性描述、75.1%(1001/1333)的否定描述,和0.7%(1/141)的不確定性描述。

3 結論

總體而言,包含關鍵字和術語的檢測規則的自動化算法在臨床記錄中的感染癥狀檢測中的表現非常出色。癥狀檢測算法的表現好壞取決于臨床記錄中不確定性和否定性癥狀的比例。該系統能很好地協助檢測敘述性文檔的各種臨床癥狀以支持實時臨床決策和公共健康活動。今后的工作將是系統開發和以規則為基礎的癥狀檢測和描述確定算法的改進。

[1]王燦輝,張敏,馬少平.自然語言處理在信息檢索中的應用綜述[J].中文信息學報,2007,21(2):35-45.

[2]李毅,保鵬飛,薛萬國.中文電子病歷的信息抽取研究[J].生物醫學工程學雜志, 2010,27(4):757-762.

猜你喜歡
術語短語規則
數獨的規則和演變
讓規則不規則
TPP反腐敗規則對我國的啟示
《健民短語》一則
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合