?

基于自然語言處理的腫瘤??撇v質控系統建設

2024-03-15 08:01劉偉偉王立軍衡反修
醫學信息學雜志 2024年2期
關鍵詞:分詞知識庫病案

劉偉偉 王立軍 龐 娟 王 丹 衡反修

(北京大學腫瘤醫院暨北京市腫瘤防治研究所信息技術服務部/惡性腫瘤發病機制及轉化研究教育部重點實驗室 北京 100142)

1 引言

電子病歷系統是醫療系統與臨床業務結合最緊密、臨床使用最多的醫療系統之一。為提高電子病歷書寫質量,國家衛生監管部門相繼出臺《病歷書寫基本規范(試行)》[1]和《醫療機構病歷管理規定(2013年版》等文件,2018年12月出臺的《電子病歷系統應用水平分級評價管理辦法(試行)》和《全國醫院信息化建設標準與規范(試行)》[2]要求各地醫院進一步推進病歷信息化進程,提高醫院醫療服務質量,對電子病歷數據質量提出了更嚴格、具體的要求。

張坤麗等[3]應用基于規則的方法對電子病歷數據進行結構化,采用最大熵模型對電子病歷進行分類,以提高病歷結構化的準確性,但該模型僅對首次病程記錄進行去重處理及自動差異化分析,涉及病案種類較少,難以實現全覆蓋。宋源等[4]基于模式層與后臺數據層構建功能性胃腸病中醫藥知識圖譜,建立較完整的胃腸病知識庫,但是病歷內容分詞較少、知識庫不夠全面。馬啟賢[5]提出一套中文電子病歷標注規則以及兩種實體識別方法,提高識別與分詞準確性,但是模型驗證數據量有限,魯棒性較差。

針對醫院病歷質量管理延遲、質控流程覆蓋面窄、??漆t院質控規則缺乏等問題,北京大學腫瘤醫院搭建基于自然語言處理(natural language processing,NLP)技術的腫瘤??撇v質控系統,實現全院患者病歷質量全流程閉環管理。該系統通過自然語言處理完成分詞及語義分析,實現電子病歷文書后結構化,并借助知識圖譜搭建適合該院的??祁愔R庫、質控規則引擎庫[6],建立高效且實用的??齐娮硬v質控系統。

2 質控流程

2.1 傳統病歷質控流程

北京大學腫瘤醫院電子病歷系統于2014年上線。隨后針對住院患者增補上線時限類質控功能,主要包括住院患者入院記錄、日常病程時間提醒與質控,減少超時病歷。終末病歷依舊延用傳統質控模式,見圖1。由醫務部門專人抽查質控,耗時耗力;隨機抽查質控容易遺漏,質控問題不全面;容易出現主觀判斷失誤等問題。

圖1 傳統電子病歷質控流程

2.2 人工智能電子病歷質控流程(圖2)

圖2 人工智能電子病歷質控流程

為進一步加強醫療機構病歷管理,提高病歷內涵質量,助力醫院高質量發展,構建以機器學習、人工智能(artificial intelligence,AI)為核心的電子病歷內涵質控體系。利用自然語言處理技術,以知識庫和規則庫為引擎,研發“住院病歷質控、門診病歷質控、病案首頁質控、病案質量與核心制度監管、腫瘤??瀑|控”電子病歷內涵質控系統,形成電子病歷“前置審核、全面覆蓋、過程監管、閉環管理”的全新質控模式。實現患者病歷文書全覆蓋質控,實時檢出病歷問題并及時提醒醫生修改,完成病歷的前置審核與監管?;颊叱鲈呵也“甘液炇詹v后,本科室質控員與醫務處質控管理員可登錄質控系統針對有問題病歷文書發送整改通知,醫生修改后及時反饋,實現問題閉環管理可追溯。該系統可有效提高臨床科室和管理部門的工作效率。

3 系統實現

電子病歷內涵質控系統主要通過集成平臺進行實時數據同步,輔助以抽取、轉換和加載(extract-transform-load,ETL)技術抽取歷史數據。數據同步后利用自然語言處理、機器學習等人工智能技術,進行分詞、整合、歸一等操作處理,形成大數據醫院管理平臺等數據應用。數據集成流程,見圖3。

3.1 數據源接入

數據來源是數據集成流程中的基礎,除HIS、檢驗檢查等常規數據來源外,還有電子病歷的異構文本數據,因此將病歷文書內容后結構化處理,進行數據整合,從而形成智能醫學數據中臺[7],實現各系統數據共享。每日利用數據中臺同步終末病歷患者的基礎數據,完成質控。結合電子病歷系統間實時數據交互接口進行環節病歷患者數據同步,有問題及時提醒,文書每次保存后毫秒內即可完成反饋,縮短醫生等候時間。

3.2 自然語言處理

面對海量的患者數據,集成流程中數據處理環節是最復雜也是最為重要的一步,運用自然語言處理技術,處理多源異構數據,實現數據的融合與匯集。結合命名實體識別與信息提取技術,識別疾病、藥物等文本實體,并從中提取關鍵信息,如入院記錄中的過敏原、腫瘤分期等。對所提取數據進行集成、清洗、分類、情感分析、規范、質量控制,從而轉換成結構化可利用數據。系統歸并清洗了全院近1年超過十萬份的病歷數據以及超過百萬條的檢驗檢查醫囑結構化數據。

由于醫學術語主觀性表達較強,同一名詞在實際數據中存在不同醫生采用不同書寫方式的現象。利用醫學知識庫的數據字典將院內使用的不同書寫方式進行標準化處理并保存在知識庫中,在實際質控時將其映射至統一實體名稱,消除書寫方式不同導致的語義差異。構建符合腫瘤醫院需求的腫瘤??浦R圖譜,包括醫療實體、關系、屬性,如疾病與癥狀,癌癥癥狀包括脫發、疼痛等;藥物與藥品,抗腫瘤藥物包括放療藥、化療藥等;疾病治療和診斷方法,化療、放療以及檢驗、穿刺病理等。系統立足醫院醫療數據,以腫瘤為核心,構建包含抗腫瘤藥品、檢驗、放化療等8類十萬條規模的知識實體,11類近百萬條實體關系的知識圖譜。

系統在應用自然語言技術的同時融合醫院腫瘤??铺厣?,對部分分詞切詞進行醫學標注,進一步加強對腫瘤相關病歷文書的分解與保存,提高準確率。以入院記錄的初步診斷TNM分期規則分詞為例,入院記錄中診斷“1.外陰皮膚惡性黑色素瘤術后T2bN2aM1aIV期,1.1.左腹股溝淋巴結清掃術后(3/9),1.2.雙肺多發轉移;2.周圍神經病”。首先,找到診斷數據中實體并對相應實體進行標注,包括部位、程度、腫瘤、階段、TNM分期、臨床分期;其次,根據主次診斷、腫瘤診斷分期、不同實體間的邏輯關系,進行對應語義標注與關系串聯,見圖4。

圖4 入院診斷語義分詞分析

針對腫瘤??漆t院特色,對入院記錄、出院記錄、抗腫瘤日常病程等文書,共計近千份文本數據的醫學標注,制定了14條腫瘤??铺厣|控規則,質控涉及入院記錄、出院記錄、日常病程、手術記錄、知情同意書等各類文書。

3.3 知識庫

知識庫建立過程中,基于國際疾病分類(international classification of diseases,ICD)、醫學系統命名法(systematized nomenclature of medicine,SNOMED)等疾病術語標準,權威指南以及醫學質量管理體系、衛生信息交換標準(health level 7,HL7)等,借助臨床醫生幫助,建立醫學專業術語與臨床日常書寫習慣的對應關系[8]。利用半監督機器學習方法獲取初始醫學數據建立本體庫,借助語義之間的關聯,利用機器推理和人工糾偏,參考醫學相關概念和聯系,形成較完整的數據層次結構,建立同一疾病間的上下層級關系表和上下語義之間的關聯,其中包含概念、屬性、關系和實例,以結構化形式表現。處理全院患者本體數據,形成疾病知識庫、藥學知識庫、術語癥狀庫、輔助檢查知識庫、治療操作庫、文獻指南庫等。全量本體數據達到800萬條,其中院內知識庫內容均達到萬條級別:術語癥狀庫超過9萬條,疾病知識庫超過7萬條,治療操作庫超過5萬條。

3.4 數據應用性能設計

為進一步加快數據處理速度,提高質控效率,進行如下優化。一是優化操作頁面,對于響應時間要求高的操作頁面,如電子病歷點擊保存最新數據時,均嚴格遵守高性能操作頁面設計原則,保證使用效率。二是調整數據庫,利用分布式文件存儲數據庫MongoDB的非關系型數據庫,將不同類型的表存儲于不同的表空間,做好不同來源數據的分類。結合用戶建議和使用頻率,定時將部分歷史數據遷移至備份庫,使每次質控的數據保持在較小數量級內。三是利用數據庫連接池,作為質控系統的核心,數據庫高頻次打開和關閉會占用大量系統資源。利用服務器提供的數據庫連接池高級特性,在系統建立之初創建若干數據庫連接,使用系統時,只需快速地從連接池中得到一個已經建立好的連接即可,大大提高數據庫訪問速度,縮短用戶等待時間。

4 應用效果

4.1 運行情況

AI質控系統在全院運行半年以上,相較于傳統質控流程,具有以下優勢。一是通過優化電子病歷模板減少了書寫失誤。針對文書必填項等要求,在制作模板時利用電子病歷內嵌功能設置必選屬性,“前置質控、源頭治理”。重要病歷模板采用結構化模式統一代碼,以結構化數據集存儲,提高數據質量。二是實時提醒并及時整改。在院患者采用環節質控,醫生在書寫保存病歷時實時傳輸數據,可接收小程序彈窗實時提醒,并根據提醒內容修改問題文書??剖屹|控員可通過質控程序查看本科室在院患者文書書寫質量情況,根據問題發送整改通知,進一步提高病歷質量。三是智能手段與人工結合逐步提升質控準確率。出院歸檔患者采用終末質控,醫務處對內涵質控系統檢出的乙級、丙級病歷進行人工核查,減少機器誤判及醫療特殊情況扣分情況,并對誤判內容人工標注后再次分詞處理,豐富知識庫,減少誤判。

4.2 運行分析

系統自上線以來,在全院各科室使用,覆蓋率達100%,遠超人工質控效率,見表1。隨著質控工作的進一步深入,醫務處及時收集臨床使用中有關系統、質控規則、使用范圍的問題,反饋并調整系統,更新機器學習模型及分詞規則,不斷擴大知識庫,更好地適應腫瘤??莆臅馁|控需求。

表1 住院病歷不同質控方式比較

通過環節質控實時彈窗提醒,當得分低于甲級病歷時,病歷扣分細節自動彈出提醒醫生及時修改。2022年10月彈窗功能上線以來,每份病歷的點擊量明顯上升,見圖5,反映醫生對于每份缺陷病歷均能及時點擊修改。由此甲級病案率由2022年7月的88%增長至2022年12月的96%,見圖6,從源頭解決了文書缺陷問題,大大提升了病案質量水平,減少了病案糾紛。

圖5 質控系統上線后每份病歷點擊量

圖6 質控系統上線后甲級病案率

系統在原有規則的基礎上,針對醫院特色開發腫瘤??埔巹t,進一步滿足《病案管理質量控制指標》(2021年版)[9]的要求,提高了醫院管理效率及質量,見表2。

表2 腫瘤??埔巹t上線效果

5 結語

病歷質控系統集成醫院各業務系統醫療數據,進行數據后結構化處理,搭建醫院智能數據中臺,建立腫瘤??浦R庫及質控規則庫。搭建并推廣了電子病歷“前置審核、全面覆蓋、過程監管、閉環管理”的質控模式,最終實現院內質控100%覆蓋,全院甲級病案率提升至96%,提升了全院的病案質量。

但是實際運行中尚存在病歷模板結構化程度低、文書內容主觀表達強、后結構化分詞不準確等問題。未來將進一步提高文書模板結構化覆蓋率及原始數據質量,充分利用自然語言處理技術進一步加大醫學數據標注量級,結合醫生書寫習慣及時更新知識庫,從而提高分詞準確率,推動醫療質量提升。

利益聲明:所有作者均聲明不存在利益沖突。

猜你喜歡
分詞知識庫病案
基于二維碼的病案示蹤系統開發與應用
分詞在英語教學中的妙用
試析病案管理中預防病案錯位發生的方法
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
高速公路信息系統維護知識庫的建立和應用
試論病案管理在防范醫療糾紛中的作用
基于Drupal發布學者知識庫關聯數據的研究
新病案首頁中存在的問題及對策
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合