?

毒蛇咬傷專病數據庫的建設實踐與思考

2024-04-08 05:28施婉玲張美吉李凡珂謝文明
醫學信息 2024年6期
關鍵詞:專病字段術語

施婉玲,張美吉,李凡珂,謝文明

(福建中醫藥大學附屬人民醫院瘡瘍蛇傷脈管外科,福建 福州 350000)

據世界衛生組織統計,至2019 年,全球有約540 萬例毒蛇咬傷,其中180 萬~270 萬例發生了中毒,導致8.1 萬~13.8 萬人死亡[1]。我國有毒蛇80 多種,劇毒蛇20 種,主要分布在長江以南地區,每年毒蛇咬傷達10 萬人次,其中73%為中青年,蛇傷死亡率為5%~10%,蛇傷致殘喪失勞動能力者占25%~30%[2,3]。福建蛇類繁多,數量亦甚,與人類的生活息息相關。據調查[4],福建地區現有已知蛇類86 種,隸屬7 科45 屬,在全國蛇類總種數的219 種中占39.27%,種類數居全國第3 位。其中毒蛇32 種,居全國毒蛇總數首位。由于受醫療條件的限制,患者不能及時得到準確的診斷而耽誤治療,導致殘廢,甚至喪生。我院為福建省蛇傷急救中心、國家級福建黃氏蛇傷學術流派傳承工作室建設單位,已在全省各地市搭建了10 個二級蛇傷工作站。中心每年收治大量毒蛇咬傷患者,為探索毒蛇咬傷患者診療數據的匯集方法,構建毒蛇咬傷專病數據庫,在實時對接醫院系統數據的基礎上,通過數據標準化、結構化、歸一化等數據治理,形成對醫療全量數據的匯集,并基于國內外臨床指南、高分文獻、專家臨床經驗等篩選變量,形成高標準的蛇傷專病數據集,以期為福建省毒蛇傷咬傷流行特征分析及防治策略研究提供平臺,更好地指導各地市二級工作站的蛇傷救治,同時助力科研成果轉化。

1 需求分析

在傳統的臨床科研過程中,科研人員將28%的時間花費在病例篩選上,41%的時間花費在數據提取上,并手工將數據錄入科研數據庫。這種傳統的數據采集方式不僅耗時費力,性價比低[5],而且存在諸多問題,如病歷搜索不方便耗時費力、數據質量不高難以直接便用、需持續的人工成本支出、數據標準更新迭代時需重新手工補錄數據、數據真實性難以驗證、同樣數據復用于多項研究時需重新錄入等問題,見圖1。

圖1 傳統數據采集存在問題

2 建設過程

為節省科研人員時間,幫助臨床科研人員擺脫傳統科研數據采集提取的困難,我院在現有臨床業務系統的基礎之上,利用人工智能技術,完成臨床數據的集成和治理,建立臨床數據中心,形成用于蛇傷科研項目的專病數據庫。系統架構見圖2。

3 建設流程

3.1 制定專病標準數據集 根據實際科研需求,以CDISC 數據標準為基礎[6],參考國內外相關蛇傷數據模型及數據標準進行整理,并完成數據變量IT 標準的定義,包括:數據元的命名、定義、數據類型、值域、等級、來源等,去除相似數據元以保證內容無沖突,去除非法字符以保證內容正確性,最后將數據元按照架構和分類統一編碼。最終確認了包括618 個字段的33 個數據表,包含蛇咬傷信息、基本信息/人口學資料、就診信息、轉科信息、診斷信息、診療費用、癥狀信息、中醫四診信息、中醫辨證信息、體格檢查、??茩z查、既往情況、家族病史、過敏史、生活習慣、實驗室檢查、心電圖檢查、影像學檢查、中醫治則治法、中醫治療信息、西醫治療信息、不良事件記錄等,構建了蛇傷專病標準數據集。在此基礎之上,確定了患者入組的納排條件,實現蛇傷專病庫上線后符合條件的患者數據自動填入專病數據庫,見圖3。

圖3 蛇傷專病庫建設流程

3.2 基于醫學人工智能的專病數據自動采集

3.2.1 數據集成 采用基于容器技術的分布式架構Kubernetes(k8s)部署,Kubernetes 集群技術是一個容器編排引擎,支持自動化部署、大規??缮炜s、應用容器化管理,滿足擴展要求、故障轉移、部署模式等[7]。采用PostgreSQL 的大規模并行數據庫。具有較高的性能與穩定性[8],可以支持到數PB 的海量數據。

實時數據集成方案:針對我院的實際情況,確定實時數據通過數據庫數據變化日志實時捕獲數據。具體解決方案為:①Oracle:Data Guard 主從備份(支持1 主多從)+異步在線日志CDC(數據變更捕獲);②Sql server:數據庫復制+CDC;③Cache:數據庫鏡像shadow 庫,見圖4。

圖4 實時數據集成

歷史數據集成方案:Oracle/SqlServer。為了降低對實時數據集成的影響,制定本集成方案進行大量歷史數據的集成工作。在歷史數據抽取步驟,采用從備份數據庫中。通過ETL 技術實現臨床數據抽取[9],見圖5。

圖5 非實時(歷史數據)集成

通過臨床數據中心集成了HIS、LIS、EMR、PACS、手術麻醉系統等多個臨床業務系統的數據[10],并依據數據治理的復雜程度。對上述618 個字段進行了分類,其中273 個字段為L1 級別,即可以通過單一數據來源直接利用數據字典映射填充的結構化數據,包括人口學統計學信息、既往治療情況、就診情況等。利用自然語言處理技術可以完成90.77%的字段填充。264 個字段為L2 級別,即需要利用自然語言處理(NLP)技術對非結構化的文本數據進行結構化和標準化處理,結合臨床、藥學、檢查檢驗等醫療專業詞庫。通過分析上下文關系構建多層級語義分析模型,找出文本中不同實體、屬性、關系之間的關聯信息,實現結構化轉換;再通過數據字典映射進行字段填充,包括來自EMR 系統的主訴癥狀、手術記錄、家族腫瘤病史。利用自然語言處理技術可以完成83.71%的字段填充。81 個字段為L3 級別,即需要利用臨床規則。通過對多個來源的字段進行復雜邏輯運算后填充,利用自然語言處理技術可以完成98%的字段填充。

3.2.2 數據治理及質控 蛇傷專病庫核心技術是臨床數據治理引擎?;谙冗M的自然語言處理、知識圖譜等AI 引擎,實現各類臨床數據的結構化、標準化和歸一化等處理。針對數據驅動的臨床研究場景,能夠將醫院積存的海量臨床數據自動結構化、標準化成可被臨床研究直接分析、利用的科研數據。

引擎基于通用數據模型及各類型蛇傷專病數據模型,對臨床文本數據做顆?;?、后結構化處理。運用人工智能結合醫學知識圖譜自動轉化非結構化文本數據[11],以滿足回顧性查詢所需的數據細化程度。同時針對提取出的醫學信息,結合醫學知識圖譜自動完成數據的標準化,進一步提升數據的可用性、可交互性。

數據標準化:數據標準化是通過醫學術語建設、標準化術語基線與分類建設,以及標準化術語本體庫建設等,實現實體映射的一致,消除語義鴻溝[12]。包括:疾病術語標準化、藥品術語標準化、癥狀體征術語標準化、檢驗/檢查術語標準化等。參照醫學術語系統命名法-臨床術語(Systematized Nomenclatureof Medicine -Clinical Terms,SNOMED CT)的設計理念,結合觀測指標標識符邏輯命名與編碼系統(Logical Observation Identifiers Names and Codes,LOINC)、《國際疾病分類》《手術編碼6.0 標準》等術語集,構建符合國內實際應用場景的術語體系[13]標準,見圖6。

圖6 醫學術語標準體系

后結構化:針對病歷文本信息,以自然語言處理技術為基礎,結合臨床、藥學、檢查檢驗等醫療專業詞庫,通過分析上下文關系構建多層級語義分析模型,找出文本中不同實體、屬性、關系之間的關聯信息,實現結構化轉換,見圖7。

圖7 自然語言處理技術

數據質控:數據采集和治理的過程中,對數據的完整性和規范性進行實時質控。通過發現數據缺失或異常值等問題,溯源至原始病歷,督促專病中心醫生規范病歷書寫,提高科研數據質量,避免研究結果的偏倚或失真。

數據清洗:對質量較差的數據,可通過多維數據清洗功能,如標簽、離散化、數據填補、自定義變量等,保證數據的準確性及可靠性[14]。

專病數據建模:治理后的數據,通過語義分析模型、醫療知識圖譜等,形成以疾病為中心、具有完整時間序列的專病數據庫,并可視化展現數據間深層關聯關系,為臨床研究提供更多可能方向。專病庫還支持導入醫師手工采集的課題數據(多為Excel表格式),經結構化處理、數據清洗及分析后,與中心端數據庫中原有數據融合,形成個性化的完整科研數據集。

4 建設成果

從2021 年1 月起,經過了6 個月的建設,我院臨床數據中心完成了2012-2022 年全量醫療數據的篩選和抽取,蛇傷專病數據庫累計完成入庫患者2427 例,入庫病歷8322 萬份。

4.1 智能病歷篩選 蛇傷專病數據庫建設完成后,科研人員可以在科研平臺上按照科研需求通過年齡、診斷、檢查報告等多個維度對病歷進行智能檢索和篩選,節省病歷數據篩選時間。

4.2 數據填充 建立科研項目后,蛇傷專病數據庫中已有數據可自動填充至專病科研項目中,科研人員也可以按需手動錄入和修改數據,并保留數據提交、修改的稽查軌跡。與此同時,系統與科研人員都可以對科研數據進行核查質控。

4.3 數據導出 如有數據導出需求,可通過科研平臺的數據探索功能導出專病項目數據,數據探索包括變量選擇,字段搜索,多變量互斥邏輯判定等功能,查詢結果導出格式可選擇Excel/CSV/SPSS/SAS。

4.4 統計分析 科研人員可利用科研平臺對數據進行描述性分析、差異性分析或預測建模并形成可視化圖形展示。描述性分析方法包括頻數分析、缺失值分析、四分位分析和數據分布分析。差異性分析包括Pearson 卡方、Fisher 精準概率、Wilcoxon 秩和檢驗等分析模型。預測模型包括隨機森林回歸模型,線性回歸,樣本隨機化,二分類Logistic 等。

4.5 機器學習 科研人員可采集蛇傷患者數據利用機器學習算法建立蛇傷預測模型,可以預測患者生存和輔助治療的益處,以指導個性化的治療決策,最終的結果可以是一個數學方程,計算出在接受或不接受特定療法的情況下單個患者的生存曲線。

5 總結與展望

醫療大數據的利用與發展給醫療機構及健康醫療模式都帶來了深刻變化,許多醫療機構均在積極探索海量診療數據的挖掘與利用[15-18],希望通過專病數據庫的建設,依托大數據、數據挖掘、數據處理等技術,結合臨床診療、科研、管理等需求,構建面向科研工作者、醫生、患者、管理人員的臨床科研一體化平臺,為提高醫療質量、疾病防治、科研轉化提供支持[19,20]?;诰唧w臨床診療場景的需求,以專病數據庫為基礎建立蛇傷疾病風險預測模型,通過自動人工智能技術對變量進行篩選,利用批量算法實驗對模型進行評估,找出最優預測模型,為臨床醫生預測疾病風險,輔助臨床監測和治療提供支持。我院蛇傷專病數據庫的建設有助于提升醫生的科研效率,推動我院在蛇傷領域的科研工作,加速科研成果在臨床診療場景中落地應用,形成臨床科研與臨床診療之間的良性反哺閉環——臨床診療為科研提供高質量數據,科研成果在臨床診療場景中落地應用。此外,未來可將我院蛇傷專病數據集在全國范圍內進行推廣,專病標準數據集覆蓋診療全流程數據,與實際業務場景和臨床路徑緊密相連,讓臨床和科研無縫銜接,在業務流程中完成科研數據收集,實現診療流程的數據標準化,為后續開展二級作站的多中心科研項目打下基礎。

猜你喜歡
專病字段術語
“互聯網+醫療”背景下中醫專病人工智能診療系統的現狀及探討
圖書館中文圖書編目外包數據質量控制分析
專病一體化護理對心衰患者營養管理的影響
CNMARC304字段和314字段責任附注方式解析
無正題名文獻著錄方法評述
關于CNMARC的3--字段改革的必要性與可行性研究
腎臟病專病門診護理管理的新思路
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
本刊“??疲▽2。n}欄目”征稿啟事
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合