?

數據庫技術在古代中醫醫案整理中應用研究進展

2022-11-27 21:40李丹閆朝升由佳鑫
中醫藥學報 2022年2期
關鍵詞:醫案知識庫結構化

李丹,閆朝升,由佳鑫

(黑龍江中醫藥大學醫學信息工程學院,黑龍江 哈爾濱 150040)

中醫醫案是歷代醫家臨床診療經驗及其學術思想的載體,是中醫傳承和發展的寶貴財富[1-2]。章太炎曾言:“中醫之成績,醫案最著。欲求前人之經驗心得,醫案最有線索可尋。循此鉆研,事半功倍?!蓖ㄟ^古代中醫醫案的整理和研究,構建系統的、易用的、高質量的醫案信息資源,并以此為基礎,發現隱藏的、有價值的“病-證/癥-治-效”關系,凝煉證治規律,提煉醫家治病特色、臨證經驗和學術思想,對中醫理論發展和診療實踐具有重要意義。其中,醫案整理是醫案研究的前提基礎,是醫案研究質量和效率的根本保障。經歷數千年的發展和積累,中醫醫案浩如煙海,且記錄形式多樣,書寫風格各異,記載內容豐富,文獻載體分散[3]。中醫醫案整理存在著巨大挑戰。數據庫技術提供了高效、便捷的數據組織、存儲、共享的方法,現已成為中醫醫案整理的重要支撐技術。本文將對數據庫技術在古代中醫醫案整理中的應用研究進行綜述,以期為古代中醫醫案的整理及其再利用研究提供有益的參考和借鑒。

1 古代中醫醫案發展與整理方法

中醫醫案,又稱診籍、脈案、方案、病案、驗案、診籍等,是醫家綜合運用理法方藥臨證診治過程的文字性記錄[4]。中醫醫案發展源遠流長?,F存最早的較完整醫案是西漢《史記·扁鵲倉公列傳》所載太倉公淳于意的二十五則“診籍”。經過兩漢成形和晉唐醞釀的持續發展,宋金元時期的載案數量明顯多見,醫案專著開始出現[5-6]。其中,宋代形成了現存最早的醫案專著《傷寒九十論》[7]。作為醫案發展的日臻成熟與鼎盛時期,明清兩代涌現出大量的、形式種類多樣的醫案,出現了醫案類書,并開始研究醫案書寫格式和規范[8]。其中,明代出現了第一部醫案類書《名醫類案》,清代出現了現存篇幅最大的醫案類書《續名醫類案》。

中醫醫案記述著癥狀、病因、四診八綱結果、病機、轉歸、治法、治則、注意事項等概要內容以及處方的藥物名稱、劑量、炮制方法、服用方法等治療措施或使用穴位、針灸操作方法、有關處理方法等內容,或附有醫者的主觀觀點[9-10]。歷代醫案反映了古代醫家的辨證、立法、遣方、用藥等臨床經驗及其思維過程。清末醫家周學海曾言:“宋后醫書,唯案好看,不似注釋古醫書之多穿鑿也,每家醫案中,必各有一生最得力處,細心遍讀,是能萃眾家之所長矣?!边@反映出中醫醫案的再利用價值,彰顯出中醫醫案整理和研究的突出意義。中醫醫案整理有助于提升醫案資料保存、檢索與應用研究的質量和效率,為中醫醫案的深度挖掘提供信息資源保障,促進中醫傳承和創新發展[11]。傳統的醫案整理方法涉及以病證、藥、方等專題類案(如《小兒藥證直訣》《本草衍義》《普濟本事方》《秦伯未膏方集》)、個人專著(如《石山醫案》《傷寒九十論》《臨證指南醫案》)、斷代和地區合編(如《清代名醫醫案菁華》《龍砂八家醫案》)、流派或??祁惥?如《傷寒論方醫案選編》《謙益齋外科陜案》)、評輯(如《名醫類案》《古今醫案按》《王氏醫案繹注》)等[12]。上述整理積累了大量的、彌足珍貴的文字性醫案資料。數據庫構建是中醫藥信息數字化處理實現途徑[13]。隨著現代信息技術的飛速發展,數據庫技術現已廣泛應用于古代中醫醫案的整理工作中,形成了大量的醫案信息資源,提升了古代中醫醫案的數字化整理水平,保證了醫案數據整理工作的質量和效率,并以此為基礎,利用統計分析、數據挖掘、機器學習、人工智能、大數據等技術,開展基于古代中醫醫案的中醫治病特色、臨證經驗和學術思想梳理挖掘和歸納提煉,增強了古代中醫醫案數據再利用的深度,有效地促進了中醫傳承和發展。

2 基于數據庫技術的中醫醫案整理

2.1 數據采集平臺與方法研究

數據采集是古代中醫醫案數據庫構建的核心任務。采集平臺構建和采集方法設計是古代中醫醫案數據采集系統性和高效性的根本保障。

根據共享能力差異,古代中醫醫案數據采集平臺主要分為共享服務型和研究專題型。在共享服務型古代中醫醫案數據采集平臺方面,北京中大安信科技發展有限公司聯合北京盤拓咨詢有限公司,利用Oracle 8i for UNIX,構建了9個數據庫,包含了中醫醫案數據庫[14];于琦等[15]利用本體知識表示方法和語義網技術,通過構建醫案語義描述和術語詞典,識別和采集醫案信息,形成(半)結構化的醫案存儲與管理利用,構建了中醫醫案知識服務與共享系統;中國中醫科學院中醫藥信息研究所中醫藥大健康智能研發中心研發了古今醫案云平臺,建有古代醫案庫,能夠支持醫案數據錄入、檢索和分析[16]。研究專題型采集平臺主要用于滿足基于古代醫案的特定研究工作需要,如診療規律研究[17-21]、醫案查詢統計分析[22]等。

在采集方法方面,李丹等[23]在分析現有的古代治療信息數據庫設計缺陷基礎上,結合數據庫系統設計特點,從數據庫和應用系統相融合角度,提出了一種古代中醫治療數據采集方法,設計了數據采集流程,保證了古代中醫醫案數據采集工作的系統化和規范化。閆朝升等[24]提出了中醫治療信息數據庫系統設計流程以及以方劑數據庫為中介的系統后臺數據庫架構,設計了方劑數據庫、疾病數據庫和中藥數據庫,建立了3個數據庫之間的關聯關系,為古代中醫醫案“病/證/癥-方-藥”數據采集提供了有效的方法和途徑。

2.2 數據模型研究

作為數據庫的重要組成部分,數據模型是數據組織方式的一種表達形式,用于抽象和呈現醫案數據特征。目前,在古代中醫醫案數據庫設計中,關系模型是最為常用的結構化數據模型,用于構建古代中醫醫案關系型數據庫。該模型采用二維表形式,存儲醫案所含實體(如醫家、文獻、證候、癥狀、方劑、中藥等)及其屬性(如醫家的姓名、所處朝代等)、實體之間聯系(如方劑和中藥兩個實體之間的“使用”聯系)等信息。近年來,隨著數據分析和知識組織的需求不斷強烈,多維模型和圖模型被應用于古代中醫醫案數據庫研究,分別用于構建中央數據庫和知識庫。下面主要介紹古代中醫醫案中央數據庫和知識庫研究進展。

中央數據庫是采用多維數據模型,滿足分析型數據需求并支持醫案數據分析挖掘的一種數據存儲環境。其中,多維數據模型是以維度(又稱為屬性)、維度層次(又稱為概念分層)和度量(又稱為觀測指標)為核心要素,用于支持綜合級數據存儲和使用的一種數據組織方式[25]。根據用戶等級不同,古代中醫醫案中央數據庫分為數據倉庫和數據集市兩類,分別用于滿足全局級用戶(如國家/省級的科研機構、管理部門等)、部門級或個體用戶(如臨床科室、科研人員等)。杜佳麗[26]在確定方劑的角色及其性、味、歸經、七情等分布主題基礎上,設計藥、癥、證、治等維度和頻次度量,建立事實表和維度表之間的依賴關系,構建了慢性腎病中醫醫案方劑數據倉庫,并應用于醫案方劑配伍規律研究。劉小生等[27]通過分解和規范歷代哮喘中醫文獻醫案的辨證、用藥、組方等信息,構建了哮喘古文獻醫案數據倉庫,并應用于哮喘中醫證治規律研究。李丹等[28]針對中藥分析型數據需求,利用星形模型,設計中藥的基本維度及其概念分層,構建了中藥信息數據集市,為古代中醫醫案數據庫向中央數據庫的轉換提供了中藥信息多維數據模型。

在知識庫方面,本體知識庫是古代中醫醫案知識庫的重要類型。本體知識庫不僅能夠利用概念來表示知識,而且可以揭示知識之間內在的關系[29]。葉超[30]通過剖析醫案所含知識概念以及概念之間關系,利用本體構建工具—Protégé和本體描述語言—OWL(Ontology Web Language),構建醫案本體的概念樹,形成中醫喘證領域本體類關系模型,建立中醫喘證的知識庫。方芳等[31]在收集經典中醫醫案和獲取糖尿病領域知識基礎上,采用本體分析方法,構建糖尿病醫案所含概念及其分類體系,并利用Protégé,創建了糖尿病醫案的本體知識庫。另外,隨著2012 年Google發布知識圖譜項目,知識圖譜得到廣泛關注與研究應用。其中,知識圖譜(knowledge graph,KG)是以符號形式描述客觀世界中實體(概念)及其關聯關系,實現結構化語義知識存儲的一種技術方法[32]。知識庫用于建構知識圖譜的后臺知識存儲環境。針對知識圖譜的后臺知識庫,常見的數據模型包括資源描述框架(resource description framework,RDF)圖和屬性圖,分別對應著三元組庫和圖數據庫[33]。其中,三元組的基本形式主要包括:(實體-關系-實體)和(實體-屬性-屬性值)。王菁薇等[34]利用知識圖譜技術,借助圖數據庫—Neo4j,通過實體和關系抽取、數據預處理和知識導入等過程,實現了疾病、證候、癥狀、處方、藥物等實體及其關系的圖結構存儲,形成了《傷寒論》所載醫案的語義知識網絡,解決了醫案知識結構化表示問題。阮彤等[35]利用文本抽取、多策略學習、關系數據向RDF數據轉換、數據融合等技術方法,提出了中醫藥知識圖譜的自動構建方法,構建了醫案知識圖譜。于彤等[36]探索了中醫藥領域的知識圖譜構建方法,研發了中醫臨床知識圖譜,包含了古代醫家或疾病的醫案知識庫。郭文龍[37]以方劑為對象,在構建方劑本體概念模型基礎上,利用D2RQ(database to RDF query)工具,將關系型數據庫的數據換成RDF格式的數據,并使用Noe4j存儲RDF數據,構建了《傷寒論》《黃帝內經》《惠民藥方》《普濟方》等所載經典方劑的知識圖譜。

2.3 數據基礎研究

數據基礎研究主要用于解決古代中醫醫案數據庫的數據質量問題,例如,結構化語義標注、數據缺失填充、數據規范化處理等研究。

古代中醫醫案具有突出的敘述性,其結構化語義表示和轉換及其數據缺失處理是醫案數據庫科學性和完整性的基本保證。針對古代中醫醫案數據庫構建的結構化語義表示和轉換問題,文天才等[38]借鑒文獻標引思想,利用XML的結構性和擴展性,進行病案信息的完全結構化和知識表達層次化處理,實現了中醫醫案結構化標引系統;于莉娟[39]利用框架語言—MEDL(meta-event definition language),實現中醫醫案的半結構化表示,并通過詞法、語法、語義等分析、編譯,生成結構化醫案,并導入中醫醫案數據庫。針對古代中醫醫案數據庫構建的數據缺失問題,王瑞祥等[40]利用粗集理論的不完備數據填充方法,探索了基于間接處理和基于主癥相似關系的中醫醫案數據庫缺失數據填充方法,提高醫案數據庫的完備性;胡雪琴等[41]為解決詞性標注所易出現的語義缺失問題,提出了基于語義標注的醫案信息抽取途徑,基本過程為:首先,在設計不同粒度級的語義標注基礎上,構建中醫醫案語義標注概念層(涉及詞、基本短語、復合短語、語句模式和溫病分類等5層),并用于標注生語料庫,生成熟語料庫,提取中醫醫案的特征信息,保障中醫醫案數據庫的基礎數據質量。

古代中醫醫案的數據規范化處理是其數據庫數據質量的根本保障,主要涉及癥狀規范化、證候要素提取、病證源流考等方面。針對癥狀規范化處理問題,武嘉興[42]利用診釋學的原理和方法,對歷代醫案數據庫中的癥狀信息進行表達,獲得癥狀標記詞,并生成規范的中醫癥狀單元;劉保延等[43]利用已經構建的中醫歷代醫案數據庫[22],從中醫癥狀的概念、命名、定義、臨床特征、輕重變化的判定等方面,開展了醫案癥狀規范化研究。針對古代中醫醫案所含方劑與其適用證候的關聯問題,許晗等[44]通過采集《名醫類案》中涉及補中益氣湯的醫案,采用頻數分析法、黃金分割法獲取補中益氣湯證的證候分布特點,發現“病-證-候”關系以及證候的病位和病因,有助于“方-證”視角下古代中醫醫案數據庫的數據規范化處理;李衛紅等[45]以崩漏證候規范化研究為目標,采集并處理崩漏的歷代醫案,發現崩漏中醫證候類型、病位、病性等證候要素的頻數分布,提取證候要素的應證組合規律。針對病證源流考問題,姜德友等開展了多種中醫病證的源流考研究,主要涉及病名沿革追溯以及古代不同時期對病因、病機及治法認識的整理等內容(如脫肛源流考[46])。

3 結論

當代醫家章次公曾言:“醫案為古人積驗所在,近人經驗之總結亦匯集于醫案?!泵鎸χR經濟時代,古代中醫醫案數字化信息資源是歷代醫家的治病特色、臨床經驗及學術思想研究的重要支撐。如何科學、系統地整理古代中醫醫案,構建高質量的、高可用的醫案信息資源,保證中醫醫案研究的有效性和可靠性,是中醫傳承、發展和創新的所亟需解決的關鍵問題。目前,數據庫技術在古代中醫醫案整理領域的應用已十分廣泛,成為了醫案信息資源建設所不可或缺的支撐技術。古代中醫醫案的數據庫建設質量是其深度研究的核心影響因素。

針對古代中醫醫案數據庫構建,數據結構化處理是其首要任務,滲透在數據采集平臺構建、數據采集方法設計、數據模型建構、數據基礎處理等過程中。但是,過度的結構化處理破壞了醫案信息的完整性和醫家思維的整體性[4]?;谥R圖譜的醫案知識庫能夠實現中醫醫案的網狀知識體系構建,為醫案數據的過度結構化處理所帶來的問題提供了一種有效的解決途徑,對于提升古代中醫醫案的整理與再利用能力具有十分重要的意義。在未來研究工作中,以古代中醫醫案知識圖譜構建為目標,系統、科學、高效地探求網狀語義知識庫在古代中醫醫案整理與研究中的應用途徑和方法,有益于提升古代中醫醫案資源的數字化、網絡化和智能化及其利用效率的最大化,進一步彰顯數據庫技術對中醫傳承發展的重要支撐作用。

猜你喜歡
醫案知識庫結構化
基于中醫“五辨”思維探討醫案研讀方法*
基于NLP的中醫醫案文本快速結構化方法
漢語近義詞辨析知識庫構建研究
讀中醫醫案應去偽求真*
改進的非結構化對等網絡動態搜索算法
深度學習的單元結構化教學實踐與思考
結構化面試方法在研究生復試中的應用
左顧右盼 瞻前顧后 融會貫通——基于數學結構化的深度學習
我國聯合虛擬參考咨詢系統知識庫現狀研究*
——基于與QuestionPoint的對比
位置與方向測試題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合