?

中醫古籍《靈樞》的知識圖譜構建與可視化探討

2024-03-20 12:01陳瑩璇謝煒豪陳帆徐倩李榮耀陳振虎劉秀峰
廣州中醫藥大學學報 2024年3期
關鍵詞:詞庫靈樞分詞

陳瑩璇, 謝煒豪, 陳帆, 徐倩,2, 李榮耀, 陳振虎, 劉秀峰,2

(1.廣州中醫藥大學醫學信息工程學院,廣東廣州 510006;2.廣州中醫藥大學智能中醫研究院,廣東廣州 510006;3.廣州中醫藥大學第一附屬醫院,廣東廣州 510006)

《靈樞》是現存中醫古籍中的經典著作之一,重點闡述了中醫學基礎理論、經絡腧穴、針具刺法及治療原則等,為后世中國醫學的發展奠定了思想和理論基礎。后世醫家的臨證思路與方法多源于《靈樞》中的理論,如名老中醫張覺人基于《靈樞·本神》“五神臟”理論,將養神、安神、調神法用于新型冠狀病毒肺炎精神康復的患者,在門診案例中獲得佳效[1];張文瑞等[2]從《靈樞·經脈》篇中“是動病”“所生病”理論出發,結合具體醫案,對痛風診治進行了研究;尚斌等[3]根據《靈樞·九針十二原》研制了員利針(即“圓利針”),在臨床治療中取得顯著療效?!鹅`樞》所載內容對現代中醫臨床診治尤其是針灸臨床研究具有重要的啟迪意義。但由于古籍文本的凝練晦澀,后世臨床從業者對《靈樞》的理解受到臨床經驗與能力水平的限制。

知識圖譜是大數據時代一種重要的知識表示形式,其本質是大規模的語義網絡,包括實體、概念及其之間的各種語義關系,對文本的挖掘展示更能體現文本中表達的各種復雜邏輯關系?!鹅`樞》的知識圖譜的構建,將有助于臨床從業者對其進行更深入的研究,促進其理論在臨床診療上更廣泛的應用。本研究借鑒知識圖譜構建思路,探索構建《靈樞》知識圖譜的方法,并將初步成果進行可視化展示,現將結果報道如下。

1 資料與方法

1.1 《靈樞》文本特點分析 《靈樞》作為中醫理論形成階段的早期著作,對人體的生理病理闡述具有其獨特的語言邏輯與特征,如“病在陰之陰者,刺陰之滎俞,病在陽之陽者,刺陽之合”。其表述方法與現代漢語具有較大的差別。另外,中醫古籍具有自身的固定表達,如“破 脫肉”“經溲不利”等,外文詞庫與現代中文詞庫一般未收載,需要建立專門的中醫古籍領域詞庫以進行知識圖譜的構建。古籍文本的高度凝練性以及目前中醫古籍文庫的缺乏,增加了《靈樞》文本信息提取的難度[4]?!饵S帝內經》由《靈樞》和《素問》構成。因此,本文借鑒領域詞匯挖掘的思路,以《黃帝內經》文本材料為數據,利用詞匯的統計特征來挖掘高質量領域詞語。

1.2 數據來源 本研究采用《靈樞》《素問》及《針灸甲乙經》作為文本材料。其中《靈樞》文本來源于中醫古籍出版社牛兵站主編的《黃帝內經靈樞譯注》[5],該書以明代趙府居敬堂刊本為依據,書中的注釋吸納了歷代醫家之長,匯總了當時的研究成果,以此作為《靈樞》文本研究的數據來源,較有說服力?!端貑枴凡糠謩t取自現代常用的較為完善的版本《重廣補注黃帝內經素問》[6]?!夺樉募滓医洝芬匀嗣裥l生出版社出版的《針灸甲乙經》[7]版本作為文本材料。文本材料主要用于《黃帝內經》文本詞庫的構建,而《靈樞》的全部文本參與知識圖譜構建的處理全程。在獲取文本材料之后,對文本數據進行檢查校對,保證文本的完整性。為了不影響后續處理結果,刪去各文本章節名中的序號,如刪去“本輸第二”中的“第二”,從而得到了預處理后的文本。

1.3 詞匯篩選標準 在構建知識圖譜的過程中,以2020 年國家中醫藥局組織修訂的《中醫病證分類與代碼》和《中醫臨床診療術語》及全國科學技術名詞審定委員會審定公布的《中醫藥學名詞》為標準,進行詞庫構建、分詞與實體識別中的篩選標注工作。以《健康信息學——中醫藥學語言系統的語義網絡框架》(ISO/TS 17938-2014 Health informatics- semantic network framework of traditional Chinese medicine language system)[8]為參考,進行知識圖譜的關系抽取。該技術規范的核心內容是一個中醫藥領域的規范化頂層本體,即TCMLS Semantic Network,包括96 種語義類型和58 種語義關系[9]。

1.4 詞庫構建 在構建知識圖譜的過程中,往往需要進行領域相關詞匯短語的挖掘探索,在此基礎上進一步找到該領域的相關實體,這一過程稱為領域詞匯挖掘。領域詞匯挖掘以領域語料作為輸入,經過特定的算法處理后,輸出領域詞匯。輸入的領域語料,指的是領域相關的文檔集融合在一起而組成的語料庫。輸出的數據為研究領域中的高質量詞匯,如從足球賽的報道集中挖掘出的“烏龍球”“凌空抽射”“交叉換位”等,即為領域詞匯中的高質量詞匯。

基于此思路,本文利用Python Jiayan分詞工具的詞庫構建功能,以《黃帝內經》文本材料作為輸入,通過計算文本中詞語的點互信息、左右鄰接熵等統計特征來實現詞匯挖掘,篩選出高質量詞匯。該功能本質上是將文本中出現頻率較高的字符序列作為初始詞匯,并通過計算初始詞匯的左右鄰接熵等統計特征,篩選得到質量較高的詞匯,從而完成詞庫的構建。

1.5 結巴分詞 經詞庫構建后可以得到中醫古籍文本中的專業詞匯,而分詞可以劃分文本中的有意義詞語,從而有利于后續的實體識別與關系提取。在自然語言處理中,較為常用的分詞工具有結巴分詞、HanLP、ansj_seg、pkuseg-python 等。分詞算法原理不盡相同,其中結巴分詞是一種適合中文分詞的方法,其特點之一就是可以通過自定義新詞詞典來提高領域文本語料的分詞準確性[10]。鑒于已構建《黃帝內經》系列詞庫,已有較多的高質量領域詞匯基礎,本文結合結巴分詞的特點,將上述步驟中得到的詞庫按結巴分詞自定義詞典的格式保存,對《靈樞》文本進行分詞操作。

1. 6 TF-IDF 文檔表示 TF-IDF(term frequencyinverse document frequency),即詞頻-逆文件頻率,是一種用來評估一個詞語對于一個文檔集或一個語料庫中某一文檔的重要程度的統計方法。字詞的重要性隨該字詞在文檔中出現的次數而成正比增加,但同時也隨著其在語料庫中出現的頻率而成反比下降。即一個詞語在某篇文章中出現次數越多,同時在語料庫其他文檔中出現次數越少,越能夠說明該詞在文章中的重要性。運用TFIDF算法,可以給詞語賦予一個權重,以表示其在文本中的重要程度。本文使用該方法得到結巴分詞后詞語的權重,根據此權重進行排序并繪制詞云圖,直觀地展示分詞結果,突出重要詞匯。

分詞權重結果參考專家意見,根據《中醫病證分類與代碼》《中醫臨床診療術語》和《中醫藥學名詞》進行檢查與修正,以得到質量更高的分詞結果。

1.7 實體識別 構建知識圖譜的第一步工作就是獲取圖譜中的實體。獲取實體可以分為兩大步,一是從文本數據中挖掘出大量的高質量的詞匯,二是從得到的詞匯中篩選出構建知識圖譜需要的實體[11]。上述步驟實現了高質量詞匯的挖掘,接下來即為在詞匯中篩選實體的過程。本研究先通過Python 工具進行詞頻統計與詞語的匯總與去重操作,得到《靈樞》中的實體,并參考《中醫病證分類與代碼》《中醫臨床診療術語》和《中醫藥學名詞》,采用人工標注的方式,將有意義的中醫詞語作為實體進行標注。

1.8 關系抽取 在結巴分詞與實體構建結果的基礎上,本研究結合《靈樞》譯注的相關內容,參考中醫藥學語言系統的語義網絡框架,根據實體之間的關聯構建實體關系,得到《靈樞》的各類型實體關系,主要有組成關系、包含關系、對應關系、治療關系與因果關系。

1.9 知識圖譜構建 本研究通過Neo4j 數據庫導入實體與關系來構建《靈樞》知識圖譜。作為一個開源非關系型數據庫,Neo4j不僅具備完整的數據庫特性,還可以將數據存儲成較為靈活而直觀的網絡結構,實現圖數據模型的存儲。本研究首先將前面所述操作中得到的實體與關系整理成具有固定模式的結構化數據,對實體與關系進行相應的標注工作,保存為csv格式的文件。整理完畢后,使用Cypher語言在Neo4j數據庫中進行導入操作,完成《靈樞》涉及的中醫理論知識圖譜的構建。通過Cypher 查詢語句,可以得到相關的實體與關系,也可以得到完整的知識圖譜?!鹅`樞》知識圖譜的構建流程如圖1所示。

圖1 《靈樞》知識圖譜構建流程圖Figure 1 Flow chart for the construction of knowledge graph of Ling Shu(Spiritual Pivot)

2 結果

2.1 詞庫構建 中醫古籍中專業名詞較多,詞語類型豐富,本研究將利用領域詞匯挖掘技術得到的詞語按詞的字數劃分為一字詞、兩字詞、三字詞、多字詞等。Python Jiayan 分詞工具利用詞語點互信息(pointwise mutual information,PMI)、右鄰接熵(R_Entropy)、左鄰接熵(L_Entropy)進行詞庫的自動化構建。Python Jiayan 分詞工具構建《靈樞》詞庫的參數示例見表1。

表1 Python Jiayan分詞工具構建《靈樞》詞庫的參數示例Table 1 The illustration of the parameters for the construction of thesaurus of Ling Shu(Spiritual Pivot)by Python Jiayan tool

本研究參照《中醫病證分類與代碼》《中醫臨床診療術語》和《中醫藥學名詞》,進行領域專業詞匯的檢查和篩選、對于挖掘出的有所欠缺的詞進行修正,如在詞庫中發現“不得”“不利”等詞語,參考上述標準,結合《靈樞》文本檢索結果,將“不得安”“不得息”“屈伸不利”“鼻塞不利”等詞納入詞庫,最終得到《靈樞》詞庫的1 216個高質量詞匯,包括一字詞、兩字詞、三字詞和多字詞?!鹅`樞》詞庫的詞語類型示例見表2。

表2 《靈樞》詞庫的詞語類型示例Table 2 The illustration of types of the words in the thesaurus of Ling Shu(Spiritual Pivot)

2.2 分詞與詞云圖展示 為探索《靈樞》中的詞語特點,經Python Jiayan分詞工具分詞后進行去停用詞與詞頻統計操作,并用TF-IDF 計算詞語權重,根據權重繪制詞云圖,以直觀展示分詞結果并突出重要詞匯。在詞云圖中,詞語的TF-IDF 權重越高,即相對于《靈樞》的重要程度越大,則字體越大越為顯眼。由詞云圖可看出分詞效果較好,得到的詞語包括經絡名(如“陽明”“少陰”等)、中醫概念(如“陰陽”“衛氣”等)、疾病名(如“癲疾”“暴疾”等)、穴位與臟腑(如“人迎”“五臟”等)、癥狀(如“寒熱”“汗出”等)等中醫相關術語?!鹅`樞》中TF-IDF權重居前800位的詞云圖如圖2所示,其中TF-IDF 權重居前20位的詞語見表3。

表3 《靈樞》詞庫中TF-IDF權重居前20位的詞語Table 3 The words with the leading 20 weight coefficients of term frequency-inverse document frequency(TF-IDF)in the thesaurus of Ling Shu(Spiritual Pivot)

圖2 《靈樞》詞庫中詞頻-逆文件頻率(TF-IDF)權重居前800位的詞云圖Figure 2 The word cloud graph for the words with the leading 800 weight coefficients of term frequencyinverse document frequency(TF-IDF)in the thesaurus of Ling Shu(Spiritual Pivot)

2.3 實體識別與標注 根據“1.7”項所述方法,參照前述標準,結合《靈樞》譯注[12],本研究主要抽取的實體描述包括3部分。第一部分實體描述的是中醫基礎理論,如五臟、五神、精氣、六氣、六腑、十二經脈、十五絡脈、穴位、七竅等。第二部分實體描述的是病癥類,如疾?。ㄈ绨d狂病、熱病、周痹等)、癥狀(如兩脅骨不舉等)以及體征(如脈象、面色等)。第三部分實體描述的是針灸治療的針具九針(如镵針、圓針、鍉針、鋒針、鈹針、圓利針、毫針、長針、大針)、用針原理與方法(如“虛則實之”)、施針部位(如“取三陽”“刺陰之滎俞”)以及施針操作(如“徐而疾”)等。本研究通過識別得到的各類實體包括病因、病位及病性等,符合中醫辨證論治的原則和思想?!端貑枴ぶ琳嬉笳摗窂娬{在辨證時要“審察病機”,在施治時要“謹守病機”。辨病機是確定治法的基石,只有正確的辨證,同時辨明疾病的病因、病位、病性及疾病發展變化的趨勢,才能正確地施治?!鹅`樞》詞庫中實體類型舉例見表4。

表4 《靈樞》詞庫中的實體類型舉例Table 4 Examples for the entity types in the thesaurus of Ling Shu(Spiritual Pivot)

2.4 關系抽取 本研究參照中醫藥學語言系統的語義網絡框架中對語義關系的分類和說明,結合《靈樞》譯注的內容,對文本中的實體之間的關系進行梳理總結,提取得到主要的關系,分別為組成關系、包含關系、對應關系、治療關系和因果關系。

組成關系主要是指概念與其組成之間的關系,在《靈樞》中經常提及的概念及其組成部分有五臟(肝、心、脾、肺、腎)、五神(魂、神、意、魄、志)、十二經脈(如“足太陽經”)等。包含關系主要是指概念之間的包含關系,如癥狀包含實證和虛證、經脈的循行位置包含穴位等。對應關系主要是指不同概念之間實體的相互對應,如《靈樞》中“肝藏血,血舍魂,肝氣虛則恐,實則怒”等描述,表示了五臟“藏”五神、五神“舍”精氣以及五臟虛與實的對應癥狀表現等關系。治療關系主要是指疾病和治療方式之間的關系,如“虛證”對應治療方式為“實之”,“陰有陽疾”對應治療方式為“取之下陵三里”等,還有針具與主要治療的疾病類型的關系,如“毫針,取痛痹”等。因果關系主要是指病因和疾病之間的關系。如“怵惕思慮”導致“傷神”,“傷神”導致“恐懼自失”“破 脫肉”等?!鹅`樞》詞庫中實體之間的關系類型見表5。

表5 《靈樞》詞庫中的實體之間的關系類型Table 5 Types of the relationships among the entities in the thesaurus of Ling Shu(Spiritual Pivot)

2.5 知識圖譜構建 本研究將各類實體及實體關系組成Neo4j數據庫要求的格式,將實體及其關系存儲到圖數據庫中,并通過查詢相關節點與關系,即可得到《靈樞》中各類中醫理論知識圖譜。 圖3 展示了情志刺激與五臟五神之間的關系,圖4 展示了《靈樞》第八篇“本神”中的內容,圖5 則展示了《靈樞》中經脈理論的知識圖譜,涉及十二經脈、腧穴、針具及其形狀特點與功效、癥狀等實體與關系等。

圖3 《靈樞》中情志刺激與五臟五神之間的實體關系知識圖譜Figure 3 Knowledge graph for the entity relationship of emotional distress with five zang-organs and five mental activities in Ling Shu(Spiritual Pivot)

圖4 《靈樞》中“本神”理論的知識圖譜Figure 4 Knowledge graph for the theory of spiritual,mental,and thinking activities in Ling Shu(Spiritual Pivot)

圖5 《靈樞》中經脈理論的知識圖譜Figure 5 Knowledge graph for the theory of meridians in Ling Shu(Spiritual Pivot)

2. 6 “針刺治神”思想知識圖譜 《靈樞·本神》對“五神”功能的描述最為豐富:“故生之來謂之精,兩精相搏謂之神,隨神往來者謂之魂,并精而出入者謂之魄,所以任物者謂之心,心有所憶謂之意,意之所存謂之志,因志而存變謂之思,因思而遠慕謂之慮,因慮而處物謂之智”[13]?!胺泊讨?,必先治神”出自《素問·寶命全形論》,說明了“治神”是針刺施治的基礎與前提,在針刺治療中居首要地位[14]?!鹅`樞·本神》載“凡刺之法,先必本于神”;《靈樞·官能》也指出“用針之要,無忘其神”。作為評判針刺技術水平的標準,足見《黃帝內經》對“針刺治神”思想的重視[15]?!鹅`樞》中針刺治神理論的知識圖譜見圖6,該圖較好地展示了針刺調治五神與意、魄、精、魂、志的相關內容。

圖6 《靈樞》中針刺治神理論的知識圖譜Figure 6 Knowledge graph for the theory of mind-regulating acupuncture in Ling Shu(Spiritual Pivot)

3 討論

3.1 《靈樞》知識圖譜構建的意義 本研究利用領域知識圖譜構建的思想與技術,實現了《靈樞》文本中的中醫實體與關系抽取,實現了《靈樞》知識圖譜的初步構建、存儲與可視化展示。

在中醫領域,構建中醫古籍的知識圖譜將有助于對書本知識進行分類整理和規范化表達,促進知識的共享、傳播與利用,在臨床診療、臨床研究、教育、培訓等方面都具有應用價值。

知識圖譜的構建與在圖數據庫中的存儲可使相關實體與關系的檢索調用成為可能,也可使知識圖譜能以可視化語義網絡圖的形式進行展示,還可改進知識檢索、知識問答、決策支持和知識可視化等多種服務的效果,使嵌入語義搜索、語義維基等系統成為可能,從而提升中醫臨床的知識服務能力,為智能醫療的發展助力。例如,知識圖譜的嵌入可以應用在醫院信息系統中醫生工作站中醫模塊的輔助診療,如醫生輸入患者的癥狀或者主訴后,可以通過對知識圖譜的調用,檢索在《靈樞》中相關疾病發展與癥狀的描述,為醫生診治疾病提供參考,起到輔助診療的作用。

本知識圖譜的構建思路可推廣至其他中醫古籍,這將使中醫藥領域知識圖譜變得更加完善。但更多的古籍、更大規模的知識圖譜意味著更復雜的關系,在技術實現上也需要進一步探索。

3.2 中醫藥領域知識圖譜的發展 目前,知識圖譜的構建包括知識抽取、知識融合、知識存儲等多種關鍵技術[16],但中醫知識圖譜構建研究仍相對滯后,其中知識抽取難度相對較大[17]。知識抽取一般包括實體抽取和關系抽取。抽取方法基本可分為人工標注和自動化抽取兩大類。人工標注需要大量的人工工作和較高的專業水平。在當今人工智能算法越來越火熱的背景下,大量研究者致力探究自動化的知識抽取方法,但所得結果仍需要專家對結果進行評估和修注,才能構建完整知識圖譜以支撐后續的應用研究[18]。此外,前期的訓練數據集也需要大量的人工來完成實體標注工作。

《靈樞》原文論述范圍廣泛,高度凝練,其實體在語句中的語法位置不穩定,因而不管通過監督學習、半監督學習還是深度學習,《靈樞》相關知識在自動化實體抽取方面實現的效果都不夠理想。因此,本研究采取人工標注方法,之后將在此基礎上,繼續進行自動抽取的探索。

總體來說,目前中醫藥領域內的知識圖譜構建,仍需要專業人士和機器學習算法協同配合完成。

3.3 《靈樞》知識圖譜的評估體系構建 在其他領域知識圖譜中,實體與關系都有相對固定的模式,如“鐘南山”的職業是“醫生”,在人物、職業、國家、首都、地標等方面都有比較完善的語料庫,可以用于知識圖譜的準確性評估。而在中醫古籍領域,尚未有公開的相關語料庫,需要大量的領域專家根據自己的理解來構建規則進行評估,這將耗費巨大的人力與時間。另外,中醫古籍知識圖譜的構建,需要具備一定的評估體系,才能更好地優化知識圖譜。因此,知識圖譜的智能化評估也將是今后探索的方向。

猜你喜歡
詞庫靈樞分詞
分詞在英語教學中的妙用
黃帝內經 靈樞·始終(下)
黃帝內經 靈樞·始終(上)
一“吃”多用
黃帝內經 靈樞·官針
黃帝內經 靈樞·壽天剛柔
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
輸入法詞庫乾坤大挪移
詞庫音系學的幾個理論問題芻議
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合