?

基于知識圖譜和預訓練語言模型深度融合的可解釋生物醫學推理

2024-01-30 03:07徐寅鑫楊宗保林宇晨胡金龍董守斌
關鍵詞:子圖生物醫學集上

徐寅鑫 楊宗保 林宇晨 胡金龍,2 董守斌,2,?

北京大學學報(自然科學版) 第60卷 第1期 2024年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)

10.13209/j.0479-8023.2023.073

中山市引進高端科研機構創新專項資金(2019AG031)資助

2023–05–10;

2023–07–31

基于知識圖譜和預訓練語言模型深度融合的可解釋生物醫學推理

徐寅鑫1楊宗保1林宇晨1胡金龍1,2董守斌1,2,?

1.華南理工大學計算機科學與工程學院, 廣州 510641; 2.中山市華南理工大學現代產業技術研究院, 中山 528437; ?通信作者, E-mail: sbdong@scut.edu.cn

基于預訓練語言模型(LM)和知識圖譜(KG)的聯合推理在應用于生物醫學領域時, 因其專業術語表示方式多樣、語義歧義以及知識圖譜存在大量噪聲等問題, 聯合推理模型并未取得較好的效果?;诖? 提出一種面向生物醫學領域的可解釋推理方法 DF-GNN。該方法統一了文本和知識圖譜的實體表示方式, 利用大型生物醫學知識庫構造子圖并進行去噪, 改進文本和子圖實體的信息交互方式, 增加對應文本和子圖節點的直接交互, 使得兩個模態的信息能夠深度融合。同時, 利用知識圖譜的路徑信息對模型推理過程提供了可解釋性。在公開數據集 MedQA-USMLE 和 MedMCQA 上的測試結果表明, 與現有的生物醫學領域聯合推理模型相比, DF-GNN 可以更可靠地利用結構化知識進行推理并提供解釋性。

生物醫學; 預訓練語言模型; 知識圖譜; 聯合推理

問答系統是自然語言處理領域的一項熱門研究課題。解決問答問題通常需要清楚地理解問題描述的場景, 然后利用相關知識進行推理[1], 最近, 大規模預訓練語言模型(language model, LM)[2–3]成為多個問答數據集[4]中的流行解決方案, 并取得優異的性能?;陬A訓練語言模型和知識圖譜(knowle-dge graph, KG)的聯合推理模型[5–7]解決了 LM 無法利用外部知識進行結構化推理的問題。進一步地, 在文本上, 預訓練語言模型已被證明有助于各種下游NLP 任務[8]。作為文本數據的補充, KG 提供結構化的背景知識, 通過預訓練大規模學習兩種模態的信息融合[9], 可進一步提高聯合推理模型的性能。

盡管基于預訓練語言模型和知識圖譜的聯合推理模型在開放域問答研究中得到廣泛應用, 并取得優異性能, 但在生物醫學問答(biomedical question and answering, BQA)領域, 聯合推理問答(question and answering, QA)模型并未取得較好的效果。原因在于以下 3 個方面。1)生物醫學領域專業術語表示方式多樣, 語義存在歧義。例如, UMLS[10]和 Sem-Med[11]將 CUI 作為實體標識符, DragBank[12]將BankId 作為實體標識符, MIMIC-III[13]將 ICD-Code作為實體標識符。這些標識符之間的轉化復雜, 并且不一一對應, 大大增加了問答數據集和知識庫的實體對應難度。2)知識圖譜存在大量的事實, 使得訪問每一個給定問題的知識圖譜十分困難, 雖然用構造知識子圖[14]的方法縮減知識圖譜有一定的效果, 但知識子圖中仍然存在大量不相關實體, 會對聯合推理造成干擾。3)聯合推理過程中將全部文本作為知識圖譜的頭結點進行模態交互, 對應的文本實體與圖譜實體之間并未進行交互[6–7], 兩種模態的信息交互被平均化, 限制了兩種模態之間交換有用信息的能力。

為了解決上述問題, 本文提出一種基于深度融合的語言模型與知識圖譜聯合推理問答模型 DF-GNN。首先, 使用概念唯一標識符(concept unique identifier, CUI)統一文本和知識圖譜的實體表示, 使用 Scispacy[15]進行實體鏈接, 將文本實體與知識圖譜實體一一對應, 消除語義歧義; 接著, 在構造知識子圖時, 對鏈接到的實體進行過濾, 根據置信度得分選擇鏈接實體; 然后, DF-GNN 改進了文本和知識圖譜的交互方式, 將文本實體與對應的子圖實體直接進行信息交互, 使得兩個模態的信息深度融合, 提升每個實體對模型推理的影響程度; 最后, 對模型的推理過程進行可視化, 利用知識圖譜的路徑信息提供可解釋性。

本研究在生物醫學領域公開數據集 MedQA-USMLE[16]和 MedMCQA[17]上評估 DF-GNN, 使用SemMed 知識庫構造知識圖譜。為了與預訓練聯合推理模型[9]進行對比, 我們使用相同的預訓練目標對 DF-GNN 模型進行預訓練, 驗證 DF-GNN 的性能表現。

1 問題定義

我們的目標是利用 LM 處理非結構化問題文本, 并聯合結構化的 KG 的知識來回答生物醫學多項選擇問題。在多選題回答(MCQA)的任務中, 一個通用的 MCQA 類型的數據集由上下文段落、問題和候選答案集合組成,為集合中的候選選項, 并且可以訪問外部知識源 KG 進行聯合推理, KG 提供與多選題內容相關的背景知識。

給定一個 MCQA 的例子(,,)以及知識圖譜, 參照文獻[18], 將,和中的實體與鏈接起來, 然后從中提取問題–選擇對的知識子圖sub,并進行去噪, 將(,,)以及sub作為模型的輸入, 得到作為答案的概率, 概率最高的即為問題的最終答案。

2 本文模型DF-GNN

本文通過引入外部知識 KG, 利用圖神經網絡(GNN)來增強 LM[3,19–20], 提出 DF-GNN 方法。如圖1 所示, DF-GNN 由 5 個部分組成: 1)問答上下文編碼模塊, 即學習非結構化問答文本輸入表示的 LM層; 2)知識子圖提取模塊, 包括知識子圖的構造和去噪; 3)圖編碼模塊, 即學習結構化知識圖譜輸入表示的 GAT 層; 4)深度融合模塊, 即學習文本和對應知識子圖聯合表示的深度模態交互 DF 層, 其將底層 LM 層輸出的文本表示與sub的圖表示相互融合, 每一對文本實體與子圖實體直接交互, 提升每個實體對模型推理的影響程度; 5)答案預測模塊。

DF 層中不同顏色的 token-node 對表示從文本鏈接到知識子圖的對應實體對, token 和 node 表示前一層文本和節點嵌入, token_p 和 node_p 表示預融合文本和節點嵌入, token_f 和node_f 表示融合文本和節點嵌入。我們將 LM 層數表示為, DF 層數表示為, 模型中的總層數為+。

2.1 問答上下文編碼模塊

知識子圖中的藍色實體節點表示問題中提到的實體, 黃色實體節點表示答案中提到的實體, 紅色節點表示問答文本節點

圖1 DF-GNN模型的架構

Fig. 1 Model architecture of DF-GNN

2.2 知識子圖提取模塊

2.2.1KG檢索

對于每個 QA 上下文, 首先使用 SciSpacy[15]將(,,)中識別出的實體鏈接到, 得到一組初始節點集合; 然后將初始節點集合中的每一個節點的兩跳鄰居添加進初始節點集, 得到檢索節點集。

2.2.2KG去噪

根據實體鏈接置信度, 對檢索節點集進行去噪處理, 方法如下: 1)對于從和識別出的實體, 抽取置信度高于 0.88(對實體鏈接統計分析可以得出, 當置信度高于 0.88 時, 鏈接實體的數量平均為 2 個)的實體作為最終鏈接實體; 2)對于從識別出的實體, 首先將作為一個實體, 并在中檢索, 若存在該實體, 則該實體即為最終鏈接實體, 否則進行去噪處理方式同第 1 步。兩步操作后, 得到知識子圖節點集{1, …,e} (為節點數量), 然后檢索連接知識子圖節點集中任意兩個節點的所有邊, 形成sub。對于sub中的每個節點, 根據其對應的實體是從上下文或問題、答案還是橋接路徑連接而被分配對應類型。

2.3 圖編碼模塊

其中,N表示任意節點e的鄰域,表示傳播消息的注意力權重,m表示鄰域中某一鄰居e傳遞給e的消息, fn是兩層 MLP。

節點之間的關系嵌入r以及消息m通過下式計算:

r=fr(t,u,u) , (4)

其中,u,u∈{0, 1, 2}表示節點和的類型,t是連接節點ee關系的關系嵌入表示, fr 是兩層 MLP, fm 是線性變換。注意力權重α通過其重要性衡量每個鄰居消息的貢獻, 通過以下公式計算:

其中, fq 和 fk 是線性變換。

2.4 深度融合模塊

其中,he是一個 token-node 對, 即表示同一實體的文本嵌入和節點嵌入, Fusion 是兩層 MLP。只有 token-node 對參與運算, 其余 token和節點保持不變, 但是它們會在各自模態傳播的下一層(式(1)和(2))從交互 token-node 對中的 token 或節點中接收信息。因此, 兩種模態的信息在多個 DF 層中直接交互, 語言表示與 KG 知識深度融合, 提升了每個實體對模型推理的影響程度。

2.5 答案預測模塊

其中, fp表示兩層 MLP。最后, 選擇得分最高的候選答案為預測輸出, 使用交叉熵損失函數來優化端到端模型。

3 實驗設置

3.1 數據集和評估標準

本研究在生物醫學領域公開數據集 MedQA-USMLE[16]和 MedMCQA[17]上評估 DF-GNN。Med-QA-USMLE 是一個 4 項多項選擇題回答數據集, 這些問題來自美國醫學執照考試(USMLE)的練習測試。該數據集包含 12723 個問題, 我們使用原始數據拆分方法[16]。MedMCQA 是一個選擇題數據集, 數據來源于印度兩所醫學院入學考試(AIIMS 和NEET-PG)的模擬考試和過往考試, 訓練集包含182822 個問題, 測試集包含 4183 個問題, 每個問題有 4 個選項。

我們遵循基線模型[5–7], 使用準確率得分(Acc)作為評估指標。

3.2 預訓練語言模型和知識圖譜

使用 BioLinkBERT[19]作為 DF-GNN 的預訓練語言模型, 模型的超參數如表 1 所示。

使用生物醫學領域的公開知識庫 SemMed[11]作為外部知識源。該知識庫是從整個 PubMed 引用集中提取的語義預測(三元組)的存儲庫, 語義預測的元素來自統一醫學語言系統(UMLS)的知識源, SemMed 中的實體概念與 UMLS 對齊, 30 種常見預定義關系從 UMLS 的預定義關系中引出。

表1 模型和實驗超參數設置

3.3 對比方法

3.3.1微調預訓練語言模型

為了研究使用 KG 作為外部知識源的效果, 我們將 DF-GNN 與原生預訓練語言模型進行對比, 后者是知識不可知的, 我們選擇 BioBERT[19], Sap-BERT[21]和 BioLinkBERT[20]進行對比。

3.3.2LM + KG模型

通過與現有的 LM+KG 方法進行比較, 來評估DF-GNN 利用知識圖譜推理的能力。選擇 QA-GNN[5], GreaseLM[6]以及 Dragon[9]進行比較。Gre-aseLM 是現有的性能最好的模型, Dragon 在 Grease-LM 的基礎上對模型進行預訓練, 取得了更好的效果。為了公平比較, 使用與本文模型相同的 LM 來初始化這些基線模型。

4 實驗結果

4.1 主要結果

表 2 和 3 分別展示 MedQA-USMLE 和 Med- MCQA 數據集上的實驗結果。我們不僅在 SemMed知識圖譜以及去噪圖譜上進行實驗, 同時也利用去噪圖譜改進對比模型的性能。我們觀察到 DF-GNN的性能優于所有 LM 模型和 LM+KG 模型, 并且優于預訓練模型 Dragon。除了 DF-GNN, MedQA-US-MLE 和 MedMCQA 上的 BioLinkBERT-large 和 Gre-aseLM 是最好的 LM 微調模型和 KG 增強模型, Dra-gon 是最好的預訓練模型。在 MedQA-USMLE 數據集上, DF-GNN 相對于 BioLinkBERT-large 微調模型有 2.5%的改進, 相對于最佳模型 GreaseLM 有2%的改進, 相對于預訓練模型 Dragon 有 1.6%的改進。在MedMCQA 數據集上, DF-GNN 相對于最佳模型 Gr-easeLM 有 1.7%的改進, 相對于預訓練模型 Dragon有 0.9%的改進。在 MedQA-USMLE 和 MedMCQA數據集上, DF-GNN 的性能表現證明了統一實體表示方式、圖譜去噪處理以及模態信息直接交互的有效性。

表2 MedQA-USMLE數據集上的模型效果對比

說明: 粗體數字表示性能最優, 下同。

表3 MedMCQA數據集上的模型效果對比

4.2 消融實驗

4.2.1實體表示方法

不同于基線模型使用 UMLS+DrugBank(BankId +CUI)作為外部知識源, 我們使用 SemMed(CUI)作為外部知識源, 統一了文本和知識圖譜的實體表示方式, 并在 MedQA-USMLE 和 MedMCQA 數據集上進行實驗。如表 4 所示, 使用 CUI 統一實體表示后, 基線模型以及 DF-GNN 的性能均有所提高, 證明了統一實體表示的有效性。

4.2.2知識圖譜去噪

表 4 中, 所有基線模型以及 DF-GNN 性能的提升并不明顯, 我們認為是因為 SemMed 知識圖譜中存在噪聲, 導致大量無關實體影響模型的推理性能。我們對知識圖譜去噪, 得到sub, 如表 5 和 6 所示。去噪后,sub問題實體和答案實體的數量明顯下降, 所有基線模型以及 DF-GNN 的性能均有較大的提升。

4.2.3DF-GNN預訓練方法選擇

如表 7 所示, 我們遵從 Dragon[9]的方法, 在MedQA-USMLE 數據集上對 DF-GNN 進行同樣的預訓練, 在預訓練目標上對比 MLM(掩碼語言建模)、LinkPred(鏈接預測)和 MLM+LinkPred 的效果, 在 LinkPred 的頭部選擇上對比 DistMult, TransE和 RotatE 三種方法。與 Dragon[9]的結論一致, 在文本和 KG 上進行雙向自監督任務, 有助于模型融合兩種推理模式, 在預測頭部的選擇中, DistMult 的效果最優。

表4 MedQA-USMLE和MedMCQA上不同實體表示的效果對比

表5 MedQA-USMLE和MedMCQA上知識圖譜中實體數量比較

表6 MedQA-USMLE和MedMCQA上去噪知識圖譜性能比較

表7 DF-GNN預訓練方法選擇

4.3 模型可解釋性

4.3.1推理結果可視化

本研究的目的是通過提取 GAT 引起的節點到節點的注意力權重來展示 DF-GNN 的推理過程, 我們通過sub的注意力鄰接矩陣, 挑選注意力權重高于給定閾值的邊和對應頭尾結點, 進行可視化展示。圖 2 為 DF-GNN 在單跳推理和多跳推理問題的兩個示例??梢钥吹? 通過文本和知識圖譜之間的聯合推理, DF-GNN 在單跳和多跳問題中都可以找到關鍵實體, 從而推理出正確答案。

4.3.2定性分析

如圖 3 所示, 我們通過 MedQA-USMLE 數據集的一個示例, 對比 DF-GNN 與 Dragon模型對問答文本各實體的注意力權重。在示例中, DF-GNN 正確地預測了答案是 C “輪狀病毒”, 而 Dragon 做出錯誤預測, 即 D “脊髓灰質炎病毒”。對于這兩個模型, 我們觀察通過sub提取的節點的注意力權重可以發現, DF-GNN 模型重點關注在“基因”, 并對與該實體相連的“基因重組”“雙鏈RNA”和“病毒重組”更關注; Dragon 模型重點關注“病毒”以及相連的“病毒顆?!?。我們認為, Dragon 在頭節點的交互信息被平均到每個實體, 降低了“基因”對于模型推理的重要程度, DF-GNN 的直接交互方式提升了“基因”對模型推理的影響, 因此能夠預測正確答案。

5 總結

本文針對生物醫學領域問答存在的問題, 提出一種新的模型 DF-GNN, 通過統一文本和知識圖譜的實體表示、對知識子圖去噪處理以及改進文本與知識圖譜的交互方式, 將文本實體與對應的子圖實體直接交互, 使兩個模態的信息深度融合, 提升每個實體對模型推理的影響程度。在生物醫學領域數據集上的實驗結果表明, DF-GNN 模型優于微調 LM基線[19–21]以及現有的最佳 LM+KG 模型[5–6]和預訓練模型。同時, 通過提取 GAT 引起的節點到節點的注意力權重來展示 DF-GNN 的推理過程, 利用知識圖譜的路徑信息對模型推理提供可解釋性。

圖2 DF-GNN推理結果展示

圖3 DF-GNN與Dragon的推理結果比較

[1] Jin Qiao, Yuan Zheng, Xiong Guangzhi, et al. Bio-medical question answering: a survey of approaches and challenges. ACM Computing Surveys, 2022, 55 (2): 1–36

[2] Gu Yu, Tinn R, Cheng Hao, et al. Domain-specific language model pretraining for biomedical natural lan-guage processing. ACM Transactions on Computing for Healthcare, 2022, 3(1): 1–23

[3] Liu Fangyu, Shareghi E, Meng Zaiqiao, et al. Self-alignment pretraining for biomedical entity represen-tations [EB/OL]. (2020–10–22)[2023–05–20]. https:// arxiv.org/abs/2010.11784

[4] Mutabazi E, Ni J, Tang Guangyi, et al. A review on medical textual question answering systems based on deep learning approaches. Applied Sciences, 2021, 11 (12): 54–56

[5] Yasunaga M, Ren Hongyu, Bosselut A, et al. QA-GNN: reasoning with language models and knowledge graphs for question answering [EB/OL]. (2021–04–13)[2023–05–20]. https://arxiv.org/abs/2104.06378

[6] Zhang Xikun, Bosselut A, Yasunaga M, et al. Grea-selm: graph reasoning enhanced language models for question answering [EB/OL]. (2022–02–21)[2023–05–20]. https://arxiv.org/abs/2201.08860

[7] Chen Zheng, Kordjamshidi P. Dynamic relevance graph network for knowledge-aware question answe-ring [EB/OL]. (2022–09–20)[2023–05–20]. https://ar xiv.org/abs/2209.09947

[8] Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models [EB/OL]. (2021–08–16)[2023–05–20]. https://arxiv.org/abs/2108. 07258

[9] Yasunaga M, Bosselut A, Ren Hongyu, et al. Deep bidirectional language-knowledge graph pretraining. Advances in Neural Information Processing Systems, 2022, 35: 37309–37323

[10] Bodenreider O. The unified medical language system (UMLS): integrating biomedical terminology. Nucleic acids research, 2004, 32(suppl 1): D267–D270

[11] Kilicoglu H, Shin D, Fiszman M, et al. SemMedDB: a PubMed-scale repository of biomedical semantic pre-dications. Bioinformatics, 2012, 28(23): 3158–3160

[12] Wishart D S, Knox C, Guo A C, et al. DrugBank: a knowledgebase for drugs, drug actions and drug tar-gets. Nucleic Acids Research, 2008, 36(suppl 1): D901 –D906

[13] Johnson A E W, Pollard T J, Shen L, et al. MIMIC-III, a freely accessible critical care database. Scientific Data, 2016, 3(1): 1–9

[14] Haveliwala T H. Topic-sensitive pagerank // Procee-dings of the 11th International Conference on World Wide Web. Honolulu, 2002: 517–526

[15] Neumann M, King D, Beltagy I, et al. ScispaCy: fast and robust models for biomedical natural language pro-cessing [EB/OL]. (2019–02–20)[2023–05–20]. https:// arxiv.org/abs/1902.07669

[16] Jin D, Pan E, Oufattole N, et al. What disease does this patient have? a large-scale open domain question an-swering dataset from medical exams. Applied Scien-ces, 2021, 11(14): 6421–6422

[17] Pal A, Umapathi L K, Sankarasubbu M. Medmcqa: A large-scale multi-subject multi-choice dataset for medical domain question answering // Conference on Health, Inference, and Learning. New Orleans, 2022: 248–260

[18] Lin B Y, Chen X, Chen J, et al. KagNet: knowledge-aware graph networks for commonsense reasoning [EB/OL]. (2019–09–04)[2023–05–20]. https://arxiv. org/abs/1909.02151

[19] Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biome-dical text mining. Bioinformatics, 2020, 36(4): 1234–1240

[20] Yasunaga M, Leskovec J, Liang P. LinkBERT: pretrai-ning language models with document links [EB/OL]. (2022–05–29)[2023–05–20]. https://arxiv.org/abs/2203. 15827

[21] Beltagy I, Lo K, Cohan A. SciBERT: a pretrained language model for scientific text [EB/OL]. (2019–05–26)[2023–05–20]. https://arxiv.org/abs/1903.10676

Interpretable Biomedical Reasoning via Deep Fusion of Knowledge Graph and Pre-trained Language Models

XU Yinxin1, YANG Zongbao1, LIN Yuchen1, HU Jinlong1,2, DONG Shoubin1,2,?

1. School of Computer Science and Engineering, South China University of Technology, Guangzhou 510641; 2. Zhongshan Institute of Modern Industrial Technology of SCUT, Zhongshan 528437; ? Corresponding author, E-mail: sbdong@scut.edu.cn

Joint inference based on pre-trained language model (LM) and knowledge graph (KG) has not achieved better results in the biomedical domain due to its diverse terminology representation, semantic ambiguity and the presence of large amount of noise in the knowledge graph. This paper proposes an interpretable inference method DF-GNN for biomedical field, which unifies the entity representation of text and knowledge graph, denoises the subgraph constructed by a large biomedical knowledge base, and further improves the information interaction mode of text and subgraph entities by increasing the direct interaction between corresponding text and subgraph nodes, so that the information of the two modes can be deeply integrated. At the same time, the path information of the knowledge graph is used to provide interpretability for the model reasoning process. The test results on the public dataset MedQA-USMLE and MedMCQA show that DF-GNN can more reliably leverage structured knowledge for reasoning and provide explanatory properties than existing biomedical domain joint inference models.

biomedical domain; pre-trained language model; knowledge graph; joint reasoning

猜你喜歡
子圖生物醫學集上
芻議“生物醫學作為文化”的研究進路——兼論《作為文化的生物醫學》
靈長類生物醫學前沿探索中的倫理思考
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
臨界完全圖Ramsey數
國外生物醫學文獻獲取的技術工具:述評與啟示
復扇形指標集上的分布混沌
基于頻繁子圖挖掘的數據服務Mashup推薦
LED光源在生物醫學中的應用分析
不含2K1+K2和C4作為導出子圖的圖的色數
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合