?

基于知識圖譜嵌入與深度學習的藥物不良反應預測

2024-03-04 06:05吳菊華李俊鋒
廣東工業大學學報 2024年1期
關鍵詞:分類器圖譜實體

吳菊華,李俊鋒,陶 雷

(廣東工業大學 管理學院, 廣東 廣州 510520)

藥物不良反應(Adverse Drug Reaction, ADR)是全球重要的公共衛生問題,是導致死亡的重大原因之一[1]。全球范圍內因ADR導致的傷殘或死亡患者每年近80萬例,占所有入院患者的3.6%[2]。在美國,每年約200余萬名住院患者發生嚴重ADR,造成5 284億美元經濟損失,約占當年醫療總支出的16%[3]。我國每年也有超過250萬人因ADR入院, 其中死亡人數高達19.2萬人[4];2018年中國藥品不良反應監測網絡收到149.9萬份藥品不良反應/事件報告[5],且數量呈逐年增長趨勢。盡管藥物在被批準上市之前,經過嚴格試驗,但由于樣本數量及試驗時間限制,許多嚴重ADR直到藥物上市后才出現[6]。此外,高達50%與ADR相關的住院,可以通過避免不適當的處方來預防[7]。因此,如何有效識別和預測藥物潛在的不良反應,預防ADR發生以及降低經濟損失,提高臨床用藥的合理性和安全性,是當前智慧健康醫療領域的一個研究重點[8-9]?;诖?,本文開發一種基于知識圖譜嵌入和深度學習的ADR預測模型,并與多種常用基準模型及已有研究結果進行對比分析,同時檢驗本文預測模型的有效性和穩定性。本文的貢獻可以概括如下。

(1) 本文結合知識圖譜嵌入和深度學習開發了一種穩定且高效的ADR預測模型,將所有類型ADR進行統一預測,減少過往研究需要為每種ADR單獨開發預測模型的冗余工作量,提高預測效率和精度。

(2) 本文通過對比評估不同嵌入策略對ADR分類模型的影響,選擇最佳嵌入策略,所開發的ADR預測模型能夠有效預測藥物潛在的不良反應,為醫生在用藥時提供建議,提高患者的用藥安全。

1 相關研究

根據世界衛生組織的定義,藥物不良反應是指在使用正常劑量的藥物用于預防、診斷、治療疾病或調節生理機能過程中,出現有害和非預期的且與用藥目的無關的反應[10];且ADR可能是藥物化學物質與蛋白質反應的結果[11]。早期對于ADR的研究,主要基于自發報告系統(Spontaneous Reporting Systems,SRSs) 的臨床案例數據[7,12],使用比例失衡分析[13]等方法評估藥物與ADR之間的關聯性和因果性,以挖掘相關藥物不良反應信號。但SRSs的數據往往是不完整或不準確的,可能會導致研究結果有所偏差;此外加之數據量有限,缺乏對數據的深度挖掘,使得早期基于簡單統計方法的研究結論缺乏說服力[14]。隨著人工智能技術日趨成熟和生物醫學數據量不斷增長,一方面,研究人員基于文獻、ADR報告等文本數據,結合自然語言處理技術挖掘藥物潛在的不良反應[15-17];另一方面,基于藥物的化學、生物學以及表型特征,使用機器學習或深度學習方法進行ADR預測研究[18-21]?;谖谋就诰虻难芯砍S糜谧R別和監測相關ADR,其假定相關ADR已出現,但無法預測藥物潛在的ADR;而基于藥物特征和機器學習的ADR預測研究,有助于探索藥物未知的ADR,這也是本文的研究主題。

機器學習相關方法能夠提升ADR預測效果,但這些研究仍存在可改進的關鍵點:(1) 未考慮藥物之間關聯關系,可能導致有用信息丟失;(2) 使用大量獨熱編碼的特征數據,而高維稀疏特征矩陣降維難度大,模型計算效率低;(3) 絕大多數需要為每種ADR單獨構建分類器。而知識圖譜(Knowledge Graph, KG)這種由節點和關系構成的特殊網絡結構及其嵌入技術,通過將實體嵌入連續低維的特征空間,捕獲特征實體之間非結構化語義關系,在不同類型信息之間實現融合和計算,能有效緩解高維稀疏特征數據帶來的計算低效問題,提高分類器預測性能[22-24]。

近年來,知識圖譜及其嵌入技術逐漸被應用于藥物研究領域的知識發現和知識庫構建,這些研究通過獲取藥物特征數據,構建含有不同類型節點的知識圖譜,通過知識圖譜嵌入技術結合分類模型進行相關研究主題的目標預測?;?KG的ADR預測,相關典型研究如表1所示。通過文獻綜述,當前研究仍存在以下有待改進的要點:(1) 使用KG中未出現的“drug-ADR”組合作為ADR預測模型的負樣本,但KG中不存在的“drug-ADR”組合可能只是目前尚未被發現[21];(2) 使用簡單的機器學習模型;(3) 所覆蓋的藥物數量較少,特征局限于藥物靶點和適應癥,諸如酶和載體蛋白之類的重要信息尚未在先前的研究中使用。

表1 相關典型研究Table 1 Relevant typical studies

基于此,本文采用知識圖譜嵌入與深度學習相結合的方法實現ADR預測,除靶點和適應癥之外,還整合了酶和載體蛋白信息構建知識圖譜;并開發一個強大的深度神經網絡,提高ADR的預測性能。

2 數據與方法

在本文提出的方法中,參考文獻[25]和[26],將藥物的副作用(Side Effect) 視為ADR。鑒于結合藥物的生物學特征和表型特征能夠提升ADR預測模型性能[18,25],從DrugBank(v5.18)[30]和SIDER(v4.1)[31]數據庫分別選擇靶點(Target) 、載體(Transporter) 、酶(Enzyme) 等生物學特征和適應癥(Indication) 和不良反應(ADR) 等表型特征,以及藥物(drug) 作為知識圖譜實體節點。然后,為規避為每種ADR構建單獨分類器所增加的沉重工作量,將ADR預測視作一個統一的二分類問題,并使用“drug-ADR”組合和“drug-Indication”組合分別作為分類模型的正樣本和負樣本,樣本標簽分別記作“1”和“0”。由此開發一個基于知識圖譜嵌入和深度學習的ADR預測模型,通過5次重復實驗,檢驗卷積神經網絡(Convolutional Neural Networks, CNN)模型穩定性。最后,以藥物性腎功能損傷為例進行預測,并通過真實世界數據驗證模型預測的有效性。具體研究思路如圖1所示。

圖1 ADR預測研究框架Fig.1 Research framework of ADR prediction

2.1 數據來源與知識圖譜構建

DrugBank數據庫涵蓋豐富的生物和化學信息學資源,SIDER數據庫收錄了1 430種藥物,6 000余種副作用。通過下載DrugBank中xml數據文件和SIDER中tsv文件,使用Python程序解析并獲得藥物的相關特征數據。根據藥物解剖治療化學代碼(Anatomical Therapeutic Chemical, ATC) 整合2個數據庫的相關數據,并篩選至少具有1種藥物特征的藥物記錄。最終構建5類三元組:<drug, hasTransporter, Transporter>、<drug, hasADR, ADR>、<drug, hasEmzyme,Emzyme>、<drug, hasTarget, Target>、<drug,hasIndication, Indication>;將三元組儲存至Neo4j圖數據庫,獲得可視化知識圖譜,如圖2所示。該圖譜共包含了7 916種drug、5 454種ADR以及158 121個三元組,具體如表2所示。

圖2 ADR知識圖譜中的部分實體和關系Fig.2 Local entities and relationships in the knowledge graph

表2 ADR知識圖譜包含的實體、關系及其數量Table 2 Entities, relationships and quantities included in the ADR knowledge graph

2.2 知識圖譜嵌入模型

知識圖譜嵌入技術逐漸被應用于預測研究[22],其中基于張量分解的DistMult[32]模型和HolE[33]模型應用最為廣泛。DistMult模型通過實體之間的雙線性變換來描述實體之間的語義相關性,其中頭實體和尾實體分別由向量h和t表示,關系由向量r表示;關系矩陣Mr=diag(r)對潛在因子之間的成對相互作用進行建模,使用fr(h,t)=hTMrt作為評分函數。HolE模型以DistMult模型為基礎,在實體之間引入循環相關運算,以捕獲成對實體的組成表示,使用fr(h,t)=rT(h*t) 作為評分函數,式中* 為循環相關運算。上述2種嵌入模型均以最小化評分函數作為目標,以獲得實體和關系的有效嵌入向量。

2.3 CNN分類模型

研究設計了一個具有2個卷積層,4個全連接層的CNN模型,如圖3所示。由于ReLU激活函數計算效率和收斂速度等特性遠高于sigmoid、Tanh等函數;因此,卷積層和全連接層均使用ReLU激活函數。同時,為使得每一層神經網絡的輸入保持相同分布和提高網絡優化效率,卷積層均使用批歸一化處理(Batch Normalization) ,模型具體參數如表3所示。本文使用式(1) 所示的二元交叉熵作為模型訓練的損失函數,式中:n為訓練樣本總數,yi為 樣本i的真實標簽,^yi為樣本i被預測為類別 “1” 的概率值;通過模型訓練,獲取參數W和b的最優值。

圖3 用于ADR預測的CNN模型結構圖Fig.3 CNN model structure diagram for ADR prediction

表3 CNN模型參數Table 3 Parameters of CNN model

采用邏輯回歸(Logistic Regression, LR) 、K近鄰(k-Nearest Neighbor, KNN) 、決策樹(Decision Tree,DT) 、隨機森林(Random Forest, RF) 、樸素貝葉斯(Naive Bayes, NB) 、梯度提升決策樹(Gradient Boosting Decision Tree, GBDT) 等6種基準模型進行對比分析,上述模型被廣泛應用于ADR預測[8]。

3 實驗與結果分析

3.1 模型評價指標

本文采用混淆矩陣計算召回率(Recall) 、準確率(Accuracy, ACC) 、精確率(Precision,P) 、F1值(F1-Score,F1) 和曲線下面積(Areas Under the Curve,AUC) 作為模型的評價指標。

3.2 知識圖譜嵌入及樣本向量表示

嵌入操作基于Python語言,調用AmpliGraph工具庫實現。在嵌入操作前,需要確定ADR預測模型的訓練集和測試集;訓練集被用于知識圖譜嵌入操作和ADR預測模型訓練,測試集被用于評估ADR預測模型的預測性能。

知識圖譜中正樣本為119 233個,負樣本為12 498個(見表4) 。由于正負樣本數量相差1個數量級,故以負樣本的總數為基礎,按照9:1的比例,將負樣本隨機劃分為11 249個訓練樣本和1 249個測試樣本,并隨機從正樣本中取1 249個作為測試樣本;則測試集包含正負樣本各1 249個;訓練集包括117 984個正樣本和11 249個負樣本。為解決訓練集樣本不平衡問題,采用過采樣(Oversampling) 將負樣本復制10倍。樣本劃分結果如表4所示。

表4 用于知識圖譜嵌入以及ADR分類器訓練和測試的數據Table 4 Data used for KG embedding and ADR classifier training and testing

本文在知識圖譜嵌入過程中,采用不同的嵌入策略獲得嵌入向量。并分別使用hD、tA、tI表示實體drug、ADR和Indication的嵌入向量,通過頭實體向量減去尾實體向量,構造出ADR分類器正負樣本的表示向量,如表5所示。分別使用Xp、Xn表示正樣本和負樣本,其中Xp對 應“d rug-ADR ”組合,Xn對應“drug-Indication”組合,Xp和Xn共同構成分類器的實驗數據集。

表5 ADR分類器部分樣本的表示向量(DistMult, dim=20)Table 5 Representation vector of partial samples of ADR classifier(DistMult, dim=20)

3.3 嵌入維度對比分析

本文通過組合不同嵌入模型和不同嵌入維度(10至800) ,探索不同嵌入策略對基準ADR分類模型在測試集上預測性能的影響。如圖4所示,在不同嵌入模型下,隨著嵌入維度增大,各基準模型在測試集上的AUC值也逐漸增大;并且ACC、F1指標值也存在不同程度的波動增大;Recall值沒有明顯增大,相對穩定。然而,當嵌入維度大于400時,各基準模型的AUC、ACC、F1指標值趨于穩定。通過綜合分析,適當增大嵌入維度,能夠在一定程度上提升ADR分類模型的預測性能。同時,為避免分類器出現過擬合和實驗硬件設備資源浪費,本文選擇400維為最佳嵌入維度,并結合CNN模型進行ADR預測。

圖4 不同嵌入維度下各基準ADR分類模型在測試集上的性能表現Fig.4 The performance of each baseline ADR classification model on the test set with different embedding dimensions

3.4 分類模型對比分析

基于Python語言,使用scikit-learn和深度學習框架Tensorflow2.0開發ADR分類模型,6種基準模型將使用默認參數。固定嵌入維度為400維,通過嵌入模型獲得樣本的表示向量,并將其輸入到ADR分類模型進行訓練和預測,各分類模型在測試集上的預測結果如表6所示。綜合分析發現,在DistMult嵌入模型下,CNN分類模型在測試集上的AUC值為0.942,優于所有基準模型。

表6 嵌入維度為400時各ADR預測模型比較Table 6 Comparison of ADR prediction models when the embedding dimension is 400

3.5 模型穩定性評估

研究采用5次重復實驗,評估CNN模型的穩定性。具體步驟:(1) 設定隨機種子,構建訓練集和測試集;(2) 采用“DistMult模型+400維”組合策略進行嵌入操作;(3) 將所得樣本表示向量用于CNN分類模型訓練和預測。結果如表7所示,本文CNN模型的AUC平均值為0.957,比Zhang等[26]的研究(平均AUC=0.863)高出0.094,提升了10.89%;F1均值為0.890,Recall均值為0.913,各指標值波動較小。同時,ROC曲線(見圖5)表現也非常穩定,表明本文所開發的CNN模型具有較高穩定性。

圖5 CNN模型5次重復實驗在測試集上的ROC曲線Fig.5 ROC curve of five repeated experiments of CNN model

表7 5次重復實驗CNN模型在測試集上的表現Table 7 The performance of the CNN model on the test set for five repeated experiments

3.6 預測模型驗證

本文通過現實世界數據,對 CNN模型的有效性進行檢驗。以“腎損傷”或“kidney injury”為關鍵詞,在中國知網、PubMed等文獻數據庫中隨機檢索相關的ADR研究,獲得5個未被SIDER數據庫收錄的“ d rug-ADR”組合;將其作為輸入,使用CNN模型進行預測。結果顯示(見表8),真實樣本被預測為“陽性”的概率平均值為0.972,表明本文的CNN模型能夠有效預測實驗樣本集之外的樣本。

表8 使用CNN模型對文獻中的drug-ADR組合的預測結果Table 8 Prediction results of drug-ADR pairs in literature through CNN model

3.7 與先進研究對比分析

由于目前缺乏用于檢驗ADR預測模型性能的標準數據集,本文將從所覆蓋的藥物、ADR種類數量,以及預測模型的AUC值等方面,與相關典型研究進行對比(見表9)。通過對比分析,本文開發的CNN模型的AUC高于相關研究所提供的結果,預測性能更好。同時,本文的實驗數據集包含7 916種藥物和5 454種ADR,所覆蓋的藥物信息多于絕大多數同類研究。此外,以往的研究大多需要針對每個ADR單獨構建預測模型,增加了ADR預測任務的工作量;相比之下,本文通過構建藥物知識圖譜,使用知識圖譜嵌入技術將藥物、ADR等實體編碼成特征向量;最終使用一個統一的CNN模型對各“ d rug-ADR”組合進行預測,以評估該組合存在“hasADR”關系的概率,這極大減少了模型數量。Zhang等[26]的研究使用了類似的方法進行ADR預測,然而其所覆蓋的藥物僅有3 632種,并且所表現出的AUC值相對較低;Joshi等[25]的研究在文獻[26]的基礎上增加了藥物通路(Pathways)和基因(Gene) 特征,但其ADR預測模型的平均AUC僅為0.912,仍存在提升的空間。本文通過選擇更具代表性的藥物特征,從而開發出更高性能的ADR預測模型。

表9 與現有典型研究對比Table 9 Comparison with advanced ADR prediction models

4 結語

針對既往ADR預測模型研究的預測精度低、需要為每種ADR單獨構建分類器導致工作量繁重等問題,本文將不同類型ADR預測簡化為一個二分類問題,并開發一個基于知識圖譜嵌入和深度學習的CNN預測模型。本文的預測模型比已有研究的預測精度更高,此外通過真實世界數據驗證模型預測結果的有效性和可行性,有望在臨床安全用藥中發揮重要的輔助作用。下一步研究將考慮使用類似的方法,對中成藥潛在的不良反應進行研究;或以患者為中心,評估導致臨床患者發生ADR的潛在風險因素,并預測患者在具體用藥情況下出現特定ADR的風險程度;或探究不同場景下的ADR預測模型。

猜你喜歡
分類器圖譜實體
繪一張成長圖譜
前海自貿區:金融服務實體
BP-GA光照分類器在車道線識別中的應用
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
主動對接你思維的知識圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合