?

基于屬性補全的藥物與疾病關聯預測

2023-10-31 09:39唐瑞澤
智能計算機與應用 2023年10期
關鍵詞:異構相似性關聯

唐瑞澤, 玄 萍

(1 黑龍江大學 計算機科學技術學院, 哈爾濱 150080; 2 汕頭大學 計算機科學技術系, 廣東 汕頭 515063)

0 引 言

研發一個用于疾病治療的新藥需要一個漫長的過程約10 ~15 年,同時還會花費8 ~15 億美元[1]。藥物重新定位是為已批準的藥物尋找新的治療效果[2]。 已上市的藥物具有已知的安全性和藥理學特征,因此藥物重新定位可以將藥物開發的時間縮短到6.5 年,并把研發成本降低到3 億美元。

計算已批準藥物的新治療適應癥,有助于在篩選現有藥物進行進一步實驗驗證時預測候選疾病?,F有的計算預測方法大致可分為3 類,兩種藥物的功能越相似,就越有可能與類似的疾病相關。 因此,第一類的方法主要是利用藥物-疾病關聯、疾病相似性和藥物相似性數據進行藥物-疾病關聯預測。例如,Zhang 等[3-4]利用非負矩陣分解和相似性約束的矩陣分解來整合已知的藥物和疾病信息,獲取藥物和疾病的關聯概率。 還有一些方法通過在藥物-疾病異構網絡上隨機游走來預測關聯分數[5-6]。Wang 等[7]構建了一個支持向量機模塊(SVM)來推斷藥物的未知治療效果。 然而,隨著藥物相關數據的增加和多樣化,除了考慮藥物的基本靶點信息和蛋白質結構外,其他信息對預測疾病候選者也很重要,而這些方法并沒有整合這些多源數據。

第二類方法考慮使用與藥物和疾病相關的多個數據源進行關聯預測。 已經開發了幾種方法,非負矩陣分解、稀疏子空間學習或推理概率矩陣分解來預測候選藥物注釋。 還有一些方法通過在構建的異構網絡上隨機游走來預測各種藥物的候選疾?。?]。然而,多個數據源表現出復雜的非線性關系,整合這些數據對于探索藥物與疾病的相關性至關重要。

第三類方法采用深度學習方法整合藥物和疾病相關信息,以更準確地識別合適的疾病候選者。Xuan 等[9]提出了一個基于CNN(Convolution Neural Network)和BiLSTM(Bi-directional Long Short-Term Memory)架構的模型,用于預測藥物-疾病關聯分數。 此外,還構建了基于卷積神經網絡的模型和基于圖卷積網絡(GCN)的模型來推斷藥物的候選疾病。 然而,在深度學習過程中,沒有考慮以節點間的拓撲關系為指導,通過加權聚合有屬性節點的屬性來補全無屬性節點的屬性[10]。 在這項研究中,本文提出了一個基于屬性補全的預測模型,從不同的元路徑編碼和捕捉異構網絡中節點的拓撲嵌入,為無屬性節點進行屬性補全。

1 材料和方法

為了預測特定藥物的潛在適應癥即候選疾病,本文提出了藥物-疾病關聯預測模型。 首先,基于多種藥物相似性、疾病相似性和藥物-疾病關聯構建了3 種不同的藥物-疾病異構網絡;構建多個元路徑,用來編碼和學習藥物和疾病節點的拓撲嵌入,并提出一個基于元路徑層面的注意力機制,融合來自多個元路徑的不同的語義信息;以融合后的藥物(疾?。┕濣c的拓撲嵌入為指導,對有屬性的藥物節點的屬性進行加權聚合來補全沒有屬性的疾病節點的屬性;最后,將得到的3 個網絡的藥物-疾病節點對的屬性通過1×1 卷積融合,通過兩層全連接神經網絡,輸出藥物和疾病是否存在關聯的分數。

1.1 相關數據集

本文從以往的藥物-疾病關聯預測工作中獲得藥物與疾病的關聯、藥物的化學亞結構、藥物的靶蛋白結構域、藥物的靶注釋以及疾病語的語義相似性。3 051個已知的藥物-疾病關聯數據最初是從聯合醫學語言系統(UMLS)中提取的,其中包含763 種藥物和681 種疾病之間的治療關系。 本文主要利用了3種藥物屬性,藥物的化學結構是從PubChem 數據庫中提取的化學指紋,從InterPro 數據庫和UniProt 數據庫中獲得了藥物的靶蛋白結構域和藥物的靶注釋。 相關的疾病命名由美國國家醫學圖書館提供(MeSH)。

1.2 藥物和疾病的多源數據矩陣表示

1.2.1 多種藥物屬性表示

基于多種藥物相關的數據,本文用矩陣Bp(p =chem,doma,anno) 分別表示藥物的3 種屬性,即藥物的化學子結構,藥物靶蛋白的目標域和基因注釋。Bp被定義為式(1):

其中,Nr表示藥物的數量,Nchem(Ndoma,Nanno)是藥物化學子結構(藥物靶蛋白的目標域,基因注釋)的數量,Nchem =623,Ndoma =1 426,Nanno =447。

如果Bchem(i,j) 的值為1,表示藥物ri具有化學子結構cj,否則值為0。 同樣地,如果藥物ri含有靶蛋白結構域oj(基因注釋tj),將Bdoma(i,j)(Banno(i,j) )的值置為1,否則為0。

1.2.2 多種藥物相似性表示

兩個藥物ri和rj之間具有越多相同的化學子結構,通常這種情況下藥物ri和rj在功能上具有更高的相似性;類似地,當藥物ri和rj具有更多相同的靶蛋白域或者靶注釋,ri和rj之間也會具有更高的相似性。 基于這些生物性前提,Wang 等[11]通過余弦相似性計算得到了3 種不同的藥物相似。 3 個藥物相似矩陣分別為Srchem,Srdoma,Sranno。 藥物相似性矩陣定義為式(2):

反映了藥物之間在化學亞結構方面的相似度大小,Srdoma(Sranno) 表示一對藥物在蛋白質結構域(靶注釋)下的相似度大小,取值范圍在[0,1]之間,數值越大說明兩種藥物就越相似。

1.2.3 疾病相似性表示

有向無環圖(DAG)通常被用來表示一種疾病,該圖是由多個與該疾病相關的疾病術語組成。 兩個疾病有越多相同的疾病術語,兩個疾病之間越相似。通過余弦相似性計算得到的矩陣Sd∈表示兩種疾病之間的相似性,Nd是疾病的數量,的值域[0,1],值越高,di和dj之間越相似。

1.2.4 藥物-疾病關聯表示

關聯矩陣Ard∈包含了Nr個藥物和Nd個疾病之間的關聯。 每一行和每一列分別代表一種藥物和一種疾病。 如果ri和dj之間存在關聯,則Arijd的值為1,否則Arijd =0。

1.3 多個藥物-疾病的異構網絡

面對3 種不同的藥物相似性,構建3 個藥物-疾病異構網絡Gp =(V,E) 。 每個異構網絡包含了兩種類型的節點V =(Vr∪Vd) 和3 種類型的邊E =(Erp-r∪Ed-d∪Er-d) 。 每個異質網絡中的節點總數是藥物節點和疾病節點數量之和(Ntotal=Nr+Nd),Erp-r是基于第p種藥物相似性建立的藥物-藥物相似性的邊。 利用已知的關聯數據,建立藥物-疾病的邊,用Er-d表示。 如果節點vi,vj∈V之間存在一個連接,那么eij∈E。

1.4 多個藥物-疾病雙層網絡的鄰接矩陣

基于藥物-疾病關聯和多種藥物相似性矩陣,本文構建了p個雙層異構網絡的鄰接矩陣Hp∈RNtotal*Ntotal,式(3):

其中,(Ard)T是Ard的轉置矩陣。

1.5 基于元路徑的成對拓撲結構編碼

本文構建的雙層異構網絡Hp, 包含藥物和疾病節點。 多重關系也包括在內,r -r,d -d,r -d表示藥物-藥物相似性,疾病-疾病相似性以及藥物和疾病之間的關聯關系。 在異構圖中,許多節點可以通過具有不同語義的路徑連接,被稱為元。 長度為m的元路徑定義為式(4):

其中,v1,v2,…,vm+1表示節點類型,n1,n2,…,np表示連接v1和vm+1的邊的類型。

一個元路徑實例被定義為異構圖中的一個節點序列。r1和r4可以通過元路徑r -r -r和r -d -r的方式連接。 例如,目標節點r1的元路徑r1- r2- r4,如果藥物r1和r4都有r2類似的功能,其可能是相似的;在r1- d3- r4中,這兩種藥物都和疾病關聯,表明r1可能和r4相似。 不同的元路徑顯示出不同的語義信息。 考慮到藥物ri的直接鄰居和經過兩跳之后的鄰居對其影響較大。 因此,本文建立長度為1的元路徑和長度為2 的元路徑δ∈{r - r,r - d,r -r - r,r - d - r,r - r - d,r - d - d}。 同樣的,對于疾病節點dj,分別建立長度為1 和長度為2 的元路徑δ∈{d - r,d - d,d - r - r,d - d - r,d - r - d,d - d - d}。 用Pδr(Pδd) 表示藥物(疾?。?節點的元路徑。

基于Hp結構信息,藥物和疾病之間存在各種連接關系,φ∈{r - r,r - d,d - d,d - r}。 元路徑與這些關系相對應的鄰接矩陣表示為Xk∈RNtotal*Ntotal,其中k∈φ。 以k =r - d為例,Xk被定義為式(5):

當且僅當節點i和j之間存在r - d的關系時,1,否則為0。

對于每條元路徑,都要建立其相應的拓撲嵌入。對于元路徑k包括在δ中的第e個關系的鄰接矩陣被歸一化為,式(6):

其中,Oi表示第i行元素之和,Zj表示第j列元素之和。 元路徑δ的拓撲嵌入是T,式(7):

其中,|δ |是長度。

例如,元路徑r - r - d的長度為2,相對應的拓撲嵌 入在 不 同 的 元 路 徑 下表示藥物(疾?。?節點基于Hp下的拓撲嵌入,其中p∈{chem,doma,anno}。

1.6 多種語義信息的融合

給定藥物ri(疾病dj) 的元路徑Pδr(Pδd), 其特定的語義表示為(T pr,δ)i((T pd,δ)j)。 每一個元路徑都反映了一個特定的語義信息,對構造藥物(疾?。┕濣c的拓撲嵌入有著明顯不同的貢獻。 因此,本文提出了一個元路徑層面的注意力機制,有助于融合多種語義。 以藥物節點為例,元路徑類型層面的注意力得分為(spr,δ)i,式(8):

其中,tanh 表示一個非線性激活函數;δ∈{r -r,r - d,r - r - r,r - d - r,r - r - d,r - d - d};batte是注意力參數;qT是可學習參數。

(βpr,δ)i代表歸一化的注意力權重,式(9):

藥物節點的拓撲表示(hpr)i通過元路徑層面注意力機制增強后定義如下,式(10):

類似地,也得到了疾病dj在不同元路徑聚合下的拓撲表示(h pd)j。

1.7 基于鄰居層面注意力機制的屬性補全

給定一對藥物和疾病節點(ri,dj),和其相對應的節點拓撲嵌入表示(hpr)i和(hpd)j,本文用Vr+表示所有與疾病dj相關聯的藥物節點的集合,其中藥物ri具有節點屬性,疾病dj不具有節點屬性。 通過對與疾病節點dj直接相連的藥物節點的屬性加權聚合作為疾病節點dj的屬性,實現對疾病節點dj的屬性補全,屬性補全的示意圖如圖1 所示。

圖1 基于疾病節點屬性補全的示意圖Fig.1 Schematic of disease node attribute complement

因為局部拓撲結構不同,每個節點的鄰居在屬性聚合的重要性不同,也就是一個節點的鄰居越多,其對每個鄰居的重要性就越低。 因此,本文提出一個鄰居層面的注意力機制來學習節點不同鄰居的重要性,式(11):

其中,σ是激活函數,Wpc是權重矩陣。

歸一化注意力權重apij表示如式(12):

最終利用注意力機制對與疾病dj相連的藥物節點的屬性加權聚合對疾病dj實現了屬性補全,補全后的屬性向量Xpj定義為式(13):

本文還建立了多頭注意力機制,用來穩定屬性補全的學習過程,式(14):

由于藥物節點具有3 種藥物屬性,根據不同的屬性分別對疾病節點進行屬性補全。 最后,疾病節點的屬性矩陣被表示為Xdp(p∈{chem,doma,anno})。 為了使屬性補全過程是可學習的,同時保證補全的屬性的準確性,按照比例μ將藥物節點V r隨機劃分為兩個部分,分別是和, 其 中,刪除掉中藥物節點的屬性,通過對丟掉屬性的節點進行屬性補全,計算得到的節點的重構屬性定義為式(15):

為了使重構的屬性盡可能的接近于原始屬性,通過計算原始屬性和重構屬性之間的歐氏距離得到屬性補全的監督損失losspc,式(16):

通過屬性補全機制,對已有的藥物節點屬性和補全的疾病節點屬性進行組合,得到了關于藥物和疾病節點的屬性矩陣Xnewp,式(17):

1.8 最終整合和預測

通過屬性補全機制,得到p個藥物-疾病節點的屬性矩陣Xnpew, 其中藥物節點ri的屬性表示為(Xnpew)ri,疾病節點dj的屬性表示為(Xnpew)dj。 為了利用每個屬性矩陣的特征,將其降維到相同的維度后上下堆疊,用1×1 卷積進行融合,得到ri -dj最終的屬性向量表示t,并將其作為全連接層的輸入,以得到藥物ri和疾病dj的關聯得分。

2 實驗結果與分析

2.1 評價指標

本文使用五倍交叉驗證法來評估基于屬性補全預測模型的性能。 將所有已知的關聯關系視為正例樣本,并隨機分為5 組,其中4 組用于訓練,另一組用于測試。 將所有未觀察到的藥物-疾病相關性視為反例樣本。 隨機選擇與正例樣本數同等數量的反例樣本進行訓練,剩余的反例樣本進行測試。

評估指標包括受試者操作特征(ROC) 曲線、ROC曲線下的面積(AUC)、精確召回曲線(PR曲線)、PR曲線下的面積(AUPR)。 真陽率(TPR) 和假陽率(FPR) 的計算,式(18) 和式(19):

其中,TP(TN) 表示正確預測的正例(反例) 樣本數,FP(FN) 表示錯誤預測的正例(反性) 樣本數,用來計算繪制ROC曲線,該曲線是以TPR為縱坐標,FPR為橫坐標, 其曲線下方的面積表示為AUC值,用于評估模型的性能。AUC值越高代表模型的性能越優秀。

精確度和召回率是評估機器學習模型性能的重要指標。 精確度表示預測為正例樣本中真實正例樣本的比率,式(20);而召回率表示在所有正例樣本的樣本中被正確識別為正例樣本的比率,式(21)。

通過繪制以Precision為縱軸、Recall為橫軸的曲線,可以直觀地展示模型的性能。 如果這條曲線處于左上角附近,那么就意味著模型的性能更佳。相反,曲線越靠近右下角則意味著模型性能越差。

2.2 與其他方法的比較

為了評估基于屬性補全預測模型的性能,將本文提出的方法與6 種最先進的有關藥物疾病關聯預測 的 方 法 進 行 比 較, 包 括 GFPred、 CBPred、SCMFDD、 LRSSL、MbiRW 和HGBI。 為了使比較結果更具說服力,本文的模型和所有比較的模型在訓練和測試時使用了相同的數據集,并且每種對比方法的最佳性能是通過使用各自文獻中提供的最優參數設置。

在五倍交叉驗證中,本文對763 種藥物進行了評估,并計算了各自的平均AUC和AUPR;最終將所有763 種藥物的平均AUC(或AUPR) 作為最終結果。 不同預測模型的ROC曲線與PR曲線如圖2所示。 在所有方法中,基于屬性補全的預測模型取得了最佳的性能,優于其他對比模型;GFPred 在性能上排名第二,其從多個異構網絡中學習,獲得藥物(疾?。┕濣c的拓撲表示,該結果表明,融合多個異構網絡的信息可以提高預測性能;CBPred 考慮了節點對之間的路徑信息,在性能上排名第三;盡管LRSSL 和MBiRW 的AUC沒有明顯差異,但LRSSL的AUPR明顯更高,這是因為前者利用了多種藥物的相似性,而后者只考慮一種藥物的相似性。SCMFDD 和HGBI 的性能稍差,其AUC和AUP幾乎沒有差別,這是因為兩者都沒有利用多種藥物的相似性。 與上述方法相比,基于屬性補全的預測模型的性能提高主要是通過多個不同的路徑,捕獲了藥物和疾病節點的多種拓撲結構表示,并基于這些拓撲信息通過注意力機制對疾病節點進行屬性補全。

圖2 不同預測模型的ROC 曲線與PR 曲線(分圖)Fig.2 ROC curves and PR curves of different prediction methods

3 結束語

本文提出了一個新的預測模型,融合藥物和疾病數據的相似性和關聯性、藥物-疾病節點對的特性,以及來自多個元路徑的語義信息,并且為無屬性的疾病節點進行了屬性補全以預測藥物-疾病的關聯。 建立了3 個異構網絡,以便于學習每個異構網絡中節點的屬性表示。 本文還提出了2 個注意力機制,將更高權重分配給更重要的元路徑和節點鄰居。通過與其他6 個預測模型的比較,本文提出模型在AUC和AUPR方面均取得了更好的預測性能。

猜你喜歡
異構相似性關聯
一類上三角算子矩陣的相似性與酉相似性
試論同課異構之“同”與“異”
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
淺析當代中西方繪畫的相似性
“一帶一路”遞進,關聯民生更緊
奇趣搭配
異構醇醚在超濃縮洗衣液中的應用探索
智趣
overlay SDN實現異構兼容的關鍵技術
低滲透黏土中氯離子彌散作用離心模擬相似性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合