?

基于圖神經網絡和隨機森林的CircRNA-疾病預測

2024-02-28 08:28王波尹帥杜曉昕張劍飛周振宇
高師理科學刊 2024年2期
關鍵詞:網絡圖分類器關聯

王波,尹帥,杜曉昕,張劍飛,周振宇

基于圖神經網絡和隨機森林的CircRNA-疾病預測

王波,尹帥,杜曉昕,張劍飛,周振宇

(齊齊哈爾大學 計算機與控制工程學院,黑龍江 齊齊哈爾 161006)

環狀RNA(CircRNA)廣泛參與人類疾病的進程,其突變和失調與許多人類疾病密切相關.因此,建立一個高效準確的CircRNA與疾病之間的預測算法對于提前對疾病的發生做出預防以及發病后的治療方案具有重要意義.提出了一種新的基于圖神經網絡和隨機森林的算法預測CircRNA-疾病關聯算法,在分層網絡表示嵌入部分通過構建異構網絡,根據網絡圖的鄰近性,對網絡圖的節點和邊緣進行分層,遞歸地合并原始圖中的節點和邊,得到若干具有相似特征的較小子網絡.子網絡規模隨著分層的深入而遞減,直至得到最小子網絡后,使用node2vec網絡圖游走算法對其進行預處理,然后將全部節點的特征向量輸入至隨機森林分類器來識別潛在的CircRNA-疾病關聯,從而進行預測.

CircRNA-疾病關聯預測;圖神經網絡;node2vec;隨機森林

環狀RNA(Circular RNA,CircRNA)是一類通過反向剪接產生,具有閉環結構特殊的單鏈非編碼內源性RNA分子[1].隨著高通量測序技術的發展,CircRNA已經被證明在各種生物中廣泛存在,并受到廣泛關注[2-4].重要的是,CircRNA的表達水平通常為組織特異性和細胞型特異性[5].因此,CircRNA的錯誤表達可以導致異常的生理過程,并導致大多數疾病的發生和發展[6].然而,目前對疾病與CircRNA關系的研究高度依賴生物實驗,耗時耗力且效果不一定好.在這種情況下,只能發現有限數量的關系.但慶幸的是,一些CircRNA-疾病相關聯的數據庫已經可用,如CircRNA Disease[7]和CircR2 Disease[8],其數據庫的建立為后續科研工作者使用計算模型進行潛在疾病的關聯預測提供了有力保障.

目前,許多計算模型被用于挖掘潛在的CircRNA-疾病關聯對.但由于當前數據集的不完備和計算模型的缺陷,要獲得足夠準確的預測結果仍然是一個挑戰.本文使用圖神經網絡中的分層網絡圖表示算法,對基因與疾病組成的異構網絡中的邊緣和頂點進行合并,從而提取出節點特征.然后用Node2Vec算法學習表示成嵌入向量,并通過該嵌入向量來反映整個網絡圖的結構,計算出頂點間存在邊緣的概率,對CircRNA-疾病網絡圖中的各節點的關系進行預測分析,從而達到CircRNA-疾病關聯預測的目的.

1 數據集和方法

1.1 數據集

1.1.1 CircRNA關聯數據集 研究中使用的CircRNA-疾病關聯來自于MNDR數據庫,本文從MNDR數據庫提取出文獻中已知的2 392個CircRNA與1 015個疾病之間的3 221個關聯.MNDR V3.0是一個儲存疾病相關ncRNA的全面數據庫,通常被當作CircRNA與疾病關聯預測的基礎數據庫.

1.1.2 疾病關聯數據集 本文的miRNA-疾病關聯數據來自HMDD V3.2數據庫.HMDD是一個手工收集整理的miRNA與疾病相關聯的數據庫,最新版本為V3.2.在此數據庫中原始數據包括兩種類型,一種是在疾病過程中miRNA的主觀因果關系,另一種是疾病過程中miRNA的被動變化.在實驗中僅選取數據庫中與疾病具有因果關系的相關miRNA-疾病關聯記錄,提取出664個miRNA與895種疾病之間的35 547個關聯.

1.1.3 miRNA關聯數據集 已知的miRNA-CircRNA關聯數據集可以從starBase數據庫下載,starBase數據庫中記錄了miRNA與各種RNA之間的聯系信息,并在此基礎上構建了ceRNA網絡.在消除冗余后只選擇CircRNA-疾病數據中常見的CircRNA記錄和miRNA數據中常見的miRNA記錄,最終共獲得641個miRNA與865個CircRNA之間的18 317個關系.

1.2 研究方法

構建CircRNA-疾病-miRNA之間相互關聯異構網絡,然后通過網絡圖的一階鄰近性和二階鄰近性,對網絡圖的節點和邊緣進行分層,遞歸地合并原始圖中的節點和邊,得到一系列結構相似的連續較小子網絡圖.使用Node2vec算法對最小子網絡圖進行預處理,獲取頂點的低維特征向量表示,并將其輸入上一層更復雜網絡的特征表示中.重復這個過程直到得到原始圖中每個節點的低維特征向量表示,然后將全部節點的特征向量輸入至隨機森林分類器來識別潛在的CircRNA-疾病關聯,最終得到相應的預測結果(見圖1).

圖1 算法主要流程

1.3 構建CircRNA-疾病-miRNA關聯異構網絡CMDN

1.4 算法定義描述

1.5 分層網絡圖表示學習

在網絡圖表示學習中普遍的任務是根據網絡中頂點的鄰近性,將網絡中的節點通過游走類算法(如DeepWalk,Node2Vec,LINE)學習表示成嵌入向量,并通過該嵌入向量來反映整個網絡圖的結構,計算出頂點間存在邊緣的概率,從而對網絡圖中的各節點的關系或鏈路進行預測分析[10].

但是這些網絡表示學習方法一般都存在共同的問題:

(1)考慮的重點基本都聚焦在網絡的局部結構關系,如節點的低階鄰近性,盡管使用了隨機游走,但是也局限在特殊點附近,忽略了網絡圖中高階結構特性.

(2)都是通過隨機梯度下降的方法對非凸的目標函數進行優化,容易將焦點停留在局部最優點.

所以在本文中使用分層網絡表示學習算法,通過遞歸將網絡中的節點和邊進行合并處理,將原始的CMDN網絡進行分層處理,使其劃分生成一系列分層的結構較小的網絡圖,然后通過現有的Node2vec算法進行不斷的網絡嵌入來進行特征提?。畬W習到最小網絡嵌入作為更大網絡的初始化向量,迭代求解上一層較大網絡的嵌入,不斷向上循環迭代直至求解到全部的CMDN網絡的嵌入,避免了隨機初始化導致的局部最小值的風險.在分層的過程中主要利用網絡圖的圖粗粒度化,圖粗粒度化主要包括邊緣合并和頂點合并,其中邊緣合并可以保留網絡中的一階相似度,頂點合并可以保留網絡中的二階相似度.

其中網絡圖分層算法流程為:

1 Input:網絡圖CMDN=(V,E)

2 n=0

圖2 網絡圖分層頂點合并和邊緣合并算法實例

1.6 基于Node2vec的特征提取

Node2vec是一種半監督的網絡特征學習方法,是在DeepWalk基礎上提出的一種結合了廣度優先搜索(BFS)和深度優先搜索(DFS)的有偏隨機游走模型[11],兩種搜索模式見圖3.

圖3 BFS和DFS之間區別說明

與傳統的隨機游走模型不同的是,頂點序列的采樣策略不同,根據實際任務的不同,會采取有偏好的調整參數來調整.不同的游走策略程度,即控制BFS和DFS的程度[12](見圖4).給出Node2vec中有偏隨機游走算法實現的描述:

圖4 有偏游走Node2vec

2 結果和討論

2.1 評估指標

2.2 分類器的選擇和參數調整

在機器學習分類器的選擇過程中,分別基于不同的評估標準測試了隨機森林分類器(RF)、線性回歸分類器(LR)、XGBoost分類器、AdaBoost分類器(ADB)、樸素貝葉斯分類器(NB).所有分類器都是從Scikit-learn庫中導入到PyCharm中實現,其內部參數均為默認值不做修改,所評估的指標均為十折交叉驗證下的平均值.所有分類器的不同評估指標下的結果見表1.

表1 分類器在不同評估指標下的結果

由表1可見,隨機森林分類器(RF)在大部分評估指標下都取得了最佳的分類結果,所以在模型的機器學習分類器中采用隨機森林分類器來進行分類.

2.3 模型性能評估

模型是在MNDR數據集中實現的,用于評估CircRNA-疾病潛在的關聯,模型在十折交叉驗證的結果見表2.

從模型在評估指標的表現來看,所有的標準差都小于2,表明模型具有良好的魯棒性,能夠很好地完成CircRNA-疾病關聯預測的任務.

此外,在PyCharm中繪制了模型生成的ROC曲線(見圖5),模型的ROC曲線具有很好的表現,十折交叉驗證的平均AUC值為0.983 2,可以很好地進行CircRNA-疾病潛在的關聯預測.

表2 模型在十折交叉驗證下的產生的結果(%)

圖5 模型在十折交叉驗證下的ROC 曲線

對當前比較先進的幾種模型在同一數據集下進行了對比,其中包括GCNCDA[13],DWNN-RLS[14],PWCDA[15],KATZHCDA[16],結果見表3.根據十折交叉驗證的AUC分數來看,本文模型取得了最高的AUC分數,比對照組中表現最好的模型AUC值約提高了6%.

表3 不同模型在MNDR同一基準數據集下十折交叉驗證的平均AUC分數

3 結語

[1] ZHANG Y,ZHANG X O,CHEN T,et al.Circular Intronic Long Noncoding RNAs[J].Molecular Cell,2013,51(6):134-137.

[2] Danan M,Schwartz S,Edelheit S,et al.Transcriptome-wide discovery of circular RNAs in Archaea[J].Nucleic Acids Research,2011,40(7):3131-3142.

[3] CHEN L,HUANG C,WANG X,et al.Circular RNAs in Eukaryotic Cells[J].Current Genomics,2015,16(5):1-2.

[4] CHU Q,ZHANG X,ZHU X,et al.PlantcircBase:A Database for Plant Circular RNAs[J].Molecular Plant,2017,10 (8):1126-1128.

[5] LIANG D,WILUSZ J E.Short intronic repeat sequences facilitate circular RNA production[J].Genes & Development, 2014,28(20):2233-2247.

[6] ZHANG Z,YANG T,XIAO J.Circular RNAs:Promising Biomarkers for Human Diseases[J].EBioMedicine,2018,34: 267-274.

[7] ZHAO Z,WANG K,WU F,et al.CircRNA disease:a manually curated database of experimentally supportedCircRNA-disease associations[J].Cell Death & Disease,2018,9(5):1-2.

[8] FAN C,LEI X,FANG Z,et al.CircR2Disease:a manually curated database for experimentally supported circular RNAs associated with various diseases[J].Database,2018: 8(4):1-6.

[9] TANG J, QU M, WANG M, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th international conference on world wide web.2015:1067-1077.

[10] 高宏屹,張曦煌,王杰.生成對抗式分層網絡表示學習的鏈路預測算法[J].計算機工程,2021,47(2):60-68,76.

[11] Grover A,Leskovec J.Node2vec:Scalable Feature Learning for Networks[J].ACM,2016.DOI:10.1145/2939672.2939754.

[12] 姚銳.采用Node2vec模型對網絡特征表示方法研究[D].南京:南京大學,2018.

[13] WANG L,YOU Z H,LI Y M,et al.GCNCDA:A New Method for Predicting CircRNA-Disease Associations Based on Graph Convolutional Network Algorithm[J].Cold Spring Harbor Laboratory,2019(5):934-947.

[14] YAN C,WANG J,WU F X.DWNN-RLS:Regularized least squares method for predicting CircRNA-disease associations[J].BMC Bioinformatics,2018.DOI:10.1186/s12859-018-2522-6

[15] XIU JUAN,LEI,ZENGQIANG,et al.PWCDA:Path Weighted Method for Predicting CircRNA-Disease Associations[J]. International Journal of Molecular Sciences,2018,36:231-235.

[16] FAN C,LEI X,WU F X.Prediction of CircRNA-Disease Associations Using KATZ Model Based on Heterogeneous Networks[J]. International Journal of Biological Sciences,2018,14(14):111-114.

CircRNA-disease prediction based on graph neural networks and random forests

WANG Bo,YIN Shuai,DU Xiaoxin,ZHANG Jianfei,ZHOU Zhenyu

(School of Computer and Control Engineering,Qiqihar University,Qiqihar 161006,China)

Circular RNA(CircRNA)are widely involved in human disease processes,and their mutations and dysregulation are closely associated with many human diseases.Therefore,establishing an efficient and accurate prediction algorithm between CircRNA and diseases is important for making prevention of disease occurrence in advance as well as treatment programs after the onset of diseases.A new algorithm based on graph neural network and random forest is proposed to predict CircRNA-disease association algorithm,in the hierarchical network representation embedding part by constructing a heterogeneous network,according to the proximity of the network graph,the nodes and edges of the network graph are layered,and the nodes and edges in the original graph are merged recursively to obtain a number of smaller sub-networks with similar characteristics,and the size of the sub-networks decreases with deeper layering until the smallest sub-network is obtained.The size of the sub-networks decreases with the depth of layering until the smallest sub-network is obtained, which is preprocessed using the node2vec network graph wandering algorithm,and then the feature vectors of all the nodes are inputted into the random forest classifier to identify potential CircRNA-disease associations and thus make predictions.

CircRNA-disease association prediction;graph neural network;node2vec;random forest

TP399

A

10.3969/j.issn.1007-9831.2024.02.007

1007-9831(2024)02-0036-07

2023-07-31

2022年度黑龍江省省屬高等學?;究蒲袠I務費科研項目(145209125)

王波(1980-),男,黑龍江齊齊哈爾人,教授,博士,從事大數據分析與挖掘研究.E-mail:bowangdr@qqhru.edu.cn

猜你喜歡
網絡圖分類器關聯
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
網絡圖計算機算法顯示與控制算法理論研究
“一帶一路”遞進,關聯民生更緊
網絡圖在汽修業中應用
BP-GA光照分類器在車道線識別中的應用
奇趣搭配
智趣
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
試論控制算法理論和網絡圖計算機算法顯示
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合