?

基于生物信息學分析篩選舌鱗狀細胞癌核心基因及其預后價值

2020-04-07 03:49黃成易尚輝查文婷呂媛
醫學信息 2020年3期
關鍵詞:生物信息學

黃成 易尚輝 查文婷 呂媛

摘要:目的? 通過對GEO數據庫提供的基因芯片數據進行挖掘,結合生物信息學分析基因表達譜,獲取舌鱗狀細胞癌(TSCC)核心基因,利用生存分析初步驗證核心基因對舌鱗狀細胞癌的預測效果。方法? 從GEO數據庫下載舌鱗狀細胞癌相關芯片數據(GSE9844),獲得了26例TSCC組織樣本和12例癌旁組織樣本的全基因組轉錄組譜,采用SAM算法篩選出TSCC與癌旁組織間的差異表達基因,并借助GEO的gene信息庫對基因功能進行描述,篩選出TSCC與癌旁組織間的差異細胞信號通路,構建決定TSCC的基因共表達網絡,通過GEPIA數據庫來初步驗證共表達網絡中的核心基因是否與TSCC患者的生存預后存在相關性。結果? 篩選出2074個差異表達基因,包括1119個上調基因和955個下調基因。以2074個差異表達基因作為共表達網絡的構建基礎,共納入230個差異表達基因,篩選出5個TSCC核心的基因(ADCY4、PLA2G12A、MAOB、PDE2A、CYP2C9),通過GEPIA數據庫對核心基因進行生存分析,初步驗證共表達網絡中高表達的ADCY4基因與TSCC總體生存率呈正相關(P=0.014),高表達PLA2G12A基因與TSCC總體生存率呈負相關(P=0.0029),MAOB、PDE2A及CYP2C9基因患者生存率比較,差異無統計學意義(P>0.05)。結論? 通過生物信息學方法分析影響TSCC的核心基因,最終篩選出2個差異表達非常顯著且對患者預后影響明顯的基因,對TSCC的診斷和預后治療提供了新思路,提高TSCC機制的研究效率。

關鍵詞:舌鱗狀細胞癌;生物信息學;核心基因;共表達網絡

中圖分類號:R739.91? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.03.002

文章編號:1006-1959(2020)03-0006-07

Screening Core Genes of Tongue Squamous Cell Carcinoma Based

on Bioinformatics Analysis and Its Prognostic Value

HUANG Cheng,YI Shang-hui,ZHA Wen-ting,LYU Yuan

(Hunan Normal University Medical College,Changsha 410001,Hunan,China)

Abstract:Objective? To obtain core genes of tongue squamous cell carcinoma (TSCC) by mining gene chip data provided by the GEO database and analyzing gene expression profiles in combination with bioinformatics, and use survival analysis to initially verify the role of core genes in tongue squamous cell carcinoma forecast effect. Methods? Tongue squamous cell carcinoma-related chip data (GSE9844) was downloaded from the GEO database, and the genome-wide transcriptome profiles of 26 TSCC tissue samples and 12 adjacent cancer tissue samples were obtained. The differences between TSCC and adjacent cancer tissues were screened using the SAM algorithm express genes, and use GEO's gene information database to describe gene functions, screen differential signaling pathways between TSCC and adjacent tissues, construct a gene co-expression network that determines TSCC, and use the GEPIA database to initially verify the co-expression network. Whether the core genes are correlated with the survival prognosis of patients with TSCC.Results? 2074 differentially expressed genes were screened, including 1119 up-regulated genes and 955 down-regulated genes. Using 2,074 differentially expressed genes as the basis for the construction of a co-expression network, a total of 230 differentially expressed genes were included, and 5 TSCC core genes (ADCY4, PLA2G12A, MAOB, PDE2A, CYP2C9) were selected, and the core genes were survived through the GEPIA database. The analysis showed that the highly expressed ADCY4 gene in the co-expression network was positively correlated with the overall survival rate of TSCC (P = 0.014), the highly expressed PLA2G12A gene was negatively correlated with the overall survival rate of TSCC (P = 0.0029), and patients with MAOB, PDE2A, and CYP2C9 genes,there was no significant difference in survival rate (P> 0.05).Conclusion? The core genes affecting TSCC were analyzed by bioinformatics methods. 2 genes with very significant differential expression and significant effects on patients' prognosis were finally screened, which provided new ideas for the diagnosis and prognosis of TSCC and improved the research efficiency of TSCC mechanism.

Key words:Tongue squamous cell carcinoma;Bioinformatics;Core genes;Co-expression network

生物信息學是20世紀80年代末隨著人類基因組計劃的啟動而興起的一門交叉學科,體現了生物學、計算機科學、數學、物理學等學科間的滲透與融合。其通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,達到揭示數據所蘊含的生物學意義從而解讀生物活動規律的目的,在后期的臨床試驗、新藥研制以及復雜疾病早期診斷、治療中具有重要指導意義[1-5]。舌鱗狀細胞癌(tongue squamous cell carcinoma,TSCC)作為頭頸部最為常見的癌癥,具有惡性化程度高、浸潤生長速度快、易轉移等特點,可累及舌肌導致吞咽、言語功能受損[6],目前的流行病學研究顯示[7],TSCC發病率逐年上升,并且有年輕化的趨勢。雖然目前的臨床治療手段不斷提升,但是TSCC容易淋巴轉移的特點導致其總體生存率不高,TSCC的侵襲和淋巴轉移已經成為其預后不佳的主要原因[8]。舌癌的發生是多基因參與、多步驟發生的生物學過程,包括多基因的功能失常,如原癌基因激活和抑癌基因失活等,目前對TSCC的生物信息學研究較多,但大多篩選出的基因僅停留在實驗室研究階段,應用于臨床實踐的相關報道罕見。TSCC的發生與發展是一個多基因及相關因子作用的結果,隨著高通量測序和基因芯片技術的不斷發展,為TSCC的預防和治療,以及發現導致TSCC的核心基因提供了基礎保障[9]。本研究利用GEO數據庫中TSCC基因芯片數據篩選出TSCC差異表達基因,對差異基因進行生物信息學分析及共表達網絡構建,以期獲取TSCC 的核心基因及相關通路[10]。通過GEPIA數據庫對核心基因進行生存分析,初步驗證核心基因的表達與TSCC的關系,為進一步研究TSCC發生發展的作用機制提供科學依據。

1資料與方法

1.1數據資料收集? 本研究中所使用的基因芯片表達譜來自GEO數據庫(網址:https://www.ncbi.nlm.nih.gov/geo/),所有患者的表達譜數據均來自相同的實驗平臺(Affyme-trix U133 Plus 2.0 array)。

1.2差異基因篩選方法? 本研究在篩選差異基因階段所采用的SAM(significance analysis of microarrays)算法[11]是一種專業針對DNA芯片數據進行分析的算法,由美國Standford大學開發,其本質為一種高通量的生物信息分析平臺。采用GEO 數據庫自帶的GEO2R分析實驗室分析GSE9844中TSCC樣本及癌旁組織中的差異表達基因,差異基因篩選標準:Fold change>1.2且P<0.05。

1.3細胞信號通路分析方法? GO功能富集分析一般包括生物過程(biological? process,BP)、分子功能(molecular function,MF)和細胞成分(cellular component,CC),本研究中對基因的生物過程、分子功能和細胞成分進行富集分析。將這些差異表達基因導入到在線工具DAVID 數據庫中,分別進行GO 和KEGG富集分析,P<0.05表示差異有統計學意義[12]。利用KEGG數據庫來識別下調差異表達基因以及上調差異表達基因中顯著富集的通路。通路數據資源均來源自kyoto encyclopedia of genes and genomes database(KEGG) 數據庫。KEGG數據庫(http://www.genome.ad.jp/kegg)是一組數據庫與基因信息相關聯在一起的軟件,用于通過其基因組信息幫助理解與模擬細胞或者生物系統中的高階功能行為[13-17]。

1.4基因共表達網絡分析方法? 利用在線數據庫String構建差異表達基因之間的交互作用網絡圖(PPI),分析蛋白質功能之間的相互作用。隨后我們應用 Cytoscape 軟件(3.5.1)在線工具使 PPI 的網絡模塊可視化,使用 Cyto Hubba 插件對差異基因共表達網絡進行關聯度分析,并根據節點度(degree)大小進行排序,篩選出核心基因[18,19]。

1.5生存分析? 通過GEPIA數據庫對TSCC核心基因進行在線生存分析,篩選條件為LUAD數據集,95%置信區間,時間軸單位為月?;虮磉_差異采用t檢驗,在TSCC中表達量與預后的關系采用Log-rank檢驗,以P<0.05表示差異有統計學意義。

2結果

2.1TSCC基因芯片樣本類型分布? 本研究從美國國立生物技術信息中心共收集基因芯片樣本38例,TSCC樣本26例(68.42%);癌旁組織基因芯片樣本12例(31.58%)。

2.2差異表達基因篩選結果? 本研究共獲得2074個差異表達基因,火山圖中紅色為上調基因(見圖1),藍色為下調基因。其中包括1119個上調基因和955個下調基因,q-value為誤判率,即差異基因中假陽性基因所占比例的期望,值越小假陽性率越低。圖2為2074個差異表達基因的聚類熱圖。在樣本聚類中,紅色代表TSCC組織樣本,綠色代表正常癌旁組織樣本。在基因聚類中,紅色代表基因表達水平較高,綠色代表基因表達水平較低。表1為DEGs列表(局部),TSCC組織中基因表達水平與正常癌旁組織相比較,MMP1基因在癌組織上調基因中差異倍數最高,TMPRSS11B在下調基因中差異倍數最高。

2.3細胞信號通路富集分析結果? 針對2074個差異表達基因的細胞信號通路富集結果顯示,富集度最高的信號通路為ECM-receptor interaction,富集度為8.63,富集度排名前5的信號通路還包括Metabolic pathways通路、PI3K-Akt signaling pathway、Focal adhesion通路及Pathways in cancer通路。前20位差異細胞信號通路富集結果比較,差異均有統計學意義(P<0.001),可認為本研究得到的信號通路富集結果具有較高的真實性和有效性,見表2、圖3。

2.4基因共表達網絡結果? 以2074個在不同組發生差異表達的基因作為共表達網絡的構建基礎,本次構建得到的共表達網絡共納入230個發生差異表達的基因。以TSCC(TSCC)為實驗組,以正常癌旁組織為對照組,采用MCODE算法計算基因調控能力評分的結果顯示,決定TSCC調控能力評分最高基因為ADCY4基因,得分為425.2分,該基因在本次構建得到的模塊中上游基因數為10,下游基因數為6,這在某種程度上說明ADCY4基因在決定TSCC的過程中雖具有較強的調控能力,但其功能的發揮在很大程度上受到其上游基因的影響。

此外,PLA2G12A、MAOB、PDE2A以及CYP2C9基因的調控能力評分均高于或接近于200,因此可認為它們是本次構建得到的共表達網絡模塊中的核心基因。本次構建得到的共表達網絡模塊中所有納入基因的調控能力評分以及上下游基因數參見表3,決定TSCC基因共表達網絡全局圖見圖4。

2.5決定TSCC的共表達網絡基因功能描述? 通過TSCC基因共表達網絡MCODE算法得分,篩選出得分排在前二十位的基因,其中排名在前五位的基因分別是:ADCY4(腺苷酸環化酶4)、PLA2G12A(磷脂酶A2,XIIA組)、MAOB(單胺氧化酶B)、PDE2A(磷酸二酯酶2A,cGMP刺激)和CYP2C9(細胞色素P450,家族2,家族C,多肽9),見表4。

2.6 TSCC中5種核心基因與患者預后關系? PLA2G12A表達水平對患者的總生存時間有著顯著影響(P<0.05)。而ADCY4對患者生存率也有明顯影響(P<0.05),MAOB、PDE2A以及CYP2C9對患者的生存率影響無統計學意義(P>0.05),見圖5。

衡量富集度的大小。因此,細胞信號通路的富集度越大,就越能認為該信號通路在疾病的發生發展中起著重要的作用[23]。

對TSCC差異基因進行網絡化分析,以基因之間的關系為線,實線表示激活作用,虛線表示抑制作用,如果在共表達網絡中不知道某個基因的功能,可以通過調控的相關節點基因和周圍的連線來判斷該基因的功能。此處經常用到基因調控能力評分來對基因在共表達網絡中的調控能力進行量化評估,其計算原理主要涉及 MCODE 代碼算法,其本質為一種尋找共表達網絡局部稠密區域的算法,找到網絡圖的局部密集地區后,MCODE 代碼基于聚類系數,使用頂點加權方案。MCODE代碼算法包括三個階段(頂點加權、復雜預測和可選后處理),其原理類似于聚類分析(都是通過指標的降維進而選取有代表性的指標),但有別于聚類分析的是,共表達網絡在構建的過程中放大了重要關聯圖區域的權重,因此在進行核心基因篩選的過程中具有一定的算法優勢[24]。

以上的研究表明通過生物信息學方法來尋找TSCC的生物標志物和其對臨床預后可能有重要意義,通過相關的文獻來進一步證明這些核心基因在舌癌和其他腫瘤的發生發展中起到重要的作用[25,26],以期為對舌癌的診斷和預后治療提供了新思路,提高舌癌機制的研究效率,為將來對TSCC的早期診斷和基因靶向治療提供了科學依據和理論指導。

參考文獻:

[1]Chan LL,Jiang P.Bioinformatics analysis of circulating cell-free DNA sequencing data[J].Clin Biochem,2015,48(15):962-975.

[2]Ranganathan S,Tan T,Schonbach C.InCoB2014:bioinformatics to tackle the datato knowledge? challenge.Introduction[J].BMC Bioinformatics,2014,15(16):1471-2105.

[3]Ow TJ,Upadhyay K,Belbin? TJ,et al.Bioinformatics? in? otolaryngology? research.Part one: concepts in DNA sequencing and gene expression analysis[J].J Laryngol Otol,2014,128(10):848-858.

[4]Meldolesi E,van Soest J,Damiani A,et al.Standardized data collection to build prediction models in oncology:a prototype for rectal cancer[J].Future Oncol,2016,12(1):119-136.

[5]Perry PM.Harnessing the power of big data and data analysis to improve healthcare entities[J]. Healthc Financ Manage,2016,70(1):74-75.

[6]D?觟brossy L.Epidemiology of head and neck cancer:Magnitude of the problem[J].Cancer Metastasis Rev,2005,24(1):9-17.

[7]Timar J,Csuka O,Remenar E,et al.Progression ofhead and neck squamous cell cancer[J].Cancer Metastasis Rev,2005,24(1):107-127.

[8]Mackenzie J,Ah-See K,Thakker N,et al.Increasing incidence of oral cancer amongst youngpersons:what is the aetiology[J].Oral Oncol,2000,36(4):387-389.

[9]Annertz K,Anderson H,Biorklund A,et al.Incidence and survival of squamouscell carcinoma of the tongue in Scandinavia,with special reference to young adults[J].Int J Cancer,2002,101(1):95-99.

[10]Ye H,Yu T,Temam S,et al.Transcriptomic dissection of tongue squamous cell carcinoma[J]. BMC Genomics,2008,9(1):69-70.

[11]Jez S,Martin M,South S,et al.Variants of unknown significance on chromosomal microarray analysis:parental perspectives[J].J Community Genet,2015,6(4):343-349.

[12]Kanehisa M,Sato Y,Morishima? K.BlastKOALA? and? GhostKOALA:KEGG? Tools for Functional Characterization of Genome and Metagenome Sequences[J].J Mol Biol,2016,428(4):726-731.

[13]Cheng L,Lin H,Hu? Y,et? al.Gene? function? prediction? based? on? the? Gene? Ontology hierarchical structure[J].PLoS One,2014,9(9):e84685.

[14]Kanehisa? M,Sato? Y,Kawashima? M,et? al.KEGG? as? a? reference? resource? for? gene and protein annotation[J].Nucleic Acids Res,2016,44(D1):17.

[15]Blake JA,Chan J,Kishore R,et al.Gene Ontology Consortium:going forward[J].Nucleic Acids Research,2015,43(Database issue):1049-1056.

[16]Nigrovic PA,Muscal E,Riebschleger M,et al.AMIGO:a novel approach to the mentorship gap in pediatric rheumatology[J].J Pediatr,2013,164(2):226-227.e1-e3.

[17]Peltola MA,Kuja-Panula J,Liuhanen J,et al.AMIGO-Kv2.1 Potassium Channel Complex Is Associated With Schizophrenia-Related Phenotypes[J].Schizophr Bull,2016,42(1):191-201.

[18]Zhou T,Zhang Y,Wu P,et al.Potential biomarkers and latent pathways for vasculitis based on latent pathway identification analysis[J].Int J Rheum Dis,2014,17(6):671-678.

[19]魏選東.基于芯片分析的乳腺癌預后核心基因篩選及其預測效果分析[D].湖南師范大學,2018.

[20]Iancu OD,Colville A,Darakjian P,et al.Coexpression and cosplicing network app roaches for the study of mammalian brain transcriptomes[J].Int Rev Neurobiol,2014,116(1):73-93.

[21]汪濤,蔣慶華,彭佳杰,等.基因共表達網絡的構建及分析方法研究綜述[J].智能計算機與應用,2014(6):51-54,57.

[22]洪勝君.基于轉錄組測序數據的基因共表達網絡研究[D].復旦大學,2013.

[23]王安訓.舌鱗狀細胞癌侵襲和轉移的研究進展[J].口腔疾病防治,2016,24(5):261-266.

[24]Nsman A,Bersani C,Lindquist D,et al.Human papillomavirus and po-tentiallyrelevant biomarkers in tonsillar and base of tongue squamouscell carcinoma[J].Anticancer Res,2017,37(10):5319-5328.

[25]高桂林,朱斌,顏孟雄.舌鱗狀細胞癌相關差異基因的生物信息學及預后分析[J].臨床口腔醫學雜志,2018(3):145-149.

[26]Langfelder P,Horvath S.WGCNA:an R package for weighted correlation network analysis[J]. BMC Bioinformatics,2008,9(1):559.

收稿日期:2019-12-24;修回日期:2020-01-10

編輯/肖婷婷

猜你喜歡
生物信息學
淺談醫學院校生物信息學專業青年教師規范培訓模式的建立
“PBL+E—learning”教學模式探索
移動教學在生物信息學課程改革中的應用
案例教學法在《生物信息學》本科教學中的應用
微生物二元網絡作用關系研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合