?

基于GEO 和TCGA 數據庫對肺腺癌差異表達基因的生物信息學分析

2024-01-05 10:27周麗婷
吉林大學學報(醫學版) 2023年6期
關鍵詞:關鍵淋巴細胞通路

葉 匯, 孫 哲, 周麗婷, 齊 雯, 葉 琳

(吉林大學公共衛生學院勞動衛生與環境衛生教研室,吉林 長春 130021)

肺癌是中國發病率最高的癌癥,約占全部惡性腫瘤的18%,肺癌導致死亡也是惡性腫瘤患者死亡的主要原因[1]。肺腺癌(lung adenocarcinoma,LUAD)是肺癌的主要組織學類型,約占肺癌總類型的40%[2-3]。LUAD 早期為原位腺癌和微浸潤腺癌,轉移可能性小,手術后復發率低;晚期LUAD轉移和復發的風險高,嚴重者可危及生命。因此,早診斷和早治療是提高LUAD 患者預后的關鍵。由于LUAD 患者早期無明顯的臨床表現,患者大多在LUAD 晚期確診,盡管可使用靶向治療和免疫療法,LUAD 患者5 年生存率仍低于15%[4]。因此,發現影響LUAD 發生發展的關鍵基因有助于LUAD 的早期診斷和治療。生物信息學技術、基因表達譜技術和微陣列技術的發展使癌癥在診斷及治療方面取得了巨大的進步。本研究通過對高通量基因表達(Gene Expression Omnibus,GEO) 數據庫和癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數據庫的基因芯片進行聯合分析,篩選差異 表 達 基 因 (differentially expressed genes,DEGs),識別影響LUAD 發生發展及預后的關鍵基因并排序,分析前10 位關鍵基因的生物學功能及其對預后的影響,為發現LUAD 的生物標志物和治療靶點及改善患者預后提供新的思路。

1 資料與方法

1.1 LUAD 基因芯片數據獲取于GEO 數據庫(https://www. ncbi. nlm. nih. gov/geo/) 中以“adenocarcinoma”為關鍵詞進行檢索。篩選條件:①LUAD;②組織來源為人的組織;③研究類型為數組表達式分析(expression profiling by array)。通過文獻篩選,采用GSE118370 和GSE136043 數據集。GSE118370 數據集為基于GPL570 構建的芯片,包含6 例正常肺組織和6 例LUAD 組織;GSE136043 數據集為基于安捷倫-026652 構建的芯片,包含5 例正常肺組織和5 例LUAD 組織。于TCGA 數據庫(https://www. cancer. gov/ccg/research/genome-sequencing/tcga) 中下載LUAD的轉錄組測序技術(RNA sequencing,RNA-Seq)數據,共包含594 例樣本,其中59 例正常樣本、535 例腫瘤組織樣本和515 例病案樣本。

1.2 DEGs 的提取和分析于GEO 和TCGA 數據庫下載原始表達矩陣,基因組瀏覽器(https://genome.ucsc.edu/)下載人類基因文件。采用Perl語言進行原始表達矩陣轉換;使用R 軟件中svaR包對GSE118370 和GSE136043 數據集進行合并和批次矯正;使用limmaR包篩選差異基因,計算倍數變化(fold change,FC)和錯誤發生率(false discovery rate,FDR),以|log10FC|>1 和|log10FDR|>1,矯正后P<0.05 為篩選條件;采用ggplot2 包繪制火山圖,pheatmap 包繪制熱圖;采用venn 圖網絡分析工具確定公共的DEGs 進行后續分析。

1.3 DEGs 的基因本體(Gene Ontology,GO)功能富集分析和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)信號通路富集分析使用R 軟件中clusterProfiler R 包對LUAD 的DEGs 進行GO 功能富集分析,使用DAVID 數據庫(https://david. ncifcrf. gov/) 對LUAD 的DEGs 進行KEGG 信號通路富集分析,基因集的截斷標準為P<0.05。

1.4 DEGs 網絡構建和關鍵基因篩選將上述獲取的DEGs 導入STRING 數據庫(https://stringdb. org/) 進行蛋白- 蛋白相互作用(proteinprotein interaction,PPI)網絡構建,評估潛在的蛋白質相互作用關系。采用Cytoscape 軟件將PPI 網絡可視化并去除游離蛋白質節點,CytoHubba 插件計算每個蛋白質節點的連接度并按照降序排列,排序前10 位的DEGs 為與LUAD 發病相關的關鍵基因。

1.5 關鍵基因mRNA 表達水平和蛋白表達情況分析在GEPIA(https://gepia.cancer-pku.cn/)數據庫中查詢關鍵基因在LUAD 患者組織(n=483)和正常組織(n=347) mRNA 表達水平。以每百萬轉錄本(transcripts per million,TPM) 計量關鍵基因mRNA 表達水平。于人類蛋白質圖譜(The Human Protein Atlas, HPA) (https://www.proteinatlas.org/)數據庫中獲取LUAD 組織和正常肺組織中關鍵基因蛋白的免疫組織化學染色圖像并分析關鍵基因蛋白表達情況。

1.6 不同分期LUAD 患者肺組織中關鍵基因的表達分析使用GEPIA 數據庫查詢關鍵基因在不同分期LUAD 患者肺組織中的表達差異,以獲取基因表達與腫瘤惡性程度的相關關系。

1.7 關鍵基因免疫浸潤分析和生存分析使用TIMER 數據庫(https://timer. comp-genomics.org/)分析關鍵基因的表達與腫瘤純度、B 淋巴細胞、CD8 T 淋巴細胞、CD4 T 淋巴細胞、巨噬細胞、中性粒細胞和樹突狀細胞之間的相關性。將關鍵基因導入Kaplan-Meier plotter 數據庫(https://kmplot.com/analysis/),按照關鍵基因表達量的中位數將患者劃分為低表達組和高表達組,以總生存期(overall survival,OS)和患者不良預后生存期(poor prognosis survival,PPS) 為患者生存終點,篩選最佳探針,限制分析組織為腺癌組織,分析關鍵基因的表達與患者生存期的相關關系。以P<0.01 為差異有統計學意義。

2 結 果

2.1 LUAD 中DEGs 篩選在由TCGA 數據庫中獲得的數據集中,篩選出LUAD的DEGs為9 998 個,其中7 569 個DEGs 表達上調和2 429 個DEGs 表達下調(圖1)。 將由GEO 數據庫中獲得的GSE118370 和GSE136043 數據集合并,篩選出LUAD 的DEGs 為1 425 個,其中601 個DEGs 表達上調和824 個DEGs 表達下調(圖2)。將由GEO數據庫和TCGA 數據庫中獲得LUAD 的DEGs 取交集,獲得LUAD 的DEGs 954 個,其中428 個DEGs 表達上調和526 個DEGs 表達下調(圖3)。

圖1 TCGA 數據庫中LUAD 的DEGs Fig. 1 DEGs of LUAD in TCGA Database

圖2 GEO 數據庫中LUAD 的DEGs Fig. 2 DEGs of LUAD in GEO Database

圖3 DEGs 的Venn 圖Fig. 3 Venn diagram of DEGs

2.2 DEGs 的GO 功能富集分析和KEGG 信號通路富集分析GO 功能富集分析結果顯示:LUAD的DEGs 在生物過程(biological process,BP) 方面主要富集于外包被結構組織、細胞外基質(extracellular matrix,ECM)、細胞外結構組織、循環系統中的血管形成和上皮細胞的增殖和調節等方面;在細胞組分(cellular components,CC) 方面主要富集于含膠原的ECM、細胞交界處、頂端質膜、細胞外側血漿膜和細胞基部等方面;在分子功能(molecular function,MF) 方面主要富集于氨基多糖結合、硫化合物結合、信號受體激活劑活性、化學趨避活性、肝素結合、G 蛋白偶聯受體活性、蛋白質結合、受體配體活性、生長因子活性和ECM 結構形成等方面。見圖4。

圖4 LUAD 中DEGs 的GO 功能富集分析Fig. 4 GO fuctional enrichment analysis on DEGs in LUAD

KEGG 分析結果顯示:LUAD 的DEGs 主要富集于蛋白質消化和吸收通路、ECM-受體相互作用通路、病毒蛋白與細胞因子和細胞因子受體的相互作用通路、軸突引導通路、血管平滑肌收縮通路及細胞因子受體相互作用通路等方面。見圖5。

圖5 LUADDEGs 的KEGG 信號通路富集分析Fig. 5 KEGG signaling pathway enrichment analysis on DEGs of LUAD

2.3 關鍵基因篩選結果LUAD 的DEGs 編碼蛋白質PPI 網絡由940 個節點和454 個邊組成。連接度排名前10的關鍵基因分別為DNA 拓撲異構酶Ⅱα(topoisomerase Ⅱ alpha,TOP2A)、果蠅紡錘體異?;颍╝bnormal spindle microtubule assembly,ASPM)、細胞周期蛋白B1(cyclin B1,CCNB1)、人類細胞分裂周期相關基因8 (cell division cycle associated 8,CDCA8)、含桿狀病毒IAP 重復序列蛋 白 5 (baculoviral IAP repeat containing 5,BIRC5)、蘇氨酸激酶(aurora A,AURKA)、驅動蛋白超家族成員20A (kinesin family member 20A,KIF20A)、中心體相關蛋白55(centrosomal protein 55,CEP55)、著絲粒蛋白F (centromere protein F,CENPF) 和微管組織因子(targeting protein for Xklp2,TPX2)。見表1 和圖6。

表1 連接度排名前10 位的關鍵基因Tab.1 Top 10 key genes in connectivities

圖6 關鍵基因可視化圖Fig. 6 Visualization map of key genes

2.4 關鍵基因mRNA 表達水平與正常肺組織比較,LUAD 組織中TOP2A、CCNB1、CDCA8、BIRC5、AURKA、KIF20A、CEP55、CENPF 和TPX2 mRNA 表達水平均增加(P<0.01)。見圖7 和8。

圖7 GEPIA 數據庫分析2 組關鍵基因mRNA 表達情況Fig. 7 Expressions of key gene mRNA in two groups analyzed by GEPIA Database

圖8 關鍵基因mRNA 表達情況Fig. 8 Expressions of key gene mRNA

2.5 2 組關鍵基因蛋白表達情況HPA 數據庫中與LUAD 組織和正常肺組織有關的蛋白免疫組織化學染色結果顯示:與正常肺組織比較,LUAD 組織 中 TOP2A、 CCNB1、 CDCA8、 BIRC5、AURKA、KIF20A、CEP55、CENPF 和TPX2 蛋白表達均增加。由于HPA 數據庫中缺少ASPM 蛋白表達,因此該基因在肺組織中的表達情況無法驗證。

2.6 不同分期LUAD患者肺組織中關鍵基因mRNA表達水平CCNB1、CDCA8、BIRC5、AURKA、KIF20A、 CEP55 和TPX2 mRNA 在不同分期LUAD 患者肺組織中的表達水平比較差異均有統計學意義(P<0.01)。與Ⅰ、Ⅱ和Ⅲ期LUAD 患者比較,Ⅳ期LUAD 患者肺組織中CCNB1、CDCA8、AURKA、KIF20A、CEP55 和TPX2 mRNA 表達水平增加(P<0.01);與Ⅰ、Ⅱ和Ⅳ期LUAD 患者比較,Ⅲ期LUAD 患者肺組織中BIRC5 mRNA表達水平增加(P<0.01)。見圖9。

圖9 不同分期LUAD 患者肺組織中關鍵基因mRNA 表達Fig. 9 Expressions of key gene mRNA in lung tissue of LUAD patients with different stages

2.7 關鍵基因免疫浸潤分析篩選的10 個關鍵基因表達與B 淋巴細胞浸潤均呈負相關關系(-0.253≤r≤-0.104,P<0.01);TOP2A、ASPM、CDCA8、BIRC5、CEP55、CENPF 和TPX2 表達與中性粒細胞浸潤呈正相關關系(0.049≤r≤0.165,P<0.01);CCNB1 和AURKA 表達與CD4 T 淋巴細胞、巨噬細胞和樹突狀細胞浸潤呈負相關關系(-0.210≤r≤-0.100,P<0.01)。見圖10和11。

圖10 TOP2A、 ASPM、CCNB1、CDCA8 和BIRC5 基因免疫浸潤分析Fig. 10 Immunoinfiltration analysis on TOP2A, ASPM,CCNB1,CDCA8,and BIRC5 genes

圖11 AURKA、 KIF20A、CEP55、 CENPF 和TPX2 基因免疫浸潤分析Fig. 11 Immunoinfiltration analysis on AURKA, KIF20A,CEP55, CENPF,and TPX2 genes

2.8 關鍵基因生存分析不良預后生存期曲線提示CDCA8 高表達會增加LUAD 惡化風險(P<0.01)。OS 曲線提示TOP2A、CCNB1、CDCA8、BIRC5、AURKA、KIF20A、CEP55、CENPF 和TPX2 高表達會增加患者死亡風險(P<0.01)。見圖12 和13。

圖12 關鍵基因不良進展生存曲線Fig. 12 Survival curves of adverse progression of key genes

圖13 關鍵基因OS 曲線Fig. 13 OS curves of key genes

3 討 論

可根據生長狀況和病理特點等將LUAD 分為惡性程度逐級遞增的原位腺癌、微浸潤腺癌和浸潤性腺癌。早期LUAD 多為原位腺癌和微浸潤腺癌,轉移的可能性小,手術后復發率極低,對患者生存影響較小。但浸潤性腺癌轉移和復發的風險高,嚴重者可能危及生命[5]。

本研究結果顯示:LUAD 中DEGs 與ECM 組織、上皮細胞的增殖和調節及上皮-間質轉化(epithelial-mesenchymal transition,EMT) 等BP、細胞-細胞連接和膜筏等CC 及糖胺聚糖結合和肽結合等MF 有關;DEGs 主要富集于ECM-受體相互作用通路。EMT 影響腫瘤細胞的遷移和侵襲,在腫瘤的發生發展中發揮重要作用。EMT 過程與ECM 受體相互作用通路有關。ECM-受體相互作用通路在腫瘤脫落、黏附、降解、運動和增生過程中起重要作用[6-9]。研究[10]顯示:ECM-受體相互作用通路與LUAD 轉移有關聯。本研究篩選出影響LUAD 發生發展的前10 位關鍵基因TOP2A、CCNB1、 BIRC5、 TPX2、 AURKA、 ASPM、CENPF、KIF20A、CDCA8 和CEP55,均在EMT過程中發揮重要作用,可能通過影響ECM-受體相互作用通路促進LUAD 的進展。

不同分期LUAD 關鍵基因表達水平差異提示可以通過測定關鍵基因的表達水平確定LUAD 的分期,達到早診斷和早治療的目的。腫瘤微環境中與腫瘤進展和預后不良相關的免疫細胞包括中性粒細胞、巨噬細胞和T 淋巴細胞等。本研究結果顯示:關鍵基因可能參與LUAD 對腫瘤微環境的免疫應答,尤其是對B 淋巴細胞和中性粒細胞的免疫應答。B 淋巴細胞作為腫瘤微環境的重要組成部分,存在于腫瘤的各個階段,B 淋巴細胞活化表明免疫治療有效[11]。中性粒細胞是炎癥通過破壞組織導致癌癥的發生過程的重要成分,其浸潤提示癌癥轉移[12]。本研究結果顯示:關鍵基因表達抑制了B 淋巴細胞活化,進而促進中性粒細胞浸潤,因此關鍵基因TOP2A 等高表達可能抑制細胞免疫并促進腫瘤轉移。

TOP2A 是影響細胞分裂的關鍵基因,可作用于有絲分裂過程,促進染色體凝聚和分離并維持染色體結構。TOP2A 在宮頸癌、肝癌和胃癌等癌組織中高表達[13-15]。PEI 等[16]研究顯示:TOP2A 是β-連環蛋白的共激活劑,可通過激活EMT 過程以促進腫瘤轉移。WANG 等[17]發現:TOP2A 在早期肺癌患者中可改善其預后,TOP2A 表達與樹突狀細胞浸潤水平有密切關聯,與本研究結果一致。TOP2A 可能是LUAD 患者的預后生物標志物和潛在治療靶點。

CCNB1 是細胞周期所必需蛋白,在細胞G2期向M 期的過渡階段和完成M 期的過程中發揮作用。BAO 等[18]研究顯示:CCNB1 過表達促進LUAD細胞增殖,微小RNA(microRNA,miR)-139-5p可以通過抑制β-連環蛋白的表達下調CCNB1 表達,進而抑制LUAD 細胞增殖、遷移和侵襲。研究[19]顯示:巨噬細胞浸潤與LUAD 患者的預后呈負相關關系,提示LUAD 患者預后不良。本研究結果顯示:CCNB1 高表達與巨噬細胞浸潤呈正相關關系,因此CCNB1 可用于提示LUAD 患者預后不良。

BIRC5 可調節胚胎細胞胚胎發生中的有絲分裂過程和細胞凋亡及惡性疾病的癌變。其可通過抑制EMT 進而抑制原位卵巢中的原發性腫瘤生長和原位卵巢癌小鼠模型中的腹膜轉移[20]。WANG 等[21]研究顯示:BIRC5 對肝癌有良好的預后價值,其高表達與免疫細胞浸潤差和OS 短有顯著關聯。本研究結果顯示:BIRC5 可能是LUAD 預后不良的生物標志物。

TPX2 是微管相關蛋白,是有絲分裂紡錘體組裝和功能所必需的。TPX2 過表達可導致染色體不穩定,促進癌癥發生[22]。TPX2 對微管的調控可能介導NSCLC 細胞的細胞骨架重塑,進而激活腫瘤細胞的EMT 過程和MMP 表達,使非小細胞肺癌細胞發生轉移[23]。本研究結果顯示:TPX2 高表達與LUAD 的臨床分期、免疫細胞浸潤和不良進展呈正相關關系。

ASPM 是果蠅紡錘體異?;虻娜祟愅椿?,對胚胎神經母細胞有絲分裂過程中紡錘體功能至關重要。研究[24]顯示:ASPM 通過磷脂酰肌醇3激酶(phosphatidylinositol-3 kinase,PI3K)/蛋白激酶B (protein kinase B,Akt) 信號通路促進EMT, 調節LUAD 細胞轉移。 ASPM 表達與KIRC 和LIHC 中的腫瘤浸潤、 B 淋巴細胞、CD8 T 淋巴細胞和M2 巨噬細胞有較強的相關性[25]。本研究結果顯示:LUAD 預后不良和免疫細胞浸潤水平增加提示ASPM 表達可作為LUAD臨床結局和免疫細胞浸潤的新預后生物標志物。

CDCA8 在人類胚胎干細胞和癌細胞中轉錄被激活,但在正常組織中低表達或不表達。研究[26]顯示:在癌癥發生發展過程中CDCA8 過表達。HU 等[27]發現:CDCA8 是LUAD 細胞中的致癌因子,其受上游miR-133b 調控。miR-133b 可以通過靶向CDCA8 抑制LUAD 細胞的增殖、侵襲和遷移。

AURKA 屬于絲氨酸/蘇氨酸激酶家族,其編碼的蛋白是一種細胞周期調節激酶,在染色體分離過程中與紡錘體極的微管形成和穩定有關。AURKA 通過參與癌細胞的增殖、EMT 轉移、細胞凋亡和癌癥干細胞更新促進腫瘤發生發展[28]?;驍U增、轉錄激活和抑制蛋白質降解均可能導致癌癥組織中AURKA 表達水平升高[29]。AURKA在LUAD 組織中高表達,與B 淋巴細胞和樹突狀細胞浸潤水平呈負相關關系,同時B 淋巴細胞和樹突狀細胞浸潤水平也與LUAD 患者的預后有關聯。

KIF20A 是 驅 動 蛋 白 超 家 族 (kinesin superfamily protein,KIF) 成員,KIF 主要參與細胞器、蛋白質復合物、mRNA 的運輸及有絲分裂和減數分裂過程中染色體及紡錘體的運動等。研究[30]顯示:KIF20A 在纖維肉瘤組織中高表達,敲低KIF20A 調控增殖、遷移和侵襲并誘導G2/M停滯及細胞凋亡。在異種移植小鼠模型中,KIF20A 敲低抑制腫瘤生長和轉移[30]。ZHAO 等[31]發現:LUAD 細胞中KIF20A 表達水平明顯升高,敲低KIF20A 可大幅減少LUAD 細胞增殖,誘導腫瘤細胞凋亡,表明KIF20A 可能是LUAD 的治療靶點。

CEP55 通過與參與轉移、血管生成和增殖途徑的蛋白質相互作用參與腫瘤發生。研究[32]顯示:CEP55 通過激活P38、 絲裂原活化蛋白激酶(mitogen-activated protein kinase, MAPK) 和ERK 1/2 通路促進EMT 和腫瘤發生。FU 等[33]發現:Hsa-miR-195-5p/E2F7/CEP55軸可促進LUAD細胞凋亡,抑制增殖和自噬,降低LUAD 細胞對吉西他濱的耐藥性,提示Has-miR-195-5p/E2F7/CEP55 軸可能是LUAD 的潛在治療靶點。

CENPF 屬于外層動粒蛋白,可構成紡錘體微管附著點,與染色體的運動和分離有關,并在染色體微管動力學作用和紡錘體檢驗電信號傳導中發揮重要功能。研究[34]顯示:CENPF 是多功能動粒蛋白,在細胞有絲分裂和分化中發揮重要作用。CENPF 可促進HCC 細胞系的遷移和EMT 的進展。敲低CENPF 在體外抑制HCC 細胞活性,在體內抑制異種移植腫瘤。SUN 等[35]發現:CENPF 通過激活PI3K-Akt- 雷帕霉素靶蛋白(mammalian target of rapamycin,mTOR) C1 信號傳導促進乳腺癌骨轉移。TANG 等[36]發現:CENPF 和雌激素受體β(estrogen receptor-β,ER-β) 2/5 的高表達與LUAD 的發展有關,敲低CENPF 可抑制由ER-β2/5 途徑介導的LUAD 進展,提示CENPF 表達可作為LUAD 不良預后和免疫細胞浸潤的新生物標志物。

綜上所述, TOP2A、 ASPM、 CCNB1、CDCA8、 BIRC5、 AURKA、 KIF20A、 CEP55、CENPF 和TPX2 是參與LUAD 發生進展過程的關鍵基因,可能通過加速EMT 過程促進LUAD 發展,其高表達提示免疫細胞浸潤、LUAD 進入晚期及LUAD 患者預后不良和死亡風險升高。

猜你喜歡
關鍵淋巴細胞通路
硝酸甘油,用對是關鍵
遺傳性T淋巴細胞免疫缺陷在百草枯所致肺纖維化中的作用
高考考好是關鍵
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
proBDNF-p75NTR通路抑制C6細胞增殖
通路快建林翰:對重模式應有再認識
探討CD4+CD25+Foxp3+調節性T淋巴細胞在HCV早期感染的作用
Hippo/YAP和Wnt/β-catenin通路的對話
生意無大小,關鍵是怎么做?
生意無大小,關鍵是怎么做?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合