?

應用生物信息學方法篩選結直腸癌關鍵基因

2019-08-02 06:07朱義芳戴紅梅張峪涵魏丹鳳潘逼然張彤彤郭元彪劉華偉
國際檢驗醫學雜志 2019年14期
關鍵詞:差異基因直腸癌芯片

朱義芳,戴紅梅,張峪涵,魏丹鳳,潘逼然,劉 蕾,張彤彤,郭元彪,劉華偉△

(1.四川省骨科醫院檢驗科,四川成都 610041;重慶醫科大學附屬成都第二臨床學院/成都市第三人民醫院:2.檢驗科;3.神經內科;4.實驗醫學研究部,四川成都 610031)

結直腸癌是第3位常見的惡性腫瘤,在全球腫瘤相關性死亡的原因中也位列第3位[1]。2018年美國結直腸癌新發病例數預計超過14萬,死亡病例數超過5萬[2]。結直腸癌發病機制復雜,包括多個基因、多條通路的交互作用[3]。到目前為止,結直腸癌仍是全球醫療的重大難題,仍缺乏系統的、整體的理解其發病的分子機制。傳統的單基因檢測的研究,雖然能發現某些基因在腫瘤形成發展中發揮的具體作用,但不能全面的挖掘出結直腸癌形成過程中更為廣泛存在的多個基因和通路的改變。近年來,隨著基因芯片技術在腫瘤中的廣泛應用,大量的芯片數據產生,其中大部分數據被儲存在公共數據庫中未被挖掘。整合并重新分析這些數據可為新的研究提供線索,為全面分析結直腸發病的分子機制提供便利[4]。

本研究選取了4個GEO芯片數據集來鑒定結直腸癌中差異表達的基因,這些差異表達基因可作為潛在的結直腸癌標志物。進一步的功能富集分析可闡明這些差異表達基因的生物學功能,信號通路分析可明確它們調控結直腸癌的信號通路的關鍵分子,為揭示結直腸癌發病機制奠定基礎。

1 材料與方法

1.1 芯片數據信息 從美國國立生物技術信息中心(NCBI)的GEO芯片數據庫中選取了GSE9348[5]、GSE21815[6-7]、GSE32323[8]、GSE44076[9-12]4個芯片數據集,從中獲取結直腸癌和正?;蛳噜忦つそM織的基因表達譜。GSE9348采用美國昂菲公司人基因組U133 Plus 2.0芯片GPL570平臺,包括70例早期結直腸癌和12例健康對照組織。GSE21815采用美國安捷倫公司人基因組4×44K G4112F芯片GPL6480平臺,包括132例結腸癌患者和9例正常對照組織。GSE32323芯片檢測采用美國昂菲公司人基因組U133 Plus 2.0芯片GPL570平臺,包括17例配對的結直腸癌和非結直腸癌組織。GSE44076采用美國昂菲公司人基因組U219芯片GPL13667平臺,樣本來源于98例結腸癌患者腫瘤和相鄰正常黏膜組織及50例健康對照者的結腸組織。

1.2 數據處理 下載芯片數據壓縮包和探針文件,通過R3.4.4軟件的RMA算法對芯片數據進行標準化,采用|logFC|>1,P<0.05的入選標準,利用R語言的limma包篩選出差異表達基因進行進一步分析。

1.3 差異基因篩選 將4個GEO芯片數據集篩選出的在腫瘤中上調和下調基因分別導入在線軟件VENNY 2.1(http://bioinfogp.cnb.csic.es/tools/venny/index.html),通過取交集,獲得在4個芯片數據集中基因表達均發生改變的差異基因。

1.4 基因注釋分析 采用Funrich 3.1.3軟件進行基因注釋分析,分別顯示差異基因的細胞組成(CC)、分子功能(MF)、生物學過程(BP)、信號通路(BPA),結果根據-Log10(P)值的大小排序,同時呈現富集的基因占總體的比例。

1.5 PPI網絡構建 將表達差異基因導入String 10.5在線分析網站(https://string-db.org/),獲得蛋白相互作用的數據,然后通過Cytoscape 3.6.1軟件對結果進行可視化和進一步分析。

2 結 果

2.1 芯片數據標準化 對基因芯片數據的標準化處理,主要目的是消除由于實驗技術所導致的表達量的變化,并且使各個樣本和平行實驗的數據處于相同的水平,從而得到具有生物學意義的基因表達量的變化。以GSE32323為例,該芯片數據在標準化前的箱線圖,見圖1A。各樣本的基因表達不在一條水平線上,通過分位數標準化后,將34例樣本的芯片結果調整到同一水平,見圖1B。

2.2 差異基因篩選 通過差異基因分析,GSE9348芯片中獲得1 355個表達上調的基因,1 735個表達下調的基因,GSE21815芯片中獲得7 005個表達上調的基因,490個表達下調的基因,從GSE32323芯片中獲得722個表達上調的基因,490個表達下調的基因,GSE44076芯片分析獲得821個表達上調基因,873個表達下調的基因。4個GEO數據集取交集分別得到了表達上調的基因277個,見圖2A;表達下調的基因153個,見圖2B。

其中表達上調的基因包括參與細胞分裂周期的基因如CDC6、CDC25B、CDCA5、CDCA7、GTF2IRD1等,與細胞黏附功能相關的分子CDH3、CLDN1等,參與腫瘤轉移的基質金屬蛋白酶家族分子MMP1、MMP3、MMP7、MMP7、MMP12等。表達下調的基因包括參與機體代謝的GPAT3、B3GNT7、AHCYL2等,以及參與黏液分泌和免疫反應的ADAMDEC1、CLCA1、CLCA4等。

2.3 GO分析和信號通路富集分析 為了更系統全面的了解上述差異基因的細胞定位、分子功能、參與的生物學過程及信號通路,采用Funrich 3.1.3軟件將差異基因進行了基因富集分析并采用GraphPad Prism作圖。結果發現,表達上調的基因主要分布于細胞核和細胞外,其基因占比分別為20.6%(P<0.001)和22.6%(P=0.004),在細胞漿、微管、中心體、微管中的基因數量少,基因占比分別為3.5%(P<0.001)、11.5%(P=0.003)、4.8%(P=0.002),結果見圖3A;紡錘體的完整性決定了染色體分裂的正確性,上調差異基因主要參與紡錘體組裝其基因占比為0.7%(P=0.04),因而它們表達上調引起細胞異常分裂是結直腸癌發生的關鍵因素,見圖3B;趨化因子在免疫監視過程中發揮重要作用,免疫監視功能過低,異常細胞可逃過監視形成腫瘤,上調差異基因的分子功能就是主要富集在調節趨化因子活性,其基因占比為2.6%(P=0.003),見圖3C;腫瘤惡性增生主要表現為細胞增殖失控,上調差異基因主要富集在與細胞增殖相關的信號通路上,其中細胞周期、有絲分裂G1-G1/S期、M-M/G1期、G2/M期DNA破壞關鍵節點及DNA復制的基因占比分別是21.8%(P<0.001)、 12.8%(P<0.001)、15.8%(P<0.001)、6%(P<0.001)、15.8%(P<0.001),結果見圖3D。

注:A為標準化前;B為標準化后

圖1 芯片數據標準化

153個表達下調的基因主要富集在細胞外(基因占比=28.5%,P<0.001)、參與代謝過程(基因占比=19.2%,P=0.029);機體內大多數化學反應都是催化反應,而下調的基因在調控催化活性方面發揮著重要作用,其基因占比為10.3%(P=0.006),核受體通過調控靶基因從而影響腫瘤細胞的藥物敏感性,下調的基因可調控配體依賴性核受體活性,基因占比為2.7%(P=0.039),從而影響腫瘤的治療效果;這些基因參與多條信號通路,但沒有富集在某條信號通路上(P>0.05),見圖4。

注:A為表達上調的基因;B為表達下調的基因

圖2 差異基因韋恩圖

注:A為細胞定位;B為生物學功能;C為分子功能;D為生物學通路

圖3 基因注釋分析結直腸癌中表達上調的基因

注:A為細胞定位;B為生物學功能;C為分子功能;D為生物學通路

圖4 基因注釋分析結直腸癌中表達下調的基因

2.4 蛋白互作網絡構建 構建結直腸癌差異表達基因對應的蛋白的相互作用關系,有助于系統的研究疾病分子機制,找到結直腸癌相關的關鍵基因。通過string軟件獲得蛋白質相互作用結果,選取相互作用強(聯合分數≥0.7)的蛋白質,再用cytoscape軟件構建蛋白互作網絡,去除無相互作用的基因,得到了一份包含213個差異表達基因及1025條相互作用關系的蛋白作用網絡。見圖5。根據互作節點的數量的降序排列,篩選出其中的前十位基因,見表1,它們是結直腸癌的關鍵基因。

注:節點表示在結直腸癌中差異基因對應的蛋白產物,其中關鍵基因用矩形顯示;兩節點間的線表示兩節點對應的蛋白之間有相互作用

圖5 差異基因的蛋白質相互作用網絡

3 討 論

迄今為止,已有許多的研究者進行了大量的基礎和臨床研究,來揭示結直腸癌形成和進展的原因和機制,但全球結直腸癌的發病率和病死率仍居高不下,主要原因是大部分聚焦在單個遺傳學事件或結果來源于單個隊列研究[13]。本研究整合了4個GEO數據集,利用生物信息學的方法進行深度分析,首先,鑒定出了430個差異表達基因,包括277個表達上調的基因和153個表達下調的基因。表達上調的基因主要位于細胞核、細胞漿等,主要參與紡錘體組裝,組裝過程的異??梢鹑旧w異常分裂從而發生癌變[14]。其分子功能主要為調節趨化因子活性,參與細胞周期及DNA復制等,從而參與調控腫瘤免疫監視[15],參與腫瘤細胞的遷移、增殖及凋亡[16]。下調基因主要富集在細胞外,參與代謝過程,發揮催化活性、配體依賴性核受體活性等作用,這些都是腫瘤發生發展的重要原因[17]。

CDK1是調控G2-M關鍵節點的重要基因,在結直腸癌患者組織中檢測到CDK1高表達,且CDK1核漿比越高,患者預后越差[18]。CCNB1是調節細胞周期的重要基因,結直腸癌細胞中高表達的CCNB1可促進腫瘤細胞增殖和腫瘤生長[19]。MAD2L1也是調控細胞有絲分裂的關鍵分子,已有研究發現該基因在肝癌中的異常高表達與患者的生存時間呈負相關,下一步可作為結直腸癌治療的靶點[20]。在結直腸癌患者組織中檢測到TOP2A基因表達增加,細胞實驗發現,敲降TOP2A可抑制結腸癌細胞的增殖和侵襲能力[21]。TTK是紡錘體組裝關鍵節點,已有研究發現TTK在結腸癌組織中高表達,TTK過表達結腸癌細胞可抵抗細胞凋亡[22],TTK還可通過線粒體調節腫瘤細胞的活力[23]。BUB1B也同樣參與紡錘體組裝[24],本研究首次提出該基因在結直腸癌中表達上調,其具體的作用機制尚無研究。AURKA基因也已證實在結直腸癌患者組織中表達上調,該基因在細胞分裂和染色體穩定性發揮重要作用,可作為結直腸癌患者的預后標志物[25]。RRM2基因過表達與腫瘤的侵襲性和化療藥物抵抗相關,可作為結直腸癌治療的靶分子[26]。UBE2C在結腸癌患者中高表達,可作為其診斷的標志物,研究表明,抑制UBE2C能減緩結直腸癌細胞生長速度,增加細胞對化療藥物的敏感性,因而可開發相應的分子靶向藥物用于結直腸癌患者個體化治療[27]。ASPM是調控正常有絲分裂紡錘體功能的關鍵基因,可影響DNA雙鏈斷點的修復,能作為化療藥物的靶點[28],但目前尚無研究報道該基因與結直腸癌的關系,研究者首次發現該基因在結直腸癌中表達上調。

4 結 論

本研究聯合4張結直腸癌基因芯片數據集,采用生物信息學的分析方法,獲得了430個差異基因,構建了蛋白互作網絡,最終獲得10個關鍵基因,主要和細胞周期、紡錘體組裝、染色體穩定性、腫瘤細胞侵襲和化療藥物耐藥有關。這些發現有助于理解結直腸癌的成因和潛在的分子機制,篩選出的基因可作為結直腸癌治療的靶點。

猜你喜歡
差異基因直腸癌芯片
芯片會議
關于射頻前端芯片研發與管理模式的思考
基于RNA 測序研究人參二醇對大鼠心血管內皮細胞基因表達的影響 (正文見第26 頁)
腹腔鏡下直腸癌前側切除術治療直腸癌的效果觀察
紫檀芪處理對釀酒酵母基因組表達變化的影響
多通道采樣芯片ADS8556在光伏并網中的應用
直腸癌術前放療的研究進展
COXⅠ和COX Ⅲ在結直腸癌組織中的表達及其臨床意義
GRP及GRPR在結直腸癌中的表達及意義
SSH技術在絲狀真菌功能基因篩選中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合