?

癌癥基因組圖譜計劃數據及分析*

2014-01-08 01:06鄧禎祥綜述李金明審校
中國腫瘤臨床 2014年5期
關鍵詞:拷貝數亞型基因組

鄧禎祥 綜述 李金明 審校

癌癥基因組圖譜計劃是由美國國立衛生研究院(national institutes of health,NIH)組織美國國立癌癥研究所(nationalcancerinstitute,NCI)和國立人類基因組研究所(national human genome researchinstitute,NHGRI)于2006年啟動的大型研究。TCGA計劃目的是希望能夠全面的、系統性的了解惡性腫瘤的形成、生長、轉移等過程的生物學基礎,以及與病理機制相關的基因組變化,促進癌癥的早期診斷和加速癌癥治療的發展步伐,并且能進一步的預防癌癥的發生。目前在美國,7所醫院的臨床癌癥中心和3所臨床基因測序中心已經加入到這項研究計劃,并新建了樣本資源中心和臨床遺傳信息處理中心。TCGA計劃是通過利用這些研究中心的組織樣本、儀器設備以及研究團隊完成。大規模的收集了數百例特定癌癥患者的臨床信息,腫瘤組織及其相對應的正常組織樣本或血液樣本,并進行全面的基因組數據分析和整合分析,以便能夠進一步加深對癌癥分子生物機制的了解。

1 TCGA數據

1.1 數據簡介

TCGA數據主要是通過組織處理(BCR)、整合研究、數據分享和團隊研究四個方面來獲得的。組織處理的主要工作包括收集癌癥患者捐贈的腫瘤組織和正常組織,以及對樣本組織進行標準化處理并獲取基因組數據和臨床數據。整合研究的工作主要由癌癥基因組中心(CGCCs)、基因組測序中心(GSC)和基因組數據分析中心(GDAC)三個部門共同完成。其中CGCCs收集了幾百個腫瘤和正常組織樣本的基因組數據并進行大規模的統計學分析,識別其中包含的差異表達基因和DNA拷貝數變異基因;GSC通過對癌癥關聯特征鑒定的候選基因和基因組區域進行大規模的高通量測序;GDAC完成數據處理、統計分析,并為所有研究團隊提供圖表報告。數據分享主要通過數據協調中心(data coordination center,DCC)實現,DCC對TCGA所產生的數據建立數據庫進行分析,并定期在網上公布以便全球的臨床科研機構可以迅速、準確的獲取測序信息和基因組分析結果等。團隊研究是TCGA計劃希望所有癌癥研究組織都能有效的利用其數據進行研究分析,以改進現有的診斷、治療方法,降低癌癥患者死亡率,造福全人類。

TCGA試點計劃已經完成,并且成功在膠質母細胞瘤[1]、卵巢癌[2]和結直腸癌[3]等癌癥中證實了特定癌癥的基因組變化圖譜是可以繪制出來的,并且證明資源集中策略能有效地加速癌癥研究。近年來TCGA的研究對象已經覆蓋超過了20多種癌癥(表1)。到目前為止,TCGA研究團隊及其他利用TCGA數據的研究小組已在國際知名期刊上發表了多篇論文[1-10]。

TCGA計劃的大部分數據和研究結果都公開在TCGA數據門戶網站上,并且可以免費下載。世界各地的研究者在TCGA研究團隊第1次使用數據發表文章后都可以將這些數據應用到自己的相關研究領域中。至今已有7種癌癥的相關論文已發表或接近發表,因此這些癌癥數據可以供研究者使用。另有肺腺癌、甲狀腺癌、頭頸癌、黑色素瘤、胃腺癌、低程度膠質瘤、宮頸鱗狀細胞癌、膀胱癌8種癌癥的數據資料已公開,但是發表基于這些數據的文章需解禁后才能使用,暫時受到限制。其他癌癥數據因樣本量尚未達到預期目標,解禁日期未定。

1.2 TCGA數據分類

TCGA數據門戶網站上的數據有獨特的數據分類體系,其將數據分成不同的數據類型和不同的數據水平。

表1 TCGA包含的25種癌癥以及收集到的樣本和可供下載的樣本數Table 1 The 25 types of cancer in TCGA,cancer samples,and number of downloadable cancer samples collected

1.2.1 數據類型 在TCGA計劃中,各個研究團隊通過Agilent、Illumina、RNAseq等平臺獲得mRNA表達數據、microRNA表達數據、拷貝數數據、蛋白質數據、基因突變數據以及甲基化數據,同時收集患者基本資料、治療進程、臨床分期和生存狀況等臨床數據。每一個平臺都可以測得上述多種類的數據(數據類型),包括樣本基因組中的基因突變(插入/缺失)、DNA拷貝數、mRNA表達、microRNA表達、蛋白質表達和DNA甲基化數據。TCGA研究團隊同時還獲得了一些與癌癥組織配對(matched)和不配對(unmatched)的正常組織樣本的mRNA/microRNA表達數據、DNA拷貝數數據或者甲基化數據。

1.2.2 數據水平分類 數據水平是TCGA計劃使用的數據分類方法,促進研究者交流和定位感興趣的數據。每一種數據類型,實驗平臺和實驗中心都會獲得4個水平的數據。其中水平1是單個樣本的低水平且未經過標準化的原始數據;水平2是經過標準化后的單樣本數據或者是對存在或不存在特定分子異常的解釋數據;水平3是對單個樣本經過處理的數據匯集或者是已探測的基因位點集合形成的較大的連續區域;水平4是感興趣的區域或概要,主要包括量化各類樣本之間的關聯、基于兩個或多個數據的關聯以及存在分子異常、樣本特征和臨床變量的數據。

1.2.3 數據類型和數據水平分類之間的關系 由于每一種平臺都能產生多種數據類型,所以為了理解數據的分類有必要弄清數據類型和數據水平之間的關系。對于每一種數據類型,數據水平進一步對數據的分析程度及其結果進行分類。每個中心、平臺可能會有略微不同的數據水平,這主要取決于數據類型的分析平臺和計算方法。

2 TCGA數據分析流程及工具

2.1 分析流程

為了幫助臨床研究者和癌癥生物學者更有效的利用癌癥基因組圖譜計劃產生的數據,TCGA中多個團隊組建了GDAC,建立了TCGA數據分析的標準化流程并定期將這些結果公開。主要包括MutSig(mutation significance)分析[11]:整合所有患者的基因突變,識別差異具有統計學意義的突變基因;GISTIC(genome identification of significant targets in cancer)分析[4]:整合所有患者的基因組拷貝數數據,識別染色體上差異具有統計學意義的擴增或缺失區域,并列出這些區域中所包含的基因;CNMF聚類:通過對各種數據完成非負矩陣因子非監督聚類分析,尋找腫瘤中可能的亞型;各種臨床相關和生存分析:尋找與癌癥分期或生存等預后最相關的基因表達、突變和腫瘤亞型以及Pathway分析等。這些分析不僅提供各式圖表利于生物學者建立或驗證研究假說,而且由于分析方法的標準化、統一化大幅提高了各種數據間的可比性。

2.2 分析工具

目前已經存在多個數據分析工具能夠對TCGA數據分析起作用。這些工具主要包括:GenePattern:能夠對基因表達、蛋白質組和單核苷酸多態性(single nucleotide polymorphism,SNP)數據提供超過90種計算和可視化工具;Genboree:一個用于基因組研究的軟件系統,能夠研究陣列比較基因組雜交技術(aCGH)、基于PCR的重測序技術、比較序列拼接的基因組重測序技術、使用配對末端標簽和序列的基因組重映射技術、基因組注釋、多基因組比較和通過基因組自身比較的模型發現技術等產生的數據中基因組變異;Cancer Genome Workbench:一個用于觀察和分析腫瘤樣本中體細胞突變的計算平臺,提高識別體細胞突變的精度;CaIntegrator:一個數據集成平臺,研究人員通過其能夠研究與臨床相關的參數,如臨床效果和基因組之間的關系。

3 TCGA在數據挖掘中的應用

目前,TCGA已經得到越來越多的關注,在Pubmed中搜索關鍵字TCGA,發現收錄的文章中有887篇同TCGA相關。2011年發表的1篇有關卵巢癌[2]的文章中,TCGA研究團隊利用卵巢癌的臨床數據、外顯子數據、拷貝數數據、mRNA和microRNA表達數據以及甲基化數據來挖掘癌癥中潛在的基因組變異和表觀遺傳變異信息并找出可能的驅動基因。

3.1 突變分析

通過使用 MUSIC[12](mutation significance in cancer)和MutSig兩種不同的方法對316個卵巢癌樣本的癌癥組織和正常組織的外顯子進行數據分析。在303個樣本中發現了與之前報道過的TP53突變相一致的結果,并在樣本中發現了BRCA1(8%)和BRCA2(9%)生殖細胞突變,識別存在RNA剪接調控過程中常見的RB1、NF1、FAT3、CSMD3、GABRA6和CDK12顯著突變基因。將該研究中發現的突變基因與體細胞突變目錄數據庫和人類孟德爾在線遺傳數據庫相比較,產生了477和211個匹配,包括BRAF、PIK3CA、KRAS和NRAS突變。這些突變有很強的轉換活性,因此研究人員相信這些突變在卵巢癌中是罕見的但卻是重要的驅動突變。

3.2 拷貝數分析

有研究顯示,為了識別卵巢癌中差異具有統計學意義的拷貝數畸變區域及識別位于這些區域內的基因,使用GISTIC統計學方法對489個卵巢癌樣本的拷貝數數據進行分析。結果在卵巢癌中識別出了63個局部擴增區域和50個局部缺失區域,通過對擴增區域的進一步分析以及與其他數據資源的比較,在至少10%的病例中發現了22個靶向治療基因,包括MECOM、MAPK1、CCNE1和KRAS[2]。

3.3 mRNA和microRNA表達與DNA甲基化分析

TCGA研究團隊結合Agilent、Affymetrixhuex和Affymetrixu133a獨立平臺測得水平3的表達數據,采用CNMF聚類來識別亞型,并且結合臨床數據預測每類亞型的預后效果。CNMF聚類分析mRNA表達數據識別了4個亞型,相同的分析方法用到另一個公共數據集[13]也產生了4個亞型,因此可以認為在卵巢癌中至少存在4個穩定的表達亞型。同樣采用CNMF聚類分析microRNA表達數據識別了3個亞型,這3個亞型的生存時間存在顯著性差異,即microRNA亞型-1的腫瘤患者的生存時間顯著長于另外2個亞型。最后對所有樣本的DNA甲基化數據進行一致聚類識別了4個亞型,與不同的年齡、BRCA失活和生存之間有顯著相關性[2]。

3.4 信號通路分析

通過分析常見的包含一個或多個基因突變、拷貝數變化、基因表達變化的癌癥通路,發現在患者中存在的RBI(67%)和PI3K/RAS(45%)通路均發生了失調。在一個PPI網絡中使用HOTNET搜索畸變的子網絡識別了多個已知通路,其中包括在卵巢癌樣本中發生畸變的NOTCH信號通路(22%)[2]。

在上述分析卵巢癌TCGA數據挖掘的例子中,通過對TCGA提供的各類數據進行分析可以得到相應癌癥可能潛在的致癌驅動基因或者抑癌基因,同時也可以用來驗證實驗結果和行相應的生存分析。

4 TCGA已發表的研究報道

TCGA的第1篇研究GBM報道發表于2008年Nature,拷貝數變異分析檢測出在GBM中未報道的多個顯著變異,如NF1和PARK2同源缺失、AKT3擴增;整合基因表達和拷貝數變異發現拷貝數變異區域內76%基因的表達模型與拷貝數相關。整合基因突變和DNA拷貝數擴增或缺失的結果發現致癌機制主要影響3個通路:RTK/RAS/PI3K signaling(88%)、TP53 signaling(87%)、RB1/CDK4 pathway(78%)[1]。后續研究發現GBM可分為4個亞型:經典型、原神經細胞型、神經元型、間質型[6]。2011年應用TCGA數據發表的另1篇論文,發現41個基因的突變與其表達發生變化[14]。為了研究拷貝數變異如何影響基因表達,J?rnsten等[15]在2011年開發了一個框架模型并在GBM的TCGA數據中獲得驗證。

TCGA研究團隊2011年開始陸續報道了卵巢癌[16]、結直腸癌[17-18]、肺上皮細胞癌[19]及乳腺癌[20]的研究。這些報道提供了各種癌癥特征基因的突變,染色體擴增和缺失以及受影響的信號通路。

近兩年來已有超過幾十篇應用TCGA數據發表的論文,涵蓋了生物信息、統計學以及癌癥分子生物研究,如 microRNA 分析[21-22]、甲基化分析[7,23]和拷貝數分析[24-26]。

5 小結

TCGA是一個以促進研究者對癌癥的分子生物機制進一步了解為目標的寶貴資源。通過收集并整合分析臨床數據和各種類型的基因組數據,使病理學科在以主觀形態為診斷標準的應用技術和職能任務方面發生革命性改變,為敏感與耐藥不同的癌癥患者定制個性化醫療,為臨床腫瘤研究者提供大量有價值的信息,為新的臨床檢測提供靶基因,為腫瘤預防和治療提供明確的分子生物標記物,在可治愈期盡早發現腫瘤。

TCGA數據對結合分子生物標記物和臨床數據,在生物統計或生物信息分析的研究初期或者實驗結果的驗證方面有很重要的作用?,F在TCGA樣本的主要來源是歐美人種,雖導致癌癥的致病機制可能會存在地域差異,但在國內大規模癌癥數據庫建立之前,TCG數據提供重要的信息,并為未來研究打下重要基礎。

1 Cancer Genome Atlas Research Network.Comprehensive genomic characterization defines human glioblastoma genes and core pathways[J].Nature,2008,455(7216):1061-1068.

2 Cancer Genome Atlas Research Network.Integrated genomic analyses of ovarian carcinoma[J].Nature,2011,474(7353):609-615.

3 Cancer Genome Atlas Research Network.Comprehensive molecular characterization of human colon and rectal cancer[J].Nature,2012,487(7407):330-337.

4 Beroukhim R,Getz G,Nghiemphu L,et al.Assessing the significance of chromosomal aberrations in cancer:methodology and application to glioma[J].Proc Natl Acad Sci U S A,2007,104(50):20007-20012.

5 Cope L,Wu RC,Shih IeM,et al.High level of chromosomal aberration in ovarian cancer genome correlates with poor clinical outcome[J].Gynecol Oncol,2013,128(3):500-505.

6 Verhaak RG,Hoadley KA,Purdom E,et al.Integrated genomic analysis identifies clinically relevant subtypes of glioblastoma characterized by abnormalities in PDGFRA,IDH1,EGFR,and NF1[J].Cancer Cell,2010,17(1):98-110.

7 Noushmehr H,Weisenberger DJ,Diefes K,et al.Identification of a CpG island methylator phenotype that defines a distinct subgroup of glioma[J].Cancer Cell,2010,17(5):510-522.

8 Cancer Genome Atlas Research Network.Comprehensive genomic characterization of squamous cell lung cancers[J].Nature,2012,489(7417):519-525.

9 Cancer Genome Atlas Research Network.Comprehensive molecular portraits of human breast tumours[J].Nature,2012,490(7418):61-70.

10 Bolton KL,Chenevix-Trench G,Goh C,et al.Association between BRCA1 and BRCA2 mutations and survival in women with invasive epithelial ovarian cancer[J].JAMA,2012,307(4):382-390.

11 Chapman MA,Lawrence MS,Keats JJ,et al.Initial genome sequencing and analysis of multiple myeloma[J].Nature,2011,471(7339):467-472.

12 Dees ND,Zhang Q,Kandoth C,et al.MuSiC:identifying mutational significance in cancer genomes[J].Genome Res,2012,22(8):1589-1598.

13 Tothill RW,Tinker AV,George J,et al.Novel molecular subtypes of serous and endometrioid ovarian cancer linked to clinical outcome[J].Clin Cancer Res,2008,14(16):5198-5208.

14 Masica DL,Karchin R.Correlation of somatic mutation and expression identifies genes important in human glioblastoma progression and survival[J].Cancer Res,2011,71(13):4550-4561.

15 J?rnsten R,Abenius T,Kling T,et al.Network modeling of the transcriptional effects of copy number aberrations in glioblastoma[J].Mol Syst Biol,2011,7:486.

16 Dutta P,Bui T,Bauckman KA,et al.EVI1 splice variants modulate functional responses in ovarian cancer cells[J].Mol Oncol,2013,7(3):647-668.

17 Mo Q,Wang S,Seshan VE,et al.Pattern discovery and cancer gene identification in integrated cancer genomic data[J].Proc Natl Acad Sci U S A,2013,110(11):4245-4250.

18 Li Y,Zhang L,Ball RL,et al.Comparative analysis of somatic copy-number alterations across different human cancer types reveals two distinct classes of breakpoint hotspots[J].Hum Mol Genet,2012,21(22):4957-4965.

19 Sproul D,Kitchen RR,Nestor CE,et al.Tissue of origin determines cancer-associated CpG island promoter hypermethylation patterns[J].Genome Biol,2012,13(10):R84.

20 Wang C,Pécot T,Zynger DL,et al.Identifying survival associated morphological features of triple negative breast cancer using multiple datasets[J].J Am Med Inform Assoc,2013,20(4):680-687.

21 Creighton CJ,Hernandez-Herrera A,Jacobsen A,et al.Integrated analyses of microRNAs demonstrate their widespread influence on gene expression in high-grade serous ovarian carcinoma[J].PLoS One,2012,7(3):e34546.

22 Genovese G,Ergun A,Shukla SA,et al.microRNA regulatory network inference identifies miR-34a as a novel regulator of TGF-β signaling in glioblastoma[J].Cancer Discov,2012,2(8):736-749.

23 AndreopoulosB,Anastassiou D.Integrated analysisreveals hsa-miR-142 as a representative of a lymphocyte-specific gene expression and methylation signature[J].Cancer Inform,2012,11:61-75.

24 Chen H,Xing H,Zhang NR.Estimation of parent specific DNA copy number in tumors using high-density genotyping arrays[J].PLoS Comput Biol,2011,7(1):e1001060.

25 Standfuss C,Pospisil H,Klein A.SNP microarray analyses reveal copy number alterations and progressive genome reorganization during tumor development in SVT/t driven mice breast cancer[J].BMC Cancer,2012,12:380.

26 Koboldt DC,Zhang Q,Larson DE,et al.VarScan 2:somatic mutation and copy number alteration discovery in cancer by exome sequencing[J].Genome Res,2012,22(3):568-576.

猜你喜歡
拷貝數亞型基因組
“植物界大熊貓”完整基因組圖譜首次發布
線粒體DNA拷貝數在兒童腦性癱瘓患者中的表達及臨床意義
線粒體DNA拷貝數變異機制及疾病預測價值分析
牛參考基因組中發現被忽視基因
尖銳濕疣患者感染HPV亞型的研究及臨床分析
科學家找到母愛改變基因組的證據
血清HBV前基因組RNA的研究進展
H4 亞型和N2 亞型禽流感病毒二重RT-PCR 檢測方法的建立
Acknowledgment to reviewers—November 2018 to September 2019
胎兒染色體組拷貝數變異與產前超聲異常的相關性分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合