?

基于GEO數據庫結合CT影像預測肺癌臨床分期的分子標志物及其診斷預測模型的建立

2021-11-22 00:46歐陽錦余石群黃邵鑫
南昌大學學報(醫學版) 2021年5期
關鍵詞:隊列結節肺癌

歐陽錦,羅 亭,余石群,黃邵鑫,汪 鑫

(1.南昌大學江西省預防醫學重點實驗室,南昌 330006;2.九江學院基礎醫學院精準預防醫學實驗室,江西 九江 332000)

肺癌是癌癥相關死亡的主要原因,在全球范圍內發病率呈上升趨勢[1]。其癥狀多出現較晚,確診時已處病變的晚期,發現于晚期的非小細胞肺癌患者的5年生存率平均只有14%,而接受治療的I期患者的5年生存率可達83%[2]。因此,提高肺癌早期診斷率是改善肺癌患者預后的重要方法?;赥NM分期,目前非小細胞肺癌患者的5年生存率估計在IA期的73%到Ⅳ期的13%之間[3]。TNM分期仍然是臨床肺癌復發率和生存率的預測依據,但目前對肺癌患者的確診和病變范圍(國際TNM分類/分期)的判斷仍必須通過活檢來確認[4]。影像學結果在肺癌臨床分期的準確分類上存在潛在的缺陷和局限性[5],如CT影像用于肺結節的檢測雖具有一定的價值,然而很難準確判斷肺結節的性質[6]。近來,采用免疫組織化學、突變圖譜和微陣列方式對腫瘤個體進行分析已應用于腫瘤臨床分期領域[7]。例如,癌胚抗原、神經元特異性烯醇化酶等分子標志物已被應用于臨床檢測,然而其靈敏度和特異度有限[8],很少應用于肺癌早期診斷中。

基因表達數據庫(gene expression omnibus,GEO)是來自高通量微陣列實驗基因表達數據的公共存儲庫[9]。借助該數據庫,利用生物信息學工具挖掘腫瘤的分子標志物,可縮短對腫瘤標志物的研究時間,節約研究成本?;贑T掃描的附加診斷標志物的開發證實可用于肺癌分期預測[6]。在臨床環境中,評估選定的潛在基因表達可使臨床醫生能夠根據每個人的遺傳物特征在影像結節大小的基礎上做出更準確的分期診斷,并在總體存活率、進展時間和治療反應方面顯著改善治療效果[10]。本研究從GEO中篩選2個肺癌相關芯片數據集,通過分析建立一個基于影像分析結果(肺結節最大直徑≤3 cm)的基因研究網絡,篩選確定與肺癌診斷密切相關的基因,建立診斷模型和預測列線圖。

1 資料與方法

1.1 資料

以“肺癌”“TNM”為關鍵詞進行檢索,從GEO(http://www.ncbi.nlm.nih.gov/geo/)數據庫下載肺癌隊列的基因表達譜和CT信息。以GSE13213數據為訓練隊列,從肺癌患者中納入54例小結節(T1期,最大直徑≤3cm)患者;以GSE43580數據為驗證隊列,共入選38例小結節(T1期,最大直徑≤3 cm)肺癌患者。按其分期分為2組:早期(Ⅰ期)組和中晚期(Ⅱ、Ⅲ和Ⅳ期)組[11]。預測模型構建流程見圖1。

圖1 診斷預測模型分析流程圖

1.2 方法

1.2.1 肺癌分期的差異表達基因分析

以|log2FC|>1和P<0.05為篩選標準,用R4.0.3軟件中的LIMMA軟件包進行肺癌分期的差異表達基因分析。使用在線工具ClustVis(https://biit.cs.ut.ee/clustvis/)繪制熱圖和火山圖。將獲得的差異表達基因分別導入在線軟件draw Venn diagrams(http://bioinformatics.psb.ugent.be/webtools/Venn/),獲得2個隊列取交集后的重疊差異(共差異)基因及韋恩圖。

利用Metascape對訓練隊列中差異表達的基因進行GO(Gene Ontology)與KEGG(Kyoto Encyclopedia of Gene and Genome)功能分析。GO分析為涵蓋分子和細胞生物學眾多領域的基因注釋提供了結構化和受控的詞匯表和分類[12]。利用String數據庫對差異表達的基因構建蛋白質-蛋白質相互作用網絡,在Cytoscape軟件中可視化。

1.2.2 肺癌分期的預測基因篩選及分析

在共差異基因的基礎上,利用R軟件進行基因分析、分類預測和比較,并篩選區分早、中晚期肺癌的預測基因。利用受試者工作特征曲線(ROC)分析這些預測基因的診斷價值。

1.3 統計學方法

2 結果

2.1 差異表達的基因

差異表達基因分析結果顯示,54例訓練隊列和38例驗證隊列分別獲得161個和437個與肺癌分期相關的差異表達基因。訓練隊列中,與中晚期組比較,早期組107個基因表達上調和54個基因表達下調?;虮磉_的熱圖見圖2A。驗證隊列中,與中晚期組比較,早期組193個基因表達上調,244個基因表達下調?;虮磉_的熱圖見圖2B。在2隊列中,2組的基因表達模式不同?;虮磉_的火山圖,見圖2C和圖2D。韋恩圖比較2個隊列的基因差異表達,發現有7個重疊(共)差異表達基因。見圖2E。

2.2 差異表達基因的功能富集

訓練隊列中161個差異表達基因進行GO功能注釋的結果顯示,這些基因的功能分為3類即生物過程(圖3A)、分子功能(圖3B)和細胞成分(圖3C)。在這3個類別中,差異表達基因主要富集的條目分別是“含膠原蛋白的細胞外基質”“受體調節活性”和“腺體發育”。

A:訓練隊列熱圖;B:驗證隊列熱圖;圖2 基因差異表達分析

C:訓練隊列火山圖;D:驗證隊列火山圖;E:韋恩圖(左為高表達;右為低表達)。

訓練隊列的差異基因進行KEGG富集分析發現,所有差異表達基因主要富集于4類通路即谷胱甘肽代謝、補體和凝血級聯、造血細胞譜系和膽汁分泌(圖3D)?!鞍┌Y通路”是谷胱甘肽代謝中最大的一組,其次是“谷胱甘肽代謝”和“肝細胞癌”。

A:GO富集:生物過程;B:GO富集:分子功能;C:GO富集:細胞成分;D:KEGG富集。圖3 訓練隊列差異表達基因的功能富集結果

2.3 蛋白質-蛋白質相互作用網絡分析

蛋白質-蛋白質相互作用網絡分析結果顯示了重要的模塊,其中度值表示節點的大小。這些包括了在模塊中識別的所有重要的蛋白質。該模塊由141條邊定義,涉及82個節點。SOX2、CCND1、AR、CD19、BMP2、WNT3a、NR0B2、C8A、CD38、FGG、ITIH2、HPGDS和POU2AF1是連接最高的節點。蛋白質-蛋白質相互作用網絡分析見圖4。

圖4 蛋白質-蛋白質相互作用網絡分析模型圖

2.4 與肺癌相關的風險分析

單因素Logistic回歸分析結果顯示,在訓練隊列2組的7個共差異表達基因中,盡管基因SLC16A14和LHX2在訓練隊列2組間存在差異,但在2個隊列中的表達模式不同,故其在該研究中不具價值;年齡、性別2組中亦無顯著差異(均P>0.05);基因ZNF257表達與肺癌的病理分期相關,訓練隊列(OR=2.26;95%CI:1.29~3.96)、驗證隊列(OR=1.44、95%CI:0.99~2.10)?;騍OX2、KCNJ16和GSTA1的表達與肺癌分期呈負相關。見表1。

表1 基線資料及單因素Logistic回歸分析

2.5 預測模型的診斷風險值分析

基于4個基因(SOX2,KCNJ16,GSTA1和ZNF257)建立的全模型線性回歸方程在訓練和驗證隊列中分別為AUC=-5.225 02-0.725 56×SOX2-0.231 60×KCNJ16-0.550 36×GSTA1+1.400 61×ZNF257和AUC=3.450 09-0.398 41×SOX2-0.379 06×KCNJ16-0.038 51×GSTA1+0.350 74×ZNF257。ROC分析結果顯示,訓練隊列中全模型的靈敏度為83.3%,特異度為92.9%,AUC值為0.917;在驗證隊列中全模型的靈敏度為85.7%,特異度為87.5%,AUC為0.836。見表2。

表2 肺癌病理分期風險值預測

2.6 小結節肺癌中晚期預測列線圖

進一步研究構建了一個包含4個基因的診斷列線圖(圖5)。如圖所示,基于LOG轉化后的ZNF257、SOX2、KCNJ16和GSTA1基因表達值位于每個變量軸上。例如,在小結節肺癌患者中,如果SOX2基因表達值為-3,則可以從SOX2軸到點條畫一條向上的垂直線,以獲得45分。其他指標也可以這樣操作,假設GSTA1表達值為-4時的得分為50分,KCNJ16表達值為-1時的得分為15分,ZNF257表達值為2時的得分為70分,即總分為180分(45分+50分+15分+70分)。最后,小結節肺癌中晚期的風險約為90%。

圖5 預測肺小結節患者中晚期風險列線圖

3 討論

腫瘤分子標志物的確定在肺癌早期診斷中具有重要意義。前期研究[13]發現,多種腫瘤基因(P53、NY-ESO-1、Survivin、c-myc、Cyclin B1、GBU4-5、CAGE、P16、SOX2和HUD)的自身抗體在腫瘤診斷中表現出很好的特異性,但其敏感性均較差。此外,EarlyCDT?-Lung測試[14]檢測了7種腫瘤相關自身抗體即P53、NY-ESO-1、CAGE、GBU4-5、HUD、MAGEA4和SOX2,發現其特異性達90%但僅識別47%的肺癌。雖然,自身抗體的組合可提高診斷的敏感性,但又會影響其特異性。因此,有必要開發具有更高的敏感性和特異性的肺癌早期診斷方法。

本研究的診斷模型預測是基于GEO數據庫中的CT診斷結果(結節直徑≤3 cm),篩選確定與肺癌診斷密切相關的基因。在納入的小結節肺癌患者中,通過Logistic回歸分析和多變量分析,獲得由4個差異表達的基因(ZNF257、SOX2、KCNJ16和GSTA1)組成的可用于診斷的預測模型。該模型的特異度和靈敏度分別為92.9%、83.8%,其模型預測的靈敏度明顯高于傳統的腫瘤標志物[15]。而且納入的基因數量少,易于操作。本研究結果還顯示,ZNF257表達上調和SOX2、KCNJ16、GSTA1表達下調均與肺癌惡性程度增加有關。細胞因子SOX2調控著細胞的自我更新和分化[16]。GSTA1可能是肺癌早期診斷和治療的靶分子[17]。已有研究[18]證實KCNJ16表達下調與多種腫瘤的發生有關,但其在腫瘤進展中的復雜調控機制仍有待探討。其余的基因ZNF257尚未被報道與癌癥有關,還需要進一步研究它們的生物學功能[19]。值得注意的是,通路富集分析表明,包括GSTA1在內的3個下調的基因與藥物代謝-細胞色素P450通路、腫瘤發生和化學致癌通路密切相關[20]。此外,本研究基于這4個基因繪制了一個便于臨床使用、準確度高的診斷列線圖,該圖可預測CT篩查到的小結節肺癌患者的惡性風險。然而,該診斷模型的確切的診斷價值和穩定性,仍需在臨床患者中進一步驗證。

綜上所述,本研究基于GEO數據庫結合CT影像結果獲得了由4個差異表達基因組成的診斷模型及診斷預測列線圖,而且該診斷模型具有較好的特異度和靈敏度,診斷預測列線圖也具有預測CT篩查到的小結節肺癌,提示其在小結節肺癌的早期診斷中具有一定的潛在價值。

猜你喜歡
隊列結節肺癌
氬氦刀冷凍治療肺癌80例的臨床觀察
乳腺結節狀病變的MRI診斷
超聲引導下甲狀腺結節細針穿刺活檢的6種操作方法的比較
肺結節,不糾結
發現肺結節需要做PET/CT嗎?
長鏈非編碼RNA APTR、HEIH、FAS-ASA1、FAM83H-AS1、DICER1-AS1、PR-lncRNA在肺癌中的表達
CXCL-14在非小細胞肺癌中的表達水平及臨床意義
隊列隊形體育教案
隊列里的小秘密
基于多隊列切換的SDN擁塞控制*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合