?

基于代謝相關基因的胃癌預后模型的構建和驗證

2024-03-25 15:01楊永張蕾舒鵬
浙江醫學 2024年4期
關鍵詞:危組亞型基因

楊永 張蕾 舒鵬

胃癌(gastric cancer,GC)是常見惡性腫瘤,其發病率在消化道惡性腫瘤中排名第一,是全球范圍內癌癥導致死亡的第四大原因[1]。近年來,隨著手術治療和靶向藥物的應用等治療方法的進步和發展,GC 患者的生存時間得到了一定程度的延長[2],但總體預后仍然不盡如人意,超過一半的晚期GC 患者出現局部復發或遠處轉移,5 年生存率僅為5%~10%[3]。GC 具有廣泛的異質性,不同患者的臨床表征和預后各異。測序技術可以從整個基因組水平分析疾病發生和發展的潛在變化,已逐步成為檢測疾病發生和發展的重要手段之一。一些研究已經開發出基于基因表達的標志物用于GC 預后預測[4-6]。然而,受限于GC 異質性,大多數標志物的預測效能較低,不能直接應用于臨床實踐。因此,如何根據不同患者的個體異質性,尋找一種可靠而方便的生物標志物來進行GC 預后評估,是目前臨床上急需解決的問題。有研究將GC 劃分為具有不同分子和臨床特征的4 種亞型,其中上皮間質轉化(epithelial-mesenchymal transition,EMT)亞型的預后最差[7]。因此識別惡性程度高的亞型的內在分子機制有助對GC 患者進行風險評估,并制定更精準的定向治療策略。代謝重編程是癌癥的重要特征之一。代謝異常與GC 的發生、增殖、侵襲和轉移有關[8]。流行病學研究發現,肥胖人群GC 患病率較高,GC 病理組織中觀察到脂質積累[9]。一些研究發現GC 患者存在代謝組異常,且這種異常與GC 的進展和侵襲密切相關[10-11]。因此,基于代謝基因開發GC 的預后標志物在理論上具備可行性。本研究以整合網絡分析為主要手段,探討代謝相關基因調控EMT 亞型的機制,篩選出主調控EMT 亞型的代謝標志基因,構建基于代謝相關基因的GC 預后模型(metabolism-related prognostic signature for GC,MPSGC),并綜合分析MPSGC 的內在生物學和臨床應用意義,以指導對GC 患者進行精準的預后評估,為患者臨床治療方案的制定提供新的依據。

1 資料和方法

1.1 資料 數據來源于基因綜合表達(gene expression omnibus,GEO)數據庫的4 個公共隊列,包含798例GC 患者的轉錄譜數據,隊列名稱為GSE15459(192例)、GSE26901(109 例)、GSE13861(65 例)和GSE26253(432 例)。使用“GEOquery”R 包[12]獲取每個隊列的轉錄譜數據及對應的臨床信息。應用多陣列對數健壯算法對每個隊列的轉錄譜數據進行背景校正和四分位數歸一化處理,探針ID 被轉換為基因符號;若有多個探針ID 對應相同的基因符號,則保留平均值最高的探針ID 表示相應的基因。GC 的分子分型信息來源于Tsekrekos 等[9]的研究。以GSE15459 為訓練數據集,GSE26901、GSE13861、GSE26253 為驗證數據集。收集所有患者臨床資料,見表1。

表1 患者臨床資料

1.2 整合網絡分析 參照Bai 等[13]的研究中獲取訓練數據集2 752 個代謝相關基因。使用“limma”R 包篩選EMT 亞型和非EMT 亞型間差異表達的代謝相關基因(log2 FC>0.75;Adj-P<0.05)和靶基因(log2 FC >1;Adj-P<0.05)[14]。使用“RTN”R 包整合差異表達基因構建調控網絡[15]。使用主調控分析(master regulator analysis,MRA)算法計算各代謝基因調控單元中的EMT 基因的超幾何檢驗P值,篩選得到主調控EMT 亞型的代謝標志基因。

1.3 MPSGC 的構建和驗證 基于1.2 篩選的代謝標志基因的表達水平和患者生存信息,使用Cox 比例風險回歸,對患者進行風險賦分,根據風險評分構建MPSGC。以風險評分中位數為閾值將患者分為高危組和低危組。繪制Kaplan-Meier 生存曲線比較兩組間總體生存期(overall survival,OS)和無復發生存期(relapsefree survival,RFS)差異。

1.4 基因集富集分析(gene set enrichment analysis,GSEA) 使用“fgsea”R包進行基因集富集分析[16]。設定P<0.05 為顯著性閾值,置換檢驗次數設置為1 000,篩選出具有最高歸一化富集分數的基因集。

1.5 免疫細胞浸潤分析 結合CIBERSORT[17]和MCPCOUNTER 算法[18]表征兩組患者腫瘤組織基因表達譜中免疫細胞的豐度。其中CIBERSORT 是一種反卷積算法,可以估算出每個腫瘤組織樣本中22 種免疫浸潤細胞的相對比例。MCPCOUNTER 基于表達矩陣中的標記基因表達量計算每個樣本中CD3+T 細胞、CD8+T細胞、細胞毒性淋巴細胞、自然殺傷細胞、B 淋巴細胞、來源于單核細胞(單核系)的細胞、髓樣樹突狀細胞、中性粒細胞、內皮細胞和成纖維細胞的豐度得分,并比較不同樣本間相應細胞類型的豐度。

1.6 統計學處理 使用R 3.6.1 統計軟件。使用χ2檢驗比較數據集間的性別、病理分型、分期、疾病復發和生存狀態的分布差異,使用Mann-WhitneyU檢驗比較EMT 和非EMT 亞型患者基因表達值和數據集間的年齡差異。使用log-rank 檢驗比較高危組和低危組的生存差異。P<0.05 為差異有統計學意義。

2 結果

2.1 代謝標志基因的篩選和模型構建 基因表達差異分析顯示,EMT 亞型和非EMT 亞型間有58 個差異表達的代謝相關基因和1 276 個差異表達的靶基因。MRA 篩選出3 個主調控EMT 亞型的代謝相關標志基因,分別是人脂質磷酸磷酸酶相關蛋白4 型(phospholipid phosphatase related 4,LPPR4)基因,谷氨酰胺-果糖-6-磷酸轉氨酶2(glutamine-fructose-6-phosphate transaminase 2,GFPT2)基因和硫酸酯酶1(sulfatase 1,SULF1)基因,見表2。相比非EMT 亞型,EMT 亞型中這3 個基因的表達值均顯著升高(均P<0.01),見圖1。Cox 比例風險回歸分析顯示,3 個基因的回歸系數分別為0.148,-0.112 和0.373,風險評分=(0.148×LPPR4 基因表達值)-(0.112×GFPT2 基因表達值)+(0.373×SULF1 基因表達值)。根據風險評分中位數將納入患者劃分為不同風險組,高危組EMT 亞型患者比例更高,患者腫瘤-淋巴結-遠處轉移(tumor-nodemetastasis,TNM)分期多為Ⅲ期和Ⅳ期,見圖2(插頁)。

圖1 EMT 和非EMT 亞型3 個基因表達值比較

圖2 根據風險評分劃分的風險組

表2 主調控分析篩選出的代謝標志基因

2.2 MPSGC 的構建與驗證評估 Kaplan-Meier 曲線顯示,在1 個訓練數據集和3 個驗證數據集中,高危組OS均明顯短于低危組,HR分 別 為2.126(95%CI:1.413~3.322)、1.432(95%CI:1.013~1.901)、2.413(95%CI:1.411~4.243)和3.541(95%CI:1.612~7.723),均P<0.05,見圖3;高危組RFS 也顯著短于低危組,3 個驗證集的HR分別為1.523(95%CI:1.133~2.014)、2.142(95%CI:1.232~3.503)和4.832(95%CI:2.102~10.931),均P<0.05,見圖4。

圖3 訓練數據集和驗證數據集中兩組患者的總生存曲線

圖4 驗證數據集中兩組患者的無復發生存曲線

2.3 GSEA 分析 富集分析結果表明,轉化生長因子(transforming growth factor,TGF)-β 信號傳導、EMT、血管生成、黏著斑、血管平滑肌收縮、黏多糖生物合成硫酸軟骨素等EMT 相關通路在高危組中呈現顯著富集,見圖5。

圖5 EMT 相關通路的基因集富集分析

2.4 免疫細胞浸潤分析 CIBERSORT 分析顯示高危組中M2 巨噬細胞、M0 巨噬細胞及中性粒細胞的比例顯著增加,低危組中幼稚B 細胞和漿細胞的比例較高,見圖6A。MCPCOUNTER 分析顯示,高危組中癌癥相關成纖維細胞(cancer-associated fibroblasts,CAFs)、內皮細胞、單核/巨噬細胞豐度較高,低危組中B 淋巴細胞和自然殺傷細胞豐度較高,見圖6B。

3 討論

GC 表現出高度的異質性,即使是同一分期階段的患者,臨床轉歸也往往相差甚遠。對GC患者進行風險評估和預后預測有助于識別高風險患者和提高個體治療療效。近年來高通量測序技術飛速發展,海量大數據成為挖掘癌癥新型生物標志物的寶庫。大量研究表明,某些特定基因的表達和GC臨床密切相關,有不少預后標志物也因此被陸續開發。然而,這些標志物的預測評估效能有限,難以在臨床工作中推廣普及。

大量證據表明,腫瘤細胞通過代謝重編程,發展出各種異常分解代謝途徑,如癌細胞中能量產生主要通過糖酵解途徑而非正常的三羧酸循環。這些異常代謝加劇了腫瘤微環境的酸性、缺氧狀態,促進了腫瘤細胞的增殖、轉移。通過對轉錄組數據的無監督分類,GC 可被聚類為4種分子亞型,其中EMT亞型預后最差,復發率最高。本研究基于轉錄組數據和代謝相關基因構建的預后模型,有助于實現對患者的風險分層。

本研究構建的模型由LPPR4、GFPT2 和SULF1 等3個代謝標志基因組成,這些基因在糖類、脂質代謝中發揮重要作用,已被證實與腫瘤的發生、進展和患者預后密切相關。LPPR4 為脂質磷酸磷酸酶相關蛋白家族成員,廣泛參與多種生物活性脂質磷酸鹽的脫磷酸過程[19],通過Sp1/整合素α/黏著斑激酶(focal adhesion kinase,FAK)信號通路促進GC 的腹膜轉移;高表達LPPR4 的GC 患 者總 體 生存 狀 態不佳[20]。GFPT2 是 己糖胺生物合成的限速酶,催化6-磷酸葡萄糖胺合成[21],激活NF-κB 通路可上調GFPT2,并促進EMT 進程[22];高表達的GFPT2 與結腸癌的進展和轉移、侵襲相關[23]。SULF1 編碼硫酸酯酶1,選擇性地切除硫酸胰腺肝素蛋白聚糖中的6-O-硫酸酯基團,并因此調節細胞生長、增殖、分化等基本信號通路[24];SULF1 在宮頸癌和GC 中表達升高,增強了宮頸癌細胞增殖和浸潤能力[25],與GC 患者的耐藥復發相關[26]。本研究使用MPSGC 實現GC 患者的風險分層,高危組患者OS 和RFS 均顯著短于低危組。富集分析結果表明,一些促進EMT 的通路在高危組中顯著富集。Fristedt 等[27]研究發現漿細胞的浸潤有助于延長GC 患者OS,M2 巨噬細胞在GC 中提示預后不良[28],自然殺傷細胞在GC 中發揮重要的免疫監視作用,通過直接殺傷腫瘤細胞或分泌相關細胞因子而發揮有效的抗腫瘤活性[29],而CAFs 廣泛參與腫瘤生長轉移、微環境改變、抗藥性產生等進程[30]。本研究發現高危組中M2 巨噬細胞和CAFs 顯著富集,而低危組中漿細胞和自然殺傷細胞豐度更高。這些結果印證模型定義的風險組間存在顯著生物學差異。

盡管該模型在訓練和驗證隊列中表現出良好的預測效能,然而其存在的不足和缺陷仍需進一步重視和改進。首先,本研究納入的隊列數據由轉錄組測序產生,價格高昂,且后續的分析需要復雜的計算過程,限制了其在臨床中的推廣;其次,盡管研究結果在數個獨立隊列中進行驗證,但作為一項回顧性分析納入的信息有限,無法涵蓋不同區域患者的差異;且腫瘤微環境成分復雜,包含范圍廣泛,包括腫瘤核心、浸潤邊緣等,本研究中分析的樣本均取自于腫瘤核心區域,無法評估腫瘤整體的代謝狀態。后續研究可將納入多中心、前瞻性隊列來深入探究代謝標志基因的在GC 中的生物學功能。

猜你喜歡
危組亞型基因
Frog whisperer
超聲心動圖用于非瓣膜病性心房顫動患者卒中危險分層
修改基因吉兇未卜
創新基因讓招行贏在未來
ING4在結腸和直腸的胃腸間質瘤表達的研究
基因
Ikaros的3種亞型對人卵巢癌SKOV3細胞增殖的影響
ABO亞型Bel06的分子生物學鑒定
HeLa細胞中Zwint-1選擇剪接亞型v7的表達鑒定
心肌梗死溶栓試驗危險評分對急性心肌梗死患者預后的評估價值
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合