?

基于非依賴數據采集的呼出氣冷凝液蛋白質組加權基因共表達網絡分析

2022-10-25 13:41孫東曉鎮華君修光利
關鍵詞:熱圖質譜蛋白質

馬 琳, 孫東曉, 鎮華君, 修光利

(1. 華東理工大學國家環境保護化工過程環境風險評價與控制重點實驗室, 上海 200237;2. 賓夕法尼亞州立大學醫學院質譜中心, 美國 PA 17033)

呼出氣冷凝液(Exhaled Breath Condensate,EBC)是一種來自于下呼吸道的襯液,常被用作肺部疾病研究的載體,尤其是EBC 的蛋白組學更是國內外研究熱點[1]。EBC 的收集過程簡便、無創,攜帶著大量的生理信息,理想情況下可以通過研究EBC 的蛋白組成來探究肺癌等相關肺部疾病的內在生物學特征,有利于提高對疾病的認知,并助益于疾病的診察[2-3]。

隨著質譜儀器的更新發展,蛋白組學技術也相應得到提高,進一步促進了蛋白質組在生物標志物方面的應用。以往研究中對EBC 蛋白組學的探索雖然從未間斷,成果卻十分有限,這主要是因為EBC 中極其微量的蛋白濃度無法使用一般的質譜方法進行解析,尤其是對于大量低豐度蛋白,往往會因高豐度蛋白的掩蓋而被忽略,這嚴重限制了EBC 蛋白組學的發展[4]。絕大多數研究都是用液相色譜-串聯質譜聯用儀(LC-MS/MS)來進行EBC 蛋白組學研究,在LC-MS/MS 分析中,數據采集策略會對鑒定結果造成顯著的影響[3]。數據相關采集(Data-Dependent Acquisition,DDA)是常用的采集策略之一,但DDA的采集策略是有偏倚的,對前體信號強的碎片進行選擇性捕獲,對于信號較弱的離子捕獲性不強[4]。數據獨立采集(Data-Independent Acquisition,DIA)是一種最新發展的數據采集技術,不同于DDA 的信號捕集策略,DIA 會對所有的離子信號進行捕獲,在二級質譜(MS2)掃描階段進行全窗口的掃描,對信號強度沒有依賴,這樣得到的信息避免了選擇性缺失,并高度可重復[5]。將DIA 方法運用到EBC 蛋白組學研究中,可以大大提高蛋白質的鑒定水平,是研究EBC 蛋白組學的理想工具。

加權基因共表達網絡分析(Weighted Gene Coexpression Network Analysis,WGCNA),是在傳統生物信息學分析上衍生出的多維分析[6]。WGCNA 是一種全新的算法,其邏輯在于蛋白質是無尺度分布的,不是單獨的個體,而是以組群的方式存在,根據不同的表達模式,劃分為不同的模塊(module)。在生物學分析的過程中,以模塊為單位進行聚類分析,將不同模塊之間的關系、不同性狀之間的關系連結起來,來篩選重要模塊蛋白,這些模塊蛋白往往具有最顯著的生物功能,在疾病研究中用來篩選生物標記物和治療靶點[7]。

目前,國內外鮮見使用DIA 方法進行EBC 蛋白組學分析,并使用WGCNA 算法分析其生物功能的研究。本文使用DIA 分析EBC 蛋白組成分,在此基礎 上 結 合WGCNA 和Gene Ontology(GO)分 析、Kyoto Encyclopedia of Genes and Genomes(KEGG)分析、Protein-Protein Interactions(PPIs),探討了WGCNA結合蛋白組學在實際應用中的價值。

1 實驗部分

1.1 主要材料與試劑

胰蛋白酶(Trypsin)、二硫蘇糖醇(dithiothreitol,DTT)、碘乙酰胺(iodoacetamide ,IAA)、尿素(Urea ,UA)、三羥甲基氨基甲烷鹽酸鹽(Tris-HCl)購自西格瑪奧德里奇(上海)貿易有限公司;iRT 標準肽段購自瑞士Biognosys 公司;甲酸購自阿拉丁試劑(上海)有限公司;10 kDa 超濾膜購自默克密理博實驗室設備(上海)有限公司;RTube 購自美國Respiratory Research Inc 公司。

1.2 納入人群

本研究共納入30 名受試者,包括10 名肺癌患者(Lung Cancer,LC)、10 名 良 性 肺 部 疾 病 患 者(Pulmonary Nodules,PN)和10 名健康對照(Healthy Controls,H)。樣本于2018 年4 月至2018 年7 月在上海胸科醫院采集,所有EBC 樣本在上午8 點至9 點采集完畢,并立即存儲于超低溫冰箱,以備后用。呼出氣采集裝置為RTube,全程佩戴鼻夾。

1.3 樣品制備

使用胰蛋白酶進行蛋白酶解,結合超濾輔助的樣品制備方法(FASP)進行EBC 樣本的過濾和濃縮。每個樣品用10 kDa 濾膜濃縮,與100 μL UA 緩沖液(8 mol/L 尿素,150 mmol/L Tris-HCl,pH 8.0)和DTT混合至10 mmol/L 的最終濃度,然后與100 μL IAA(50 mmol/L IAA in UA)、100 μL NH4HCO3緩沖液(50 mmol/L)和40 μL NH4HCO3緩沖液(0.5 μg 胞內蛋白酶Lys-C)混合。然后,向樣品中添加0.5 μg 胰蛋白酶進行過夜酶解,并與40 μL NH4HCO3緩沖液(50 mmol/L)混合。然后將樣品以14 000 倍重力加速度離心濃縮30 min,收集濾液并冷凍干燥。每個樣品用12 μL、φ=0.1% 甲酸(FA)復溶,280 nm 波長處吸收波段(OD280)用于測量肽濃度。然后,從每個樣品中提取5 μL 肽段(約0.5 μg),并混合2 μL iRT 標準肽段用于質譜分析。

1.4 質譜分析

質譜分析分為兩個步驟,DDA 分析和DIA 分析。DDA 分析中,使用EASY nLC 1200 系統(Thermo Fisher Scientific,CA)和C18 柱(75 μm×300 mm,3 μm)進行色譜分離。緩沖液A 為φ=0.1%甲酸水溶液,緩沖液B 為φ=0.1% 甲酸乙腈水溶液(乙腈體積分數為 84%)。使用2 h 線性梯度,流速為250 nL/min,以φ=95%緩沖液A 平衡:梯度8%~30% 持續97 min,30%~100%持續13 min,并保持10 min。分離后,通過Q-Extractive HF 質 譜 儀(Thermo Fisher Scientific,CA)進 行DDA 分 析。掃 描 范 圍(m/z):300~1 800;質 譜 分 辨 率:60 000;AGC (Automatic gain control):3×106;Maximum IT:50 ms。MS 掃 描 后 繼 續 進行20 個MS2 掃描,Isolation window:1.6 Th;質譜分辨率:30 000;AGC :3×106; Maximum IT: 120 ms;MS2 Activation Type:HCD;標準化碰撞能量:27。

DIA 分析與DDA 分析使用的系統相同。梯度分離條件為:梯度10%~30%持續97 min,30%~100%持續13 min,并保持在100% 直到120 min。DIA 掃描范圍(m/z):350~1 650,分辨率:120 000,AGC:3×106,Maximum IT:50 ms。設置30 個DIA 窗口進行MS2 掃描。對于MS2 掃描,分辨率:30 000,AGC:3×106,Maximum IT “自動”,碰撞能量:25,光譜數據類型:“profile”。

1.5 數據分析

使用Spectronaut pulsar X 軟件進行蛋白質鑒定。WGCNA 分析使用R 軟件(Version 6.4)數據包完成。GO 分析使用Blast2GO 完成,KEGG 分析通過KAAS(KEGG Automatic Annotation Server)完成。

2 結果與討論

2.1 蛋白質鑒定結果

所有酶解樣本的樣品經DDA 和DIA 質譜數據采集后,使用Spectronaut pulsar X 軟件構建蛋白庫。蛋白庫由兩部分組成,一部分為DDA 定量數據,另一部分為DIA 數據在pulsar 中直接檢索后構建的Library。共鑒定到蛋白質2 052 個,其中肺癌組866 個,肺結節組1 129 個,健康對照組1 089 個。大部分蛋白質沒有在此前的研究中報道過,是目前為止最全面的EBC 蛋白譜[8]。研究表明,基于DIA 的組學方法可以有效開發EBC 蛋白成分,提高了EBC蛋白質組學的敏感性和特異性。

利用DIA 技術建立了EBC 的蛋白組學方法,克服了EBC 樣本蛋白濃度過低、常規方法無法完成蛋白組學研究的困難?;贒IA 的蛋白質組方法,對EBC 中低豐度蛋白有很好的鑒定能力。使用超濾管酶解FASP 的樣本制備方法,不僅可以將樣本過濾濃縮,還可以去除高分子聚合物的影響,這些聚合物來自于EBC 收集管,不可避免地干擾到蛋白質的鑒定。在以往的研究中,對EBC 的處理往往是簡單的冷凍濃縮,并沒有考慮到樣本污染問題,因此往往不能取得令人滿意的蛋白鑒定結果[9]。

此前,已有研究人員使用LC-MS/MS 方法對EBC 的蛋白組學進行探索,然而由于技術的限制,這些研究并沒有很好地挖掘出EBC 的蛋白成分,也不能進行更深入的生物信息學分析[10]。Muccilli 等[3]對9 例EBC 樣本進行分析,共鑒定167 個蛋白;Sun等[11]用TMTs (Tandem Mass Tags)方法對38例EBC 樣本進行了蛋白組學分析,鑒定到257 個蛋白,之后對兩組蛋白進行差異蛋白分析,共發現24 個顯著差異表達的蛋白,生物信息學分析結果表明,這些蛋白在COPD 疾病進展中起著至關重要的作用,表明EBC的蛋白質組學分析可用于相關疾病生物標志物的鑒定。國內外對EBC 蛋白組學的研究一直在持續探索,然而結果卻并不令人滿意,方法的靈敏度是限制EBC 蛋白組學研究的主要原因之一。DIA 方法對低濃度的樣本展現出了極高的靈敏度,已有研究[12]表明30 min 的DIA 分析相當于120 min 的DDA 分析,能夠鑒定兩倍以上的肽段,蛋白質鑒定也相對提高25%。

2.2 WGCNA 分析

WGCNA 是無尺度分布的拓撲網絡分析,這對研究蛋白質的互作關系十分有利,據此可以構建大型的蛋白網絡,以此來觀察蛋白質之間的關系,并篩選出表達模式相近的模塊蛋白[13]。WGCNA 在蛋白質組中的分析步驟主要為蛋白表達、網絡構建、模塊分析和模塊-性狀分析和關鍵蛋白分析。網絡構建的節點是蛋白表達,蛋白質之間的相關性是模塊分析的依據。在進行WGCNA 分析時,需要選擇軟閾值,以此來確定網絡是否符合無尺度分布。軟閾值的選擇通常為相關系數R2>0.8,并保證一定的連續性[14]。本文使用Pick Soft Threshold 函數自動篩選軟閾值,如圖1 所示。

圖1 最佳軟閾值篩選:(a)基于R2=0.9 無尺度網絡的軟閾值篩選;(b)軟閾值為5 時網絡的連通性Fig.1 Screening of the best soft threshold: (a) Soft threshold of scale-free network based on R2=0.9; (b) Connectivity when the soft threshold was 5

以5 為軟閾值構建蛋白模塊的聚類樹圖,如圖2所示。圖中每個顏色代表一個蛋白模塊,灰色代表無法被分類的蛋白,分枝的遠近代表蛋白的相似程度。通過蛋白聚類樹可以看出,本研究的蛋白有很強的模塊性。

圖2 EBC 蛋白共表達模塊劃分Fig.2 Cluster dendrogram and module overview for EBC proteome

利用Topological Overlap Matrix(TOM)對所有蛋白進行聚類熱圖分析,如圖3 所示。圖中表達模式相近的蛋白被分類到同一個分支中,熱圖顏色越深,代表蛋白之間的重疊程度越高,蛋白質之間的功能越密切。

圖3 基于TOM 的拓撲網絡熱圖Fig.3 Heatmap of the topological network based on TOM

模塊與性狀之間通過相關系數表現其關聯,通過計算相關系數和p值,可以篩選出與表型性狀顯著關聯的共表達模塊。圖4 是模塊與表型性狀相關性熱圖,左側縱坐標代表不同的模塊類型,中間色塊代表蛋白模塊,根據色塊上的相關系數和括號中的p值可以篩選出最顯著的蛋白模塊,圖例代表相關系數R2的大小范圍為-1.0~1.0,其中紅色代表正相關,藍色代表負相關。

根據上述結果,將共表達模塊中的蛋白在所有樣本中的表達進行聚類熱圖分析,可以看出每個模塊在樣本中的特征值分布,如圖5 所示。圖的上半部分為蛋白在各個樣本中的表達模式熱圖,紅色代表上調表達,綠色代表下調表達。下半部分藍色模塊為特征值的分布,絕對值越大代表樣本整體表達變化量越大。

圖5 蛋白表達熱圖(a)及藍色模塊特征值分布圖(b)Fig.5 Heatmap of the eigenproteins expression (a) and module eigenvalue

通過觀察模塊特征值的聚類樹圖和聚類熱圖,可以篩選出與表達模式最相似的模塊。由圖4 可知,藍色模塊的相關性系數為 0.420,p值為 0.02,是4 個模塊中表達最為顯著的蛋白模塊,這表明該模塊中的蛋白可能共同參與了某些生物過程,協同發揮重要的生物功能,有挖掘生物標志物的潛力。以此分析蛋白重要性與模塊關系的關系,探究蛋白與模塊的相關性和蛋白與性狀的相關性是否有良好的一致性,篩選可能承擔最多生物功能的關鍵蛋白(Hub Protein),如圖6 所示。

圖4 模塊與表型性狀相關性熱圖Fig.4 Heatmap of the module-trait correlations

圖6 蛋白重要性與模塊關系的散點分布圖Fig.6 Scatter plot of protein significance and module membership

經過上述分析,共有61 個蛋白被篩選為關鍵蛋白。對關鍵蛋白進行GO 和KEGG 分析,結果分別如圖7 和圖8 所示。GO 分析結果表明,EBC 關鍵模塊蛋白的生物過程主要集中在磷代謝相關過程和細胞活動;KEGG 分析結果表明,這些關鍵模塊的蛋白較多參與了人類疾病分類的代謝活動,在人體免疫活動和信號傳導過程中也十分活躍。

圖7 關鍵模塊蛋白的GO 分析: (a) GO term 分類;(b) GO 富集分析Fig.7 GO analysis of proteins extracted from the core module: (a) GO terms classification; (b) Enriched GO terms

圖8 關鍵模塊蛋白的KEGG 分析: (a) KEGG term 分類;(b) KEGG 富集分析Fig.8 KEGG analysis of proteins extracted from the core module: (a) KEGG terms classification; (b) Enriched KEGG terms

對一些關鍵蛋白的互作關系進行分析和可視化,結果如圖9 所示。在String 中導入61 個關鍵蛋白,將結果展示設置為最高置信度(0.900),隱藏不產生連結關系的蛋白。圖9 中的每一個節點都代表一個蛋白,蛋白與蛋白之間的連結線越多,說明蛋白之間的互作關系越大。結果表明,PPIs(Protein-Protein Interactions)網絡共52 個節點和43 條連結線,平均節點為0.453,p<0.001。其中ACTB,HSPA8,TUBA4A,MDH2,HSP90AA1 等處于互作網絡的核心區域,有可能是承擔最多生物學功能的蛋白。

圖9 蛋白互作網絡分析Fig.9 Protein-protein interactions analysis

2.3 討論

本文在EBC 蛋白組學方法建立的基礎上,對鑒定到的蛋白進行了多維的生物信息學分析,對肺癌、肺結節和健康人群的蛋白組的組成和生物學功能有了初步的了解。WGCNA 網絡對于處理無尺度分布的蛋白質組數據有天然的優勢,本文依據蛋白間相互作用關系來挖掘蛋白內在關系,進一步篩選具有相似生物學功能的關鍵模塊和關鍵蛋白。傳統的生物信息學分析雖然對高表達的蛋白和基因有很強的分析能力,但對于低表達的蛋白功能挖掘能力較弱。WGCNA 分析可以把表達模式相似的蛋白歸于同一個網絡,將復雜的蛋白組學數據轉化為不同網絡和功能模塊,再進一步分析每一個模塊的功能,對處理大批量的蛋白組學數據有很大的優勢[15]。

本文利用DIA 技術建立了基于EBC 的蛋白質組學分析方法。對30 例EBC 樣本的分析共鑒定出蛋白質 2 052 個,其中肺癌組 866 個,肺結節組 1 129個,健康對照組1 089 個,表明基于DIA 的蛋白組學方法對低蛋白濃度的生物樣本有很強的分析能力。使用WGCNA 算法,對EBC 樣本的蛋白質組進行了分析,篩選出EBC 中發揮重要生物功能的核心蛋白。通過GO 分析發現這些關鍵蛋白在細胞核和細胞質中廣泛存在,在分子功能方面,大部分互作蛋白發揮了結合功能,包括蛋白質結合、激酶結合和雜環化合物結合等。此外,這些蛋白質在細胞過程調節、磷化合物代謝、細胞含氮化合物代謝和有絲分裂周期等生物活動中十分活躍。KEGG 分析則提示關鍵蛋白參與了與免疫相關的系統性疾病、病毒致癌、細胞凋亡、Rap1 信號通路等代謝活動,這表明關鍵蛋白不僅活躍參與了與人體疾病相關的代謝活動,還參與了細胞的生理過程和信號傳導,廣泛涉及系統性疾病、腫瘤、感染類疾病等通路。

以上研究表明,WGCNA 所篩選出的模塊蛋白具有生物學意義,能夠反映EBC 蛋白組的生物功能,結合DIA 蛋白組學方法,可以開展更大規模的研究,在未來對肺癌等肺部疾病的研究和探索有很強的實際應用價值,可以助益生物標志物的探索和疾病診療。

猜你喜歡
熱圖質譜蛋白質
蛋白質自由
人工智能與蛋白質結構
氣相色譜質譜聯用儀在農殘檢測中的應用及維護
熱圖
每月熱圖
吹掃捕集-氣相色譜質譜聯用測定水中18種揮發性有機物
棗霜化學成分的色譜質譜分析
氣相色譜-三重四級桿質譜測定環境樣品中17種二
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合