?

細胞間通信預測方法研究進展

2023-10-14 03:05任麗萍潘賢潤劉天元
電子科技大學學報 2023年5期
關鍵詞:間通信單細胞配體

任麗萍,潘賢潤,劉天元,楊 煜,寧 琳,張 楊

(1.成都東軟學院健康醫療科技學院 成都 611844;2.成都中醫藥大學醫學技術學院 成都 611137;3.筑波大學科學與技術學院 日本 筑波 3058577;4.成都中醫藥大學中醫藥創新研究院/交叉學科研究院 成都 611137)

細胞可通過各種化學或物理信號相互交流、應答及協作[1]。在單細胞生物中,細胞間的信號可使不同細胞相互協調,分工合作,繼而完成單個細胞無法單獨完成的任務。在多細胞生物中,細胞間信號可以使得細胞向不同方向特化形成不同的細胞類型,而不同種類的細胞之間又可以通過胞間信號傳遞與交流,有序組合形成肌肉、血液及神經系統等組織和系統,最終行使特定的生物學任務[2]。細胞這種從其他細胞或環境接收和處理各種信息,同時又通過信息的內部運作對其他細胞與外環境做出響應的過程被稱為細胞間通信。

單細胞測序技術的快速發展為細胞生物學提供了新的研究范式[3]。尤其是單細胞RNA 測序(single cell RNA sequencing, scRNA-seq)技術,可在單細胞水平上精確表征組織及微環境中的細胞組成,提供對組織或微環境細胞異質性和單細胞基因表達的高分辨率景觀,是剖析組織及微環境穩態及動態過程的有力工具[4]。目前已有諸多研究利用scRNA-seq技術來繪制生理及病理情況下的組織及微環境的細胞圖譜,為解析組織與微環境中細胞間信號傳遞及調控機制提供了重要的技術支撐與數據基礎[4-5]。在單細胞水平上利用生物信息學方法,系統地解析組織及微環境中細胞間通信網絡及信息交流機制迅速成為細胞生物學研究的熱點[6-8]。近三年有諸多研究開發了基于單細胞測序數據的細胞間通信預測方法,極大地促進了單細胞層面細胞間信號轉導及機制研究[9-11]。同時,作為scRNA-seq 的補充,空間轉錄組學(spatial transcriptomics, ST)技術可繪制細胞單“點”或亞細胞分辨率下的基因表達。有研究提出將ST 數據與單細胞測序的數據結合來推斷細胞間通信以提高預測的準確性及合理性[12]。本文首先簡要回顧了細胞間通信的基礎生物學過程,繼而結合國內外基于單細胞測序的細胞間通信預測研究現狀,對目前細胞間通信相關蛋白質配體-受體(ligand-receptor, L-R)互作數據庫、預測算法以及基準評測研究進行綜述,總結存在的問題并提出展望。

1 細胞間通信的生物學基礎

細胞已經進化出多種信號轉導機制來完成生物信息傳遞,如圖1a 所示[2]。在多細胞生物中,各種代謝物、生長因子、激素、神經遞質和細胞外基質是細胞傳遞信號的關鍵分子,被稱為配體。而配體又可通過與細胞表面的受體特異性結合,將信號傳遞到受體細胞內部。根據化學信號的形式,細胞間信號傳遞可主要分為自分泌、旁分泌、細胞黏附以及內分泌4 種方式,如圖1b 所示。如血液中的代謝物可以觸發腺體細胞表面受體,導致細胞釋放葡萄糖調節所需的激素。神經遞質作為一類短程信號分子,可穿過相鄰神經元之間或神經元與肌肉細胞之間的微小空間,與其特異性受體結合傳遞神經信號。某些細胞表面配體及受體還具有黏附能力,其不僅可在細胞之間傳遞信息,而且還能在物理上將這些細胞彼此連接。此外,某些配體不僅能在局部微環境中發揮作用,也可以通過內分泌的方式,利用體液進行長距離傳播發揮信號傳遞作用[13],如促卵泡激素,其從哺乳動物的大腦通過血液傳播到卵巢觸發卵子釋放,這種通過體液的遠距離傳播信息的方式,在跨器官通信中起關鍵作用。

圖1 細胞間通信的生物學過程示意圖

此外,在靶細胞上的受體蛋白接收到配體傳遞的信號后會發生構象變化,進而在細胞內啟動一系列生化反應。形成細胞內信號通路,也稱為信號轉導級聯[14]。實際上,一個活躍的細胞無時無刻不在接收和響應大量信號,且多個信號轉導通路同時在細胞質中并行,這些通路之間又存在許多交叉點,構成復雜的級聯串擾網絡(crosstalk)。最終,細胞通過這種高度復雜而精密的信號通路網絡,不斷整合從外部環境接收到的所有信息,完成各種復雜的生物學任務[15]。

綜上所述,細胞間的通信過程可簡述為:細胞生產各種信號分子作為配體,當其與自身或其他細胞的特異性受體結合時,會在該細胞內進一步觸發一系列信號級聯事件,這些事件將配體傳遞的信號傳送到細胞內部,并進一步將其放大,最終使得細胞執行相應的具體功能。而在細胞微環境中,各種信號分子允許微環境內的細胞共享有關內部和外部條件的信息,這些信息有助于細胞自行安排、協調完成各種復雜的生物學功能。但由于目前傳統生物實驗技術的局限,生物學家對細胞間及細胞內的信號轉導過程的層次結構及其高度集成及動態的過程的理解仍不清晰。相信隨著學科不斷的交叉融合發展,嘗試基于生物學實驗數據對細胞內外分子信號網絡進行數學建模,創建算法用于解析目前條件下無法用實驗解析的結果,將是細胞間信號傳遞研究的新路徑[16]。

2 L-R 互作數據庫

目前,基于單細胞測序的細胞間通信研究的主要原理是通過單細胞測序數據中配體及受體的mRNA 表達水平推測不同細胞群落中的細胞間通信關系,該過程主要依賴于蛋白質L-R 互作先驗知識[6]。除DLRP[17]、IUPHAR/BPS[18]、KEGG[19]及HPMR[20]等單細胞測序時代之前的L-R 互作數據庫之外,近幾年針對單細胞測序細胞間通信研究的L-R 互作數據庫也陸續上線,如表1 所示。其中,2015 年文獻[21]從已知的L-R 數據庫如DLRP、IUPHAR/BPS 及HPMR 等收集并整合得到1 894條L-R 互作數據,并構建了144 種細胞間的通信網絡。同時,該課題組在2020 年進一步通過文獻挖掘及數據庫整合等方式將該數據集更新為2 293 條L-R 互作數據,并命名為connectomeDB2020 數據庫[22]。CellPhoneDB 數據庫[10]通過文本挖掘及其他PPI 數據庫收集了1 396 條L-R 互作數據,并開發了一個在線分析平臺用于scRNA-seq 數據的細胞間通信分析。CellTalkDB 數據庫[23]通過大規模地收集STRING v11 數據庫[24]中的L-R 互作數據,并通過文獻挖掘驗證,最終收集了3 398 個人類的L-R 互作數據、2 021 個小鼠的L-R 互作數據。OmniPath 數據庫[25]通過收集數據庫來源的配受體數據及PPI 數據,整合構建了可用于細胞間通信分析的細胞間及細胞內信號網絡數據集。Cellinker 數據庫[26]通過文本挖掘、數據庫整合以及同源分析等方法收集了超過3 700 條人類、3 300 條小鼠以及16 條冠狀病毒-人類的高置信的L-R 互作數據,Cellinker 數據庫還收錄了超過400 條內源性小分子-受體互作數據,為細胞間通信預測研究提供了重要的數據基礎。同時,一些細胞間通信算法如SingleCellSignalR[11]及iTALK[27]等同樣構建了L-R 互作數據集用于推測細胞間通信。上述L-R 互作數據資源為細胞間通信研究及細胞微環境信號轉導網絡研究奠定了重要的數據基礎。此外,文獻[28]繞過了L-R 互作數據,開發了一個收錄高質量的人類細胞互作的數據庫CITEdb,該數據庫通過文獻挖掘收集了728 條人類細胞互作數據,為細胞間通信研究提供了重要的基準數據集。

表1 部分細胞間通信相關L-R 互作數據庫與數據集

3 細胞間通信預測算法

為幫助推測細胞間通信,近三年已開發了大量基于單細胞測序數據的細胞間通信算法和工具,如表2 所示。依據所采用的具體模型與策略,現有方法主要可分為4 類:1)基于配受體差異表達的方法;2)基于配受體表達結合統計檢驗的方法;3)基于L-R 互作下游細胞內信號網絡的方法;4)結合ST 數據的方法[6]。

表2 部分細胞間通信預測算法

3.1 基于配受體差異表達的方法

基于L-R 互作中配受體差異表達的方法包括iTALK[27]、PyMINer[29]以及CellTalker[30]等,其主要原理是篩選scRNA-seq 數據中不同細胞類型之間顯著差異表達的基因,并將差異基因列表中存在的L-R 互作定義為差異細胞間通信。此類方法對于推測不同細胞類型間特異的細胞間通信比較有效,但該策略忽略了在所有細胞類型之間都普遍且穩定存在的通信關系[6]。此外,還有基于L-R 互作配受體表達矩陣分解的方法,代表性工具是scTensor[31],其使用張量模擬L-R 互作。從數據中生成了一個等級為3 的張量,其中兩個維度分別表示單細胞數據中每種細胞類型的配體和受體表達,第3 個維度代表所有L-R 互作。然后進行非負塔克分解來分解這個張量,產生3 個矩陣,其系數代表相互作用的細胞與其各自的配體和受體之間的關系。這種基于張量分解的方法,其隱變量的可解釋性依然存在問題[6]。

3.2 基于配受體表達結合統計檢驗的方法

基于L-R 互作中配受體表達結合統計檢驗的方法包括CellPhoneDB[10],CellChat[32],NATMI[22]和ICELLNET[33]等,其方法原理主要是通過置換檢驗等統計檢驗方法評估L-R 互作中配體與受體表達之積或之和的統計顯著性。此類方法策略同樣過度依賴于配體受體的表達量高低,而對穩定表達的L-R互作相關細胞間通信缺乏鑒定能力[34]??傮w而言,上述基于L-R 互作中配受體表達強度或特異性來推斷細胞間通信的方法存在明顯局限。首先,某些受體蛋白質通常在細胞中表現出穩定的表達水平,其表達量高低與細胞間通信強弱并不完全相關[25];且部分編碼細胞表面受體的mRNA 通常處于低豐度狀態,這可能導致受體的表達無法在單細胞水平被檢測到,造成數據刪失[6,35];而上述方法最根本的問題在于其模型未考慮L-R 互作下游的細胞內信號轉導過程[9]。

3.3 基于細胞內信號網絡的方法

為解決上述問題,最近已有多種方法開始嘗試基于L-R 互作下游信號網絡的方式將細胞內信號轉導過程也納入細胞間通信分析模型,包括CCCExplorer[36],SoptSC,NicheNet[9],CytoTalk[37],scMLnet[38]以及CellCall[34]等,其算法原理主要通過L-R 下游的信號轉導網絡、基因調控網絡或基因共表達網絡的拓撲結構與基因表達來推測細胞間通信關系。如NicheNet 算法通過PageRank 方法計算細胞內部轉錄因子(transcription factor, TF)調控網絡中TF 的靶基因與細胞外配體的相關性去推測細胞間通信。CytoTalk 算法通過PCSF(prize-collecting Steiner forest)方法篩選與細胞間L-R 互作相關的細胞內基因共表達網絡,繼而重建細胞間信號轉導網絡。CellCall 算法[34]可通過整合L-R 互作的表達和L-R 互作下游TF 的激活程度來推斷細胞間通信,其能夠同時推斷細胞間通信和相應的細胞內部信號。上述方法將細胞外信號與細胞內信號結合,在一定程度上解決了細胞間信號轉導推斷方法過度依賴于配體與受體表達的問題,生物學模型相對合理,同時此類方法還增加了對細胞內信號轉導網絡的推測能力。

3.4 結合ST 數據的細胞間通信預測方法

細胞間通信的本質是細胞膜表面或分泌型配體將生物信號擴散傳遞到微環境中附近的細胞,因此,配體在有限空間擴散率限制了組織或微環境中可發生通信的細胞數量及范圍。因此,有研究提出將空間轉錄組數據與單細胞測序的數據結合推斷細胞間通信以提高預測的準確性及合理性。隨著ST 技術的不斷發展,目前已出現多種基于ST 數據的細胞間通信方法,如表3 所示。如Cell2Cell 通過對大量L-R 互作進行Bray-Curtis 樣評分,然后結合不同細胞之間的距離定義細胞間通信關系[39]。SpaOTsc 通過推斷配體、受體及細胞內信號通路的推測信號發送細胞及接收細胞的空間分布,并通過空間最小傳輸距離推測細胞間通信[40]。stLearn 算法通過計算不同的空間簇中細胞多樣性以及相關L-R 互作的共表達分數去推測在空間中細胞間通信信號密集的熱點區域[41]。SVCA 算法主要使用概率模型來推斷細胞特異性基因如何受到鄰近細胞和外部環境的影響[42]。COMMOT 通過集體最佳傳輸方法來推斷空間轉錄組學中的通信,提出了一種處理復雜分子相互作用和空間約束的集體最佳傳輸方法[43]。其可解釋不同配體和受體物種間的競爭以及細胞間的空間距離。然而,細胞間通信是一個動態的變化過程,目前還未有方法考慮ST 數據中固有的動態時序信息。隨著ST 技術分辨率的進步,開發基于ST 數據時序信息的細胞間通信動態變化過程預測方法必將是下一步探究的方向[12]。

表3 部分結合ST 數據的細胞間通信預測方法

4 細胞間通信分析的可視化

除了推測或量化細胞間通信關系外,目前各種方法還提供了豐富的細胞間通信分析結果的可視化策略,包括繪制Circos 圖、?;鶊D、熱圖以及氣泡圖等。在此,本文以CellCall 算法為例,簡略介紹幾種常見的細胞間通信可視化圖,如圖2 所示。CellCall 使用Circos 圖(圖2a)對數據中所有細胞間的通信總體呈現,外圈線段代表不同的細胞,圈內指向曲線代表不同細胞間的總體通信情況(顏色深淺表示通信強弱);CellCall 使用熱圖(圖2b)對細胞間L-R 互作的分數進行可視化,通常熱圖的行和列分別為細胞對以及L-R 互作對,而熱圖的顏色深淺則代表某對細胞的某對L-R 互作的通信得分;CellCall 使用氣泡圖(圖2c)呈現信號通路富集分析結果,其中氣泡大小代表P值,顏色深淺代表富集度;此外,CellCall 還使用?;鶊D(圖2d)呈現LR-TF 三元關系,使用GSEA 富集圖(圖2e)和山巒圖(圖2f)呈現了TF 激活程度??傊?,不同算法集成了不同的可視化策略,如不同于CellCall,一些算法如CellChat 等使用Circos 圖,而CellphoneDB等方法使用氣泡圖對細胞間L-R 互作進行可視化呈現。

圖2 細胞間通信的可視化策略

5 細胞間通信方法的評測

建立適當的基準數據是評價和比較已開發的各種細胞間通信預測方法的前提與基礎。然而,目前已鑒定的細胞間通信關系在多大程度上代表真實的生物學情況還尚未清楚。當前評價算法的常用手段仍是通過濕實驗(如體內成像)和下游功能研究(通過實驗干擾某些細胞間通信)來驗證具體某一特定細胞間通信是否存在[44-45]。同時,除了用作約束以優化細胞間通信的推斷結果之外,ST 數據也可以用作評估假陽性率的基準[46]。此外,也有研究通過計算機模擬仿真數據對細胞間通信推斷算法進行基準測試[12]。為了比較各細胞間通信數據庫數據的重合率及結果的準確性,文獻[47]系統比較分析了16 個L-R 互作數據資源以及7 種算法,結果發現大多數數據庫中的L-R 互作數據主要來源于KEGG[19],Reactome[48]和STRING[24]等數據庫,且不同數據資源在通路、功能分類、組織特異性蛋白質等方面存在偏倚,提示各數據資源的選擇將會影響細胞間通信的預測。文獻[49]將ST 數據與scRNA-seq 數據相結合用于評價各細胞間通信的數據庫及算法的一致性,并將配受體間的互作信息分為基于細胞直接接觸的短程互作及基于分泌信號的遠程互作,其分析結果提示不同方法預測結果存在顯著差異,并建議在未來預測細胞間通信的工作中納入不同配受體間及細胞內的調控信息,以提高預測的準確性。

6 結 束 語

探究細胞間通信精細調控過程及全局特征有助于闡明機體的精細調控機制及內環境穩態,也可為進一步探究機體疾病發生發展奠定理論基礎。盡管目前已經有大量相關數據庫及算法用于研究細胞間通信,且相關算法仍在不斷推陳出新,但該領域仍然存在諸多挑戰:1)細胞信號傳遞主要體現在蛋白水平而非基因層面,但基因表達并不一定產生蛋白質表達,而現有預測方法均基于轉錄組學數據,因此其預測結果不可避免會存在失真;2)同時,目前的方法只能用于預測組織或者微環境內細胞間短程通信,而對內分泌等遠程通信的研究還力有未逮;3)細胞間通信的物質基礎除蛋白質外,還包括大量其他非肽類的內源性小分子(如小分子、碳水化合物、脂質和核酸配體),但目前的數據庫及算法均只收錄了蛋白質L-R 互作數據,涵蓋的范圍存在明顯局限。

因此,未來的工作需進一步將細胞外信號與下游轉導信號結合以提高對細胞信號傳導的細胞類型特異性的理解;同時,還需增加單細胞多組學數據,尤其是蛋白質組以及代謝組學數據進行聯合分析,進一步提高預測的準確性及全面性;此外,相關工具還需增加跨器官通信等遠程通信的解析能力,擴展預測方法的應用范圍,為單細胞測序數據分析以及細胞間信號轉導網絡分子機制研究提供新的技術手段,為疾病機制、臨床診療及藥物開發研究提供關鍵的理論依據。

猜你喜歡
間通信單細胞配體
人工智能助力微生物單細胞鑒定
綜合航電分區間通信元模型設計研究
基于配體鄰菲啰啉和肉桂酸構筑的銅配合物的合成、電化學性質及與DNA的相互作用
新型三卟啉醚類配體的合成及其光學性能
聯合SNaPshot和單倍型分析技術建立G6PD缺乏癥單細胞基因診斷體系
單細胞測序技術研究進展
基于Schiff Base配體及吡啶環的銅(Ⅱ)、鎳(Ⅱ)配合物構筑、表征與熱穩定性
系列含4,5-二氮雜-9,9′-螺二芴配體的釕配合物的合成及其性能研究
謝曉亮院士研發出單細胞測序新技術
基于核間寄存器的多核虛擬機系統中虛擬機間通信研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合