?

單細胞測序技術及其應用綜述

2022-12-31 04:56張成鵬
河南科學 2022年9期
關鍵詞:單細胞基因組測序

張成鵬

(河南省科研平臺服務中心,鄭州 450000)

單細胞測序(Single Cell Sequencing,SCS)技術是指單細胞基因組或轉錄組的測序,從而獲得基因組、轉錄組或其他多細胞信息,以揭示細胞種群差異和細胞進化關系. 通過對單個細胞的全基因組、轉錄基因組和表觀基因組進行測序,可以揭示疾病發生和進展所涉及的復雜異質機制,進一步改善疾病診斷、預后預測和藥物治療效果的監測. 傳統的測序方法只能得到許多細胞的平均值,無法分析少量細胞并丟失細胞異質性信息. 與之相比,單細胞技術可以檢測單個細胞間異質性、區分少量細胞和繪制細胞圖. 然而,早期的單細胞測序由于成本高而限制了其廣泛使用,但隨著研究的不斷發展,許多新的單細胞測序方法被開發出來,降低了單細胞測序的成本閾值. 目前,單細胞測序技術越來越多地應用于各個領域.

1 單細胞測序技術

SCS技術旨在通過下一代測序識別單個細胞的基因組序列信息,并獲取細胞之間遺傳物質和蛋白質差異的信息,從而更好地了解單個細胞在微環境中的功能. SCS主要涉及以下四個步驟:單細胞分離、核酸擴增、高通量測序和數據分析,其中單細胞分離和核酸擴增是核心技術.

1.1 單細胞分離

SCS 的第一步是將單個細胞從組織樣本中分離出來,以獲得合格的單細胞懸浮. 目前,許多技術方法已用于單細胞分離,其中包括連續稀釋法、顯微操作法、熒光激活細胞分選(Fluorescence-activated Cell Sorting,FACS)、免疫磁珠分離(Immunomagnetic Bead Separation,IMS)、激光捕獲顯微切割技術(Laser Capture Microdissection,LCM)和微流控平臺. 這些方法各具優點和缺點,研究人員可根據單細胞的具體情況選擇合適的分離方法.

1.1.1 連續稀釋法

該方法基于細胞培養原理,單細胞樣本通過稀釋細胞群一系列倍數來制備. 由于其操作方便、成本低廉、具有特殊裝置的獨立性,該方法已成功應用于來自體外不同組織的干細胞和祖細胞的克隆形成分析[1-2].而這種方法有以下缺點:嚴重依賴梯度稀釋的計算;很容易發生分離錯誤或細胞丟失的情況;該方法耗時長,通量率低,無法準確過濾目標細胞.

1.1.2 顯微操作法

顯微操作法是分離未培養的微生物或早期胚胎的經典方法,它使用毛細管移液器從細胞懸架中吸出單個細胞,在顯微鏡下對細胞形態和著色特性進行目視檢查[3-4]. 機械微操作的缺點是,吞吐量低,耗時長,在操作過程中機械剪切會導致細胞損傷.

1.1.3 熒光激活細胞分選

熒光激活細胞分選技術可根據單個細胞的大小、粒度和熒光特性每分鐘分離數十萬個細胞. 高吞吐量、省時性和自動性能是它的主要優勢. 此外,研究人員可通過給靶細胞貼上特定熒光抗體的標簽,將特定的單個細胞與異質細胞樣本分離[5]. 雖然分揀過程復雜,但這種實驗技術已經成熟,有統一的標準遵循.

1.1.4 免疫磁珠分離法

在免疫磁珠分離法中,磁珠可以將細胞表面抗原與特定的單克隆抗體結合. 與磁珠相連的表面抗原細胞被吸附并保留在磁場中,但未與磁珠相連的細胞不會留在磁場中,因此目標細胞可以快速分離. 雖然此操作相對復雜,但它已經被用來從腫瘤樣本中分離單細胞[6].

1.1.5 激光捕獲顯微切割技術

激光捕獲顯微切割技術通過用激光束熔化透明膜蓋,然后冷卻后將細胞固定在膠黏膜上,從而能夠快速準確地從組織樣本中獲取單細胞亞群或單細胞懸浮液,從而進一步分析細胞異質性. 在倒置顯微鏡下,目標組織切片或細胞有選擇地固定在激光脈沖活性熱塑性膜(醋酸乙烯、聚乙烯四乙酸鹽酯或聚乙二醇四磷酸鹽膜)上的涂片中[7]. 該技術可以顯示細胞的空間位置,并快速準確地分離細胞,而無須細胞懸浮. 然而,激光捕獲顯微切割技術尚有成本高、通量低、缺乏自動化和精度有限等缺點. 另外,細胞核很容易被切割,導致在該過程中會丟失一些染色體片段,并且切割過程中可能會涉及相鄰細胞的原生體成分或受損的細胞核. 大多數RNA在準備單細胞懸浮時會降解,因此這種方法不適合進行轉錄分析.

1.1.6 微流控平臺

微流控平臺是一種新開發的高度集成的系統,可按順序處理或操縱少量流體在尺寸為幾十到幾百微米的通道中實現單細胞培養和測序,該通道已應用于單細胞實驗[8-9]. 微流體的優點是能夠輸入納升到皮升的樣品量,并輸出高分辨率和靈敏度的準確結果[8]. 此外,微流控可以進行平行和快速地分析,提高研究效率.

1.2 核酸擴增

核酸擴增是通過酶的作用將待檢核酸序列進行擴增,包括全基因組擴增和全轉錄組擴增.

1.2.1 全基因組擴增

為了在單個細胞中均勻擴增基因組DNA,已經開發了全基因組擴增(Whole Genome Amplification,WGA)方法[10],包括簡并寡核苷酸引發的聚合酶鏈反應(Degenerative Oligonucleotide PCR,DOP-PCR)、多重置換擴增(Multiple Displacement Amplification,MDA)和多重退火和基于環的擴增循環(Multiple Annealing and Loop Based Amplification Cycles,MALBAC). MDA是一種利用具有鏈置換活性和高保真度的聚合酶的方法,可以實現基因組的高覆蓋率,但會產生不均勻的擴增. MALBAC以其獨特的準線性擴增特征,減少了指數擴增加劇的序列依賴性偏差且已應用于單細胞轉錄組測量[11]. DOP-PCR 通常會產生低基因組覆蓋率,但DOP-PCR 非常適合在具有100萬個堿基的大型基因組規模上測量CNV[1].

1.2.2 全轉錄組擴增

SMART-seq[12]是一種利用寡核苷酸引物和模板切換進行全長cDNA 擴增的全轉錄組擴增(Whole Transcriptome Amplification,WTA)方法. SMART-Seq24、Quartz-seq5 和CEL-seq6 也已經被開發出來,可以穩定地測量單個細胞的mRNA. 盡管存在多種WTA方法,但因其需處理成百上千個單細胞和少量液體,所以進行scRNA-seq仍存在一定難度.

1.3 高通量測序

高通量測序包括單細胞基因組測序、轉錄組測序和表觀遺傳學測序,可以揭示細胞在不同階段、不同方面的功能和特征. 這種方法可以同時對數百萬個DNA分子進行測序,從而有可能全面分析物種的轉錄體和基因組,通過提高測序速度和降低測序成本,有效提高了我們確定和診斷人類疾病根本原因以及評估復雜疾病風險的能力.

1.3.1 單細胞基因組學測序

單細胞基因組測序能夠闡明遺傳異質性,它可用于分析正常細胞和癌細胞中的新生種系突變和體細胞突變. 突變在細胞中獨立積累并導致衰老和疾病,例如發育疾病和癌癥. Zhang等[13]報告了一項關于B淋巴細胞體細胞突變的單細胞全基因組測序研究,并觀察到體細胞突變隨年齡增長而積累以及與B細胞癌的致癌性有關的突變特征.

1.3.2 單細胞轉錄組學測序

scRNA-seq 允許比較單個細胞的轉錄組. 因此,scRNA-seq 的一個主要用途是評估細胞群內轉錄的相似性和差異. RNA-seq 實現了高通量基因表達譜分析,可以深入了解基因型和表型之間的功能聯系[14].RNA-seq 分析通常測量細胞混合物(稱為“批量”)中的轉錄本. 批量RNA-seq 分析允許僅測量細胞群中的平均轉錄表達. 例如,在癌癥組織的RNA-seq 中,分析了來自各種類型細胞的轉錄本,包括腫瘤細胞、免疫細胞、成纖維細胞和內皮細胞. 為了測量單個細胞中的轉錄物,必須從極少量的RNA中進行逆轉錄(Reverse Transcription,RT)和cDNA擴增[15].

1.3.3 單細胞表觀遺傳學測序

單細胞表觀基因組測序用于檢測單個細胞分化足跡. 通過闡明細胞的表觀基因組狀態,如DNA甲基化和染色質狀態,我們可以觀察單個細胞的細胞譜系和分化狀態. 單細胞DNA 甲基化分析可以通過單細胞亞硫酸氫鹽測序(single cell Bisulfite Sequencing,scBS-seq)和單細胞減少代表性亞硫酸氫鹽測序(single cell Reduced Representation Bisulfite Sequencing,scRRBS)進行分析[15]. Smallwood 等[16]報道了一種scBS-seq方法,可用于精確測量高達48.4%的CpG 位點的DNA 甲基化. Guo 等[17]描述了一種甲基化組分析技術,該技術能夠基于scRRBS進行單細胞和單堿基分辨率DNA甲基化分析. 研究染色質狀態,可以使用多種方法來測量單個細胞中組蛋白修飾的模式. Rotem等[18]用單細胞ChIP-seq揭示由染色質狀態定義的細胞亞群.單細胞ChIP-seq 可以通過稱為Drop-ChIP 55的基于液滴微流體的程序進行. Grosselin 等[19]最近進行了單細胞染色質免疫沉淀和測序(single cell Chromatin Immunoprecipitation followed by sequencing,scChIP-seq),以分析患者來源的乳腺癌異種移植物(Patient-Derived Xenograft,PDX)的H3K27me3 染色質景觀和特征.Kaya-Oku 等[20]描述了靶標和標記下的裂解(CUT&Tag),這是一種酶系鏈策略,可提供高效的高分辨率測序文庫,用于分析不同的染色質成分.

1.4 數據分析

1.4.1 單細胞基因組測序數據分析

獲得帶有測序讀數的文件后,數據分析的第一步是映射到參考基因組[21]. 大多數模式生物的基因組DNA序列可以從各種在線數據庫中輕松獲得. 在映射之前,建議檢查讀取質量并修剪低質量堿基以及讀取末尾的剩余適配器序列. 但是,如果剩余讀取長度太短,則應丟棄讀取以避免錯誤映射,此外,建議刪除PCR重復項. 執行映射后,映射到多個基因座的讀數應被丟棄或計數,每個基因座的統一權重降低,以便每個讀數的權重加起來為1,后續處理取決于分析類型. 為了確定CNV,可以通過將基因組分割成Bin來減輕讀取覆蓋率的局部變異性[22-23]. 例如,圓形二元分割算法[22]使用t統計量和置換參考分布來推斷斷點的P值. 另一項研究采用隱馬爾可夫模型進行CNV檢測,隱狀態對應于本地拷貝數[24]. 在使用源自非癌細胞的歸一化因子消除擴增偏差后,推斷出癌細胞中的異??截悢? 該模型的發射概率對應于指示癌細胞是否具有比正常細胞更高的拷貝數的二元載體.

基因組分析工具包GATK含有一系列用于處理下一代測序數據和變異調用的方法,例如,可用于單核苷酸多肽性(Single Nucleotide Polymorphism,SNP)檢測的貝葉斯框架.

1.4.2 單細胞轉錄組測序數據分析

1)質量控制. 分析scRNA-seq 的第一步是排除那些不太可能代表完整的單個細胞的細胞條碼[25]. 最直接的方法是計算一個數據集的特定閾值,即認為一個條形碼是一個細胞所需的最小數量的唯一分子識別符(Unique Molecular Identifier,UMI)[26].

2)標準化. 從測序實驗中獲得的有用讀數的數量在不同的細胞之間會有所不同,我們必須對這種差異進行校正[25]. 對于scRNA-seq 數據,這種影響是明顯的,因為每個細胞的RNA 數量會因為細胞周期階段和其他生物因素而有很大的不同,即使是在同一細胞類型中.

3)批量效果校正. 與測序深度的差異類似,批效應是技術上的混淆因素,必須加以解釋才能產生真正的生物信號[25]. 批效應是生物學中常見的問題,它是由實驗時間、實驗人員、試劑等非生物因素的差異引起的. 如果不加以適當解釋,批效應可能會被誤認為是真正的生物信號,但通過仔細的實驗設計,它們完全可以避免.

4)代入法和平滑法. 原則上,去除零可以減少噪音,并使其更容易識別數據的潛在結構(如基因-基因相關性、細胞簇、標記基因或發育軌跡). 已經開發了一些工具來“輸入”在scRNA-seq數據中發現的零值,包括scImpute,DrImpute和SAVER. 其他工具,如使用擴散模型的MAGIC 和使用自動編碼器的scVI,應用平滑算法來降低噪聲.

5)細胞周期分配. 如果樣品中含有活躍循環的細胞,這可能會導致生物混雜物,可能需要在下游分析中去除. 另外,細胞周期的階段可能是正在研究的生物學問題的興趣所在. 無論哪種情況,都有必要將細胞分配到適當的細胞周期階段[25]. 有兩種廣泛使用的工具來識別細胞周期階段:Cyclone和Seurat.

6)特征選擇. 特征選擇識別出相對于技術噪聲具有最強生物信號的基因. 通過將下游分析限制在信息量最大的基因上,減少維數的影響,降低噪聲,簡化分析[25]. 最廣泛使用的特征選擇策略是考慮高可變基因(即方差高于預期的基因).

7)降維和可視化. 減少表達式矩陣高維的負面影響的另一種策略是對降維后的特征空間進行降維[25].最常用的策略包括主成分分析(Principal Component Analysis,PCA),這是一種線性變換,在完整的主成分空間中保持單元間的歐氏距離,即使對非常大的數據集也能有效計算. 目前的最佳實踐方法是統一流形逼近和投影降維(Uniform Manifold Approximation and Projection,UMAP)[27]. 該算法使用一個cell-cell最近鄰網絡來近似數據的拓撲結構,估計數據的低維嵌入能使結構保持最好. UMAP在很大程度上取代了t分布隨機鄰居嵌入(t-distribution Stochastic Neighbour Embedding,t-SNE),因為它能夠更好地保存大規模結構.

8)無監督聚類. 對scRNA-seq 數據的無監督聚類是大多數分析的中心,因為它可以識別具有相似表達譜的細胞組. 其中一些組可以代表不同的細胞類型,其他組可以被認為是中間細胞狀態(例如,細胞周期階段)[25]. 無監督聚類的算法包括廣泛使用的k-means算法、用于網絡聚類的Louvain算法等.

9)擬時間. 如果數據集代表了一個發展過程,或者是從一個時間過程實驗中衍生出來的,那么從一個連續體來看細胞是更合適的. 這種連續的軌跡,可以表示空間位置、化學濃度或時間過程,通常被稱為“偽時間”,每個細胞都可以被分配一個特定的位置[25]. 第一種方法是使用降維技術來識別細胞所在的低維“流形”,并使用細胞-細胞圖來描述流形的拓撲結構;第二種方法是在鏈接集群并將單個單元投射到分支上之前,使用無監督集群對單元進行分組.

10)差異性表達. 差異表達(Differential Expression,DE)是RNA 測序中最重要的應用之一,因為它提供了在兩種或兩種以上生物學條件下受干擾的基因列表. 對scRNA-seq的DE更有挑戰性,因為我們不僅僅是比較每個基因的單個值,還可以比較表達水平的分布[25]. 最近的一項比較得出結論,非參數Wilcoxon檢驗比其他方法表現得更好[28].

11)比較和合并數據集. 隨著scRNA-seq數據量的持續增長,一個重要的挑戰是確定如何最好地組合數據集. 當組合來自不同實驗室的實驗時,批處理效應是一個主要的挑戰,而且即使它們可以被克服,重新分析合并的數據集可能需要大量的時間、精力和存儲[25]. 合并數據集的另一種策略是對它們進行比較,當數據集非常大時(例如,細胞圖集),適用這種策略.

1.4.3 單細胞表觀遺傳學測序數據分析

通??捎糜谔幚泶笠幠1碛^基因組數據的工具包括動態測序數據可視化工具,例如AnnoJ和綜合基因組學查看器(http://www.broadinstitute.org/igv). 盡管UCSC基因組瀏覽器或ENSEMBL等標準工具也可用于可視化目的,但這些工具專門針對處理大量讀取進行了優化,并動態響應用戶請求,因此它們無須從服務器響應用戶操作. 這些工具旨在安裝在本地并允許快速縮放和導航. 同樣,通用生物信息學平臺Galaxy提供了執行標準操作的簡單方法,例如重疊基因組片段和基于基因組區間計算各種統計數據. EpiGRAPH是一個通用工具,用于處理表觀遺傳數據集. 與Galaxy類似,它允許用戶上傳有關基因組區域信息的文件(例如,富含乙?;M蛋白的區域). EpiGRAPH 還可以計算各種預加載或用戶提供的特征(2010年初大約有1000 個預加載特征)的上傳區域的豐富度. 該軟件還可以構建分類器,能夠從給定的基因組區域預測目標變量的值.

2 單細胞測序的應用領域

2.1 早期胚胎學

早期胚胎學研究內容多發生在胚胎發育前期. 傳統的胚胎學在基礎研究上缺乏對微觀過程的剝離,但基于SCS的胚胎學能很好地彌補這一點. 如研究通過對靈長類動物的胚胎植入,得出受精卵或雙細胞階段的多極分裂和染色體的細胞片段相關,這將對解決試管嬰兒失敗和胚胎丟失有著重要的意義;對于胚胎發育過程,尚且有很多組織結構和過程產物的作用機制不清楚,SCS優于傳統學科,它的運用可避免母體干擾,建立體外培養系統[29],獨立創建模型了解靶向生物標志物和多系統參與的生物機制,例如胚胎-神經系統等. 有研究通過分析小鼠2-細胞期胚胎的單細胞轉錄本,揭示了對高強度光照的綜合反應,包括形態變化、長期傷害效應和細胞內損傷修復機制[30].

2.2 免疫學

免疫學是研究生物體對抗原物質免疫應答性及其方法的生物醫學科學. 利用免疫應答的特異性,植入SCS方法的免疫學可以結合多方法多學科,實現單一學科不能實現的功能,如免疫細胞單細胞測序對腫瘤免疫治療效果的預測[31]、研究對自身免疫性疾病和免疫缺陷疾病的治療[32]、研究對衰老與免疫反應的關系[33]以及包括對當前熱度很高的新型冠狀病毒在內的細菌病毒微生物類與免疫反應的研究等[34].

SCS技術可以揭示宿主免疫應答的內在異質性,準確評估免疫細胞激活過程中涉及的特定分子機制. 霍爾特等人通過SCS技術鑒定出罕見的CD4 T細胞[35]. 總之,這些研究全面證明,SCS技術可以揭示基因表達網絡、異質性和免疫細胞的隨機表達等遺傳信息,為研究人員為免疫疾病提供更多的治療選擇奠定理論基礎.

2.3 腫瘤學

癌癥的特異性來源于其本身克隆多樣性以及突變的不確定性,這都會增大治療的難度和降低患者的生存率[36],SCS技術作為一種理想的工具以其特異性和操作的獨立性已廣泛應用于各種原發性的癌癥治療,如食管癌、肺癌、乳腺癌和宮頸癌等[37].

通過對骨髓異常導致的白血病的單細胞測序,對比患者與對照的基因表達水平,可以較為容易地找到炎癥相關作用通路和與骨髓系白血病相關的敏感基因[38]. 對于黑色素瘤的治療,單細胞測序技術的介入用于識別黑色素瘤的預后亞型,特別強調腫瘤微環境中的免疫細胞和成纖維細胞. 治療抗性機制不僅包括預先存在的亞克隆的選擇過程,還包括不同基因表達狀態之間的轉換[39];對于一些新起的癌癥治療技術,單細胞測序也可以很好地從微觀的角度做出有效評價.

2.4 微生物學

目前的自然條件下微生物的種類雖然繁多,但想要依賴自然條件批量使用特定微生物或對某些微生物進行生物多樣性研究卻是一道門檻. 然而隨著SCS技術的加入,許多問題都有望得到解決[40]. 對于對抗某些有害微生物,如通過對大豆胞囊線蟲的抗性基因的破壞,用SCS技術檢測基因表達區域的差異性,對比得出某些序列多態性是線蟲所特有的,從而獲得抗線蟲毒性的方法[41];同樣對于曼氏血吸蟲的研究,了解其生命周期的不同階段作用和特點,可以很有效地采取對應的防治措施[42]. 而對于人類生產生活有幫助的微生物,SCS也是大有建樹的,如針對有利于海洋生態的大型硫細菌,運用SCS揭示氧化帶、硫化帶和海洋微生物之間循環的機制,研究這些絲狀硫氧化細菌的基因組,大大加深了對它們的進化及其對海洋沉積物中硫和氮循環作用的理解[43].

2.5 神經生物學

神經細胞的多樣性以及神經元的異質性是導致神經研究艱巨的重要原因之一[44],但SCS技術的加入,使得對神經方向的研究更具有方向性. 對神經元和神經膠質細胞的研究,有望解釋特異性突變與人類某些疾病的起源有關以及了解突變與人體衰老的關聯性大?。?5];通過在單細胞與神經元池,運用轉錄組方法在單個激光捕獲神經元以及相應海馬區的基因表達譜比較患病和正常人群,有效得出神經疾病的基因作用靶部位[46];同樣,也可以用SCS技術評價某些有毒有害物質對神經組織的損害程度和毒作用機理[47].

2.6 干細胞研究

干細胞是一類具有自我復制能力的多潛能細胞,在一定條件下,它可以分化成多種功能細胞,鑒于這種特性,可以通過將干細胞或相關衍生產品移植入患者體內,替換損傷細胞從而治愈疾病. 但傳統的干細胞研究的局限性在于干細胞分化可導致成瘤性,且在腫瘤研究中大多數腫瘤干細胞缺乏特異性的標志物,組織定位和形態特征不明確,因此無法直接從腫瘤細胞中分離,這樣會使工作量加重,有時甚至無法進行. 將SCS技術運用于干細胞研究,可以拓寬研究方向,如器官再生、解釋生物過程、解釋生物效應等. 如果單細胞技術可運用于生物工程肺的發展,這對終末期肺衰竭需要肺移植來說可能是唯一的方法[48];解釋干細胞增殖和凋亡的轉錄后作用[49];揭示干細胞的功能,如視網膜細胞的有序誕生方面的可行性和潛力[50]等. 使用單細胞分析的類似策略可為其他類型的器官分化研究提供信息,并將促進再生醫學領域的研究進展.

3 總結或展望

單細胞測序(SCS)作為NGS方法,它的超高分辨率為我們對生命科學的許多領域的理解提供了新的視角,主要用于分析細胞間遺傳和蛋白質信息的差異,獲取單細胞水平基因組序列信息,更好地理解它們在微環境中的特定作用. 通過對單個細胞的全基因組、轉錄組和表觀基因組進行測序,可以揭示疾病發生和發展過程中復雜的異質性機制,進一步提高疾病診斷、預后預測和藥物療效監測[51-52]. 傳統測序方法只能得到多個細胞的平均值,無法分析少量細胞、丟失細胞異質性信息. 與傳統測序技術相比,單細胞技術具有檢測單個細胞間異質性、區分少量細胞、勾畫細胞圖譜等優點. 單細胞測序技術仍存在操作煩瑣、檢測成本高等問題,限制了技術的推廣[53]. 但可預見通過技術的不斷發展,單細胞測序技術將會有更廣泛的應用.

猜你喜歡
單細胞基因組測序
兩種高通量測序平臺應用于不同SARS-CoV-2變異株的對比研究
單細胞轉錄組測序技術在骨關節炎發病機制中的研究進展
“植物界大熊貓”完整基因組圖譜首次發布
牛參考基因組中發現被忽視基因
生物測序走在前
外顯子組測序助力產前診斷胎兒骨骼發育不良
科學家找到母愛改變基因組的證據
血清HBV前基因組RNA的研究進展
核心素養背景下生物重要概念課例
基因測序技術研究進展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合