?

乳腺癌相關非編碼RNA 的生物信息學分析

2021-09-02 05:53趙林林蒲婷錢婧雯沈紅蘭周學
生物化工 2021年4期
關鍵詞:數目元件位點

趙林林,蒲婷,錢婧雯,沈紅蘭,周學

(南京師范大學泰州學院 化學與生物工程學院,江蘇泰州 225300)

非編碼RNA(ncRNA)是一類不編碼蛋白質的RNA 統稱,包括微小RNA(miRNA)和長鏈非編碼RNA(LncRNA)。研究乳腺癌相關非編碼RNA 的特征并預測其功能,對揭示ncRNA 在乳腺癌中的機制非常重要,也為臨床診療提供新依據[1-5]。

miRNA 是一類長度約為22 nt 內源性非編碼小分子RNA,miRNA 調控人類30%左右的基因。近年來,越來越多的研究顯示miRNA 在包括乳腺癌在內的多種惡性腫瘤組織中均存在異常表達[2]。在某miRNA 發生突變后,可能會導致相應癌基因的表達,也可能會出現抑癌基因的缺失,從而使正常機體發生病變。已有研究結果表明,miRNA 可能不僅有助于乳腺癌的診斷、預后以及治療效果的預測,也有望成為新的治療靶標[6-10]。

LncRNA 是非編碼RNA 中另外一個重要的成員,長度大于200 nt,缺乏開放的閱讀框,沒有編碼蛋白質的功能,其分子內部具有特定而復雜的二級空間結構,它可以提供多個蛋白質結合位點,或通過堿基互補配對原理與DNA 和RNA 特異、動態地相互作用,形成由LncRNA 參與的復雜、精確、精細的基因表達調控網絡[2]。LncRNA 具有5'端帽子結構和3'端聚腺苷酸尾巴,基因結構類似于mRNA,LncRNA 和miRNA 可相互作用,又可競爭結合mRNAs。在乳腺癌的發生發展過程中,LncRNA 起到了調節增殖、細胞表型等作用,一些特異性LncRNA 可作為乳腺癌發生發展的標志物[11-13]。

本文通過生物信息學方法研究乳腺癌相關ncRNA的特征并預測其功能,對揭示ncRNA 在乳腺癌中的機制非常重要,也為臨床診療提供新依據[14-15]。

1 材料與方法

1.1 數據收集

通過文獻調研以及數據庫搜索,收集乳腺癌相關非編碼RNA 的數據,并利用Perl 程序對下載的數據進行分析。miRNA 的數據從miRCancer(http://mircancer.ecu.edu/download.jsp)、HMDD(http://www.cuilab.cn/hmdd) 及miR2Disease(http://www.mir2disease.org/)獲得;LncRNA 數據從Lnc2Cancer(http://www.bio-bigdata.net/lnc2cancer/) 和LncRNADisease(http://www.cuilab.cn/ lncrnadisease)數據庫下載。

1.2 乳腺癌相關非編碼RNA 保守性及SNP 位點分布分析

以miRNA 和LncRNA 各自基因組位置作為輸入數據,在UCSC 數據庫批量下載基于100 個脊椎動物比對的人類基因組中每個位點的保守值,并利用Perl 程序計算平均值。利用miRNA SNP 和LncRNA SNP2 對乳腺癌相關非編碼RNA 上的SNP 位點進行分析。

1.3 乳腺癌相關非編碼RNA 重復元件及轉錄調控分析

利用RepeatMasker 程序對乳腺癌相關非編碼RNA 上分布的重復元件進行預測。從TransmiR(http://www.cuilab.cn/transmir)、miReg(http://www.diana.pcbi.upenn.edu/miRGen.html) 和AnnoLnc(http://annolnc.cbi.pku.edu.cn)數據庫獲取人miRNA和LncRNA 對應TF-miRNA、TF-LncRNA 轉錄調控數據。

1.4 乳腺癌相關非編碼RNA 間相互作用及作用靶基因功能分析

利 用NPInter(http://bigdata.ibp.ac.cn/npinter4/)數據庫對LncRNA 與miRNA、LncRNA 與蛋白質之間的相互作用進行分析。從miRTarBase 數據庫批量下載乳腺癌相關miRNA 作用的靶基因,利用DAVID數據庫分析miRNA 靶基因和LncRNA 作用蛋白質的功能。

2 結果與分析

2.1 乳腺癌相關非編碼RNA 的鑒定

如圖1 所示,通過搜索miRCancer 和HMDD 數據庫,最終獲得252 個乳腺癌相關的miRNA,包括hsalet-7a-1、hsa-mir-103a、hsa-mir-146a、hsa-mir-31、hsa-mir-99a 以 及hsa-mir-455 等。 從Lnc2Cancer 和LncRNADisease 數據庫總計獲得245 個乳腺癌相關的LncRNA,包括53BP1、7SL、ADARB2-AS1、BANCR、CASC2、DIRC3 以及XIST 等。

圖1 miRCancer、HMDD 數據庫中乳腺癌相關miRNA 分布圖

2.2 乳腺癌相關非編碼RNA 保守性及SNP 位點分布分析

利用UCSC 數據庫提供的保守性數據,通過統計,最終獲得215 個miRNA 的平均保守值為2.97,187 個LncRNA 平均保守值為0.24,發現乳腺癌相關miRNA 的保守性要顯著高于LncRNA。

SNP 位點分布分析發現,在253 個miRNA 中,有115 個miRNA 分布了SNP 位點,總計分布的SNP 位點數目為215 個。每個miRNA 上分布的SNP 位點平均為1.87 個,數目為1 ~5 個,如hsa-mir-1228、hsa-mir-520g 和hsa-mir-630 這3 個miRNA 各 分布5 個SNP 位 點。245 個LncRNA 中,有115 個LncRNA分布SNP位點,總計分布21 359個SNP位點,平均每個LncRNA 分布的SNP 位點數目為185.73個,SNP 位點數目的分布范圍在1 ~2 399,其中4個LncRNA(3.48%)上分布23 個SNP 位點,3 個LncRNA(2.60%)上分布66 個SNP 位點。

如圖2 所示,對非編碼RNA 分布的SNP 位點與保守值進行相關性分析,發現SNP 分布密度與miRNA 保守性成負相關,而SNP 分布密度與LncRNA保守性成正相關。

圖2 miRNA 保守值與SNP 密度的相關性

2.3 乳腺癌相關非編碼RNA 重復元件及轉錄調控分析

重復元件分析結果顯示,在人15 個miRNA 前體中總計發現了1 個DNA/TcMar-Mariner 元件、2 個DNA/hAT-Charlie 元件、2 個簡單重復元件和9 個LINE/L2 元件等。進一步分析發現,這些起源于重復元件的miRNA 在進化上不保守,具有物種特異性。在人117 個LncRNA 序列中總計發現了622 個重復元件,包括130個LINE/L1元件,59個LTR/ERVL元件,43 個LTR/ERVL-MaLR 元件,100 個簡單重復元件,88 個SINE/MIR 元 件,72 個SINE/Alu 元 件 及36 個DNA/hAT-Charlie 元件等。每個LncRNA 涉及的重復元件數目為1 ~97 個,例如在KCNQ1OT1 上預測存在97 個重復序列,每個重復元件涉及LncRNA 數目為1 ~130 個,在130 個LncRNA 中均發現LINE/L1重復序列。

轉錄調控分析發現,總計334 個轉錄因子參與177 個miRNA 的表達,每個轉錄因子調控的miRNA的 數 目 為1 ~53,如MYC 參 與49 個miRNA 的 轉錄調控,包括hsa-let-7a-1、hsa-mir-100、hsa-mir-106a、hsa-mir-146a 以 及hsa-mir-148a 等;TP53參與53 個miRNA 的轉錄調控,它調控29.94%的miRNA。同時每個miRNA 涉及的轉錄因子數目為1 ~45 個,34 個miRNA(19.21%)只有1 個轉錄因子參與調控,剩余的80.79%miRNA 涉及2 種及2種以上轉錄因子的調控,例如hsa-mir-200c 有45 個轉錄因子參與調控,包括KLF5、LIN28A、MUC1、MYB 及NCOR1 等(見圖3)。

圖3 每個miRNA 涉及調控的轉錄因子數目

對LncRNA 的轉錄因子進行分析,發現150 個LncRNA 涉及7 252 個轉錄因子的調控,每個LncRNA涉及的轉錄因子數目范圍在1 ~139,MALAT1 在35 個細胞類型中受到139 個轉錄因子的調控,轉錄因 子 包 括AP-2alpha、AP-2gamma、ATF1、ATF2、ATF3、SP1、SP2 以 及p300 等,CCDC26 非 編 碼RNA受113個轉錄因子參與調控,包括CEBPB、c-Myc、COREST、CTCF 和FOXA1 等;同時發現每個轉錄因子參與調控的LncRNA 的數目為1 ~119 個,Rad21參與119 個LncRNA 的調控,包括NNT-AS1、SRA1、DANCR、RP11-445H22.4、linc-TRIP11、lncFOXO1及CCAT1 等,Pol3 只 調 控1 個 非 編 碼RNA——GHET1。

通過比較發現,有44 個轉錄因子為miRNA 和LncRNA 共 有 的,包 括 轉 錄 因 子ATF3、BRCA1、E2F6、FOS 和IRF3 等,例如BRCA1 參與調控hsamir-146a 及NKILA 等。

2.4 乳腺癌相關非編碼RNA 間相互作用及作用靶基因功能分析

對LncRNA-miRNA 作用關系分析發現,151 個LncRNA 作用的miRNA 的數目范圍在1 ~71,其中LncRNA XIST 與71 個miRNA 發生相互作用,作用方式包括調節作用、結合作用等;hsa-mir-214 與66個LncRNA 發生相互作用。進一步分析發現:83 個LncRNA 作用423 個蛋白質,每個LncRNA 作用的蛋白質數目為1 ~222 個,如MALAT1 與194 個蛋白質發生相互作用,包括AKAP8L、AQR、BCCIP、CASP3、DGCR8、EIF2C1 以及EIF3D 等蛋白。

靶基因分析結果顯示:380 個miRNA 作用了13 983 個靶基因,miRNA 調控的靶基因數目為2 ~2 627 個,每個靶基因上作用的miRNA 數目為1 ~88 個,如 靶 基 因NUFIP2 上 作 用 了88 個miRNA,包 括hsa-miR-101-3p、hsa-miR-103a-3p、hsa-miR-106a-5p 及hsa-miR-106b-5p 等。靶 基 因功能分析結果顯示,涉及的分子功能包括轉錄因子結合活性、鈣通道活性等,參與的生物進程中包括細胞通訊調節、調節細胞凋亡等。

3 結論

本文利用文獻調研及生物信息學的方法對乳腺癌相關非編碼RNA 進行數據挖掘,并從保守性、SNP 位點分布、轉錄調控和作用靶基因等方面系統分析乳腺癌相關非編碼RNA 的特征。

結果共獲得乳腺癌相關的253 個miRNA 和245 個LncRNA。保守性分析結果顯示乳腺癌相關miRNA 的保守性要顯著高于LncRNA。轉錄調控分析共計發現334 個轉錄因子參與了177 個miRNA的表達,共計7 252 個轉錄因子涉及調控150 個LncRNA。靶基因預測結果顯示,LncRNA 作用蛋白質同時為miRNA 作用的靶基因,靶基因的功能涉及金屬離子結合活性等。乳腺癌相關的非編碼RNA 的研究將為今后乳腺癌的治療提供有效的治療靶點。

猜你喜歡
數目元件位點
承壓類特種設備受壓元件壁厚測定問題的探討
鎳基單晶高溫合金多組元置換的第一性原理研究
移火柴
CLOCK基因rs4580704多態性位點與2型糖尿病和睡眠質量的相關性
基于網絡公開測序數據的K326煙草線粒體基因組RNA編輯位點的鑒定與分析
一種改進的多聚腺苷酸化位點提取方法
中核北方核燃料元件有限公司
牧場里的馬
寶馬i3高電壓元件介紹(上)
Protel?。梗梗螅寰W絡表裝載中糾錯探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合