?

探究影響生物代謝物注釋準確性的因素

2023-12-30 15:59盧雨欣
工業微生物 2023年6期
關鍵詞:加合物皮爾遜分子式

盧雨欣

渭南師范學院,陜西 渭南 714000

在生物學領域,代謝組學是研究生物體的重要學科,其中,代謝物注釋扮演著關鍵的角色。代謝物通常在生物體內的生化反應中被消耗或生成,微小的環境變化都可能引起生物體內生化過程的變化,從而導致代謝物的濃度和種類發生實時變化[1]。因此,代謝物的變化直接反映了生物體的生化和功能狀態。在代謝組學中,代謝物注釋對研究生物體具有重要意義。由于代謝物的組成非常復雜,一份樣品中可能包含大量不同種類的代謝物,這些代謝物中包含化學結構和濃度各異的多種化學物,因此代謝物注釋的精確性顯得至關重要。

代謝物的注釋研究在研究生物體的各種調節機制[2]、微生物和植物分析[3]、基因功能的闡明[4]、疾病診斷[5]和藥物毒性[6]等方面發揮了重要的作用。而影響代謝物注釋的因素有很多,例如加合物列表的大小、p 值、皮爾遜系數,分子式列表的大小及保留時間等。因此,為了探究各項參數對代謝物注釋準確性的影響進行本次試驗,以求為生物代謝組學的相關領域提供參考。

1 試驗方法

本次試驗主要采用伯明翰大學自主研發的代謝物注釋程序BEAMS 探究各項參數對代謝物注釋準確性的影響。BEAMS 是依據代謝組學標準倡議報告標準的第三級進行的注釋。

本次試驗數據為某項目提供了三組不同的代謝物數據,分別通過加合物列表、P 值、皮爾遜系數、分子式列表及保留時間進行對比分析試驗。BEAMS 的運行如圖1 所示。

圖1 BEAMS 的運行界面圖

數據分析過程主要包括四個階段,分別為峰值檢測、峰值注釋、分子式注釋及統計分析。首先是對代謝物進行分組。根據保留時間(RT)對離子峰進行分組,提取這些峰的離子色譜圖(EIC),再利用皮爾遜相關性對它們進行二次分組,隨后根據不同的質荷比(m/z)使用不同的加合物列表、同位素列表或低聚物列表進行峰注釋。如果組內每對峰的m/z 之差值較為合理,則認為這兩個離子來自同一個代謝物[7]?;衔锏臏蚀_分子質量可以通過分子式數據庫的計算和搜索來獲得并記錄分子式,并根據質譜中的m/z 和加成離子形式計算出所有可能的分子式后進行過濾,得到最終代謝物注釋結果[8]。本研究使用三個不同的代謝物數據集,分別改變加合物列表的大小、P 值、皮爾遜系數、分子式列表的大小及保留時間等,探究各項參數對于代謝物注釋準確性的影響。試驗步驟如圖2 所示。

圖2 試驗流程圖

2 試驗結果

為了探究各項參數對代謝物注釋準確性的影響,本實驗采用了三個不同的代謝物數據集、兩個不同的加合物列表、三個不同的分子式列表,并通過改變P 值、保留時間(RT)和皮爾遜系數進行了試驗。其中,代謝物數據集1 是通過超高效液相色譜-質譜分析獲得“人工”數據集,包含相對較少的數據;代謝物數據集2 和代謝物數據集3 則是“真實世界”中的生物樣本代謝物數據集,包含較為豐富的數據。加合物列表1 包含較少的數據,加合物列表2 則包含較多的數據。分子式列表1、分子式列表2 和分子式列表3 分別包含較少、中等和較多的數據。圖3展示了加合物列表、代謝物數據集文件和分子式列表文件所包含數據的數量。

圖3 加合物列表、分子式列表及代謝物數據集中包含的數據數量圖

加合物列表1 和分子式列表1 只定義代謝物數據集1 中的已知代謝物,而加合物列表2、分子式列表2 與分子式列表3 則包含更多加合物與分子式。本研究將使用不同的數據庫和參數進行試驗,統計每個特征所包含的分子式占總數量的百分比,以確定代謝物注釋的影響因素。

2.1 使用不同數據庫對代謝物注釋的影響

使用相同的P 值、皮爾遜系數和RT 更改加合物列表、分子式列表和代謝物數據集的結果如圖4所示。當使用加合物列表1、分子式列表1 和代謝物數據集1 注釋代謝物時,結果顯示該組有733 個代謝物的特征包含一個分子式(理想情況),占代謝物特征的65%。使用加合物列表2、分子式列表1 和代謝物數據集1 時,有58.5%的代謝物特征包含一個分子式。除此之外,應用其他數據庫時,只有18%-23%的代謝物特征報告中包含一個分子式。因此,使用分子式列表1 和代謝物數據集1 時,代謝物注釋的準確性明顯高于使用其他分子式列表和代謝物數據集,這證明大型分子式列表會造成多個假陽性,對代謝物注釋的準確性有負面影響。

除此之外,在相同條件下,比較使用加合物列表1 和加合物列表2 的數據后發現,使用加合物列表1的結果普遍優于使用加合物列表2 的結果。在相同條件下,使用加合物列表2 時,只有占特征組總數9%~12%的特征組包含一個分子式,相較于使用加合物列表1 的結果低6%~14%。此外,使用加合物列表2 時,具有兩個以上特征的組數明顯增加,表明假陽性峰的數量明顯增加,從而導致代謝物注釋的準確性大大降低。然而,僅改變加合物列表時,其變化相對于改變其他條件較小。當加合物列表1 和分子式列表1 保持不變,代謝物數據集1 改為代謝物數據集2 時,含有一個分子式的特征組數量從733 個減少到260 個,占比從65%減少到22%。同樣,當分子式列表1 和代謝物數據集1 不變,而加合物列表改變時,包含一個分子式的特征群數量便從733 個下降到662 個,占比從65%下降到59%。這表明分子式列表和代謝物數據集對代謝物注釋準確性的影響相較于加合物列表更為顯著。由于較大的分子式列表和代謝物數據集包含更多的分子式和更多種代謝物,它們能夠注釋代謝物的衍生物。因此,當使用加合物列表2、分子式列表3 和代謝物數據集3 時,結果最差,僅有113 個代謝物特征包含一個分子式,有1 010 個代謝物特征包含一個以上的分子式。

2.2 使用不同參數對代謝物注釋的影響

在考察了分子式列表、加合物列表和代謝物數據集對代謝物注釋的影響后,本研究轉向使用代謝物數據集2,以研究不同參數對代謝物注釋準確性的影響。與代謝物數據集1 不同,代謝物數據集2中的代謝物是未知的,因此選擇了較大的分子式列表3。這是因為小型數據庫中可能缺乏某些分子式或代謝物種類。在本次試驗中,通過調整最大保留時間差、皮爾遜系數、加合物列表和P 值,分別研究了各種參數對代謝物注釋的影響。

最大保留時間差、皮爾遜相關系數(Pearson correlation)、加合物列表和P 值都與特征組有關。理論上,相同代謝物的保留時間(RT)相同,但由于誤差和其他原因,RT 會有微小的偏差,所以一起用最大保留時間差來調整時間差,并對峰進行分組。但僅根據保留時間進行分組并無法滿足相關要求,還需要對峰形或峰豐度進行相關分析。如果兩個峰之間的峰形或峰豐度的相關性高于預定的閾值,那么這兩個特征就會被認定屬于同一代謝物[9]。這種相似性通常用兩個峰提取離子色譜(EIC)的皮爾遜系數衡量[10]。皮爾遜系數是用來計算兩個變量之間的關系強度的[11]。其數值在負1 和1 之間,其中1 是正相關,負1 是負相關。一般來說,皮爾遜系數低于0.8被視為無效。P 值代表一個顯著性水平,非常重要,如果P 值不顯著,無論皮爾遜系數有多高,都可能是偶然結果。一般來說,P 值低于0.05 則表示成效顯著。使用不同參數對代謝物注釋的影響顯示在以下圖表中(圖5,6)。

圖5 數據集2 中分配給每個代謝物特征的分子式數量(使用加合物列表1)

如圖5 和圖6 所示,無論使用何種加合物列表、無論什么類型的參數發生變化,其結果都是相似的。例如,在圖5 中,當最大RT 差值為2.0 和5.0 時,具有一個分子式的特征數量都是880 個;當P 值為0.01 和0.0005 時,具有一個分子式的特征數量也一樣。該試驗把皮爾遜系數分別調整為0.7、0.8 和0.9。這是因為0.7 和0.9 的值分別代表被認為無效和被認為有效。當我們使用這三個值時,結果仍然是一樣的。雖然參數增加了五到十倍,但含有一個分子式的代謝物特征只是略有增加或保持穩定。無論最大RT 差值、P 值和皮爾遜系數如何增加,含有一個分子式的特征數量都是17%。不含分子式的特征組數量和含一個以上分子式的特征組數量也很穩定,比例保持在30%和52%。

圖6 數據集2 中分配給每個代謝物特征的分子式數量(使用加合物列表2)

3 結論與建議

試驗數據表明,加合物列表、分子式列表和代謝物數據集文件對代謝物注釋結果的影響極為顯著。與此相反,最大RT 差異、皮爾遜系數和P 值對結果的影響幾乎可以忽略不計。當使用含有大量數據的加合物列表、分子式列表和代謝物數據集時,對代謝物注釋產生了負面影響,導致結果中含有多種代謝物的組數明顯增加,這表明出現了大量假陽性峰。盡管每個代謝物都有大量離子,但只有其中一小部分能夠通過數據庫匹配得以識別,其他部分是同一組代謝物的衍生物。因此,使用大型的加合物列表、分子式列表和代謝組學數據集時,可能會注釋出衍生物,從而在一個組中產生多種代謝物。

假陽性峰的產生在分子式注釋和代謝物名稱注釋的過程中產生很多錯誤。合適的分子式列表和代謝物數據集包括適當的分子式和代謝物名稱,因此當選取合適的分子式列表和代謝物數據集時,絕大部分假陽性峰無法被注釋出來。而在較大的分子式列表和代謝物數據集中,假陽性峰可以被注釋,導致含有兩種以上代謝物的組增加,沒有代謝物的組和只含有一種代謝物的組減少。形成假陽性峰的原因有三個:1. 兩個具有相同電荷狀態的前體離子在一個小的RT 窗口內的質量幾乎相同;2.每個代謝物都包含大量離子,但只有其中一小部分可以通過數據庫匹配來識別,另一部分是同一組代謝物的衍生物,如果不識別在電離過程中形成的碎片、同位素和被視為單同位素離子的加合物,可能會導致基于質量的方法在檢測許多分子時出現錯誤,一些高強度的單同位素峰可能存在許多后續的同位素峰,其強度可能會超過規定的閾值;3.在收集中心點數據時,主峰周圍可能會產生一些峰,如果強度閾值的水平低于新生峰,可能會造成假陽性的問題。

解決假陽性峰的問題是非靶向代謝組學的重點和難點,但目前還沒有評估代謝物鑒定假發現率(FDR)的指標。目前的解決方案是:1. 控制RT。如果RT 很大,假陽性峰的數量會增加,但應該注意,太小的RT 會導致真正的候選峰產生損失。2. 根據實驗結果選擇最佳強度閾值有助于減少假陽性,重要的是,不會丟失真實的實驗數據和結果。3.可以用一些軟件來減少假陽性,如使用非靶向代謝組學的自動數據分析管道(ADAP)來建立EIC。ADAP 的峰值檢測算法可以通過引入新的信噪比估計方法和其他一些過濾步驟來檢測EIC 中的假峰,但它通常運用于GC-MS。

在這個實驗中,分別采用了測試數據集和真實的生物數據集來測試各項參數對于代謝物注釋準確性的影響。在實驗過程中,使用了控制變量的方法對每個變量進行多次測試。例如,在測試1 中,使用加合物列表1、分子式列表1 和代謝數據集1 作為控制組,并與其他使用較大加合物列表、分子式列表和代謝物數據集的組進行比較,以使結果清晰易懂。在試驗2 中,為了探究改變P 值的效果,對多個實驗的P 值進行了調整和觀察,從而避免誤差,保證實驗結果的準確性。但在測試參數對代謝物注釋準確性的影響時,該實驗只使用了一個數據集,可能會造成一些意外的誤差。

在代謝組學研究中,代謝物的注釋至關重要,錯誤率過高就需要花費大量的時間和金錢來識別錯誤。因此,在進一步研究中,建議使用更多數據集來測試各參數對代謝物注釋準確性的影響。在之后的試驗中可以使用更多的標準數據集進行測試,以避免因數據集問題產生的誤差。本實驗使用加合物列表1、分子式列表1 和代謝物數據集1 時,結果仍然存在一些特征組沒有分子式或一個以上的分子式。這可能是因為在組特征階段存在一些誤差,如一些代謝物沒有被分組,可以選擇合適的參數和數據庫進行注釋,直到所有特征組都有一個分子式,然后在相同參數下測試使用不同加合物列表、分子式列表文件和代謝物數據集的效果并觀察其結果,從而進行進一步的試驗。

猜你喜歡
加合物皮爾遜分子式
確定有機物分子式的三個途徑
半胱氨酸消減丙烯酰胺的機理及消減工藝在薯條中的應用
DNA加合物組的預處理及檢測方法研究進展
苯并[a]芘及其代謝產物與DNA加合物檢測方法的研究進展
現代統計學之父:卡爾·皮爾遜
現代統計學之父:卡爾·皮爾遜
有機物分子式確定方法探秘
Excel在水文學教學中的應用
卡方分布的探源
有機物分子式、結構式的確定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合