?

基于組合算法改進的譜庫檢索算法

2018-05-14 09:40俞建成
質譜學報 2018年3期
關鍵詞:庫中權值準確度

朱 強,俞建成,張 榮

(寧波大學信息科學與工程學院,浙江 寧波 315211)

氣相色譜-質譜聯用儀可以定性和定量分析混合物的組成成分[1],在石油化工[2]、材料分析[3]、食品科學[4]、生物醫學[5]、環境監測[6]和軍事工業[7]等領域都發揮著重要作用。目前,待測樣品的鑒定主要通過譜庫檢索的方式,計算樣品質譜圖與參考譜圖的相似度,找到相似度最高的若干譜圖[8]。因此,提高譜庫檢索算法的性能尤為重要。

為了提高檢索的性能,研究者提出了多種相似度計算方法,如Hertz相似度算法[9]、PBM算法[10]、SS組合算法[11]、歐幾里得距離算法[12]、加權點積相似度算法[13]等。其中,Stein和Scott[11]提出的SS組合算法是由加權點積相似度算法和峰比例算法組合而來,測得質譜圖匹配的準確度最高。Koo等[14]提出了基于小波和傅里葉變換的復合相似度算法,該算法比加權點積相似度算法計算的相似度更大,此外,他們使用統計的方式找到最優的權值因子[15]。Kim等[16]研究了偏相關和半偏相關的相似度算法,該算法相比之前的算法有更高的識別精度,但是會消耗大量的時間。

SS組合算法是近年來提出的組合算法的基礎,該算法的改進有助于優化相關算法。為了提高它的性能,在原有算法的基礎上采用了優化的權值因子,重新分配了峰比例因子和加權因子的系數。

1 實驗部分

1.1 儀器、材料與樣品

Agilent 7890B-5977A氣相色譜-質譜聯用儀:美國Agilent公司產品;三硫磷、樂果、乙硫磷、滅克磷、倍硫磷、亞胺硫磷、地磷丁烯酯、甲拌磷(純度均大于99.0%):阿爾塔科技有限公司產品。

1.2 實驗條件

1.2.1色譜條件 色譜柱:HP-5MS(30 m×250 μm×0.25 μm);升溫程序:初始溫度60 ℃,保持2.00 min,以25 ℃/min升至150 ℃,然后以3 ℃/min升至200 ℃,再以8 ℃/min升至325 ℃,保持2.28 min;進樣方式:脈沖不分流進樣;開閥時間0.80 min;進樣量1.0 μL;分流比20∶1;載氣為He(>99.999%);載氣流速1.0 mL/min(恒流)。

1.2.2質譜條件 離子源能量70 eV;離子源溫度230 ℃;掃描速度為低速;質量掃描范圍m/z50.00~500.00;溶劑延遲時間3.00 min。

1.3 實驗配置

參考譜庫:提取NIST 11主庫中212 961張質譜圖;查詢譜圖:提取NIST 11復制庫中30 932張質譜圖;電腦配置為CPU:i3-4160、3.60 GHz;內存:8.00 GB;操作系統:Windows 7旗艦版;使用Eclipse Mars.1 (4.5.1)編寫所有程序。

1.4 算法改進

1.4.1SS組合算法 加權點積相似度算法的公式[11]如下:

(1)

(2)

(3)

式中,αn是質譜圖中第n個質荷比的數據,βn是第n個質荷比對應的峰強度值,Stein和Scott提出的權值因子為x=3,y=0.5。

峰比例公式[11]如下:

(4)

式中,ui、vi是相同質荷比的非零峰,前者峰值比小于后者時,n=1,否則n=-1。由式(1)和式(4)組合的算法[11]如下:

Sss(Uw,Vw)=

(5)

式中,NR是未知譜圖中峰強度不為零的質荷比的數目,NQ∧R是未知譜圖和參考譜圖都含有的峰強度不為零的質荷比的數目。

1.4.2組合算法的改進 首先,采用的權值因子為x=1.3,y=0.53,這是Kim等[15]通過大量研究得到的,比使用其他權值因子得到的準確度更高。此外,周義等[17]也做了權值因子比較,發現該權值因子能夠提高同種算法的相似度。

其次,由于原系數的分配沒有側重點,重新分配了式(5)中SC(Uw,Vw)、SD(Uw,Vw)的系數NR、NQ∧R。在計算過程中,無論2個質譜圖是否相似,以NR為系數的SC(Uw,Vw)都是計算的重點,而以NQ∧R為系數的SD(Uw,Vw)只在質譜圖足夠相似時才能發揮作用。因此,將原系數NR、NQ∧R分別用2·NQ∧R、NR-NQ∧R取代,系數之間相互制約。在質譜圖相似程度低時,不同譜圖的同種質荷比的強度也會相差較大,這時傾向于峰比例計算;而在相似程度高時,相同質荷比的數目增多,并且相同質荷比對應強度之間的差距減小,這時傾向于加權點積相似度計算,可以進一步提高質譜圖之間的相似度。改進后的算法公式如下:

Sss(Uw,Vw)=(2·NQ∧RSC(Uw,Vw)+

(NR-NQ∧R)·SD(Uw,Vw))/(NR+NQ∧R)

(6)

最后,利用該算法計算質譜圖之間匹配的準確度和相似度評價該算法的性能,準確度的計算公式如下:

(7)

選擇兩組不同的實驗樣品,第一組是提取NIST 11查詢庫中的30 932張質譜圖,分別與參考庫中212 961張質譜圖進行比較;第二組是氣相色譜-質譜聯用儀檢測8種不同的實驗樣品獲得的質譜圖,與NIST 11標準參考庫中的212 961張質譜圖進行對比。

2 結果與討論

2.1 相似度評價

在相似度方面,為了評價改進的組合算法性能,與SS組合算法進行比較,分別對查詢庫中的30 932個質譜圖進行分析,其中有29 214個質譜圖的相似度在使用改進的組合算法之后得到提高,占總數的94.45%。

此外,分別用兩種組合算法計算了8種不同實驗樣品的相似度,結果列于表1。

表1 樣品的相似度Table 1 Similarity of the samples

可見,使用改進的算法,待測樣品的相似度分別提高了2.608%、1.048%、4.387%、1.137%、5.158%、3.560%、7.249%、3.350%,平均提高了3.56%。

2.2 準確度評價

首先分析了參考庫中30 932張質譜圖,根據式(7),用改進的組合算法計算質譜圖匹配的準確度,并與SS組合算法進行比較,結果列于表2。

表2 查詢庫中組合算法計算的準確度Table 2 Accuracy calculated of composite algorithm in the query library

當在參考庫中只考慮1個化合物時,使用SS組合算法,查詢庫中能夠正確匹配的譜圖比例為77.40%,而改進的組合算法可達到78.55%,提高了1.15%。隨著參考庫中被考慮的化合物數目增多,正確匹配的比例也逐漸增大,改進的組合算法的計算準確度均高于SS組合算法。當增大到10個化合物時,改進的組合算法能夠正確匹配的比例達到98.13%,SS組合算法僅為97.81%。

然后,使用該算法分析了8種不同樣品在NIST 11中的命中情況,根據質譜圖之間相似度大小排序,結果列于表3。

表3 樣品命中表Table 3 Hit list of the samples

從表3可知,使用SS組合算法檢測亞胺硫磷時,參考庫需要考慮3個化合物,而改進的組合算法僅需考慮1個化合物,并且改進的組合算法和NIST 11檢測結果完全一致。

3 結論

本研究采用優化的權值因子,重新分配了SS組合算法的加權點積相似度算法和峰比例算法的系數。為了評價該算法的性能,對該算法計算的相似度和準確度進行分析。結果表明,該算法能夠有效地提高譜圖匹配的相似度和準確度。此外,該算法對于改進近年來以SS組合算法為理論基礎的其他算法也有參考意義。

參考文獻:

[1] FERNANDES D R, PEREIRA V B, STELZER K T, et al. Quantification of traceO-containing compounds in GTL process samples via Fischer-Tropsch reaction by comprehensive two-dimensional gas chromatography/mass spectrometry[J]. Talanta, 2015, 144: 627-635.

[2] SMITH P A, KLUCHINSKY T A, SAVAGE P B, et al. Traditional sampling with laboratory analysis and solid phase microextraction sampling with field gas chromatography/mass spectrometry by military industrial hygienists[J]. American Industrial Hygiene Association Journal, 2002, 63(3): 284-292.

[3] GUILLONG M, HAMETNER K, REUSSER E, et al. Preliminary characterisation of new glass reference materials (GSA-1G, GSC-1G, GSD-1G and GSE-1G) by laser ablation-inductively coupled plasma-mass spectrometry using 193 nm, 213 nm and 266 nm wavelengths[J]. Geostandards and Geoanalytical Research, 2005, 29(3): 315-331.

[4] 黃湛艷,王志偉. GC-MS檢測食品包裝用PET中6種潛在添加的小分子化合物[J]. 現代食品科技,2016,32(1):297-303.

HUANG Zhanyan, WANG Zhiwei. Determination of six small-molecule compounds in polyethylene terephthalate (PET) used for food packaging by GC-MS[J]. Modern Food Science and Technology, 2016,32(1): 297-303(in Chineses).

[5] CHRISTOU C, GIKA H G, RAIKOS N, et al. GC-MS analysis of organic acids in human urine in clinical settings: a study of derivatization and other analytical parameters[J]. Journal of Chromatography B Analytical Technologies in the Biomedical & Life Sciences, 2014, 964: 195-201.

[6] DUERING R A, KOHL C D, GASCH T, et al. Detection of infochemicals in agriculture and environmental chemistry by in situ GC-MS/EAD and semiconductor gas sensors[C]. Sensors and Measuring Systems 2014; 17. ITG/GMA Symposium; Proceedings of. VDE, 2014: 7-12.

[7] BEDNAR A J, RUSSELL A L, HAYES C A, et al. Analysis of munitions constituents in groundwater using a field-portable GC-MS[J]. Chemosphere, 2012, 87(8): 894-901.

[8] 李寶強,李翠萍,郭春濤,等. 基于小波變換的譜圖預檢索和精檢索的組合匹配算法[J]. 質譜學報,2014,35(2):118-124.

LI Baoqiang, LI Cuiping, GUO Chuntao, et al. A composed matching algorithm of spectrum pre-search and precision search based on wavelet transform[J]. Journal of Chinese Mass Spectrometry Society, 2014, 35(2): 118-124(in Chinese).

[9] HERTZ H S, HITES R A, BIEMANN K. Identification of mass spectra by computer-searching a file of known spectra[J]. Analytical Chemistry, 1971, 43(6): 681-691.

[10] ATWATER B L, STAUFFER D B, MCLAFFERTY F W, et al. Reliability ranking and scaling improvements to the probability based matching system for unknown mass spectra[J]. Analytical Chemistry, 1985, 57(4): 899-903.

[11] STEIN S E, SCOTT D R. Optimization and testing of mass spectral library search algorithms for compound identification[J]. Journal of the American Society for Mass Spectrometry, 1994, 5(9): 859-866.

[12] RASMUSSEN G T, ISENHOUR T L. The evaluation of mass spectral search algorithms[J]. Journal of Chemical Information & Modeling, 1979, 19(3): 179-186.

[13] TABB D L, MACCOSS M J, WU C C, et al. Similarity among tandem mass spectra from proteomic experiments: detection, significance, and utility[J]. Analytical Chemistry, 2003, 75(10): 2 470-2 477.

[14] KOO I, ZHANG X, KIM S. Wavelet- and Fourier-transform-based spectrum similarity approaches to compound identification in gas chromatography/mass spectrometry[J]. Analytical Chemistry, 2011, 83(14): 5 631-5 638.

[15] KIM S, KOO I, WEI X, et al. A method of finding optimal weight factors for compound identification in gas chromatography-mass spectrometry[J]. Bioinformatics, 2012, 28(8): 1 158-1 163.

[16] KIM S, KOO I, JEONG J, et al. Compound identification using partial and semipartial correlations for gas chromatography-mass spectrometry data[J]. Analytical Chemistry, 2012, 84(15): 6 477-6 487.

[17] 周義,俞建成,張俊良,等. 一種基于新的向量空間模型的譜庫檢索算法[J]. 真空科學與技術學報,2016,36(12):1 450-1 454.

ZHOU Yi, YU Jiancheng, ZHANG Junliang, et al. Novel vector space model and algorithm for search of mass spectral library[J]. Chinese Journal of Vacuum Science and Technology, 2016, 36(12): 1 450-1 454(in Chinese).

猜你喜歡
庫中權值準確度
英語專業學士學位論文摘要的元話語特征研究
一種融合時間權值和用戶行為序列的電影推薦模型
街頭的人
CONTENTS
Phosphatidylinositol-3,4,5-trisphosphate dependent Rac exchange factor 1 is a diagnostic and prognostic biomarker for hepatocellular carcinoma
功能強大的濾鏡庫
程序屬性的檢測與程序屬性的分類
從今天開始
基于權值動量的RBM加速學習算法研究
動態汽車衡準確度等級的現實意義
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合