?

基于神經網絡的玫瑰花揮發性有機物的定量結構色譜保留相關

2016-10-18 03:46李各各
許昌學院學報 2016年5期
關鍵詞:玫瑰花揮發性交叉

何 琴,李各各,朱 蕾

(許昌學院 化學化工學院,河南 許昌 461000)

?

基于神經網絡的玫瑰花揮發性有機物的定量結構色譜保留相關

何琴,李各各,朱蕾

(許昌學院 化學化工學院,河南 許昌 461000)

采用人工神經網絡(Artificial Neural Network, ANN)中的誤差反向傳播神經網絡(Error Back Propagation,BP)方法,以40種玫瑰花揮發性成分的4個拓撲指數作為輸入,以保留時間作為輸出,建立其定量結構-色譜保留時間(Quantitative Structure Chromatographic retention Relationship, QSRR)相關模型.采用留一交叉檢驗和外檢驗相結合的方法檢驗模型的穩健性和預測能力.得到的留一交叉相關系數為0.986 6;外檢驗時,預測集的相關系數為0.992 6;而采用多元線性回歸(Multiple Linear Regressions,MLR)法所得相關系數為0.954 5.結果表明,ANN模型比MLR模型有更好的擬合效果.

玫瑰花;人工神經網絡;定量結構色譜保留相關;揮發性成分

玫瑰花具有較高的食用、藥用和觀賞價值[1],其所含的揮發性成分(Volatile Organic Compounds, VOC)是很珍貴的工業原料,常用于高級香料、食品、釀酒等行業[2-3].玫瑰花揮發性成分的測定對玫瑰精油的提取、生產具有重要的指導作用[4-5],也能應用于其品質分析.目前,玫瑰花揮發性成分的測定多采用氣相色譜或氣質聯用[6-7],方法繁瑣費時,人力、物力、財力耗費較大.而定量結構-色譜保留相關(quantitative structure-retention relationship, QSRR)在現代色譜領域中已經受到了廣泛關注,它可以建立分子結構與色譜保留的定量模型,也可以用來解釋各種化合物的色譜行為、預測色譜保留時間,并對選擇色譜條件和深入研究色譜保留機理具有重要意義[8-9].經典的QSRR研究多采用多元線性回歸法(MLR),近年來人工神經網絡法(Artificial Neural Network, ANN)備受關注[10-12].

論文擬采用ANN法,對玫瑰花揮發性成分進行QSRR研究,為玫瑰花揮發性成分的測定、VOC的提取和應用等研究奠定一定的基礎.

1 材料與方法

1.1數據來源

在玫瑰花揮發性化學成分的QSRR研究中,其相應的氣相色譜保留值數據源自于文獻[2].

1.2研究方法

采用誤差反傳前向人工神經網絡(BP-ANN)法進行建模,并將建模結果與經典的MLR方法進行比較.

1.3BP網絡訓練集與預測集的構建

BP網絡由MATLAB7工具箱提供.從40種玫瑰花揮發性成分中每隔4個標*號的樣本作為預測集,不帶*號標記的樣本作為訓練集,見表1.構建訓練集和預測集的輸入(結構參數)、輸出(色譜保留)矩陣后,進行模型的構建、優化和仿真.

1.4模型的檢驗

留一交叉檢驗(Leave-One-Out cross Validation,LOO-CV)常用來檢驗所建模型的穩健性,論文選取32種玫瑰花揮發性化合物為訓練集,余下8種化合物為外部預測集,通過留一交叉法檢驗模型的穩健性.另外,通過8樣本外部檢驗考察模型的預測能力.

2 結果與討論

2.1ANN模型構建和參數選擇

2.1.1BP網絡的結構

BP網絡有三層,通過數據試驗,優化為:4×2×1.

2.1.2網絡參數的確定

隱含層節點數體現了網絡的復雜程度,隱含層節點數過大,網絡越復雜.一般選取輸入層節點數與輸出層節點數之和的一半,單因素優化,選取最合適的隱含層節點數,為2.

目標函數也被稱為誤差函數,即當函數達到所要求的誤差時,網絡停止訓練,結果輸出,而當達不到要求時,函數按原定路線將誤差反向傳遞、調節權重和偏置,直到誤差達到要求[9].論文通過單因素得到最優的目標函數1×10-6.

學習速率的大小也會影響到系統的穩定性.過大的學習速率會導致網絡的不穩定,而學習速率過小會使學習過程太長,因此選擇適當的學習速率是非常有必要的.數據試驗優化后的最佳學習速率為0.1.同理得到最佳學習次數為9 000.

優化后的網絡拓撲結構為4×2×1,目標函數為1×10-6、學習速度為0.1、學習次數為9 000.

2.2BP網絡的預測能力

優化后,模型預測得到的預測值如表1所示.模型的自相容和泛化能力預測值以及留一交叉檢驗預測值與實驗值較為接近,相對誤差范圍分別為-0.134~0.329(自相容和泛化)和-0.069~0.379(LOO-CV).而MLR法得到的預測誤差在-0.179~0.495之間.由此可見,BP-ANN模型的預測能力優于MLR模型.

表1 玫瑰花揮發性化學成分的拓撲指數及其保留時間

續表1

No化合物tR/(min)BP-ANN模型預測值(自相容和泛化)Er(自相容和泛化)BP-ANN模型預測值(LOO)Er(LOO)MLR模型預測值Er(MLR)15*香葉醇13.8812.52-0.09814.040.01212.69-0.08616香葉醛14.1312.23-0.13413.56-0.04012.35-0.12617正十二烷14.5614.870.02114.700.01014.32-0.01618香葉酸甲酯14.8814.900.00114.64-0.01614.41-0.03219香茅醇乙酸酯15.2515.620.02415.510.01716.180.06120*橙花醇乙酸酯15.3815.37-0.00115.630.01716.280.05921香葉醇乙酸酯15.6514.62-0.06615.660.00015.04-0.03922丁香酚甲醚15.9715.73-0.01516.120.00915.63-0.02123雪松烯16.3715.27-0.06716.580.01314.06-0.14124石竹烯16.4016.31-0.00516.39-0.00116.25-0.00925*愈創木二烯16.5516.640.00615.98-0.03416.22-0.02026(E)-金合歡烯16.6716.930.01616.890.01317.330.04027α-蛇麻烯16.8816.82-0.00317.140.01517.960.06428大根葉烯-D17.1916.57-0.03616.79-0.02316.35-0.04929正十五烷17.2617.600.01917.18-0.00517.12-0.00830*金合歡烯17.3317.710.02216.56-0.04417.330.000311(10),11-愈創木二烯17.4316.67-0.04417.36-0.00416.24-0.06832正十六烷18.4718.45-0.00118.33-0.00718.05-0.023338-十七碳烯19.3919.32-0.00419.34-0.00318.79-0.03134正十七烷19.6319.37-0.01319.690.00318.98-0.03335*十八烷20.7221.010.01421.170.02219.90-0.040362,6,10-三甲基十四烷21.4520.92-0.02521.510.00319.92-0.071379-十九碳烯21.5221.04-0.02221.650.00620.64-0.04138正二十烷21.7722.070.01421.60-0.00821.760.00039正二十二烷22.7623.930.05123.400.02823.610.03740*9-己基十七烷23.7224.550.03524.530.03426.390.113

圖1 ANN與MLR預測殘差值散點圖

預測相對誤差散點圖如圖1所示,BP-ANN模型預測誤差更接近與0軸,且在0軸附近均勻分布,說明BP-ANN模型的預測能力優于MLR模型.樣本1“α-蒎烯”在兩種方法中均是預測誤差較大的樣本,可能的原因有兩個,一是結構提取不夠全面,二是保留時間測定不夠準確.具體是哪種原因,因為條件的限制沒有進行深入研究.

2.3ANN模型與MLR模型的比較

優化后,對所構建的模型進行留一交叉檢驗(LOO-CV)和自相容、泛化能力檢驗,相關分析見表2、圖2、圖3和圖4.BP-ANN模型留一交叉檢驗相關系數QCV為0.986 6,自相容和泛化能力的相關系數R為0.975 6,外部集交叉檢驗相關系數Qext為0.992 6.而用MLR法構建的模型的相關系數為0.954 5.由此可見,BP-ANN法所構建模型的穩健性優于MLR法構建的模型,模型穩健性良好;結合表1和圖1可知,BP-ANN模型預測能力優良.

表2 MLR法與ANN法的比較

圖2 BP-ANN模型的相關分析圖(自相容和泛化值)

圖3 基于MLR模型的相關分析圖

2.4泛化能力

BP網絡的泛化能力是指網絡對集外樣本的預測能力.影響泛化能力的因素很多,如訓練集過少可能會導致網絡的學習可靠性不強,不能很好地反映問題的本質,而過多的訓練集中,跳躍性較大的樣本也會影響網絡的泛化能力[13].

在最優參數條件下,8樣本交叉檢驗所得預測值與實驗值相關分析如圖5所示,相關系數為0.992 5,8樣本的預測相對誤差分別為:-0.016、0.040、-0.098、-0.001、0.006、0.022、0.014、0.035,均較小.由此可知,BP-ANN構建的模型具有良好的泛化能力.

圖4 留一交叉檢驗法數據相關分析圖

圖5 預測集泛化能力相關分析圖

3 結論

BP-ANN結構為4×2×1,目標函數為1×10-6,學習速率為0.1,步長值為9 000,模型取得了較好的預測結果.BP-ANN法的預測相對誤差分布為-0.134~0.329,而MLR法的預測相對誤差分布為-0.179~0.495, BP-ANN法的預測結果要優于MLR法.另外,BP-ANN模型的相關系數為0.975 6,標準偏差SD為0.949 1,比MLR建立的模型相關關系數0.954 5、標準偏差1.234 3要好.

但BP網絡還存在一些不足,如網絡的不穩定性,得到的結果有時會偏差很大,需要經過大量反復的實驗才能確定,而且參數的選擇并沒有確定的數值,都是憑經驗而定.對于這些缺點,通常要對BP網絡進行改進,除通常所用的多次對所建模型訓練,其改進方法有待于進一步探究.

[1]胡曉燕,沈才洪,敖宗華,等.玫瑰花有效成分及玫瑰花酒的研究進展[J].釀酒科技,2014(11):68-72.

[2]陳紅艷, 廖蓉蘇,楊今朝.玫瑰花揮發性化學成分的分析研究[J].食品科技,2011,36(11):186-190,196.

[3]王淑敏,劉春明,邢俊鵬,等.玫瑰花中揮發油成分的超臨界萃取及質譜分析[J].質譜學報,2006,27(1):45-49.

[4]陳艷,李靖.QSRR研究用于玫瑰花揮發性化學成分色譜保留值的預測[J].時珍國醫國藥,2013,24(11):2 573-2 576.

[5]何琴.BP網絡用于香梨酒香氣成分的QSRR研究[J].安徽大學學報:自然科學版,2013,37(5):86-91.

[6]Wang Cheng-Zhong, Su Yue, Wang Hao-Yang, Guo Yin-Long. Gas Chromatographic-Ion Trap Mass Spectrometric Analysis of Volatile Organic Compounds by Ion-Molecule Reactions Using the Electron-Deficient Reagent Ion CCl3+[J]. Journal of The American Society for Mass Spectrometry, 2011, 22(10): 1 839-1 850.

[7]Kang Wen-Yi, Wang Jin-Mei, Tian Pu-Yu. Analysis of volatiles in the flowers of Patrinia scabiosifolia BY HS-SPME-GC-MS[J]. Chemistry of Natural Compounds, 2011, 47(1): 101-102.

[8]Angelo Antonio D’Archivio, Maria Anna Maggi, Fabrizio Ruggieri. Artificial neural network prediction of multilinear gradient retention in reversed-phase HPLC: comprehensive QSRR-based models combining categorical or structural solute descriptors and gradient profile parameters [J]. Analytical and Bioanalytical Chemistry, 2015, 407(4): 1 181-1 190.

[9]張曉彤,國晶晶,任創,等.人工神經網絡方法對鹵代聯苯化合物的QSRR研究[J].石油化工高等學校學報,2011,24(1):26-28.

[10]何琴.人工神經網絡用于有機磷酸酯類化合物的定量結構色譜保留相關研究[J].分析科學學報,2013,29(4):483-487.

[11]張曉彤,葛翠年,孫兆林,等.烷基硫醇在不同固定相上的QSRR研究[J].計算機與應用化學,2013,30(1):21-26.

[12]張曉彤,王芳,姚岳,等.分子電性距離矢量用于FCC汽油中硫化物的QSRR研究[J].化學分析計量,2014,23(4):6-10.

[13]周文全.BP網絡泛化能力的增強改進[D].廣州:暨南大學,2012.

責任編輯:衛世乾

Quantitative Structure-Retention Relationship Study of the Volatile Organic Compounds of Rose Flowers Based on Neural Network

HE Qin, LI Ge-ge, ZHU Lei

(SchoolofChemistryandChemicalEngineering,XuchangUniversity,Xuchang461000,China)

When using 4 toplogical indexes of 40 volatile organic compounds of rose flowers as inputs and the retention time as output, the error back propagation algorithm (EBP)of the artificial neural network (ANN) as the model we establish the quantitative structure retention relationship (QSRR)correlation model. The stability and predictive ability of the model was analyzed by the leave-one-out cross-validation and external validation. When the correlation coefficient of the leave-one-out cross-validation check is 0.9866;when it is applied in predicting the external set, the correlation coefficient is 0.9926. For the MLR model, the correlation coefficient is 0.9545. The results showed that the performance of ANN model is better than that MLR method in terms of fitting effect.

rose; artificial neural network; quantitative structure retention relationship; volatile organic compounds

2016-05-03

許昌學院優秀青年骨干教師資助項目

何琴(1979—),女,湖北黃岡人,副教授,碩士,研究方向:定量構效關系和教學.

1671-9824(2016)05-0075-05

O659.2

A

猜你喜歡
玫瑰花揮發性交叉
鈰基催化劑在揮發性有機物催化燃燒治理中的研究進展
泡罩包裝揮發性有機物排放特征分析
揮發性有機物污染環保治理新思路的探討
“六法”巧解分式方程
玫瑰花
玫瑰花盛開
連數
連一連
Water is Found in Moon Rocks
十字路口的玫瑰花
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合