?

基于SPCA降維的輕質燃料油分類拉曼光譜鑒別方法

2022-12-15 11:38董曉煒楊繼平楊志猛夏梓航
石油煉制與化工 2022年12期
關鍵詞:曼光譜拉曼降維

董曉煒,楊繼平,楊志猛,晏 剛,夏梓航

(重慶賽寶工業技術研究院有限公司,重慶 401332)

隨著油價不斷上漲,市場上油品摻假銷售的現象屢見不鮮。以汽油為例,一些不法分子通過非法手段以次充好,如將低標號汽油和高標號汽油混合作高標號汽油銷售,甚至添加甲醇等含氧化合物等。這些摻假行為不僅有損消費者權益,更會對社會安全造成不利影響,因此加強對市售油品質量的檢測監督非常重要。

油品質量檢測的方法有很多種,如測定油品的密度、超聲波傳導速率、電導率、元素組成、光譜等[1]。相比于傳統的油品鑒別方法,采用拉曼光譜技術可快速獲取油品的物質組成信息,而且其具有非接觸、快速、穩定等優勢,尤其適合用于定性分析[2-3]。石油產品中烯烴、芳香烴類等化合物有明顯的拉曼光譜特征峰,因而拉曼光譜分析技術在石油產品分析領域不斷突破[4]。隨著小型化、高分辨率、抗干擾的便攜式拉曼光譜儀的發展,拉曼光譜在油品在線檢測領域的應用前景良好。

拉曼光譜與相關化學計量方法相結合,在石油產品種類鑒別、油品分析、質量檢測等領域的應用研究不斷增多[5]。例如:婁婷婷等[6]用632.8 nm波長拉曼光譜儀成功對包括燃料油和潤滑劑在內的共6種石油產品進行了分類鑒別;包麗麗等[7]利用其自主研發的785 nm波長便攜式拉曼光譜儀,對比了汽油、噴氣燃料、柴油、石腦油等油品的拉曼光譜特征峰位移和強度,實現對不同種類油品的鑒別;李晟等[8]采用主成分分析法(PCA)對不同牌號汽油的拉曼光譜進行分析,實現了對不同牌號汽油的快速鑒別。此外,喻星辰等[9]提出一種以石墨化炭黑吸附、過濾的方法,成功抑制了石油產品拉曼光譜定性分析中的熒光干擾影響。

在上述基于拉曼光譜的油品鑒別研究中,通常采用PCA或偏最小二乘法(PLS)將油品組分簡化為互不相關的幾個主成分,拉曼光譜上得到的主成分往往是油品組分原始光譜的線性重組。然而,主成分載荷矩陣元素通常非零,很難對每個主成分分量做出合理解釋[10]。此外,其分類模型采用線性判別法(LDA)或采用構造類間距閾值方法構建,未考慮光譜中的非線性影響因素[11],模型泛化能力不足?;诖?,本研究利用785 nm便攜式光譜儀探索一種針對輕質燃油種類的快速鑒別方法:首先對原始拉曼光譜數據進行預處理,進而結合稀疏主成分分析法(SPCA)對數據進行降維處理[12],然后運用支持向量機(SVM)建立基于SPCA的非線性關系分類模型,實現油品快速鑒別,期望為成品油管道混油界面判斷、油品摻假鑒別提供檢測方法和理論依據。

1 實 驗

1.1 試 劑

石油醚、乙醇(體積分數75%),購自上海華天生物科技有限公司。

1.2 試驗過程

試驗輕質燃料油樣本為取自重慶、山東、遼寧等不同產地0號車用柴油、3號噴氣燃料、92號汽油、95號汽油、98號汽油5種樣品各100個,共計500個。其中,將每種油品隨機抽取80個樣本,共400個樣本組成訓練集,每種油品其余20個樣本,組成共100個樣本測試集。

以不同產地95號汽油和92號汽油樣本配制得到5種不同摻混比例的混合汽油樣品A,B,C,D,E樣本各50個。其中,混合汽油樣品A,B,C,D,E中95號汽油的體積分數分別為97.5%,95%,90%,85%,70%。

使用北京華泰諾安有限公司生產的CRM100PS-1型便攜式激光光譜儀對上述試驗輕質燃料油樣本進行光譜采集。試驗條件:激光器波長為785 nm,光譜范圍為350~3 000 cm-1,激光器功率為200 mW,積分時間為2 s,累加次數為2次,取兩次測量平均值作為最終拉曼光譜。

1.3 拉曼光譜預處理

受激光器功率微弱變化等干擾因素影響,光譜采集過程中會產生噪聲;同時,輕質燃油自身會受到熒光干擾,致使出現基線漂移、抬高的現象。研究表明,采用較長波長(如785 nm、1 064 nm)激光光源可以在一定程度上消除熒光對燃油拉曼光譜的干擾,但仍需要進行熒光背景校正[9]。

因此,在進行分析前,需對原始拉曼光譜數據進行預處理:首先,采用歸一化算子,消除數據量綱的影響,增強特征峰之間的可比性;然后,采用平滑卷積(SG)算子[13]對光譜進行平滑處理;最后,采用自適應迭代懲罰最小二乘(airPLS)算子[14],基于誤差的迭代加權策略,逐步消除擬合基線和原始信號之間的差異,實現對拉曼光譜基線的校正。

1.4 SPCA稀疏降維及效果評價

輕質燃油的拉曼光譜范圍較廣、波數較多,通常采用降維的方法去除光譜中的冗余信息。目前,廣泛使用的降維方法有PCA,其核心思想是通過將多個成分變量降維成少數相互獨立的主成分;但其主成分仍是所有原始光譜的線性組合,實際意義模糊,難以對光譜特征峰進行合理解釋[10]。Zou等[14]在PCA的基礎上對載荷矩陣進行稀疏化,提出了一種稀疏主成分分析法(SPCA),其主要思想是將載荷矩陣看作主成分對原始成分變量的回歸系數矩陣,進而將PCA分析轉換為優化回歸系數求解問題,如式(1)所示。其中:第一項為誤差平方項;第二項為嶺懲罰項;第三項為關于回歸系數的L1范數懲罰項。

(1)

且滿足ATA=Ik×k

式中:Xn×p為樣本矩陣,其中n為樣本數量,p為成分變量維度;Ap×k=[α1…αk],Bp×k=[β1…βk]分別為對樣本矩陣降維、稀疏化后的兩個矩陣,1

若同時優化Ap×k和Bp×k兩個變量會導致目標函數不收斂,因而首先由PCA得到矩陣Ap×k的k個成分載荷初值,在固定Ap×k的基礎上求解Bp×k,將式(1)轉換為求解k個獨立的彈性網問題,如式(2)所示。

(2)

然后,將求得的Bp×k=[β1…βk]作為定值,即可將式(1)簡化為式(3);根據普式矩陣旋轉定理[14]將式(3)對Ap×k的求解問題轉換為對矩陣XTXB進行奇異值分解(SVD)問題,如式(4)所示;進而,用由式(4)得到列正交矩陣U、奇異值矩陣D、行正交矩陣VT迭代更新Ap×k=UVT;之后,交替求解Ap×k和Bp×k,直至滿足終止條件。

(3)

XTAB=UDVT

(4)

評價成分變量降維效果的指標有稀疏度、可解釋性方差比、輪廓系數[15]、方差比準則[16]等。其中:稀疏度是指稀疏載荷矩陣中元素為零的個數(當元素絕對值小于0.01時,即看作為0);可解釋性方差比是指每個主成分的可解釋方差貢獻率;輪廓系數和方差比準則均為基于原始數據和聚類結果評估聚類模型優劣性的方法。輪廓系數和方差比準則的計算值越大,表明聚類結果越好[17]。

1.5 SVM分類模型及性能評價

SVM作為一種小樣本的機器學習方法,在光譜吸收峰混疊識別、光譜多組分分析等領域取得了較好的效果[18]。其模型參數主要有核函數為RBF、懲罰因子(c)和不敏感系數(g),其中c和g的取值范圍均為0.25~64。構建的SVM模型需通過網格搜索算法5折交叉驗證確定,即將訓練集樣本隨機分為5組,其中1組用于模型預測,也稱交叉驗證集,其他4組用于模型訓練。SVM分類模型的性能主要通過對其查準率(precision)、查全率(recall)和F1度量3項指標來評價,其越接近于1,表明分類模型性能越好。此外,為了進一步考察模型的泛化能力,對測試集的5種輕質燃油共100個樣本進行預測,并且與傳統PLS-DA光譜分類模型進行對比。

2 結果與討論

2.1 拉曼光譜及其預處理

圖1為5種輕質燃油的典型拉曼光譜,其中圖1(a)是預處理前5種輕質燃油的拉曼光譜,圖1(b)為經過預處理后5種輕質燃油的拉曼光譜。由圖1可以看出,經過預處理操作,可以去除原始光譜的熒光背景和背景噪聲,拉低基線,使光譜輪廓平滑,特征峰更明顯,顯著改善拉曼光譜的表征效果。

圖1 5種輕質燃油的典型拉曼光譜 —0號車用柴油; —3號噴氣燃料; —92號汽油; —95號汽油; —98號汽油1~12—拉曼位移特征峰

由圖1(b)預處理后5種輕質燃料的拉曼光譜,分析輕質燃料拉曼光譜的典型特征峰,結果如表1所示。結合表1和圖1可知,3種汽油中較強的特征峰分別是在拉曼位移為525 cm-1附近的CH2CH3等基團振動(特征峰1)、拉曼位移737 cm-1附近的季碳基團對稱伸縮振動(特征峰2)、拉曼位移769 cm-1處C—C—C 對稱伸縮振動(特征峰7)以及拉曼位移1 003 cm-1處單環芳烴的強呼吸振動(特征峰5)。這4處特征峰是汽油區別于柴油、噴氣燃料的主要特征峰。

表1 輕質燃油產品拉曼光譜與振動模式的對應表[19-22]

由圖1(b)可知:汽油與柴油、噴氣燃料之間的特征峰區別較為明顯,汽油中含有較多直鏈飽和烴和少量不飽和烴,且飽和烴的拉曼特征峰清晰尖銳,受熒光干擾的影響較??;但不同牌號汽油間的特征峰差異較弱,主要體現在直鏈飽和烴含量的不同,對應在拉曼位移737,769,1 003 cm-1附近的特征峰強度上存在微弱差異。

噴氣燃料與柴油的拉曼光譜具有相似的特征峰,二者在拉曼位移1 306 cm-1和1 451 cm-1處均有兩個較強的特征峰(特征峰8和10);噴氣燃料中不飽和烴含量較高,在拉曼位移1 400~1 500 cm-1區域的拉曼散射強度較高,而柴油中含有大量的芳烴及其衍生物,在拉曼位移1 500~2 735 cm-1區域拉曼散射強度略高于噴氣燃料。

從上述分析不難看出,不同輕質燃料油中某些特定成分化學特性不同,組分含量存在差異,使其在對應的拉曼光譜特征峰強度上存在微弱差異,因而可以考慮通過化學計量學建模的方法進行特征提取,并結合機器學習算法進行物質鑒別。

2.2 特征成分變量降維

將預處理之后的拉曼光譜,分別采用PCA和SPCA方法將特征成分變量維度降至6維,圖2為可解釋方差比最高的前3個主成分的得分圖。如圖2(a)所示,采用PCA降維方法大致能區分5種輕質燃油,但同類樣本的分布較離散,并且0號車用柴油和3號噴氣燃料在主成分空間中有個別交錯現象;而由圖2(b)可知,SPCA降維方法的分類效果更優,同類別樣本內部數據點分布緊湊,不同類別樣本簇獲得明顯區分。

圖2 特征成分變量分別采用PCA和SPCA降維的效果●—0號車用柴油; ■—3號噴氣燃料; ▲—92號汽油; 號汽油; ◆—98號汽油

分別計算PCA和SPCA方法對拉曼光譜特征降維效果的量化指標,結果如表2所示。由表2可以看出,與采用PCA方法的效果相比,采用SPCA方法對特征變量降維,在獲得變量載荷矩陣高稀疏度的情況下,雖然可解釋性方差比略低,而在輪廓系數和方差比準則兩項指標上表現更優。

表2 采用PCA和SPCA方法降維效果的量化指標比較

圖3為分別采用PCA和SPCA方法對拉曼光譜特征變量降維后得到的前2個主成分的載荷因子(PC1、PC2)在各拉曼位移處的分布情況。載荷因子絕對值越大,則對主成分的貢獻越大。由圖3可以看出:采用PCA法得到的主成分由全光譜信息組合而成,主要特征峰因受背景噪聲的影響而對主成分的貢獻不高;而采用SPCA的大部分載荷因子絕對值為零,主成分可表示成少數特征峰的線性組合,其中載荷因子絕對值較大的特征峰的拉曼位移在517,735,769,1 003,1 306,1 447 cm-1處和2 855~2 940 cm-1區域等,基本與表1中的特征峰吻合,充分體現了稀疏主成分對光譜特征峰的解釋性,并且為后續建模分析提供基礎。

圖3 采用PCA和SPCA方法降維得到的前2個主成分的載荷因子分布

2.3 模型構建與訓練

在拉曼光譜數據預處理的基礎上,分別采用PLS-DA,PCA-SVM,SPCA-SVM方法構建輕質燃料分類模型;同時,為了探究對光譜特征成分變量降維影響模型分類的效果,對原始光譜數據也分別采用SVM、PCA-SVM方法建立輕質燃料分類模型。不同分類模型的預測結果如表3所示。

表3 不同分類模型對訓練集樣本的預測結果

通過分析表3中的模型評價指標可知:針對原始光譜的兩種分類模型,在PCA降維的基礎上,通過SVM法構建分類模型的分類指標比變量降維前有明顯提升,模型預測準確率達到為96.75%,同時分類模型的精確率、召回率和F1度量的輸出值分別為0.974 9,0.984 5,0.987 4;降維后,光譜特征成分變量維度從1 160降為6,顯著降低了運算復雜度,大幅縮短了分類模型的訓練和預測時間;基于預處理拉曼光譜所建3種分類模型的預測結果均優于原始光譜的分類模型,其中PCA-SVM和SPCA-SVM方法構建模型的準確率均達到100%。

2.4 分類模型驗證

為了進一步驗證模型的泛化能力,避免分類模型過擬合,將5種輕質燃料測試集樣本(每種燃料20個樣本)按照0號車用柴油、3號噴氣燃料、92號汽油、95號汽油、98號汽油的順序依次編號為1~100,進而基于其原始拉曼光譜和預處理拉曼光譜,采用不同分類模型進行分類預測,結果如圖4所示。

由圖4可以看出:對比不同分類模型對測試集樣本的預測結果,采用SPCA-SVM方法基于預處理后拉曼光譜所建分類模型的分類效果最好,僅有1個3號噴氣燃料樣本被錯歸類為0號車用柴油,3個95號車用汽油樣本被錯歸類為92號車用汽油;而采用PLS-DA、PCA-SVM方法基于預處理后拉曼光譜所建分類模型在鑒別0號車用柴油和3號噴氣燃料時效果不理想,多個樣本被錯誤歸類;采用PCA-SVM方法基于原始拉曼光譜所建分類模型對0號車用柴油、95號車用汽油分類效果較差。

圖4 不同分類模型對測試集樣本的分類結果●—0號車用柴油; ■—3號噴氣燃料; ▲—92號汽油; 號汽油; ◆—98號汽油

5種分類模型對測試集樣本的分類性能指標如表4所示。由表4可知,相較于其他建模方法,基于預處理后拉曼光譜用SPCA-SVM法所建分類模型的分類準確率最高,為96%。這說明基于預處理后拉曼光譜用SPCA-SVM法所建分類模型訓練和驗證效果均最好,可以用于輕質燃料油類別的快速、準確鑒定。

表4 采用不同建模方法時測試集預測結果比較

2.5 摻混油品的識別

在實際應用中,需要對摻混油品的類型進行鑒別,如鑒別成品油輸運過程混油界面的摻混油品和純牌號油品等。為考察所建模型對摻混油品分類鑒別的效果,將純牌號95號汽油樣本、95號汽油和92號汽油按不同配比調合的5種混合汽油樣本各取50個,并且隨機將每種樣本的70%劃分為訓練集(每種各35個樣本)和30%劃分為測試集(每種各15個樣本)。

不同混合汽油樣品的預處理后拉曼光譜及其局部特征光譜如圖5所示。由于95號汽油與92號汽油最明顯的區別是直鏈飽和烷烴含量不同[圖1(b)],因此在混合汽油樣品中95號汽油占比越高,直鏈飽和烷烴含量就越高,對應拉曼光譜的特征峰強度也就越大。如圖5(b)所示:混合汽油A的拉曼光譜中異構烷烴(拉曼位移737 cm-1)和單苯基烷烴(拉曼位移1 003 cm-1)的特征峰強度最高;當混合汽油中95號汽油的占比降低,上述兩處特征峰強度也隨之減弱。

圖5 不同混合汽油樣品的預處理后拉曼光譜 —混合汽油A; —混合汽油B; —混合汽油C; —混合汽油D; —混合汽油E

基于預處理后的拉曼光譜,為區分純牌號95號汽油與某種混合汽油,采用SPCA-SVM方法建立了95號汽油分別對應混合汽油A,B,C,D,E的5種二分分類模型,其分類結果如表5所示。從表5可以看出:當混合汽油中92號汽油體積分數為2.5%和5%時,模型分類的準確率均不理想,主要原因在于摻混92號汽油含量較低時,混合汽油組成改變引起拉曼光譜特征峰的變化很弱,而拉曼光譜自身的穩定性誤差為±2.5%,因而模型難以建立光譜特征峰與組分變化的準確關聯;隨著混合汽油中摻混92號汽油含量升高,其拉曼光譜特征峰的強度變化增大,差異性愈加明顯;當92號汽油體積分數達15%后,所建分類模型對測試集樣本的錯判數僅為2,可以較準確地識別出混合汽油類型。因此,混合汽油中92號汽油體積分數為15%可視為該分類模型的識別下限。

表5 采用SPCA-SVM法所建分類模型鑒別5種混合汽油樣本的結果

3 結 論

利用拉曼光譜分析技術來自對不同產地的0號車用柴油、3號噴氣燃料、92號汽油、95號汽油、98號汽油共5種輕質燃料油進行了定性分析,進而基于原始拉曼光譜采用SVM、PCA-SVM方法和基于預處理后拉曼光譜采用PLS-DA,PCA-SVM,SPCA-SVM方法分別構建了一種輕質燃油分類模型。經過對上述5種燃料油樣本的訓練分類和測試驗證,結果表明基于預處理后拉曼光譜以SPCA-SVM方法構建的分類模型的分類預測效果最好、準確率最高,其訓練集樣本分類準確率為100%,測試集樣本分類準確率為96%,說明該分類模型可以用于輕質燃料油類別的快速、準確鑒定。

此外,對拉曼光譜預處理過程發現,經過預處理操作,可以去除原始拉曼光譜的熒光背景和噪聲,使光譜特征峰更明顯,顯著改善拉曼光譜的表征效果。對拉曼光譜特征成分變量降維結果表明,與采用PCA方法的效果相比,采用SPCA降維方法的分類效果更優,同類別樣本內部數據點分布緊湊,不同類別樣本簇獲得明顯區分;在獲得變量載荷矩陣高稀疏度的情況下,SPCA降維方法在輪廓系數和方差比準則方面表現更優。

基于拉曼光譜的分類模型鑒定方法預處理過程簡單、光譜可解釋性強、鑒別準確率高,適用于石油產品鑒別、油品摻假鑒定、輸油管線油品質量監控等領域。

猜你喜歡
曼光譜拉曼降維
混動成為降維打擊的實力 東風風神皓極
館藏高句麗鐵器的顯微共聚焦激光拉曼光譜分析
Preoperative maximal voluntary ventilation, hemoglobin, albumin, lymphocytes and platelets predict postoperative survival in esophageal squamous cell carcinoma
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降維打擊
基于拉曼光譜的面團凍結過程中水分分布的在線監測
一種改進的稀疏保持投影算法在高光譜數據降維中的應用
拉曼效應對低雙折射光纖偏振態的影響
各向同性光纖中拉曼增益對光脈沖自陡峭的影響
實用拉曼光譜引論
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合