?

基于IABC-SVR算法的拉曼光譜定量分析山羊血清蛋白含量

2021-02-03 08:03付興虎王振興付廣偉畢衛紅
光譜學與光譜分析 2021年2期
關鍵詞:曼光譜蜜源蜂群

付興虎,趙 飛,王振興,蘆 鑫,付廣偉,金 娃,畢衛紅

燕山大學信息科學與工程學院,河北省特種光纖與光纖傳感重點實驗室,河北 秦皇島 066004

引 言

血清總蛋白(total protein,TP)是血清中各種蛋白質的總稱,是各種蛋白的復雜混合物[1],包含白蛋白、α1球蛋白、α2球蛋白、β球蛋白等,是人體保持健康的重要組成部分。人體生理機能的變化會引起血漿中蛋白質發生質和量的變化,檢測血清生化成分,可作為協助診斷腫瘤、肝病、腎病綜合征等疾病的方法[2]。例如,郭麗等通過對比健康人和患者的血清拉曼光譜,為乳腺癌的診測提供了新的方法。王玉等[3]利用不同批次人血白蛋白的拉曼光譜,結合拉曼光譜峰位移和峰強度的相似度計算結果,來判斷血液白蛋白樣品的真假偽劣。本文提出了一種基于拉曼光譜和改進人工蜂群算法優化支持向量機回歸(IABC-SVR)算法快速定量檢測山羊血清蛋白含量的方法。

血清總蛋白測定方法有很多,最主要的有凱氏定氮法、雙縮脲法、酚試劑法等,目前檢測血清蛋白總量的常規方法為雙縮脲法[4],其原理是蛋白質分子中的肽鍵(—CO—NH—)與雙縮脲試劑反應,形成紫色化合物,其紫色深淺程度與樣品中蛋白質濃度成正比,根據所測樣品吸光度值,在標準曲線上查出相應蛋白質含量,從而計算出樣品溶液蛋白質含量。該方法需消耗多種試劑,步驟較繁瑣,存在污染試劑、精度差、容易交叉污染等缺點。而拉曼光譜技術是一種非破壞性測試技術,幾乎無需試樣制備,用很少量的試樣就能獲得足夠的信號,所表征的是分子振動的信息,水的拉曼散射極微弱,因而水溶液樣品可直接進行測量,這對生物大分子的研究非常有利。從拉曼光譜的譜圖中可以得到頻率、強度、偏振特性、峰形等信息,在生物、材料、環保、地質等領域得到應用。這種生化法拉曼光譜技術具有靈敏度高、無需樣品預處理、操作簡便、信息含量豐富、能夠獲取分子的結構信息等特點。本文將拉曼光譜技術與IABC-SVR算法相結合,對山羊血清蛋白總量進行快速定量分析。

1 模型原理和方法

1.1 支持向量機回歸

(1)

(2)

1.2 改進的人工蜂群算法

標準人工蜂群算法(artificial bee colony,ABC)是由土耳其學者Karaboga于2005年提出模擬蜜蜂尋覓花蜜過程的一種群體智能算法[6]。在人工蜂群的框架下,蜜源的位置表示要優化問題的可能候選解,蜜源中花蜜的數量與候選解的適應度(目標值函數)相對應,而蜂群的規模等于待優化解的數量。ABC算法更新種群采用隨機選取的方法,在ABC算法搜索過程中存在收斂速度較慢、不能實現全局收斂的問題,針對此問題,提出改進的人工蜂群算法(improved artificial bee colony,IABC),在對蜜源更新公式中引入柯西變異算子[7]。同時改進隨機解生成方法,隨著迭代次數增加,步長從一個較小的數逐漸增長到一個較大數值。改進后的算法保證模型前期能夠進行全面的局部搜索,且后期保持全局搜索能力,并加快收斂速度。

設初始種群含有NP個解,每個解xi(i=1,2,…,NP)為一個d維向量,對應的解的適應度值fit,個體最大更新次數為G,最大迭代次數為T。具體步驟為

第1步:初始階段,隨機產生蜜源的初始位置,即

xij=xmin+logTt(xmax-xmin)

(3)

第2步:初始蜜源周圍搜索產生一個新的蜜源,即

vij=(xij+xij×Cij)+φij(xij-xkj)

(4)

其中,Cij為對應xij服從柯西分布C(0,1)的隨機數,k∈{i=1,2,…,NP},j∈{1,2,…,d}且k≠i。φij為[-1,1]內的隨機數。

第3步:評價蜜源的適用度,如果新的蜜源適應度高于原先的蜜源,則新的蜜源代替原先的蜜源,否則保留原先的蜜源,即

(5)

其中fi為解的函數值。此外,基于輪盤賭原則,找到新蜜源被跟隨的概率Pi為

(6)

某蜜源經過G次循環后沒有得到優化,則放棄該蜜源尋找下一個。若運算迭代次數達到T或者最優適應度,運算結束,否則返回式(4),迭代出最優解。

2 實驗部分

2.1 儀器與樣品

本次實驗使用的山羊血清為經過無菌過濾處理的山羊血清,血清蛋白初始濃度為0.042 34 g·mL-1。實驗中用于稀釋血清濃度的試劑為生理鹽水,生理鹽水對實驗結果影響極小且不影響生物樣本的活性。按體積比配置不同濃度的血清蛋白樣本,配置的單個液體樣本體積為3 mL,共計35組,隨機選取8組實驗樣本作為模型測試集,剩余27組作為模型訓練集。配置好的樣本在4 ℃恒溫箱中靜置24 h,確保樣本混合均勻。光譜測量過程中易受外界光干擾,所以在實驗中進行避光處理,防止外界干擾。

本次實驗使用的是BWS465-785S型拉曼光譜儀,由美國必達泰克公司生產,光譜測量范圍0~3 500 cm-1,激發光源波長為785 nm,設置拉曼光譜激光功率為300 mW,每個樣本連續掃描取光譜穩定后的數值,積分時間10 000 ms,光譜儀的采集分辨率為5 cm-1。

2.2 光譜采集與數據處理

使用拉曼光譜儀采集樣本拉曼光譜,通過BWRam4軟件進行光譜讀取。測量光譜前,將拉曼光譜儀打開預熱20 min。用超純水清洗樣品池,控干池內水分,并使用擦鏡紙清理樣品池表面(測量各組樣品前重復此步驟)。將試劑樣本緩慢移入樣品池,避免氣泡進入,放入遮光罩中進行避光處理,待樣品靜置2 min后,進行光譜采集。拉曼光譜處理過程如圖1所示。

通過對圖1分析可知,隨著樣品中血清蛋白濃度變化,拉曼光譜原始數據強度發生明顯變化。原始光譜信噪比較高,影響了對特征峰的觀察和數據處理。在建模之前對數據進行預處理,隨機選取一條拉曼光譜為例進行處理。

每組樣品采集前進行暗電流采集并扣除。采集的原始拉曼光譜如圖1(a)所示(選取光譜范圍300~1 300 cm-1)。為了消除CCD噪聲、采集電路的噪聲以及激光功率抖動等對拉曼信號強度的影響,同時簡化計算量,采用平滑處理、背景扣除、歸一化三種預處理方法對測得的原始拉曼光譜進行數據預處理。平滑采用Savitzky-Golay平滑法進行處理,該方法在濾除噪聲的同時可保持原信號譜寬、強度及形狀不發生改變,其濾波原理是局部多項式時域最小二乘法擬合[8],處理結果如圖1(b)所示;背景扣除采用扣除基線的方法,采用非對稱最小二乘平滑建立基線,可將有效拉曼信號保存下來,去除掉背景熒光信號如圖1(c)所示,黑色線代表拉曼光譜數據,紅色線代表需要扣除的基線;數據歸一化處理的作用是簡化計算,縮小量值,提高數學預測模型的準確度,如圖1(d)所示,黑色線代表拉曼光譜扣除基線后的數據,紅色線代表執行歸一化處理后的數據。

圖1 拉曼光譜處理過程(a):原始拉曼光譜;(b):平滑處理;(c):背景基線扣除;(d):歸一化處理Fig.1 Raman processing(a):26 groups of original Raman spectra;(b):Smoothing processing;(c):Background baseline deduction;(d):Normalization

2.3 特征峰歸屬

經過處理的山羊血清樣本拉曼光譜,在379.05,451.87,568.07,636.12,709.73,797.08,864.21,920.15,1 009.95和1 072.24 cm-1處表現出明顯的特征峰,如圖1(d)所示。通過比對,對山羊血清蛋白特征峰進行歸屬[9-10],峰值標記如圖2所示,特征峰歸屬如表1所示。

圖2 血清蛋白拉曼光譜特征峰Fig.2 Characteristic peak of Raman spectrum of serum protein

表1 血清蛋白特征峰及其歸屬Table 1 Characteristic peak of serum protein and its attribution

3 結果與討論

在35組實驗樣品中隨機選取27組樣本作訓練集,通過拉曼光譜的數據采集及預處理,提取的特征峰強度值和訓練集已知濃度信息作為輸入,余下8組樣本作為測試集,同訓練集一樣,將特征峰強度作為模型的輸入,通過模型運算的濃度信息作為輸出。分別建立基于改進人工蜂群算法優化支持向量機回歸算法(IABC-SVR)的預測模型和人工蜂群算法優化支持向量機回歸算法(ABC-SVR)模型,并與經典BP(back propagation)神經網絡算法建模結果比較。IABC屬于迭代優化,可優化SVR中的懲罰因子C和函數參數σ,以提升該模型的泛化能力及預測精度。建立IABC-SVR模型流程如圖3所示。

圖3 建模過程流程Fig.3 Modeling process flow chart

將測試集已知血清蛋白濃度與預測結果進行均方差運算來評價模型精準度,相關系數來評價模型預測關聯度。樣本為M的均方誤差定義為

(7)

均方根誤差可以顯示出預測結果與真實結果平方和的平均數,由于對誤差進行了平方處理,就避免了誤差出現正負值而相抵消的情況,從而提高了對誤差分析的準確性。相關系數r定義為

(8)

r值越接近 1,則反映定量預測模型精度越高,預測集建模相關度曲線如圖4所示,相關系數為0.990 27,顯示出極高的相關性,表明模型結果較好。預測結果殘差如圖5所示,殘差均小于0.001 g·mL-1,預測準確率為99.8%。

圖4 模型測試集中真實值與預測值相關度擬合Fig.4 Correlation curve between actual value and predicted value in model test set

圖5 模型預測值殘差Fig.5 Residual of model prediction

將數據分別導入ABC-SVR 算法和BP神經網路算法進行建模,并將預測模型進行對比,建模結果如圖6所示,得到的各模型均方差(MSE),相關系數(r)與建模時間(Time)如表2所示。

圖6 三種模型預測結果中真實值與預測值相關度曲線Fig.6 Correlation curve between actual value and predicted value in three models’ prediction results

表2 三種建模方法模型評價結果Table 2 Evaluation results of three modeling methods

由表2可知,經典BP神經網絡算法的預測精度低于ABC-SVR算法建模精度,IABC-SVR算法預測模型在ABC-SVR算法基礎上有明顯提升,說明IABC-SVR算法能較好的避免局部最優解,有較好的全局搜索能力。建模時間為1.9 s,具有更好的工作效率。由實驗結果可以看出,文中提出的基于IABC-SVR算法預測模型定量分析山羊血清蛋白總量的方法能有效實現預期功能,并在ABC-SVR算法基礎上提高了精度,加快了算法收斂運算速度,達到了更好的效果。

4 結 論

提出了一種基于拉曼光譜和IABC-SVR算法對山羊血清蛋白含量快速、無損的定量檢測方法。拉曼光譜儀采集實驗樣本光譜,結合三種光譜預處理的方法對原光譜進行處理,標定的光譜特征峰強度作為模型輸入;針對傳統人工蜂群算法在區域規模較大時收斂速度逐漸減慢,會出現效率低、精準度下降、局部最優解概率高等弊端,改進了蜂群的初始化和位置更新方法,旨在提高預測模型的全局搜索能力和準確性;建立了IABC-SVR山羊血清蛋白定量檢測模型,對山羊血清蛋白總含量進行定量分析。結果表明,該方法能快速、準確、無損的預測山羊血清蛋白總量,具有較高的可行性。建立模型的相關系數為0.990 27,均方誤差為0.244 3,建模時間為1.9 s,預測準確率為99.8%。說明該方法能較好的完成山羊血清蛋白總量的快速定量分析。在下一步的實驗中,將樣品的濃度梯度進一步細化,增加模型的訓練集和測試集,提升模型的精度和預測能力。

猜你喜歡
曼光譜蜜源蜂群
林下拓蜜源 蜂業上臺階
“蜂群”席卷天下
指示蜜源的導蜜鳥
改進gbest引導的人工蜂群算法
蜂群夏季高產管理
人工蜂群算法及應用新探
BMSCs分化為NCs的拉曼光譜研究
便攜式薄層色譜-拉曼光譜聯用儀重大專項獲批
苯的激光拉曼光譜研究
新型4H-3,1-苯并噁嗪類化合物的合成及拉曼光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合