?

高光譜技術結合網格搜索優化支持向量機的桃缺陷檢測

2023-09-01 00:57張立秀張淑娟孫海霞薛建新任銳劉文俊
食品與發酵工業 2023年16期
關鍵詞:波長預處理光譜

張立秀,張淑娟,孫海霞,薛建新,任銳,劉文俊

(山西農業大學 農業工程學院,山西 晉中,030801)

“久保桃”是水蜜桃的一種早熟品種,營養豐富,深受消費者喜愛[1]。在久保桃的生長過程中,由于自然因素造成的果面損傷即果面缺陷。根據NY/T 586—2002,常見的果面缺陷有瘡痂桃、蟲咬桃和鳥啄桃。這些缺陷的存在降低了桃的品質,影響了我國桃果實的出口。目前,市場上主要依靠人工進行分揀缺陷桃,存在效率低下[2]的問題,因此研究一種快速、高效、批量檢測桃果實外部缺陷的方法具有實際意義。

高光譜技術具有分辨率清晰、波段數多的特點,被廣泛應用于水果缺陷的無損檢測[3]。BARANOWSKI等[4]將高光譜圖像與主成分分析法進行結合,研究蘋果損傷后的生理指標變化,檢測精度達到97%。WANG等[5]將高光譜成像技術結合逐步判別法判別蟲害棗和完好棗,判別率為94.8%。LORENTE等[6]利用高光譜成像技術結合化學計量法,檢測柑橘的腐爛,檢測率達到了85%。許建東等[7]采用高光譜技術結合變量選擇方法判別完好與凍害甘薯,判別率為98.05%。池江濤等[8]采用高光譜技術結合多元線性回歸模型對茄子外部缺陷進行識別研究,判別率為96.82%。吉亞敏[9]采用高光譜成像技術和機器學習相結合的方法對馬鈴薯的外部缺陷進行了分類,模型的平均判別率為92.08%。章海亮等[10]利用高光譜成像技術檢測柑橘的結痂、黑斑、蒂腐、褐腐病的4種缺陷,最終的判別率為94%。LI等[11]采用高光譜成像技術結合多元線性回歸模型,預測哈密干棗的可溶性固形物含量,最終其預測集的準確率為85.7%。

支持向量機(support vector machines, SVM)是一種機器學習算法,常用于解決小樣本、非線性及高維的數據模型問題[12],SVM模型分類性能的好壞取決于模型參數的選擇,因此出現了許多SVM的優化算法。國內外許多學者采用高光譜結合SVM及其優化算法對果蔬的品質進行了研究。SIRINNAPA等[13]將高光譜成像技術與偏最小二乘法(partial least squares, PLS)、SVM等方法結合,檢測芒果和黃瓜的蟲害,芒果蟲害判別率為93.4%,黃瓜蟲害判別率為82%。WANG等[14]采用高光譜成像技術結合最小二乘支持向量機,研究了不同預處理方法對柑橘黃龍病葉上、葉下表面光譜模型的影響,結果表明,在二階導數預處理下,識別率分別為100%和92.5%。王梓萌[15]將近紅外光譜與粒子群優化支持向量機(particle swarm optimization support vector machines, PSO-SVM)結合檢測霉心病蘋果,檢測效率達到了93.33%。黃林生等[16]將高光譜技術與遺傳算法優化支持向量機(genetic algorithm optimization support vector machines, GA-SVM)模型結合檢測小麥赤霉病,檢測精度為75%。羅強[17]基于高光譜技術與網格搜索優化支持向量機(grid search optimization support vector machines, GS-SVM)相結合,檢測茶鮮葉含水量,檢測精度為87.64%。談文藝[18]將高光譜成像技術與GS-SVM模型相結合,判別蘋果外部損傷,判別準確率為97.5%。

上述研究均采用單一優化算法進行建模分析,檢測精度低。將高光譜信息與多種優化模型相結合,通過對比不同優化模型在參數相同的情況下的建模效果與模型運行時間,進而尋找出一種運行時間短、判別率高的最優模型,實現久保桃外部缺陷的快速檢測。因此本文基于高光譜技術結合GS-SVM、GA-SVM、PSO-SVM三種優化方法建立判別久保桃外部缺陷的3種模型,綜合比較各模型的性能,選出最優判別模型,以實現久保桃外部缺陷的定性判別。

1 支持向量機模型的參數優化

由于傳統SVM模型隨機生成參數值,導致分類精度不穩定[19],因此需要對SVM模型進行優化。訓練模型的核函數(radial basis function,RBF)徑向基函數的參數優化決定整個模型的效率,徑向基函數的參數包括核參數g與懲罰參數C,文章采用遺傳算法(genetic algorithm,GA)、粒子群算法(particle swarm optimization,PSO)、網格搜索算法(grid search,GS)3種優化方法對C和g值進行優化。

1.1 基于遺傳算法的SVM參數優化

GA作為一種經典的尋優算法,具有適用性好、搜索速度快、效率高的特點。其核心步驟是:參數編碼、設定初始群體、設計適應度函數、設計遺傳操作、設定控制參數、篩選出適應度高的個體[20]。文章設置種群初始數量為20,最大進化迭代次數為200,5折交叉驗證,懲罰參數C與核參數g的取值范圍為[0,100],將參數對輸入SVM模型中,對樣本訓練,計算個體的適應度值,直到達到最大迭代次數,停止搜索,輸出(C,g)值,實現GA對SVM的參數優化。

1.2 基于粒子群算法的SVM參數優化

PSO具有收斂速度快且收斂于全局的特點,它從隨機解出發,通過迭代粒子的位置與速度尋找最優解,并用適應度評價最優解[21]。文中設置PSO參數局部搜索能力C1為1.5,PSO參數全局搜索能力C2為1.7,種群初始數量為20,最大進化迭代次數為200,5折交叉驗證,懲罰參數C與核參數g的取值范圍為[0,100],通過更新粒子的位置與速度,計算粒子的適應度值,直到達到最大迭代次數,輸出(C,g)值,實現PSO對SVM的參數優化。

1.3 基于網格搜索算法的SVM參數優化

GS是一種最基本的參數優化算法,它將C和g參數放在一個規定的空間內,依據擬定的坐標系劃分成等大的網格,坐標系中每一組向量代表一組(C,g)值,通過將區間內的每一組(C,g)值帶入SVM中驗證預測性能,直到找到最優(C,g)值[22],確定SVM的最優參數。GS-SVM模型建立流程如圖1所示。

圖1 網格搜索法優化流程

2 實驗方法

2.1 實驗樣本

實驗樣本選用2個批次,共302個久保桃樣本,均采自于山西省晉中市太谷區西山底村桃園,其中第一批242個樣本用于建模集和測試集,第二批62個樣本用于驗證集。將242個樣本[120個完好桃,122個缺陷桃(50個瘡痂桃和72個腐爛桃)]利用Kennard-Stone算法將三類樣本按照3∶1的比例隨機分為180個校正集和62個預測集。圖2為三類樣本圖。

圖2 完好桃與缺陷桃樣本圖

2.2 高光譜儀器及數據處理軟件

文章采用的高光譜分選儀是來自北京卓立漢光公司,型號為:ZOLIX Gaia Sorter型的“蓋亞”高光譜分選儀。設定樣本的曝光時間為20 ms,樣本到鏡頭高度為22 cm,電控移動平臺前進的速度為2 cm/s,采集樣本后需要進行黑白校正,具體校正方法見參考文獻[23]。

高光譜圖像采集與樣本的黑白校正在軟件Specview中完成,采用ENVI4.7軟件(ITT Visual in formagtion Solutions, Boudler,美國)提取樣本的光譜信息,采用The Unscrambler X10.1(CAMO AS, Oslo,挪威)軟件、Matlab R2016a(The Maths Works,Natick,美國)軟件進行光譜預處理、特征波長的提取及模型的建立與分析。采用Origin8.5(Origin Lab,美國)繪制原始光譜圖、平均光譜圖。

3 結果與分析

3.1 原始光譜曲線

感興趣區域(region of interest, ROI)的選擇應是最能代表圖像內容特征的部分,該部分區域的選擇能極大地提高圖像處理和光譜數據分析的準確率和精度[24]。文章選擇三類桃樣本的表面80像素×80像素的ROI,經處理得到三類樣本的原始光譜和平均光譜如圖3所示。

a-原始光譜曲線;b-平均光譜曲線

由圖3可知,三類久保桃樣本的平均光譜曲線存在著較大差異。三類樣本均在1 211 nm和1 462 nm處出現明顯吸收峰,其中900~1 211 nm處的吸收峰與久保桃表皮及桃果實細胞中葉綠素和類胡蘿卜素的吸收有關,1 462 nm處的吸收峰與久保桃的內部水分和糖分吸收有關,分別為O—H三級和二級倍頻特征吸收峰[25],三類樣本的總體反射率呈現下降趨勢。

3.2 光譜預處理

對采集到的光譜數據進行預處理可有效優化原始光譜數據,提高模型的精度[26]。PLS模型是一種經典的線性擬合模型,可用來解決變量之間的相關性及小樣本問題[27]。文章采用導數間隙段(derivative-gap-segment)、基線校正(baseline)、中值濾波(median filter,MF)、導數卷積平滑(derivative-savitzky-golay)、光譜學(spectroscopic)等5種預處理方法來對原始光譜數據進行處理,對比原始光譜與經預處理后的光譜數據所建立的PLS模型的相關系數R2和交叉驗證均方根誤差(root-mean-square error,RMSE)來確定最佳光譜預處理方法(注:所建立的模型相關系數越大,均方根誤差越小,所建模型精度越高)。光譜預處理結果見表1。

表1 不同預處理方法建立PLS模型

由表1可知,經MF預處理后的模型精度相對較高,標準偏差相對較低。其校正集決定系數為0.87,均方根誤差為0.32。預測集決定系數為0.89,均方根誤差為0.29。因此選擇經MF預處理后的數據進行后續研究。

3.3 特征波長的選取

特征波長的提取是指通過從全波段中挑選一些有代表性的波長,冗余程度最少,共線性最小的,可以代表樣本主要信息的優選值[28],這樣做可以極大地提高運行速度,減少運行時間。本文采用回歸系數法(regression coefficient, RC)和競爭性自適應重加權算法(competitive adaptive reweighted sampling,CARS)提取特征波長。

3.3.1 RC回歸系數法

RC回歸系數法是在采用PLS的預測模型中得到的,應用每個局部光譜信息的波長信息對應的RC系數來判斷所構建的模型的預測能力的強弱的一種方法[29]。所以可根據RC系數絕對值的大小選擇特征波長從而確定所需要的提取值,RC回歸系數法提取過程如圖4所示。

圖4 RC提取特征波長

綜上所述,根據RC系數極值絕對值的大小選擇所需特征波長提取,文章從小到大依次選取了12個特征波長,分別為:908、940、985、1 128、1 221、1 313、1 339、1 373、1 421、1 589、1 656、1 685 nm。

3.3.2 CARS競爭性自適應重加權算法

CARS競爭性自適應重加權算法的原理是將蒙特卡羅采樣與偏最小二乘回歸系數法相結合來實現變量優選,本質是依據達爾文的生物進化論中的“適者生存”的原理,在進行變量優選的過程中,首先根據指數衰減函數進行無用變量的剔除,再將剩余的光譜數據利用自適應重加權算法建立模型[30]。CARS提取特征波長過程如圖5所示。

圖5 CARS提取特征波長

由圖5-a可以看出,隨著蒙特卡羅采樣次數從1次增加到50次,所采集的變量在逐漸變少;從圖5-b可以看出,RMSE值在第24次采樣時均方根誤差最小,最小值為0.323 4;從圖5-c可以看出,第24次采樣時均方根誤差值最小,運行次數為24時,選取了25個特征波長,分別為:966、1 131、1 217、1 227、1 310、1 316、1 319、1 418、1 421、1 424、1 427、1 558、1 567、1 577、1580、1 583、1 596、1 599、1 605、1 643、1 650、1 653、1 656、1 659、1 685 nm。

3.4 預測模型的建立及結果分析

對久保桃的外部缺陷進行分類時,設定完好桃類別為1,瘡痂桃類別為2,腐爛桃類別為3。運用GS-SVM模型,設置C與g的取值范圍為[0,100],最終得到最佳參數對為;C=48.50,g=0.11。將此最佳參數對輸入到SVM模型中,對SVM參數進行優化。

為了檢測GS-SVM模型的性能,選取GA-SVM模型,PS0-SVM模型進行比較,將經過MF預處理后RC和CARS提取的特征波長值和類別值作為輸入,得到GA-SVM模型的最佳參數為:C=6.38,g=0.61;PS0-SVM模型的最佳參數為C=35.63,g=0.10,將各個模型的最佳參數對帶到模型中,對久保桃的外部缺陷進行分類,通過綜合考慮模型的訓練效果與預測效果,選擇出最優的分類模型,結果如表2所示。

表2 三種模型精度對比

由表2可知,3種優化模型的判別準確率均達到了95%以上,其中基于CARS算法提取的特征波長所建模型的準確率較高。說明CARS為有效的波長提取方法?;贑ARS所建的GS-SVM模型預測集的判別準確率最高,為96.77%,運行時間為11.5 s;GA-SVM模型、PSO-SVM模型預測集的判別準確率均為95.16%,但GA-SVM模型訓練集的判別率為93.88%,且運行時間較短,為8.95 s;PSO-SVM模型訓練集的判別率為93.33%運行時間為22.26 s,所以GA-SVM模型優于PSO-SVM模型。綜合比較來看,CARS-GS-SVM判別模型最優,CARS-GA-SVM模型次之,CARS-PSO-SVM判別模型相對來說最差。因此選擇CARS-GS-SVM模型為最優判別模型,其訓練集的判別率為93.33%,預測集的判別率為96.77%,運行時間為11.5 s。

圖6、圖7、圖8分別是CARS-GS-SVM模型、CARS-GA-SVM模型、CARS-PSO-SVM模型的尋優過程和預測結果。圖6-a是GS對SVM參數的尋優結果三維圖,圖中三維坐標中的縱坐標代表分類準確率,橫坐標代表參數(C,g)的值。由圖可知,優化后的參數BestC為48.50,Bestg為0.11,圖6-b是訓練集與測試集的判別結果。由圖6-b可以看出,測試集的2個誤判數是將1個瘡痂桃識別為完好桃,這是由于瘡痂面積過小容易造成誤判,1個瘡痂桃識別為腐爛桃,則是由于瘡痂桃表皮部位下面損傷造成的誤判。完好桃與腐爛桃的判別率為100%。

a-尋優過程;b-訓練集預測結果;c-測試集預測結果

a-尋優過程;b-訓練集預測結果;c-測試集預測結果

a-尋優過程;b-訓練集預測結果;c-測試集預測結果

3.5 模型的外部驗證

為了驗證以上模型的準確性和穩定性,提升實驗結果的可信度,利用第二批采集的久保桃樣本進行模型的外部驗證。挑選完好桃、瘡痂桃、腐爛桃共計62個桃樣本組成驗證集,采用CARS算法提取特征波長后,將特征波長代入上述3種優化模型中進行預測,模型的參數與上述模型保持一致。模型外部驗證的判別準確率如表3所示。

表3 各模型驗證集分類結果

綜合比較可知,GS-SVM模型判別準確率最高為91.94%,用時5.0 s;GA-SVM模型與PSO-SVM模型判別準確率相同,為90.32%,GA-SVM模型用時6.4 s,PSO-SVM模型用時19.5 s。GA-SVM模型所用時間低于PSO-SVM模型,因此GS-SVM判別模型最好,GA-SVM模型次之,PSO-SVM模型相對來說較差。與上述結論一致,說明CARS-GS-SVM模型穩定性好。

3 結論

為了快速檢測久保桃的外部缺陷,實現優果優價。文章采用高光譜成像技術對久保桃的外部缺陷進行了研究,將高光譜技術的光譜信息結合不同的光譜預處理方法,分別建立GS-SVM、GA-SVM、PSO-SVM模型進行對比分析。結果如下:

b)基于RC、CARS兩種方法提取的特征波長分別建立GS-SVM、GA-SVM、PSO-SVM模型,比較多種模型可知,CARS-GS-SVM模型效果最優,其訓練集的判別率為93.33%,預測集的判別率為96.77%,驗證集的判別準確率達到了91.94%,運行時間為11.5 s。較好地實現了久保桃外部缺陷的檢測。研究結果表明,高光譜成像技術可以用來實現久保桃的外部缺陷檢測,為開發久保桃的分級分選設備提供理論基礎。

猜你喜歡
波長預處理光譜
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
基于三維Saab變換的高光譜圖像壓縮方法
基于預處理MUSIC算法的分布式陣列DOA估計
雙波長激光治療慢性牙周炎的療效觀察
日本研發出可完全覆蓋可見光波長的LED光源
淺談PLC在預處理生產線自動化改造中的應用
星載近紅外高光譜CO2遙感進展
絡合萃取法預處理H酸廢水
便攜式多用途光波波長測量儀
基于自適應預處理的改進CPF-GMRES算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合