?

聯合矩陣局部保持投影的近紅外光譜特征提取

2020-12-04 08:19胡善科秦玉華段如敏吳麗君宮會麗
光譜學與光譜分析 2020年12期
關鍵詞:降維特征提取煙葉

胡善科,秦玉華*,段如敏,吳麗君,宮會麗

1. 青島科技大學信息科學技術學院,山東 青島 266061 2. 云南中煙工業有限責任公司技術中心,云南 昆明 650024 3. 中國海洋大學信息科學與工程學院,山東 青島 266100

引 言

近紅外光譜技術具有快速、高效、準確性好,不損壞樣品等特點,目前大量用于石油化工、環境科學、食品藥品等領域[1]。 我國是煙草大國,每年的煙葉收購量龐大,但煙葉質量受各種因素的影響,需首先經過分級處理才能保證原料的合理利用。 然而目前煙葉分級主要以人工為主,煙葉分級存在主觀性強、效率低、誤差大,利用率低等問題[2]。 隨著近紅外光譜技術的發展,近年來,它在煙草自動分類中得到了很好的應用,不僅能獲得煙葉顏色的外觀特征,而且能反映煙葉的內在質量信息,與人工、圖像視覺提取、數學推理等分類技術相比具有天然優勢[3]。 然而,近紅外光譜數據具有高維、頻帶重疊、噪聲大和非線性等特點,高維空間的稀疏性與空空間等現象也嚴重影響了結果的準確性,針對這些問題,對高維光譜數據進行與建模相關性高的特征提取尤為重要[4]。 魯夢瑤等提出采用隔點采樣的方法對光譜數據進行特征提取, 從而加快收斂速度,但該方法容易丟失重要特征; 何勇等[5]采用主成分分析(principal component analysis,PCA)與神經網絡相結合的方法對光譜數據進行降維,并以PCA變換后的變量作為輸入參數,但PCA是一種線性降維方法,無法獲取數據的非線性結構特征; 高全學等[6]提出了改進(local preserving projection,LPP)的非線性降維算法, 在特征提取過程中,融合了局部結構和差分信息,但對稀疏數據的效果并不理想。

針對上述問題,提出了一種基于聯合矩陣的局部保持投影(local preserving projection algorithm based on joint matrix, JMLPP)特征提取方法。 首先,通過基于聚類的特征提取[7]剔除類內相關度低、類間相關度過高的特征,實現了光譜中噪聲信息的剔除。 其次,采用改進的LPP算法對光譜數據進行降維,解決了冗余特征和非線性結構的影響。 此外,在LPP算法中引入測地線距離[8],并對邊權矩陣公式進行了改進,解決了樣本稀疏帶來的不確定性。 JMLPP方法實現了煙葉分級信息的有效提取,提高了煙葉分級準確性。

1 算法與原理

1.1 基于聚類的特征提取

(1)

(2)

其中γ2∈[0,1]。 通過調節類間參數γ2找到合適類間閾值之后,篩選出的特征具有較好的離散性。 聯合類內閾值與類間閾值對光譜數據的處理,最后得到篩選出的指標特征矩陣。

分類方式可能有N種,可得到N個指標特征矩陣,考慮到分級的準確性,對得到的N個指標特征矩陣進行并集操作得到聯合矩陣。 選取與煙葉分級相關性高的成熟度與部位指標進行分類,從光譜矩陣中分別選出與成熟度和部位相關性高的特征,從而得到兩個特征矩陣,并集產生一個聯合矩陣。 通過聯合矩陣運算可減少“維度災難”問題,剔除與分類無關的噪聲信息,提高計算精度,但仍存在光譜數據冗余、非線性等特點。

1.2 改進的局部保持投影算法

局部保持投影(LPP)算法[9]是由何小飛教授于2003年提出,LPP是一種線性降維和非線性降維相結合的降維算法。 與PCA算法相比,LPP算法能夠保留全局信息,在線性降維的同時也保留局部非線性特征。 LPP生成的表現映射可看作LE (laplacian eigenmap)[10]的線性近似,保留了數據的局部信息,應用在高光譜數據和圖像識別等領域[11]。

給定m個在歐式空間RN的N維數據樣本X={x1,x2, …,xm},xj∈RN, (j=1, 2, …,m),LPP通過生成最近局部鄰域圖,獲得樣本數據的k近鄰域。 LPP的目標是將高維空間非線性流行數據X投影到低維空間特征映射矩陣Y,找到最優轉換矩陣Z,其本質是Laplacian Eigenmap的線性逼近,如式式(3)

yj=ZTxj

(3)

優化目標函數后為

(4)

LPP算法為了保證映射后矩陣能最大程度保存數據局部結構屬性,使距離較近的樣本xj,xi經過映射后仍保持較近距離,引入相似性度量矩陣Wji

(5)

其中xj和xi互為k鄰域內的點,δ是一個常數,W為實對稱矩陣。

對優化目標函數進行變化

(6)

s.t.zTXDXTz=1

(7)

則最小化目標函數為

argminzTXLXTz

(8)

即求解下式廣義矩陣特征值

XLXTz=λXDXTz

(9)

矩陣XDXT,XLXT是對稱且半正定的,式(9)得到前h個最小特征值的特征向量z1,z2, …,zh構成最優轉換矩陣W=(w1,w2, …,wz)。

LPP算法在保持全局非線性結構的同時進行局部線性降維,但煙葉光譜數據具有高冗余、高噪聲、重疊、離散性大等特點,且LPP算法單純依據歐式距離構造鄰域圖,無法表達樣本點間真實的拓撲結構,對煙葉近紅外光譜數據的處理存在一定不足。 本文對LPP算法作了如下改進: 用測地線距離代替歐式距離,根據Dijkstra算法得到的最小距離構造鄰域圖,并改進邊權矩陣。 利用貪心算法得到樣本中某一點距離較近的前k個頂點,作為k近鄰域。

設構造的鄰域圖為:G={V,E,W}, 其中V為樣本頂點集合,E是邊集合,W是邊權矩陣, 設測地線距離為dG(xj,xi),則改進后的邊權矩陣為

(10)

在離散性大的高維流形數據中,測地線距離可以較好的表達兩點之間的實際距離,使樣本點整體分布趨于均勻,相較于歐式距離具有明顯優勢,提高了LPP的降維效果。

1.3 基于聯合矩陣的局部保持投影特征提取方法

基于聯合矩陣的局部保持投影(JMLPP)特征提取方法具體步驟如下:

(1)按N種與分類相關性強的指標將樣本分為N種不同的分類方式,每種分類方式篩選k個特征進行基于聚類的特征選擇。

(2)基于聚類的特征選擇需要挑選類內關聯性強,類間差異性大的特征。 通過調節類內參數γ1、類間參數γ2確定類內閾值D(l)與類間閾值D,分別對N種不同聚類方式篩選光譜特征區間得到N個指標特征矩陣M1,M2,…,MN,并集操作生成聯合矩陣M。

(3)將聯合矩陣M采用改進的LPP算法進行降維操作,得到去噪、去冗余的數據特征子集Y={y1,y2,…,ym}。

2 實驗部分

2.1 樣品制備

來自某煙草企業提供的包括B2V,B1F,C4F,C1L,X2L五個不同等級共650個煙葉樣品,其中每個等級各130個。 將樣品放置在60 ℃的烘箱中干燥2 h,磨粉過60目篩,密封平衡8 h后進行光譜采集。

2.2 煙葉光譜采集與預處理

使用賽默飛世爾公司Antaris Ⅱ近紅外光譜儀,采用漫反射方式,掃描范圍為3 800~10 000 cm-1,分辨率為8 cm-1, 室溫保持在18~22 ℃,每個樣品取15 g壓實后置于光譜儀中掃描3次,計算其平均值作為最終光譜。

為了消除基線漂移和噪聲的影響,需要對采集到的光譜數據進行預處理,經比較本文采用一階導數和Savitzky Golay平滑[12]。

3 結果與討論

3.1 聚類參數、的確定與特征提取

因影響煙葉分級的關鍵指標包括成熟度與部位,分別從650個樣品中按成熟度與部位選取部分特征明顯的煙葉樣品進行基于聚類的特征提取。 其中按成熟度分為成熟、尚熟與假熟,共選取了420個樣品; 按部位分為上部、中部與下部,共選取了450個樣品。 具體樣品信息劃分如表1所示。

表1 聚類特征提取實驗樣品劃分Table 1 Sample partition of cluster featureextraction experiment

首先利用基于聚類的特征提取方法分別從成熟度和部位指標篩選與煙葉分級相關的特征。 根據文獻[10]與實驗分析,類內參數γ1、類間參數γ2的取值分別在0.9~1,0~0.01之間細化搜索得到最佳取值。 圖1和圖2分別為γ1和γ2按部位和成熟度聚類的搜索結果。

可以看出,按部位分組時,類內參數γ1=0.95,類間參數γ2=0.000 4時識別率較好,提取的光譜數據特征為983個。 按成熟度分組時,類內參數γ1=0.95,類間參數γ2=0.001 4時識別率較好,提取的光譜數據特征為892個。 為保證信息提取的完整性,本文將兩個特征子集進行并集操作生成一個聯合矩陣,聯合矩陣的光譜特征從1 560減少到1 102個,較全光譜數據減少了28.9%。

圖1 γ1細化搜索(a): γ1部位分組; (b): γ1成熟度分組Fig.1 Refined search of γ1(a): γ1 grouped by location; (b): γ1 grouped by maturity

3.2 降維投影分析

特征選擇可消除對分級無關的噪聲特征,但篩選出的光譜數據仍存在冗余、非線性特征,這將對煙葉分級的準確性產生影響,因此采用改進的LPP方法對提取的特征進行進一步降維處理,從而消除冗余特征的影響。 圖3—圖5為JMLPP與PCA,LPP的投影對比。

圖2 γ2細化搜索(a): γ2部位分組; (b): γ2成熟度分組Fig.2 Refined search of γ2(a): γ2 grouped by location; (b): γ2 grouped by maturity

圖3 PCA投影圖Fig.3 PCA projection plot

圖4 LPP投影圖Fig.4 LPP projection plot

可以看出,PCA投影空間中樣品混合現象比較嚴重,各等級邊界模糊,難以實現煙葉等級的區分。 LPP投影空間中的煙葉等級分類效果好于PCA,但仍存在較多樣品區分模糊問題。 而JMLPP投影空間中的煙葉樣品分類清晰,效果明顯好于PCA與LPP,說明該方法有較好的等級區分能力。

圖5 JMLPP投影圖Fig.5 JMLPP projection plot

3.3 分類結果對比分析

選取75%的樣本做為訓練集,25%的樣本做為測試集,分別采用全譜段與PCA,LPP和JMLPP降維后的特征建立煙葉等級分類模型。 幾種降維方法選取前6個成分做為輸入指標,采用SVM做為分類器。 表2為幾種方法下郴同等級煙葉分類準確性對比,為防止偶然性,準確率取5次實驗結果的平均值。

表2 煙葉分級結果對比Table 2 Comparison of tobacco leaf grading results%

由表2可以看出,對于每個等級煙葉的分類準確率,全譜段做為輸入特征效果最差,主要由于高維光譜中存在較多噪聲和冗余信息,無法實現煙葉分級信息的有效提取,影響了分類的準確性。 JMLPP方法煙葉總體分類的準確率為93.8%,每個等級的分類準確性都明顯高于其他方法,說明該方法能較好的對煙葉分級信息進行提取,這與前面投影分析結果一致。

敏感度與特異度可以分別衡量算法對于正例與負例的識別能力,表3為幾種分級算法模型對5種等級煙葉分類的敏感度與特異度對比。

表3 煙葉分級算法敏感度與特異度對比Table 3 Comparison of sensitivity and specificity of tobacco leaf classification algorithms

可以看出,JMLPP算法的敏感度、對煙葉等級的識別錯誤率明顯好于其他幾種方法,進一步說明JMLPP方法具有較好的魯棒性。

4 結 論

基于聯合矩陣局部保持投影算法較好的解決了光譜數據高維、重疊、高噪聲的問題。 該方法通過聚類實現了與分類相關性強的多個特征子集的提取,并集后得到聯合矩陣,有效降低了光譜數據維度,減少了噪聲干擾。 通過對LPP算法的改進,解決了高維數據歐氏距離度量不準確的問題,提高了降維效果。 實驗結果表明,JMLPP方法對于煙葉等級判定具有更好的準確率與魯棒性,可以作為煙葉分級的一種新方法。 下一步,需要提高算法效率,拓寬算法的應用范圍。

猜你喜歡
降維特征提取煙葉
混動成為降維打擊的實力 東風風神皓極
降維打擊
關于新形勢下煙葉生產可持續發展的思考
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于Daubechies(dbN)的飛行器音頻特征提取
煙葉主要真菌病害的發生與防治
Bagging RCSP腦電特征提取算法
一種改進的稀疏保持投影算法在高光譜數據降維中的應用
一種降低造紙法再造煙葉平滑度的方法
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合