?

基于圖像處理的花生莢果品種識別方法研究

2012-11-28 02:29韓仲志鄧立苗于仁師
中國糧油學報 2012年2期
關鍵詞:莢果識別率圖像處理

韓仲志 鄧立苗 于仁師

基于圖像處理的花生莢果品種識別方法研究

韓仲志 鄧立苗 于仁師

(青島農業大學理學與信息科學學院,青島 266109)

為實現品種鑒定與真偽識別的自動化,基于圖像識別的方法,采用掃描儀采集了20個品種,每個品種100顆花生果正面和2個側面的圖像,分別獲取每幅圖像的形態、顏色和紋理三大類共50個特征,并對這些特征進行主分量分析(PCA)優化,針對優化和沒有優化的特征,搭建了人工神經網絡識別模型和支持向量機模型,并采用兩種模型進行品種識別,結果表明,采集的特征經PCA優化后表現出更強的識別性能,SVM較神經網絡識別效果總體上得到提高,并且識別效果穩定。品種的數量對識別效果有影響,在通常情況下可根據品種的數量來確定特征的數量,可以進一步提高效率,對20個品種,需要選擇超過15個特征。顏色類特征比形態類和紋理類特征具有更好的識別效果,經過不同類別的特征組合后,整體上識別性能達到90%以上,基本可以推廣到實際生產中使用。

花生莢果 品種識別 神經網絡 支持向量機 主分量分析

我國花生產量居世界第一,并且新品種的數目很多,花生品種鑒定與檢測是花生新品種選育的重要內容。我國的花生DUS測試指南[1](簡稱指南)規定花生莢果形態特征為主要性狀,數據采集主要依靠目測分級及手工測量,存在速度慢、精度低、客觀性差等問題。而且,隨著注冊品種增加,客觀上要求添加新的性狀以區別類似品種。

圖像處理技術和生物化學技術與分子技術一樣,是國際植物新品種保護聯盟(UPOV)認可的植物DUS測試新技術[2]。圖像處理技術通過采集種子外觀特征數據,并根據這些特征鑒別不同品種。韓仲志等[3-4]基于圖像的外觀表現型提取了玉米種子的數十個特征,基于這些特征采用軟件分析方法,證實了圖像處理技術在玉米種子檢驗過程的應用可能;作者曾深入探討了花生籽仁在品種識別中的作用[5-7],也得出了較好的結論。另外圖像處理的方法還用在了諸如小麥[8]、水稻[9]等其他作物上,然而在花生莢果種子品種識別檢驗過程中使用此方法較少?;ㄉv果作為花生重要的器官,具有重要植物分類學和作物學地位,是新品種DUS測試的重要對象。一些遺傳因素和環境因素會反映在莢果外觀表現上,進而能夠鑒別不同的品種?;谶@一點,本研究主要探討了花生莢果識別過程中特征數量、特征優化算法、識別模型、樣本數量、以及特征組合等對識別率的影響,以進一步考察識別過程中的關鍵影響因素。

1 材料與方法

1.1 試驗材料

供試的花生品種共有20個,均來自農民自留種,試樣品種分別來自河北、山東日照、濰坊、青島和萊陽主要花生產區,主體北方大花生品種(表1)。每個品種選取正常無破損100粒帶殼花生種子。

表1 試驗材料

用掃描儀采集圖像,掃描式按固定次序與方向將種子擺放于掃描儀上,將掃描儀蓋板完全打開進行圖像掃描。因為背面圖像很難獲取,為獲得更為全面的圖像,分別對每一品種莢果進行正面和側面掃描,如圖1。

圖1 掃描圖像樣片

試驗用的掃描儀型號為佳能 CanoScan 8800F,平板式CCD掃描儀,光學分辨:4 800dpi×9 600dp;最大分辨率:19 200dpi,掃描范圍:216×297 mm;使用的計算機為聯想ideaCentre Kx 8160:CPU為Intel酷睿2四核 Q8300 2.5GHz,內存 DDRIII4G;閃存1 G,硬盤500 G;Winows XP操作系統。

1.2 特征提取與特征優化

圖像的預處理包括圖像的增強、去噪、中值濾波、邊緣檢測、形態學操作和圖像的色彩空間轉換等常規的預處理方法。提取的外觀特征共分3大類50個特征,其中顏色特征、形態特征和紋理特征分別從彩色圖像、二值化圖像和紋理圖像獲取。形態類包括反映大小的有8個:面積、長軸長、短軸長、長度、寬度、周長、等面圓直徑、凸形面積;反映形狀的有5個:橢圓度、矩形度、圓形度、緊湊度、凹凸比;顏色類包括RGB顏色空間的三個分量的均值、方差、偏度和峰度與HSV顏色空間三個分量的均值、方差、偏度和峰度;紋理類包括灰度圖像均值、方差、平滑度、三階矩、一致性、熵;及包括反映種子圖像灰度值次數分布特點的7個統計不變矩。對這些特征的定義參見相關文獻[10-12]。圖像預處理和特征提取過程均基于Matlab R2008a軟件編程實現。

傳統的特征降維與優化是基于二階統計量進行的主分量分析(PCA)方法[10],PCA是統計學中分析數據的一種有效的方法,其目的是在數據空間中找一組向量以盡可能地解釋數據的方差,將數據從原來的R維空間降維投影到M維空間(R>M),降維后保存了數據中的主要信息,從而使數據更易于處理。PCA方法是沿數據集方差最大方向尋找一些相互正交的軸,主成分分析方法是一種最小均方誤差下的最優維數壓縮方法。

1.3 識別模型的構建

本試驗所涉及的識別模型為BP人工神經網絡算法和支持向量機模型。BP(Back Propagation)神經網絡是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用最廣泛的神經網絡模型之一。BP網絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。它的學習規則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小。BP神經網絡模型拓撲結構包括輸入層、隱層和輸出層,共三層結構[13]。本試驗所取各層神經元數目為50-17-20,輸入層為特征數共50個,輸出層為20個品種,隱含層神經元數目目前沒有理論上的指導,選用的17為多次實驗得到最佳值。

支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有2個互相平行的超平面。建立方向合適的分隔超平面使2個與之平行的超平面間的距離最大化。其假定為,平行超平面間的距離或差距越大,分類器的總誤差越?。?]。鑒于本試驗需要對多個品種進行識別,所以本試驗需要構建一個多類SVM分類模型[14],類別數為20。

2 結果與分析

2.1 特征對識別模型的影響

通過特征提取每個籽粒的50個特征,由于每個品種100?;ㄉ?,共20個品種,所以得到2 000×50的統計特征矩陣?;谶@些統計特征分別使用人工神經網絡(ANN)和支持向量機(SVM)算法進行特征識別,由于上述統計特征數據量大,而且特征之間存在大量的信息冗余,所以有必要進行數據降維和特征優化。試驗中使用了PCA方法進行優化,將優化后的特征,作為ANNs和SVM的輸入,得到識別結果。圖2是兩種模型對不同處理特征的識別效果??梢婋S著特征數量的增加,識別率總體上是增加的,當特征數量達到一定數值后,數量的增加對識別率增加影響不太明顯,進一步增加特征數量將不能有效的提高識別率。

圖2 兩種模型對不同處理特征的識別效果

另外,PCA特征較原始的統計特征在同一種識別模型上都表現出一定的優越性,可見,在提取到反映作物本身的特征后,有必要對這些特征進行PCA分析,進一步去除數據冗余,提高識別效果。

容易發現神經網絡的識別能力較SVM的識別能力要差很多,特別在特征數量較大的情況下,SVM能充分發揮算法的優越性,而神經網絡顯得遜色不少。還有就是神經網絡由于初始權值是由系統隨機給出,所以帶來識別結果的不穩定性,圖2中是識別每個數據為相應條件下識別10次得到的最高值。但還是不能有效消除不確定性,建議在將來的試驗中,將識別次數重復200次以上,從而減少這種干擾。

在使用PCA特征時主分量的個數影響著識別結果,圖3中列出了前5個主分量的貢獻率和累積貢獻率,可見當主分量個數達到5個時,此時測得累積貢獻率大于85%,已經能夠在很大程度上代表原始統計特征的主要信息。

圖3 前5個主分量貢獻率與累積貢獻率

2.2 樣本數量對識別結果的影響

試驗中采集的品種數量共20個,隨著樣本數量的增加,數量從1增加到20,識別效果總體上呈下降趨勢。圖4是選擇5個特征時,SVM模型中統計特征和PCA特征在樣本增加時的識別率表現。

圖4 SVM在樣本增加時的識別率

容易看出總體上PCA特征較原始統計特征在識別率上能夠提高10%左右,并且使用5個特征,在類別較少時能夠區分不同的品種,如兩個品種的二分類,原始統計特征和PCA特征識別率分別達到88%和91%,當品種增加到20個時,這一數字下降到45.3%和51.6%。然而,在現實品種識別過程中,涉及的品種數目往往較少,采用較少的PCA特征能夠完成這一任務?;赑CA特征的SVM模型是一種識別過程中的優選模型。

2.3 特征類別及組合對識別率的影響

為考察不同類別的特征對品種識別的影響,將三大類特征分別計算,得到的識別率效果如表2。針對20個品種,單獨使用原始統計特征,形態類、顏色類、紋理類特征的識別率分別達到了55.7%、97.9%和85%,經過PCA優化后,識別率提高到98.7%、99%和99.1%。PCA優化對形態類和紋理類特征的優化效果明顯,使用特征組合后不管是形態+紋理、顏色+紋理、還是形態+顏色,識別率都達到了99%以上,基本上能夠對對所有品種進行檢出。統計特征和PCA優化特征對品種識別率的影響不大,究其原因是,當特征數量比較多的情況下識別率已經達到了較高的水平,而且特征之間純在一定的冗余信息,特征的增加并不能進一步提高識別率。

表2 特征組合的識別效果

3 討論

植物器官的大小取決于細胞的分裂與生長,形狀主要依賴于細胞分化,顏色則與顯色物質的代謝密切相關,紋理則是細胞分裂、生長、分化與代謝相互作用的最終形態體現。因此,可以大體上認為這4種屬性的性狀之間是相互獨立的,另外遺傳力與識別率之間存在高度的正相關關系[10]。本研究中花生莢果圖像特征的確定就是基于這點認識。

采用圖像處理方法的作物種子識別,不僅可以替代部分人工測量,獲得更高精度的結果,而且還能夠提供新的DUS候選性狀[3],供遺傳育種家參考。本研究發現花生莢果圖像的特征提供了有價值的品種性狀,采用合適的模型能夠對種子的真偽進行有效鑒別。PCA優化特征總體上比原始統計特征具有更好的識別性能,三大類特征中,顏色特征的識別效果明顯較形態和紋理特征好。原因是采集的顏色特征數量較多,還有可能品種由于種植在不同地區土壤條件差別較大,以及品種本身遺傳上的顏色差別所至。反映形態特征在品種識別中并不是好的特征,可能是由于產地的不同、土壤環境等影響著花生莢果的發育。前人在研究亞麻品種識別時證實了這一點,僅用4個形態性狀無法正確區分53個亞麻品種類群,增加3個顏色性狀后,獲得了理想的類群[13]。

所采集的花生品種均來自農民的自留種,由于這些種子在多年的種植過程中不可避免的會產生品種的混疊,導致品種不純,造成識別結果上的偏差,更多的采集育種家種子進行進一步測試將會使檢測結果更好,更有說服力。

本研究主要是識別不同的品種,有涉及識別同一品種的良莠問題,對同一品種的良莠的鑒別是品種檢測中的一個重要問題,對其準確鑒別僅使用圖像識別的方法可能識別結果并不是太理想,品種的良莠更多的是反映在品種的生命力、品種環境適應性及品種的豐產基因上體現出來,可能還需要更多的化學以及生物培育方法來鑒別。

雖然本研究適用于品種的真偽測試,及適用于遺傳育種及種質資源保護領域。然而只是這個領域的初步結果,所以,在正式用于品種測試和鑒定之前,有必要進一步擴大測試品種數量,進一步考察候選性狀的品種間多樣性、品種內一致性、地點年際間穩定性。

4 結論

為實現品種鑒定與真偽識別的自動化,采用圖像識別的方法,采集了20個品種,每個品種100顆花生果正面和2個側面的圖像,分別獲取每幅圖像的形態、顏色和紋理三大類共50個特征,對這些特征進行PCA優化,針對優化和沒有優化的特征,搭建了人工神經網絡識別模型和支持向量機模型進行品種識別,結果表明,采集的特征經PCA優化后表現出更強的識別性能,SVM較神經網絡識別效果總體上得到提高,并且識別效果穩定。品種的數量對識別效果有影響,在通常情況下可根據品種的數量來確定特征的數量,可以進一步提高效率。顏色類特征比形態類和紋理類特征具有更好的識別效果,經過不同類別的特征組合后,整體上識別性能達到90%以上,已經基本可以推廣到實際生產中使用。

[1]農業部植物新品種測試(廣州)分中心.花生新品種DUS測試性狀照片拍攝規范[S].中國農業出版社,北京,2010,6

[2]楊雪.支持向量機多類分類方法的研究[D].哈爾濱:哈爾濱工程大學,2006:17-22

[3]趙春明,韓仲志,楊錦忠,等.玉米果穗DUS性狀測試的圖像處理應用研究[J].中國農業科學,2009,42(11):4100-4105

[4]韓仲志,趙友剛,楊錦忠.基于籽粒RGB圖像獨立分量的玉米胚部特征檢測[J].農業工程學報,2010,26(3):222-226

[5]韓仲志,趙友剛.基于計算機視覺的花生品質分級檢測研究[J].中國農業科學,2010,43(18):3882 -3891

[6]韓仲志,趙友剛.基于外觀特征識別的花生品種與品質檢測方法[J].中國糧油學報,2009,24(5):123-126

[7]韓仲志,趙友剛.花生外觀品質品種圖像分析與系統仿真[J].中國糧油學報,2010,25(11):114 -118

[8]Sakai N,Yonekawa S,Matsuzaki A.Two- dimensional image analysis of the shape of rice and its application to separating varieties[J].JFood Eng,1996,27:397 -407

[9]Dubey B P,Bhagwat SG,Shouche SP,et al.Potential of artificial neural networks in varietal identification using morphometry of wheat grains[J].Biosyst Eng,2006,95(1):61-67

[10]楊錦忠,張洪生,郝建平,等.玉米果穗圖像單一特征的品種鑒別力評價[J].農業工程學報,2011,27(1):196-200

[11]郝建平,楊錦忠,杜天慶,等.基于圖像處理的玉米品種的種子形態分析及其分類研究[J].中國農業科學,2008,41(4):994 -1002

[12]楊錦忠,郝建平,杜天慶,等.基于種子圖像處理的大數目玉米品種形態識別[J].作物學報,2008,34(6):1069-1073

[13]龐濤濤,姚建斌,杜黎明.人工神經網絡分類鑒別苦丁茶紅外光譜[J].光譜學與光譜分析,2007,27(7),1336-1339

[14]韓仲志,楊錦忠.多類SVM分類算法玉米品種識別中的應用研究[J].農機化研究,2010,32(11):159 -163.

Study on Variety Identification of Peanut Pods Based on Image Processing

Han Zhongzhi Deng Limiao Yu Renshi
(College of Information Science and Engineering,Qingdao Agricultural University,Qingdao 266109)

In order to realize the automation of peanuts variety identification and recognition,based on image recognition method,we have obtained the 20 varieties images of peanut pods by scanner.Each pod includes one front and two side images of 100 peanuts respectively.For each image,we have acquired 50 characteristics including shape,color and texture categories and PCA optimization is conducted on these characteristics.Directed at the characteristics optimized by PCA and none,we construct the artificial neural network models and support vector machine model to identify different species.The results show that the acquisition features optimized by PCA show stronger recognition performance and SVM has higher recognition effect and more stability than neural network.The number of species affects the identification results.Under normal circumstances,we can determine the number of species by the number of features to improve the recognition efficiency.For 20 varieties,selecting more than 15 features is more appropriate.Features of color have better recognition results than texture and morphological character.Combining the characteristics of different categories,the overall recognition performance can reach more than 90%,which basically can be extended to actual production use.

peanut pods,variety identification,neural network,support vector machine,principal

S126

A

1003-0174(2012)02-0100-05

國家農業轉化基金(2010GB2C600255)、山東省自然科學基金(ZR2010CM039)、山東省科技攻關項目(2009GG10009057)、青島市科技發展計劃(11-2-3-20-nsh)

2011-05-28

韓仲志,男,1981年出生,講師,農業圖像處理

于仁師,男,1963年出生,副教授,農業信息化

猜你喜歡
莢果識別率圖像處理
花生莢果離散元仿真參數標定*
基于Workbench LS-dyna的花生莢果脫殼受力仿真研究
海戰場偵察圖像處理技術圖譜及應用展望
人工智能輔助冠狀動脈CTA圖像處理和診斷的研究進展
基于EDEM的發散帶式花生莢果分級機的仿真與試驗
基于ARM嵌入式的關于圖像處理的交通信號燈識別
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
花生除雜(清選)分級機的設計與研究
聽力正常青年人的低通濾波言語測試研究*
機器學習在圖像處理中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合