?

奇異品質大米的外觀特征分布研究

2021-05-26 08:28楊志曉范艷峰
中國糧油學報 2021年4期
關鍵詞:概率分布類別顏色

楊志曉 范艷峰 楊 柳

(河南牧業經濟學院能源與智能工程學院1, 鄭州 450011)(糧食信息處理與控制教育部重點實驗室;河南工業大學2, 鄭州 450001)

儲糧品質隨儲藏時間和環境的改變會發生變化。近年來,采用計算機視覺、模式識別、機器學習等技術,從顏色、幾何、紋理等特征進行自動品質檢測,已成為非常有前景的糧食品質檢測手段[1-3]。研究儲糧外觀特征變化規律,有助于實現儲糧品質的快速檢測。

糧食品質檢測的研究主要聚焦于圖像分割、特征提取、分類方法等方面。圖像分割的目的是把糧粒圖像從背景中提取出來,如對水稻品種采用閾值法邊緣檢測[4]和?;撝捣诸惙椒╗5],綜合分水嶺算法、形態測地活動輪廓和無邊緣形態活躍輪廓的分割算法[6],綜合使用HSI(色調、飽和度和強度)背景顏色模型和形態學算子、分水嶺變換以及基于投影面積和圓度的組件標記方法[7],綜合均值漂移濾波器、顏色梯度、標記分水嶺變換的分割方法[8],基于數學形態學和相關性粒度測量方法[9]等。

提取的糧粒特征包括圖像區域、長軸長度、短軸長度、長寬比、周長、偏心率、色調、飽和度、強度、破損、裂紋、霉變、蟲害等[5-10]。

采用的分類方法有AdaBoost,支持向量機[10],主成分分析結合BP神經網絡[11],綜合圖像小波矩特征、最小歐式距離判別器和隨機森林的方法[12],主成分分析和層次聚類方法[13],傅里葉變換與偏最小二乘回歸法[14],基于組合特征的稀疏表示和字典學習技術[15],深度信念網絡[16]等。

糧食是典型的散粒體,糧食品質由大量糧粒的品質綜合體現。而糧食品質在每個糧粒的表現卻具有隨機不確定性。品質間的特征值域并不存在清晰的邊界。由此帶來的問題是,雖然可以根據已知品質糧食樣本訓練分類器,但在使用訓練過的分類器預測新樣本時,無法斷言新樣本的類別歸屬。這是由于在特征值交疊區,某一特征值的樣本可能屬于一個類別,也可能屬于其他類別。而當前主流的機器學習方法將給定樣本唯一地歸屬于某個類別,因而不能處理糧食品質的不確定性問題。尤其在檢測將不同品質(如新與陳、優與劣、貴與賤、不同品種)混合的奇異糧食樣本時,現有分類方法無法準確判斷被試樣本整體的品質、奇異性及奇異時的混合比。

從特征分布的角度考察糧食等散粒體,是一種較為有效的解決方法。特征分布反映大量糧粒樣本品質的整體特性,具有可靠、穩定的優點。將不同品質糧食混合的奇異樣本,其特征分布將發生改變。根據特征分布的變化情況,可推斷出被試的品質、奇異性、混合比。以大米的顏色特征為例,研究大米顏色的分布隨儲藏時間的變化規律,提出一種基于特征分布的儲糧品質檢測及奇異性判斷方法。

1 材料與方法

1.1 主要材料

大米,常溫露天儲藏。以7周為時間周期,獲得相對儲藏期分別為0、7、14周的大米樣本,作為3個不同的大米品質類別。

1.2 大米顏色樣本采集

對每個品質大米樣本,隨機選擇195粒大米,分散放置于黑色背景平面上,拍攝圖像。為便于觀察,截取部分圖像如圖1a所示。

使用Python編程語言和scikit image圖像處理庫,將大米的原始圖像變換為灰度圖像,將灰度圖像二值化。對二值化圖像進行膨脹、腐蝕、閉合運算,將米粒圖像與背景分割,獲得米粒圖像區域像素位置索引、質心、長短軸方位及它們的長度。

根據獲得的上述信息,在原始圖像上對米粒圖像用矩形框將其標記,以便于觀察是否有遺漏米?;驑擞涘e誤的區域。并繪制米粒圖像區域的長、短軸半軸,如圖1b所示。對每個米粒圖像,選擇質心、長短軸上共21個點,提取其RGB顏色和灰度特征,采樣點如圖1c所示。

圖1 大米粒的原始圖像、分割標記和顏色采樣點

如此對每個品質的大米樣本,分別獲得15 795組RGB(紅、綠、藍)和灰度的顏色樣本。為消除光照變化的影響,將每幅圖像的大米顏色值按照極差標準化轉換到[0,1]區間。

將建立的三個儲藏期的大米顏色樣本,視為3個品質類別,分別以標簽0, 1, 2進行標記。如此得到行、列形狀為(47 385, 4)的大米顏色特征值集和47 385個類標簽的目標集。

1.3 數據處理

1.3.1 非奇異樣本的目標概率分布估計

建立的3個大米品質類別,每個類別的所有米粒屬于同一類別,即每個類別樣本是純的、非奇異的。對它們的大米顏色數據集,分別估計其顏色值概率分布,作為3個類別的相應的目標概率分布。

非奇異目標概率分布的估計方法是,將[0,1]區間進行N等分,分別對每個品質的大米顏色樣本,統計計算各通道顏色值落在每個區間的頻率,作為該顏色值的概率密度估計。它們即是非奇異樣本的目標概率分布。

1.3.2 奇異樣本的目標概率分布估計

所謂奇異樣本,本文指將不同品質大米混合在一起的混合樣本,如新與陳、優與劣、貴與賤、不同品種大米的混合等。為簡化問題,暫考慮只有二元類別混合的情況。將兩種類別的大米樣本分別按照9∶1, 7∶3, 5∶5, 3∶7, 1∶9進行二元混合,且混合后的顏色樣本數量與純的樣本數量相同。按照同樣的方法,估計各個混合比下的樣本顏色值分布,作為相應混合類別和混合比的目標概率分布。

2 結果分析

2.1 儲藏大米的顏色值分布變化規律

圖2展示了將[0,1]區間等分為30個區間,儲藏期分別為0、7、14周的R, G, B,灰度的概率估計的分布。

可以看出,不同儲藏期的大米顏色值概率分布呈現顯著差別,主要表現為峰值右移,其中紅色的峰值右移現象最為明顯,說明不同儲藏期的大米品質存在差異。圖2即為3個純(非奇異)類別c0, c1, c2的各顏色值的目標概率分布。

2.2 大米紅色值非奇異樣本的目標概率分布

從圖2可以看出,三個品質的大米紅色值的概率分布差別最大。選擇紅色作為主要特征。將標準化后的紅色值區間[0,1]等分為30份,統計各個類全部樣本落入每個區間的頻率,得到的3個類別紅色值概率估計的分布如圖3所示。它們即是3個純類別c0, c1, c2的紅色值的目標概率分布。

圖2 不同儲藏期大米顏色值的分布

圖3 三個大米品質類別的紅色值分布

圖4 類c0和c2在不同混合比的紅色值概率分布

2.3 大米紅色值奇異樣本的目標概率分布

奇異樣本即為將不同品質大米混合在一起的樣本,暫只考慮二元混合的情況。這里選擇類0和2,分別按照9∶1, 7∶3, 5∶5, 3∶7, 1∶9進行二元混合,每次混合保持樣本總數量為15 795,即為單個純類別的樣本數量。另外,將無混合的類0和類2分別視為它們以10∶0, 0∶10的比例混合。

對混合樣本,將標準化后的紅色值區間[0,1]等分為30份,統計各個混合比下樣本落入每個區間的頻率,作為樣本的概率密度估計。得到的7種混合比樣本紅色值概率分布如圖4所示。由于前10個區間的概率非常小,限于篇幅,表1給出了7種混合比樣本的紅色值在后20個區間的概率值。

將圖4中c0和c2大米紅色值不同混合比的概率分布,作為c0和c2的二元混合目標分布。它們將作為樣本奇異性判別的參考標準。將這些概率分布作為基本分類樣本,每個概率分布對應的樣本類別混合比作為類標簽,建立基于特征分布的分類樣本數據集。

2.4 基于分布的大米品質奇異性判別

2.4.1 基于分布的大米品質奇異性判別方法

要判斷被試樣本的品質是否奇異,首先估計它的特征分布,與已建立的目標特征分布對比,將其劃分為與目標特征分布最接近的樣本所對應的類別。由此判定被試樣本是否奇異(有無混合),以及奇異樣本的混合比。

表1 大米紅色值在不同混合比的目標分布

若將特征X的值域區間等分為N份,則它在N個區間的概率分布可以表示為PX=[p1,p2,…,pN]. 記特征X的某個目標分布為PX0=[p10,p20,…,pN0]. 被試樣本的特征X的分布為PX=[p1,p2,…,pN]. 構造均方誤差函數如式(1)所示。

(1)

對特征X的所有目標分布{PX0(k)|k=1,2,…,K},分別按照式(1)計算被試特征分布與它們的均方誤差,可得到一組均方誤差值{MSEX(k)|k=1,2,…,K}. 找到均方誤差的最小值,將被試劃分為取得最小均方誤差的目標分布所對應的樣本類別。

本文中,大米紅色的目標特征分布有7個,即c0與c2按10∶0, 9∶1, 7∶3, 5∶5, 3∶7, 1∶9, 0∶10的比例進行混合所得到的概率分布,對應1個純c0類別、5個奇異樣本類別和1個純c2類別。

基于特征分布的樣本奇異性判定和分類方法可以描述為:

a)輸入特征X的值域及等分區間數量N;

b)輸入特征X的所有目標分布{PX0(k)|k=1,2,…,K};

c)估計被試樣本特征X的分布PX=[p1,p2,…,pN]。

d)按照式(1)計算PX與所有目標分布的均方誤差{MSEX(k)|k=1,2,…,K};

e)將被試劃分為min{MSEX(k)|k=1,2,…,K}所對應的類別。

由于特征目標分布的類標簽為大米品質類別及其混合比,則根據本算法的分類結果可以知道被試是否奇異(純或混合)、奇異樣本的混合物類別和混合比。

2.4.2 算法性能分析

為驗證基于特征分布的散粒體奇異性判定和分類方法,按給定混合比,隨機從c0和c2中選擇共10 000個紅色值,建立奇異樣本,估計它的概率分布,分別計算它與各目標概率分布的均方誤差,將其劃分為使均方誤差取得最小值的特征目標分布對應的樣本類別。

重復操作1 000次,記錄每次分類結果,統計分類正確的次數、分類錯誤的次數、以及錯誤劃分到的類別及次數。

改變被試樣本的混合比,重復上述實驗過程。

改變紅色值域等分區間數量N,重復上述實驗過程。

實驗結果表明,特征X的值域區間等分數量N較小時,分類結果存在誤差。當N≥25時,分類算法對被試樣本的分類準確率、召回率均為100%。本文取N=30。

一個c0和c2按5∶5混合的被試樣本概率分布與所有目標概率分布的對比如圖5所示??梢钥闯霰辉嚺c5∶5混合的目標概率分布幾乎重合,而與其他目標分布則存在明顯差別。

圖5 被試紅色值概率分布與目標分布對比

圖6給出了將c0與c2分別按10∶0, 9∶1, 7∶3, 5∶5, 3∶7, 1∶9, 0∶10的比例進行混合得到的各一個被試樣本紅色值概率分布與目標分布的對比,可以看出每個被試樣本的紅色值概率分布幾乎與對應的目標分布重合。

圖6 不同混合比被試紅色值概率分布與目標分布對比

從實驗結果可以看出,所提出的基于特征分布的分類方法能夠很好地判斷被試樣本是否奇異,并且在認為樣本奇異時,能夠量化其混合比。

基于特征分布的分類算法的計算開銷主要在圖像處理與特征提取、樣本的概率密度估計和被試與目標特征分布間的誤差計算,并不需要反復迭代,與常用的分類方法相比,其算力開銷幾乎可以忽略不計,因此具有優異的性能。

2.5 討論

以大米為典型代表的散粒體特征分布由眾多個體的統計特征綜合體現,具有穩定性。少量個體的變化不影響整體特征分布。如果被試的特征分布發生了變化,則一定有相當數量的個體特征發生了變化,由此可以判定被試奇異。

只要不同“純”類別的特征分布不同,它們二元混合后的特征分布就會發生改變,將被試的特征分布與已建立的目標分布對比,可以判斷被試是否奇異,以及在奇異時推斷其混合比。

大米的品質類別是可以窮舉的,因此可以建立任何品質類別及兩兩間給定混合比下的目標特征分布,作為檢測被試奇異性及奇異時推斷混合比的依據。

被試可能存在實際混合比與已建立的目標分布所對應的混合比都不一致的情況。此時算法的運行結果將其劃分到使均方誤差取得最小值的目標分布所代表的類別。則實際混合比與識別結果存在誤差。如果從實用的角度該誤差不能接受(例如將實際6∶4的混合比推斷為5∶5仍造成較大的經濟損失),可以通過考察更多二元混合比(如8∶2, 6∶4, 4∶6, 2∶8)的情況,以豐富不同混合比下的目標分布,將誤差降低到可以接受的范圍內。

本實驗對大米主要考察其顏色尤其是紅色特征。這主要是由于不同品質類別間紅色特征分布差別最大。實際上,對其他顏色特征,以及紋理、幾何形狀等特征,都可以建立它們相應的目標特征分布,作為檢測被試奇異性的依據。

3 結論

針對糧食可能存在的諸如新陳、優劣、貴賤等不同品質混合的奇異性問題,以大米為對象,分析了顏色分布隨儲藏時間的變化規律,研究了一種基于特征分布的散粒體奇異性識別方法,主要結論如下:

常溫露天儲藏大米在相對儲藏期0、7、14周的顏色分布具有顯著差異,主要表現為各顏色概率分布峰值右移,紅色值概率峰值右移現象最為明顯。

建立了3個相對儲藏期大米顏色的各自的目標概率分布,建立了儲藏期為0周、14周兩類樣本分別按9∶1, 7∶3, 5∶5, 3∶7, 1∶9比例混合的奇異樣本紅色值目標概率分布。

對被試樣本,估計其紅色值概率分布,將其劃分為與目標概率分布取得最小均方誤差所對應的類別。在顏色值域等分區間數量較小時,存在分類誤差。當顏色值域等分區間數量大于等于25時,所提方法的分類準確率和召回率達到100%。

進一步的研究包括所提出的方法在更多品質和二元混合比下的有效性,并擴展至更多元的奇異樣本。

猜你喜歡
概率分布類別顏色
離散型概率分布的ORB圖像特征點誤匹配剔除算法
壯字喃字同形字的三種類別及簡要分析
關于概率分布函數定義的辨析
基于概率分布的PPP項目風險承擔支出測算
服務類別
特殊顏色的水
多類別復合資源的空間匹配
依賴于時滯概率分布的不確定細胞神經網絡的魯棒穩定性
中醫類別全科醫師培養模式的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合