?

基于注塑過程數據的制品尺寸合格性判定

2022-11-04 02:55宋建王宇峰梁家睿李東
科學技術與工程 2022年27期
關鍵詞:特征選擇制品尺寸

宋建 , 王宇峰, 梁家睿 , 李東*

(1.華南理工大學, 廣東省高分子先進制造技術及裝備重點實驗室, 廣州 510640; 2.華南理工大學, 聚合物加工工程教育部重點實驗室, 廣州 510640; 3.金發科技股份有限公司企業技術中心, 廣州 510663)

由于塑料具有可塑性好、沖擊強度較高、化學穩定性良好等特點,其制品已被廣泛應用于各個行業。數據統計顯示,經過“十二五”的快速發展,中國已經成為世界塑料制品生產、出口和消費大國。塑料的成型方法多種多樣,主要成型方法包括擠出、注射、吹塑、膜壓、層壓、澆鑄等,其中通過注塑成型工藝制造的塑料產品占了60%以上,注塑成型制品的質量越來越受到大家的關注,但現階段注塑制品的質量檢測主要是人工完成。人工檢測不僅速度慢、人力和物力投入大,而且容易造成漏判和誤判,因此研究新的解決方法成為亟待解決的問題。

為了解決以上問題,國內外研究者開展了大量的研究。Sadeghi[1]以工藝變量和材料等級變化為輸入數據建立了4-2-3結構的BP(back propagation)神經網絡預測模型,對注塑制品的質量進行預測。Min[2]采用響應表面分析的方法推導回歸方程和優化工藝條件,對制件質量進行預測并間接實現了對注塑過程的在線監控。Zhu等[3]建立了以熔體溫度、注塑速率、保壓壓力為輸入數據,制件飛邊為標簽的模糊神經網絡,對制件飛邊進行了預測。Dumitrescu等[4]證明使用近紅外線光譜監控注塑制品質量是可行的。利用光導纖維探頭可以識別材料中的顏色變化和水分,進而實現對制件質量的預測。Chen等[5]以模具溫度、保壓壓力等6個參數作為輸入建立了一種反向傳播神經網絡模型來對注塑制品的質量進行預測。

上述研究均聚焦注塑制品的質量指標或者缺陷的回歸預測,但實際生產過程中更關心的是注塑制品的質量指標是否合格。尺寸是注塑制品的重要質量指標之一,合格的注塑制品尺寸必須在公差范圍內,否則產品將會判定為廢品。鑒于此,現提出一種基于注塑加工過程數據對產品尺寸是否合格進行預測判定的方法,利用注塑成型過程中的成型機狀態數據和高頻采樣數據,直接對注塑制品的尺寸是否合格進行智能判定,期望以此替代現有的人工品檢,實現注塑制品質量檢測的自動化與智能化,為企業增效降本。

1 數據集與預處理

1.1 數據集來源

本文中所使用的數據主要來源于富士康工業互聯網有限公司提供的第四屆工業大數據創新競賽數據集,數據集包括注塑加工過程的SPC(statistical process control)數據和充模過程狀態監測傳感器的高頻采樣數據(簡稱“高頻采樣數據”)以及作為標簽的尺寸數據。

注塑加工過程的SPC數據主要是注塑加工過程中每個模次的成型機臺狀態數據,通過SPC數據可以觀察注塑過程的工藝穩定性,從整個注塑工藝對注塑過程進行分析,例如,溫度均值、注射最大壓力、填充時間、模具溫度等可以通過系統日志進行獲取,每個模次采集一次,總共有86維,16 600條數據;高頻采樣數據主要來源于注塑機的模腔內,冷卻系統等通過高頻傳感器所獲得的實時數據,通過高頻采樣數據可以對注塑過程的具體模塊進行實時監測,針對具體的模塊對注塑過程進行分析,例如,模腔壓力、模腔溫度、模溫機循環水流量等,傳感器的采樣頻率為50 Hz,總共有16 600個模次,每一個模次采集的傳感器數據約為1 500條,總共有24維特征;其中數據集的標簽為注塑制品的尺寸數據。

1.2 數據預處理

在注塑加工的過程中,由于設備故障、零件失靈等種種原因會造成數據的不完整。不完整的數據是無法用于數據挖掘的,將其納入分析會使結論偏離實際情況。因此,對數據進行清洗是非常必要的。數據清洗規則是:對數據集中每個特征的缺失值進行統計,當缺失值達到總量的50%以上時,刪除這個特征,而對于缺失值少于50%的特征使用均值進行填充。

在對數據進行統計分析的過程中,發現一些特征本身的價值并不大,但是對這些特征(如溫度特征)進行處理后,比如進行均值處理,可以提煉出更加有價值的信息,所以對高頻采樣數據集進行了特征的構建。高頻傳感器所采集的模內溫度、壓力等數據每個模次會進行多次采集,由于頻率較高,每個模次采集數量高達1 500多條,其中包含有大量冗余的數據,不僅對模型分類性能的影響較小,而且會增加模型訓練時間,因此構建了傳感器的均值特征,即將每個模次采集的傳感器數據取各個特征的均值。最后合并所有的數據集。

數據集中的標簽是某一重要部位的尺寸數值,為了實現分類效果,對標簽數據進行重構,將尺寸在[199.96,200.04]mm范圍內的合格數據標記為1,不在該范圍內的尺寸標記為0。

經過上述處理后,最后得到了58維的新數據集,對此數據集按80%作為模型的訓練集、20%作為模型的測試集進行隨機分割。

2 特征選取

一個數據集中,與分類目標相關性高的特征有利于提高模型分類的準確性,因此構建模型時,數據集的特征質量對于分類的正確率會有很大的影響。注塑機的采集數據中部分特征與尺寸的相關性較小,這樣的特征不僅對分類工作沒有太大的幫助,還會增加學習過程的負擔,降低模型的運行速率。本文主要使用卡方檢測和基于樹模型的特征選擇方法對數據集進行特征選取。

2.1 特征選取方法

2.1.1 卡方檢驗(Chi-squared test)

卡方檢驗的基本思想是通過觀察實際值與理論值的偏差來確定兩個變量之間的獨立性,對于x1,x2,…,xn等多個觀察值通過卡方公式得到卡方值,即

(1)

式(1)中:xi表示觀察值;E表示期望值;χ2表示卡方值。

卡方值越大說明對應特征與標簽的相關性越大,這個特征就越重要;反之,重要程度就越低。每個特征計算出對應的卡方值,通過計算出的卡方值進行特征重要程度排序,確定閾值,如果大于閾值,則選擇該特征,否則,去除該特征。

2.1.2 基于樹模型的特征選擇法

基于樹模型的特征選擇法,主要以基尼不純度的變化量作為特征選擇依據?;嶂笖凳且环N對數據不純度度量的方法,即

(2)

式(2)中:D為數據集;t為特征總數;pi表示類別為i的樣本占總數的概率?;岵患兌鹊脑隽抗綖?/p>

ΔGini(A)=Gini(D)-Gini(D-A)

(3)

式(3)中:Gini(D-A)為數據集D確定特征A以后的基尼不純度;ΔGini(A)為加入特征A以后的基尼不純度的減少量,該值越大表明特征A與標簽的相關性越大,可以通過ΔGini(A)對特征的重要性進行排序,設定閾值。當ΔGini(A)大于閾值時選擇該特征;否則,刪除該特征。

2.2 特征選取維度的確定

使用卡方檢測特征選取計算出58維特征的卡方值,以此對特征重要程度排序,計算出58維特征卡方值的平均值為475.6,以475.6作為閾值,當卡方值大于475.6時,選擇該特征,否則,刪除該特征,共篩選出19維的特征,繪制卡方值的折線圖如圖1所示。

同樣,使用基于樹模型的特征選取方法計算出58維特征的ΔGini,以此對特征的重要程度進行排序,計算出ΔGini的平均值為0.016 5,以0.016 5作為閾值,選擇ΔGini>0.016 5的特征,共篩選出了19維特征,繪制ΔGini的折線圖如圖2所示。

不難發現,兩種特征選取方法以平均值為閾值選擇出的特征維度都是19,最后確定了從58維的數據集中選擇出較最重要的19維特征。

圖1 卡方檢測卡方值折線圖Fig.1 Chi square detection chi square value line char

圖2 基于樹模型的特征選擇平均不純度減少折線圖Fig.2 Feature selection based on tree model average impure reduction line graph

3 模型的選擇

不同的模型具有一定的適用性,選擇一個適合分類模型對注塑成型加工制品尺寸合格性的判定非常重要。通過查閱文獻,初步篩選以下7種常用于工業數據分類的模型。

(1)K近鄰(Kneighbors classifier,KNN)分類模型[6]:KNN能夠直接利用待分類數據與訓練樣本之間的關系,最大限度減少由于數據特征的不恰當而造成的誤差,實現簡單,但是精度較低。

(2)邏輯回歸(logistic regression,LR)分類模型[7]:LR是利用sigmoid函數進行二分類的分類模型,LR模型高效,但是當有缺失值時表現較差。

(3)貝葉斯(Naive Bayes,NB)分類模型[8]:NB以貝葉斯理論為依據,將事件的先驗概率和后驗概率聯系了起來,通過貝葉斯公式進行分類,在分布獨立假設成立的條件下,NB模型的分類效果較好。

(4)決策樹(classification and regression tree,CART)分類模型[9]:CART是一種類似流程圖的樹結構,其中每個內部節點表示一個屬性上的判斷,每個分支代表一個判斷結果的輸出,而每一個葉節點代表一種分類結果,CART樹模型速度快、準確度高,但是容易發生過擬合。

(5)隨機森林(random forest,RF)分類模型[10]:RF是一種集成學習模型,通過對多棵決策樹模型的累加實現,統計每個基學習器分類結果,通過投票來決定終分類結果,集成模型的精度要比單個模型的精度高,但是容易受噪聲影響。

(6)支持向量機(support vector machine,SVM)分類模型[11]:SVM通過尋找一個最優超平面對樣本進行分割,使得超平面兩邊的類別間隔最大,SVM不適合海量數據的處理。

(7)神經網絡MLP(multi-layer perceptron)分類模型[12]:MLP是最簡單最原始的神經網絡,主要包括輸入層、隱藏層、輸出層,而且MLP神經網絡不同層之間是全連接的,MLP具有良好的容錯性,但是學習速度慢。

以上7種分類模型各有優劣,基于訓練集數據采用5折交叉驗證的方法對分類模型進行初步的篩選。5折交叉驗證主要是將初始的訓練集分割成5個子樣本,一個子樣本作為驗證模型的數據,其他4個樣本用來訓練模型。交叉驗證重復5次,平均5次的結果,得到不同模型的驗證分數來對模型進行初步的篩選,得到的分數越高,說明模型的分類性能越好。得到的7個分類模型的分數如表1所示。計算7個分數的平均值為0.951,選擇0.951以上KNN、SVM、LR、NB、RF等5種分類模型。

表1 5折交叉驗證分數表

4 結果與分析

4.1 結果對比分析

為了評估不同分類模型的表現,采用混淆矩陣的相關統計指標和性能曲線來比較不同模型的分類性能,其中使用到的指標[13-14]如下所示。

(1)TP(true positive):合格品被分類為合格品為真正類。

(2)FP(false positive):不合格品被分類為合格品,為假正類,即為漏判。

(3)FN(false negative):合格品被分類為不合格品,為假負類,即為誤判。

(4)TN(true negative):不合格品被分類為不合格品,為真負類。

相比而言,比率指標更容易直觀地觀察出結果的差異,基于以上4個指標,可以進一步得到如下2個比率指標。

(1)TPR(true positive rate):合格品被分類為合格品的樣本占所有合格品的比率,即

(4)

(2)FPR(false negative rate):不合格品被分類為合格品的樣本占所有不合格品的比率,即

(5)

基于測試集數據使用ROC(receiver operating characteristic)曲線和AUC(area under curve)對各個分類器的性能進行評估[15],其中ROC曲線以FPR為橫坐標,以TPR為縱坐標,當曲線越接近(0,1)點時錯判的概率就越小,分類模型的準確性越高。AUC表示ROC曲線下的面積,AUC越接近1分類器泛化性能越好。

使用卡方檢測特征選擇法、基于樹模型的特征選擇法,可以得到不同的特征組合方式。對比5個分類模型與這兩個特征選取方法結合后的ROC曲線和AUC,與卡方檢測特征選取結合的分類模型的ROC曲線如圖3所示,與基于樹模型的特征選取法結合的分類模型的ROC曲線如圖4所示,兩個特征選取方法下各個分類模型的AUC如表2所示。

對比圖3、圖4中的ROC曲線可以發現,兩個特征選取方法下,LR算法的ROC曲線非常明顯得更加靠近(0,1)點,再對比卡方檢測特征選取和基于樹模型的特征選取下各個模型的AUC的值,LR算法的AUC都是最高的,卡方檢測下AUC=0.93,基于樹模型的特征選擇方法下AUC=0.94,因此LR算法更加適合注塑加工制品尺寸合格性的分類。

圖3 與卡方檢測特征選取法結合的分類模型ROC曲線Fig.3 ROC curve of classification model combined with Chi square detection feature selection method

圖4 與基于樹模型的特征選取法結合的分類模型ROC曲線Fig.4 ROC curve of classification model combined with feature selection method based on tree model

表2 AUC值

通過對表2中兩個特征選擇方法下5個分類模型的AUC進行對比可以發現,基于樹模型的特征選取方法普遍要比卡方檢測特征選擇方法要高一些,說明基于樹模型的特征選擇方法更加適合注塑加工制品尺寸合格性的分類。

綜合以上分析,最終確定以基于樹模型的特征選擇方法和LR算法組合的分類模型對注塑成型加工制品尺寸的合格性進行分類,得到測試集的分類結果數據如表3所示。

表3 分類結果數據

4.2 影響尺寸的變量重要性對比

使用基于樹模型的特征選擇方法對清洗后的數據進行特征變量篩選,保留了特征變量的原有屬性。對選擇出的特征進行重要性排序,便可看出哪些注塑成型過程變量對制品尺寸合格/不合格分類準確性的影響更大。圖5為19個特征變量及其重要度排序。

從圖5中可以看出,噴嘴頭的射出壓力、模溫機的溫度等對注塑制品尺寸穩定性的影響比較顯著,因此當注塑制品的尺寸出現不合格的情況時,可根據本文給出的排序依次對影響較大的特征參數進行檢查和調整。

圖5 基于樹模型的特征選取選出的19個重要特征Fig.5 19 important features selected by feature selection based on tree model

5 結論

基于富士康工業互聯網有限公司提供的第四屆工業大數據競賽注塑成型數據集進行了數據清洗、特征選取和標簽重構,將數據集切分為訓練集和測試集?;谟柧毤褂?折交叉驗證對常用于工業的7種分類模型進行了篩選,選出了KNN、SVM、LR、NB、RF等5種分類模型,分別結合卡方檢驗和基于樹模型的特征選擇方法,對比分析了5個分類模型在測試集下與兩個特征選擇方法結合的ROC曲線和AUC,最后選擇了ROC曲線最接近(0,1)、AUC最高的基于樹模型特征選擇方法與LR分類算法組合的分類模型,分類的準確率可達96.42%。同時,對特征變量重要性進行分析,識別出了對注塑制品尺寸影響較大的特征變量,對生產過程中產品質量的調控具有一定的指導意義。由于本文使用的數據集來源于競賽網站,研究成果無法反饋服務生產制造環節,略有遺憾,接下來的研究工作將努力改進與提高。

猜你喜歡
特征選擇制品尺寸
CIIE Shows Positive Energy of Chinese Economy
污泥預處理及其在硅酸鹽制品中的運用
基于智能優化算法選擇特征的網絡入侵檢測
故障診斷中的數據建模與特征選擇
reliefF算法在數據發布隱私保護中的應用研究
一種多特征融合的中文微博評價對象提取方法
佳石選賞
佳石選賞
尺寸
有益健康的花粉制品等
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合