?

基于深度學習的商品識別方法與檢測算法研究

2024-04-14 09:55段旭升文志誠
現代信息科技 2024年2期
關鍵詞:遷移學習深度學習

段旭升 文志誠

DOI:10.19850/j.cnki.2096-4706.2024.02.032

收稿日期:2023-05-25

摘? 要:由于人們對美好生活的向往愈發強烈,消費已經成為拉動我國經濟發展的重要引擎,而在消費過程中強化消費體驗也是提升消費者服務效益的關鍵所在。為了能夠在提升消費體驗的同時降低人力的投入,引入智能化商品識別工具,研究一種利用注意力機理進行特征抽取與學習的方法。文章簡要介紹了深度學習方法和基于深度學習的商品識別方法,探討了深度學習多目標商品檢測算法,對比分析了改進后的MaskR-CNN,可有效防止因網絡復雜性的提高而造成的性能下降,從而提高了檢測效率和檢測精度。

關鍵詞:深度學習;商品識別;檢測算法;遷移學習

中圖分類號:TP181;TP391.4? ? 文獻標識碼:A? 文章編號:2096-4706(2024)02-0150-04

Research on Goods Recognition Methods and Detection Algorithms Based on

Deep Learning

DUAN Xusheng, WEN Zhicheng

(College of Computer Science, Hunan University of Technology, Zhuzhou? 412007, China)

Abstract: Due to people's growing desire for a better life, consumption has become an important engine driving China's economic development, and strengthening consumer experience in the consumption process is also the key to improving consumer service efficiency. In order to improve the consumer experience while reducing human investment, an intelligent goods recognition tool is introduced to study a method of feature extraction and learning using attention mechanism. This paper briefly introduces deep learning methods and deep learning-based goods recognition methods, explores deep learning multi-objective goods detection algorithms, and compares and analyzes the improved MaskR-CNN, which can effectively prevent performance degradation caused by the increase in network complexity, thereby improving detection efficiency and accuracy.

Keywords: Deep Learning; goods recognition; detection algorithm; Transfer Learning

0? 引? 言

商品識別技術中應用最為廣泛的技術為商品掃碼技術,但是條碼技術本身存在一定的局限性[1],在應用的過程中會受到容量限制以及印刷質量的限制,于是在商品中基于無線射頻技術的RFID被引入了進來,實現了基于無線電信號碼的特定識別以及數據讀取,整個過程里不需要有機械裝置和光學裝置的介入,同時基于RFID的無線過程傳輸能夠體現出商品的唯一ID編碼,通過電子標簽的附著,使得商品的數據讀寫以及獲取過程都極為方便,滿足了記憶容量的需求[2]。但是隨著人工智能技術以及特征圖像技術的發展,基于SIFT/SURF技術的圖像識別被引入到了消費場景中,通過實時的提取圖像表面的特征點能夠顯著提升圖像識別效率和計算精準度,最終通過智能化算法中匹配點的剔除操作能夠實現圖像的精準匹配,最終完成圖像識別[3]。未來隨著“內循環”消費趨勢的到來,零售商品將會出現井噴式的發展,基于人工智能技術的商品識別將會成為未來的技術發展主流,形成巨大的發展市場,對此強化技術的開發與升級具有重要意義。

1? 深度學習概述

深度學習是一種基于特征的學習方法,實現了將過程數據由低到高的非線性轉換,在數據處理的過程中,其核心方法是基于神經網絡而開展的,神經網絡中的基本單元為神經元,通過接收N個其他信號傳遞的輸入信號來保證穩定的數據傳輸,信號通過帶權重的形式進行數據傳遞,最終通過激活函數來進行全過程處理[4],實現完整的神經元輸出,保證了算法是精確度和效率,對此本文結合著深度學習工具及算法展開探討。

2? 基于深度學習的商品識別方法

2.1? 卷積神經網絡

隨著卷積神經網絡技術的不斷進步,其模型架構上也逐漸有了更多的分支,這些分支算法都是基于卷積網絡的二次深化而得來[5],對于本次探討的商品識別案例來說,卷積層在計算的過程中需要對圖像和濾波器進行基于線性的操作,然后再附加偏差值,在深度應用激活函數的基礎上得到特征圖,實現了完整的圖像識別和采集過程[6]。

濾波器采用3×3的網格規格大小,對應圖像的卷積運算為w0×x + b0,并對圖像的像素框進行滑動,設置的步長為2,在不斷的迭代計算過程中得到完整的特征圖像,再經過卷積層處理之后能夠對圖像進行所見,實現了權值的共享[7]。

池化層主要針對神經網絡中某一靜態屬性展開深度計算的過程,通過池化處理能夠顯著降低模型的體積大小,進而更好的提升模型計算的速度和精度,同時還能間接的增強特征提取的魯棒性[8]。常用的池化操作主要有最大池化和平均池化兩種形式,其中最大池化是綜合選取象限內的最大值,而平均池化是對每個單位象限內的平均值作為輸出特征值進行輸出,從一線的實踐能夠顯著看出,采用最大池化的圖像處理效果要顯著優于平均池化的效果,這主要是由于最大池化的超參數不需要進行多次的訓練和學習,對此卷積神經網絡的圖像處理多數采用的都是最大池化[9]。

2.2? 深度殘差網絡

前期的神經網絡更加注重模型處理的深度,但是單一的增加網絡深度往往會使得模型的損失率上升,為了顯著改善梯度降級的情況,在模型處理中需要引入殘差神經網絡的核心概念,殘差塊通過輸入的X與初始的輸出結果求和的形式直接得到新的求解結果,對此在模型的訓練過程中,所需要達成的目的就是將殘差值無限的趨近于0,在保證神經網絡不斷加深的同時,其結果的準確度也不會隨之降低。

2.3? 深度置信網絡

在商品識別過程中,準確的文本識別也是圖像管理中的核心所在,深度置信網絡DBN是廣泛應用于文本識別的關鍵算法之一,其模型結構主要是由可視層以及隱含層兩種結構組成。在計算處理的過程中,通過不斷的訓練隱含層來深度捕捉高階數據的相關性,通過多層的RBM層疊深度置信網絡將特征值提取出來,然后再導入到分類器中進行綜合的數值分類[10]。

3? 深度學習多目標商品檢測算法研究

多目標檢測任務中,對圖片的類別判斷主要是依據目標所處的位置進行綜合標定的,在算法應用中,FasterR-CNN算法是目前多目標檢測過程中應用的較為主流算法,其組成結構上可以理解為RPN與FastR-CNN之間的組合,其檢測流程圖如圖1所示。

RPN同時也是卷積層與全連接層組成的框架結構,其輸入端的參數主要來自神經網絡的輸出特征結果,基于特征圖內不同錨框為滑動窗口,實現了依次滑動,并且以全連接的形式來映射低維度的特征向量。在逐級的特征提取過程里,通過數據訓練集的大量數值計算能夠初始化網絡參數,實現訓練數據的深度特征提取,并且獲得到特征原理圖,對于得到的特征圖,其損失函數計算原理為:

其中i為商品圖像的錨框索引,pi為目標訓練的預測概率,如果計算的錨框為正,則真實的標注為1,如果真實的標注為負值則標注的數值為0。

ti = {tx, ty, tw, th}分別為預測候選框內四種參數的坐標值,其中Lcls為分類損失,定義描述為:

Lreg為回歸損失,其計算原理為:

其中,smooth L1(x)的損失函數定義為:

對于邊界框的回歸主要采用三個坐標展開計算,其計算原理為:

其中,x、y、w、h分別為中心坐標以及寬和高,x、xa、x*分別為預測包圍框、候選框以及真是框的坐標數值。

4? FasterR-CNN多目標商品檢測方案研究

通過基于FasterR-CNN的多目標商品檢測能夠顯著提升檢測的質量和檢測效果,而基于FasterR-CNN的多目標商品檢測方案的流程要素如圖2所示。

如圖2所示,方案的建設內容主要涵蓋兩部分,其中:模型訓練部分主要是通過大量的商品圖片開展模型訓練,最終得到成熟模型,通過建立的模型指導后續的方案識別與檢測;模型測試活動里主要是通過測試圖像對多目標的商品進行類別分類,在整個過程中,卷積神經網路多數應用的都是點對點之間的訓練,其訓練方法也是目前深度學習場景中應用較為主流的訓練模式。依據數據排列方法的不同,可以分為由低到高的前向傳輸,以及由高到低的反向傳輸兩種模式。

前向傳播過程主要是應用當前前饋神經網絡的輸入值并且實時的產生輸出值時,所需的傳遞信息網絡流動,x端主要提供了模型的初始信息,此后再傳播到下一層的隱形單元,最終輸出到y,直到整個輸出結果滿足期望值的需求時,最終會完整的輸出預測結果,前向傳播的計算原理為:

W為卷積核,b為偏置量,i為卷積計算的層數,σ為計算過程中所依據的激活函數。

在不斷的開展模型訓練的過程中,通過正向數據傳輸能夠產生穩定的數據信息,直至獲得到全新的目標函數J(θ),而目標函數是一個標量,在反向傳播的過程中能夠允許目標函數通過網絡向后進行流動,實現梯度計算的參數更新以及權值更新。在隨機梯度下降算法的描述過程中,反向傳輸顯著遵循了鏈式計算法則,依據最小函數目標計算得到了需更新的參數,其優化目標的函數計算原理為:

計算原理的表達中,fi為計算過程所選取的激活函數,在開展下降算法計算的過程中,每次選擇一個計算梯度后將會不斷的進行迭代計算。

5? 改進后MaskR-CNN算法實現與實驗過程

5.1? 遷移學習模型

1)數據清洗,噪聲數據處理。

2)數據強化:隨機翻轉、截取、色彩調整等擴展的D1。

3)CNN的初始預習模型的參數。

4)for i=1,2,…,n:利用預先訓練的卷積方法,對第i張照片進行特征保留,并將其序列化為特征矢量End。

5)讀出所抽取的特征參數,并按照Batch_size等分法進行訓練。

6)確定完整的連通性,并對其進行初始化。

7)為1,2,…,epoch:

采用抽取降階方法,將訓練損耗減至最低,并對所有的連接性參數進行了訓練。

if損耗最少

保留所有的連接性參數

return CNN

End

1)測試集準確率(test_acc)本方法的目的是將圖像進行歸類,由試驗結果判斷其預報的準確性。測試數據準確率為:

其中,Current_images為預測正確的圖片個數,Test_images為測試集圖片總量。

2)過擬合率(overfit_ratio),由于Inception-3的層數較高,模型比較復雜,而我們的樣本又較少,于是我們為了避免CNN過度擬合,采用過擬合比對該模式進行評估。過擬合率(overfit_ratio)定義為:

在這些模型中,train_acc為對訓練結果的預報精度的函數。如果過擬合比超過1,表明該模式存在著較重的過擬合,如果接近1,則表明該模式沒有發生顯著的過擬合。

5.2? 實驗結果分析

以超市貨架中的零食圖片進行識別為例,對數據集進行預測,最終可得準確率及過擬合率測試效果如表1、圖3所示。

從圖3能夠看出,隨著模型的快速收斂,分類識別的精度達到了87.7%。在1 500次左右的時候,該模式的準確率增長已經穩定了下來。到了4 000次左右,就開始出現了降低的跡象。而且,該方法的過擬合度幾乎保持在1左右,因此該模型未發生顯著的過擬合。

6? 結? 論

相比較于傳統的實體檢測識別,基于深度學習方法的商品檢測與識別能夠較好的結合文本特征,并且深度簡化了傳統算法中煩瑣的建模步驟,對此本文深度結合著卷積神經網絡的核心架構展開深度分析,闡釋了基于CNN的多目標商品檢測方案,旨在更好的營造高效消費場景。

參考文獻:

[1] 李永剛,朱衛綱.基于深度學習的SAR圖像目標識別綜述 [J].電光與控制,2022,29(2):58-62.

[2] 宋仕月,陳政羽,鄭一凡,等.深度學習在農業病蟲害智能識別方面的研究進展 [J].智慧農業導刊,2023,3(4):1-4.

[3] 張寶燕,基于深度學習模型的圖像識別應用研究 [J].山西電子技術,2020(6):87-89+93.

[4] 淡衛波,朱勇建,黃毅.基于深度學習的煙包識別與分類 [J].包裝工程,2023,44(1):133-140.

[5] 林湧濤,崔寧,趙志俊,等.基于深度學習的圖像目標定位識別研究 [J].現代信息科技,2023,7(2):83-86.

[6] 安婷,郭輝.深度學習的人工智能應用處理系統設計研究 [J].現代制造技術與裝備,2022,58(4):191-193.

[7] 程欣.基于深度學習的圖像目標定位識別研究 [D].成都:電子科技大學,2016.

[8] 李赟,劉思雨,朱川,等.基于深度學習的水果識別系統設計 [J].農機化研究,2023,45(10):187-191.

[9] 任晨輝,陳琦,朱大奇.基于深度學習的船體附著物識別方法 [J].船舶工程,2022,44(12):24-29+35.

[10] 金瑋,孟曉曼,武益超.深度學習在圖像分類中的應用綜述 [J].現代信息科技,2022,6(16):29-31+35.

作者簡介:段旭升(2000—),男,漢族,湖南婁底人,碩士研究生在讀,研究方向:計算機視覺、目標檢測;文志誠(1972—),男,漢族,湖南東安人,博士后,教授,研究方向:網絡安全與可信軟件。

猜你喜歡
遷移學習深度學習
遷移學習研究綜述
從認知角度探討大學英語網絡教學模式
奇異值分解與移移學習在電機故障診斷中的應用
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現
一種基于遷移極速學習機的人體行為識別模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合