?

復雜背景下基于卷積神經網絡的手勢識別

2020-11-17 06:55柏麗銀彭亞雄陸安江余圣新
計算機工程與設計 2020年11期
關鍵詞:膚色識別率手勢

柏麗銀,彭亞雄,陸安江,余圣新,張 旭

(貴州大學 大數據與信息工程學院,貴州 貴陽 550025)

0 引 言

近年來,國內外針對基于計算機視覺的手勢識別進行了廣泛的研究,本文主要研究基于神經網絡的手勢識別,該方法一般主要分為兩個步驟:①復雜背景下的手勢分割、手勢目標檢測;②基于神經網絡的特征提取與識別。文獻[1]利用手勢圖像的深度信息進行分割與定位,該方法比已有分割方法更準確可靠[1]。文獻[2]使用改進的YOLOv3對深度手勢圖像進行手部目標檢測,框出手部目標,再進行識別,該文獻目標檢測和識別兩個步驟都使用了深度神經網絡。文獻[1,2]都使用了圖像深度信息,需要的硬件設備比較高。文獻[3]是基于深度殘差網絡對手勢進行定位與識別,使網絡能學習到抽象的紋理特征來識別手勢。文獻[4-6]基于膚色檢測分割法去除手勢圖像背景,利用卷積神經網絡進行手勢特征提取與識別?;谀w色檢測分割背景易受光照和膚色背景影響,文獻[4-6]均在室內背景下進行實驗,不滿足任意復雜背景的需求,而且識別的手勢種類也比較少。

針對以上問題,本文提出一種復雜背景下多特征融合的手勢識別:①提出一種改進的手勢圖像邊緣檢測;②針對復雜背景、不同光照和手部形狀大小、膚色等因素導致膚色檢測對手勢圖像手部分割不準確的問題,提出一種利用手勢圖像的邊緣信息與手部膚色相融合的方法,對復雜背景下的手勢進行手部分割;③采用卷積神經網絡的特性,設計卷積神經網絡模型,對②分割好的手勢圖像進行特征提取和分類識別。實驗結果表明,本文方法在復雜背景下的魯棒性較好,識別率較高。

1 復雜背景下人手分割

在實際應用中,手勢的不同角度、不同尺寸、膚色、光照強度以及手勢周圍的環境等給手勢識別帶來了巨大的挑戰。手勢圖像的背景分為簡單背景和復雜背景,簡單背景是指不包含任何噪聲的背景,而復雜背景是指包含噪聲的背景。本文研究的是復雜背景下的手勢識別,如圖1所示。

圖1 復雜背景下的手勢

1.1 改進的手勢圖像邊緣提取

在圖像邊緣提取算法中,Canny算子利用圖像邊緣像素的梯度變化原理來判斷圖像的邊緣,具有較好的魯棒性,該方法信噪比大和準確率高。Canny算子主要缺點是圖像預處理時易平滑掉手勢圖像邊緣,增加了邊緣定位的不確定性,另外在判斷邊緣時,需要人工設置高低閾值,自適應性能低[7]。本研究在Canny算子的基礎上對Canny算子檢測手勢圖像邊緣進行了改進。

在圖像預處理時使用自適應中值濾波的保邊性能和濾除椒鹽噪聲的性能與雙邊濾波相結合的方法。該方法在降噪時能夠保持圖像邊緣信息。圖像邊緣提取時,在Sobel的基礎上擴展45度和135度方向的運算[8,9],增強其對噪聲的適應性。定義請參見文獻[10]。在進行邊緣檢測時,梯度幅值分為兩類,即邊緣與非邊緣。在不同場景下,邊緣與非邊緣的閾值是不同的,一個固定的值不可能適應所有場景。針對手勢圖像的不同場景,本文利用信息論中的最大熵原理自適應求取邊緣與非邊緣的最佳閾值,使手勢圖像邊緣檢測更加準確。

復雜背景下的手勢圖像邊緣提取實驗結果如圖2所示。

圖2 手勢圖像邊緣檢測

從實驗結果圖2可以得出,邊緣檢測基本檢測出了手勢的邊緣,但是,在復雜背景下拍攝的手勢圖像,除了手勢,還有復雜的背景。在對其進行邊緣檢測時,手勢邊緣與復雜背景邊緣同時被檢測出來,復雜背景邊緣對于手勢識別是無用的,且對手勢識別造成一定的干擾,即噪聲。

1.2 基于橢圓模型的膚色檢測

膚色是人手的特征之一?;跈E圓模型的膚色檢測可以適應環境的光照變化和適應與膚色不同顏色的背景。RGB圖像采用非線性變換到YCbCr空間后,膚色在圖像中呈現明顯的橢圓分布。定義請參見文獻[11]。檢測結果如圖3所示。

圖3 橢圓模型膚色檢測手勢圖像

在圖3中,圖3(a)和圖3(b)為同一手勢,不同背景下的膚色檢測結果對比。圖3(c)和圖3(d)是不同背景不同手勢的實驗結果對比。由實驗結果可以得出,在復雜背景下,沒有膚色的背景檢測出的手勢圖像比較準確,但是當復雜背景有膚色顏色時,膚色檢測就會檢測出膚色背景。在圖3(a)中有膚色背景,檢測出了手勢與部分背景。圖3(c)中,由于膚色背景的原因,該圖基本沒有過濾掉背景。圖3(d)由于光照變化的原因,在膚色檢測時,手勢部分也會被默認為背景,從而檢測不出手勢或檢測出的手勢輪廓不完整。

1.3 手勢圖像邊緣信息與橢圓膚色模型融合

邊緣檢測基本可以檢測到圖像全部邊緣,但同時也會檢測到復雜背景下的邊緣。橢圓膚色模型在簡單或者膚色與背景顏色相差較大時,檢測效果較好,在光線較暗、有膚色背景等情況下,基本檢測不出手勢。經研究,在復雜背景下具有膚色背景的邊緣信息比較單一,而手部邊緣信息相對背景邊緣信息較多。根據上述,本文在手勢圖像邊緣的基礎上,使用膚色檢測判斷邊緣像素是否為手部邊緣,然后提取手部。針對一些光線較暗,無法檢測出膚色的圖像,本文使用圖像邊緣代替。具體結構如圖4所示。

圖4 圖像邊緣與膚色檢測融合結構框架

手勢圖像的邊緣信息與手部膚色融合具體分為3個步驟:①遍歷邊緣圖像,判斷像素點是否是邊緣點。②如果是邊緣點,判斷該像素點8領域內是否有膚色點,有,分別保留邊緣像素點和膚色點,沒有,舍去。③判斷經過膚色檢測后的邊緣圖像所保留的像素點總數是否大于全圖邊緣檢測的總像素點的2%,是,則輸出手部圖像邊緣;否,則保留邊緣檢測原圖。根據上述步驟,最后輸出手勢邊緣圖和手勢邊緣與膚色融合圖。實驗結果如圖5所示。

圖5 圖像邊緣與膚色融合檢測結果

圖5中,圖5(a)與圖5(b)是同一手勢在不同復雜背景(有無膚色)下檢測結果對比。圖5(b)和圖5(c)是不同手勢不同背景下的檢測結果對比。由實驗結果可以得出,手勢圖像邊緣信息與橢圓膚色模型融合,在濾除背景的同時,基本檢測出了手勢手部輪廓。

綜上所述,手勢圖像的邊緣信息與橢圓膚色模型相融合可以有效分隔出手部圖像,優于圖像邊緣檢測和膚色檢測。

2 基于卷積神經網絡的手勢識別

卷積神經網絡能夠實現圖像的特征提取和分類,是一個end to end 的過程。卷積神經網絡(convolutional neural network,CNN)的特征見文獻[12]。在CNN中局部連接和權值共享減少訓練參數,卷積實現特征提取。在池化層它實現了降維的目的,減少網絡參數及過擬合,增加了神經網絡的容錯性能,提升模型魯棒性和減少訓練參數。CNN經過特征提取后得到一張二維的特征圖,將二維圖像轉化為一維特征圖,進行全連接,實現圖像分類與識別,網絡結構如圖6所示。

圖6 卷積神經網絡結構

本文設計的神經網絡模型共12層,其中包含6個卷積層,每層有32個卷積核,兩個max_pooling層,兩個 dropout 層和兩個全連接層,使用relu激活函數。該模型第1層使用1*1的卷積核,padding為valid,在信息完整部分采用數據加強,可以有效提高小目標識別率。第2層和第3層分別使用5*5的卷積核、3*3的卷積核對圖像信息進行特征提取,padding為valid。第4層為池化層,采用最大池化,采樣窗口為2*2,步長為1。第5層和第6層對第一次降維后的數據進行再一次的特征提取,第7層對數據進行第二次降維。第8層使用3*3的卷積核對圖像特征進行再次提取,padding為valid。為了防止過擬合,第9層采用dropout,參數為0.75;第10層為全連接層,感知器為512個;第11層再次使用dropout;第12層為全連接層,使用softmax對提取的圖像特征進行分類識別。

3 實驗結果與分析

本文采用NUS-II手勢數據集下的Hand Postures進行實驗。NUS-II數據集是在室內外各種嘈雜背景下采集得到,圖像背景復雜多變,該數據集包含10種手勢。手勢由40個年齡在22歲~56歲之間不同種族的主體展示,包括男性和女性,因此手部膚色、輪廓大小以及攝像頭距離等表觀差異巨大。每張圖片大小為120*160,共2000張。首先對圖像進行邊緣提取,然后融合膚色檢測將手部分割出來,再將手勢圖像送入卷積神經網絡模型進行特征提取和識別。

數據集原圖只有2000張,在進行圖像分割后得到手勢邊緣圖和手勢邊緣與膚色相融合的手勢圖,共4000張手勢圖,在訓練時,數據較少,本文對手勢邊緣與膚色融合的手勢圖取反,得到2000張圖像。將數據集增加到6000張。將數據集送入網絡模型進行訓練,訓練次數為120次。在訓練時,訓練集為3840張手勢圖,驗證集為960張手勢圖,測試集為1200張手勢圖。訓練次數和損失率關系如圖7所示,訓練次數與準確率關系如圖8所示。

圖7 訓練損失率與測試損失率對比

圖8 訓練準確率與測試準確率對比

從實驗結果圖可以得出,當訓練次數達到40次以上時,損失率和準確率基本收斂。平均損失率為0.0753,識別率高達99.38%,平均識別率為98.81%。為了驗證本文算法識別性能,將本文識別手勢種類和識別率與文獻[4]、文獻[5]、文獻[6]、文獻[12]以及文獻[13]的方法進行比較,數據見表1。

觀察表1中的數據,從平均識別率比較,本文算法的平均識別率僅低于文獻[6],而本文識別的種類比文獻[6] 多7類。從手勢種類比較,本文識別手勢種類僅低于文獻[13],但本文平均識別率比文獻[13]的平均識別率高2.81%。綜上述,本文識別性能最優。本文算法在手勢與背景分割時,充分考慮了圖像邊緣與手部膚色的特征,使手勢與背景的分割更加準確。在手勢特征提取時,充分考慮了手部圖像的邊緣細節,采用數據加強的方法使網絡模型能提取到手勢圖像更加細節的信息,提高其識別率。

表1 本文算法與其它算法識別性能比較

4 結束語

本文綜合考慮不同場景光照變化、膚色、不同年齡、手部形狀等因素對手勢識別的影響,利用手勢圖像邊緣信息與橢圓膚色檢測相融合來對復雜背景下的手勢圖像進行手部分割,實驗結果表明,該算法可以有效分割出手部。在構建卷積網絡模型時,使用1*1的卷積核對數據進行加強,增強卷積網絡對圖像細節特征的提取,有效減少手部形狀大小對手勢識別的影響,提高識別率,識別率為98.81%。在復雜背景下,具有一定的魯棒性。

猜你喜歡
膚色識別率手勢
膚色(外一首)
Conversation in a house
人的膚色為什么不同
為什么人有不同的膚色?
挑戰!神秘手勢
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
聽力正常青年人的低通濾波言語測試研究*
V字手勢的由來
提升高速公路MTC二次抓拍車牌識別率方案研究
勝利的手勢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合