?

基于內容生成與特征提取的圖像情感識別模型研究

2023-09-06 01:00
系統仿真技術 2023年2期
關鍵詞:分析模型集上正確率

尹 朝

(廣州華商學院,廣東 廣州510000)

圖像情感分析是挖掘情感信息的重要方式。根據圖像情感分析結果,可實現從不同角度刻畫人類情感變化,輔助人類進行推理、創造、決策等活動,創造更大的經濟效益和社會效益。因此,對圖像情感進行分析具有重要的意義。目前,常用的圖像情感分析方法是從圖像模態對圖像情感進行分析,如楊松等[1]提出一種基于底層特征和注意力機制的圖像情感分類模型:Featurs Net模型,通過充分融合圖像的CLAHE 顏色特征和Laplacian 紋理特征,并將其作為模型輸入,同時引入CBAM 注意力機制對圖像重點區域進行關注,實現了藝術圖像情感分析。該模型在藝術圖像數據集上的圖像情感分析準確率可達到93%,具有良好的實用性;李志義等[2]利用改進的卷積網絡模型對圖像的顏色和紋理特征進行訓練,可實現對圖像情感特征的自動抽取,為圖像情感分析奠定了基礎;Jayanthi 等[3]通過綜合考慮人臉靜態圖像和語音調制情況,采用深度分類器融合方法,提出一種靜態圖像情感識別方法,可有效識別圖像情感,識別準確率達到91.49%。通過上述研究可以發現,目前圖像情感分析方法主要集中在從圖像模態進行圖像情感分析,而圖像實際上包含了多種模態信息,除了圖像模態信息,還包括文本模態信息,但目前從文本模態上分析圖像情感的研究少于從圖像模態分析圖像情感的研究。因此,本研究提出一種針對圖像文本的情感分析方法,利用圖像內容生成模型獲取圖像并生成描述圖像的文本內容,然后采用BERT (Bidirectional encoder representation from transformer)模型提取文本內容特征,接著利用SR 樣本精選模型對BERT 模型提取的特征進行精選,獲取高質量的樣本BERT 特征,最后利用分類模型進行圖像情感分析。

1 基本算法

1.1 圖像內容生成模型

圖像內容生成是將圖像轉化為一段描述性文字的過程。其主要通過提取圖像特征,并利用卷積神經網絡尋找可能存在的目標,再利用相應的規則將目標生成圖像內容,實現對圖像的文字描述。本研究選用基于注意力機制的圖像內容生成模型生成圖像文本內容[4]。其主要由編碼器和解碼器構成,基本結構如圖1所示。其中解碼器利用LSTM 網絡生成描述文本。此外,為確保所有特征向量子集均來自圖像關鍵區域,引入注意力機制分配圖像中的語義權重。

圖1 基于注意力機制的圖像內容生成模型Fig.1 Image content generation model based on attention mechanism

1.2 BERT模型

BERT 模型的基本結構如圖2 所示,基模型為Transformer 模型的編碼器,通過多頭自注意力機制進行文本表示[5]。圖2 中,E1~EN表示文本向量化,Trm為Transformer模型編碼器結構,TN表示輸出。

Transformer 模型編碼器結構如圖3 所示,包括兩層殘差&歸一化層,以及前饋網絡、多頭自注意力層、輸入層,可實現不同任務并行處理[6]。

圖3 Transformer編碼器結構示意圖Fig.3 Structural diagram of transformer encoder

2 圖像情感分析模型構建

本研究提出的圖像情感分析,其核心思路是利用圖像內容生成模型生成描述圖像的文本內容,再采用BERT 模型提取文本內容特征;然后利用樣本精選方法對BERT提取的特征進行精選,獲取高質量的BERT特征;最后利用分類器對圖像情感進行分類,實現情感分析。其中,本研究使用的圖像內容生成模型則采用事先在COCO數據集上預訓練好的模型。

2.1 基于BERT的圖像內容文本特征提取

BERT 的圖像內容文本特征提取采用COCO 訓練集上預訓練好的BERT-base 和BERT-wwm 語言模型[7-8]。其中,BERT-base 的特征提取采用的是12 個Transformer 編碼塊;BERT-wwm 特征為全詞MASK 特征,是指一個完整的句子被分為若干個子詞,而在進行樣本訓練時,這些子詞又被隨機MASK。BERT 的圖像內容特征提取流程如圖4所示。

圖4 BERT模型提取圖像內容特征Fig. 4 Image content features extracted by BERT model

2.2 BERT樣本特征精選

為提高圖像情感分析的準確性,在2.1 節圖像文本內容特征提取的前提下,參考武晉鵬[9]的精選算法,對BERT 樣本特征進行精選,便于從原始圖像數據集中獲取高質量的圖像樣本,具體步驟為:

(1)輸入多個圖像數據集,以D1和D22個圖像數據集為例。假設D1數據集中圖像樣本質量低于D2數據集中圖像樣本質量,且D1包含D2數據集,則從D1中刪除D2中全部圖像樣本,得到D1-2數據集,稱為候選數據;

(2)采用一組分類器對D2數據集進行預測。為避免數據集中的內容存在歧義,使用9 種不同分類器進行預測,并通過軟投票方式對D2數據集中的每個圖像進行預測;

(3)利用D2 數據集訓練模型,并對D1-2 候選數據集進行測試,即可從候選數據集中精選出良好的圖像樣本,標記為Dsr,表示樣本精選;

(4)最后,將Dsr 與D2 數據集進行合并,即可得到高質量的圖像樣本。

2.3 圖像情感分析模型構建

在圖像文本特征提取和精選的背景下,構建一個多分類器的圖像情感分析模型,具體如圖5所示。

圖5 多分類器的圖像情感分析Fig. 5 Image emotion analysis based on multiple classifiers

在圖像情感分析中,由于采用多個分類器,因此可通過枚舉實驗對圖像樣本的情感進行分類,如2 個分類器的分類結果與標簽一致,則標記為2;3 個分類器的分類結果與標簽一致,則標記為3,以此類推。最后,利用最優分類器組合實現圖像情感的分類。

3 仿真實驗

3.1 實驗環境搭建

本次實驗在Linux Ubuntu 操作系統上進行,在MATLAB R2018b、Python3.7 軟件和Tensorflow 深度學習框架上實現。系統配置I7-10700 CPU,2080TI GPU。

3.2 數據來源及預處理

本次實驗數據集來自AMT 公司標注的圖像情感分析數據集:Twitter1 數據集和FI 數據集。其中,Twitter1數據集為二分類數據集,包括正面和負面情感2 個類別,由5 名AMT 員工進行情感極性標注分類。其中,正面情感類別中含有圖像共769 張,負面情感中含有圖像500張。每張圖像的情感極性標注包括3種,分別是“全部同意”、“至少4 人同意”和“至少3 人同意”,分別包括581張、689張、769張圖像。

FI數據集是多分類數據集,包括生氣、娛樂、敬畏、滿足、厭惡、興奮、恐懼、悲傷8 個情感標簽,分別包括1266 張、4942 張、3151 張、5374 張、1685 張、2963 張、1032 張、2922 張圖像。每張圖像的情感極性標注與Twitter1 數據集的標注相同,分別包括5238 張、12644張、21508張圖像[10]。

3.3 評價指標

本次實驗選用正確率(Acc)評估模型識別性能,并在計算正確率的基礎上,分別計算分類器的平均正確率(FAcc)和特征的平均正確率(TFAcc)。以上計算公式為[11]

上式中,TP表示分類正確的陽性樣本數;TN表示分類正確的陰性樣本數;FP表示分類錯誤的陽性樣本數;FN表示分類錯誤的陰性樣本數;Nclassifier為分類器數量;Nfeature為特征數量。

3.4 結果與分析

3.4.1 基于BERT特征的圖像情感分析

為比較不同特征提取及分類器的圖像情感分析結果,聯合KNN、SVM、GBDT、LR、RF、DT、NB、Ada 等8種分類器在Twitter1 和FI 數據集上進行分析,結果如圖6 所示。由圖6(a)可知,BERT-wwm 特征在Twitter1數據集上的平均正確率最高,達到72%,在FI數據集上的平均正確率也較高,為64%;由圖6(b)可知,LR分類器在Twitter1數據集上和FI數據集上的平均正確率最高,分別達74.2%和59.1%。DT分類器在Twitter1數據集和FI 數據集上的平均正確率最低,約為65.0%和47.3%。由此說明,BERT-wwm特征的圖像情感分析準確率最高,選擇BERT-wwm的特征提取方法較為合適。

圖6 不同特征在不同分類器下的平均準確率Fig. 6 Average accuracy of different features under different classifiers

為更形象地區別BERT-wwm 和BERT-base 2 種特征提取下的分類差異,利用t-SNE 技術對樣本特征的分類進行可視化,結果如圖7 所示。由圖7 可知,BERT-base 和BERT-wwm 的樣本特征分布都較為集中,但BERT-wwm 特征分布更緊密些。因此,進一步說明選用BERT-wwm特征的合理性。

圖7 不同特征可視化結果Fig.7 Visualization results of different features

3.4.2 基于內容生成與BERT-wwm 特征精選的圖像情感分類

為驗證本研究構建的圖像情感分析模型的有效性,基于BERT-wwm 特征,并結合情感極性標注中采用的多種策略進行樣本精選分類,得到表1和圖8的結果。

表1 本研究構建的圖像情感分析模型的識別結果/%Tab.1 The recognition results of the image emotion analysis model constructed in this study/%

圖8 特征平均正確率Fig. 8 Average accuracy of features

由表1 可知,在Twitter1 數據集上,采用精選方式4 并使用GBDT 分類器得到的圖像情感分析準確率最高,為81.1%;采用精選方式2,并使用DT 分類器得到的圖像情感分析準確率最低,為64.3%。在FI數據集上,采用精選方式2 并使用LR 分類器得到的圖像情感分析準確率最高,為67.4%,采用精選方式7 并使用DT 分類器進行情感分析的準確率最低,為47.6%。由此說明,在Twitter1 數據集上精選方式不宜過寬松或過嚴格,精選方式5 較為合適;在FI 數據集上精選方式應盡量嚴格,即精選方式7 較為合適。

圖8為BERT-wwm特征精選下不同精選方式的平均正確率。由圖8(a)可知,Twitter1 數據集上精選方式5 的平均正確率最高,在FI 數據集上精選方式2 的平均正確率最高。因此,在Twitter1 數據集上采用精選方式5,在FI 數據集上采用精選方式2 較好。圖8(b)為分別采用精選方式5 和精選方式2 在Twitter1 數據集和FI數據集上不同分類器的平均正確率。由圖8(b)可知,GBDT 模型和LR 模型的平均正確率最高,NB模型的平均正確率最低。

綜上所述,對Twitter1 數據集應選用較為松散的精選方式;對FI數據集應選用較為嚴格的精選方式。

同時,為驗證本研究構建的圖像情感分析模型性能,分析不同分類器在BERT-wwm 特征下的平均正確率變化和最高正確率變化,結果如圖9所示。由圖9可知,BERT-wwm 特征的樣本精選方式可提高識別的正確率,且對FI 數據集的提升效果更好。其中,在Twitter1 數據集,Ada 對平均正確率的提升幅度最大,為5.46%,GBDT 對最大正確率的提升幅度最大,為11.63%;在FI 數據集上,KNN 對平均準確率和最大準確率的提升幅度最大,分別為5.31%和12.63%。由此說明,BERT-wwm 特征對樣本精選模型有效,通過選擇適當的分類器可較大幅度地提升模型識別性能,可驗證圖像情感分析模型的有效性。

圖9 樣本精選相對提升幅度Fig. 9 Relative increase of sample selection

3.4.3 分析模型對比

為驗證本研究圖像情感分析模型的優越性,與常用的CCA、GS-XGB 等主流圖像情感分析模型進行對比,結果如表2 所示。由表2 可知,在Twitter1 數據集上,SPN模型的識別正確率最高,為81.37%,本研究圖像情感分析模型的正確率為81.10%,略低于SPN 模型,但優于其他模型;在FI 數據集上,本研究模型的正確率最高,為67.40%,高于其他對比模型。綜合來看,本研究圖像分析模型具有一定的優勢。

表2 不同模型識別正確率對比/%Tab. 2 Comparison of recognition accuracy of different models /%

4 結 論

綜上所述,本研究構建的圖像情感分析模型,基于注意力機制的圖像內容生成模型生成圖像文本內容,并采用BERT提取圖像生成文本內容特征,然后通過樣本精選,獲取高質量的BERT-wwm圖像特征,最后訓練不同分類器,實現了圖像情感的分析,具有較高的正確率。相較于CCA、SPN、FTR101等常用圖像情感分析模型,本研究模型對圖像情感分析的正確率最高,在Twitter1數據集上的識別準確率達到81.1%,在FI數據集上的識別準確率達到67.4%,具有一定的優越性和實用性。本研究的創新是實現了文本模態到圖像模態情感的分析。但由于條件限制,正確率仍有待進一步提高。

猜你喜歡
分析模型集上正確率
基于BERT-VGG16的多模態情感分析模型
門診分診服務態度與正確率對護患關系的影響
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
復扇形指標集上的分布混沌
生意
層次分析模型在結核疾病預防控制系統中的應用
品管圈活動在提高介入手術安全核查正確率中的應用
生意
全啟發式語言分析模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合