?

基于改進分層注意網絡和TextCNN聯合建模的暴力犯罪分級算法

2024-03-21 02:25張家偉高冠東宋勝尊
計算機應用 2024年2期
關鍵詞:池化服刑人員編碼

張家偉,高冠東,肖 珂,宋勝尊

(1.河北農業大學 信息科學與技術學院,河北 保定 071000;2.中央司法警官學院 數據科學與智能矯正技術研究中心,河北 保定 071000;3.中央司法警官學院 信息管理系,河北 保定 071000;4.河北省農業大數據重點實驗室(河北農業大學),河北 保定 071000;5.中央司法警官學院 監獄學學院,河北 保定 071000)

0 引言

暴力犯罪嚴重影響社會安全穩定,運用犯罪心理學內容進行暴力犯罪服刑人員矯治的關鍵性認知任務在于分級、治療和解釋[1]。分級作為首位尤為重要,劃分是否科學合理將直接影響服刑人員處遇的效用價值;同時也能為監管部門合理制定矯正教育方案、評估再犯罪風險提供科學依據,從而促進社會治安的持續穩定。

目前,服刑人員的分級策略主要基于犯罪類型和風險等級。犯罪類型是對服刑人員行為的簡化分類,忽視了行為的復雜性和異質性,不能將服刑人員細分為有意義的心理和行為類別?;陲L險等級的評估主要通過VRS(Verbal Rating Scale)、OGRS(Offender Group Reconviction Score)和VRAG(Violence Risk Appraisal Guide)等量表,將服刑人員劃分為低、中、高再犯罪風險等級,有助于管理監管資源的分配,但無法反映服刑人員犯罪的原因,難以對癥矯治[2],因此還應從服刑人員的氣質[3]、性格等方面的特征著手,深層次剖析服刑人員的心理和行為內容,分析其犯罪原因,實現多元化分級,以達到對癥矯治的目的。

在心理學中,氣質是指心理活動中表現出的強度、靈活性和指向性等方面的穩定心理特征,因此將服刑人員分為膽汁質、多血質、粘液質、抑郁質4 種類型[4]。膽汁質服刑人員常因沖動易怒而犯罪,傾向于單獨作案;多血質服刑人員常因探索欲望而犯罪,傾向于團伙作案;粘液質服刑人員常因缺乏自我主張而犯罪,傾向于漸進式犯罪;抑郁質服刑人員常因自卑、無助而犯罪,傾向于自殺式犯罪[5]。4 種氣質類型服刑人員的心理和行為表現特征各不相同,但都具有冷漠、自私和缺乏同情心等共性,因此通過犯罪行為描述文本信息實現歸因分類分級具有較大難度。

傳統的犯罪分析工具大多在服刑人員處于理性狀態時使用量表對他們進行評估,易受到主觀因素干擾,影響了評估結果的準確度[6]。而犯罪事實是服刑人員受到外界刺激,處于非理性狀態的外在表現。通過對犯罪事實的分析可以推斷出極端情況下服刑人員的歸因類型,結合服刑人員基本情況等信息可以進一步提高歸因分類的準確性,對服刑人員進行針對性的教育和改造。近年來,人工智能技術的應用,為新一代的犯罪評估工具的發展提供了契機[7]。

因此,可將文本分類方法引入犯罪心理學領域,通過挖掘分析暴力犯罪服刑人員的犯罪事實和服刑人員基本情況,以端到端的方式對他們的氣質類型進行分類決策。目前文本分類模型可分為傳統機器學習模型和深度學習模型兩大類[8]。深度學習具有自動執行特征學習捕獲判別信息等優勢,已廣泛用于各個領域[9-12],并在法律判決預測[13-14]、司法案例智能推薦和暴力傾向分級[15]等司法實踐領域任務上取得了不小的進展。其中,TextCNN(Text Convolutional Neural Network)[16]為深度學習中常用的模型之一,由于采用了卷積濾波器,具有突出的局部特征捕捉能力。循環神經網絡(Recurrent Neural Network,RNN)[17-18]因為能捕獲長程依賴性而被認為是有效的順序文本數據處理架構。此外,Yang等[19]提出了一種名為HAN(Hierarchy Attention Network)的模型,通過句子和文檔兩個層次提取特征,提高文本語義信息的獲取能力。Baek 等[20]利用TextCNN 構建了一種預測暴力傾向評分和犯罪類型的模型,旨在推動智能警務技術的發展,但在提取上下文語義特征方面存在一定不足。Sadiq等[21]針對網絡暴力欺凌問題,對攻擊性行為進行智能分級,通過手動設計特征構建多層感知機,并采用CNN-LSTM(Convolutional Neural Network-Long Short-Term Memory)和CNN-BiLSTM(Convolutional Neural Network-Bi-directional Long Short-Term Memory)進行自動檢測,但由于缺乏關鍵性語義的提取,它們的性能無法得到充分發揮。

以上研究表明,采用新的模型結構和方法能更好地捕獲語義特征,是實現準確的暴力傾向分級的關鍵,因此,本文利用自然語言處理(Natural Language Processing,NLP)分析服刑人員的氣質信息進行處理決策,并提出一種基于改進HAN 與TextCNN 兩通道聯合建模的暴力犯罪分級模型——犯罪語義卷積分層注意網絡(Criminal semantic Convolutional Hierarchical Attention Network,CCHA-Net)。所提網絡分別分析犯罪事實和服刑人員基本情況的語義,自動提取犯罪文本特征,并將服刑人員分為4 種類型:膽汁質、多血質、粘液質和抑郁質。首先,采用Focal Loss 同時替代兩通道中的Cross-Entropy 函數提升小樣本類別的分類準確率;其次,在兩通道輸入層中,同時引入位置編碼以更好地對位置信息建模;改進HAN 通道,為使編碼出的向量具備更明顯的類別特征,采用最大池化擴展了顯著向量;最后,輸出層都采用全局平均池化(Global Average Pooling,GAP)替代全連接方法,從而規避過擬合。

1 研究方法

1.1 本文算法框架及流程

本文首先收集中國裁判文書網上關于暴力犯罪類型案件的判決書組成基礎數據集;其次,由本課題組的多位犯罪心理學專家進行聯合評估標注工作;隨后,將數據集劃分為犯罪事實與服刑人員基本情況兩部分,分別通過Jieba 分詞器進行分詞操作,并從犯罪事實文本中抽取具有關鍵性表征的字、詞、短語等構成基于暴力犯罪氣質類型的關鍵詞詞典,將它作為犯罪事實部分Jieba 分詞器的用戶預定義詞典;最后,將兩部分分詞之后的結果通過CCHA-Net 模型進行聯合建模,以端到端的方式自動提取特征,并將暴力犯罪服刑人員劃分為膽汁質、多血質、粘液質、抑郁質4 種氣質類型,監管部門可根據氣質類型間的差異個性化制定矯治方案,以實現對癥矯治的目的。圖1 描述了本文算法總體技術路線。

1.2 CCHA-Net暴力犯罪分級模型

為解決傳統模型在暴力犯罪文本分類中語義特征提取不足和缺乏對不同信息維度的融合分析問題,本文提出一種基于改進HAN 與TextCNN 兩通道聯合建模的暴力犯罪分級模型CCHA-Net。首先,利用HAN 通道提取非結構化文本信息特征;其次,通過TextCNN 通道提取結構化及半結構化信息文本特征;最后,通過兩通道融合的方式充分利用不同信息維度的特點,實現更全面的特征提取。這種模型設計能有效克服傳統模型在暴力犯罪分類任務中的缺陷,從而達到提升模型分類準確性的效果。CCHA-Net 框架流程如圖2 所示,其中兩通道的輸入層和輸出層模塊相同,但特征提取層模塊存在差異。

圖2 CCHA-Net整體流程Fig.2 CCHA-Net overall process

本文構建的數據集分為犯罪事實和服刑人員基本情況兩部分,且分別屬于兩種不同的信息維度。在刑事案件中,這兩個維度的重要性不同。其中,按照服刑人員檔案記錄數據項中的犯罪事實部分提取了中國裁判文書網有關暴力犯罪類型案件的判決書中的案件事實部分,反映了犯罪行為的具體情況,包括時間、地點、手段和對象等非結構化數據信息。這些信息可以對服刑人員進行更加精準的分類和判定,本文采用HAN 通道對犯罪事實部分進行語義建模。而服刑人員基本情況部分則提取了判決書中的首部和判決結果部分,由服刑人員的年齡、出生日期、文化程度、職業、面貌、婚否、籍貫、罪名、刑期、前科次數、主從犯、團伙犯和累慣犯等多個短語組成。這些信息屬于結構化及半結構化數據范疇,可用于對案件的背景和動機進行更深入的分析和理解。其中年齡、出生日期、刑期和前科次數屬于結構化數據,可直接提取數值特征,其余屬于半結構化數據,需要預處理后才能提取特征。本文采用TextCNN 通道對服刑人員基本情況部分進行語義建模。

本文采用兩通道進行網絡設計,優勢在于可以充分利用不同信息維度的特點和差異,更好地提取和分類特征。此外,采用兩通道設計還有利于模型的解釋和可解釋性,可以更清晰地展示不同信息維度的貢獻和作用。綜上所述,采用兩通道進行網絡設計是基于犯罪案件信息特點和分類需求的合理選擇,有助于提高分類準確性和解釋性。

兩通道輸入層分別解決了文本向量化、位置信息建模兩個問題。首先,為解決犯罪文本存在的高維稀疏性問題,采用Ngram2vec 方法對文本進行向量化處理工作;其次,同時在兩通道中引入了位置編碼,以增強詞語之間位置信息的表達能力。

HAN 通道特征提取層分為句編碼、句注意力模塊、文檔編碼、文檔注意力4 個模塊。首先,在句編碼模塊,為獲取句子的序列信息,采用雙向門控循環單元(Bi-directional Gated Recurrent Unit,Bi-GRU)對句子中的詞進行了建模表示;其次,在句注意力模塊,除了使用上下文向量外,本文提出了一種顯著向量,采用最大池化方法提取了詞向量每個維度上的最大值;最后,使用兩個向量共同打分,從而使句子編碼的類別特征更明顯。文檔編碼和文檔注意力模塊與句編碼和句注意力模塊類似。

TextCNN 通道特征提取層分為卷積、池化和拼接3 個模塊。首先,為提取局部短語特征,本文設計了3 個高度為3、4、5 的卷積核,進行卷積操作,每種尺寸的卷積核有128 個;其次,為抽取主要特征同時減少參數量,采用最大池化方法抽取了每個特征圖中的最大值;最后,將池化后的結果進行拼接,得到服刑人員基本情況的特征表示。

兩通道輸出層分別解決分類輸出和聯合建模兩個問題。首先,同時在兩通道中采用全局平均池化替代全連接方法進行分類輸出,以解決過擬合問題;其次,通過Softmax 分類器,獲得了各自的分類概率;最后,為實現聯合建模,采用軟投票機制融合兩通道的分類概率,得到了最終的分類結果。

此外,為提升小樣本類別的關注度,本文在兩通道中同時采用Focal Loss 替代了Cross-Entropy 函數。

1.3 基于位置編碼的兩通道輸入層

一個句子中詞語的先后順序不同,含義也會有所差異。隨著文本長度的增加,模型無法充分利用到詞向量之間的位置信息。為解決此類問題,本文提出在兩通道輸入層中同時引入了Vaswani 等[22]提出的位置編碼。假設輸入序列的長度為L,每個單詞的向量表示維度為dmodel。對于每個位置pos和每個維度i,計算一個位置編碼,如式(1)、(2)所示:

其中:pos是當前位置;i為當前維度;dmodel指向量維度。是一個假設條件,用于確定不同維度之間的周期性,確保位置編碼不會重復和重疊。將位置編碼按元素加到對應位置的詞向量中,得到新的向量表示便帶有了位置信息。

1.4 基于顯著向量的HAN通道特征提取層

在文本分類任務中,傳統的將文檔中的句子作為長序列進行處理的方法無法捕捉文檔中的層次結構信息,導致信息的丟失。為了解決這個問題,HAN 模型[19]應運而生,該模型通過學習文本的語義層次結構進行文本分類,由句子和文檔兩個級別的注意力機制組成,能形成每個句子和文檔級別的加權平均表示,進而為文本分類任務提供更準確的表示。

為深化具有明顯的類別特征權重,提升分類準確度,本文在HAN 模型基礎上提出一種顯著向量,采用最大池化方法提取句子和文檔的向量以表示矩陣中每個維度上最重要的信息;同時利用上下文向量與顯著向量共同評價的方式使模型能夠聚焦到最具判別性的語義特征。

1.4.1 句編碼模塊

在句編碼模塊中,為了獲取句子的長距離序列信息,采用RNN[17-18]將句子中的詞語按順序輸入進行建模表示。由于RNN 的隱藏層變量會出現梯度消失和爆炸的問題,因此本文采用RNN 的變體,即Bi-GRU 解決此類問題。

假設對于數據集中犯罪事實部分的某一篇文檔S=[S1,S2,…,SL],Si代表該文檔中的第i(i∈[1,L])個句子。對于該文檔中的某一個句子Si=[xi1,xi2,…,xiT],xit代表第i個句子中第(tt∈[1,T])個單詞的向量表示。首先,使用Bi-GRU匯總兩個方向的信息獲得單詞的注解,如式(3)、(4)所示:

1.4.2 句注意力模塊

并非所有的詞都對句子意思的表達有同樣的重要性,因此,在句注意力模塊采用注意力機制評價每個單詞權重,再通過單詞及其得分形成句子的向量表示。

特別地,在句注意力模塊,為使模型更好地聚焦到最具判別性的語義信息,本文除了使用上下文向量Ug外,還創新性地為每個句子構建了其獨有的顯著向量Us。設每個單詞的詞向量為xit=[xit1,xit2,…,xitW],W為詞向量的維度,每個維度都表示一個屬性信息。本文在計算每個句子獨有的顯著向量Uis時,對句子中全部T個單詞的w個維度,提取每個維度的最大值,然后將它們進行連接作為句子獨有的顯著向量Uis,使得具有明顯類別特征的語義信息更加突出,如式(6)、(7)所示:

其中:Uis為句子Si獨有的顯著向量;uij為Uis的第j維;xitj是句子Si中的第t個詞向量的第j維的值。同時設置一個上下文向量Ug以表示“哪些單詞對犯罪分析更為關鍵”,此向量取隨機初始值,并在訓練過程中不斷迭代學習。

之后,首先通過一個單層的多層感知機(MultiLayer Perceptron,MLP)將詞的注解hit送入,得到,如式(8)所示:

其中:Ws表示可訓練權重;bs為偏置項。然后對于句子中的所有單詞,分別計算它和兩個向量的相似度并歸一化,得到針對兩種向量的注意力得分,如式(9)、(10)所示:

其中:αit、βit分別為單詞注解hit對于Ug和Uis兩個向量的歸一化分數,如圖2 中分數①和分數②所示。最后,將兩個分數求和作為最終的注意力得分,根據所有單詞和注意分數得到最終的句子向量表示Si,如式(11)所示:

通過上下文向量和顯著向量共同評價的方式,既能得到文檔中每個句子對應的向量表示,又能提升犯罪文本中具有明顯判別含義的特征權重,達到模型分類準確率提升的效果。

文檔編碼及注意力模塊與句編碼及注意力模塊類似。在得到句子的向量表示Si之后,首先,通過文檔編碼模塊同樣輸入Bi-GRU,得到句子的注解;其次,通過文檔注意力模塊計算句子注解對于上下文向量Ud和本文提出的顯著向量UL的得分,如圖2 中分數③和分數④所示;最后將兩個分數求和,以得到最終的包含了全部句子信息的文檔向量d。

1.5 TextCNN通道特征提取層

服刑人員基本情況是由許多獨立且不相關的短語組成,鑒于TextCNN[16]通過卷積操作,在捕獲局部短語特征方面表現出色,因此本文采用TextCNN 通道,分為卷積、池化和拼接3 個模塊,對服刑人員基本情況文本進行特征提取。

在卷積模塊中,輸入矩陣的第i個到第i+h-1 個窗口內的詞向量矩陣xi:i+h-1通過卷積操作提取到的特征oi如式(12)所示:

其中:f(·)是非線性激活函數,W1為權值矩陣,b1是偏置項。卷積操作應用于一個完整的服刑人員基本情況文本的詞向量{x1:h,x2:h+1,…,xn-h+1:n}會得到一個特征圖o,如式(13)所示:

在池化模塊中,最大池化方法用于提取每個特征圖中的最大值,具體運算如式(14)所示:

其中Fmax表示池化后的結果。在拼接模塊中,需要將詞向量分別經過高度為3、4、5 的卷積核進行卷積,再進行池化后輸出的特征向量Fmax3、Fmax4、Fmax5按順序進行拼接,從而得到服刑人員基本情況的特征表示向量Ffinal_max,具體過程如式(15)所示:

1.6 基于全局平均池化和軟投票的兩通道輸出層

1.6.1 基于全局平均池的犯罪氣質分類方法

經典HAN 與TextCNN 模型輸出層中使用全連接方法進行分類輸出,雖然應用廣泛,但也有一些缺點:首先,參數量巨大,降低了訓練速度;其次,非常容易出現過擬合。為了解決這兩個問題,本文同時在兩通道輸出層中采用全局平均池化替代了全連接方法,分別得到兩通道的分類輸出結果F1和F2。全局平均池化方法計算不需要設置大量參數,計算量大幅減小,在避免出現全連接方法兩個主要缺點的同時,可以達到全連接方法相同甚至更高的分類效果。

1.6.2 基于軟投票的犯罪語義聯合建模方法

為實現對犯罪事實與服刑人員基本情況的語義表示進行聯合建模,本文采用軟投票機制進行特征融合。首先將兩個通道得到的分類輸出結果Fn分別應用于Softmax 分類器,從而得到兩個通道的預測概率;然后,對這兩個概率求算術平均,得到了最終的類別預測概率p,用于暴力犯罪氣質的分類,如式(16)所示:

其中:n表示模型通道數2,Wi為可訓練權重,bi為偏置項。

1.7 基于Focal Loss的小樣本類別關注度提升方法

為降低樣本數不均衡問題帶來的影響,本文在兩通道中同時采用Lin 等[23]提出的Focal Loss 替代了Cross-Entropy 函數。Focal Loss 主要針對每一種類別數重新賦予不同的權重,易分辨的類別賦予較少的權重,較難分辨的類別賦予較高的權重,從而達到提升關注度的效果。Focal Loss 計算流程如式(17)、(18)所示:

其中:αi表示權重因子,Ci表示每個類的計數。在Cross-Entropy 中,通過參數γ≥0 的Focal Loss 添加調制因子(1 -pi)γ:若γ=0,則Focal Loss 效果與Cross-Entropy 相同;若γ增加,那么α便會減小。為了控制每個類別的損失權重,有效地利用了參數β和σ。

2 實驗與結果分析

2.1 數據來源及處理

2.1.1 數據集的獲取與標記

首先,本文以中國裁判文書網為語料源,收集并選取了2015 年3 月26 日至2021 年8 月9 日暴力犯罪類型案件的判決書,得到4 665 條數據作為基礎數據集;其次,由本課題組的多位犯罪心理學家進行聯合評估標注工作;最后,得到膽汁質2 232 條,多血質1 963 條,粘液質465 條,抑郁質5 條。

2.1.2 基于暴力犯罪氣質類型的關鍵詞詞典構建

通過查看分詞器的效果,發現一些具有代表性的心理特征詞不能被很好地劃分,因此,本課題組的多位犯罪心理學專家從各類服刑人員的犯罪事實中選取了具有關鍵性表征的字、詞和短語等,構建了4種暴力犯罪氣質類型的關鍵詞詞典。

2.1.3 數據預處理

數據預處理部分分別解決了分詞、刪除停用詞兩個問題。首先,Jieba 分詞器可以有效識別犯罪文本中的一些實體信息,分詞效果較好。因此,本文采用Jieba 分別對犯罪事實和服刑人員基本情況兩部分進行分詞操作;此外,為避免分詞過程中關鍵性語義特征的流失,將基于暴力犯罪氣質類型的關鍵詞詞典作為犯罪事實部分Jieba 分詞器的用戶預定義詞典;其次,本文通過加載哈爾濱工業大學停用詞表,刪除了一些不相關的詞、標點符號等內容,以減少訓練過程中的噪聲。

2.2 實驗條件和環境

2.2.1 實驗環境和超參數設置

本文使用的實驗平臺為Ubuntu 18,硬件為Intel i7-9700處理器,32 GB 內存,RTX 2080 GPU 處理器。編碼采用Python 3.7.11 版本,深度學習庫為PyTorch 1.9.1,機器學習庫為Sklearn 1.0.2。為了使模型取得更好的效果,本文通過大量實驗選取了最優的超參數設置,如表1 所示。

表1 超參數設置Tab.1 Hyperparameter setting

2.2.2 數據集劃分

為驗證實驗結果,按6∶2∶2 隨機劃分了4 665 條數據,數據之間沒有交叉,數據集劃分如表2 所示。模型總共訓練了50 個epoch。每100 個batch 后,對驗證集數據進行測試,以保存最好的模型。然后用在測試集上,得到最終結果。

表2 數據集劃分Tab.2 Dataset division

2.2.3 評價指標

為統計本文所提模型CCHA-Net 與其他相關基線模型的顯著差異,本文使用了準確率(Acc)、精確率(P)、召回率(R)、F1 分數對模型進行了綜合評價。同時考慮到數據集存在樣本數不均衡問題,還引用了曲線下面積(Area Under Curve,AUC)值。由于本文是多分類問題,所以采用宏平均和微平均兩種方式對精確率(Macro_P,Micro_P)、召回率(Macro_R,Micro_R)、F1 分數(Macro_F1,Micro_F1)、AUC 值(Macro_AUC,Micro_AUC)進行計算。

2.3 實驗結果與分析

2.3.1 消融實驗結果與分析

為深入分析兩通道單獨建模改進內容與聯合建模對暴力犯罪氣質分類能力的影響,本文設計了消融實驗進行分析比較,結果如表3 所示。

表3 消融實驗測試結果 單位:%Tab.3 Test results of ablation experiments unit:%

由表3 可知,在HAN 通道對犯罪事實進行語義建模,將Focal Loss 替代Cross-Entropy 后,Macro_P 與Macro_F1 分別提升了2.96 和2.56 個百分點。這是由于Focal Loss 類似于一個獎懲機制,對大樣本類別權重進行懲罰,同時對小類別權重進行獎勵,使模型在訓練過程中能更多地關注小類別,從而提升分類效果。

在輸入層引入位置編碼后,Acc 與Macro_AUC 分別提升了1.08 和5.71 個百分點。這是由于詞語的先后順序對犯罪文本的含義理解有偏差,而位置編碼能夠通過引入位置向量而提高模型對于位置信息的感知能力,以解決此類問題。

在特征提取層句及文檔注意力模塊構建顯著向量后,Acc 與Macro_P 分別提升了3.97 和4.08 個百分點。這是由于顯著向量的構建,與上下文向量共同對句子中的單詞、文檔中的句子進行打分,從而使句子及文檔編碼的類別特征更加明顯,模型能夠更好地關注到犯罪文本中最具差異性的信息。

在輸出層將全局平均池化替代全連接方法后,Acc 與Macro_P 分別提升了0.53 和0.87 個百分點。這是由于全局平均池化方法對全連接方法參數量大和易過擬合缺點進行了避免。

在TextCNN 通道對服刑人員基本情況進行了語義建模,各項改進也得到了相應的指標提升。最終,將兩通道進行聯合建模后,模型達到了最佳效果,其中Micro_F1、Macro_AUC和Micro_AUC 分別達到了99.57%、99.45%和99.89%。驗證了本文提出的CCHA-Net 模型在暴力犯罪氣質分類方面具備較好的應用價值。

由 表3 中 的Macro_AUC 和Micro_AUC 可 知,HAN 和TextCNN 的表現最差,這是因為兩者并沒有對樣本數不均衡、位置信息建模和過擬合等問題進行優化。HAN 到HAN+Focal Loss+位置編碼+顯著向量+GAP;TextCNN 到TextCNN+Focal Loss+位置編碼+GAP 的Macro_AUC 和Micro_AUC 指標呈遞增趨勢,這說明本文提出的各項改進措施都是有效的。而CCHA-Net 的Macro_AUC 和Micro_AUC 指標則最高,這證明了本文提出的CCHA-Net 模型通過兩通道聯合建模后,在面對存在樣本數量不均衡問題的犯罪文本時,仍然能夠具備良好的分類效果。

2.3.2 相關模型對比實驗結果與分析

為了與以往的犯罪分析工作進行比較,同時驗證本文提出的CCHA-Net 模型的優越能力,本文在同一數據集上與17種相關模型進行了對比實驗,包括9 種傳統機器學習已有相關基線模型:K最近鄰(K-Nearest Neighbor,KNN)[24]、多項式樸素貝葉斯(Multinomial Naive Bayes,MNB)[25]、高斯樸素貝葉斯(Gaussian Naive Bayes,GNB)[26]、伯努利樸素貝葉斯(Bernoulli Naive Bayes,BNB)[27]、決策樹(Decision Tree,DT)[28]、隨機森林(Random Forest,RF)[29]、支持向量機(Support Vector Machine,SVM)[30]、XGBoost(eXtreme Gradient Boosting)[31]和邏輯回歸(Logistic Regression,LR)[32],8 種深度學習已有相關基線模型:長短期記憶(Long Short-Term Memory,LSTM)[33]、雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)[34]、門控循環單元(Gated Recurrent Unit,GRU)[35]、Bi-GRU[36]、Att-BiLSTM(Attentionbased Bidirectional Long Short-Term Memory networks)[37]、CLSTM[38]、CNN-BiLSTM[9]、AC-BiLSTM(Attention-based Bidirectional Long Short-Term Memory with Convolution layer)[39]??紤]到這些模型不是多通道模型,在實驗過程中,將兩類數據按照犯罪事實、服刑人員基本情況的順序整合在一起輸入模型。結果如表4 所示。

表4 對比實驗測試結果 單位:%Tab.4 Test results of comparative experiments unit:%

由表4 可知,在傳統機器學習模型中,GNB 表現最差,與CCHA-Net 相比,Acc 與Macro_R 分別低25.72 和28.14 個 百分點。這是由于膽汁質與多血質類型犯罪文本之間存在一定的相關性,GNB 在處理具有相關性的類別時效果不佳。與其中最優 的SVM 相比,CCHA-Net 在Acc 和Macro_AUC 指 標上分別高4.29 和9.30 個百分點,表明CCHA-Net 在處理相關性較強的類別時具有更好的性能。

在深度學習模型中,LSTM 表現最差,與CCHA-Net 相比,Acc 與Macro_P 分別低15.88 和16.43 個百分點。這是由于LSTM 丟失建模信息過多,如層次結構與后向信息等。與其中最優的AC-BiLSTM 相比,CCHA-Net 在Acc 和Macro_P 指標上分別高4.08 和3.09 個百分點,表明CCHA-Net 具有更好的文本建模能力。

與所有模型相比,CCHA-Net 各項評價指標最佳。Micro_F1,Macro_AUC,Micro_AUC 相較于次優的AC-BiLSTM提高了4.08、5.59 和0.74 個百分點,證明本文提出的CCHANet 模型能夠有效勝任暴力犯罪氣質分類任務。

2.3.3 CCHA-Net兩通道復雜度分析

CCHA-Net 模型的有效性,本文從兩通道處理方式的復雜度視角出發,進行了計算量和參數量的測試工作,以評估時間復雜度和空間復雜度。具體測試結果如表5 所示。

表5 兩通道處理方式復雜度評估結果Tab.5 Complexity evaluation results of dual-channel processing method

由表5 可知,本文提出的CCHA-Net 模型采用了兩通道聯合建模機制,計算量和參數量相當于兩個通道的總和。從計算量和參數量的角度來看,CCHA-Net 的復雜度較為合理,具有良好的可擴展性和實用性。

3 結語

本文將文本分類方法引入犯罪心理學領域,提出了一種基于改進HAN 與TextCNN 兩通道聯合建模的暴力犯罪分級算法CCHA-Net,通過分別剖析犯罪事實與服刑人員基本情況文本,以端到端的方式將服刑人員劃分為膽汁質、多血質、粘液質和抑郁質四種氣質類型。首先,為提升小樣本類別的關注度,采用Focal Loss 同時替代兩通道中Cross-Entropy 函數;其次,在兩通道輸入層中,同時引入了位置編碼,優化了模型對詞語前后位置信息的感知能力;并改進HAN 通道,為強化具有明顯的類別特征權重,采用最大池化構建了顯著向量;最后,輸出層都采用全局平均池化替代全連接方法,以防止出現過擬合問題。為驗證CCHA-Net 的分類準確率,將它與9 種傳統機器學習和8 種深度學習已有相關基線模型進行了對比。實驗結果表明,CCHA-Net 在9 種主流評價指標下均達到了最優,Micro_F1 為99.57%,Macro_AUC、Micro_AUC分別為99.45%和99.89%,三者相較于次優的AC-BiLSTM 提高了4.08、5.59 和0.74 個百分點。驗證了CCHA-Net 能夠有效完成暴力犯罪分級任務,同時為后期監管部門制定個性化矯正教育方案奠定基礎。

未來的工作將集中在樣本數不均衡問題和數據集擴充兩個方面。首先,由于數據集中存在樣本數不均衡的問題,導致宏平均下的評價指標不是很高,未來將嘗試改進損失函數或設計重采樣方法,并執行圖神經網絡解決此類問題。然后,本文將進一步擴充服刑人員樣本數據集,包括服刑人員訪談記錄、日??祻陀涗?、親情電話語音和通過各種傳感器采集的脈搏、心率、皮電和腦電信號等,通過多模態技術對服刑人員進行綜合分級,以實現個性化矯治。

猜你喜歡
池化服刑人員編碼
面向神經網絡池化層的靈活高效硬件設計
基于Sobel算子的池化算法設計
卷積神經網絡中的自適應加權池化
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
《全元詩》未編碼疑難字考辨十五則
監獄管理局廳官充當服刑人員“保護傘”
子帶編碼在圖像壓縮編碼中的應用
服刑人員生育權論要
基于卷積神經網絡和池化算法的表情識別研究
Genome and healthcare
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合