?

直播中不良信息監測技術研究

2022-10-14 02:01肖紅威
網絡安全技術與應用 2022年9期
關鍵詞:神經網絡深度特征

◆肖紅威

(中國移動通信集團湖北有限公司 湖北 441000)

1 前言

通過相關數據可知,2021 年我國在線直播用戶數量為6.35 億人,預計2022 年將增多為6.6 億人。然而由于直播提供者對利益的驅使,網絡直播中經常出現不健康或違法信息來毒害網民,比如:涉黃、涉賭、涉毒、涉暴等信息,侵犯個人隱私等人身權利、虛假信息、造謠、詐騙等,沖擊了社會道德、擾亂了社會秩序,甚至違法犯罪,引起社會的廣泛關注和擔憂。因此,本文通過對直播中不良信息分析,研究了不良信息監測的關鍵技術,提出一種直播中不良信息智能檢測模型,可作為治理直播中不良信息的技術參考,促進直播行業健康發展。

2 直播中不良信息的分類

①色情信息。是過度地宣揚兩性關系、挑逗接收者性欲、導致普通者精神墮落的信息。

②暴恐信息。是含有宣揚暴力、破壞、恐怖、宗教極端、民族分裂等的信息。

③違背公德信息。是對公共生活中最起碼、最簡單的規范和要求進行人為破壞。

④政治敏感信息。攻擊我國政治制度或法律制度、分裂國家、損害國家形象、破壞社會穩定、損害民族與地域團結、違背國家宗教政策、惡意中傷或損害人民軍隊、國安、警察、行政、司法等國家公務人員形象和共產黨黨員形象的內容。

⑤違禁或違法信息,指違反國家有關規定或侵犯國家和個人權利的信息。

3 直播中不良信息智能檢測模型

由于發送方和接收方都可使用移動終端,直播打破了時間和空間上的限制,而且還具有較強的實時互動性,直播監控面臨了更大挑戰,亟需創新技術來解決監管問題。從技術角度分析,直播是結合通信技術、數字技術和多媒體技術的綜合信息服務,且直播仍然以文字、圖像、音頻為主要信息載體,而直播中的不良信息也是如此[1]。因此,綜合考慮直播中各種信息存在的形式,為提高直播中不良內容監測的高效性和準確率,本文建立一個了直播中不良信息智能檢測概念模型,如下圖1 所示。

圖1 直播中不良信息智能檢測概念模型

4 直播中不良信息監測關鍵技術

4.1 不良文本監測技術

(1)關鍵詞識別算法

基于百萬級違規詞庫的進行關鍵詞語義匹配識別。文本內容經過分詞后,算法對分詞進行變種識別和修正,通過詞向量模型進行向量化操作,轉換出語義特征,以語義特征相似為目標,通過海量數據高效檢索技術進行關鍵詞匹配。

由于涉及黑產的經濟利益,內容安全是一個充滿著對抗和升級的領域。當不良內容被系統檢測并攔截以后,黑產通過對關鍵詞做變種處理的方式,不斷試探系統的識別能力。主要的變種手段有:

①使用同音字替代,如微信寫成威信;

②直接使用拼音,如裸聊寫成luo 聊;

③使用形近字替代,如裸聊寫成果聊;

④使用拆字替代,裸聊寫成衤果聊;

(2)文本分類算法

文本分類算法主要運用的是傳統的機器學習模型。以傳統機器學習模型為基礎,主要涉及了下述環節:

①數據分布調整。一是做類別平衡處理,二是做數據增強。類別平衡常用的方法有數據過采樣和數據欠采樣,目的是讓各個類別的樣本數量更加合理,有利于模型的訓練。文本的數據增強包括增詞、減詞和樣本交叉等方式,目的是降低過擬合風險,提高模型泛化能力。數據增強需要結合業務場景謹慎地選擇合適的方式,這個一般是跟數據過采樣結合使用的。

②特征工程。主要囊括特征選擇、特征定義以及特征表征。特征選擇有PMI、IG 和針對業務場景自研的一些方法,目的是降維和優化特征空間。特征定義指的是模型輸入基于哪些維度,包括詞、ngram、主題模型、詞向量等維度,還包括運營自定義的一些規則。特征表征主要定義各個特征維度值的計算方法,用得比較多的是TF-IDF,有些場景也有直接用TF 或TF 百分比的。

③模型選擇及對應的超參數優化。這個主要根據不同場景下文本特點選擇合適的模型,使用較多的模型包括SVM、LR、GBDT 等。

④模型效果評估。訓練好模型之后,我們需要評估其效果。首先在離線測試集上面測試,如果效果指標保持穩定或者更好,則用線上抄送的數據進行實時測試,命中數據抽樣人工標注,獲得最真實的線上效果。

(3)文本指紋識別算法

文本內容經過分詞后,將分詞送入深度特征提取網絡,進行文本特征空間中的指紋信息提取,進而將提取指紋特征和文本樣本庫中的已有指紋特征進行相似匹配,匹配成功則返回相應類型。

(4)文本聚類算法

文本內容經過分詞后,將分詞送入深度特征提取網絡進行語義特征提取,提取的特征通過實時聚類算法形成多個團簇,通過篩選聚集度較高的團簇找到對應的高頻文本。

(5)深度學習模型

深度學習模型是通過和傳統機器學習模型集成的形式被應用于在大多數場景的[2]。其中傳統機器學習模型配置一個較低的閾值,深度學習模型配置一個較高的閾值。先用傳統機器學習模型對待檢測文本進行檢測,如果檢測出有問題,再使用深度學習模型進行進一步檢測。

語言模型的使用也是深度學習模型的應用場景之一。其主要包括兩種類型,即以深度學習的語言模型以及以統計為基礎的N 元文法語言模型。N 元文法語言模型屬于早期的語言模型,深度學習技術流行以后,基本都被深度學習語言模型替代了。我們的語言模型經過幾次技術升級,目前使用的是基于BERT 的語言模型,使用蒸餾技術得到的一個簡化版,兼顧效果和性能。

模型的更新維護為了提升模型效果,一般有兩種方式:第一種是補充更多的數據,特別是badcase 的數據;第二種是技術升級,用更好的算法對模型進行改進。模型更頻繁的維護方式是補充訓練數據,這也是效果提升最直接的方式。

4.2 不良音頻監測技術

(1)聲音分類算法

聲音分類算法由傳統方法和深度學習方法共同組成,算法用于區分不同聲音類型,在不良場景中可以對敏感聲音類型進行識別。深度學習方法通過建立卷積神經網絡和遞歸神經網絡對語音數據進行建模,使用在圖像識別等任務中表現較好的卷積神經網絡例如VGGNet,ResNet 等作為基礎網絡對聲音特征進行學習,由于音頻特征具有時序性,通過建立遞歸神經網絡可以學習語音中的時序關系,提高分類的準確性。

(2)語音識別算法

語音識別算法即語音轉文字算法主要通過基于深度學習的端到端模型實現,算法用于反垃圾場景中的敏感語音信息提取[3]?;谏疃葘W習的端到端語音識別模型將聲學模型,發音模型,語言模型統一成整體建立Seq2Seq 模型,不像傳統方式那樣需要獨立的發音模型和語言模型。端到端語音識別模型主要包括CTC,注意力,CTC 聯合注意力,RNNTransducer 四種技術實現,其中CTC 聯合注意力和RNNTransducer 是重點實現方式。數據方面的工作包括語音標注數據和語料數據的收集,和場景相關的語音、語料數據對于模型效果的提升有較關鍵的作用,除此之外,在魯棒性以及模型識別能力方面,頻域和時域數據增強發揮了極為重要的作用。通過語音轉寫數據的收集和標注,模型可以進行端到端訓練,實現語音信息轉文字的算法功能,從而實現敏感文字信息的提取。

(3)音頻模板匹配算法

算法使用語音指紋技術,首先從連續的語音中抽取具有良好不變性的特征,將其進行特征編碼轉換,轉為可以快速檢索的形態。在實時的匹配中還需要佐以時間維度的校驗。

(4)聲紋識別算法

算法使用了混合帶寬訓練,將語音轉換為高層級的語義特征,同時算法會自動聚焦到業務希望捕獲的特征維度,依賴這些特征組合完成分類決策。

(5)語音識別關鍵詞檢測算法

關鍵詞音頻識別算法會共享部分音頻轉文字的技術,但在匹配到關鍵詞相關特征時,會通過加重關鍵詞特征的權重,提升關鍵詞的識別率。

4.3 不良圖片檢測技術

(1)相似圖片匹配算法

算法對圖片提取全局高層語義特征和重點區域淺層屬性特征,其中全局特征通過深度特征提取網絡轉換獲得,局部特征通過注意力機制進行空間定位獲得,分別對全局和局部特征進行相似度比對,結合兩者匹配信息綜合判斷圖片是否相似。

(2)目標檢測算法

目標檢測算法主要用于提取圖像中的關鍵區域,并屏蔽圖像中的背景和干擾信息。目標檢測算法主要參考了SSD,YOLOv3,RefineDet等通用目標檢測網絡結構[4]。由于不良場景中的圖片存在圖像質量低、目標不清晰、特征模糊等特點,檢測部分需要重點解決小目標、多尺度等問題。針對小目標問題目標檢測算法引入了類似特征金字塔的結構進行了特征融合,結合淺層特征的高分辨率信息和高層特征的語義信息來提高檢測算法對于小目標的召回能力;而針對多尺度問題目標檢測算法主要采用了多尺度訓練的方式進行了優化。

(3)圖像分類算法

圖像分類算法針對圖像整體內容進行類別區分,判定圖像是否包含不良類別信息。圖像分類算法參考了基于深度學習的通用分類網絡,例如ResNet,SENet,MobileNet 等。在圖像分類過程中,針對識別對象特征較小難以區分的問題,圖像算法采用注意力機制Attention讓模型聚焦有效信息,提升最終分類的效果[5]。此外,針對業務數據分布廣泛、訓練樣本需求量大的問題,算法采用了樣本挖掘、主動學習等方式,迭代擴充訓練樣本數量,并通過數據過濾撈取最有效的樣本。

(4)涉黃圖像識別算法

送入一張圖片到用于分類任務的深度神經網絡進行識別,輸出是否含有色情內容的決策。深度神經網絡使用海量色情標注樣本數據構建圖片訓練樣本集,通過訓練樣本集調整深度神經網絡參數,訓練完成后神經網絡學習到色情圖片分類能力。

(5)涉政圖像識別算法

送入一張圖片到用于分類任務的深度神經網絡進行識別,輸出是否含有涉政內容的決策。深度神經網絡使用海量涉政標注樣本(涉政人物、涉政旗幟等場景)數據構建圖片訓練樣本集,通過訓練樣本集調整深度神經網絡參數,訓練完成后神經網絡學習到涉政圖片分類能力。

(6)暴恐圖片識別算法

暴恐圖片分類算法采用TPC-AR 的算法,框架主要分為算法訓練和算法測試兩個部分。

圖2 暴恐圖片分類算法框架

網絡訓練過程:

數據預處理,網絡搭建→網絡訓練優化→網絡模型

①數據集的構建:從文件夾中讀取暴恐圖片文件從而創建相應的標簽文件和訓

練使用的輸入數據;

②模型的搭建和模型參數的配置;

③網絡模型的訓練:使用創建好的輸入數據更新網絡模型的參數,當模型的loss

值或者訓練次數達到預期時保存訓練好的網絡模型。

網絡測試過程:

測試數據集→模型預測→預測結果,計算準確率

①將創建好的測試數據集通過已經完成訓練的網絡進行預測,從而計算模型的準確率等指標。

②通過恒等映射的方式取代高速公路網絡中的變換門與攜帶門。

③采用殘差網絡模型對暴恐圖片進行分類。

(7)廣告類圖片算法

送入一張圖片到用于分類任務的深度神經網絡進行識別,輸出是否含有廣告內容的決策。深度神經網絡使用海量廣告標注樣本數據構建圖片訓練樣本集,通過訓練樣本集調整深度神經網絡參數,訓練完成后神經網絡學習到廣告圖片分類能力。算法訓練樣本為海量廣告標注樣本,在實現過程中使用了圖片篡改識別、多任務學習、半監督訓練等先進技術手段。

(8)圖片文字轉換(OCR)

采用了基于深度學習的自然場景文字檢測識別算法,應用于視頻、圖像中敏感文字信息的識別,技術實現由文本檢測和文本識別兩部分組成。第一部分是文字檢測,用于定位圖片中文字的位置,不良場景圖片中的文字排版復雜、文字形狀多變,現有的一般方法較難解決困難樣例,通過數據、模型層面的優化,針對這些類型文字具有較好的檢出能力。第二部分是文本識別,基于檢出區域對文字內容進行識別,主要采用注意力機制(Attention)和CTCloss 相結合的方法,并將不同文字朝向的識別模型融合在一個網絡中,處理實際場景中出現的各類變種文字。針對以下困難樣例有較好的支持:

①文字存在旋轉、仿射變換

②豎排或其他特殊排版

③特殊字體

④手寫體

(9)人臉識別算法

人臉識別算法用于識別敏感人物,由人臉檢測、人臉對齊、人臉識別三部分組成。

①人臉檢測模型用于確定圖像中人臉的位置信息,人臉檢測算法針對不良場景中存在的模糊小臉、側臉、遮擋人臉等難點進行了模型層面的優化。

②人臉對齊模型通過預測人臉上的關鍵點來確定人臉有辨識度的區域位置,并使用仿射變換將不同人臉的相同關鍵點對齊到相同的位置,從而降低人臉輸入的噪聲,使得后面的人臉識別模型能專注于學習區分每個人的特征。

③將前面經過人臉檢測和對齊后的人臉區域送入人臉識別模型獲得人臉特征,人臉識別的關鍵在于對每張人臉提供一個有辨識度的特征向量,人臉識別算法針對不良場景出現的模糊小臉、側臉、裝飾品、年齡變化、漫畫等復雜問題進行了長期定向優化。

4.4 不良視頻監測技術

(1)視覺顯著度兼容互補性的關鍵幀提取

視覺顯著度兼容互補性的關鍵幀提取方法:首先考慮亮度顯著度(對視覺較敏感)、局部二值特征顯著度(對亮度具有不變性)、運動顯著度,分別提取關鍵幀。然后再根據幀和幀之間的相關系數的大小,來消除多余的關鍵幀,如圖3 所示:

圖3 視覺顯著度兼容互補性的關鍵幀提取的算法結構

(2)視頻模糊匹配

在視頻匹配中,由于時間維度上的信息較多,需要先抽取時間維度上關鍵幀序列,并捕獲圖像空間位置上的重要信息,將其編碼成高級語義特征錄入到數據庫。實時匹配時會使用相同的方式抽取特征并完成與數據庫的比對。

(3)涉黃視頻識別算法

涉黃視頻識別算法中,同樣需要對視頻中的關鍵幀進行捕獲,但關鍵幀抓取時需要考慮單幀上的語義特征是否有涉黃嫌疑。在快速捕獲到嫌疑度較高的時間范圍后,需要結合一定時間范圍內的運動信息、內容信息來做出是否涉黃的判斷。

(4)涉政視頻識別算法

涉政視頻識別算法中,同樣需要對視頻中的關鍵幀進行捕獲,但關鍵幀抓取時需要考慮單幀上的語義特征是否有涉政嫌疑。在快速捕獲到嫌疑度較高的時間范圍后,需要結合一定時間范圍內的運動信息、內容信息來做出是否涉政的判斷。

(5)暴恐視頻識別算法

暴恐算法實現過程和涉黃算法類似。暴恐視頻識別的難點在于違禁元素內容的多樣化,對多種多樣的語義特征需要更好的區分。在時間維度、空間維度算法會自動聚焦到細節內容,并結合具有區分度的語義特征完成判斷。

5 結束語

綜上所述,在各類媒體的融合發展背景下,網絡視頻直播逐漸演變成宣傳推廣和獲取盈利的重要方式,運用以上技術手段,可有效監測直播中的不良信息,以便于及時切斷有害信息傳播鏈條,凈化網絡環境。與此同時,技術既有好的一面,同時也有消極的一面,人們必須正確、全面、客觀認識網絡直播。當前,政府監管部門、立法機關以及行業自律組織不斷加大了管理、規范力度,今后網絡直播的發展必將越來越好,逐步成為一種內容豐富高質、快捷、傳遞正能量的重要媒介。

猜你喜歡
神經網絡深度特征
根據方程特征選解法
深度理解一元一次方程
神經網絡抑制無線通信干擾探究
不忠誠的四個特征
基于神經網絡的中小學生情感分析
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
基于神經網絡的拉矯機控制模型建立
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合