?

機器學習課程實踐教學案例設計與分析
——以虛假新聞識別為例

2023-07-26 09:13熊蜀峰孫彤劉亮亮孫肖云
電腦知識與技術 2023年16期
關鍵詞:機器模態案例

熊蜀峰,孫彤,劉亮亮,孫肖云

(河南農業大學 信息與管理科學學院,河南 鄭州 450002)

0 引言

機器學習作為人工智能技術的一個重要分支和基礎技術被越來越多的人所熟悉,機器學習研究計算機如何模擬人腦和人類的學習機制,組織現有知識以不斷提高自身性能,并使計算機智能化。特別是在數據科學和大數據領域,機器學習是最核心技術之一,熟練使用機器學習和其他知識挖掘技術是培養合格數據科學人才的基本要求[1]。因此,越來越多的高校在人工智能、計算機科學與技術、數據科學和大數據技術等本科專業(本文將這些專業稱為計算機大類專業)開設機器學習課程。

由于該課程實踐性較強,因此在安排機器學習理論知識的講授外,還同步進行實踐教學,使學生通過動手實踐加深對理論知識的理解[2]。以河南農業大學為例,其開設的機器學習課程教學計劃總學時是48學時,其中理論與實踐比例為1∶1,即理論課24 學時,實驗課24學時,旨在夯實學生的理論知識,同時培養學生的動手實踐能力。

分類問題是機器學習應用中最普遍的任務,具體應用場景包括新聞主題分類、文本情感分析、公文分類、虛假新聞識別[3-5]等。通過實際應用場景任務訓練,可以鍛煉學生解決實際問題的能力,同時也能激發學生對本課程的學習興趣[6]。因此本文引入了虛假新聞檢測設計實例,作為機器學習課程的項目教學案例進行探討與研究。

1 機器學習實踐教學案例

1.1 案例描述

本案例以社交媒體發布的圖文類新聞消息為分析對象,目的是通過應用機器學習相關技術,設計出多模態的虛假新聞檢測模型,用于對社交媒體消息進行類別預測(是和否分別代表虛假新聞和真實新聞)。按照機器學習的流程,首先將數據集劃分為訓練集、測試集和開發集。訓練集主要用于機器學習模型的訓練從而獲得最優權重參數,開發集主要用于模型超參數調優和模型過程驗證,測試集用于評估模型的性能。

1.2 數據集

在這個實驗中,案例使用相關學術文獻公開的多模態社交媒體新聞信息數據集,這個數據集由9 527條記錄組成。這個數據集中的所有消息都已標注了類別信息,其中虛假新聞被標記為1 (4 748 條記錄),而真實新聞被標記為0 (4 779 條記錄)。表1 為數據集的統計信息。

表1 數據集統計信息

1.3 模型設計

本案例訓練學生的多模態信息處理能力,因此模型的輸入是每條新聞的文本和圖像,分別利用BERT 與VGG19提取文本特征與圖像特征。第二階段是特征融合,主要分兩次進行。第一次使用Co-Attention捕獲文本特征與圖像特征之間的關系,第二次則是將第一次融合之后的結果與文本特征進行融合,最終經由帶有全連接層的Bi-LSTM網絡得到預測結果,即新聞的標簽(虛假的或真實的)。模型的整體結構如圖1所示。

圖1 模型總體結構

1.3.1 文本特征抽取

此案例第一部分是使用BERT預訓練模型來提取文本特征。此模塊的目的是向學生演示如何采用最新的神經網絡模型來對特征進行分布式表示。讓學生直觀地學習傳統的稀疏表示與分布式表示之間的差異。BERT 模型是基于Transformer[7]的大規模預訓練語言模型,可以獨立地在各個大型數據集上進行預訓練,然后在特定的任務中進行微調,使其適用于最終的目標任務。BERT利用Transformer編碼器構造了一個多層雙向的網絡,由多層Transformer編碼器堆疊而成,每一層編碼器由一個多頭自注意力子層和一個前饋神經網絡子層組成。提取文本特征的過程可以用公式表示為:

其中ti表示輸入的第i 個句子,ht i是其經過BERT嵌入后的特征向量。

1.3.2 圖像特征抽取

此模塊的目的是引入經典的圖像特征抽取模型,通過對VGG的模型用法演示,訓練學生對圖像特征的處理能力。VGG 是代表性的CNN[8]網絡之一,VGG19源自VGG 架構,由不同的層組成,廣泛應用于圖像分析。VGG19共有16個卷積層和3個全連接層,此外還有5個最大池化層分布在不同的卷積層之下。由于網絡結構的深化,VGG19模型在進行圖像特征提取時具有更強的學習能力。在VGG19網絡結構中,卷積核的數量從第一層的64 個開始,逐漸增加到512 個,之后保持不變。此外,由于大量使用小型卷積核(Smallsized Convolutional Kernals) ,VGG19 模型在訓練時通常只需要更少的迭代來收斂,從而提高了訓練速度。

提取圖像特征的過程可以用公式表示為:

其中i表示輸入的原始圖像,ki是VGG19 提取的圖像特征向量。

1.3.3 多模態特征融合

本部分重點演示特征融合方法,特別是圖像與文本兩大主流特征信息間的融合。案例中的多模態特征融合主要是由Co-Attention層完成的,其包括兩個并行的Co-Attention塊,Co-Attention塊的結構如圖2所示。

圖2 Co-Attention組件結構

Co-Attention塊與傳統transformer相比,不同之處在于其多頭注意力的KEYS、VALUES 和QUERYS 來自不同的地方,即如果QUERYS來自文本,那么KEYS和VALUES則來自圖像,反之亦然。如公式所示:

通過將圖像特征與文本特征并行排列,組合成一個Co-Attention 層,Co-Attention 塊A 以文本特征作為Q,圖像特征作為K和V;Co-Attention塊B以圖像特征作為Q,文本特征作為K和V,這樣就實現了文本和圖像之間信息的交互學習。

1.3.4 分類模塊

此模塊是模型的最后一個部分,也是最關鍵的結果輸出層。主要展示目標函數的選擇。案例中融合后的特征經過BiLSTM 網絡和全連接層處理之后,最終通過Sigmoid 函數預測分類結果,采用二元交叉熵來定義目標函數,如公式所示:

其中,y是新聞的真實標簽,y?是新聞的預測標簽。

2 案例仿真與結果分析

此案例模型的構建、訓練與測試采用PyTorch 框架進行,仿真數據可視化采用TensorBoard 展示,主要目的是訓練學生的仿真實驗操作與數據分析能力。PyTorch 是首個運行時定義深度學習框架,與Tensor-Flow 等靜態圖形框架的功能和性能相匹配,非常適合從標準卷積網絡到時間遞歸神經網絡等所有網絡的構建。TensorBoard是一個可視化工具,它可以用來展示網絡圖、張量的指標變化、張量的分布情況等。特別是在訓練網絡的時候,TensorBoard可以設置不同的參數(比如:權重W、偏置B、卷積層數、全連接層數等),并且很直觀地進行參數的選擇。它通過運行一個本地服務器,來監聽6006端口。在瀏覽器發出請求時,分析訓練時記錄的數據,繪制訓練過程中的圖像。

2.1 模型整體性能仿真結果

為了驗證所提出的模型的有效性,案例選取分類問題常用的Precision、Recall、F1和Accuracy 四個量化指標檢驗模型的性能。圖3是繪制出的模型性能柱狀圖,結果表明模型在3個指標均達到了90%以上。

圖3 模型性能柱狀圖

為了培養學生調試模型的能力,案例中采用可視化技術給出了模型訓練過程中的Accuracy 變化圖與訓練輪次-損失值(epoch-loss) 對比圖,如圖4。隨著訓練輪次的增加,Accuracy 上升與Loss 下降逐漸平緩,因此在實際工程項目中需要考慮性能與時間耗費上的平衡點。

圖4 Accuracy與Loss變化圖

2.2 融合模塊效果分析

在調試模型的過程中,通常需要分析模型中的各個組成部分的重要性以及對性能提升的貢獻度,在機器學習理論中引過程被稱為消融實驗(Ablation study)。本案例在開發集上進行了消融實驗,以研究兩次融合組件的有效性。圖5給出了完整的模型(藍線)、去除第一次融合后的模型(黃線)和去除第二次融合后的模型(綠線)在每一個輪次訓練結束后的性能對比。如圖5所示,第二次融合組件去除后,模型性能有很大的下降,從而可知第二次融合組件的貢獻大于第一次融合,也反映出文本模態在虛假新聞檢測中的主導地位。

圖5 融合模塊效果對比(左子圖為Accuracy,右子圖為Loss)

3 結束語

機器學習課程在河南農業大學開設了多年,教學團隊積累了豐富的教學案例資源,根據每一批學生的實際情況和教學重點,設計了不同的教學資源。本文以一個多模態虛假新聞檢測任務為例,分別從數據集構建、模型設計、算法實現及結果仿真等幾個方面進行了詳細描述。通過完整的案例建設流程與仿真操作設計,提供了機器學習實踐教學案例構建的全過程,為相關教學機構組織機器學習實踐教學提供參考思路。

猜你喜歡
機器模態案例
機器狗
機器狗
案例4 奔跑吧,少年!
隨機變量分布及統計案例拔高卷
未來機器城
發生在你我身邊的那些治超案例
國內多模態教學研究回顧與展望
一個模擬案例引發的多重思考
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合