?

基于樸素貝葉斯分類的Java課程網絡答疑反饋系統

2016-11-02 23:40姜利群
電腦知識與技術 2016年23期
關鍵詞:文本分類

姜利群

摘要:網絡答疑系統是現代教育技術擴展課堂教學的一個重要舉措。采用樸素貝葉斯分類算法,開發了Java課程網絡答疑反饋系統,它輔助教師進行答疑解惑,并能對學生的問題進行分類并反饋給教師,由此幫助教師改進課堂教學。

關鍵詞: 樸素貝葉斯;中文分詞;文本分類;網絡答疑反饋系統

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)23-0206-03

Abstract: Using network answering system as an extension of classroom teaching is a major development of modern educational technology. A network answering and feedback system for Java curriculum is developed based on the naive Bayesian classification algorithm. It will assist the teacher with online question-and-answer and also classify the questions and provide feedback on how to improve the classroom instruction.

Key words: Naive Bayes; Chinese words segmentation; text classification; network answering system

隨著網絡技術的發展和完善,大學教學中的答疑環節常常利用網絡答疑系統實現,這給面對學生數量大的課程提供了很大方便,是重要的大學教學輔助手段。但是,很多課程的網絡答疑系統也僅用于輔助答疑解惑,還沒有考慮如何從學生的問題帖子中進一步挖掘出學生的學習信息。

我們利用多年的Java語言程序設計課程教學經驗和積累的學生問題帖子、技術論壇中收集的知識點的各類帖子,開發了基于樸素貝葉斯分類算法的Java課程網絡答疑反饋系統,該系統不僅實現了輔助答疑功能,同時具有“反饋”功能,它通過文本分類將學生的問題帖子所屬的Java課程的知識點進行歸類、統計,并反饋給教師,輔助教師調整后續課程的教學導向、教學內容、教學方式和方法等,以幫助教師更進一步提高教學效果。

本文主要介紹網絡答疑反饋系統的反饋功能部分的實現方法與技術。

1 反饋系統需求及架構

1.1 系統需求

如何在教學過程中及時地把握學生學習過程中遇到的問題,獲取足夠的信息用以改進教學,對提高教學質量十分重要。因此,教育信息的挖掘處理是當前教學過程中需要迫切解決的問題,有必要使用技術上的手段來解決知識的智能分類,提高對知識整理的效率,減少搜索成本。

基于上述需求,Java課程網絡答疑系統需要加入反饋功能,就是對問題進行文本分類,根據問題的類型將其劃分到相應的語義類別中,最終反饋給教師。

1.2 知識點分類設計

本文采用基于Lucene全文檢索并基于詞典的中文分詞技術設計答疑系統的搜索引擎[1] [2]。在分類算法中,利用比較經典的樸素貝葉斯分類算法,對問題進行文本分類。

系統是以Java課程在線答疑系統學生提問帖子文本分類為實際應用背景進行設計的。Java課程的知識點被分成21個大類,如表1所示。

1.3 文本分類設計

文本分類過程是建立從待分類帖子文本到知識點類別空間的映射。分類系統分為訓練階段和分類階段。訓練階段構造特征集合和訓練分類器數據。分類階段是根據特征集合與分類器對未分類的帖子文本進行分類,并將分類的結果存入數據庫。

整個文本分類的執行過程如下:

(1)收集Java課程按照知識點分的原始語料庫;

(2)對語料庫文本進行分詞、停用詞過濾等預處理;

(3)對已預處理的數據進行特征降維,構造訓練集的特征矩陣;

(4)訓練分類器,將訓練的結果保存到集合中;

(5)根據訓練好的分類器對學生所發的帖子文本進行樸素貝葉斯分類,并將分類結果更新回帖子數據表的類別字段中。

文本分類整體框架如圖1所示。

2 樸素貝葉斯文本分類模型

2.1 樸素貝葉斯分類器

以貝葉斯定理為基礎的樸素貝葉斯分類器模型是基于概率統計的分類模型,由于該方法在速度和效率上很有優勢,被廣泛地應用[3]。

分類過程如下[4][5][6]:

2.2 樸素貝葉斯分類實現方法

3 系統實現及結果分析

3.1 數據準備

本系統為Java知識點每個類別收集了60篇文檔,每個文檔都是該知識點的描述、定義、疑問解答等內容,能夠提供足夠的信息用于分類。

原始數據格式比較隨意,數據中帶有較多的無用標識符,需要進一步對語料庫原始數據進行預處理,過程包括分詞、停用詞處理等, 預處理過程如圖2所示。

原始數據經過預處理模塊后,文本最后會被表示成獨立詞語的集合,其中虛詞和無意義詞均通過停用詞方式去除,這樣就可以方便計算機進行識別與計算。

3.2 特征提取

3.3 樸素貝葉斯分類器實現

樸素貝葉斯分類器模塊涉及樣本的訓練和分類兩個部分。在文本樣本訓練階段,由經過預處理與特征提取后的特征詞集合計算每個特征詞的先驗概率和條件概率,構成分類器的參數。進行文本分類時利用樸素貝葉斯公式計算相應文本的后驗概率,選取最大后驗概率的類別作為該文本的類別。

利用樣本數據進行特征詞提取后的訓練和分類過程的模塊結構如圖4所示。

從圖5看到,答疑反饋系統與一般的答疑系統相比只是多了一個問答文本的分類處理。系統對于每一條存到數據庫的問題帖子文本都有一個分類,對于檢索不到的答案,學生需要發表新問題,教師對新問題進行回答后對問和答文本進行分類,分類結果能夠確定該問題屬于哪個知識點,然后在數據表中標識該知識點即可。標識完畢后,學生就可以再通過關鍵字檢索的方式檢索到該答案。通過批量的方式對問題帖子文本進行分類,確定問題的類別,從而縮小問題的搜索范圍,提高系統的性能。

3.4 答疑反饋信息柱形圖

系統將學生各類問題帖子的百分比用答疑反饋信息柱形圖給出,如圖5所示。教師通過答疑反饋信息柱形圖可以直觀地看出學生在哪些知識點學得比較好,哪些知識點上學習問題比較多,輔助教師調整教學計劃。

3.5 實驗結果與分析

限于篇幅,這里僅進行準確率分析。準確率定義如下:

本文所用的訓練語料庫是21個一級知識點文本類,每類有文檔60個,一共有文檔1260個。帖子問答文本來源于在線答疑反饋系統的學生提問的問答帖子文本,每類個數在25至36之間。

系統評估了特征提取前后系統的分類準確率,如圖6所示。

從圖6可以看出增加了特征提取之后樸素貝葉斯分類的準確率有比較明顯的提高。采用樸素貝葉斯算法的平均分類準確率約為87%,增加文本特征提取方法后的平均正確率達到89%左右。由于本系統中采集的訓練樣本數據較少,對分類的準確度會有一定影響,隨著訓練樣本集的增加,系統的置信度也會提高,使得訓練樣本更能突出類別信息,分類的準確率也會提高。

4 結論

網絡答疑反饋系統采用樸素貝葉斯文本分類算法能夠比較準確的實現文本的分類,加入特征提取模塊后分類的準確率有一定的提高,分類的速度較好,完全可以應用于各種文本分類場合。Java課程網絡答疑反饋系統在實際教學中使用后對教師了解學生學習信息、提高教學效果有很大的幫助。

參考文獻:

[1] 高琰,谷士文,譚立球,費耀平. 基于Lucene的搜索引擎設計與實現[J]. 微機發展,2004,14(10):42-44.

[2] 王志嘉,薛質.一種基于Lucene 的中文分詞的設計與測試[J].信息技術,2010(12).

[3] 王國才.樸素貝葉斯分類器的研究與應用[D].重慶:重慶交通大學,2010.

[4] 劉彧.基于貝葉斯理論的文本分類技術的研究與實現[D].長春:吉林大學,2009.

[5] 章舜仲,王樹梅,黃河燕.詞間相關性在貝葉斯文本分類中的應用研究[J].計算機工程與應用,2009,45(16): 159-161.

[6] 史瑞芳.貝葉斯文本分類器的研究與改進[J].計算機工程與應用,2009,45(12):147-148.

[7] 周茜,趙明生,等.中文文本分類中的特征選擇研究[J].中文信息學報,清華大學,2004-3.

猜你喜歡
文本分類
基于稀疏編碼器與集成學習的文本分類
基于組合分類算法的源代碼注釋質量評估方法
不同情境下中文文本分類模型的表現及選擇
基于內容的英語錄音教材標注研究與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合