◆徐夢龍 黃家旺
?
樸素貝葉斯算法在垃圾郵件過濾方面的應用
◆徐夢龍 黃家旺
(西南大學 重慶 400715)
現在電子郵件應用廣泛,但各種各樣的垃圾郵件造成的困擾也日益嚴重。在諸多垃圾郵件過濾的方法中,樸素貝葉斯算法取得了良好的效果。本文先簡單介紹貝葉斯模型,給出一種基于樸素貝葉斯分類模型的電子郵件過濾方法,并簡單分析其缺點。最后通過實驗驗證其有效性。
樸素貝葉斯分類器;郵件分類;垃圾郵件
隨著互聯網的普及,越來越多的信息通過電子郵件來進行傳達,一些不法分子利用電子郵件來進行詐騙或者傳播廣告信息,給互聯網帶來了嚴重危害,垃圾郵件問題已經成為網絡信息安全研究領域的重要組成部分。在如今已有的多種對垃圾郵件過濾的方法中,基于概率的貝葉斯分類算法簡單高效,而且精確率能夠達到90%左右,是現階段應用最廣的垃圾郵件過濾技術,其性能與判定樹與神經網絡分類算法相當,在某些場合還優于其他分類器。
貝葉斯原理是早在18世紀的英國學者貝葉斯提出的應用所觀察到的現象對有關概率分布的主觀判斷進行修正的方法。該定理表示對未來某件事情發生的概率可以通過計算它已經發生過的頻率來估計。貝葉斯理論廣泛應用在垃圾郵件過濾算法中,將其看成是一個分類問題,首先收集大量正常郵件和垃圾郵件作為樣本,然后對收集到的樣本進行有指導的學習,最后使用訓練好的貝葉斯分類器對新到達的郵件進行分類0。通過對郵件樣本的訓練和學習,貝葉斯分類器可以自動獲得垃圾郵件的特征,并根據垃圾郵件特征的變化計算郵件文本屬于某個類別的概率,將該文本歸為概率最大的類別中去, 準確地對垃圾郵件進行過濾。
由假定條件相互獨立,故:
圖1 算法流程圖
目前該算法基于Python的實驗已初步實現,并且取得了可以接受的成果。樸素貝葉斯算法在郵件過濾器領域已經取得良好的效果,而且具有很好的實用性。但其假設給定目標值時屬性之間相互條件獨立,在實際中往往并不成立,而且其準確性也依賴于訓練集和劃分語言單元的分詞算法。后續工作是改善分詞算法,進一步提高其準確性。
[1]胡睿.基于貝葉斯分類的中文垃圾郵件過濾方法研究和改進[D].北京:清華大學,2006.
[2]田震生.基于文本聚類技術的郵件分類系統的研究與實現[D].南京:河海大學碩士論文,2005.
[3]翟軍昌.改進的樸素貝葉斯垃圾郵件過濾算法[J].計算機工程與應用,2009.
[4]馬楠.基于內容的垃圾短信過濾技術研究[D].北京:北京郵電大學,2014.
[5]孟兆玲.基于貝葉斯理論的垃圾郵件過濾技術綜述[J].現代計算機,2007.