?

網絡釣魚欺詐檢測技術研究

2017-07-31 23:47張茜延志偉李洪濤耿光剛
網絡與信息安全學報 2017年7期
關鍵詞:黑名單郵件釣魚

張茜,延志偉,李洪濤,耿光剛

?

網絡釣魚欺詐檢測技術研究

張茜1,2,3,延志偉3,李洪濤3,耿光剛3

(1. 中國科學院計算機網絡信息中心,北京 100190; 2. 中國科學院大學,北京 100049; 3. 中國互聯網絡信息中心互聯網域名管理技術國家工程實驗室,北京 100190)

分析了網絡釣魚欺詐的現狀,并對釣魚檢測常用的數據集和評估指標進行了總結。在此基礎上,綜述了網絡釣魚檢測方法,包括黑名單策略、啟發式方法、視覺匹配方法、基于機器學習的方法和基于自然語言理解的方法等,對比分析了各類方法的優缺點,進一步指出了釣魚檢測面臨的挑戰,并展望了釣魚檢測未來的研究趨勢。

網絡釣魚欺詐;釣魚檢測;機器學習;視覺匹配

1 引言

國家互聯網信息辦公室于2016年12月27日發布的《國家網絡空間安全戰略》指出,要嚴厲打擊網絡詐騙、網絡盜竊等違法犯罪行為[1]。隨著互聯網的發展,互聯網犯罪事件頻有發生,嚴重損害了國家、企業和個人利益。網絡釣魚是實施網絡詐騙、網絡盜竊的主要手段,對網絡釣魚的檢測已成為網絡空間安全研究中的一個重要領域。

網絡釣魚(phishing)這一術語產生于1996年,它是由釣魚(fishing)一詞演變而來。在網絡釣魚的過程中,攻擊者使用誘餌(如電子郵件、手機短信)發送給大量用戶,期待少數用戶“上鉤”,進而達到“釣魚”(如竊取用戶的隱私信息)的目的。國際反網絡釣魚工作組(APWG, Anti- Phishing Working Group)給網絡釣魚的定義是:網絡釣魚是一種利用社會工程學和技術手段竊取消費者的個人身份數據和財務賬戶憑證的網絡攻擊方式[2]。采用社會工程手段的網絡釣魚攻擊往往是向用戶發送貌似來自合法企業或機構的欺騙性電子郵件、手機短信等,引誘用戶回復個人敏感信息或單擊里面的鏈接訪問偽造的網站,進而泄露憑證信息(如用戶名、密碼)或下載惡意軟件。而技術手段的攻擊則是直接在PC上移植惡意軟件(如瀏覽器中間者(MitB, man-in-the-browser)攻擊),采用某些技術手段直接竊取憑證信息,如使用系統攔截用戶的用戶名和密碼、誤導用戶訪問偽造的網站等。

攻擊者實施網絡釣魚攻擊的重要目的有以下兩點[3]。

1) 獲取經濟利益:攻擊者通過將竊取到的身份信息賣出或者直接使用竊取到的銀行賬戶信息獲得經濟利益。

2) 展示個人能力:網絡釣魚攻擊者為了獲得同行的認同而實施網絡釣魚活動。

近年來,網絡釣魚攻擊已經成為互聯網用戶、組織機構、服務提供商所面臨的最嚴重的威脅之一。據易安信公司信息安全事業部(RSA)估計,2014年12月,全球的組織機構由于網絡釣魚所遭受的經濟損失約4.53億美元[4]。中國反釣魚聯盟(anti-phishing alliance of China)的報告也指出,網民一年之內因網絡欺詐的損失高達300多億元,30%的網購者曾遭遇釣魚網站的攻擊[5]。盡管目前已經有多種反釣魚工具和技術用來遏制釣魚攻擊,網絡釣魚的數量依然增長迅速。國際反網絡釣魚工作組2016年的統計報告顯示,2016年第二季度共檢測到釣魚網站466 065個,與2015年第四季度相比,增加了61%[2]。圖1顯示的是2014~2016年各季度APWG所檢測到的釣魚網站的數目注1,從圖1中可以看出,2014年以來,雖然有所波動,但釣魚網站的數量整體呈持續增長的趨勢。國內方面,截至2016年9月,APAC 累計認定并處理釣魚網站382 092個,其中僅2016年上半年就處理了79 719個釣魚網站,遠超2015年全年的數量(58 660個)[6,7]。網絡釣魚的日益猖獗使互聯網用戶面臨身份欺詐、個人隱私信息泄露以及經濟損失等各方面的威脅。因此,如何有效地檢測并處理網絡釣魚已成為亟待解決的網絡安全問題。

網絡釣魚發展至今,其針對的目標已經從互聯網終端用戶擴展到了組織機構、網絡提供商,也有了更為復雜的網絡釣魚形式,如近年來愈加嚴峻的魚叉式網絡釣魚攻擊(spear phishing)。在魚叉式網絡釣魚中,攻擊者通常會鎖定特定個人或某機構的特定員工及其社交賬號,向其發送個性化的電子郵件,誘使他們泄露敏感信息或在電腦上安裝惡意軟件。盡管魚叉式網絡釣魚只是發送少量的郵件給少量的目標,但個性化的特點使其與一般的網絡釣魚相比,更難以檢測且具有更高的成功率[8,9]。FBI指出,一種名為“執行長欺詐”(CEO fraud)的釣魚在2013年10月到2016年2月期間造成的損失高達23億美元[10]。

釣魚檢測技術通過利用釣魚攻擊所具有的某些特征對其進行識別,從而實現對網絡釣魚攻擊的打擊和防范。本文統計了2006~2015年網絡釣魚檢測相關專利、文獻的發表數目注2,如圖 2所示,釣魚檢測相關研究成果的數目整體呈上升趨勢。

國內目前釣魚檢測的相關研究很多,但缺乏論述全面、條理清晰的綜述性文獻。因此,本文嘗試對網絡釣魚檢測的思路、方法、技術進行全面的歸納和總結。

2 網絡釣魚檢測視角分析、語料庫及評價指標

2.1 釣魚檢測視角分析

網絡釣魚的攻擊和防御就像一場持續的“軍備競賽”,盡管目前已有許多關于釣魚檢測的技術研究和實現,但它們無法有效防御所有的網絡釣魚攻擊。一方面,網絡釣魚攻擊者常會根據已有的釣魚檢測方案改進釣魚策略,達到規避檢測的目的;另一方面,網絡釣魚活動具有偽裝性高、時效性強、存活時間短及釣魚目標廣泛等特點[11],往往很難有效地識別。

雖然網絡釣魚的模式在不斷地演化,但其本質并未發生變化。網絡釣魚總是與其仿冒的目標有很強的關系,并存在一定的迷惑性信息。例如與合法鏈接相似的域名、使用指向合法頁面的鏈接以及視覺上相似的內容等,才能誘導用戶輸入自己的敏感信息。網絡釣魚檢測就是發現并利用這些與合法內容(URL、郵件、網頁等)有關的迷惑性信息進行網絡釣魚的檢測和識別的。

網絡釣魚攻擊者進行網絡釣魚的流程如圖3所示。首先,攻擊者假設一個釣魚網站或使合法網站攜帶惡意代碼,并部署一些必需的后臺腳本用于處理并獲取用戶的輸入數據。然后,攻擊者利用社會工程學注3制作誘餌,并通過郵件、電話、短信等途徑發放誘餌。在用戶被引誘訪問釣魚頁面并上傳隱私信息后,攻擊者即可利用事先實現的后臺程序得到這些信息,并利用用戶隱私信息牟取利益。

目前常用的網絡釣魚檢測方法的分類方式有很多,從檢測的視角來看,根據所關注的釣魚攻擊的不同實施階段——釣魚攻擊的發起從圖3中的階段3發放誘餌開始,釣魚檢測的方法可以分為:基于傳播途徑分析的方法、基于網站入口分析的方法和基于網站內容分析的方法。根據檢測手段又可以分為基于黑名單的釣魚檢測、啟發式釣魚檢測、基于視覺相似性的釣魚檢測、基于機器學習的釣魚檢測以及基于自然語言處理技術的釣魚檢測(將在第3部分詳細介紹)。這2種分類方式之間相互交叉,圖4簡明地描述了兩者之間的關系,其中方塊顏色的深淺表示使用頻率的高低。

2.2 基于傳播途徑分析的方法

網絡釣魚的傳播途徑包括電子郵件、短信、電話、即時信息、各種社交平臺(微博、Twitter等)及其他新的通信方式。網絡釣魚信息的傳播和擴散是攻擊者發動釣魚攻擊的第一個階段,在這一階段進行網絡釣魚的檢測可以將釣魚信息直接過濾,使其無法到達終端用戶,從而構成釣魚攻擊的第一道防線。目前有關傳播途徑的釣魚檢測研究中對短信釣魚(Smishing,SMS phishing)檢測[12]、電話釣魚(Vishing,voice phishing)[13,14]檢測等的研究并不多,主要關注的是電子郵件釣魚檢測[15~19]。

電子郵件釣魚檢測通過對用戶收到的電子郵件進行分析,對郵件中是否包含釣魚信息進行判斷、過濾。釣魚郵件一般有2種情況:一是包含釣魚網站鏈接,引誘用戶去訪問;二是不包含任何鏈接,而是利用用戶的好奇心,誘導他們回復敏感信息[17]。圖5概括了基于電子郵件分析的方法中常用的特征。

一封電子郵件主要包含3部分:郵件頭、正文、附件。郵件頭由多個預先定義的格式化字段組成,如From、Delivered-To、Subject、Message- ID[20]等。網絡釣魚攻擊者雖然可以將郵件偽裝成來自合法的組織或機構,卻無法隱藏電子郵件的真實來源、Message-ID等信息。電子郵件的正文部分是郵件的主要內容,通常是Text或HTML格式的。釣魚郵件的正文有很多特征。例如,稱呼只使用統稱而非收件人的名字、刻意營造緊迫感(如要求用戶立即更新賬戶信息,否則會有賬戶被盜的風險)及可疑的統一資源定位符(URL,uniform/universal resource locator)等,是釣魚郵件檢測的主要特征來源。此外,釣魚郵件的附件中往往包含偵察軟件或木馬病毒,因此確認郵件附件的合法性是釣魚郵件檢測中必不可少的一環。

2.3 基于網站入口分析的方法

URL是因特網上標準的資源地址,即網站的入口。URL 仿冒在網絡釣魚中很常見,引誘用戶單擊URL訪問其搭建的釣魚網站是網絡釣魚的重要環節之一。為了提高用戶訪問釣魚網站的可能性,釣魚攻擊者往往使用與所仿冒的目標視覺上相似的、具有迷惑性的URL。一個標準URL的格式如下。

protocol://hostname[:port]/path/[;parameters] [?query] #fragment

常見的URL仿冒的方法是在目標URL的基礎上對主機名注4(host name)部分和路徑注5(path)部分進行部分修改替換來構造釣魚URL,以達到混淆視聽的目的。例如,攻擊者使用“www.lcbc.com.cn”仿冒工商銀行(真實URL為“www.icbc.com.cn”),使用“www.cmb955555.com”仿冒招行網站(真實URL“www.cmbchina.com”)等。

除了視覺上的相似性之外,釣魚URL還具有許多其他特征。在網絡釣魚檢測中常用的URL特征主要是詞匯特征[21~26]和基于主機的特征[23~26],如圖6所示。

URL的詞匯特征是直接從URL中提取的特征,常使用“/”“?”“.”“=”“_”“&”和“-”作為分隔符,然后使用詞袋模型對各詞塊進行表示。詞匯特征能很好地捕捉釣魚URL 所具有的特點,如與合法域名相似,常包含@ 、&、%等特殊符號。

主機特征描述了URL主機名部分所標識的網站主機的屬性,通過這些屬性可以估計該釣魚URL的位置、擁有者等信息。常用的主機特征一般有WHOIS注6信息、位置信息、連接速度及其他DNS相關的屬性等。

對URL進行分析在網絡釣魚檢測的相關研究工作中使用率相當高,在基于傳播途徑分析的方法[16,18]和基于網站內容分析的方法[27,28]中都會用到。另外,URL 還是黑名單技術的主要對象[29]。但由于URL中并不具有釣魚網站的決定性特征,即竊取用戶信息的手段,具有局限性[30],現在已很少有人進行單純分析URL的研究。

2.4 基于網站內容分析的方法

釣魚網頁往往采用社會工程學手段的網絡釣魚攻擊的最后一步,絕大多數的網絡釣魚最終都引誘用戶訪問其事先搭建好的仿冒網站。在這種情況下,基于網站內容分析的網絡釣魚檢測實際上是反釣魚的最后一道防線。

為了更好地取得用戶的信任,釣魚攻擊者構建的釣魚網頁往往與真實網頁十分相似,這種相似性包括Logo的相似性[31~33]、Favicon的相似性[32,34]、CSS 架構的相似性[35,36]、布局的相似性[37~40]及網頁整體視覺的相似性[37,41,42],利用這種相似性及釣魚網頁與真實網頁的不同之處進行目標品牌的識別和網絡釣魚的檢測十分有效。

此外,對網站內容的分析還包括對網頁底層HTML注7的分析[27,43~45]。在網頁的HTML中存在著許多有辨識性的特征,如標題、鏈出的URL與本網頁URL的域名是否一致、URL與其標簽是否一致,是否有隱藏字段,是否有Form表單等。圖7總結了基于網頁內容分析方法中常用的特征。在有些研究中只使用了HTML的文本內容,通過TF-IDF算法得到整個頁面的關鍵詞[43,44,46]。但多數研究在對網站內容進行分析的時候會同時使用多種HTML 特征,例如,文獻[45]使用的HTML特征為是否包含有效的網絡內容服務商(ICP, internet content provider)、空鏈的數目、出鏈的數目及是否包含有效的電子商務證書信息;文獻[27]中則使用了標題、文本、出鏈和版權聲明這4個特征。

每類特征都具有一定的針對性,在實際應用中,往往會將多類特征融合,從而盡可能地提高釣魚檢測的效果。例如,Zhang等[47]融合使用了URL特征、文本特征及基于規則的特征;胡向東等[33]則使用了敏感文本特征和Logo圖像特征進行金融類釣魚網頁的檢測,具有很強的針對性和時效性;徐歡瀟等[48]針對釣魚網站有的以文字為主、有的以圖片為主的現象,融合使用了文本特征、頁面布局特征及URL 鏈接特征。

2.5 常用語料庫

在進行釣魚檢測的研究時,往往需要大量的網絡釣魚數據和合法數據(郵件、URL、網頁HTML、網頁截圖等),本文總結了一些常用的語料庫。

PhishTank:PhishTank[49]是一個可以讓用戶提交、驗證和共享網絡釣魚鏈接的社區網站。用戶提交可疑的釣魚URL后,會有至少2名網站成員進行人工檢查。一旦確認為網絡釣魚,就會將該URL加到一個可供他人下載的數據庫中。

Millersmiles:Millersmiles[50]是關于欺詐類電子郵件和網絡釣魚行為信息的重要信息來源,它包含了大量來自實際事例中與電子郵件、偽造的網頁內容相關的文字類和圖片類資料。

SpamAssassin public corpus:SpamAssassin[51]是一個旨在檢測垃圾郵件和釣魚郵件的免費開源軟件項目,它的公共語料庫中包含大量垃圾郵件和非垃圾郵件語料信息,可為網絡釣魚郵件的檢測提供數據集。

MalwarePatrol:MalwarePatrol[52]是一個由用戶貢獻的免費系統。與PhishTank類似,任何人都可以提交可能攜帶惡意軟件、病毒或木馬的可疑網址。提交的URL被MalwarePatrol確認為惡意的之后,該URL就會被放入一個黑名單中,供用戶下載。

Open Directory:開放目錄專案[53](即DMOZ) 是一個大型公共網頁目錄,它是由來自世界各地的志愿者共同維護和建設的全球最大目錄社區[54]。這個目錄下的網頁依照其性質和內容分門別類,在進行釣魚檢測的研究時可以從中獲取合法URL的數據集。

2.6 評價指標

網絡釣魚檢測的目標是從包含了網絡釣魚實例和合法實例的數據集中檢測出釣魚實例,本質上是一個二分類問題。在二分類問題中,共有4種分類情況,常用混淆矩陣衡量分類的準確性(如表1所示)。其中,表示將釣魚實例正確預測為釣魚的數目,表示將釣魚實例錯誤地預測為合法實例的數目,表示將合法實例錯誤地預測為釣魚實例的數目,表示將合法實例正確預測為合法實例的數目。

表1 混淆矩陣

在網絡釣魚檢測技術中,常用的性能評估指標如下。

1) 靈敏度(sensitivity):將釣魚實例預測為釣魚實例的能力,見式(1)。

2) 特異度(specificity):將合法實例預測為合法實例的能力,見式(2)。

3) 誤檢率(FPR, false positive rate):將合法實例錯誤地預測為釣魚實例的比例,見式(3)。

4) 漏檢率(FNR, false negative rate):將釣魚實例錯誤地預測為合法實例的比例,見式(4)。

5) 準確率(P, prediction):在所有預測為釣魚的實例中,確實是釣魚的實例所占的比例,見式(5)。

6) 召回率(R, recall):等價于sensitivity,見式(6)。

7) F-measure:準確率和召回率的加權調和平均數,計算如式(7)。其中是參數,當=1時,就是常見的1值,見式(8)。

9) 精確度(ACC, accuracy):釣魚實例和合法實例正確預測的比例,見式(9)。

9) 加權錯誤率(W):釣魚實例和合法實例預測錯誤的加權錯誤率[55],見式(10)。其中,是權重系數,表示合法實例的重要程度。例如,若=1,則釣魚實例和合法實例的重要程度相同;若=5,則對于將合法實例誤檢為釣魚實例的懲罰是釣魚實例漏檢測懲罰的5倍。

(2)

(3)

(5)

(6)

(8)

(9)

3 網絡釣魚檢測技術

3.1 基于黑名單的釣魚檢測

基于黑名單的檢測方法維護一個已知的釣魚網站的信息列表,以便根據列表檢查當前訪問的網站。這份需要不斷更新的黑名單中包含已知網絡釣魚的URL (如PhishTank[49])、IP 地址(如spamhaus[56])、域名(如SURBL[57])、證書(如證書撤銷列表CRLs注8)或者關鍵詞等信息。

黑名單的方法應用廣泛,是主要的網絡釣魚過濾技術之一,如Google Chrome、Mozilla Firefox 和Apple Safari中使用的Google Safe API[58],就是根據Google提供的不斷更新的黑名單,通過驗證某一URL是否在黑名單中,來判斷該URL是否是釣魚網頁或者惡意網頁。

如何將可疑URL與黑名單中的網絡釣魚URL進行匹配是基于黑名單的方法中一個關鍵問題。為了規避黑名單的檢測,網絡釣魚攻擊者往往會不斷改變釣魚頁面的URL,而URL的任何一點變化都會導致與黑名單中的URL匹配失敗,從而導致漏檢情況的發生。針對精確匹配的局限性,Prakash等[59]提出了一種改進方法PhishNet,基于5種啟發式的規則(如通用頂級域名的可替換性、目錄結構相似性等)枚舉已知網絡釣魚的簡單組合,在經過DNS查詢和頁面內容匹配驗證之后得到新的釣魚URL,然后將URL分解為4個部分——IP地址、主機名稱、目錄結構和品牌名字,與黑名單中的相應部分進行近似匹配以判斷URL 是否是網絡釣魚。PhishNet可以對黑名單列表進行擴充,并能檢測出一部分未在黑名單中出現的網絡釣魚。

Felegyhazi等[60]探討了基于域名黑名單的主動型方法。該方法基于網絡犯罪分子需要注冊大量的域名以維持其活動這一發現,將一個域名黑名單作為種子列表,利用DNS區域文件(zone file)的NS 信息和WHOIS域名注冊信息對列表進行擴充。同時,該方法還利用名稱服務器注冊的新鮮度和自我解析等特征。結果表明,與以往被動的黑名單加入方式相比,這種主動將域名列入黑名單的方法可以減少60%~75%域名加入黑名單的時間間隔。但該方法依賴于區域文件中的名稱服務器信息及WHOIS數據庫的可用性。

通過使用黑名單進行釣魚檢測,可以準確地識別已被確認的網絡釣魚,大大降低了誤檢率,另一方面,黑名單還具有主機資源需求低的優點[61]。但是,由于大多數網絡釣魚活動的存活周期短,黑名單的方法在防御0-hour釣魚攻擊(新出現的釣魚攻擊)方面的有效性并不高。Sheng等[62]的研究顯示,黑名單的方法僅能檢測20%的0-hour釣魚攻擊,主要有以下2個原因。

1) 黑名單的加入過程造成延遲。一個新釣魚活動的URL、IP地址等信息必須在確認其為網絡釣魚后才能加入黑名單,而像PhishTank、MalwarePatrol多提供黑名單的機構往往采用人工投票確認的方式判定一個可疑的活動是否是網絡釣魚,因此帶來一定的延時。研究表明,大約47%~83%的網絡釣魚在被發現12 h之后才能加入黑名單,但事實上,63%的網絡釣魚行為會在發生后的2 h內結束[62]。這一延遲極大地影響了黑名單方法檢測的準確率。

2) 黑名單的更新造成延遲。黑名單的更新有2種方法:①將更新的黑名單列表推送到客戶端;②服務器檢查所訪問的URL是否是釣魚網站,然后將結果通知給客戶端[63]。這2種方法都存在一定的問題。如果黑名單服務器廣播更新的網絡釣魚黑名單,廣播的頻率低會產生延遲問題,頻率過高又會增加服務器的負載。而第2種方法需要每個客戶端聯系黑名單服務器獲取結果,雖然沒有延遲問題,但可能會面臨服務器的可擴展性問題。

3.2 啟發式釣魚檢測

網絡釣魚的啟發式檢測是根據網絡釣魚之間的相似性,從已檢測到的網絡釣魚攻擊中提取一個或多個特征。雖然并不能保證在釣魚攻擊中總是存在這些特征,但是一旦識別出一組泛化的啟發式特征,就可以實現0-hour釣魚攻擊檢測,這是黑名單的方法所不具有的優點。但是,這種檢測方式可能會增加將合法的網頁或郵件誤檢的風險。

大多數啟發式釣魚檢測使用的特征是從URL和HTML DOM(文檔對象模型)中提取的[28]。Zhang等[44]提出的基于內容的方法CANTINA是著名的基于啟發式的檢測方法之一。該方法通過計算網頁頁面內容的TF-IDF得到頁面的詞匯簽名(排名最高的5個關鍵詞),使用Google 搜索引擎檢索這5個關鍵詞及當前域名(如http://www. ebay.com/xxxx,則當前域名為“eBay”),根據檢索返回的結果(若返回0 條結果,則認為該行為是釣魚)以及其他的啟發式特征(表2)判斷頁面是否合法。在該方法中,啟發式規則的使用在一定程度上降低了誤檢率,但增加了漏檢率。

表2 CANTINA使用的啟發式規則

Lin等[64]基于主流合法網站往往提供2個版本(移動版本和桌面版本)的網站服務,而網絡釣魚網站通常沒有這一發現,針對多數網站單獨構建移動端網站的情況,提出了基于用戶設備檢測的方法。該方法采用新的啟發式規則,通過使用不同的用戶代理(user agent)字符串對URL進行訪問,比較返回的結果。若相同,說明該站點沒有檢測用戶設備的機制,即該網站只有一個版本。若不同,則說明該站點有檢測用戶設備的機制。該方法雖然召回率較高(99%),但無法準確識別自適應網頁設計(RWD, respond Web design)構建的合法網站,因此存在較高的誤檢率(15%)。

與黑名單的方法相比,基于啟發式的檢測方法能夠檢測新出現的網絡釣魚活動,但其誤檢率普遍高于黑名單[62]。這種方法比較簡單,常以插件的形式應用于各種主流瀏覽器(如Chrome、火狐、IE瀏覽器等)上。然而,由于啟發式的規則特征主要來自于網絡釣魚的統計特征或人工總結,該類方法一方面依賴于領域知識,規則更新困難;另一方面,許多合法內容(如合法郵件、合法網頁等)也有可能具有規則中的某些特征,從而造成誤檢率的提高。

3.3 基于視覺相似性的釣魚檢測

與其他方法不同,基于視覺相似性的釣魚檢測并不關注底層的代碼或網絡層面的特征,而是通過比較頁面之間視覺特征(局部特征和全局特征)來實現網絡釣魚檢測。通常這種方法包括2個部分:視覺特征提取和相似性度量。從待檢測網頁提取一組特征,然后基于該特征集,計算該網頁與數據庫中所有網頁之間的相似度得分。如果相似度得分超過某一閾值且該網頁與合法網頁信息數據庫中的信息(域名等)不一致,則認為其是釣魚網頁。

基于視覺相似性的釣魚檢測分為基于HTML文本的匹配[37,38,40]和基于圖像的匹配[41,42]。2005年,Liu等[37,38]提出了通過比較釣魚網站和非釣魚網站的視覺相似度進行網站類型判斷的方法。該方法利用HTML DOM 樹,根據“視覺提示”將網頁頁面分塊,然后使用3個度量評估待檢測網站和合法網站之間的視覺相似性:塊級相似性、布局相似性和風格相似性。如果一個網頁的任何一個度量的值超過了預先設定的閾值,則該網頁被認為是釣魚網頁。該方法能夠以很低的誤檢率完成網絡釣魚的檢測,雖然在進行頁面之間的相似度計算時速度很快,但在合法頁面視覺信息數據庫數據量很大時,對頁面進行判定的耗時會很嚴重。而且該方法很大程度上取決于網頁分割的結果,尤其是塊級相似性和布局相似性的計算,因此該方法的檢測效果依賴于DOM 表示的可用性,無法檢測具有相似的外觀、但DOM表示不同的網頁。

在2006年,Fu等[41]提出了一種使用陸地移動距離(EMD,earth mover’s distance)衡量網頁頁面視覺相似度的方法。該方法首次將網頁頁面映射為低分辨率的圖像,然后使用顏色特征和坐標特征表示圖像的特征。利用EMD 計算網頁頁面圖像之間的特征距離,并訓練一個EMD閾值向量對頁面進行分類。該方法完全基于Web頁面的圖像特征,不依賴于HTML內容的可用性。但是由于可疑網頁和合法網頁的數量巨大,一些不相關的網頁圖像對也可能具有高相似度,導致誤檢率的增加。

但Fu等的方法僅考慮網頁圖像中的顏色及其分布特點,未考慮網頁中不同部分之間的位置關系,這可能導致相似檢測的失效。針對該問題,曹玖新等[42]提出了基于嵌套EMD的釣魚網頁檢測算法,對圖像進行分割,抽取子圖特征并構建網頁的特征關系圖(attributed relational graph),計算不同ARG屬性距離并在此基礎上采用嵌套EMD方法計算網頁的相似度。

現有的基于視覺相似性的釣魚檢測很大程度上依賴于網站快照的白名單或黑名單的使用[61]。從理論上講,該方法是一種泛化的黑名單或白名單,需要頻繁更新以保持完整性。另一方面,該方法往往假設釣魚網站與合法網站相似,但在實際應用中,這種假設并不總是成立。對于只是部分復制合法網站(小于50%)的釣魚網站,基于視覺相似性的方法將無法成功檢測[65]。

3.4 基于機器學習的釣魚檢測

機器學習是人工智能的一個分支,基于機器學習的釣魚檢測將網絡釣魚檢測問題視為一個文本分類或聚類問題,然后運用各種機器學習中的分類算法(如-近鄰、C4.5、支持向量機、隨機森林等)、聚類算法(如-means、DBSCAN 等)達到對網絡釣魚攻擊進行檢測和防御的目的。目前,機器學習方法主要分為有監督學習、半監督學習和無監督學習3種,因此基于機器學習的釣魚檢測也是使用這3類學習方法實現的。

3.4.1 有監督學習方法

基于有監督學習方法的網絡釣魚檢測是利用帶標記的釣魚數據(釣魚郵件、釣魚網站、釣魚URL等)和帶標記的合法數據訓練得到一個分類器,通過得到的分類器對待檢測數據進行分類的方法,其整體流程如圖8所示。

在網絡釣魚檢測中常用的有監督學習方法有隨機森林(random forest)、序列最小優化算法(SMO, sequential minimal optimization)、J48、樸素貝葉斯等,其簡要介紹如下。

隨機森林:由多個決策樹分類器組成,每棵樹的特征是總特征集合中隨機的一組、樣本數據是整體樣本數據有放回采樣的集合,該算法最終的判決結果由所有個體決策樹投票決定[66]。

SMO:由John Platt設計的用于訓練支持向量分類器的序列最小優化算法[67]。

J48算法:是C4.5分類算法的Java實現[68]。

樸素貝葉斯:是一個應用貝葉斯定理的簡單分類器,該方法嚴格假定條件獨立[69]。

在文獻[17, 19, 20]中分析比較了上述4種算法用于網絡釣魚檢測的效果,結果表明,在提取的特征相同的情況下,J48和隨機森林這2個算法的效果普遍較好。但隨機森林在合法實例和釣魚實例權重變化時,加權錯誤率波動較大[70]。

對于網絡釣魚的檢測來說,分類的準確性主要取決于在分類的學習階段所識別的網絡釣魚特征[18]。因此,在大多數使用機器學習技術進行釣魚檢測的研究中,其關注的重點大多是如何選擇更有效的特征才能訓練出準確率高、具有頑健性、能處理0-day 釣魚攻擊的分類器。

Xiang等在CANTINA[44]的基礎上提出了CANTINA+的檢測方法[71],該方法主要分為3個階段:首先,利用HTML DOM、搜索引擎及第三方服務提取了揭示網絡釣魚攻擊特點的8個新穎的特征;然后,在進行分類過程之前,使用啟發式規則過濾掉沒有登錄框的網頁;最后,使用機器學習算法對URL詞匯特征、Form表單、WHOIS信息、PageRank值搜索引擎檢索信息等15個具有高度表達性的釣魚特征進行學習,實現釣魚網頁的分類。

Marchal等指出[27]:1) 盡管釣魚者試圖使釣魚頁面與目標頁面盡可能地相似,但是他們在搭建釣魚頁面時存在一定的約束;2) 網頁可以由來自網頁不同部分的一組關鍵詞(如正文文本、標題、域名以及URL的一些內容等)表征,但合法網頁和釣魚網頁使用這些關鍵詞的方式是不同的?;谶@2個觀點,他們提出了一種用于檢測釣魚網站和目標的新方法,選取了212個特征(如表3所示),然后使用Gradient Boosting 進行釣魚網站的檢測。該方法不需要大量訓練數據就可以很好地擴展到更大的測試數據,具有不依賴于語言、品牌,速度快,可以自適應釣魚攻擊及可完全在客戶端實現的優點。但是該方法對基于IP的釣魚URL進行檢測時精度太低,并且可能將空的或不可用的網頁以及保留域名誤分為釣魚。

表3 特征集

Moghimi等[72]則是在有監督學習的基礎上,提出了一種基于規則的網上銀行釣魚攻擊檢測的方法,該方法首先使用支持向量機算法(SVM,support vector madisone)訓練網絡釣魚的檢測模型,隨后使用SVM_DT算法提取隱藏的決策規則,構建決策樹。該方法僅用10 條規則就達到了很高的精度和敏感性(準確率:98.86%,1:0.989 98,靈敏度:1)。同樣,該方法也存在缺點,它完全依賴頁面內容,并且假設釣魚網站的頁面只使用合法頁面的內容,因此難以檢測識別釣魚攻擊者重新設計的釣魚網站。

3.4.2 半監督學習方法

有監督學習方法(如SVM、樸素貝葉斯等)通常需要大量的數據進行模型的訓練,才能達到很高的準確率。在網絡釣魚的標記樣本很少時,無法使用監督學習的方法,在這種情況下往往采用半監督學習(如圖9所示)或無監督學習的方法。

2016年,Han等[8]針對魚叉式網絡釣魚活動(spear phishing)的標記數據數量有限這一問題,提出了基于郵件profiling特征的魚叉式網絡釣魚活動的歸因和識別模型。他們選取了郵件的四類profiling特征:來源特征、文本特征、附件特征和收件人特征,這些特征不僅能充分反映魚叉式網絡釣魚郵件特征,而且對釣魚郵件活動的演變具有頑健性。在此基礎上,Han等提出了基于屬性圖的半監督學習(SSL,semi-supervised learning)框架,提高了機器學習算法在標記郵件有限的情況下進行魚叉釣魚活動歸因和識別的實用性。

圖10是釣魚活動歸因模型的整體工作流程[8],流程圖中的每一個分析模塊都執行相同的半監督學習過程。他們根據郵件的profiling特征構造-近鄰屬性圖。在屬性圖中,每個節點代表一封郵件,節點之間的邊代表兩者的相似性。系統在屬性圖中傳遞標簽信息,并將郵件歸因于相應的活動。實驗表明,該模型在已知活動的歸因中,僅使用25封標記郵件,就達到了0.9的1值、0.01的誤檢率;同時,該模型還可以檢測未知的魚叉式網絡釣魚,在實驗中使用246封標記郵件檢測到了100%的darkmoon活動、超過97%的samkams活動以及91%的bisrala活動。

與監督學習方法相比,半監督學習方法僅需要少量的訓練樣本,能充分利用大量的未標記樣本實現網絡釣魚的檢測和識別,減少了人工標記數據的工作量。但是基于半監督學習的檢測往往會比基于有監督學習的檢測準確率低,特別是在未標記樣本的分布與有標記樣本的分布差異較大的情況下,釣魚檢測的性能會受到很大影響。

3.4.3 無監督學習方法

圖11為基于無監督學習的釣魚檢測的流程。在無監督學習中,事先不需要任何訓練樣本,即不需要標記數據,直接對數據進行建模。-means和DBSCAN(density-based spatial clustering of application with noise)是常用的無監督學習算法。-means算法通過隨機設置個聚類中心來構建個簇,然后將實例迭代地劃分到距離(如歐氏距離)最近的聚類中心所在的簇并更新聚類中心。重復該迭代過程直至收斂。

DBSCAN基于實例的密度劃分實例,與-means 不同的是,它不需要事先確定簇的數量。2010年,Liu等[73]以網頁頁面之間的鏈接關系、檢索結果的排序關系、文本相似性及頁面布局相似性等關系作為特征,采用DBSCAN聚類算法對釣魚網頁進行識別?;跓o監督學習的網絡釣魚檢測減少了人工標記的代價,但檢測的準確率不高且檢測結果受數據集的結構影響較大。

3.5 基于自然語言處理技術的釣魚檢測

自然語言理解是計算機科學的一個領域,它使計算機能夠理解人類所講的語言,也就是說,讓計算機以一種有意義的方式處理自然語言中的數據和指令。Verma等[74]于2012年提出利用自然語言處理技術解決網絡釣魚郵件檢測問題。

Aggarwal等[17]針對電子郵件溝通方式的釣魚活動,提出了檢測不包含任何鏈接的網絡釣魚郵件的方案,這些郵件往往是利用用戶的好奇心,促使用戶向釣魚者回復敏感信息。該檢測方法使用自然語言處理和WordNet注9實現。通過對釣魚郵件的分析,Aggarwal 等提取了不包含鏈接的網絡釣魚郵件所共有的要素:缺少收件人的名字、提及錢、誘導回復的句子以及緊迫感。通過對郵件文本進行詞性分析和詞干提取,得到以下打分標準。

其中,

是一個表示要求回復郵件的詞的集合。

表示的同義詞集合中的詞的后續4個下義關系詞的同義詞集合。

若郵件中沒有提到收件人的姓名,=1,否則=0。

若郵件中提到錢,=1,否則=0。

若郵件中有中的詞,=1,否則=0。

若郵件中有中的詞的句子同時有一種緊迫的語氣,=1,否則=0。

=從中的詞到達詞的下義鏈接的數目。

該方法可以很好地檢測電子郵件溝通式的釣魚郵件,但無法處理電子郵件中包含的附件。對于包含附件的電子郵件,可以將其他技術(如光學字符識別技術)與該方法相結合,提取附件和郵件文本內容特征進行釣魚郵件的檢測。

此后,Yasin等在文獻[19]中提出了釣魚相加權的概念,使用知識發現與機器學習分類算法相結合的方法進行網絡釣魚郵件的檢測。從整體上來說,它與大多數基于機器學習的釣魚檢測方法的流程是一致的,首先基于語料庫進行特征選擇、特征提取,然后基于提取的特征訓練模型,再將訓練得到的模型用于分類決策。不同之處在于特征選擇的過程(即預處理階段),這個階段通過以下4個步驟完成對郵件標題、郵件正文以及文本特征的提?。?) 文本解析、標記和詞干提??;2)去除停用詞;3) 語義文本處理;4) 釣魚項加權。

在語義文本處理的過程中,根據同義詞和詞義的上下義關系,電子郵件中的每個詞塊都使用其與WordNet本體中概念相關的詞語進行了擴展。這個過程有助于識別不同的電子郵件消息中的標記之間的語義關系,縮短彼此接近的特征向量之間的距離,進而提高分類精度。

與其他方法相比,基于自然語言處理技術(natural language process)的檢測方法在網絡釣魚檢測的研究中并不常見,這可能與缺少比較成熟的自然語言處理技術有關。另一方面,很多電子郵件的內容可能包含打字錯誤,使用NLP 處理起來更為復雜。

4 網絡釣魚檢測方法對比分析及面臨的挑戰

4.1 網絡釣魚檢測方法對比分析

任何一種單一的技術都無法滿足釣魚檢測的所有需求。本節選擇了代表性的反釣魚工作進行對比分析,從所屬類別、基本原理及優缺點等方面進行了分析和總結,便于更直觀地說明各類釣魚檢測工作的特點,并為后續研究提供明晰的參考(如表4所示)。

表4 網絡釣魚檢測技術比較

續表

在前文介紹的釣魚檢測評價指標中,最重要的2個是網絡釣魚攻擊的檢測精度和誤檢率。絕大多數的網絡釣魚攻擊的存活時間都很短,因此提高對新出現的釣魚攻擊的檢測能力十分必要的。而一個網絡釣魚檢測系統的誤檢率的高低則直接關系到用戶對該系統的信賴程度。

基于黑名單的釣魚檢測可以準確識別已被確認的網絡釣魚,查找效率高、快速精準,適用于要求誤檢率很低的情況。黑名單的方法設計簡單易實現,但由于黑名單的加入和更新存在延遲,往往很難滿足正確性、及時性和完整性這3個要求,容易產生漏檢的情況,也無法檢測新出現的網絡釣魚攻擊。另外,黑名單的構建和更新需要人工干預和驗證,可能消耗大量的資源。黑名單的方法雖然不適合單獨使用,但是可以和其他能夠檢測0-hour 釣魚攻擊的方法(如啟發式的方法、基于視覺相似性的方法等)結合使用,在將誤檢率控制在可接受的范圍內的同時,提高對新出現的釣魚攻擊的防御能力。

啟發式釣魚檢測可在網絡釣魚攻擊發起時就進行,不必等待黑名單的更新,因此可以實現0-hour網絡釣魚攻擊的檢測識別。并且這類方法簡單、易于實現,在一些主流瀏覽器(如Chrome、火狐、IE等)上得到廣泛應用,但這種通過統計特征或人工總結得到的啟發式規則有很大的局限性,一些合法網站也可能具有所使用的啟發式規則的某些特征,導致誤檢率的增加。此外,啟發式的規則簡單,網絡釣魚攻擊者可以通過重新設計釣魚攻擊,很容易規避啟發式的釣魚檢測。

基于視覺相似性的釣魚檢測是基于釣魚頁面往往與合法頁面在視覺上相似這一假設實現的,針對性強,可以很好地解決由圖片構成的釣魚網站的檢測問題,也能夠防御新出現的網絡釣魚攻擊,但其本質上仍是黑名單的方法,需要頻繁地更新,保持數據庫的完整和最新,才能維持有效性。另一方面,這種使用圖像特征的方法需要對圖像信息進行處理,并且需要計算待檢測頁面與所有合法頁面之間的視覺相似度,檢測效率較低,與其他方法相比,需要更多的計算和存儲成本。

基于自然語言技術的釣魚檢測通過讓機器“理解”網絡釣魚郵件或釣魚網站的內容,從語義的角度實現網絡釣魚的檢測,但是目前相關研究較少,并且自然語言處理技術雖然對英文等拉丁語系的語言處理效果較好,但對中文語義的理解方面仍存在很大的問題,需要進一步發展完善。

將網絡釣魚問題抽象為一個分類或聚類的問題,然后采用機器學習算法完成分類或聚類任務,是目前網絡釣魚檢測常用的手段之一。通過利用已有數據構建模型,減少了大量的人力,提高了釣魚檢測的效率?;跈C器學習的檢測方法還可實現0-hour網絡釣魚攻擊檢測。另外,機器學習的方法可以從各個維度的特征(如URL特征、HTML特征、視覺特征等)進行學習,并方便基于新的釣魚形式進行特征空間的拓展,提高了檢測精度;具有可擴充性,可通過增量學習將新的釣魚數據加入數據集對檢測模型進行修正;強化學習等技術可以不斷提高分類器的能力,從而達到自適應網絡釣魚攻擊發展的目的。

4.2 網絡釣魚檢測面臨的挑戰

盡管研究者們已經研究開發了諸多網絡釣魚檢測技術、工具來幫助用戶檢測和避免網絡釣魚,然而網絡釣魚的攻擊和防御之間的博弈從未停止?;ヂ摼W的迅速發展也給網絡釣魚檢測帶來了很大的挑戰。

1) 網頁規模迅速由GB級、TB級向PB、ZB級擴大,對網絡釣魚檢測技術的存儲、計算能力的要求增大。

2) 攻擊者搭建釣魚網頁成本降低,給攻擊者持續縮短網絡釣魚活動的生命周期帶來了便利。

3) 網絡釣魚不再局限在計算機層面,手機平臺成為網絡釣魚的新目標。2012年趨勢科技(trend micro)的研究發現了4 000條為手機網頁設計的釣魚URL[75]。盡管這個數字不到所有釣魚URL的1%,但它表明手機平臺開始成為網絡釣魚攻擊的新目標,并且由于手機屏幕的大小限制,手機網絡釣魚更具有欺騙性。

4) 傳播途徑不再局限于電子郵件、手機短信的方式,各種社交網站(如Twitter[76]、微博)、網絡游戲[77]、二維碼[78]等的興起使傳播途徑更多元化,也讓網絡釣魚檢測更困難。

5) 網絡釣魚攻擊的形式繁多,魚叉式網絡釣魚攻擊、執行長欺詐、域欺騙(pharming)、標簽釣魚[79](tabnabbing)等各種攻擊形式層出不窮,難以應對。

6) DNSsec協議推動較為緩慢,釣魚攻擊者常常利用名址解析存在的漏洞,劫持合法網站展開釣魚活動。這種網站劫持的釣魚攻擊,在用戶訪問合法網站時跳轉到釣魚網站,用戶往往難以察覺,為釣魚檢測增加了難度。

除了客觀環境給網絡釣魚檢測帶來的挑戰外,攻擊者們還會不斷地改進攻擊手段以規避檢測,例如,使用對短鏈接技術[80]模糊釣魚URL 以更好地傳播釣魚鏈接;對網頁內容進行各種混淆、加密;使用Fast flux 技術規避黑名單技術;采用人機識別技術對訪問者的身份進行判定,只有在認定是人工瀏覽行為時才推送釣魚網頁,否則推送事先準備好的合法網頁(如百度首頁);進一步縮短網絡釣魚行為的生命周期等[81]。

5 結束語

本文從定義、發展趨勢、攻擊目的等方面對網絡釣魚進行了概述,并對常用的網絡釣魚檢測方法進行了分析總結。雖然目前已經有很多效果不錯的檢測方法,但網絡釣魚的攻擊與防御就是一場“軍備競賽”。隨著檢測技術的發展,攻擊者們也不斷地設計出新的釣魚形式以規避已有的檢測技術。正如“開發商只有在黑客找到他們之后才糾正他們的錯誤”,人們無法知道網絡釣魚攻擊者下一個攻擊的手段是怎樣的,因此,如何使檢測方法自適應網絡釣魚的發展演化是網絡釣魚檢測方法研究的關鍵所在。

從目前的發展現狀來看,機器學習存在很大的發展潛力。機器學習的方法具有對高維特征進行學習的能力,檢測效果較好。而且這類方法具有很好的可擴充性,只需將新的釣魚數據加入數據集就可完成對釣魚檢測模型的修正,因此能夠很好地適應網絡釣魚攻擊的發展,實現0-hour網絡釣魚攻擊檢測。但是,目前基于機器學習的網絡釣魚檢測方法中往往缺乏對各個特征效果的有效評估,無法確定每個特征對釣魚檢測的貢獻如何。盲目地使用高維度的特征,可能會出現付出了很高的計算代價,但檢測效果卻只有略微提升的情況。本文認為,這是機器學習的檢測方法在之后的發展中所需要解決的問題。另一方面,基于視覺相似性的釣魚檢測可以很好地解決由圖片構成的釣魚網站的檢測問題,這類方法大部分依賴于圖像的相似性檢測。近年來,深度學習日益火熱,極大地促進了圖像處理效果的提高。結合基于視覺相似性的釣魚檢測的思想,將深度學習技術應用于網絡釣魚檢測也將成為今后的研究方向之一。此外,隨著自然語言處理技術的發展成熟,基于此類技術的釣魚檢測方法也非常有前景。

[1] 國家網絡空間安全戰略[EB/OL]. http://news.xinhuanet.com/ politics/2016-12/27/c1120196479.htm.

National cybersecurity strategy[EB/OL]. http://news.xinhuanet. com/politics/ 2016-12/27/c1120196479.htm.

[2] Anti-Phishing Working Group(APWG). Phishing activity trends report-second quarter 2016[EB/OL]. https://docs.apwg.org/reports/ apwgtrendsreportq22016.pdf.

[3] WEIDER D Y, NARGUNDKAR S, TIRUTHANI N. A phishing vulnerability analysis of web based systems[C]//Computers and Communications. 2008: 326-331.

[4] E.M.C.Corporation.RSA monthly fraud report[EB/OL]. http://australia. emc.com/collateral/fraud-report/h13929-rsa-fraud-report-jan-2015.pdf.

[5] 中國反釣魚網站聯盟. 2012年中國反釣魚網站聯盟年報[EB/OL]. http://apac.cn/gzdt/qwfb/201408/P020140826493067614020.pdf.

APAC. Coalition against phishing site report of China in 2012[EB/OL]. http://apac.cn/gzdt/qwfb/201408/P020140826493067614020.pdf.

[6] 中國反釣魚網站聯盟. 2016年9月釣魚網站處理簡報[EB/OL]. http://apac.cn/gzdt/qwfb/201610/P020161110519501201415.pdf.

APAC. Phishing site processing presentation in september 2016[EB/OL]. http://apac.cn/gzdt/qwfb/201610/P020161110519501201415.pdf.

[7] 中國反釣魚網站聯盟. 2015年12月釣魚網站處理簡報[EB/OL]. http://apac .cn/gzdt/qwfb/201601/P020160108491677785300.pdf.

APAC. Phishing site processing presentation in december 2015 [EB/OL]. http://apac.cn/gzdt/qwfb/201601/P020160108491677785300. pdf.

[8] HAN Y F, SHEN Y. Accurate spear phishing campaign attribution and early detection[C]//The 31st Annual ACM Symposium on Applied Computing. 2016: 2079-2086.

[9] ALARM S, EL-KHATIB K. Phishing susceptibility detection through social media analytics[C]//The 9th International Conference on Security of Information and Networks. 2016: 61-64.

[10] Krebs on security[EB/OL]. https://krebsonsecurity.com/2016/04/ fbi-2-3- billion-lost-to-ceo-email-scams/.

[11] Anti-Phishing Working Group(APWG). Global phishing survey:trends and domainname use in 2H2014[EB/OL]. http://docs.apwg. org/reports/APWGGlobalPhishingReport2H2014.pdf.

[12] YAN G, EIDENBENZ S, GALLI E. Sms-watchdog: profiling social behaviors of SMS users for anomaly detection[C]//The International Workshop on Recent Advances in Intrusion Detection. 2009: 202-223.

[13] NASSAR M, NICCOLINI S, EWALD T. Holistic VoIP intrusion detection and prevention system[C]//The 1st International Conference on Principles, Systems and Applications of IP Telecommunications. 2007: 1-9.

[14] SONG J, KIM H, GKELIAS A. iVisher: real-time detection of caller ID spoofing[J]. ETRI Journal, 2014, 36(5): 865-875.

[15] 彭富明,張衛豐,彭寅. 基于文本特征分析的釣魚郵件檢測[J]. 南京郵電大學學報(自然科學版),2012(5): 140-145.

PENG F M, ZHANG W F, PENG Y. Detection of phishing emails based on text characteristic analysis[J]. Journal of Nanjing University of Posts and Telecommunication, 2012(5):140-145.

[16] HUSáK M, CEGAN J. PhiGARo: automatic phishing detection and incident response framework[C]//Availability, Reliability and Security (ARES). 2014: 295-302.

[17] AGGARWAL S, KUMAR V, SUDARSAN S D. Identification and detection of phishing emails using natural language processing techniques[C]//The 7th International Conference on Security of Information and Networks. 2014: 217.

[18] AKINYELU A A, ADEWUMI A O. Classification of phishing email using random forest machine learning technique[J]. Journal of Applied Mathematics, 2014.

[19] YASIN A, ABUHASAN A. An intelligent classification model for phishing email detection[J]. 2016, 8(4):55-72.

[20] VERMA R, RAI N. Phish-IDetector: Message-ID based automatic phishing detection[C]//e-Business and Telecommunications (ICETE). 2015(4): 427-434.

[21] 黃華軍, 錢亮, 王耀鈞. 基于異常特征的釣魚網站URL檢測技術[J].信息網絡安全, 2012,(01): 23-25,67.

HUANG H J, QIAN L, WANG Y J. URL Detecting technology of phshing site based on anomalous characte[J].Netinfo Security, 2012,(1): 23-25.

[22] BLUM A, WARDMAN B, SOLORIO T, et al. Lexical feature based phishing URL detection using online learning[C]//The 3rd ACM Workshop on Artificial Intelligence and Security. 2010: 54-60.

[23] MA J, SAUL L K, SAVAGE S, et al. Identifying suspicious URLs: an application of large-scale online learning[C]//The 26th Annual International Conference on Machine Learning. 2009: 681-688.

[24] MA J, SAUL L K, SAVAGE S, et al. Beyond blacklists: learning to detect malicious Web sites from suspicious URLs[C]//The 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2009: 1245-1254.

[25] FEROZ M N, MENGEL S. Examination of data, rule generation and detection of phishing URLs using online logistic regression[C]//2014 IEEE International Conference on Big Data. 2014: 241-250.

[26] FEROZ M N, MENGEL S. Phishing URL detection using URL ranking[C]//The IEEE International Congress on Big Data. 2015: 635-638.

[27] MARCHAL S, SAARI K, SINGH N, et al. Know your phish: Novel techniques for detecting phishing sites and their targets[C]// Distributed Computing Systems (ICDCS). 2016: 323-333.

[28] RAMESH G, KRISHNAMURTHI I, KUMAR K S S. An efficacious method for detecting phishing webpages through target domain identification[J]. Decision Support Systems, 2014, 61: 12-22.

[29] ABRAHAM D, RAJ N S. Approximate string matching algorithm for phishing detection[C]//Advances in Computing, Communications and Informatics. 2014: 2285-2290.

[30] 何高輝, 鄒福泰, 譚大禮, 等. 基于SVM主動學習算法的網絡釣魚檢測系統[J]. 計算機工程,2011,(19):126-128.

HE G H,ZOU F T,TAN D L, et al. Phishing detection system based on SVM active learning algorithm[J]. Computer Engineering, 2011(19): 126-128.

[31] CHIEW K L, CHANG E H, TIONG W K. Utilisation of website logo for phishing detection[J]. Computers & Security, 2015, 54: 16-26.

[32] GENG G G, LEE X D, ZHANG Y M. Combating phishing attacks via brand identity and authorization features[J]. Security and Communication Networks, 2015, 8(6): 888-898.

[33] 胡向東,劉可,張峰,等. 基于頁面敏感特征的金融類釣魚網頁檢測方法[J]. 網絡與信息安全學報, 2016,2(2): 31-38.

HU X D, LIU K, ZHANG F, et al. Methods of Financial fishing Web test based on page sensitive characteristics[J]. Chinese Journal of Network and Information Security, 2016, 2(2): 35-42.

[34] GENG G G, LEE X D, WANG W, et al. Favicon-a clue to phishing sites detection[C]//eCrime Researchers Summit (eCRS). 2013: 1-10.

[35] PAN Y, DING X. Anomaly based web phishing page detection[C]// Computer Security Applications Conference. 2006: 381-392.

[36] ALKHOZAE M G, BATARFI O A. Phishing websites detection based on phishing characteristics in the webpage source code[J]. International Journal of Information and Communication Technology Research, 2011, 1(6).

[37] WENYIN L, HUANG G, XIAOYUE L, et al. Detection of phishing webpages based on visual similarity[C]//Special Interest Tracks and Posters of the 14th International Conference on World Wide Web. 2005: 1060-1061.

[38] WENYIN L, HUANG G, XIAOYUE L, et al. Phishing Web page detection[C]//Document Analysis and Recognition.2005: 560-564.

[39] 張衛豐, 周毓明, 許蕾, 等. 基于匈牙利匹配算法的釣魚網頁檢測方法[J]. 計算機學報, 2010,(10): 1963-1975.

ZHANG W F, ZHOU Y M, XU L, et al. Financial fishing Web test based on Hungarian matching algorithm[J]. Chinese Journal of Computers, 2010(10): 1963-1975.

[40] 鄒學強, 張鵬, 黃彩云, 等. 基于頁面布局相似性的釣魚網頁發現方法[J]. 通信學報,2016(S1):116-124.

ZOU X Q, ZHANG P,HUANG C Y, et al. Detecting methods of phshing Web based on the page layout[J].Journal on Comunications,2016(S1):116-124.

[41] FU A Y, WENYIN L, DENG X. Detecting phishing Web pages with visual similarity assessment based on earth mover's distance (EMD)[J]. IEEE transactions on dependable and secure computing, 2006, 3(4).

[42] 曹玖新, 毛波, 羅軍舟, 等. 基于嵌套EMD的釣魚網頁檢測算法[J]. 計算機學報, 2009, (5): 922-929.

CAO J X, MAO B, LUO J Z, et al. Financial fishing Web test based on nesting EMD[J]. Journal of Computers, 2009 (5): 922-929.

[43] TAN C L, CHIEW K L. Phishing website detection using URL-assisted brand name weighting system[C]//Intelligent Signal Processing and Communication Systems (ISPACS).2014: 54-59.

[44] ZHANG Y, HONG J I, CRANOR L F. Cantina: a content-based approach to detecting phishing web sites[C]//The 16th International Conference on World Wide Web.2007:639–648.

[45] YAN Z, LIU S, WANG T, et al. A genetic algorithm based model for chinese phishing e-commerce websites detection[C]//The International Conference on HCI in Business, Government and Organizations. 2016: 270-279.

[46] 趙加林. 基于K-Means和SVM的流行中文釣魚網站識別研究[J]. 軟件導刊, 2016(4):176-178.

ZHAO J L. Study of popular Chinese phshing site identification based on K-Means and SVM[J].Software Guide, 2016(4): 176-178.

[47] ZHANG W, JIANG Q, CHEN L, et al. Two-stage ELM for phishing Web pages detection using hybrid features[J]. World Wide Web, 2016: 1-17.

[48] 徐歡瀟, 徐慧, 雷麗婷. 多特征分類識別算法融合的網絡釣魚識別技術[J]. 計算機應用研究, 2017(4) :1129-1132.

XU H X, XU H, LEI L T. Phishing identification technology with multiple feature classification recognition algorithm[J].Application Research of Computers,2017(4):1129-1132.

[49] PhishTank[EB/OL]. http://www.phishtank.com/.

[50] Millersmiles[EB/OL]. http://www.millersmiles.co.uk/.

[51] Spamassassin public corpus[EB/OL]. http://spamassassin.apache.org/ publiccorpus/.

[52] MalwarePatrol[EB/OL]. http://www.malwarepatrol.com/.

[53] Open directory[EB/OL]. http://www.dmoz.org/.

[54] Open directory project[EB/OL]. https://zh.wikipedia.org/wiki/.

[55] ABU-NIMEH S, NAPPA D, WANG X, et al. A comparison of machine learning techniques for phishing detection[C]//The anti-phishing working groups 2nd annual eCrime researchers summit.2007: 60-69.

[56] Spamhaus[EB/OL]. https://www.spamhaus.org/.

[57] SURBL[EB/OL]. http://www.surbl.org/lists.

[58] Google safe browsing api[EB/OL]. https://www.google.com/trans- parencyreport/safebrowsing/.

[59] PRAKASH P, KUMAR M, KOMPELLA R R, et al. Phishnet: predictive blacklisting to detect phishing attacks[C]//INFOCOM. 2010: 1-5.

[60] FELEGYHAZI M, KREIBICH C, PAXSON V. On the potential of proactive domain blacklisting[J]. LEET, 2010, 10: 6.

[61] KHONJI M, IRAQI Y, JONES A. Phishing detection: a literature survey[J]. IEEE Communications Surveys & Tutorials, 2013, 15(4): 2091-2121.

[62] SHENG S, WARDMAN B, WARNER G, et al. An empirical analysis of phishing blacklists[C]//The 6th Conference on Email and Anti-Spam (CEAS). 2009.

[63] FLORêNCIO D, HERLEY C. Analysis and improvement of anti-phishing schemes[C]//IFIP International Information Security Conference. 2006: 148-157.

[64] LIN I C, CHI Y L, CHUANG H C, et al. The novel features for phishing based on user device detection[J]. JCP, 2016, 11(2): 109-115.

[65] JAIN A K, GUPTA B B. Phishing detection: analysis of visual similarity based approaches[J]. Security and Communication Networks, 2017(4):1-20.

[66] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

[67] PLATT J C. 12 fast training of support vector machines using sequential minimal optimization[J]. Advances in Kernel Methods, 1999: 185-208.

[68] QUINLAN J R. C4. 5: programs for machine learning[M]. Elsevier, 2014.

[69] JOHN G H, LANGLEY P. Estimating continuous distributions in Bayesian classifiers[C]//The Eleventh Conference on Uncertainty in Artificial Intelligence.1995: 338-345.

[70] ABU-NIMEH S, NAPPA D, WANG X, et al. A comparison of machine learning techniques for phishing detection[C]//The anti-phishing Working Groups 2nd Annual eCrime Researchers Summit. 2007: 60-69.

[71] XIANG G, HONG J, ROSE C P, et al. Cantina+: A feature-rich machine learning framework for detecting phishing Web sites[J]. ACM Transactions on Information and System Security (TISSEC), 2011, 14(2): 21.

[72] MOGHIMI M, VARJANI A Y. New rule-based phishing detection method[J]. Expert Systems with Applications, 2016, 53: 231-242.

[73] LIU G, QIU B, WENYIN L. Automatic detection of phishing target from phishing webpage[C]//The 20th International Conference on Pattern Recognition (ICPR). 2010: 4153-4156.

[74] VERMA R, SHASHIDHAR N, HOSSAIN N. Detecting phishing emails the natural language way[C]//European Symposium on Research in Computer Security. 2012: 824-841.

[75] MICRO T. Mobile phishing: a problem on the horizon[EB/OL]. https://www.yumpu.com/en/document/view/10210640/rpt-monthly-mobile-review-201302-mobile-phishing-a-problem-on-the-horizon.

[76] JEONG S Y, KOH Y S, DOBBIE G. Phishing detection on Twitter streams[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2016: 141-153.

[77] ALBANESIUS C. Gaming apps increase spam, phishing by 50 percent[EB/OL]. http://www.pcmag.com/article2/0,2817,2362134,00. asp, 2010.

[78] VIDAS T, OWUSU E, WANG S, et al. QRishing: the susceptibility of smartphone users to QR code phishing attacks[C]//The International Conference on Financial Cryptography and Data Security. 2013: 52-69.

[79] SARIKA S, PAUL V. Parallel phishing attack recognition using software agents[J]. Journal of Intelligent & Fuzzy Systems, 2017, 32(5): 3273-3284.

[80] CHHABRA S, AGGARWAL A, BENEVENUTO F, et al. Phi. sh/$ ocial: the phishing landscape through short urls[C]//The 8th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference. 2011: 92-101.

[81] 沙泓州, 劉慶云, 柳廳文, 等. 惡意網頁識別研究綜述[J]. 計算機學報2016(3):529-542.

SHA H Z,LIU Q Y,LIU T W,et al. Review of malicious Web recognition[J]. Journal of Computers,2016(3): 529-542.

Research of phishing detection technology

ZHANG Xi1,2,3, YAN Zhi-wei3, LI Hong-tao3, GENG Guang-gang3

(1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. National Engineering Laboratory for Internet Domain Name Management, China Internet Network Information Center, Beijing 100190, China)

The current status of phishing scams were analyzed and the data sets and evaluation indicators commonly used in phishing detection were summaried. On this basis, a detailed overview of the typical methods of phishing detection was given, which included blacklist strategies, heuristic methods, visual matching methods, and methods based on machine learning and natural language processing. The comparison and analysis of those methods were given, and furtherly, the challenges and future trends of phishing detection were discussed.

phishing fraud, phishing detection, machine learning,visual matching

The National Natural Science Foundation of China (No.61375039)

TP393

A

10.11959/j.issn.2096-109x.2017.00180

張茜(1994-),女,河南杞縣人,中國科學院大學碩士生,主要研究方向為網絡應用與安全、下一代互聯網技術。

延志偉(1985-),男,山西興縣人,博士,中國互聯網絡信息中心副研究員,主要研究方向為IPv6移動性管理、BGP安全機制、信息中心網絡架構。

李洪濤(1977-),男,河北保定人,中國互聯網絡信息中心高級工程師、總工程師,主要研究方向為IPv6、網絡安全、大數據。

耿光剛(1980-),男,山東泰安人,博士,中國互聯網絡信息中心研究員,主要研究方向為機器學習、大數據分析和互聯網基礎資源安全。

2017-06-13;

2017-07-05。

耿光剛,gengguanggang@cnnic.cn

國家自然科學基金資助項目(No.61375039)

注1 數據來自APWG 發布的報告。

注2 數據來自Web of science 檢索結果。

注3 攻擊者利用“人”自身的弱點(往往是心理學層面)來獲取信息、影響他人,從而達到不可告人的目的。

注4 存放資源的服務器的域名系統(DNS)主機名或IP地址。

注5 由零或多個“/”隔開的字符串,一般用來表示主機上的一個目錄或文件地址。

注6 WHOIS是用來查詢域名的IP以及所有者等信息的傳輸協議。

注7 超文本標記語言,是標準通用標記語言下的一個應用,它通過標記符號來標記要顯示的網頁中的各個部分。

注8 證書撤銷列表是在其計劃的到期日期前被證書頒發機構(CA)撤銷并且不再受到信任的數字證書的列表。

注9 WordNet是一個包含語義信息的英文字典,它根據詞條的意義將它們分組,每一個具有相同意義的詞條組稱為一個synset(同義詞集合)。WordNet為每一個synset提供了簡短、概要的定義,并記錄不同synset 之間的語義關系。http://wordnet.princeton.edu。

猜你喜歡
黑名單郵件釣魚
防曬黑名單?第2款就翻車了!
基于James的院內郵件管理系統的實現
來自朋友的郵件
CMailServer
一封郵件引發的梅賽德斯反彈
受懲黑名單
受懲黑名單
黑名單
釣魚
第七章 去泥盆紀釣魚
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合