◆冷濤 高彬晗 熊越 謝耕
基于暗網的監控平臺設計與實現
◆冷濤1,2高彬晗1熊越1謝耕1
(1.四川警察學院計算機科學與技術系 四川 646000;2.刑事檢驗四川省高校重點實驗室(四川警察學院) 四川 646000)
暗網充斥著網絡犯罪,對暗網進行監控是獲取網絡情報的重要來源,開發暗網的監控平臺對打擊暗網犯罪具有重要意義。本文通過對暗網的研究,搭建暗網訪問環境,基于網絡爬蟲,對目標暗網網站進行結構分析,設計算法,爬取內容,并作詞云分析。試驗結果表明,該設計思路能高效跟蹤暗網發布內容,并做數據分析。該監控程序的設計方案有助于公安機關掌握暗網信息,跟蹤暗網情報,具有實際意義。
暗網;網絡爬蟲;詞云分析
暗網是指隱藏的網絡,需要使用特殊瀏覽器(如TOR),經過配置網絡方可進入。暗網上存在著大量的違法犯罪信息,如販賣毒品,公民個人信息,傳播色情恐怖信息等,嚴重危害著未成年人的成長,甚至危及政權安全[1]。由于暗網訪問的私密性,公安機關對暗網案件打擊存在一定困難,針對暗網的監控是公安機關重點關注的問題。針對此問題已有很多學者做了大量研究,文獻[2]設計基于Selenium的暗網爬蟲,自動采集暗網網頁數據,對暗網取證提供了借鑒意義。文獻[3]詳細介紹了基于Selenium的暗網爬蟲程序設計,并檢驗了該程序獲取暗網網頁的結果。文獻[4]基于Scrapy分布式的暗網爬蟲探測方法,將暗網使用的socks5協議轉為爬蟲支持的http協議,該方法發現了大量的暗網站點信息。文獻[5]基于scrapy設計賭博網站爬蟲程序,建立賭博網站數據庫,并采用jieba,wordcloud等工具對網站進行簡單分析。本文通過暗網網站結構分析,設計網絡爬蟲,爬取站點發布的內容,并對內容進行分析,更有利于公安機關對目標網站的監控,獲取情報等。
暗網是由美國軍方的一個科研項目發展而來,該項目主要目的是為互聯網的用戶提供身份隱藏服務,后來因為這個特性導致全球不法分子在暗網活動頻繁。暗網通過Tor或者I2P等網絡訪問的Web站點服務。暗網網絡站點特征是域名后綴為“.onion”。
暗網原理簡單來講是利用多重轉發和層層加密,讓信息流追溯和信息解密變得非常困難。如下圖,A向E發送信息,中間經過B、C、D三個轉發節點進行轉發,信息全程加密。發送方、接收方和轉發節點,沒有一方能同時掌握發送方和接收方的真實地址。轉發節點B即使直接接收A發送的信息,但是無法判斷A是發送方還是轉發節點,D同理。B、C、D三個節點是在節點池中隨機抽取,并且一定時間之后會更換轉發節點。
圖1 暗網轉發節點示意圖
結合現實需要,本文將監控平臺設計為,本地環境Ubuntu虛擬機和Tor瀏覽器可視化訪問暗網網站;服務器環境提供Tor代理和爬蟲環境;暗網探測為暗網網址收集并針對重點網站監控。如圖2所示:
圖2 基于暗網的監控平臺
在云服務器上利用Linux系統服務器搭建具有進入Tor網絡功能的代理服務器,并且安裝Python和爬蟲模塊構建Python暗網爬蟲服務器。本地環境使用Ubuntu16.04版本虛擬機,安裝Tor瀏覽器同時利用代理服務器的代理功能進入Tor網絡。根據暗網網址“.onion”的特性,在公網中設計使用爬蟲收集暗網網址,根據收集的暗網網址進入暗網。對收集的網址訪問分析后,研判具有較大監控價值的網站。針對性地根據網站特點編寫Python爬蟲進行網站數據監控。
本文選取了一個比較有典型意義的暗網購物網站,里面有多種非法物品的出售,包括但不限于毒品、槍支、信用卡、各國貨幣和黑產信息。這個網站整體的出售物品不僅種類較多,而且每種類型的非法物品也較多,每件物品進行了明碼標價,整個非法物品出售流程完善,所以具有較大的監控價值。在網站分析的同時,結合網站的特點,編寫針對性的Python爬蟲。
圖3 目標網站
通過對網站的基本結構進行分析,網站采用了PHP語言,物品信息主要以HTML呈現,通過分析單個物品頁面的源代碼,編寫批量爬蟲可以爬取所有物品信息。
if not os.path.exists('/root/data/'+str(datetime.date.today())):
os.mkdir('/root/data/'+str(datetime.date.today()))
確定每日爬取的信息保存在對應日期的文件夾中,這里持續跟蹤監控了十天,以此觀察信息的變化。網頁數據爬取采用了Python的BeautifulSoup庫,通過pip3 install bs4即可在爬蟲服務器上安裝。
這個網站中的單個物品有四個特征點,詳細購買頁面鏈接、物品名稱、物品簡介和物品價格(美元)。本爬蟲針對這四個點對所有物品信息進行爬取。通過urllib.request模塊獲得頁面的HTML文檔。使用BeautifulSoup庫,根據標簽