?

暗網空間威脅信息獲取技術研究

2023-04-05 07:02張弛張夢迪胡晴
計算機與網絡 2023年4期
關鍵詞:暗網

張弛 張夢迪 胡晴

摘要:通過對暗網空間當前提供的服務情況、暗網節點和網站隱匿資源分布情況等進行探測分析,實時監控暗網中犯罪交易信息,實現重要軍事、政治威脅情報的獲取和暗網空間的安全態勢分析。采用主動探測和被動采集相關技術手段,構建完整的暗網空間網絡威脅信息獲取框架,實現暗網節點、域名和網絡安全漏洞及數據交易信息的獲取和建模分析,解決當前匿名網絡中暗網流量和內容隱蔽性高、難以構建全面的網絡安全監測體系的問題。

關鍵詞:暗網;威脅情報;網絡安全監測;匿名網絡

中圖分類號:U495文獻標志碼:A文章編號:1008-1739(2023)04-55-5

0引言

暗網空間威脅探測技術是網絡空間戰的關鍵,在軍事上具有廣泛應用。由于暗網本身的隱匿性,暗網之中存在許多重要軍事、政治情報、軟件最新的漏洞信息等內容的交換與交易。暗網空間威脅探測技術在打擊違法犯罪、恐怖主義行動方面發揮著至關重要的作用,而暗網空間威脅信息獲取技術是暗網探測的關鍵。將暗網作為獲取軍事情報、政治情報的重要窗口,對暗網空間資源進行探測,具有重要的研究意義和應用價值。

本文研究了暗網空間的信息采集技術現狀,并針對已有暗網采集技術涉及的流量采集和暗網內容獲取技術開展了研究和分析,最后基于暗網威脅信息獲取技術,設計了暗網主動爬蟲框架,對暗網中的信息進行爬取,并針對爬取的內容進行威脅建模與分析,最終形成有價值的網絡安全威脅情報,用于輔助網絡空間安全的防御決策,實現主動防御。

1暗網空間威脅信息獲取技術的現狀

搜索引擎無法找到的網頁被稱為深網(Deep Network)[1],必須通過特殊的軟件、特殊的配置才能訪問的網頁被稱為暗網(Dark Network)[2],暗網是深網的一個子集。

暗網內資源的數量和質量都優于明網,搜集暗網資源的意義重大,但暗網自身的特點導致收集信息的難度大。目前,探測暗網資源已經成為國內外與之相關領域專家學者們關注和研究的熱點問題。張永超[3]通過構造深網查詢接口的URL鏈接以獲取對應的頁面信息,并設計算法對鏈接的有效性進行了驗證。Cafarella等[4]展示了一種集成了深網頁面提取和自動搜索功能的工具,可對深網頁面進行內容提取和屬性分類,用戶可以使用該工具對深網的內容進行元搜索。宋鳴[5]針對Tor流量進行深入分析與測量,選取數據包長度作為特征,以SVM分類算法作為Tor流量識別的算法,設計了基于流量分析的信息溯源系統,選用k-means算法對匿名網絡的入口和出口流量進行關聯分析,以實現信息溯源。Nunes等[6]提出了一個專門用于從以暗網為主的互聯網平臺上收集網絡威脅相關情報的操作系統,包括一些惡意軟件和漏洞,并利用數據挖掘和機器學習技術,對收集的數據進行了初步分析。楊溢[7]提出一套可以從網絡獲取Tor資源的域名地址采集系統。向麟[8]通過改進暗網頁面收采集域名。宋勝男[9]針對Tor,I2P和ZeroNet三種域名網絡的域名采集進行了分析和研究。曹旭[10]通過實驗對基于I2P的暗網資源探測平臺關鍵技術和功能進行了測試。黃莉崢等[11]通過使用信息量計算方法(Information at n,I@n)主動獲取暗網中的威脅情報。崔騰騰[12]提出一種基于檢索詞優化和空間自適應剖析的深網POI方法。李明哲[13]探討了基于Tor文本內容自動引入外部知識在Tor暗網上識別非法活動的可能性。

現有研究主要針對深網中除暗網以外的資源,即一些隱匿在搜索表單后的Web數據庫;少部分針對暗網的研究,一般只爬取與某個特定主題相關的內容,或僅分析某個特定的暗網協議。

2暗網空間威脅信息獲取技術架構

通過對暗網空間當前提供的暗網服務情況、暗網節點和網站隱匿資源分布情況以及暗網威脅情報挖掘等探測分析,全面掌握當前暗網空間規模、監測暗網資源要素、挖掘暗網空間威脅情報,實時監控暗網中犯罪交易信息,獲取重要軍事政治情報,并利用暗網進行保密軍事活動的需求。

暗網空間威脅信息獲取技術架構如圖1所示。在對暗網流量進行分析、溯源之前,需要識別并獲取到暗網流量。在暗網中部署客戶端和中繼節點,通過封閉環境(安裝客戶端接入暗網)、開放環境(中繼節點接入暗網)對暗網流量進行收集。所收集到的暗網流量作為暗網流量識別和分析的樣本數據。暗網信息獲取具備自動化接入暗網的能力,揭示暗網流量路由機制和加密規律,并對暗網流量進行識別;具備對暗網網站域名獲取的能力,探索暗網隱藏服務器的數量和分布。

3暗網空間威脅信息獲取技術設計

3.1暗網流量獲取

主要采用2種技術獲取真實的暗網流量用于分析和利用:一種是搭建客戶端接入暗網,主動監測暗網交互流量;另一種是通過暗網中部署的中繼節點,被動方式監測流經中繼節點的流量。

3.2暗網流量主動采集

可擴展的多服務暗網接入架構能實現對常用的暗網服務Tor,I2P,ZeroNet,FreeNet等自動化接入,以獲取主動接入環境下可控、可驗證的暗網流量。

3.3暗網流量被動采集

暗網流量被動采集可通過搭建中繼節點獲取更多的暗網流量,中繼節點可以被動地直接觀察大量其他信息,包括服務訪問時間、傳輸量和數據流方向,以及為連接選擇的前一個和后一個中繼。通過修改Tor代碼,可獲取直接的中繼信息,包括建立鏈路建立等。每個客戶端選擇一個Guard中繼,并將其用作其構建的所有電路進入Tor網絡的第一跳入口。Guard中繼節點必須穩定,并且相對于其他中繼節點具有較長的啟動時間。此外,當一個Guard中繼第一次成為Guard中繼,它可持續長達兩三個月的時間,因此更有利于長時間觀測流量。搭建的中繼節點將保持長期穩定的服務,以最大可能成為選擇的Guard中繼節點。此外,也可投放多個中繼節點,以獲取更為廣泛的流量信息。為使流量能夠盡可能經過已設置的中繼節點,針對暗網系統擬采用優先級路由機制,通過偽造中繼帶寬、性能等方式實現優先路由,提供適用于交互式應用程序的低延遲,高吞吐量的中繼,從而獲取更多的流經中繼節點流量。

3.4暗網內容獲取

3.4.1暗網橋節點獲取

暗網橋節點是Tor目錄服務器中未列出的Tor中繼節點。暗網隱蔽橋節點發現擬至少采用以下4種技術路線:

(1)運行中繼節點并時序分析、協議分析等獲取隱蔽橋節點。

通過部署中繼節點并進行時序分析,通過中繼可以觀察來自電路始發者的往返延遲(查看數據包流向和響應時間),然后將該延遲與在探查前一跳時看到的延遲進行比較,消除所有探測到相鄰Tor中繼器的往返延遲,同時判斷該流向為中繼節點還是網橋節點,最終可以獲取大量網橋節點信息。

(2)按照一定時間間隔,定時向郵箱地址bridges@torproject.org發送請求橋節點的郵件,從得到回復的郵件中,抽取Tor的網橋節點,按照預定格式存儲到節點資源數據庫中。

(3)TorBridgeDB會在Tor的官方網站(https://bridges. torproject.org)定時更新橋節點、Obfs系列節點信息,通常會在固定時間間隔內部分或全部更新,Web方式則可通過模擬用戶請求頁面、識別驗證碼的過程以此收集Tor的非公開節點。同時,可通過Tor網絡的匿名代理機制訪問橋節點發布網站,利用定時刷新策略自動更換Tor網絡連接鏈路來實現代理IP的改變,以此提高枚舉請求的頻率,達到固定時間段內提升資源節點收集數量的目的。

(4)在互聯網上掃描使用各類暗網匿名通信協議的服務,觀察分析防火墻和DPI的匿名通信流量。通過中繼節點,嘗試重新連接到與中繼連接的每個客戶端上的可能端口。許多網橋在端口443或9001上偵聽傳入的客戶端連接??梢詮囊唤M已知的網橋地址開始,探測防火墻,觀察連接到這些網橋的用戶,之后探測接入的用戶是否連接到其他地址,實現網橋節點的獲取。

3.4.2暗網網站域名獲取

暗網網站是通過匿名服務或隱藏服務提供的,其網站域名也稱為匿名服務域名或隱藏服務域名(Hidden Service Domain)。它的搜集方式采用以下幾種方式結合,盡可能搜集全面的暗網網站域名地址。

(1)通過部署隱藏目錄服務器或者建立客戶端進行域名搜集。Tor在建立整個匿名服務時,會建立官方目錄服務器與隱藏目錄服務器(Hidden Service Directory),目前官方目錄服務器一共有9臺,會定期互相同步數據,而1個隱藏服務目錄服務器是1個Tor中繼,它具有由Tor權限分配的HSDirflag。部署隱藏目錄服務器是一種重要的暗網域名收集方式,通過這種方式可以發現許多孤立節點以及未公布節點。

(2)通過明網檢索搜集,明網中直接搜集Tor匿名服務域名地址比較困難,通過“.onion”關鍵詞一般只能匹配到少量地址,因此直接檢索并不是一種高效的方式。明網中Tor匿名服務地址搜集技術主要有以下幾種方式:

①在搜索引擎中通過優化方法進行關鍵字檢索,具體操作是將Tor匿名服務后綴“.onion”更換為“.tor2web.io”或者“.onion.to”等,不同的后綴代表了不同的Tor2Web節點,然后就可以通過普通瀏覽器訪問,如圖2和圖3所示。

同時,在搜索引擎中通過檢索這些后綴,可以獲取到大量的Tor匿名服務域名地址。從Tor2Web項目中匯總出能用于在搜索引擎中檢索onion域名的關鍵詞如表1所示。

②在明網中公開的暗網搜索引擎中檢索。一些組織和機構為了促進匿名網絡的發展,建立了一些明網中的匿名服務搜索引擎(ahmia,Ichidan,hiddenwiki等)。如,Ahmia.fi中存在頁面https://ahmia.fi/onions/列出了該站點收錄的Tor域名,也可以通過在搜索引擎中傳入頻率較高的停用詞如“the”“on”“is”“at”等作為關鍵詞,獲取到搜索內容后通過爬蟲等技術進行整理去重。

③在明網中尋找匿名發布內容的站點,并利用爬蟲與正則方法等搜集匿名服務域名地址。常見匿名服務發布站點有Reddit,Twitter以及各類灰色論壇等,通過針對Tor,I2P,FreeNet以及ZeroNet匿名服務域名的正則表達式(如Tor地址:^((https|http)?:\/\/)[^\s]+(.onion))進行匹配即可。

(3)通過暗網鏈接深度遍歷

3.2.3暗網主動爬蟲

針對暗網,可采用基于Nutch的分布式爬蟲的技術路線,適用于針對大批量數據的操作,其可編寫插件的機制利于爬蟲的模塊化和可擴展化,架構如圖4所示。

Nutch提供了可擴展接口,用于擴展爬蟲功能,編寫不同的插件可實現不同的操作,根據不同的需求可實現自定義功能。開源的全文搜索框架Solr直接搜索Nutch獲取的頁面信息,為爬取下來的頁面維護一個索引,也可對抓取結果進行復雜條件查詢———模糊查詢。在爬取時,可以指定數據源獲取信息,使抓取更有針對性、目的性。同時,針對不同暗網網站,可生成定制抽取模板,對有效信息進行抽取。在此基礎上采用動態設置User-Agent(隨機切換User-Agent,模擬不同用戶的瀏覽器信息),禁用Cookies(也就是不啟用Cookies middleware,不向Server發送Cookies,有些網站通過Cookie的使用發現爬蟲行為),設置延遲下載(防止訪問過于頻繁,設置為2 s或更高),使用IP地址池(VPN和代理IP)等方式來克服反爬蟲技術。

通過爬蟲在暗網網站獲取數據和在明網上基本步驟相同,但略有差異。例如Tor在本地使用socks5代理,讓爬蟲爬取Tor和設置程序使用任何socks5代理的方法基本相同??紤]到大部分場景中需要HTTP代理,無法使用Tor提供的socks5,可以先用polipo或者privoxy設置轉發。Scrapy爬蟲框架支持設置第三方代理訪問Tor等匿名網絡,同時也可以采用proxychains等軟件設置全局代理。通過基于Nutch的分布式爬蟲,結合反爬蟲技術,形成大規模分布式暗網爬蟲平臺,對暗網進行實時爬取更新存儲,可以實現大規模暗網網站內容搜集。

3.5暗網空間威脅信息建模與分析

暗網空間威脅信息建模與分析主要包括兩部分內容:(1)將爬取的暗網數據進行自然語言處理(Natural Language Processing,NLP),實現將自然語言轉換為計算機語言;(2)將獲取的信息進行聚合分析,提取出攻擊特征和攻擊行為等。

利用NLP技術,可以將暗網中的網頁文本信息以及搜索引擎返回信息進行處理加工。將復雜且上下文相關的文本信息,轉換為數字向量。即可利用后續機器學習算法將其進行分類。以處理網頁爬取為例,鑒定引擎首先會爬取待鑒定域名的主站網頁。返回格式如下:

獲取到頁面信息后,處理網頁,提取文本信息。如下:

預處理步驟將網頁文本全部轉化為語義文字,這些文字具有上下文時序相關性。將眾多帶有標簽的語料文本輸入后,NLP模型將語義文字處理為數字向量,然后利用機器學習算法進行分類,即可完成對網頁文本的分析。利用NLP技術將文本特征進行轉義為向量,同時保留原有文本的上下文時序相關性。該技術對情報生產發揮著重要作用。使得IOCs分類不僅僅局限于黑白屬性。利用文本信息,可識別如礦池類、數據交易類、漏洞買賣類、黑客工具等類別的識別,實現對暗網爬取信息的威脅建模。

暗網威脅分析采用聚合分析算法對暗網數據某項特征的所有取值聚合,進行分析。如:針對一個暗網域名在一天內的訪問數量與每小時頻率,每日解析IP數量等,諸如此類。將 IOCs的單項特征的取值進行聚合,可分析并生產情報。

4結束語

主動收集暗網上的重要軍事、政治情報,對協助軍方準確打擊網絡犯罪、恐怖主義行為至關重要。本文針對暗網空間環境特點,提出暗網空間威脅信息獲取技術,能夠對暗網空間威脅進行探測并對暗網中的隱匿資源要素進行監測。當前,暗網采用的技術復雜度越來越高,影響的范圍也越來越廣,其戰略意義也越發重要。研究暗網空間威脅信息獲取技術對我軍建設保密指揮、辦公網絡、開展網絡攻擊、獲取重要情報具有很強的應用價值。

參考文獻

[1]范江波.暗網法律治理問題探究[J].信息安全研究,2018,4(7):593-601.

[2]羅軍舟,楊明,凌振,等.匿名通信與暗網研究綜述[J].計算機研究與發展,2019,56(1):103-130.

[3]張永超.暗網資源挖掘的關鍵技術研究[D].西安:西安電子科技大學,2013.

[4] CAFARELLA M J, MADHAVAN J, HALEVY A. Web-scale Extraction of Structured Data[J].ACM SIGMOD Record, 2009,37(4):55-61.

[5]宋鳴.基于流量分析的信息溯源關鍵技術研究[D].北京:北京郵電大學,2014.

[6] NUNES E, SHAKARIAN P, SIMARI G I. At-risk System Identification via Analysis of Discussions on the Darkweb[C]// 2018 APWG Symposium on Electronic Crime Research(eCrime).San Diego:IEEE,2018:1-12.

[7]楊溢.基于Tor的暗網空間資源探測技術研究[D].上海:上海交通大學,2018.

[8]向麟.暗網數據高效獲取技術研究與應用[D].成都:電子科技大學,2021.

[9]宋勝男.暗網域名收集與內容分析方法研究[D].北京:北京交通大學,2019.

[10]曹旭.基于I2P的暗網空間資源探測技術研究[D].上海:上海交通大學,2018.

[11]黃莉崢,劉嘉勇,鄭榮鋒,等.一種基于暗網的威脅情報主動獲取框架[J].信息安全研究,2020,6(2):131-138.

[12]崔騰騰.檢索詞優化的深網POI數據自適應剖分獲取方法研究[D].北京:中國測繪科學研究院,2019.

[13]李明哲.基于Tor網站文本內容和特征的分類方法[J].網絡安全技術與應用,2021(8):36-39.

猜你喜歡
暗網
暗網環境下恐怖主義犯罪活動綜合治理模式研究
我國暗網犯罪現狀、治理困境及應對策略
東南亞暗網犯罪態勢及國際執法合作
暗網犯罪的現狀及趨勢研究
基于暗網的監控平臺設計與實現
嗅出“暗網”中隱匿的犯罪信息
暗網
被“暗網”盯上的年輕人
暗網
——隱匿在互聯網下的幽靈
暗網犯罪的趨勢分析與治理對策
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合