?

基于ICA的異常數據挖掘算法研究

2015-10-14 07:06王莉君何政偉馮平興
電子科技大學學報 2015年2期
關鍵詞:數據挖掘脈沖觀測

王莉君,何政偉,馮平興

?

基于ICA的異常數據挖掘算法研究

王莉君1,2,3,何政偉1,馮平興3

(1. 成都理工大學地質災害防治與地質環境保護國家重點實驗室 成都 610059; 2. 成都理工大學地球物理學院 成都 610059;3. 電子科技大學成都學院 成都 610051)

在傳統的獨立成分分析方法中,沒有考慮異常數據值對分離性能的影響。該文提出了一種基于影響函數的檢測方法,通過該方法可以發現隱藏在觀測數據中的異常成分。利用影響函數對數據進行投影分析,對混入脈沖噪聲的觀測信號進行盲源分離,從而實現對脈沖噪聲的消除。實驗仿真結果表明,該方法可以有效且可靠地檢測出所觀察信號中的異常數據。

異常數據挖掘; 盲源分離; 脈沖噪聲; 獨立分量分析; 信號處理

獨立成分分析(independent component analysis, ICA)是文獻[1]提出的一種重要的盲源分離方法。該方法基于反饋神經網絡,僅能用于兩個混迭源信號的分離。文獻[2]提出了一種解決非線性混迭信號盲分離問題的算法,文獻[3-6]進一步研究了非線性混迭信號盲分離。傳統的ICA方法沒有考慮異常數據的影響[7-17]。而異常數據檢測在信號診斷、財務監控、網絡入侵檢測、貸款審批等很多領域有重要用途。

異常數據檢測的方法有多種,目前常用的方法大致有以下4種。

1) 基于統計模型。通過數據的變異指標發現數據中的異常點,如:極差、均差、四分位數距離等。變異指標的值越大表示變異越大、散布越廣;值越小表示離差越小,越密集。

2) 基于距離模型。該方法避免了過多的計算問題,不依賴統計檢驗,將不具有多個“鄰居”的對象檢測出來?;趩卧?、索引的算法和嵌套-循環算法都是屬于目前比較成熟的基于距離模型的異常數據挖掘算法。

3) 基于密度模型。計算對象的局部異常因子越大,發生異變的可能性越大。

4) 基于偏離模型。該方法模擬人的思維方式,通過對一個連續序列的觀察,發現其中個別數據與其他數據的不同。常采用序列異常技術和OLAP數據立方體技術。

在異常值的常規研究中,以上方法是檢測異常數據集最重要的方法?;诮y計學方法針對單個屬性的數據,而數據挖掘問題要求在多維空間中發現異常點。當沒有特定的分布檢驗時,檢測出所有的異常點數據非常困難。而基于距離的異常數據挖掘方法要求用戶多次試探設置參數?;谄畹漠惓祿诰蚍椒▽崿F復雜數據的效果不佳,這類方法往往不能檢測誤差較小的點。因此,上述方法不適合用于ICA數據流,特別是數據量大的多維數據流。

本文提出了一個有效的異常值檢測技術,該方法主要基于影響函數并對觀測數據進行投影分析,從而發現數據中的異常值。

1 算法原理

(2)

圖1 盲信號分離系統模型

在ICA分析中,異常值可能出現在源信號或者觀察到的信號中,噪聲觀測信號的模型為:

如果為脈沖噪聲,它可以表示為:

然而,如果源信號中混入脈沖噪聲信號,采用獨立成分分析的傳統方法不再有效。脈沖噪聲可損害所觀察到信號的統計學特性,此時,如果想讓一個很小的殘余點被顯示出來,在使用傳統的ICA方法之前,應采用以下方式對觀測數據進行預處理操作。

為了分析ICA觀測數據中的異常值,影響函數被定義為[7]:

(7)

(9)

因此,有:

通過實驗,本文選擇一些適合的非多項式函數:

(12)

(13)

異常值的檢測閾值定義為:

2 實驗與結果分析

為了驗證該方法的有效性,本文從兩個方面進行驗證。仿真實驗和非多項式函數所選用的參數都相同,所有的信號都具有零均值和單位方差。將正弦波信號、三角波信號和鋸齒波信號(各自幅度分別為1.5,1,1)進行混合,并在已混合的信號中加入脈沖噪聲信號,得到觀測信號。

考慮源信號未混入與已混入高斯噪聲這兩種情況,通過對觀察的信號和預測的非多項式函數信號之間進行比較,判斷影響函數是否能滿足要求。通過仿真,發現基于影響函數的異常值檢測方法可以有效地找出混合信號中的異常值,如圖2、圖3所示。

a. 無高斯噪聲觀測信號

b. 利用函數對無高斯噪聲觀測信號進行投影的結果

圖2 異常值檢測的仿真結果1

a. 混入高斯噪聲的觀測信號

b. 利用函數對混入高斯噪聲觀測信號進行投影的結果

圖3 異常值檢測的仿真結果2

3 結束語

本文介紹了一種從觀測信號中檢測異常值的方法,該方法基于所觀察到的信號的影響函數。不管在異常值檢測中使用什么方法,主要目的是檢測一組輸入數據中的異常值,而不是預測新輸入數據的異常值。與其他方法相比,本文所提出的異常檢測方法可以避免計算的復雜性和先驗知識的約束,采用非多項式函數查找觀測數據的異常值,并通過實驗結果證明了該方法能夠有效地找到混合在ICA的觀測數據中的異常值。

[1] HERAULT J, JUTTEN C. Space or time adaptive signal processing by neural network models[C]//AIP Conference Proceedings. [S.l.]: [s.n.], 1986: 151-206.

[2] BUREL G. Blind separation of sources: a nonlinear neural algorithm[J]. Neural Networks, 1992, 5(6): 937-947.

[3] PARRA L, DECO G, MIESBACH S. Statistical independence and novelty detection with information preserving nonlinear maps[J]. Neural Computation, 1996, 8(2): 260-269.

[4] YANG H H, AMARI S. Adaptive online learning algorithms for blind separation: maximum entropy and minimum mutual information[J]. Neural Computation, 1997, 9(7): 1457-1482.

[5] HYV?RINEN A, OJA E. Independent component analysis: Algorithms and applications[J]. Neural Networks, 2000, 13(4): 411-430.

[6] DELORME A, MAKEIG S. EEGLAB: an open source toolbox for analysis of single-trial EEG dynamics including independent component analysis[J]. Journal of Neuroscience Methods, 2004, 134(1): 9-21.

[7] CARDOSO J F, SOULOUMIAC A. Blind beamforming for non-Gaussian signals[J]. IEE Proceedings F (Radar and Signal Processing), 1993, 140(6): 362-370.

[8] BELL A J, SEJNOWSKI T J. An information-maximization approach to blind separation and blind deconvolution[J]. Neural Computation, 1995, 7(6): 1129-1159.

[9] BELOUCHRANI A, ABED-MERAIM K, CARDOSO J F, et al. A blind source separation technique using second-order statistics[J]. Signal Processing, IEEE Transactions on, 1997, 45(2): 434-444.

[10] 史習智. 盲信號處理: 理論與實踐[M]. 上海: 上海交通大學出版社, 2008.

SHI Xi-zhi. Blind signal processing-theory and practice[M]. Shanghai: Shanghai Jiao Tong University Press, 2008.

[11] HECKERLING P S. Parametric receiver operating characteristic curve analysis using mathematica[J]. Computer Methods and Programs in Biomedicine, 2002, 69(1): 65-73.

[12] 張蘭勇, 劉繁明, 李冰. 基于聚譜分析的多通道盲信號自適應分離算法[J]. 電子與信息學報, 2014, 36(1): 158-163.

ZHANG Lan-yong, LIU Fan-ming, LI Bing. Multichannel blind signal adaptive separation algorithm based on polyspectra analysis[J]. Journal of Electronics & Information Technology, 2014, 36(1): 158-163.

[13] ANGIULLI F, FASSETTI F. Distance-based outlier queries in data streams: the novel task and algorithms[J]. Data Mining and Knowledge Discovery, 2010, 20(2): 290-324.

[14] BANERJEE R. Fair m-estimators as a cost function for FASTICA[C]//Signal Processing and Communication (ICSC), 2013 International Conference on. [S.l.]: IEEE, 2013: 445-448.

[15] ALI R, ZAHRAN O, ELKORDY M, et al. Blind source separation for different modulation techniques with wavelet denoising[J]. Digital Signal Processing, 2013, 5(12): 418.

[16] KE-LIN D U, SWAMY M N S. Neural networks and atatistical learning[M]. London: Springer, 2014.

[17] XU Bing-lin, LI Zhan-huai.An anomaly detection method for spacecraft using ICA technology[C]//International Conference on Advanced Computer Science and Electronics Information. Beijing: [s.n.], 2013: 50-54.

編 輯 稅 紅

Study of Outlier Data Mining Algorithm Based on ICA

WANG Li-jun1,2,3, HE Zheng-wei1, and FENG Ping-xing3

(1. State Key Laboratory of Geohazard Prevention and Geoenvironment Protection, Chengdu University of Technology Chengdu 610059; 2. College of Geophysics, Chengdu University of Technology Chengdu 610059; 3. Chengdu College of University of Electronic Science and Technology of China Chengdu 610051)

In the traditional study of independent component analysis (ICA), the outlier data had not been considered. This paper proposes a method based on influence function to find the outliers from the observed data in ICA. General, outliers have a significant influence on the separation performance of ICA. Using the influence functions to project the observed data, the impulsive noisy components which mixed in the observed data can be eliminated from the normal data. The experimental results demonstrate the effectiveness of proposed method.

abnormal data mining; blind source separation; impulse noise; independent component analysis; signal processing

TP391,TN911.7

A

10.3969/j.issn.1001-0548.2015.02.009

2014-10-09;

2015-01-12

高等學校博士學科點專項科研基金(20095122110003);地質災害防治與地質環境保護國家重點實驗室開放基金(SKLGP2011Z005);四川省教育廳自然科學項目(12ZB233)

王莉君(1983-),女,博士生,主要從事數據挖掘方面的研究.

猜你喜歡
數據挖掘脈沖觀測
脈沖離散Ginzburg-Landau方程組的統計解及其極限行為
探討人工智能與數據挖掘發展趨勢
上下解反向的脈沖微分包含解的存在性
天文動手做——觀測活動(21) 軟件模擬觀測星空
黃芩苷脈沖片的制備
2018年18個值得觀測的營銷趨勢
基于并行計算的大數據挖掘在電網中的應用
可觀測宇宙
一種基于Hadoop的大數據挖掘云服務及應用
高分辨率對地觀測系統
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合