?

不同的數據挖掘方法分類對比研究

2016-04-11 13:35王學穎王金鳳張燕麗
電腦知識與技術 2016年4期
關鍵詞:關聯分析

王學穎+王金鳳+張燕麗

摘要:空間數據挖掘存在于空間數據庫中,而且大部分情況下可能是隱式的。文中描述了數據挖掘的幾個聚類方法——分類、聚類、半監督、關聯分析。為此,在文中,基于一定的問題分析對這四個聚類方法做了一定的描述。因為有些數據需要對其未來行為趨勢做估計,因此,需要一定的數據挖掘方法對其進行統計與分析。

關鍵詞:空間數據挖掘;聚類方法;半監督;關聯分析

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)04-0017-02

A comparative Study with Different Data Mining Classification Methods

WANG Xue-ying, WANG Jin-feng, ZHANG Yan-li

(Software College, Shenyang Normal University, Shenyang 110034 China)

Abstract: Spatial data mining may be the implicit existence in spatial database. In this article, we explore several clustering methods — classification, clustering, semi-supervised, association analysis. So, we make analysis for this four methods in this article. On account of the fact that some data need to be evaluated for its behavior trend. Therefore, it requires some data mining methods to analyze and count.

Key words: spatial data mining; clustering method; semi-supervised; association analysis

數據挖掘[1-3]處理過程包括搜索,選擇,探索以及大量數據的建模為發現潛在有用、從大的數據庫中最終可以理解的模式。數據挖掘的目標就是把數據變為有用的知識。模式提取在數據挖掘技術中是一種非常重要的過程,它指的是數據子集之間的某些關系。

數據挖掘使用不同的計算、數據和機器學習的一些方法,其中機器學習包括數據分析[4,5],決策樹[6-8],神經網絡[9-11],規則歸納[12,13]和提煉[14]和圖形可視化[15]等,目的就是詳盡探索數據顯示可能存在的復雜關系。盡管機器學習已經被使用很長時間了,但是先進技術發展和友好的工具對于商業智能來說令數據挖掘更具吸引力和實用價值。當這些模式提取技術被正確使用的時候,從數據中提取有用的信息,使得它們成為非常有效的工具。

最近時間以來,數據挖掘技術的廣泛使用是由于以下幾方面原因:最明顯的因素就是人員在運營事務中收集大量的數據,在早期的90年代,信用卡和保險公司使用數據挖掘作為一個檢測欺詐行為的工具。在很多組織中,不管什么類型的行業里,都需要在某種形式的操作過程中收集大量的數據。例如,零售行業多年來一直使用數據挖掘技術來預測他們的客戶可能會購買什么東西。電子商務也是最新使用數據挖掘技術之一的行業。

電子商務是一種基于網絡平臺來分享商業信息、維持商業關系、進行商業交易的一種信息交流技術的使用。在電子商務中,不同的數據挖掘技術可以為不同目的而使用。例如,在促銷時候,營銷員工可能希望找出哪些產品顧客更傾向于購買,這些信息將允許他們把這些項目放在銷售包好的地方來增加收入。Web日志數據的使用許可來理解用戶的行為。這些數據包含使用者的權限以及可能在行為中展示的潛在模式,并確定電子商務的潛在客戶的信息。這些信息作用于:改變市場策略、確定顧客劃分、提高顧客保留力、預測顧客消費和市場趨勢、對顧客提供個人服務、分析購物車、預測銷售額、重新設計網站來提供一個很好的服務甚至做一些更好的商業決定。數據挖掘方面引起了Web挖掘技術的產生,它是一種可以細分網頁內容,網頁結構網頁使用的技術,這種技術也可以提取有用的信息從Web文檔中,現在也得到了廣泛的應用。

正如我們上面描述的,數據挖掘特別是Web數據挖掘技術在電子商務中扮演一個重要的角色。近年來電子商務的快速增長,通過運營事務收集大量數據的數據挖掘技術越來越成為發現和理解未知的客戶模式重要方式。在接下來,簡要描述的一些示例數據挖掘在電子商務中的應用。

集群或分組電子商務客戶具有相似瀏覽行為,允許他們有共同的識別特征,給客戶提供一個更好的理解,目的是給他們一個更合適的,和個性化的服務。當供應商知道客戶的需求和利益,他們可以提供更好的服務,保持客戶與供應商的關系

1 挖掘的模式類型

機器學習是一個成熟的計算機科學領域來研究計算機在數據中是如何學習模式和規律。另一方面,數據挖掘是由一個人執行的一個特定的目標。通常來說,這個人使用一或者多個在機器學習領域創建的模式識別算法,處理的數據是大量的,有可能存在一些缺陷,如缺失數據、與基數相比是高維度。數據挖掘可以根據不同家庭問題解決情況而被組織。這些問題包括把條目分成已知的類別,根據相似性進行分組,從交易中發現關聯規則,確定典型的數據,預測一個連續變量等。

2 分類

在數據挖掘中,經常假設數據存在數字形式類似于一個大表格。某人可能想要預測一個特定屬性的值(一個電子表格中的特定列),當這個屬性,有時也稱為類屬性,包括一個有限數目的離散元素,在這類問題中,需要把這些數據建立一個數學模型,此模型獲得一個新實例類的信息,而這個類時未知的,模型就會產生一個相應策略的估計,我們的任務就是盡可能正確的執行這一評估。

在機器學習中,分類是監督學習(實例或物品被分配到一些預定義的類別中)的一種形式。正式的來說,數據分類是一個從實例集合(提前知道的一種訓練集)建立的數學函數。實例的種類包含在一個矩陣中,分類背后的基本思想就是潛在的功能模式和各自的類別有關。但是,數學函數對于我們是未知的,而且需要從另外一個模式和它的類中建立另外一個函數來估計原函數。目前,數據分類的用途主要表現在社交網絡分類,信用評估,欺詐檢測,網頁挖掘等。

3 聚類

即使有時我們渴望分類元素的類別是不可用的,與數據分類相比,從學習的角度講,這個問題稱為數據聚類并代表一個更具挑戰性的任務。數學模型接收不包含標簽的數據,通過檢查他們的相似之處來推斷組元素,那么輸出就是估計的類成員。與分類問題相反的是,聚類是不同的組被創建。目標是收集類似的實例并放在同一組,同時,分配給不同的群體的元素是不同的。這種類型的學習有時被稱為無監督學習,因為缺少老師的作用正確的類標簽的一個特定模式。

4 半監督分類

分類是監督學習的一種特殊例子,假設定義良好的訓練集的知識有一個所有訓練樣本的身份清晰的規范,近年來,一個獨特的和有趣的學習模式出現了就是半監督式學習,同時這種模式結合標記和未標記實例進行分類,這個特定類型的分類器不需要每個樣本的類標簽規范。通常這種類型的學習出現在許多可用的情況下,但只有少數人擁有標簽因為收購的成本很高。在這種情況下,一種普遍的學習方式就是執行一個類聚類機制,分配訓練樣本成不同的組,隨后,使用已知類身份的訓練集把一個類標簽分配給每個小組。給定一個聚類算法,A是標簽集,B是未標記的實例集,C是半監督學習算法,D是先聚類后標記的一種方法。首先,使用聚類算法A確定輸入多樣化的類;第二,確定哪些標記的樣品下降到每個類中。對于每個集群,基于監督算法C確定決定界,這個被標記的樣品將會被分配到那個類中,反而,這個類允許每個的標簽進行預測。最后,半監督分類方法就被很好的應用到在線評估中。

5 關聯分析

研究數據挖掘中的另一個主要問題是關聯分析。數據是符合交易規則的,賬單包括了從雜貨店購買的產品列表。數據的性質是獨一無二的:物品不一定在兩個賬單中重復。但是通常人們購買趨勢傾向于類似的表現。關聯分析試圖發現這些趨勢,一個著名的例子就是在雜貨店賬單尿布和啤酒之間的關系。像這樣的一種信息提供了一種有用的價值。如果你想知道有人會買啤酒和尿布你可以把它們放在一起,或將它們放在相反的角落,增加客戶會看到其他產品的概率。

關聯分析是從大量數據中發現項集之間有趣的關聯和相關聯系。關聯分析的一個典型例子是購物籃分析。該過程通過發現顧客放人其購物籃中的不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。

6 結束語

文中首先對聚類分析做了簡單的說明并描述了一些基本的問題,還提供了一些聚類方法,文中對聚類、分類、半監督學習以及關聯分析做出了一定的描述,在以后數據挖掘中有助于讀者更好地把握這些概念,并能應用到實際作用中。

參考文獻:

[1] 周海燕. 空間數據挖掘的研究[D].鄭州:中國人民解放軍信息工程大學,2003.

[2] 王海起,王勁峰. 空間數據挖掘技術研究進展[J]. 地理與地理信息科學,2005(4):6-10.

[3] 孫志偉,趙政. SOFM神經網絡在處理非空間屬性中的應用[J]. 計算機應用,2006,11:2667-2669+2673.

[4] 覃雄派,王會舉,杜小勇,等. 大數據分析——RDBMS與MapReduce的競爭與共生[J]. 軟件學報,2012(1):32-45.

[5] 欒文鵬,余貽鑫,王兵. AMI數據分析方法[J]. 中國電機工程學報,2015(1):29-36.

[6] Tianhua Liu,Shoulin Yin.An improved k-means clustering algorithm for Kalman filter[J].ICIC Express Letters Part B: Applications,2015, 6(10):2687-2692.

[7] 徐金寶. 核函數在劃分聚類中的應用與實現[J]. 電腦知識與技術,2013(27):6185-6188.

[8] 殷守林,劉天華,李航. 基于模擬退火算法的卡爾曼濾波在室內定位中的應用研究[J]. 沈陽師范大學學報:自然科學版,2015(1):86-90.

[9] 唐守軍. 基于子圖分割和 BP 神經網絡的人臉識別方法[J]. 電子技術與軟件工程,2015(5):111.

[10] 趙文秀,張曉麗,李國會. 基于隨機森林和RBF神經網絡的長期徑流預報[J]. 人民黃河,2015(2):10-12.

[11] 黃煜坤. 基于BP神經網絡算法的入侵檢測技術[J]. 電子測試,2015(5):60-62.

[12] 石倩,陳榮,魯明羽. 基于規則歸納的信息抽取系統實現[J]. 計算機工程與應用,2008(21):166-170.

[13] 李婷,崔杜武. 基于規則歸納的遺傳算法選擇和參數設置[J]. 計算機工程,2010(3):218-220,223.

[14] 沈瑾,王麗亞,隆惠君,等. 基于神經網絡規則抽取的產品服務配置規則獲取[J]. 工業工程與管理,2012(3):66-73.

[15] 范彥斌,楊彭基. 有限元分析計算結果的計算機圖形可視化顯示[J]. 計算機輔助設計與圖形學學報,1995(1):11-16.

猜你喜歡
關聯分析
“鷹眼”大數據安全管控平臺的技術實現解析
基于隨機函數Petri網的系統動力學關聯分析模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合