?

數據挖掘技術與關聯規則挖掘算法研究

2014-04-17 09:12韋麗紅
佳木斯職業學院學報 2014年1期
關鍵詞:數據挖掘關聯規則

韋麗紅 陳 松

(呼倫貝爾學院計算機科學與技術學院 內蒙古海拉爾 021008;

呼倫貝爾市人力資源和社會保障局 內蒙古海拉爾 021008)

數據挖掘技術與關聯規則挖掘算法研究

韋麗紅 陳 松

(呼倫貝爾學院計算機科學與技術學院 內蒙古海拉爾 021008;

呼倫貝爾市人力資源和社會保障局 內蒙古海拉爾 021008)

探討數據挖掘在現今關聯規則算法中的使用情況,提出目前研究關聯規則的研究現狀,針對現狀,總結出一種新的研究分析關聯方法,指出關聯規則算法在今后的出路以及進一步的研究方向。利用分析文獻查詢和比較分析方法,闡述各種方法對典型關聯的影響,其中作為一個為基點是以核心Apriori的算法。結論是Apriori算法仍然有一些不能消除的缺點,這有待進一步研究,同時指出今后的研究方向需要提高大量數據的運算效率,并且能夠與OLAP相互結合生產結果的可視化。

Apriori算法;研究;DM;技術

數據挖掘(DM)是在大量未知的、無規則的、偶然的現實數據當中提煉出隱含的關聯信息或知識,這就是關聯規則挖掘。關聯規則挖掘是在20世紀90年代提出來的[1],這個問題提出了以后,很多研究人員和科學家對關聯規則問題進行了深入的研究,從不同思考問題的角度提出了數十種關聯規則挖掘算法,Apriori是最著名的關聯規則算法,這個是由一個非常著名的美國統計學家提出的,Apriori算法影響了之后很多算法的建立。在很多科學家和研究人員的繼承和發揚這個關聯規則算法之后,現今的關聯規則算法逐漸完善了以前的缺陷。

一、關聯規則的種類

1.按照需要的數據變量進行處理分類,關聯規則分為布爾型和數值型。布爾型[2]顯示數據變量之間的關系,它無法處理關聯規則中的連續的變量;而可以結合多維關聯的是數值型的關聯規則(或者多層關聯),然后對數值型的數據進行處理,然后進行動態分析。

2.按照關聯規則中的抽象層次,可以分為單層關聯規則和多層關聯規則?,F實數據中單層關聯規則對所有的變量都不考慮這些單層因素;而多層關聯規則是會考慮現實數據中的多層因素,并且對多層進行了充分的考慮。

3.按照規則中涉及多的數據維數,可以分為單維關聯規則和多維關聯規則。如果數據只設計到一個維數,那就屬于單維關聯規則,反之則屬于多維關聯規則。在單維關聯規則中,我們只處理單個屬性,關系明了簡單。在多維關聯規則中則需要處理不同屬性之間的某些聯系,處理的關系較復雜。

二、關聯規則中經典頻集方法的算法

在20世紀90年代,挖掘交易數據中集間的關聯規則問題是由一位非常著名的明國科學家首選提出的[3],頻集理論的方法是當時的核心推算方法,之后所有研究數據挖掘方面的研究人員和科學家都在頻集理論的方法上進一步優化。隨著時代變遷,隨機采樣、并行等理論引進頻集理論,然后對關聯規則的應用進一步推廣。

經典頻集方法的核心算法分為兩步:尋找頻集的規則屬于第一步,第二步的步驟如下。如一個給定的已知頻集X=T1T2…Tn,n≥2,只有集合{T1T2…Tn}中的項的所有規則(最多n條)就產生了,其中每一條規則的右部只有一項。為了使所有的頻集能夠產生,接下來就使用遞推的運算方法進行計算。

在經典頻集方法中仍然有很多不足,所以后來的研究人員在經典頻集的基礎上進行了優化,優化是多方面的,主要在以下幾個方面進行,如基于棧變換的算法;基于劃分的方法;減少冗余規則的算法;基于采樣的方法;基于Hash的方法等。在進行一系列的優化之后,經典頻集方法得到完善和推廣應用。

三、衡量關聯規則價值的方法

1.系統方面?!爸С侄?可信度”的結構能夠適用于很多算法,但是這種框架有時候會產生錯誤的信息。比如某些結果雖然更精確,但是支持度和可信度都較低。如果我們設置支持度和可信度的時候程度較低,這樣就可能得到兩個相互矛盾的結果。但是如果設置的過高,我們就無法得到準確的關聯規則,不利于結果分析。所以,僅僅通過“支持度-可信度”這個準則來判斷是不夠準確的。從很多記錄看出,支持度是很多用戶信任的重要因素,如果把支持度設置足夠低,不會丟失任一有意義的結果,但是計算效率可能不是很高,從用戶觀點上,這是可行的規則。

2.用戶方面。一項規則有沒有用,很重要一點是否取得用戶的信任,用戶的體驗感受是很重要的。當用戶覺得有效和可行,這個規則才可以繼續存在和發展。所以在現實中,我們不僅考慮系統運算的結果,同時也要結合用戶的需求。

四、討論

關聯規則的各種方法在數據挖掘的運用上已經逐漸成熟,如今很多大型IT公司或者金融公司的很多大型項目已經運用了關聯規則中的某些研究成果,關聯規則算法的應用前景可以說是非常的廣泛。綜上所述,在關聯規則方面的數據挖掘,今后幾年可以在關聯規則相結合的問題、提高處理大量數據效率問題以及結果可視化方面進行研究和突破。

[1]李銘.關聯規則的多支持度挖掘在銷售數據中的應用[J].計算機工程,2012,29(8):92-93.

[2]李哲,楊兆中,龐炳章.大型數據庫中關聯規則的向量法挖掘[J].計算機工程,2010,32(5):47-49.

[3]惠曉濱,張鳳鳴,虞健飛.一種基于棧變換的高效關聯規則算法[J].計算機研究與發展,2011,40(2):30-35.

Data mining techniques and algorithms for mining association rules

Wei Li-hong, Chen Song

(Computer Science and Technology Institute, Hulunbeier University, Hailar Inner Mongolia, 021008, China;
Hulunbeier Human Resources and Social Security Bureau, Hailar Inner Mongolia,021008, China)

To explore the data used in the algorithm of association rules mining, proposes the research status, sums up a new research association analysis method according to the present situation, points out the algorithm of association rules in the future and further work. Using the analysis of literature search and comparative analysis method, to discuss the influence of various methods of typical connection, which serves as a basis for the Apriori algorithm. Conclusion still has some cannot eliminate the disadvantages of Apriori algorithm, which need further research, and points out the direction of future research to improve the computation efficiency of large amounts of data, can produce the visualization of results combined with OLAP.

Apriori algorithm; research; DM; technology

P413

A

1000-9795(2014)01-0498-01

[責任編輯:陳懷民]

2013-11-27

韋麗紅(1982-),女,黑龍江人,講師,從事語義web、文本挖掘、信息處理方向的研究。陳 松(1985-),男,內蒙古人,助理工程師,從事計算機科學與技術方向的研究。

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
“一帶一路”遞進,關聯民生更緊
奇趣搭配
讓規則不規則
基于并行計算的大數據挖掘在電網中的應用
智趣
TPP反腐敗規則對我國的啟示
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合