?

基于Apriori算法的高校招生的關聯規則分析*

2014-07-25 07:44趙祖應潘明波
網絡安全與數據管理 2014年5期
關鍵詞:頻度項集置信度

趙祖應,丁 勇,潘明波

(云南工商學院,云南 昆明 651701)

1 民辦高校招生的現狀分析

招生工作一直是民辦學校最重要的工作,民辦學校在招生上的投入占一年總支出的很大部份,采用的招生方式也在不斷的更新,使用新方法,新模式。但同時也會發現,有些方式方法并不能解決招生問題,浪費了有限的資源,得不償失,主要表現在招生成本高、沒有嚴格的招生機制,宣傳模式單一等。歸根原因是沒有找到適合本校的招生方法與模式,而要能做到這一點,必須要對招生工作做一個詳細的研究,根據以住招生的情況,總結分析,找出問題所在點和發光點,為招生工作更好的方式提供有力的依據。

2 Apriori算法分析

2.1 挖掘關聯規則的主要步驟

步驟1:發現所有的頻繁集。項集的頻度至少應等于(預先設置的)最小支持度。關聯規則的整個性能主要取決于這一步。

步驟2:根據所獲得的頻繁項集,產生相應的強關聯規則。這些規則必須滿足最小置信度閾值。

2.2 Apriori算法

Apriori算法是挖掘產生關聯規則所需要的頻繁項集的基本算法,是數據挖掘領域里面常用的一種關聯規則挖掘算法。該算法利用一個層次順序搜索的循環方法來完成頻繁集的挖掘工作。這一循環方法就是利用(k-1)-項集來產生k-項集,具體的做法是首先找出頻繁集I-項集,記為L1;然后利用 L1來挖掘產生 L2,即頻繁 2-項集,如此循環往返,直到無法發現更多的頻繁k-項集為止。在每一層挖掘產生Lk時,都需要對整個數據庫掃描一遍。Apriori算法利用Lk-1來生成Lk。

該算法實現過程包括兩個步驟,即連接和剪枝,具體實現過程如下。

連接步驟:設l1和l2為 Lk-1中的的兩個項集,符號Lij表示 Li中的第j項,如 Li,k-2就表示 li中的倒數第二項。 若 Lk-1的連接操作記為 Lk-1⊕Lk-1,它表示若l1和l2中的前(k-2)項是相同的,即若有下面關系。

則Lk-1中的l1和l2的內容就可以連接到一起。

剪枝步驟:Ck是Lk的一個超集,其中由項集組成的各元素不一定都是頻繁項集,但是所有的頻繁k-項集一定都在里面,即有L?Ck。對數據庫進行掃描就可以確定Ck中各候選項集的支持頻度,并由此獲得Lk中的各個元素,即頻度k-項集。所有頻度不小于最小支持頻度的候選集就是Lk的頻繁集。

3 Apriori算法對民辦高校招生分析

3.1 數據預處理

從某高校招生的收集數據中抽出1 000條數據進行數據預處理,并對其進行數據篩選,處理結果如表1和表2所示。

表1 2012年招生數據預處理

表2 2013年招生數據預處理

3.2 利用spss Clemention建模

利用spss Clemention工具建立模型,本例用2012年入學數據與2013年入學數據進行比較,得出兩年的地區與是否報到的關聯性分析,建模如圖3所示。

3.3 設置最低條件支持度,最小規則置信度,最大前項數

在2012年的數據中,設置最低條件支持度為8.0,最小規則置信度60.0%,最大前項數為5,得到的數據分析結果如圖4所示。

如果把2013的規則支持度和置信度設置和2012相同,結果如圖5所示。

3.4 地區與是否報到關聯規則結果分析

圖4 2012年執行結果

圖5 2013年執行結果

根據圖 4和圖 5進行比較,B(云南大理)和 D(云南昭通)地區的學生報到是趨于正常的發展,在2013年招生中,A(云南昆明)、C(云南曲靖)和 E(云南麗江)加大了招生宣傳,取得了非常明顯的效果,那么在2014年的招生宣傳中,還需要在A、C、E地區保持一定的宣傳投入,在B和D地區可以適當減少招生投入。

一個學校生源的多少決定了它規模及發展。特別是在民辦高校,“招生就是一切”,招生中不僅要數量、質量也是發展的關鍵。民辦院校在不同的發展時期會有不同的發展策略,在不同的歷史時期院校也就有不同的招生策略及隊伍建設適應發展的需求。因此,只有在清楚制定了院校發展戰略規劃后,才能順理成章地制定出院校人力資源需求、發展、策略、培訓、擴建和儲備計劃。充分把數據挖掘技術利用在招生工作中,將對個高校的招生工作提供決策支持,對高校的招生成本的整合具有深遠的意義。

[1]趙祖應,丁勇.基于Apriori算法的購物籃關聯規則分析[J].江西科學,2012(1).

[2]王嵩巖.基于數據挖掘的關聯規則研究[J].吉林省經濟管理干部學院學報,2008,22(1):80-82.

[3]朱建平,謝邦昌.數據挖掘中關聯規則的提升及其應用[J].統計研究,2004(12):34-39.

[4] 姚俊.淺談關聯規則挖掘[J].信息技術,2005(6).

[5]劉柱文,李麗琳.關聯規則技術在數據挖掘中的應用[J].科學技術與工程,2008(6).

[6]譚建豪,章兢.數據挖掘技術[M].北京:中國水利水電出版社,2009.

[7]劉世平.數據挖掘技術與應用[M].北京:高等教育出版社,2010.

猜你喜歡
頻度項集置信度
一種基于定位置信度預測的二階段目標檢測方法
硼鋁復合材料硼含量置信度臨界安全分析研究
不確定數據的約束頻繁閉項集挖掘算法
正負關聯規則兩級置信度閾值設置方法
一種垂直結構的高效用項集挖掘算法
眨眼頻度可判斷煙癮大小
銅綠假單胞菌MIC分布敏感百分數與抗菌藥物使用頻度相關性研究
置信度條件下軸承壽命的可靠度分析
分布式數據庫的精簡頻繁模式集及其挖掘算法*
頻度副詞問與答
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合