?

基于粗糙集-C4.5的軌道電路故障診斷方法研究

2018-07-06 09:19付淳川朱文博
鐵路通信信號工程技術 2018年3期
關鍵詞:決策表軌道電路約簡

付淳川 朱文博

(1.北京城建設計發展集團股份有限公司,北京 100032;2.中交機電工程局有限公司武漢技術中心,武漢 430060)

軌道電路是保障列車安全運行的關鍵信號設備,ZPW-2000A型無絕緣軌道電路是目前鐵路區間應用最多的設備,及時準確地診斷軌道電路故障,直接關系到鐵路運輸效率和行車安全[1,2]。目前主要依靠電務工作人員憑借經驗對其定期檢修的方式進行維護,這種方法存在一定的盲目性且維護效率較低[3,4]。因此有必要合理引進智能診斷算法對軌道電路故障進行快速有效地診斷。一些學者將模糊神經網絡[5],支持向量機[6]和遺傳算法[7]等多種智能診斷方法應用到軌道電路故障診斷中,在一定程度上取得良好的效果。

決策樹C4.5算法具有對樣本實例進行分類并記憶的能力,所產生的規則清晰、可理解性強。同時粗糙集具有處理不完備決策表、去除冗余信息的能力,與決策樹方法有較好的相容性。由于ZPW-2000A型軌道電路系統設備結構復雜,故障現象和故障特征屬性之間沒有明確的對應關系,存在較大的隨機性和復雜性,單憑某種單一的智能方法進行軌道電路故障診斷往往存在很大的局限性。本文結合粗糙集對故障決策表進行屬性約簡,采用C4.5對約簡決策表訓練學習提取診斷規則,將得到的規則應用于軌道電路故障診斷,達到快速準確診斷的目的。

1 算法描述

1.1 C4.5規則提取

1986年自J. R. Quinlan提出ID3算法[8]以來,不斷有學者開始研究各種改進的決策樹(Decision Tree)算法,其中包括1993年提出的C4.5算法[9]。C4.5能夠自動從數據中挖掘分類規則,處理具有不確定性、離散數值特征的模式識別問題。決策樹是從根節點開始劃分節點屬性值依次向下產生分支節點,直到產生葉節點,從根節點到葉節點的每條路徑對應一條分類規則。C4.5引入信息增益率作為節點選擇度量,克服ID3算法偏向選擇多值屬性的缺點,可提取數據本身隱含的真實規則。采用后剪枝[10]的方法去除噪聲數據、控制樹的深度以便簡化決策樹。

設訓練樣本集T中,樣本個數為|T|,每個樣本由n個條件屬性A分別標記某一類別Di(i=1,2,…,k)。同一類別的樣本個數記為|Di|,定義某類樣本的概率分布為Pi=|Di|/|T|,C4.5利用樣本實例提取規則的步驟如下。

步驟1:計算樣本分布初始熵。

步驟2:計算任一測試屬性A信息熵。

步驟3:計算測試屬性A的信息增益。

步驟4:計算屬性A的分割信息量和信息增益率。

步驟5:選擇具有最大信息增益率的屬性作為當前節點,重復步驟2~4依次選擇各級節點,直到葉節點同屬一種類別。

1.2 粗糙集屬性約簡

粗糙集理論[11]是由Z. Pawlak在1982年提出的一種用于處理不完整不精確知識的數學工具。其中屬性約簡方法用來簡化信息系統的復雜程度,粗糙集中核被認為是信息系統基本屬性集,是進行屬性約簡的理論依據?;诖植诩泻说亩x,簡要介紹利用可辨識矩陣[12]計算區分函數的方法,求取決策信息系統所有可能的約簡組合。

根據決策表求得可辨識矩陣為M,A={a1,a2,…,an}是所有條件屬性的集合,S是M中所有屬性組合的集合,且S中不包含重復項,令S中包含有s個屬性組合,每個屬性組合表示為Bi,其公式化描述為BiS,Bi≠Bj(i,j=1,2,…,s),令 |Bi|=m,則Bi中任意條件屬性表示為Bi,k(k=1,2,…,m)。若矩陣中元素的屬性組合數為1,表明除該屬性以外的屬性無法將決策不同的兩條記錄區分開,該屬性不可去掉,它屬于核屬性,所有這樣的屬性組成核屬性集,設C0為核屬性集,C為屬性約簡后得到的屬性集合,基于可辨識矩陣的屬性約簡算法描述如下。

步驟1:將決策表轉換為可辨識矩陣的形式,計算核屬性集,令C=C0。

步驟2:在可辨識矩陣中找出所有不包含核屬性的屬性組合

步驟3:將屬性組合S表示為合取范式,即區分函數為

步驟4:將區分函數?轉化為析取范式的形式,此時所有合取子式即為約簡結果。

2 基于粗糙集-C4.5的無絕緣軌道電路故障診斷模型

軌道電路微機監測子系統[13]用于監控軌道電路設備工作狀態,監測并存儲大量設備狀態信息。本文利用軌道電路監測信息系統獲得原始決策表,此時決策表中有許多連續量無法直接用粗糙集進行處理,需要對原始決策表進行模糊離散化處理,形成離散形式的決策表,利用粗糙集對離散決策樹進行屬性約簡,用C4.5規則提取算法對約簡決策表進行訓練提取診斷規則?;诖植诩?C4.5算法的軌道電路故障診斷過程如圖1所示。

2.1 建立決策表

ZPW-2000A型無絕緣移頻軌道電路是由室內、外設備組成的復雜信號系統,系統設備結構如圖2所示。軌道電路設備故障導致的異常紅光帶或分路不良故障現象,若得不到及時準確地診斷處理,會嚴重影響行車效率甚至危及行車安全。

分析某區段軌道電路的監測信息,歸納系統常見故障模式作為軌道電路故障決策表的決策屬性,如表1所示。

表1 軌道電路故障模式表

根據表1歸納的常見故障模式,選擇軌道電路部分監測信息作為決策表的條件屬性如表2所示。

表2 軌道電路狀態監測量

由此確定軌道電路故障決策表的條件屬性和決策屬性,結合模擬故障樣本數據得到如表3所示的原始決策表。

表3 軌道電路故障原始決策表

軌道電路故障數據決策表中,大部分條件屬性是連續量,無法直接用粗糙集進行處理,所以需要對其進行模糊化處理成離散量的形式。根據專家經驗來選擇條件屬性聚類中心和屬性各模糊子集的隸屬函數,選擇高斯正態隸屬函數來描述屬性值隸屬于各模糊子集的程度。

故障數據屬性值經過模糊化后得到3個模糊子集,分別用模糊符號0(合適)、1(偏低)、2(偏高)來表示,第i個連續屬性Ai的取值屬于第j(j=1,2,3)個模糊子集的隸屬度采用高斯正態隸屬度函數表達如公式(6)。

其中σ>0,dij∈R是各屬性模糊取值的聚類中心。按上述方法離散化的不完備決策表如表4所示。

表4 軌道電路故障離散決策表

2.2 屬性約簡

考慮到軌道電路信息系統存在冗余屬性、重復樣本和數據缺失的情況,需要利用粗糙集進行屬性約簡。本文用可辨識矩陣方法和區分函數對離散決策表進行約簡處理。對決策表約簡的過程即對原始故障特征信息進行提煉的過程,使決策表簡化的同時去掉干擾信息,減少下一步決策樹訓練樣本、提取診斷規則的計算量。

由粗糙集中可辨識矩陣方法計算表4對應的區分函數?。

?=(M∧A4)∨(M∧A8)∨(M∧A12)

=(core∧A9∧A12)∨(core∧A8∧A9)

∨(core∧A4∧A9)∨(core∧A4∧A11)

∨(core∧A8∧A11)∨(core∧A11∧A12)

其中core=(A2∧A3∧A5∧A7)為決策表4條件屬性核,M=(core∧A9)∨(core∧A11)。

對上述離散決策表的約簡處理得到6個約簡,分別為:

1)(core∧A9∧A12)

2)(core∧A8∧A9)

3)(core∧A4∧A9)

4)(core∧A4∧A11)

5)(core∧A8∧A111)

6)(core∧A11∧A12)

通常采用不同約簡集形成的決策表,對其訓練得到的樹形規則有所不同,選擇不同約簡集進行訓練,直到求得符合要求的決策樹為止,其中約簡1)對應的決策表如表5所示。

表5 約簡1)對應的決策表

經過對不完備決策表屬性約簡,去除信息系統的冗余屬性,得到簡化的決策表5,屬性組合{A2,A3,A5,A7,A9,A12}可完全代替原始決策表條件屬性,達到約簡目的。

2.3 C4.5規則提取

在眾多的規則提取算法中,決策樹C4.5算法可以對故障樣本決策表進行快速規則提取,產生清晰易理解的樹狀形式規則,適用于小規模故障樣本集的診斷分類,提取到的規則集作為對新故障樣本實例進行分類的故障診斷器。C4.5采用后剪枝技術,得到初始決策樹規則集后進行剪枝,可去除噪聲數據和克服孤立點的分支規則異常。

表6 屬性的信息熵、信息增益、信息增益率

計算樣本分布的初始熵和各個屬性的信息增益及信息增益率,如表6所示,其中樣本初始熵為3.59。

根據規則提取的具體步驟,選取信息增益率最大且信息增益最大的屬性A2為決策樹的根節點。屬性A2有2個取值(即有2個分支,A2=1和A2=2),分別以A2的兩個分支計算下一級節點的信息熵、信息增益、信息增益率,如此類推,直到所有樣本類別被標記為葉節點為止。最終得到的診斷決策樹如圖3所示。

2.4 仿真測試

利用軌道電路故障模擬數據(訓練和測試故障樣本各100組)對本文方法進行仿真驗證,與決策樹ID3算法和BP神經網絡法進行對比,對比結果如表7所示。BP神經網絡存在收斂速度慢、易陷入局部極值的問題,網絡分類性能受網絡結構的影響較大,不適于小規模樣本的學習[14]?;诖植诩虲4.5的故障診斷方法對軌道電路故障樣本數據進行訓練提取診斷規則,可將得到的規則直接運用于新的故障數據進行故障判斷,該方法的訓練速度明顯快于BP神經網絡診斷法,經過粗糙集屬性約簡后,進一步加快了決策樹訓練速度,并且對測試樣本的誤判率低至3%。

表7 診斷效果對比表

3 結論

本文提出一種基于粗糙集-C4.5決策樹算法的ZPW-2000A型軌道電路故障診斷方法,該方法實現不完備信息系統模式下的軌道電路故障診斷,揭示軌道電路信號集中監測信息集合的內在冗余性,體現了良好的容錯性能。利用模糊集理論對包含連續屬性的故障樣本進行模糊離散化處理,建立離散決策表,粗糙集屬性約簡在保留關鍵信息的前提下對決策表進行約簡求得最小約簡集,利用決策樹具有快速學習及分類的優勢對約簡后的決策表進行診斷規則提取,避免對冗余屬性的判斷,縮短訓練學習的時間。最后利用模擬故障樣本數據仿真測試該方法的可行性和準確率,并與ID3算法和BP神經網絡法做對比,仿真測試結果表明,該方法訓練速度快并且誤判率較低。

[1]郭進.鐵路信號基礎[M].北京:中國鐵道出版社,2010.

[2]董松.論軌道交通列車位置檢測設備[J].都市快軌交通,2005,18(3):72-75.

[3]米根鎖,張鳳霞,魏蕾.基于剩余壽命的鐵路軌道電路調整型維修方法研究[J].鐵道學報,2015,37(4):69-74.

[4]唐濤,燕飛,郜春海.軌道交通信號系統安全評估與認證體系研究[J].都市快軌交通,2004,17(1):28-32.

[5]黃贊武,魏學業,劉澤.基于模糊神經網絡的軌道電路故障診斷方法研究[J].鐵道學報,2012,34(11):54-59.

[6]張夢琪,趙會兵,孫上鵬,基于粒子群支持向量機的軌道電路分路不良預測方法[J].鐵道學報,2015,37(10):68-74.

[7]趙林海,冉義奎,穆建成.基于遺傳算法的無絕緣軌道電路故障綜合診斷方法[J].中國鐵道科學,2010,31(3):107-114.

[8] QUINLAN J R.Induction of Decision Trees[J].Machine Learning, 1986, 1(1):81 106.

[9] QUINLAN J R.C4.5: programs for machine learning[M].San Francisco:Morgan Kaufmann Publishers Inc.1993.

[10]魏紅寧.決策樹剪枝方法的比較[J].西南交通大學學報,2005,40(1):44-48.

[11] Pawlak Z.Rough set[J].International Journal of Computer& Information Sciences, 1982, 11(5): 341-356.

[12]張文修.粗糙集理論與方法[M].北京:科學出版社,2001.

[13]孫志忠,于樹永.ZPW-2000A監測子系統[J].鐵道通信信號,2008,44(11):24-25.

[14]魯娟娟,陳紅.BP神經網絡的研究進展[J].控制工程,2006,13(5):449-451.

[15]楊帆,王堅強,陳世然.貝葉斯網絡在ZPW-2000K無絕緣軌道電路故障診斷中的應用[J].鐵路通信信號工程技術,2016,13(6):73-75.

猜你喜歡
決策表軌道電路約簡
基于決策表相容度和屬性重要度的連續屬性離散化算法*
基于混合增量式屬性約簡的中醫甲狀腺結節診療規律分析
基于通信編碼的區間ZPW-2000軌道電路最小道砟電阻取值探討
基于HHT及LCS的軌道電路傳輸變化識別探討
帶權決策表的變精度約簡算法
區間軌道電路智能診斷系統的探討
基于DSP的25Hz相敏軌道電路接收設備的研究和實現
近似邊界精度信息熵的屬性約簡
廣義分布保持屬性約簡研究
電力穩控系統在石化企業的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合