?

基于IG-NRS與ICK雙向壓縮的KMS自學習案例知識匹配

2024-03-05 08:33張建華賀龍飛張淑唯曹子傲溫丹丹
計算機應用研究 2024年2期

張建華 賀龍飛 張淑唯 曹子傲 溫丹丹

收稿日期:2023-06-03;修回日期:2023-08-01? 基金項目:國家社會科學基金資助項目(19BTQ035)

作者簡介:張建華(1975—),男,河北承德人,教授,博導,主要研究方向為知識創新與知識服務;賀龍飛(2000—),男(通信作者),河南南陽人,碩士研究生,主要研究方向為知識匹配與知識推薦(19137787970@163.com);張淑唯(1999—),女,河南商丘人,碩士研究生,主要研究方向為知識進化與知識匹配;曹子傲(1992—),男,河南商丘人,博士研究生,主要研究方向為知識匹配與知識傳播;溫丹丹(1986—),女,河南商丘人,博士研究生,主要研究方向為知識匹配與知識服務.

摘? 要:案例知識匹配可有效緩解知識過載問題,確保知識應用水平。針對知識管理系統自學習案例知識匹配的冗余性問題,提出了一種基于IG-NRS與ICK的雙向壓縮方法。該方法首先設計NRS的改進模型IG-NRS,據此約簡案例知識屬性集,實現鄰域決策系統的縱向壓縮;在此基礎上,通過引入譜聚類判別并剔除不一致案例知識實現其橫向壓縮;再藉由知識視圖相似度鎖定目標案例知識簇與最相似案例知識,從而確定知識匹配結果。在多個UCI數據集上的實驗結果表明,該方法能有效減少知識管理系統自學習案例知識的冗余,取得更高的知識匹配效率和有效性。

關鍵詞:知識匹配;知識管理系統;案例知識;雙向壓縮

中圖分類號:TP393??? 文獻標志碼:A

文章編號:1001-3695(2024)02-011-0393-08

doi:10.19734/j.issn.1001-3695.2023.06.0259

KMS self-learning case knowledge matching based on

IG-NRS and ICK bidirectional compression

Zhang Jianhua,He Longfei,Zhang Shuwei,Cao Ziao,Wen Dandan

(School of Management,Zhengzhou University,Zhengzhou 450001,China)

Abstract:Case knowledge matching can effectively alleviate the knowledge overload problem and ensure the level of know-ledge application.Aiming at the redundancy problem of self-learning case knowledge matching in knowledge management systems,this paper proposed a bidirectional compression method based on IG-NRS and ICK.The method firstly designed an improved model of NRS,called IG-NRS.Accordingly,it approximated the set of case knowledge attributes to achieve the vertical compression of the neighborhood decision system.On this basis,

it realized horizontal compression by introducing spectral clustering discrimination and eliminating the inconsistent case knowledge.And then it determined the knowledge matching results by locking the target case knowledge clusters and the most similar case knowledge through the similarity of knowledge views.Experimental results on several UCI datasets show that this method can effectively reduce the redundancy of self-learning case knowledge in knowledge management systems and achieve higher knowledge matching efficiency and effectiveness.

Key words:knowledge matching;knowledge management system;case knowledge;bidirectional compression

0? 引言

在知識經濟時代,知識已取代傳統資源(如土地、勞動力、資本等)上升為新的主導資源,對其進行有效的組織與管理成為企業價值創造的源泉。越來越多的企業認識到知識在社會生產中的決定性地位,正謀求以知識管理打造自身的核心競爭力,進而提升生產效率與組織績效,以期在日趨激烈的競爭中立于不?。?]。知識管理系統(knowledge management system,KMS)作為將知識管理由理念導向實踐的支撐性平臺,其自身所具備自組織、自學習能力,為企業藉由知識管理創造價值提供了強大輔助[2,3]。

知識只有通過應用過程才能實現其自身價值。不過,隨著信息技術的不斷發展,知識結構的日趨復雜與知識體量的不斷擴大使知識應用過程愈發困難,知識主體難以獲得能夠滿足其需求的知識。KMS案例知識匹配作為知識管理的關鍵環節,它將知識主體需求及既有各類知識轉換為案例形式,通過匹配計算出與該需求相吻合的知識供給??梢?,知識匹配進一步深化了知識的應用進程,增強了知識主體的決策輔助意義,能夠有效緩解上述問題;同時也促進了知識獲取、知識傳播等知識鏈各活動間的協同聯動,提升了KMS的運維水平。

傳統案例匹配的實現以基于案例推理(case-based reaso-ning,CBR)系統為依托[4,5]。CBR方法利用歷史案例對當前問題推理求解:首先,將歷史案例保存于案例庫;在用戶提交待解問題后,通過在整個案例庫中尋找與該待解問題匹配程度最高的案例并提交用戶,用戶可據此對待解問題進行求解[6]。該方法企圖規避對案例庫復雜構成規則的獲取分析,確實能在一定程度上快速得到待解問題的解。不過,隨著CBR系統自組織過程的延續,案例與案例屬性數量的不斷豐富,導致案例庫規模迅猛擴大,遍歷巨大案例庫會束縛求解效率,而冗余案例與冗余屬性還會影響匹配精度,此時須對案例庫進行壓縮處理(包括橫向壓縮與縱向壓縮)。

為避免對案例集全域的窮舉計算,相關學者采用啟發檢索與歸納檢索建立案例集收縮機制。Lundberg[7]將啟發檢索應用于專家系統和基于知識的系統,發現兩者具有相同的實效水平。吳華瑞等人[8]提出基于啟發式AO*算法的農作物病蟲害診斷方法,在保證高準確度的前提下,顯著地提高了搜索的效率。謝燕等人[9]以匹配程度作為啟發信息,優先獲得匹配程度高的初始解集,再基于此搜尋最優匹配解,有效減少了搜索空間。Ralph等人[10]論證了流暢性啟發式檢索可能是人類大腦推理決策的工具,可利用環境結構和少量有價值的信息來逃避費力的搜索,能準確地反映實際統計規律的封裝頻率信息。Cheng等人[11]設計了一系列實驗,驗證了“變化匹配啟發式”有助于消費者快速作出購買決策,提高了其加工的流暢性。該類啟發檢索受西蒙“有限理性”理論影響,基于啟發規則能夠快速定位待解問題的相似案例,但該方法亦會受到啟發規則的約束,在提升效率的同時使有效性下降。此外,皇甫中民等人[12]采用人工魚群聚類算法將模型庫空間聚類劃分為若干子空間,再利用隸屬度函數將匹配范疇收縮至相應子空間,其檢索質量和效率均有明顯提高。張杰等人[13]結合矩陣運算方法及核方法,設計出一種視頻關鍵幀相似度核聚類檢索算法,能更好地提高視頻檢索的效率。雷以良等人[14]利用改進K-means算法生成案例故障類別,按照待解問題對各類別質心的距離實現匹配,提升了故障推理系統的效能。Jiang等人[15]將特征匹配問題轉換為空間聚類問題,基于DBSCAN聚類算法將樣本數據劃分為不同類別,再以此為基礎進行檢索。李雅欣等人[16]利用近鄰成分分析算法訓練得到度量矩陣,并結合K近鄰分類器映射變換使同類型樣本間的距離減小,因此系統效率得到提升。李曉明等人[17]采用三級推理策略進行案例推理,根據故障特征參數實現故障類別的劃分,減小案例匹配目標集的規模。該類歸納檢索需建立適當的索引結構,基于索引位置劃分案例子庫,并分別生成少數代表性案例,以此作為目標集實施匹配,極大程度上壓縮了匹配空間,使其效率得到有效提升;不過,通過歸納方法直接劃分案例子庫是以完善案例庫為前提,即默認案例庫各案例索引距離較近案例的決策結果完全一致,但由于案例構成規則復雜、案例屬性有限、存在冗余屬性等緣故,導致此前提的可置信程度不高。實踐中,某些案例雖距離較近,其決策結果卻并不相同。以此作為目標集,匹配模糊程度高,其結果易發生錯誤;另外,各案例子庫的規模參差不齊、代表性案例的標準與結果無法統一、代表性案例過少等因素極易導致索引目標集并非待解問題的最優初始解集,進而降低案例匹配的有效性。

對冗余屬性問題,其主流觀點是利用粗糙集的理論和方法壓縮案例屬性集。該方法通過計算屬性重要性,逐步迭代以獲取最簡屬性集。常春光等人[18]采用粗糙集理論約簡案例冗余屬性,并基于最小分辨矩陣的約簡算法與逼近精度敏感性離散化算法,縱向縮減匹配空間,從而提升匹配效率。Salamo等人[19]基于粗糙集理論實現了特征選擇和案例屬性壓縮。然而,傳統的粗糙集理論需要對數據離散化處理,這可能損失原始信息,從而影響約簡效果?;诖?,Hu等人[20]引入鄰域粗糙集(neighborhood rough set,NRS),并提出了前向貪心算法,以實現對連續屬性值的高效屬性約簡。劉瀟等人[21]運用K-means聚類與NRS屬性約簡,并結合SMOTE方法消除數據不平衡性,進而利用網格搜索組合分類器評估檢驗客戶分類效果,有效提升了其分類的效率和準確率。該類方法通過剔除冗余屬性約簡案例屬性集,案例庫與匹配空間的規模得到了有效收縮,從而提升了案例匹配的效率。然而,傳統粗糙集理論或NRS理論在距離計算時缺乏對各屬性賦權,將重要程度不同的屬性同等看待,且僅在案例庫規模較小時才具有良好的約簡效果,隨著案例集與案例屬性集的擴大,其計算復雜度迅速上升,時間和空間成本增加,約簡效率愈發下降。其中,NRS理論需人為設定鄰域大小,若鄰域半徑設置不合理,其約簡效果并不理想。

CBR領域的現有研究成果為KMS自學習案例知識匹配機制的研究、設計奠定了基礎。KMS同樣是一個具備知識豐富多樣、結構復雜、自組織能力強大等特點的復雜巨系統。隨著系統的不斷運行,案例知識庫體量將會迅猛提升,其自學習案例匹配效率嚴重下降。因其與前述CBR系統的窘境十分類似,亟需謀劃更為有效的雙向壓縮策略,以確保KMS自學習案例知識匹配機制的運維水平。

在約簡冗余屬性方面,信息增益(information gain,IG)與粗糙集的思路相近,都以案例的條件屬性對決策結果的支持程度劃分重要屬性,但前者處理高維數據的效率遠高于后者。啟發檢索不以其他索引結構區分案例庫,保留了案例集更多的信息,有效彌補了歸納檢索的前述不足。鑒于此,本文以IG對NRS實施約簡改進;將啟發檢索與歸納檢索結合,引入譜聚類(spectral clustering,SC)以判別KMS案例知識庫中的不一致案例知識(inconsistent case knowledge,ICK),并將其有效剔除,得到精簡的案例知識目標集;在實現雙向壓縮的基礎上,再基于聚類后的案例知識集實施案例知識匹配,以提升其效率和有效性。本文方法的貢獻可概括為:a)將IG融入鄰域決策系統,收縮NRS的初始約簡范疇,在鄰域計算時增設對條件屬性的賦權,并減少因鄰域半徑設置失當導致的局部最優情形;b)引入SC構建了案例知識庫的雙索引結構,定義了ICK,識別出距離索引與規則索引不一致的案例知識并予以約簡,為決策表約簡增設新的維度;c)用所得SC結果進一步收縮知識匹配目標集,以視圖相似度計算最終匹配結果,并在多個真實UCI數據集上驗證了其可行性與進步性。

1? 理論基礎

1.1? 信息增益

IG源自信息論,是衡量案例各屬性對其決策結果影響程度的統計量。IG值越大,表明采用該屬性越容易判別和得到更準確的決策結果,因此應賦予其較大權重;而冗余屬性因對導出決策結果作用微弱則被賦予較小的權重。若冗余屬性參與知識匹配計算,易提升該機制的混亂程度,因此需有效識別此類冗余屬性并予約簡。在信息論中,信息熵用來反映隨機變量取值的不確定性程度。設X為樣本量為n的任意隨機變量,第i類樣本為xi,p(xi)為其頻率,則熵的計算如式(1)所示。熵越高,X的不確定性程度越大。

H(X)=-∑ni=1p(xi)log2(p(xi))(1)

條件熵表示在某條件下隨機變量的不確定性程度,X在給定隨機變量Y的條件下的條件熵計算如式(2)所示。

H(Y|X)=∑ni=1p(xi)H(Y|X=xi)(2)

IG是信息熵的差值,表示增加條件使不確定性降低的程度,其計算如式(3)所示??梢?,IG值越大,采用Y劃分X類別使不確定性降低,準確性提高。

IG(X,Y)=H(X)-H(X|Y)(3)

1.2? 鄰域粗糙集

標記決策系統DES=〈U,C,D,f〉,其中U={x1,x2,x3,…,xn}為論域,C為條件屬性,D為決策屬性,f:U×C→D為映射關系。NRS在粗糙集理論中增加了鄰域,能處理連續型數據。若C生成論域U上的一族鄰域關系,則稱NDES=〈U,C,D,f〉為鄰域決策系統。對于xi∈U,定義xi的鄰域為δB(xi)={xj|xj∈U,ΔB(xi,xj)≤r},其中Δ為距離,用p范數表示如式(4)所示,其中f(xi,ai)為樣本xi在屬性ai上的取值,p為常數。

Δp(x1,x2)=(∑Ni=1|f(x1,ai)-f(x2,ai)|p)1p(4)

在NDES=〈U,C,D,f〉中, D將U劃分為n個等價類:X1,X2,X3,X4,…,Xn,其中BC,生成U上的鄰域關系NB,則D關于條件屬性B的上、下近似分別如式(5)(6)所示,其中,NBXi={x|δ(x)Xi},NBXi={x|δ(x)∩Xi≠},i=1,2,…,n。

NBD={NBX1,NBX2,…,NBXn}(5)

NBD={NBX1,NBX2,…,NBXn}(6)

由此得D關于B的正域、邊界域分別為PosB(D)、BN(D),分別如式(7)(8)所示。其中PosB(D)越大,表明越能依據B對決策屬性精確劃分。

PosB(D)=NBD(7)

BN(D)=NBD-NBD(8)

1.3? 知識視圖相似度

知識相似度抽象描述知識間的相近程度,按知識相似層次的不同將其劃分為知識方面相似度(knowledge aspect similarity,KAS)和知識視圖相似度(knowledge view similarity,KVS),兩者分別為局部與全局關系。KAS表示不同知識間在同一知識屬性下的相近程度,是計算KVS的基礎,知識k1、k2在屬性am下的歐氏距離計算如式(9)所示。

Simai(k1,k2)=1-(kai1-kai2)2(9)

知識主體因其需求視角不同,對同一知識對象產生的視圖也有所不同。該視圖包含兩層含義:a)知識主體選擇知識特征屬性構成屬性集合,較方面相似度更具全局意義;b)它通過權重向量表征視圖中各方面之于知識主體的重要程度。KVS表示不同知識間在同一視圖下的相近程度。用V表示視圖,ω為權重向量,ωi為其分量,n為視圖中屬性個數,則視圖相似度的計算如式(10)所示。

Simai∈V(k1,k2,ω)=∑ni=1ωiSimai(k1,k2)(10)

2? 基于雙向壓縮與視圖相似度的案例知識匹配

一般而言,KMS自學習案例知識雖然屬性眾多,但其數目卻遠不及案例知識的體量,由此冗余屬性的數量相對較少;另外,屬性是對案例知識的表征,案例知識的重要性無疑高于其自身屬性??梢?,約簡冗余屬性的縱向壓縮對原案例知識庫的擾動更小,能更多地保留原始重要信息,故其所引起的偏差更低。若先實施橫向壓縮,則由于其壓縮幅度較大容易使案例信息嚴重丟失,從而降低對案例知識庫進一步壓縮的可能,案例知識匹配的效能也隨之下降。且相關學者也優先進行特征屬性選擇[13,21]。有鑒于此,本文采取先縱后橫的壓縮順序。

2.1? 基于IG-NRS的縱向壓縮

依據NRS前向貪心算法[20]可對案例知識實施屬性約簡。該方法首先對最簡屬性集合賦空集,即red←,并從全體屬性集出發計算屬性重要度,再將判斷出的重要屬性加入red,經過逐步迭代得約簡結果。該過程通過衡量加入某條件屬性后對約簡集合的影響,保證了約簡后條件屬性內部的獨立性與完備性。不過,它也存在如下缺陷:a)從空集出發迭代至最簡屬性集的迭代次數較多,每次迭代獲取屬性重要度的計算過程也較為煩瑣,當案例知識屬性較多時,獲取約簡結果的效率偏低;b)當案例知識的重要度相差不大或鄰域半徑設置失當時,屬性約簡容易陷入局部最優,可能遺漏某些重要屬性,進而使所得約簡屬性集合對原屬性集的代表性程度下降;c)距離計算缺乏對各條件屬性賦權,精確性不高。

與NRS的重要度類似,IG理論依據案例知識的條件屬性對決策結果的決定程度賦權。某條件屬性的IG值越大,表明其與決策結果的相關性越強,增加該屬性表述案例知識越容易判別得到更準確的決策結果。由于該過程無須迭代,計算復雜度低,所以依據其能快速識別出重要的條件屬性,從而得約簡結果。但IG僅考慮了各條件屬性與決策屬性間的相關性,忽視了各條件屬性內部的獨立性,故容易將多個相關性較強的條件屬性納入約簡屬性集合。鑒于此,考慮采用IG改進NRS,得到新的約簡方法IG-NRS,使兩者優勢互補,以緩解上述問題。

首先基于既定KMS自學習案例知識庫,構建知識表達系統S=〈U,A,V,f〉如表1所示,將各類知識(包括顯性知識與隱性知識)轉換為案例知識形式。

其中,U={c1,c2,c3,…,ci,…,cs}為論域,表示由案例知識c1,c2,c3,…,ci,…,cs構成的非空有限集合,A=C∪D為案例知識屬性集合,C={a1,a2,a3,…,am,…,an}表示由屬性a1,a2,a3,…,am,…,an構成的條件屬性集,D表示決策屬性集(案例決策結果),V表示屬性值,f為案例知識屬性到屬性值的映射,則有f:U×A→V。利用向量ci=(vi1,vi2,vi3,…,vim,…,vin)表示第i個案例知識(1≤i≤s),其中vim表示第i個案例知識的第m個屬性值(1≤m≤n)。為消除案例知識屬性值量綱與數量級的影響,對其歸一化,如式(11)所示。其中,f(vim)為歸一化的結果,vim表示第i個知識案例的第m個屬性值,vm表示各案例的第m個屬性對應的屬性值,n為其屬性總數。

f(vim)=vim-min(vm)max(vm)-min(vm)(11)

針對該決策表,設決策結果有|D|類,將其劃分為不同的案例集Cd,有1≤d≤|D|,則決策屬性D的信息熵為式(12)。

I(D)=-∑|D|d=1pdlog2(pd)(12)

其中:pd為D屬性值為第d類的概率,用|Cd||D|估計。

對于任一連續屬性am,確定其最佳分裂點:首先將am的屬性值升序排列,每兩個相鄰值之間皆有可能產生劃分,劃分的不同區域視為不同分類,如此對于am的s個屬性值應有s-1種可能劃分,進而計算各中可能劃分的條件信息熵如式(13)所示。其中Dj為am屬性的第j分類,v為其總分類數(v=2)。I(D|am)越小表明am屬性對決策結果的決定程度更強,故I(D|am)最小時取得最佳分裂點。由此可計算屬性am的IG如式(14)所示。

I(D|am)=∑vj=1|Dj||D|×I(Dj)(13)

Gain(am)=I(D)-I(D|am)(14)

依此類推,得到其他屬性的IG值,則用式(15)計算am屬性權重,其中Gain(am)為am屬性的IG。

wam=Gain(am)∑nm=1Gain(am)(15)

而后將各屬性按照權重降序排列,排列結果為order,依次對提取的屬性權重求和,如式(16)所示。

Sw=∑am∈orderwam(16)

分別設定重要性閾值ε1、ε2(ε1<ε2)。若加入屬性使得Sw≥ε1恰好成立,則保留相應屬性為重要屬性集IGcore;若加入屬性使得Sw≥ε2恰好成立,則保留相應屬性為預約簡屬性集IGred;其他視為冗余屬性,予以約簡。其中ε1、ε2越大,則IGcore與IGred的規模越大,該屬性約簡過程保存原始屬性信息越多;當ε1、ε2為0時,不保存任何案例知識屬性;當ε1、ε2為1時, IGcore與IGred不約簡任何屬性;故有0<ε1<ε2≤1。

之后,從原始案例知識庫S中取IGred所包含的屬性作為條件屬性,將原案例知識相應決策屬性合并為預約簡案例知識庫S1。此時設置鄰域半徑r,將S1=〈U,A,V,f〉視為鄰域決策系統。對于ci∈U,定義ci的鄰域為δB(ci)={cj|cj∈U,ΔB(ci,cj)≤r},其中ΔB表示距離,距離用IG加權的2范數(歐氏距離)如式(17)所示。

ΔB(c1,c2)=∑nm=1{[f(c1,am)-f(c2,am)]wam}2(17)

分別依據式(5)~(7)得到PosB(D),再計算決策屬性D對條件屬性B的依賴度,如式(18)所示。其中,CARD為集合中元素個數,0≤γB(D)≤1表示根據B描述可完全歸為某等價類(由決策屬性D劃分)的比率。γB(D)越大,決策結果對屬性B的依賴性越強。

γB(D)=CARD(PosB(D))/CARD(U)(18)

對于該鄰域決策系統,BC,am∈B。若同時滿足條件:a) γB(D)=γC(D);b)γ(B-am)(D)<γB(D),am∈B,即由C得到規模較小的B,同時不改變決策結果,則稱B為C的一個屬性約簡。屬性am相對于屬性B的重要度如式(19)所示。當am加入到約簡屬性集中時,不改變D對其的依賴度,則予以約簡。NRS結果記為NRSred,取IGcore∪NRSred=IGNRSred為IG-NRS的約簡結果。

SIG(am,B,D)=γB∪am(D)-γB(D)(19)

本文采用由IG改進的NRS前向貪心算法對案例知識庫進行屬性約簡,如算法1所示。

算法1? IG-NRS屬性約簡

輸入:S1。

輸出:約簡結果IGNRSred。

a)約簡屬性集合NRSred←。

b)在S1中,對am∈A,以wam對距離賦權,計算鄰域關系Nam。

c)利用式(5)~(7)(17)~(19)計算amNRSred相對于NRSred的重要度。

d)選擇滿足使重要度最大的屬性af。

e)若SIG(af,NRSred,D)>0,則NRSred←NRSred∪af;否則返回步驟c),直至SIG(af,NRSred,D)=0。

f)為防止NRS剔除重要屬性,取IGcore∪NRSred=IGNRSred輸出為約簡屬性集,運算結束。

綜上,IG-NRS方法彌補了單一方法約簡屬性的缺陷,既用IG方法通過NRS考慮各條件屬性內部的獨立性,又能高效地獲得重要屬性集合與預約簡屬性集合,使NRS可快速得出約簡結果。如此,提升了案例知識庫縱向壓縮的效率與有效性,為進一步的橫向壓縮與知識匹配過程奠定基礎。

2.2? 基于ICK的橫向壓縮

KMS自學習案例具有完備、復雜的決策機制,能夠根據不同的條件屬性形成決策;案例知識匹配謀求繞過對此復雜決策規則的解析過程,而側重以案例知識間相似度預測待解問題的解,從而提高求解效率。據前文所述,對案例知識的聚類在其決策結果之外重塑索引結構。顯然,該方法側重以索引位置決定案例知識的匹配結果,忽略了其本身固有的決策屬性,降低了知識匹配的決策輔助水平。啟發檢索不要求重塑案例結構,能有效兼顧案例知識的位置與決策結果。因此本文擬將兩者結合,定義歸納結果與決策結果類型不同的案例知識為ICK,識別并予以剔除。利用ICK方法作為啟發條件,以實現橫向壓縮。

本文采用SC方法對案例知識實施歸納。SC基于距離劃分樣本,其具體步驟[22]如下:

a)將案例知識樣本轉換為圖頂點,根據式(20)計算案例知識間的距離,之后選取距離最小的K個案例知識作為最近鄰。再根據式(21)的相似度對邊賦權,并利用該值生成鄰接矩陣W,構建無向加權圖。

dis(ci,cj)=∑nm=1(cim-cjm)2(20)

wij=wji=0ciKNN(cj) and cjKNN(ci)

e-|ci-cj|22σ2ci∈KNN(cj) or cj∈KNN(ci)(21)

b)使用式(22)(23)計算拉普拉斯矩陣,其中DM為對角陣。

DM=∑nj=1wij(22)

L=DM-W(23)

c)為了分解L,引入指標矩陣H,其值計算如式(24)所示。

hiJ=0ciAJ

1∑ci∈AJdcici∈AJ (24)

d)通過對式(25)的變換,可以得到使Ncut最小的特征矩陣F,使用K-means算法對F的各行聚類得到最終結果。

Ncut(A1,A2,…,Ak)=∑kJ=1hTJLhJ=∑kJ=1(HTLH)JJ

HT(DM)H=I

H=(DM)-12F(25)

可見,SC借鑒圖論中的最優劃分問題,在K-means聚類的基礎上實現壓縮功能,改變了傳統的直接計算樣本間距離的聚類方式[23],故能準確、高效地處理復雜高維的KMS自學習案例知識。而且,SC的簇數K可人為規定,當K=1時,索引結構失效;K越大,聚類過程越能實現對原案例知識的精細劃分。但當K>>|D|時,則易使聚類與決策結果類型數的差距增大,這與客觀實際相背離,故宜設定K接近|D|,且K∈Euclid Math TwoZAp。

選擇適當的K,對上述縱向約簡后的案例知識庫實施聚類(設屬性約簡至q個),基于距離生成新的索引,建立雙索引結構的知識表達系統如表2所示。

csvs1vs2vs3…vsm…vsqdsscs? 如前文所述,聚類所得同一簇案例知識可能擁有多種決策結果。針對此問題,設定決策結果類別閾值θ,計算各決策結果的占比CDM,如式(26)所示,其中nd為d類決策結果的數量,nC為對應SC簇所包含案例知識的數量。將CDM降序排序后依次求和為SCDM,如式(27)所示,并使相應決策結果包含于決策結果類別集合DC,直至SCDM≥θ。而后,判斷各案例知識的決策結果是否存在于DC,若存在,將其保存于案例知識庫;否則視其為ICK,予以剔除。如此,利用ICK作為啟發條件,能夠從原案例知識庫篩選出一致性更強的案例知識,有效收縮了目標集,從而實現橫向壓縮。

CDM=ndnC(26)

SCDM=∑CDM(27)

綜合以上兩節內容可知,該方法在縱向上為傳統CBR領域補充新的屬性約簡方法,緩解了NRS與IG方法約簡冗余屬性的低效問題,在橫向上化解了歸納檢索案例知識位置與決策結果的矛盾,從而有效實現KMS自學習案例的雙向壓縮。此外,相較于傳統CBR壓縮方式,該方法還具有如下優勢:

a)傳統CBR案例壓縮均發生在案例匹配過程中,這無疑增加了案例匹配的時間消耗,且壓縮局限在單一方向;KMS自學習案例壓縮則發生于自組織階段,時間上獨立于案例匹配過程,不會增加后者的時間消耗,且雙向壓縮使案例知識庫比單方向壓縮更加合理精簡,極大程度確保了KMS待解問題的求解效率與有效性;

b)傳統CBR壓縮內嵌于案例匹配過程中,系統模塊化程度低,運維困難;KMS自學習案例壓縮過程獨立于案例匹配算法,不僅增強了系統模塊化特性,提高了壓縮計算的靈活性,也降低了系統運維難度。

2.3? 基于視圖相似度的案例知識匹配

為了提高匹配效率,本節依據2.2節中ICK方法對案例知識的聚類,計算待解問題與各聚類中心的視圖相似度,再以最大相似度的簇為匹配空間,遍歷搜尋最相似案例知識。對各案例知識簇,以簇內案例知識條件屬性值的平均值得到j簇中心向量j,計算如式(28)所示,vjk為該簇的第k個案例知識屬性值。

j=∑kvjkk(28)

以2.1節中IG方法確定約簡后案例知識庫的屬性權重向量ω,ωam為ω的am屬性分量。計算待解問題cu與簇中心j的視圖相似度,如式(29)所示。

Simam(cu,j)=1-(camu-amj)2

Simam∈V(cu,j,ω)=∑ωamSimam(cu,j) (29)

對于待解問題cu,以最大Simam∈V(cu,j,ω)為最相似簇。待解問題越有可能在其中搜尋到相應決策結果。再對該簇中案例知識依次計算視圖相似度,取cu、cl相似度最大為Sim(cu,cl,ω),記為Simul。同時設定相似度閾值λ,若Simul≥λ,則匹配成功,預測待解問題cu的解與案例知識cl保持一致,其結果記為d^u;否則表示該待解問題與各簇的相似度都較低,依據視圖相似度求解的模糊程度較高,匹配失敗,轉入KMS自組織機制中的知識適配或知識修正,此環節在本文不作贅述。

綜上,基于雙向壓縮與視圖相似度的案例知識匹配算法如算法2所示。

算法2? 基于雙向壓縮與視圖相似度的案例知識匹配

輸入:S=〈U,A,V,f〉,ε1,ε2,r,K,θ,t。

輸出:ci,d^u or 匹配失敗。

a)對S歸一化。

b)對am∈A,用IG計算得Sw,將其與ε1、ε2比較,相應屬性保留在IGcore、IGred。

c)從S中提取{IGred,D}列,設置r,用NRS計算得NRSred。 /*見算法1*/

d)IGcore∪NRSred=IGNRSred。

e)從S中提取{IGNRSred,D}列,用SC方法將案例知識聚類為K類,得雙索引結果。

f)對聚類簇中各ci依次計算得SCDM,若SCDM≥θ,得DC,轉到步驟g),否則繼續。

g)若Dci存在于DC,將ci保存于S1,否則為ICK,予以剔除。

h)用KVS計算得Simam∈V(cu,j,ω),取最大簇計算得Simul。

i)若Simul≥t,匹配成功,輸出cl與d^u,否則匹配失敗。

如圖1所示,本文方法基于雙向壓縮案例知識庫實施聚類匹配,避免遍歷完整案例知識庫,在確保知識匹配有效性的前提下,顯著提升了匹配效率。其中,縱向約簡能有效剔除冗余屬性,彌補了IG與NRS單一方法的缺陷;橫向約簡利用案例知識庫構建新的索引結構,改善了歸納檢索的前述不足;經雙向壓縮后再實施聚類,如此知識匹配能夠進一步收縮匹配空間,從而有效降低KMS知識獲取成本,緩解KMS知識存儲壓力。此外,傳統CBR案例匹配直接將匹配結果提交用戶,用戶需對此相似案例作進一步的分析研究,方能得到最終的決策結果。而本文方法能直接預測待解問題的解,對知識主體的決策輔助程度更高。

3? 實驗分析

3.1? 數據集

本文選取真實數據庫UCI中兩個不同規模的數據集作實驗分析。該數據集各案例均由多個條件屬性(連續型)與一個決策屬性(離散型)構成,各含有5和6類決策結果。將每個數據集樣本的90%作為訓練集(案例知識庫),10%作為測試集(待解問題),具體信息如表3所示。

3.2? 實驗評價指標

本文通過指標MR、MAR、MI來評估知識匹配方法,如式(30)所示。其中s0為待解問題總數,st為通過知識匹配閾值λ的待解問題總數,sr為st中匹配結果正確的待解問題總數。0≤MR≤1,其值越接近于1,待解問題匹配成功的概率越高;0≤MAR≤1,其值越接近于1,對匹配成功待解問題進行輔助決策的準確性越強。因此,綜合構成的MI(0≤α≤1,0≤MI≤1)與前兩者成正向關系,并且在實踐中能夠根據管理目的的不同靈活調整:若注重解決更多的待解問題,可設定較大的α;設定較小的α以體現對待解問題求解準確性的注重。顯然,MI越接近于1,表示知識匹配的總體效果越好。

MR=sts0×100%MAR=srst×100%MI=αMR+(1-α)MAR (30)

通過accuracy、precision、recall、F1進一步評估實例在本文匹配系統中的分類效果,計算方式如式(31)所示,混淆矩陣如表4所示。accuracy衡量所有樣本的預測正確程度,precision衡量預測為正樣本的準確程度,recall衡量實際為正樣本的準確程度,F1值反映綜合分類效果。各指標值越高,越能體現分類性能,故越能取得合理的決策推理,對應的案例知識價值越高。

accuracy=TP+TNTP+TN+FP+FNprecision=TPTP+FPrecall=TPTP+FN

F1=2×precison×recallprecison+recall(31)

再利用t、Save衡量知識匹配的效率。t為運算時間,經實驗統計可得到。Save為簡化案例知識庫與原案例知識庫之比,故有0≤Save≤1,計算方式如式(32)所示。其中nred為壓縮后案例庫的屬性值數量,n0為原案例知識庫的屬性值數量。t與Save越小,表示知識匹配的效率越高。

Save=nredn0×100%(32)

3.3? 縱向壓縮

本文分別使用NRS的前向貪心算法[20]與本文提出的IG-NRS方法對兩個規模不同的數據集縱向壓縮。其中,NRS中設置r以0.005為步長遍歷[0.01,0.04],IG-NRS中設置ε1=0.5,ε2=0.85,r以0.000 5為步長遍歷[0.001,0.004],約簡結果如表5、6所示。

為比較上述屬性約簡過程的效率,統計得到t。剔除冗余屬性后,逐一計算每一待解問題對上述約簡案例知識庫中各案例知識之間的視圖相似度。為保障知識匹配求解的準確性,應設置λ=1,即檢出案例與新的待解問題完全一致,但實踐中此類情形極少出現,故適當放寬匹配條件,設置λ=0.985,盡量使其接近于1,即對各待解問題,當Simul≥0.985時視為匹配成功,以此計算所有待解問題的MR和MAR。此外,MR受到λ的影響,當匹配條件寬松(λ取較小值)時,匹配成功的待解問題數量驟增,MR容易取較大值,影響綜合匹配效果的判斷;而MAR僅當MR非常小時才發生明顯變化。故設定α=0.2,對兩者加權求和得到MI。t與MI結果如圖2(a)(b)所示。

結合表5、6與圖2分析可知,隨著r增大,NRS與IG-NRS的運算時間均逐漸增加,但無論r取何值,IG-NRS的約簡效率都明顯高于NRS。這是由于前者先使用IG確定了各屬性的重要度,在NRS約簡前剔除了部分不重要屬性。NRS在r較小時,由于剔除屬性過多,匹配效果較差。隨著r的增加,對原始信息的保留程度增大,匹配效果顯著提升,而IG-NRS表現出較強的穩定性,且匹配效果較優。理論上,NRS通過r劃分等價類,能通過對其調整得到最佳約簡屬性集。不過,其約簡屬于NP-hard問題,前向貪心算法雖能在一定程度上提升約簡的效率,但實踐中如需設定恰當的r,需對原數據結構和NRS約簡機理有足夠的認識或豐富的經驗,否則易使等價類劃分錯誤,進而降低約簡結果的有效性。IG與NRS類似,都以案例知識的條件屬性值對決策結果的決定程度賦予其重要度。因此,IG-NRS通過IG確定重要屬性集合并剔除部分不重要屬性,能有效緩解NRS由于r設定失當導致的局部最優,同時能顯著提升約簡的效率。此外,NRS在距離計算時缺乏對屬性的賦權,也在一定程度上減損了等價類的有效程度。

3.4? 橫向壓縮

為驗證本文依據ICK方法橫向壓縮的效率與有效性,選擇基于SC聚類的匹配方法作對照,其K均1為以步長遍歷[1,5]。在各案例知識簇中,為使決策結果類別囊括其主要的決策類型,宜使θ∈[0.5,1]。當θ=1時,不約簡任何案例知識;θ越小,約簡規模越大,故取θ=0.6。橫向約簡后,計算得Save;再以此實施知識匹配(參數與上同),最終得MI。其結果如圖3所示。

分析圖3可知,橫向壓縮使計算空間約簡至原始案例知識庫的30%~80%,一定程度上提高了知識匹配的效率。其中,ICK方法由于事先通過判別并剔除不一致的案例知識,其空間壓縮的幅度更大。雖然聚類也能實現空間壓縮,但對KMS的存儲空間要求與運算初始范疇卻依然是原始案例庫全域[17],不利于系統協同運作。有效性上,ICK方法隨K的增加而剔除更多的冗余案例知識,且其匹配效果隨K的變化波動較大。當K=1時,由于保留的案例知識庫規模較大(Save較大),匹配性能更優;隨著K的增加,剔除了更多的案例知識,其MI開始下降,而后當K接近案例知識的決策結果數目時,匹配效果有所提升并逐漸穩定。運用聚類匹配結果也近似呈現相同態勢。不過,經過ICK方法所得案例知識集的匹配效果更優。

3.5? 雙向壓縮

綜合上述兩種方法,得到基于IG-NRS與ICK的雙向壓縮方法,再以聚類所得案例知識集為匹配空間[12,21],實施知識匹配,得到參數r與K不同取值下的MI結果,如圖4和圖5所示。

由圖4、5可知,雙向壓縮方法的MI會受r與K的共同影響。其中一旦實施橫向壓縮后,雙向壓縮的MI隨K的波動較小,K≤3時結果較好??v向壓縮上,red數據集的r在[0.001,0.02]與[0.035,0.04]上匹配效果較好,white數據集的r在[0.02,0.04]能夠獲得最佳匹配效果。因此,不同案例知識庫應利用恰當的方法搜尋最佳參數,以獲取更優匹配結果。不過,總體上看,保留更多案例知識屬性信息時,匹配結果往往較好。數值上,red與white原數據集的MI分別平均為0.629與0.669。若對其實施雙向壓縮,其MI可提升至0.738與0.714,較原數據平均提升11.3%。

將基于IG-NRS的匹配方法、基于ICK的匹配方法、基于改進K-means與加權KNN的匹配方法[14]、基于K-means與NRS的匹配方法[21]與本文雙向壓縮匹配方法(分別對應方法1~5)進行對比,各自選擇使MI最優的參數,如表7所示。

由此,比較各方法的知識匹配對比結果如圖6所示,相應排序的Save結果如圖7所示。

綜合圖6、7可知,各種壓縮方法都降低了數據規模,減少了知識匹配的計算量。其中,方法1由于對屬性集取并集,往往容易保留更多屬性;方法3中PCA降維破壞了原案例知識的數據結構,改進的K-means聚類僅當K較小時,因約簡規模較小從而保證匹配結果;方法4也存在該問題,同時NRS約簡不如IG-NRS。這三種方法皆由于Save較大,容易獲得與待解問題相似的案例,所以所得MR較高,會在一定程度上提升MI,但由于冗余案例知識的存在將導致求解不準確,使MAR與分類性能下降,綜合看來其知識匹配效率與有效性不佳。方法2和5則緩解了上述案例知識庫雙索引結構間的不一致情形,對匹配案例的篩選能力更強,所以獲得了更高的MAR;通過ICK方法也會剔除與某些待解問題相近的案例知識,故所得MR較低,MI值雖因MR的減小而有所下降,不過也能維持與其他方法相近的水平,分類效果則明顯優于其他方法。方法5更善于以較少的數據量保持或得到較好的匹配效果,兼顧了知識匹配的效率與有效性。由于保存了更加精準的匹配所需有效信息,比單向壓縮或其他匹配方法所體現的優越性更顯著;同時也會由于剔除數據過多,減損了一定的知識匹配效果。

綜上,可得如下結論:a)縱向壓縮方面,IG-NRS方法比傳統NRS理論的知識匹配結果更好,尋優簡便且效率更高,易于處理KMS復雜巨系統;b)橫向壓縮方面,ICK方法所得的知識匹配效果明顯優于傳統歸納檢索,且能夠有效壓縮案例知識庫、降低KMS的案例知識存儲壓力;c)將以上兩種方法結合所得的雙向壓縮方法在兼具其各自優勢的同時,體現出比單向壓縮和其他匹配方法更加卓越的性能。

4? 結束語

知識經濟時代,知識上升為企業的核心生產資源。為確保和持續提升企業的知識應用效益,本文針對KMS自學習案例知識匹配中屬性與案例的冗余問題,提出了雙向壓縮策略。實驗結果驗證了該方法的可行性與進步性。本文方法不僅方便了人機交互,提高知識主體的決策水平,更容易實現高質量的知識匹配。此外,本文研究深化了知識匹配方法的研究,豐富了知識管理和KMS的相關理論,同時為KMS系統的開發和實施提供了有價值的參考。在未來的研究中,為進一步提升方法的性能,案例知識間的相關性將被納入方法的約束中,并在更大范圍內進一步驗證方法的普適性。

參考文獻:

[1]Pillania R K.Knowledge economy leaders,runners-up and laggards:a study of one-hundred-and-forty countries[J].Social Science Electronic Publishing,2008,3(4):471-478.

[2]張建華,劉藝琳,溫丹丹,等.融合三支決策與GRA-Orthopair模糊集的知識匹配方法研究[J].計算機應用研究,2021,38(7):1967-1972.(Zhang Jianhua,Liu Yilin,Wen Dandan,et al.Research on knowledge matching method combining three-way decision and GRA-Orthopair fuzzy set[J].Application Research of Computer,2021,38(7):1967-1972.)

[3]彭紀生,趙步同.論知識管理與自組織理論[J].系統辯證學學報,2005(1):37-39,47.(Peng Jisheng,Zhao Butong.On the theory of self-organization and knowledge management[J].Journal of Systemic Dialectics,2005(1):37-39,47.)

[4]封超,郭曉.基于CBR的應急情報智能決策支持系統研究[J].情報雜志,2017,36(10):36-40.(Feng Chao,Guo Xiao.Research on emergency intelligence intelligent decision support system based on case-based reasoning[J].Journal of Information,2017,36(10):36-40.)

[5]謝健民,秦琴,吳文曉.基于本體的突發事件網絡輿情案例推理模型[J].情報雜志,2019,38(1):79-86.(Xie Jianmin,Qin qin,Wu Wenxiao.Case Reasoning model of network public opinion based on ontology[J].Journal of Information,2019,38(1):79-86.)

[6]文家富,郭偉,邵宏宇.基于領域本體和CBR的案例知識檢索方法[J].計算機集成制造系統,2017,23(7):1377-1385.(Wen Jiafu,Guo Wei,Shao Hongyu.Case retrieval methodology based on domain ontology and case-based reasoning[J].Computer Integrated Manufacturing Systems,2017,23(7):1377-1385.)

[7]Lundberg B G.On the evaluation of heuristic information systems[J].T.H.E.Journal(Technological Horizons in Education),1990,6(3):253-259.

[8]吳華瑞,趙春江,尹寶才.基于啟發式搜索的農作物病蟲害診斷方法[J].微計算機信息,2010,26(16):18-20.(Wu Huarui,Zhao Chunjiang,Yin Baocai.The diagnosis of crop pests and diseases based on the heuristic search[J].Microcomputer Information,2010,26(16):18-20.)

[9]謝燕,燕輝,陳曉杰,等.基于啟發式搜索的帶循環模型一致性檢測方法[J].計算機集成制造系統,2022,28(10):3081-3089.(Xie Yan,Yan Hui,Chen Xiaojie,et al.Conformance checking for process models with loops based on heuristic search[J].Computer Integrated Manufacturing Systems,2022,28(10):3081-3089.)

[10]Ralph H,Stefan M H,Lael J S,et al.Fluency heuristic:a model of how the mind exploits a by-product of information retrieval[J].Journal of Experimental Psychology.Learning,Memory,and Cognition,2008,34(5):1191-1206.

[11]Cheng Y H,Chuang S C,Yu P I,et al.Change in your wallet,change your choice:the effect of the change-matching heuristic on choice[J].Journal of Retailing and Consumer Services,2019,49(7):67-76.

[12]皇甫中民,張樹生,閆雒恒.魚群啟發的三維CAD模型聚類與檢索[J].計算機輔助設計與圖形學學報,2016,28(8):1373-1382,1392.(Huangfu Zhongmin,Zhang Shusheng,Yan Luoheng.3D CAD model clustering and retrieval inspired by fish swarm[J].Journal of Computer-Aided Design & Computer Graphics,2016,28(8):1373-1382,1392.)

[13]張杰,齊官紅,葉蓬,等.基于PCA的關鍵幀相似度核聚類檢索算法[J].控制工程,2017,24(4):728-735.(Zhang Jie,Qi Guanhong,Ye Peng,et al.PKFSKC:PCA based key frame similarity kernel clustering algorithm[J].Scientific Journal of Control Engineering,2017,24(4):728-735.)

[14]雷以良,嚴承華,陳璐.基于改進K-means算法的網絡安全設備故障案例推理研究[J].計算機應用研究,2020,37(S2):110-112.(Lei Yiliang,Yan Chenghua,Chen Lu.Research on fault case-based reasoning of network security equipment based on improved K-means[J].Application Research of Computer,2020,37(S2):110-112.)

[15]Jiang Xingyu,Ma Jiayi,Jiang Junjun,et al.Robust feature matching using spatial clustering with heavy outliers[J].IEEE Trans on Image Processing,2019,29:736-746.

[16]李雅欣,侯慧娟,張立靜,等.近鄰成分分析和k近鄰學習融合的變壓器不平衡樣本故障診斷[J].高電壓技術,2021,47(2):472-479.(Li Yaxin,Hou Huijuan,Zhang Lijing,et al.Transformer fault diagnosis with unbalanced samples based on neighborhood component analysis and k-nearest neighbors[J].High Voltage Engineering,2021,47(2):472-479.)

[17]李曉明,林學東,馮志書,等.基于案例推理的某型航空發動機防喘控制系統故障診斷[J].科學技術與工程,2018,18(21):320-326.(Li Xiaoming,Lin Xuedong,Feng Zhishu,et al.Fault diagnosis case-based reasoning of anti-surge control system of a certain type aero-engine[J].Science Technology and Engineering,2018,18(21):320-326.)

[18]常春光,汪定偉,胡琨元,等.基于粗糙集的案例屬性約簡技術[J].控制理論與應用,2006,23(6):867-872.(Chang Chunguang,Wang Dingwei,Hu Kunyuan,et al.Rough-set based reduciton techinque for case attirbutes[J].Control Theory and Applications,2006,23(6):867-872.)

[19]Salamo M,Lopez-Sanchez M.Rough set based approaches to feature selection for case-based reasoning classifiers[J].Pattern Recognition Letters,2011,32(2):280-292.

[20]Hu Qinghua,Yu Daren,Liu Jinfu,et al.Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences:an International Journal,2008,178(18):3577-3594.

[21]劉瀟,王效俐.基于K-means和鄰域粗糙集的航空客戶價值分類研究[J].運籌與管理,2021,30(3):104-111.(Liu Xiao,Wang Xiaoli.Value segmentation of airline customer based on K-means and neighborhood rough sets[J].Operations Research and Management Science,2021,30(3):104-111.)

[22]Zamiri M,Yazdi H S.Image annotation based on multi-view robust spectral clustering[J].Journal of Visual Communication and Image Representation,2020,74:103003.

[23]Husmann S,Shivarova A,Steinert R.Company classification using machine learning[J].Expert Systems with Application,2022,195(6):116958.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合