?

基于粗概念格模型的電子商務領域本體的構建研究

2014-09-15 00:53徐紅升張瑞玲
計算機工程與科學 2014年3期
關鍵詞:約簡粗糙集本體

徐紅升,張瑞玲

(洛陽師范學院信息技術學院,河南 洛陽 471022)

基于粗概念格模型的電子商務領域本體的構建研究

徐紅升,張瑞玲

(洛陽師范學院信息技術學院,河南 洛陽 471022)

以構建電子商務系統中的本體為出發點,分析現有的本體構建技術中存在的缺陷。針對這些不足,綜合考慮變精度粗糙集模型和形式概念分析的相關理論,提出基于粗概念格模型來構建本體。將變精度粗糙集的β選取算法和可辨識矩陣屬性約簡算法進行了改進,使β-上、下分布的約簡方法適用于形式背景的約簡,從而提出基于變精度粗糙集的概念格約減算法;然后計算語義概念相似度,并以聯合國標準產品與服務分類代碼的本體元模型為核心本體,結合領域專家知識,建立電子商務領域本體模型。實驗表明了粗概念格構建本體的高效性。

本體;變精度粗糙集;概念格;屬性約簡

1 引言

隨著互聯網的普及和電子商務的發展,電子商務系統在為用戶提供越來越多選擇的同時,其結構也變得更加復雜,如何及時在網絡上的海量信息中發現所需要的信息變得越來越困難。

目前的電子商務系統都是基于單個電子商務網站的應用,客戶群體也是特定的,存在實時性差、推薦質量不高的問題,因此不能滿足基于網絡條件下大規模電子商務推薦應用的要求?;谥R的推薦技術是解決這一問題的關鍵,但基于知識的推薦技術最大的難點是知識的獲取[1],而本體技術可以有效解決知識的獲取、聚合和智能推薦等問題。本體作為解決知識工程、語義Web、人工智能等領域瓶頸問題的萬靈丹(Silver Bullet)受到研究者廣泛關注,越來越多地被用于推薦系統,主要用來描述用戶需求和產品,以及通過本體匹配向用戶推薦產品。

那么,構建本體成為本體應用的關鍵問題,但目前該領域研究還處于探索階段,沒有形成成熟、統一的方法作為指導。由于手工構建并開發本體的方法費時、費力、成本很高,導致本體的構建成為一項艱巨的任務。因此,如何利用知識獲取技術來降低本體構建的成本是一個很有建設性的研究課題。國外在該方向的研究很活躍,把相關的技術稱為本體學習技術(Ontology Learning),其目標是利用機器學習和統計等技術自動或半自動地從已有的數據資源中獲取渴望的本體。而采用本體學習技術,雖然可以簡化手工構建本體的工作量,但這些技術不能尋找到領域內所有隱含的概念和概念間關系,而且不能明確地以形式化方式表達所形成的概念及概念模型。

形式概念分析作為應用數學的一個分支,來源于哲學領域對概念的理解[2,3],從外延和內涵兩方面對概念進行符號形式化描述,實現計算機可以理解的語義信息。根據用二元關系來表達領域中的形式背景,從中提取所有隱含的概念和概念之間的相互關系,形成概念層次結構,即概念格,從數據集中生成概念格的過程實際上是一種概念聚類的過程。利用形式概念分析技術在不受開發者的主觀影響下,幫助從給定的數據里自動獲取所有隱含的概念以及概念之間的層次關系,并且用符號表示所有概念,達到了形式化概念模型的效果,為構建本體提供一種方法指導。概念格和粗糙集是數據挖掘中對數據進行分析與處理的兩個有力工具,本文將可變精度粗糙集的β-上、下分布的約簡思想應用于形式背景的約簡,提出基于變精度粗糙集的概念格約減算法。針對約簡后的概念從中提取形式概念,用決策表中的對象集和相應的屬性集來表達所形成的概念,形成概念間的層次關系。這里提出基于變精度粗糙集的概念格模型來構建本體,該方法在不改變本體結構的前提下,盡量減少對象和屬性的數量,降低構造本體的時間復雜度,增加其覆蓋能力和泛化能力。

最后以聯合國標準產品與服務分類代碼(UNSPSC)為核心本體,結合商品表格、日志、現有電子商務領域專家知識庫,通過核心本體半自動擴展的方法提取和生成電子商務領域本體。本文第1節作為全文的概述;第2節主要介紹目前本體構建技術的情況,分析存在的問題;第3節介紹粗概念格模型的構建方法;第4節討論基于粗概念格來構建電子商務領域本體的方法。

2 本體構建技術分析

本體作為解決知識工程、語義Web、人工智能等領域瓶頸問題的萬靈丹受到研究者的廣泛關注,越來越多地被用于推薦系統,主要用來描述用戶需求和產品,以及通過本體匹配向用戶推薦產品。因此,關于本體構建方法的研究對于本體的應用具有至關重要的作用。但是,目前該領域研究還處于探索階段,沒有形成成熟、統一的方法作為指導。

早期的本體構建方法主要誕生在具體的開發項目,為具體的項目實踐服務。國外的研究有:骨架法、企業建模法、 METHONTOLOGY、KACTUS、循環獲取法、IDEF-5方法、七步法。這七種方法體系的成熟度依次為:七步法、METHONTOLOGY法> IDEF-5方法>企業建模法>骨架法>循環獲取法、 KACTUS法。國內的有:(1)王洪偉、吳家春、蔣馥提出了基于描述邏輯的本體模型;(2)劉鳳華、朱欣娟等人提出了基于需求分析的本體模型構建方法;(3)李景、蘇曉鷺等人[4]提出了構建領域本體的知識工程方法。

經分析,上述構建方法的缺點是:(1)采用手工方式,一旦遇到復雜的領域就費時費力;(2)在建立各自的本體時均采用不同的標準、建模方法,所以構建的本體不通用;(3)具有很大的主觀性,針對某個領域,不同的領域專家會采用不同的觀點以至構建的本體不統一。最重要的是在尋找領域概念和概念之間的關系時,所采取的方法和手段有較大差異,而且也只能找到一些已知的概念(從辭?;驍⒃~表中)。

由于手工構建并開發本體的方法費時、費力、成本很高,導致本體的構建成為一項艱巨的任務。因此,如何利用知識獲取技術來降低本體構建的成本是一個很有建設性的研究課題。

目前,國外在該領域的研究很活躍,并把該研究領域稱為本體學習(Ontology Learning)。其目標是利用機器學習和統計等技術,以自動或半自動的方法,從己有的數據資源中獲取期望的本體。到目前為止,國外己開發了一些本體學習工具,具有代表性的工具包括Hasti[5]、OntoLearn[6]、Text-To-Onto[7]和OntoLIFT[8]。

在國內,中國科技信息研究所的梁健和王惠臨的《基于文本的本體學習法研究》[9];中國人民大學杜小勇、李曼等將本體學習分為基于非結構化數據、半結構化數據和結構化數據的本體學習三種類型[10]??傊?,采用本體學習技術,雖然可以簡化手工構建本體的工作量,但在實際的知識獲取過程中,有些知識雖然人能理解,但很難確切地表達出來,比如很多隱含的概念和概念間的關系,這些關系都是隱含在人的頭腦中,或者是文檔中的。另外,這些隱含的概念及概念間的關系要用形式化的方式確切地表示出來更加困難。

而形式概念分析就是從給定數據中自動提取出所有的隱含概念以及概念之間的分類關系,形成概念模型(概念格)。概念格作為形式概念分析的核心數據結構,從外延和內涵兩方面對概念進行符號形式化描述,具有明確的層次關系,含有豐富的語義信息,實現了計算機可以理解的語義信息[11]。本體和形式概念分析都來源于哲學領域,概念格由概念的層次關系組成,內涵、外延構成了概念,而本體也是用來體現概念與概念間關系的。因此,采用形式概念分析的方法可以幫助構建本體,并為本體的構建提供了一種統一、成熟的方法指導。

3 粗概念格模型的構建

概念格和粗糙集是數據挖掘中對數據進行分析與處理的兩個有力工具。近年來將粗糙集理論與概念格相結合已有許多成果[12]。本文將可變精度粗糙集的β-上、下分布的約簡思想應用于形式背景的約簡,提出基于變精度粗糙集的概念格構造模型。其核心思想是首先針對領域的形式背景進行預處理,然后把變精度粗糙集在屬性約簡方面的較強能力用于概念格的約簡,使生成的概念格的節點數目大大減少,系統的魯棒性和抗噪能力增強。

這里采用改進的基于變精度粗糙集的β-上、下分布屬性約簡算法對形式背景約簡。在不改變格結構的基礎上,減少對象和屬性的數量,降低構造概念格的時間復雜度,增加其覆蓋能力和泛化能力。

通過改進計算可辨識矩陣的方法,使得算法既適用于相容決策表,也適用于不相容決策表,首先根據β值的估算方法求出β,計算屬性重要度;然后改進Skowron提出的可辨識矩陣計算方法,以改進的可辨識矩陣計算方法為基礎,提出基于變精度粗糙集的β-上、下分布屬性約簡算法。

分類質量是決策屬性D對條件屬性C的依賴度,表示條件類U/C能夠確切劃入決策類U/D的對象數占論域中總對象數的比率,體現了決策信息系統的不確定程度。分類質量越小,不確定性就越大。在現實生活中 ,決策分析者往往并不知道β的取值,但有可能知道用戶所要求的分類質量不得低于某一閾值γ,如何根據γ來確定β的取值范圍是本文研究的一個重點。

定義1 給定決策表S=(U,C∪D,V,f),其中V是屬性值的集合,f是信息函數。給定β∈(0.5,1],U/C={X1,X2,…,X|U/C|},U/D={Y1,Y2,…,Y|U/D|},近似分類質量(稱“決策屬性D對條件屬性C的近似依賴度”)定義公式為γ(C,D,β)=POS(C,D,β)/U。

定理1[13](1) 設0.5<β1≤β≤1,若x∈POS(C,D,β),則x∈POS(C,D,β1)。

(2) 設0.5<β≤β1≤1,若x?POS(C,D,β),則x?POS(C,D,β1)。

定理2 對于定義1中的決策表,

β={β(Xi,Yj)|00.5},若β中重復的元素只保留一個并按從小到大順序排列為β={β1,β2,…,βk}, 1≤k≤|U/C|*|U/D|,則有γ(C,D,β1)>γ(C,D,β2)>…>γ(C,D,βk)。

定理3 對于定義1中的決策表,

β={β(Xi,Yj)|00.5},對?β∈(βi,βi+1],有γ(C,D,β)=γ(C,D,βi+1)。

定理4 設給定的近似分類質量閾值r,滿足r要求的最大β值為βr,則對任意的β∈(0.5,βr],γ(C,D,β)≥γ。

可辨識矩陣是Skowron于1991年提出來的[13]??杀孀R矩陣的精妙之處就是在于它把粗糙集對于信息表所要求的所有信息都濃縮到一個可辨識矩陣中,因此矩陣中所有條件屬性組合數為1的屬性均為核屬性。這里改進可辨識矩陣的概念屬性約簡算法(VMAR算法),首先對屬性集之間的正域和負域定義進行改進,根據最大交集的思想來拓展變精度粗糙集模型,并結合β值選取方法來改進基于變精度粗糙集理論的近似知識約簡算法,通過分析概念構造算法,最終將變精度粗糙集的Inspired規則獲取算法與改進的概念格構造算法進行有機結合,形成基于VPRS的概念格的約簡構造算法如下。

對于決策表,從{β1,β2,…,βk}序列中通過逐個比較找出使得近似分類質量γ最接近r值的βr。

輸入:背景(X,D,R)所對應的原始概念格L信息,{β1,β2,…,βk}序列值,閾值r;

輸出:背景(X∪{x*},D,R)所對應的概念格L*信息。

算法描述:

步驟1 輸入決策表。

步驟2 令x=l,計算γ(C,D,β1);

if(γ(C,D,β1)≥r) 轉步驟2;

else 要求決策者降低對決策表的分類能力,并重新提供r值。

步驟3R=null;∥初始化約簡集R為空

for (i=0;i<|M|;i++)

{for (j=i;j<|M|;j++)

{if(mij只有一個條件屬性元素)

CORE(C)<==={a}; /*CORE(C)為屬性的核約簡}*/

}R<===CORE(C);/*將核加到約簡集R中*/

步驟4 計算γ(C,D,βx);

if(γ(C,D,βx)≥r) 轉步驟2;

else 轉步驟4。

步驟5 [Increasei] Seti+1→i,

ifi=n+1 算法結束;

elsel←j, 轉步驟2。

步驟6 取出所有的更新格節點,并按內涵元素個數從小到大排序,返回集合COLL3;

for (每個Ck∈COLL3) { 找出Ck的子節點集合CHD(Ck),按內涵元素個數從小到大排序}。

步驟7 得到一個β-變精度屬性約簡,從而得到簡化的決策表L*。

步驟8 添加新生成的格節點Cnew=(Extent(Ci)∪ {x*},Intersection);

添加邊Cnew→C1。

步驟9 輸出最終粗概念格L。

4 基于粗概念格的電子商務本體構建

目前,電子商務系統中存在大量非結構化數據(文本、表格、日志等)以及結構化數據(關系數據庫),非結構化數據依據一定的造句法表達語義信息,只能通過一些背景知識來理解其中的含義。這里結合產品本體介紹本體構建的過程,其技術路線如圖1所示。

Figure 1 Technology roadmap of ontology building圖1 本體構建的技術路線圖

(1)抽取形式背景。

由于缺乏一定的結構,要使機器能夠自動地理解非結構化數據并從中抽取出需要的知識,必須利用自然語言處理(NLP)技術對其預處理。首先利用自然語言理解技術(NLP)對收集來的純文本進行預處理,取得文本中的字詞集合;利用概率統計的方法獲得能代表文本的關鍵概念詞匯。具體的方法可以是計算概念詞匯在文本集中出現的頻率,如果該頻率大于指定的閾值,則將其作為領域本體中的概念,利用WordNet判斷概念間的同義關系。然后針對所找出的概念詞匯,結合相應的文本集合形成詞匯、文件的二元關系表,該二元關系表就是形式背景。

(2)采用粗概念格模型來生成單元本體。

通過選擇合適的β值,利用變精度粗糙集對形式背景進行約簡,以減少冗余對象、降低噪聲。針對約減后的形式背景,采用粗概念格技術構造單元本體。用RFCA來構建本體的具體方法如下:

①從空的對象和屬性集合開始。

②由使用者根據需要把對象和屬性添加到形式背景中。

③構建形式背景對應的粗概念格。

④用戶可以在顯式化的粗概念格的基礎上做如下操作:

a 根據本體使用的需要直接編輯:

i 添加或移除對象;

ii 添加或移除屬性;

iii 給對象添加屬性或從對象移走某一屬性。

b 由程序提示編輯本體:

i 當兩個對象有相同的屬性時,要么合并成一個對象,要么給對象添加屬性,以區別對象;

ii RFCA能產生新的對象,這些對象直接由屬性構成。

⑤整個過程可以不斷地循環重復,直到設計者滿意為止。

最后,還要探討如何從粗概念格轉換成相應的本體。這里所用的方法是:采用簡化的方法用屬性來代表所形成的粗概念,并且在標注時只讓屬性在粗概念格中出現一次,由于這里的屬性都是詞匯,而本體所描述的重點元素也都是詞匯概念,因此可以用粗概念格中的屬性來表示本體概念[11]。

(3)構建本體元模型。

構建本體模型,首先需要計算語義概念相似度,借助WordNet,采用下面提出的概念相似度計算方法,計算本體間屬性概念的相似度,得到單元本體的屬性映射集合。

由于電子商務領域要分析顧客的評分,需要對以往研究成果進行改進,加入了權重值,它主要來源于用戶對商品的評分值。文獻[14]中提出了基于RFCA的相似度測量方法。依據概念E1與E2的所有屬性(I1,I2)作笛卡爾積,即p(I1,I2)={〈a1,b2〉,…,〈an,bn〉},再兩兩一組進行相似度計算,并各自將對象與屬性的相似比乘上權重(w),求出概念相似度,如下所示:

p(I1,I2)={{〈a1,b1〉,…,〈an,bn〉}|ah∈I1,bh∈I2,?h=1,…,n, 且ah≠ak,bh≠bk,?k,l≠h}

其中,p(I1,I2)為I1、I2集合內所有元素的笛卡爾乘積;as(a,b)為屬性集合中兩兩一對的元素相似度;|E1∩E2|為兩對象集合的交集個數;r為兩個對象集合中的最大元素值;w為權重值;n為I1集合個數,m為I2集合個數,且令n≤m。

然后針對領域中具有相似關系的單元本體,運用基于概念格同構生成的本體合并方法,將這些單元本體合并,最后以UNSPSC產品本體元模型為核心本體,結合電子商務領域專家知識,通過核心本體半自動化地提取和生成全局領域電子商務。

下面結合某電子商務交易平臺的實際交易商品的數據,分析比較采用概念格與采用粗概念格來構建本體的性能,主要依據生成本體的時間與本體概念的冗余度來作對比。如圖2所示,本例中的本體概念構建數量是20倍數遞增的,當本體概念的數量增加時,尤其超過3*20的時候,基于概念格來構建本體的耗時就明顯增加??傊?,實驗表明,在時間上基于粗概念格構建本體要優于基于概念格構建本體。

Figure 2 Comparison of ontology construction圖2 本體構建比較圖

5 結束語

目前對于電子商務領域本體的研究偏向相似度計算、基于算法的推理、匹配等的研究,缺乏具有針對性的研究背景,缺乏大規模知識庫的支持。國內外已經進行了許多關于自動(或半自動)本體映射、合并的研究,并且取得了很大的突破和進展,但在時間復雜度、準確率和效率等許多方面與實際需求還有很大差距。最重要的是這些本體構建技術無法找到領域內所有隱含的概念及概念間的關系。

針對這些不足,本文以構建電子商務系統中的本體模型為目標,綜合考慮變精度粗糙集模型和形式概念分析理論,將其優勢互補,提出了粗概念格模型, 利用粗概念格模型對形式背景抽取和約簡;然后計算語義概念相似度,并以聯合國標準產品與服務分類代碼(UNSPSC)為核心本體,結合商品表格、日志、現有電子商務領域專家知識庫,通過核心本體半自動擴展的方法提取和建立了電子商務領域本體,以增強電子商務系統的魯棒性和抗噪能力。今后的工作是在粗概念格的基礎上,結合模糊集理論,探索電子商務本體的映射與合并。

[1] Dei W, Yi M. An approach of personalization for electronic commerce websites based on ontology[C]∥Proc of the 7th IFIP International Conference on e-Business, e-Services and e-Society, 2007:491-498.

[2] Richards D. Using concept lattices for requirements reconciliation[C]∥Proc of the 2nd International Conference on Formal Concept Analysis, 2004:402-409.

[3] Ganter B, Wille R. Formal concept analysis:Mathematical foundations[M]. Berlin:Springer Verlag, 1999.

[4] Li Jing. The research application of ontology in literature retrieval system [M]. Beijing:Publishing House of Beijing Library, 2005. (in Chinese)

[5] Shamsfard M, Barforoush A A. Learning ontologies from natural language texts [J]. International Journal of Human-Computer Studies,2004,60(1):17-63.

[6] Navigli R, Velardi P, Gangemi A. Ontology learning and its application to automated terminology translation[J].IEEE Intelligent Systems,2003,18(1):22-31.

[7] Maedch A.Ontology learning for the semantic web[M]. Boston:Kluwer Academic Publishers,2002.

[8] Volz R,Oberle D,Staab S,et al. OntoLIFT prototype[C]∥Proc of IST Project 2001-33052 WonderWeb Deliverable 11.2003:1.

[9] Liang Jian,Wang Hui-lin.Research on ontology learning from text [J]. Journal of Intelligence Theory and Practice, 2007,30(1):112-115. (in Chinese)

[10] Du Xiao-yong, Li Man,Wang Shan. Research on ontology learning [J]. Journal of Software, 2006 ,17(9):1837-1847. (in Chinese)

[11] Xu Hong-sheng, Shen Xia-jiong, Liu Zong-tian. Construction and presentation of ontology on semantic web based on formal concept[J]. Journal of Computer Science, 2007,34(2):171-174. (in Chinese)

[12] Yao Y Y.A comparative study of formal concept analysis and rough set theory in data analysis:Rough sets and current trends in computing[C]∥Proc of the 3rd International Conference,2004:59-68.

[13] Beynon M. Reducts within the variable precision rough sets model:A further investigation[J]. European Journal of Operational Research, 2001,134(3):592-605.

[14] Xu Hong-sheng, Zhang Rui-ling. Application of ART and concept similarity in e-commerce recommendation systems [J]. Journal of Computer Engineering and Applications, 2010,46(7):213-217.(in Chinese)

附中文參考文獻:

[4] 李景.本體理論在文獻檢索系統中的應用研究[M].北京:北京圖書館出版社,2005.

[9] 梁健,王惠臨.基于文本的本體學習方法研究[J].情報理論與實踐,2007,30(1):112-115.

[10] 杜小勇,李曼,王珊.本體學習研究綜述[J].軟件學報, 2006,17(9):1837-1847.

[11] 徐紅升,沈夏炯,劉宗田. 基于形式概念的語義網本體的構建與展現[J].計算機科學, 2007,34(2):171-174.

[14] 徐紅升,張瑞玲. ART與概念相似在電子商務推薦系統中的應用[J]. 計算機工程與應用,2010,46(7):213-217.

XU Hong-sheng,born in 1979,MS,lecturer,his research interests include data mining, and knowledge acquire.

張瑞玲(1964-),女,河南洛陽人,碩士,教授,研究方向為數據挖掘和知識獲取。E-mail:ruilingzhang@163.com

ZHANG Rui-ling,born in 1964,MS,professor,her research interests include data mining, and knowledge acquire.

Research of domain ontology construction in e-business based on rough concept lattice model

XU Hong-sheng,ZHANG Rui-ling
(College of Information Technology,Luoyang Normal University,Luoyang 471022,China)

The defects of existing ontology construction technology are analyzed in order to construct the ontology model of the e-commerce system. The model of ontology construction based on rough concept lattice is proposed for the sake of making up these defects by integrating the theory of variable precision rough set (VPRS) model and formal concept analysis. The method of β-upper and lower distribution reduction is used to reduce formal context by improving the two algorithms of β-values select and attribute reduction based on discernibility matrix in VPRS. Therefore, the paper proposes the reduction algorithm of concept lattices based on VPRS. After calculating the semantic similarity of concepts, the domain ontology model of e-business is built combined with knowledge of domain expert and original ontology model of the United Nations Standard Products and Services Classification Code by way of core ontology. Experiments show that the efficiency of building ontology based on rough concept lattice is higher than FCA.

ontology;variable precision rough set;concept lattice;attribute reduction

2012-08-29;

2012-12-26

國家自然科學基金資助項目(61050004,61272015);河南省教育廳科學技術研究重點項目(13B520155)

張瑞玲(ruilingzhang@163.com)

1007-130X(2014)03-0530-06

TP274

A

10.3969/j.issn.1007-130X.2014.03.027

徐紅升(1979-),男,河南洛陽人,碩士,講師,研究方向為數據挖掘和知識獲取。E-mail:xhs_ls@sina.com

通信地址:471022 河南省洛陽市洛陽師范學院信息技術學院

Address:College of Information Technology,Luoyang Normal University,Luoyang 471022,Henan,P.R.China

猜你喜歡
約簡粗糙集本體
基于Pawlak粗糙集模型的集合運算關系
基于二進制鏈表的粗糙集屬性約簡
實值多變量維數約簡:綜述
基于模糊貼近度的屬性約簡
基于本體的機械產品工藝知識表示
多?;植诩再|的幾個充分條件
雙論域粗糙集在故障診斷中的應用
《我應該感到自豪才對》的本體性教學內容及啟示
兩個域上的覆蓋變精度粗糙集模型
一種改進的分布約簡與最大分布約簡求法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合