?

面向特定領域的產品評價對象自動識別研究

2010-06-05 09:02宋曉雷王素格李紅霞
中文信息學報 2010年1期
關鍵詞:產品名稱預處理聚類

宋曉雷,王素格,2,李紅霞

(1. 山西大學 數學科學學院,山西 太原 030006;

2. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)

1 引言

隨著Internet的迅猛發展和電子商務的不斷普及,客戶評論的數量迅速增長,僅靠人名、地名、機構名這三種傳統的命名實體識別越來越不能滿足文本傾向分析中關鍵信息抽取的需要,尤其是產品的相關信息抽取的研究。因此,針對這一問題國內外學者[1-9]開展了相關的研究。

在國際評測中,TREC BlogTrack以及NTCIR等將產品命名實體識別作為其任務之一。在國內首次評測COAE2008[4]中,有20個國內知名研究機構參與了此次評測,其中有13個單位參加了任務3產品屬性抽取,文獻[5]和文獻[6]分別采用最大熵模型和CRF模型取得了不錯的成績;然而采用有監督的學習方法[5-6]進行產品命名實體識別時需要大量的標注語料,且費時較多。文獻[7-8]都是利用外部資源信息來構造相應的詞典,但詞典的構建本身是一個難題。趙軍等[1]在2006年提出了一種基于層級隱馬爾可夫模型的產品命名實體識別方法,該方法很好地處理了多尺度嵌套序列問題;Minqing Hu[9]使用關聯規則挖掘頻繁項作為候選產品命名實體,并對其進行了剪枝處理,然而規則的簡單性使其得到的產品命名實體識別效果不佳。Hongye Tan等[2]對模板進了泛化,分別使用軟模板和特征向量模板對產品命名實體進行了識別,將產品命名實體識別看作分類問題,取得了令人滿意的結果;然而文獻[2]采用了多領域協同識別,在提高識別性能的同時也限制了它的廣泛應用;文獻[10-11]采用自舉學習方法結合上下文模板進行英文命名實體識別,通過在評價候選命名實體之前進行一些簡便有效的預處理使其性能得到進一步提高。

總的來說,目前關于產品命名實體識別任務的相關方法還存在以下問題:一是需要大量的基礎工作且不便于遷移,代價太大;二是結果不太理想,有待于進一步提高。上述研究都是對產品名稱或產品屬性分別抽取,并沒有同時抽取產品名稱和產品屬性。若能正確地識別出產品名稱和產品屬性,就可以獲取更加詳細和精確的產品信息。因此,在沒有充分的外部信息的前提下,同時識別出產品名稱和產品屬性,顯得更為重要。

文獻[10]的研究表明,特定領域的模板可以極大的提高模板的性能。因此,本文從特定領域開展研究,同時鑒于產品名稱和產品屬性作為評價對象在語境中具有相似性,在抽取評價對象時采用了同時抽取出產品名稱和產品屬性的策略。從小種子集出發,綜合使用了詞形模板和詞性模板,通過模糊匹配的方法,提高候選評價對象的召回率;在評估候選評價對象之前對其進行預處理,提高候選評價對象的精確率;在進行產品評價對象識別時,采用雙向Bootstrapping;最后采用K均值聚類進一步對識別結果進行聚類,將其自動識別為產品名稱和產品屬性。

2 產品評價對象與評價詞

1) 產品評價對象

在產品評論中,用戶通常關心被評價的對象,但對產品評價對象人們很難給出統一的定義。通過對大量真實產品評論文本的觀察發現,產品評價對象經常是以如下三種方式出現:

① 產品的整體;② 產品的某個部件;③產品的特性及其外延。

例如:在汽車評論文本中,被評價的對象通常有:寶馬依舊表現出色;速騰的變速箱真是不錯;Polo的安全、質量和口碑也還不錯。

為了敘述的方便,我們將第1類的評價對象稱為“產品名稱”,第2類和第3類的評價對象統稱為“產品屬性”。

2) 評價詞

J.Wiebe[12]的研究表明:形容詞可以作為判別句子主客觀性的依據,此外,通過大量評論語料觀察發現,成語和習慣用語也經常用于評論句。因此,本文選用形容詞、成語和習慣用語作為評價詞。

3 候選評價對象抽取

通過對大量真實的產品評論文本的觀察,我們發現產品評價對象往往是名詞或名詞短語,何婷婷[13]的工作也證明了將名詞或名詞短語作為候選評價對象是可行的,因此,本文將形式為n、n n、n n n的名詞短語作為候選評價對象。

3.1 模板的形式(詞形模板和詞性模板)

模板1:“slot-len,…,slot-i,…,slot-1,word,#”;

模板2:“#,word,slot+1,…,slot+i,…,slot+len”;

模板3:“slot-len,…,slot-i,…,slot-1,word,slot+1,…,slot+i,…,slot+len”;

其中:word表示抽取的評價對象;#表示句子的開始或結束或任意的詞或詞性;slot-i(slot+i)表示評價對象word左面(右面)的第i個槽;len表示窗口的長度。當模板中所有的槽用詞形(詞性)來表示時,該模板為詞形(詞性)模板;評價對象與槽可以相鄰,也可以不相鄰。

例句:“哈飛賽豹 n 的 u 安全性能 n 還是 d 值得 v 信賴 v 的 u”。

由評價對象“哈飛賽豹”從句子中抽取出窗口長度為1的詞形和詞性模板分別為: “#,word,的”,“#,word,u”。

3.2 候選評價對象的抽取

為了獲得候選評價對象,本文利用上述模板1~3,依次搜索評論語料中的每個句子,采用模糊匹配方法對模板與句子進行匹配,僅抽取與模板匹配且距離slot-1或slot+1最近的名詞短語(除去時間、人名、地名、方位名等名詞短語)作為候選評價對象。

3.3 候選評價對象預處理

為了提高候選評價對象的精確率,在對候選評價對象打分之前對其進行如下預處理。

〈1〉去除停用詞。這里的停用詞包括通用停用詞和領域停用詞[14];

〈2〉中心詞剪枝。采用如下規則:

如果head(hx)=“車”,則去除hx中的中心詞。若余下的部分長度大于1,則將其作為新的候選評價對象,這里的hx為候選評價對象。

〈3〉名詞剪枝[8]:有些名詞本身并不是商品屬性,但它出現在某個商品屬性中(例如“高度”與“底盤高度”),而且與該商品屬性同時作為候選評價對象被抽取,為了排除此類名詞(如“高度”)作為候選評價對象,我們采用規則:如果A?B,并且count(A)

4 基于Bootstrapping方法的評價對象抽取

為了獲取評價對象,我們采用雙向Bootstrapping方法,其過程為:從小種子集(以模板種子集為例)出發,抽取候選評價對象后,對其采用第3節中的方法進行預處理和評分(利用公式(1)進行評分),選取分值最高的前5個候選評價對象加入到評價對象集,然后從評價對象集再抽取新的模板,根據已有的評價對象集對其進行評分,選擇分值最高的前5個模板加入到模板集,然后再利用現有的模板抽取新的評價對象。重復上述過程,直到沒有發現新的符合條件的模板為止。

上述過程中采用的候選評價對象評分標準如下:

(1)

其中:Scorepjc(hx)表示相鄰評價詞信息,即候選評價對象前后十個位置含有的評價詞的數目。Scorec-s(hx)表示詞匯(短語)支持度,即詞匯或短語在語料中出現的次數。Scorep-s(hx)表示純支持度[8],即指候選評價對象作為名詞或名詞短語在句中出現,并且句中不再包含其他候選評價對象的句子數目。Scorem-s(hx)表示模板支持度,即候選評價對象被模板從語料中抽取出來的次數。本文中,α、β、γ均取0.25。

5 產品名稱和產品屬性的識別

為了把評價對象區分為產品名稱和產品屬性,本文利用前向選擇算法選取文檔頻率、詞頻和段落信息(即候選評價對象在文中的位置信息)三個特征作為聚類特征,進一步采用K-means方法對評價對象進行聚類,其中所用的度量兩個向量之間的距離的方法為夾角余弦。

例如,通過對評價對象集中詞語聚類,可以找到如下的聚類結果:

{寶馬,奧迪,駿捷,思域…};{動力,空間,發動機,內飾…}。

6 實驗與分析

6.1 實驗數據與評價指標

實驗數據采用COAE2008的Dataset2中的汽車評論作為語料庫,共有156篇評論,平均每篇語料包含6~10個句子。

評價對象的評價指標:由于產品評價對象表達形式非常靈活,本文采取了軟評測方法[1],并采用三個評價指標:精確率、召回率和F值。這里的評價對象包括產品名稱和產品屬性。

產品名稱和產品屬性的評價指標:通過對評價對象聚類,可以得到產品名稱與產品屬性。本文參考文獻[15],采用以下評價指標。

其中,Ti表示評價對象中應有的某個類別,ni表示Ti中含有的元素個數,Cj表示對評價對象聚類所得的某個類別,nj表示Cj中含有的元素個數,C表示聚類的總類別,nij表示Ti與Cj共有的元素個數。

6.2 評價對象識別結果與分析

為了驗證第4章中基于Bootstrapping方法的識別評價對象方法的有效性,我們采用了如下方法進行實驗,實驗結果見表1。本實驗中的窗口長度均選為2,種子集中種子的個數均選為7。初始評價對象種子集為:“寶馬”、“內飾”、“空間”、“寶來”、“發動機”、“做工”、“奧迪”;初始詞形模板種子集為:“#,word,是,汽車”、“的,word,#”、“#,word,車型”、“#,word,系”、“試駕,word,#”、“#,word,公司”、“#,word,方面”。

方法1:候選評價對象未經過預處理,以初始模板種子集出發,采用Bootstrapping方法進行評價對象的識別。

方法2:候選評價對象經過預處理后,以初始模板種子集出發,采用Bootstrapping方法進行評價對象的識別。

方法3:候選評價對象經過預處理后,以初始評價對象種子集出發,采用Bootstrapping方法進行評價對象的識別。

方法4:候選評價對象經過預處理后,以初始評價對象種子集出發,采用Bootstrapping方法進行評價對象的識別。

方法5:候選評價對象經過預處理后,以初始模板種子集+初始評價對象種子集出發,采用Bootstrapping方法進行評價對象的識別。

方法1~方法3模板采用詞形模板,方法4模板采用詞性模板,方法5模板采用詞形十詞性模板。

由表1可知:

1) 方法2的結果優于方法1的結果,說明在每次迭代前對候選評價對象經過預處理比未經過預處理的效果好,也說明對候選評價對象進行預處理后,一定程度上可以減少錯誤的蔓延,避免因錯誤的累積而造成識別性能的急劇下降。

2) 方法3和方法2相比,前者的召回率高于后者,但精確率卻低于后者,使得前者和后者的F值相當,說明它們在召回率和精確率上具有一定的互補性。

3) 方法4與方法3、方法2相比,評價對象識別的各項指標均最低,說明模板采用詞性模板,在以評價對象種子集出發的Bootstrapping方法進行評價對象的識別不能得到令人滿意的結果。

4) 方法5與方法2相比,前者的召回率高于后者,但精確率卻低于后者,說明詞性模板在某種程度上是詞形模板的泛化,使得F值略高于后者。

6.3 產品名稱與產品屬性識別結果與分析

為了驗證第5章方法的有效性,我們將評價對象分為已校對和未校對兩種情況進行實驗,將評價對象分為產品名稱和產品屬性兩類,實驗窗口長度為1,實驗結果見表2。

表2 產品名稱與產品屬性識別結果

由表2可知:

1) 對已校對的評價對象進行聚類,得到產品名稱和產品屬性的F值分別達到了84.88%和60.76%。說明本文的聚類方法用于區分產品名稱和產品屬性是可行的。此外,我們發現實驗中識別產品名稱的效果顯然優于產品屬性的效果,主要是由于本文的聚類特征能對產品名稱進行很好的描述,因此更傾向于將產品名稱聚為一類。

2) 對評價對象未校對與已校對相比,評價對象未校對在區分產品名稱和產品屬性的性能上下降了很多。說明利用Bootstrapping識別的評價對象直接進行聚類,不可避免地引入了Bootstrapping識別評價對象時各種噪聲(即非評價對象),使得產品屬性的識別效果不太理想。因此,應進一步加強產品屬性識別的研究。

7 結束語

本文給出了特定領域的產品評價對象的定義,提出了一種不依賴外部資源的無指導評價對象自動識別方法。首先對傳統的模板匹配方法進行了改進,綜合使用了詞形模板和詞性模板,在評估候選評價對象之前對其進行預處理;然后,從小種子集出發,識別出產品評價對象后自動對結果進行了聚類,進一步將其分為產品名稱和產品屬性。整個過程沒有用到外部資源,在外部資源不充分的未知領域或新領域處理海量冗余網絡數據有一定的指導意義。由于目前還沒有同時識別出產品名稱和產品屬性的相關實驗,我們無法找到已有的研究與我們的實驗同時做比較;文獻[5]其與位置無關的產品屬性抽取的Lenient結果的F值為0.159 7,我們的0.271 6與之相比稍高,然而與所有評測結果平均值(與位置無關的Lenient結果)——0.491 03相比,我們還有很大的差距。文獻[4]采用自舉的學習方法結合HMM進行英文命名實體識別,在產品名稱命名實體(相當于本文的產品名稱)識別中獲得69.18 %的F值,與本文產品名稱識別的F值(69.48%)相近,然而文獻[4]的模型復雜度較高;文獻[3]在汽車領域的產品名識別中獲得73.1%的F值,比本文性能有所提高,但我們的方法有更廣的使用范圍。此外,我們的方法還有很大的提升空間,聚類中適當添加其他的特征以便減少噪聲或者考慮聚為3類(產品名稱、產品屬性以及非評價對象)。

[1] 劉非凡,趙軍,呂碧波,等. 面向商務信息抽取的產品評價對象識別研究[J].中文信息學報,2006,20(1):17-20.

[2] Hongye Tan,Tiejun Zhao,Jianmin Yao. A Study on Pattern Generalization in Extended Named Entity Recognition[J]. Chinese Journal of Electronic,2007,16(4):675-678 .

[3] Cheng Niu,Wei Li,Jihong Ding,etc. A Bootstrapping Approach to Named Entity Classification Using Successive Learners[C]// Proceedings of the 41st ACL,Sapporo,Japan,2003:335-342.

[4] 趙軍,許洪波,黃萱菁,等. 中文傾向性分析評測技術報告[C]// Proceedings of The COAE2008,Harbin,2008:1-20.

[5] 何慧,李思,肖芬,等. PRIS中文情感傾向性分析技術報告[C]// Proceedings of the COAE2008,Harbin ,2008:46-55.

[6] 張姝,賈文杰,夏迎炬,等.基于CRF的評價對象抽取技術研究[C]//Proceedings of the COAE2008,Harbin,2008: 32-37.

[7] 王俞霖,孫樂. 中國科學院軟件研究所COAE2008報告[C]// Proceedings of the COAE2008,Harbin ,2008:1-20.

[8] 趙妍妍,劉鴻宇,秦兵,等. HIT_IR_OMS:情感分析系統[C]//Proceedings of the COAE2008,Harbin ,2008:81-88.

[9] Mingqing Hu and Bing Liu. Mining and Summarizing Customer Reviews[C]//Proceedings of the tenth ACM SIGKDD.2004:168-177.

[10] O. Etzioni,M. Cafarella,D. Downey,etc. Unsupervised Named-Entity Extraction from the Web: An Experimental Study[J].Artificial Intelligence,2005,165(1):91-134.

[11] E. Riloff,J. Wiebe,and T. Wilson. Learning Subjective Nouns Using Extraction Pattern Bootstrapping[C] // Proceedings of the Seventh Conference on Natural Language Learning,2003: 25-32.

[12] J. Wiebe,T. Wilson,R. Bruce,etc. Learning Subjective Language [J].Computational Linguistics,2004,30(3): 277-308.

[13] 何婷婷,聞彬,宋樂,等. 詞語情感傾向性識別及觀點抽取研究[C]//Proceedings of the COAE2008,Harbin ,2008: 89-93.

[14] 黃雄. “小靈通”問答式搜索引擎[R].北京: 中科院計算技術研究所,2007.

[15] 趙世奇,劉挺,李生. 一種基于主題的文本聚類方法[J].中文信息學報,2007,21(02): 58-62.

猜你喜歡
產品名稱預處理聚類
求解奇異線性系統的右預處理MINRES 方法
附表5 2021 年飼料添加劑產品批準文號
高COD二噻烷生產廢水預處理研究
基于K-means聚類的車-地無線通信場強研究
國際化妝品名稱的翻譯策略
三、撤銷登記
基于預處理MUSIC算法的分布式陣列DOA估計
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合