?

基于弱監督學習的中文網絡百科關系抽取

2015-02-11 03:22賈真何大可楊燕楊宇飛冶忠林
智能系統學報 2015年1期
關鍵詞:語料分類器實體

賈真,何大可,楊燕,楊宇飛,冶忠林

(西南交通大學 信息科學與技術學院,四川 成都 610031)

?

基于弱監督學習的中文網絡百科關系抽取

賈真,何大可,楊燕,楊宇飛,冶忠林

(西南交通大學 信息科學與技術學院,四川 成都 610031)

實體關系抽取在信息檢索、自動問答、本體學習等領域都具有重要作用。提出了基于弱監督學習的關系抽取框架。首先利用知識庫中已有結構化的關系三元組,從自然語言文本中自動獲取訓練語料;針對訓練語料數量較少導致特征不足的問題,采用基于樸素貝葉斯的句子分類器和基于自擴展的訓練方法,從未標注數據中獲取更多的訓練語料;然后利用條件隨機場模型訓練關系抽取器。實驗結果表明所提方法的有效性,有現有方法相比,文中方法獲得較高的準確率。

知識獲??;信息抽??;關系抽??;弱監督學習;自擴展;中文網絡百科;條件隨機場;樸素貝葉斯

Relation extraction from Chinese online encyclopedia

實體關系抽取是自動構建知識庫的基礎,同時在自動問答、信息檢索等多個領域具有重要的應用價值。傳統實體關系抽取方法主要有基于模式匹配或基于有監督的統計機器學習。隨著關系抽取從限定關系類型轉向開放領域,數據源從標準語料庫轉向海量的網絡數據,傳統基于模式匹配和有監督統計機器學習的方法逐漸顯示出局限性。由于開放領域的關系類型數量巨大,不同關系的模式表現形式多樣,變化較大,在基于模式匹配的方法中,難以用人工方式定義全部的模式。在基于有監督機器學習方法中,人工標注訓練語料需要耗費大量的人力和時間,面向海量的網絡數據,人工標注幾乎是不可能的。如何能夠監督最小化,即不使用人工標注或減少人工標注,也能構建高性能的關系抽取系統是當前的研究熱點。由于基于弱監督學習(weakly supervised learning)的關系抽取方法能夠在較少人工干預下、自動獲取訓練語料而受到了廣泛的關注?;谌醣O督學習的關系抽取框架依賴于一個某領域的知識庫,從知識庫中可以獲取關系三元組,同時需要大量的文本集。從文本集中尋找含有關系實體對的句子,用來建立訓練集,然后用這個訓練集訓練抽取器,從測試文本集中抽取關系實例?,F有方法都是自動抽取含有關系實體對的句子作為訓練語料,這種利用實體對共現得到的訓練語料很不可靠,例如,從知識庫中獲取關系三元組,〈魯迅,國籍,中國〉,從文本集中獲取含有實體對〈魯迅,中國〉的句子:“魯迅以小說創作起家。1918年在《新青年》雜志發表的《狂人日記》是中國現代白話小說的開山之作,影響深遠”。這句話并沒有表達魯迅國籍是中國的關系。Riedel等[1]在紐約時報文本集中進行統計,發現含有國籍關系實體對的句子中38%的句子沒有表達國籍這個關系,含有出生地關系實體對的句子中有35%的句子沒有表達出生地關系。利用有噪聲的訓練語料訓練模型會影響準確率,降低抽取性能。為了提高訓練語料的準確率,文中利用關系詞語對訓練語料進行約束,即句子中不僅要有實體對,還要有表達關系的詞語。由于知識庫中的關系實例數量有限,導致訓練語料可能較少,存在特征不足的問題,文中利用訓練語料訓練句子分類器,并基于bootstrapping方法迭代地從未標注數據中獲取新的訓練語料。最后利用CRF模型訓練關系抽取器。文中的主要貢獻有:

1) 與利用實體對獲取訓練語料相比,利用關系三元組獲取訓練語料的質量有了明顯提升;

2) 引入了句子分類器從未標注語料中提取新的訓練語料,緩解了訓練語料不足問題;

3) 以互動百科信息盒中的關系實例作為知識庫,互動百科條目文本作為訓練文本集和測試文本集進行實驗,驗證了文中方法的有效性。

1 相關工作

實體關系抽取研究始于信息理解會議(message understanding conference, MUC)。1998年最后一次MUC-7上首次提出了關系抽取任務。在MUC-7之后,MUC被自動內容抽?。╝utomatic content extraction, ACE)評測所取代。ACE由美國國家標準技術研究院NIST組織,從1999年至2008年已經舉辦過9次評測,2008年ACE評測改名為文本分析會議(text analysis conference,TAC),從2008年至今已經舉行了6次評測。ACE評測中關系抽取任務包括7個大類關系和若干個子關系。實體關系抽取方法主要有模式匹配的方法和機器學習的方法。在模式匹配的方法中,模式的自動獲取技術是研究的關鍵。機器學習方法根據是否需要人工標注訓練語料分為有監督機器學習、半監督機器學習和無監督機器學習。有監督學習方法有特征向量的方法[2-4]和核函數的方法[5-6]。半監督學習方法以少量的關系實例為種子,采用不斷迭代的方法從未標注語料中抽取可靠性較高的關系實例[7]。無監督關系抽取主要使用聚類方法[8-9],并為聚類后的簇賦予關系名稱。

弱監督學習的關系抽取最早由Craven和Kumlien提出[10],用于從學術文獻的摘要中抽取蛋白質與基因之間的關系。Wu等[11]利用維基百科信息盒中結構化的〈屬性,屬性值〉二元組對維基百科條目文本的句子進行回標,自動獲取屬性關系抽取訓練語料,并使用CRF模型為每個屬性訓練抽取器。Bunescu等[12]分別將具有關系的實體對正例和反例作為查詢請求,從搜索引擎查詢結果中提取包含實體對的句子作為訓練語料。Mintz等[13]從Freebase www.freebase.com中獲取具有關系的實體對,從維基百科條目文本中獲取關系抽取的訓練數據。Mintz的方法基于以下假設:如果2個實體之間存在某種關系,那么所有含有實體對的句子都描述了這個關系。Yao等[14]對Mintz等[13]提出的方法進行了改進,把關系抽取和實體的種類綜合考慮,利用實體的類別來過濾掉部分錯誤的關系。Riedel等[1]認為Mintz的假設過于嚴格,含有關系實體對的句子并不一定表達了該關系。Riedel將Mintz的假設放松為:如果2個實體之間存在某種關系,那么含有實體對的句子中至少有一個句子描述了該關系。Surdeanu等[15]基于弱監督學習對TAC-KBP進行屬性模板填充,先將維基百科信息盒中的半結構化信息映射至KBP結構化的屬性模板,再從語料中獲取包含實例名和屬性值二元組的句子作為訓練語料。陳立瑋和馮巖松等[16]從互動百科信息盒中獲取實體對,從新聞數據中獲取訓練語料,提出了bootstrapping思想的協同訓練方法來對弱監督關系抽取模型進行強化,并提出了將傳統特征與n-gram特征相結合進行協同訓練的方法。

2 弱監督學習的關系抽取方法

弱監督學習的關系抽取框架包括3個重要的因素:知識庫、訓練語料和抽取模型。

2.1 知識庫

互動百科是目前最大的中文網絡百科之一,互動百科的部分條目中,存在人工創建的信息盒,信息盒中包含了大量半結構化的關系三元組。例如,從互動百科條目“西南交通大學”信息盒中能夠獲取關系三元組〈西南交通大學,創建時間,1896年〉。其中,“西南交通大學”是關系主體,“1896年”是關系客體,創建時間為關系詞語。經統計發現,互動百科信息盒中的關系名稱是統一定義的,具有較好的唯一性和標識性。文中利用互動百科信息盒獲取關系三元組,構造知識庫。信息盒是半結構化信息,某些關系有多個客體(如“知名校友”一欄中有多個人名),某些關系的客體不是實體詞,而是1個句子(如“校訓”),因此需要對其進行結構化處理。由于實體關系抽取依賴于命名實體識別,因此只提取主體和客體是命名實體的關系。對于1個關系具有多個客體的情況,例如“知名校友”信息盒中的內容為:林同炎,劉大同,張維。分別組成3個關系三元組:〈西南交通大學,知名校友,劉大同〉、〈西南交通大學,知名校友,林同炎〉和〈西南交通大學,知名校友,張維〉。

2.2 訓練語料

2.2.1 訓練語料自動獲取

現有弱監督學習的關系抽取框架是利用關系實體對從文本中獲取訓練語料的,然而,包含實體對的句子有時并不是關系描述語句?;趯嶓w對的共現自動建立起來的訓練語料中有大量的噪聲,正確的訓練語料并不多。為了提高訓練語料的準確率,假設關系描述語句中通常以某個特定的關系關鍵詞為核心,例如,“所屬地區”關系的表達可能為“位于、處于、屬于”等。 “創建時間”關系的表達可能為“創立、創建、成立”等。知識庫中的關系名稱是統一的,然而語句中對關系的表達有多種方式。如果直接匹配關系詞語,會導致過低的召回率,因此,需要將關系關鍵詞進行同義擴展。

首先采用西南交通大學中文分詞[17]對關系詞語進行細粒度分詞。例如,“創建時間”細粒度分詞后為“創建”和“時間”2個詞。然后分別對這2個詞語進行同義擴展。文中采用基于同義詞詞林[18]的語義相似度計算擴展關系詞語。語義相似度計算采用田久樂等[19]提出的方法。該方法是根據詞語的義項在同義詞詞林的位置和編碼計算出詞語的語義相似度。滿足相似度閾值的詞語都視為同義詞。詞語相似度的值受到3個因素的制約:分支層系數、分支層節點總數和分支間隔。為了避免語義漂移,文中僅計算第5層分支詞語間的語義相似度。例如,“創建”的同義詞為“創立、開創、創始、創建、創辦”等,“時間”的同義詞為“時間、時刻、時日、工夫、日子、光陰”等。將擴展后的這些同義詞組合成為新的關系關鍵詞,例如“創立時間、開創時刻”等。同義詞詞典的關系關鍵詞獲取受到詞典規模的限制,無法對未登錄詞進行同義擴展。因此,在提取訓練語料時,若某一含有關系實體對的句子中某詞語與關系關鍵詞的字面相似度[20]大于45%,該詞語成為關系關鍵詞,該句子成為訓練數據。

從知識庫中提取關系三元組〈西南交通大學,創建時間,1896年〉,百科文本集中有一個包含西南交通大學和1896年的句子,該句子同時包含關系關鍵詞“創建”,如圖1所示。提取該句子作為“創建時間”關系的訓練語料。

圖1 從文本集中獲取訓練數據

2.2.2 基于句子分類器的訓練語料優化

與人工標注的可靠的訓練語料不同,由于自然語言預處理錯誤或知識庫中的關系客體在文本中不存在,就會導致錯誤和遺漏的標注。特別是由于知識庫中的關系實例數量較少時,自動獲取的訓練語料數量較少,許多測試數據中的特征在訓練語料中很少出現甚至不存在。文中將已標注的訓練語料作為正例,從未標注數據中提取部分數據作為反例,采用bootstapping方法訓練分類器,然后對未標注數據進行分類,標注為正例的數據作為新的訓練數據。

一個分類器性能的優劣往往取決于選擇的特征是否能夠最大程度地表達不同類別的差異,選擇恰當的特征有助于學習到性能較好的分類器,實現不同類別的最優劃分。句子分類常用的特征包括詞法特征、句法特征和n-gram特征。詞法特征由句子中的詞序列和詞性序列構成,而句子中的語言描述過于具體,很難在其他的句子中再次出現,導致嚴重的數據稀疏性問題,也使得訓練出的模型缺乏泛化能力。句法特征從句子的依存句法分析結果中獲取。句法特征也存在詞法特征中的數據稀疏性問題,并且句法特征依賴于句法分析的效果,然而現有中文句法分析工具的準確率都不是很理想,導致句法特征不可靠。n-gram特征通常是文本中n個連續詞組成的序列,可以捕捉到局部范圍內連續詞語之間的序列關系,體現語法習慣,n-gram只包含3~4個詞,因而不會像傳統詞法特征那樣過于具體,導致特征稀疏,幾乎不可能再現。除了傳統詞語序列的n-gram特征,文獻[16]把連續詞語的詞性標注組織成詞性序列n-gram特征;以及把詞語和它的詞性序列組成n-gram特征,并使用tri-gram,即n=3。

文中采用由詞語和它的詞性組成的n-gram特征,并令n=1,2,3。

1-gram:1個詞語+詞性 (wordi/ posi) (wordi)

2-gram:2個連續詞語+詞性(wordi/ posi, wordi+1/ posi+1)

3-gram:3個連續詞語+詞性(wordi/ posi, wordi+1/ posi+1, wordi+2/ posi+2)

從句子中2個實體詞之間的文本中提取1/2/3-gram作為特征值。1/2/3-gram表示既取1-gram,又取2-gram、3-gram。例如句子“英國威爾士大學/ntu 圣三一學院/nt 成立/v 于/p 1848年/t”中提取了多個1-gram “圣三一學院 / nt”、“成立 / v”、“于 / p”等,以及多個2-gram“圣三一學院 / nt , 成立 / v”、“成立 / v , 于 / p”等。

文中利用樸素貝葉斯分類(na?ve Bayes classification,NBC)模型訓練句子分類器。訓練數據作為正例,從未標注數據中提取部分數據(未標注數據中也含有實體對)作為反例,首先提取正例特征和反例特征訓練分類器,然后對未標注數據進行分類,對新正例進行標注,并將新正例加入到訓練語料中。對新正例進行標注的方法是根據實體類別分別標注關系主體和關系客體,將出現概率最大n-gram標注為關系關鍵詞。例如,1-gram“成立”出現概率最大,那么“成立”就是關系關鍵詞,若句子中有多個關系主體或客體,則標注最先出現的實體對作為關系主體和客體。

2.3 抽取模型

條件隨機場(conditional random field,CRF)是由Lafferty等[21]于2001年首先提出,是目前優秀的機器學習模型之一。已被廣泛用于中文分詞、實體識別、詞性標注和信息提取等自然語言處理領域。CRF是一個判別式模型,其最簡單的形式是線性的CRF,即模型中各個節點之間構成線性結構。一個線性的CRF對應于一個有限狀態機,它非常適合于進行線性數據序列的標注,在信息提取任務中,基于CRF用于序列標注的優勢,將信息提取問題轉換成目標信息的序列標注問題。

為了進行CRF的訓練,文中在訓練語料中引入標注集對訓練語料進行轉換。文中使用的是BIESO序列標注集,其中B代表關系關鍵詞的開始;I代表關系關鍵詞的內部;E代表關系關鍵詞的結尾;S代表獨立的實體;O代表了當前詞既不是實體,也不是關系關鍵詞。

例如對訓練語句“濱海大學/ntu 是/vshi 一所/mq 綜合性/n 國立大學/nis ,/w 成立/vi 于/p 1991年/t”進行序列標注如圖2。

圖2 序列標注示例

圖2中,S-SUB表示關系主體,S-OBJ表示關系客體,B-REL表示關系關鍵詞的開始,E-REL表示關系關鍵詞結尾。將該訓練語句轉換為序列標注的形式如表1。

表1 訓練語句序列標注Table 1 Sequence labeling of training sentenc

在CRF建立抽取模型過程中,特征選取與特征模板的制定是一項重要任務。特征選取時CRF模型不僅能夠綜合使用字、詞、詞性、詞形等上下文信息,還能利用各種外部信息,如詞典等。文中選取詞本身、詞性、上下文信息(定義活動的窗口)作為特征?!吧舷挛男畔ⅰ敝傅氖前ó斍霸~在內的及其前后若干個詞所組成的觀察窗口[22]。窗口過大,選擇的特征會急劇增加,影響運行效率;窗口過小,選擇的特征較少,影響抽取器的性能。根據分析,選擇長度為3的窗口,即觀察包含當前詞在內以及其前后各2個詞。特征模板如表2所示。

表2 特征模板Table 2 Feature templates

3 實驗與結果分析

弱監督關系抽取需要結構化知識庫構建訓練集。知識的表達形式為三元組,即〈主體,關系,客體〉的結構。選用互動百科信息盒構造結構化知識庫并進行分詞和實體識別預處理,關系三元組中的主體和客體必須為命名實體,從中選取“創建時間”、“國籍”、“出生年月”、“所屬地區”等4種關系進行實驗。文本集采用互動百科條目文章。這里以“創建時間”關系為例對語料進行說明。關系主體類型為機構名(詞性標注為nt),客體類型為時間(詞性標注為t)。從信息盒中抽取關系三元組共有9 257個,匹配句子有6 876個,從其余未匹配的句子中提取含有實體二元組〈nt, t〉的句子作為測試文本集,測試文本集中的句子數共114 831個。

實驗結果的評價包括分類器的評價和抽取器的評價。分類器的性能用從測試文本集中得到的正例中正確標記的關系比率來評價,正確的比率越大說明分類器的性能越好。實驗從測試文本集中得到正確的正例數量為T2,正例總數記為T1。準確率PC計算公式如式(1):

由于從測試文本集中生成的正例總數較多,故采用隨機抽樣的評價方法。文中設計了3種n-gram特征:詞語序列特征、詞性序列特征、以及詞語和詞性組合序列特征。這里分別測試了3種特征的分類器準確率(PC),測試結果如表3所示。

表3 不同特征下分類器性能比較Table 3 Performance comparison among different feature %

通過表3看出,用詞語序列作為特征的分類器準確率最好,其次是詞語+詞性序列特征。然而詞語序列作為特征的分類器獲取的新正例數量較少,用詞語+詞性序列特征和詞性特征獲取新正例的數量均較多。例如表4中,對于“創建時間”關系,用詞語+詞性序列獲取的新正例數量為4 174個,用詞語序列獲取的新正例僅為2 697個;對于“出生年月”關系,用詞語+詞性獲取的新正例數量為3 491個,用詞語序列獲取的新正例僅有1 795個。因此,采用詞語+詞性組合特征的分類器總體性能最好。

表4 不同特征下訓練語料數量比較Table 4 quantity comparison among different feature %

在抽取器的評價中,文中采用關系的準確率(P)、召回率(R)、F值(F-Score)作為最終的評價標準,計算方法如式(2)~(4)所示。

式中:V1是抽取正確的關系個數;V2是抽取關系的總個數;V3是語料中關系的個數。

將本中方法與不采用分類器直接利用三元組獲取的訓練語料訓練CRF抽取器的抽取結果進行對比,對比結果如表5所示。從表5可以看出,與未經過訓練語料優化而直接采用CRF訓練抽取器的方法相比,文中方法在保持了較高準確率的基礎上,召回率也有了較大的提高。說明利用樸素貝葉斯分類器從反例中獲取新正例來優化訓練語料,在一定程度上提高了訓練語料的質量和抽取的性能。在以上4種關系抽取中,創建時間關系的準確率和召回率均較低,這是由于句子中的關系主體(類型為nt)或關系客體(類型為t)不唯一,例如大學機構往往有子機構(如院系等),以子機構的創建時間作為關系客體則會造成錯誤。

表5 與未優化訓練語料的關系抽取方法對比

Table 5 Performance comparison with the method of unoptimized training corpus %

關系文中方法未優化訓練語料準確率召回率F值準確率召回率F值創建時間7211.920.6688.815.6國籍8484.684.39872.183.1出生年月9627.542.89633.449.6所屬地區9895.396.69877.386.4

現有弱監督學習的關系抽取框架是將關系抽取看做一個分類問題,首先利用實體對獲取訓練語料,然后訓練分類器,從測試文本集的句子中提取實體對,利用分類器對實體對進行關系預測。文中與文獻[13]的方法進行對比,對比結果如表6。

表6 與其他弱監督學習的關系抽取方法對比

Table 6 Performance comparison with other weakly supervised method %

關系文中方法文獻[13]方法準確率召回率F值準確率召回率F值創建時間7211.920.6479955.1國籍8484.684.30.02990.03出生年月9627.542.866.670.268.4所屬地區9895.396.637.79954.6

通過表6的實驗結果可以看出,現有弱監督學習的關系抽取系統獲得較高的召回率,然而,關系預測的準確率非常低,這是由于沒有關系詞語的約束會導致關系識別錯誤。尤其在“國籍”關系抽取中,句子中人名和地名共現的情況非常多,而僅有較少的句子表達國籍關系。文中方法的準確率普遍較高,而且“國籍”關系和“所屬地區”關系抽取也取得了較高的召回率,總體抽取性能優于現有弱監督學習的關系抽取方法。此外,對于簡單句子的抽取效果較好,復雜句子或長句子的抽取效果不好。分詞、詞性標注、實體標注等自然語言預處理錯誤對于關系抽取性能也會產生影響。

4 結束語

文中提出了一種弱監督學習的關系抽取方法框架,該方法從中文網絡百科條目半結構化的信息盒中提取關系三元組構建知識庫,利用關系三元組對百科文本中進行回標,包含實體對和關系詞語的句子成為關系抽取的訓練語料,該方法有效解決了訓練語料自動構建的問題。針對訓練語料較為稀疏從而導致特征不足的問題,提出了bootstrapping的訓練語料優化方法,該方法以已標注的訓練語料為正例,以部分未標注數據為反例,訓練貝葉斯分類器,然后從未標注數據中提取新的正例,補充訓練語料的不足。對于分類器特征提取問題,論文提出一種詞和詞性組合的n-gram特征,從正例和反例的句子中分別提取詞語和詞性組合的1/2/3-gram作為特征,訓練分類器。實驗結果表明優化訓練語料能夠提升關系抽取的性能。利用關系詞語對訓練語料和測試語料進行約束,與僅利用實體對共現獲取的訓練語料進行關系抽取相比,抽取準確率有了顯著提高。

[1]RIEDEL S, YAO L, MCCALLUM A. Modeling relations and their mentions without labeled text[J]. Machine Learning and Knowledge Discovery in Databases, 2010, 6323: 148-163.

[2]ZHANG T, Regularized winnow methods[J]. Advance in Neural Information Processing Systems, 2001(13):703-709.

[3]KAMBHATLA N. Combining lexical, syntactic and semantic features with maximum entropy models for extracting relations[C] //Proceedings of the ACL, 2004 on Interactive Poster and Demonstration Sessions. Barcelona, Spain, 2004: 178-181.

[4]TRATZ S, HOVY E. ISI: automatic classification of relations between nominals using a maximum entropy classifier[C] //Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala, Sweden, 2010: 222-225.

[5]ZELENKO D, AONE C, RICHARDELLA A. Kernel methods for relation extraction [J]. Machine Learning, 2003(3):1083-1106.

[6]GIULIANO C, LAVELLI A, PIGHIN D, et al. FBK-IRST: Kernel methods for semantic relation extraction[C] //Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-2007). Prague, Czech, 2007: 141-144.

[7]程顯毅, 朱倩. 未定義類型的關系抽取的半監督學習框架研究[J]. 南京大學學報:自然科學版, 2012, 48(4): 466-474. CHENG Xianyi, ZHU Qian. A study of relation extraction of undefined relation type based on semi-supervised learning framework[J]. Journal of Nanjing University: Natural Sciences, 2012, 48(4): 466-474.

[8]BOLLEGALA D, MATSUO Y, ISHIZUKA M. Relational duality: unsupervised extraction of semantic relations between entities on the Web[C] //Proceedings of the 19th World Wide Web Conference. New York, 2010: 151-160.

[9]YAN Y, OKACAKI N, MATSUO Y, et al. Unsupervised relation extraction by mining Wikipedia texts using information from the Web[C] //Proceedings of the Joint Conference of the 46th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Singapore, 2009: 1021-1029.

[10]CRAVEN M, KUMLIEN J. Constructing biological knowledge bases by extracting information from text sources[C] //Proceedings of the 7th International Conference on Intelligent Systems for Molecular Biology. Palo Alto, CA, 1999: 77-86.

[11]WU F, DANIEL S W. Autonomously semantifying wikipedia[C] //Proceedings of the ACM Sixteenth Conference on Information and Knowledge Management. New York, 2007: 41-50.

[12]BUNESCU R C, MOONEY R J. Learning to extract relations from the web using minimal supervision[C] //Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, 2007: 567-570.

[13]MINTZ M, BILLS S, SNOW R. Distant supervision for relation extraction without labeled data[C] //Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, 2009: 1003-1011.

[14]YAO LM, RIEDEL S, MCAALLUM A. Collective cross document relation extraction without labeled data[C] //Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, 2010: 1013-1023.

[15]SURDANU M, MCCLOSKY D, TIBSHIRANI J, et al. A simple distant supervision approach for the TAC-KBP slot filling task [C] //Proceedings of the Text Analysis Conference 2010-Knowledge Base Population Worksho.[s.l.], 2010:1-5.

[16]陳立瑋, 馮巖松, 趙東巖. 基于弱監督學習的海量網絡數據關系抽取[J]. 計算機研究與發展, 2013, 50(9): 1825-1835. CHEN Liwei, FENG Yansong, ZHAO Dongyan. Extracting relations from the web via weakly supervised learning[J]. Journal of Computer Research and Development, 2013, 50(9): 1825-1835.

[17]尹紅風, 賈真, 李天瑞, 等. 西南交通大學中文分詞[EB/OL]. [2012-07-24]. http://ics.swjtu.edu.cn. YIN Hongfeng, JIA Zhen, LI Tianrui, et al. Southwest Jiaotong University Chinese Segmentation [EB/OL]. [2012-07-24]. http://ics.swjtu.edu.cn.

[18]CHE W X, LI Z H, LIU T. LTP: a Chinese language technology platform[C]//Proceedings of the Coling 2010.[s.l.], 2010: 13-16.

[19]田久樂, 趙蔚. 基于同義詞詞林的詞語相似度計算方法[J]. 吉林大學學報: 自然科學版, 2010, 28(6): 602-608. TIAN Jiule, ZHAO Wei. Words similarity algorithm based on Tongyici Cilin in semantic Web adaptive learning system[J]. Journal of Jilin University: Inform ation Science Edition, 2010, 28(6): 602-608.

[20]張雪英, 閭國年. 基于字面相似度的地理信息分類體系自動轉換方法[J].遙感學報, 2008, 12(3): 433-440. ZHANG Xueying, LU Guonian. Approach to automatic conversion of geographic information classification schemes[J]. Journal of Remote Sensing, 2008, 12(3): 433-440.

[21]LAFFERTY J, PEREIRA F, MCCALUM A. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of 18th International Conference on Machine Learning. San Francisco: AAAI Press, 2001: 282-289.

[22]張佳寶. 基于條件隨機場的中文命名實體識別研究 [D]. 長沙:國防科技大學, 2010:45-59. ZHANG Jiabao. The research on conditional random fields based Chinese named entity recognition[D]. Changsha: National University of Defense Technology, 2010: 45-59.

賈真, 1975年生,女,講師,主要研究方向為內容安全、信息抽取、知識工程。四川省計算機學會大數據專委會委員,中國計算機學會中文信息技術專委會委員。

何大可, 1944年生,男,教授,博士生導師,中國密碼學會副理事長、學術委員會委員,信息安全國家重點實驗室第四屆學術委員會委員,全國并行計算專業委員會委員,中國電子學會高級會員。受聘為四川省商用密碼專家小組成員,四川省保密技術專家咨詢小組成員。主要研究方向為信息安全、內容安全、并行計算。曾獲陜西省及國家教委科技進步二等獎、國家自然科學四等獎,鐵道部科技進步三等獎、詹天佑人才獎。發表學術論文240余篇,出版專著3部。

楊燕, 1964年生,女,教授,博士生導師,博士,主要研究方向為數據挖掘、計算智能、集成學習。ACM成都分部副主席,中國計算機學會人工智能與模式識別專委會委員和理論計算機科學專委會委員,中國人工智能學會機器學習專委會委員和粗糙集與軟計算專委會委員。曾獲四川省優秀教學成果二等獎,校優秀教學成果一、二等獎,發表學術論文120余篇,出版專著1部。

based on weakly supervised learnin

JIA Zhen,HE Dake,YANG Yan,YANG Yufei,YE Zhonglin

(School of Information and Science Technology, Southwest Jiaotong University, Chengdu 610031, China)

Entity relation extraction plays an important role in the fields of information retrieval, automatic question answering and ontology learning. An entity relation extraction frame based on weakly-supervised learning is proposed in the paper. First, training data are acquired automatically from natural language texts by using relation triples in structured knowledge base. To solve the problem that the number of training data is small and features are insufficient, a bootstrapping method is used to train sentence classifiers based on naive Bayes model. This method can acquire more training data from unlabelled data. The relation extractors are trained by using conditional random fields (CRF) model. The experiment results showed that the method is feasible and effective. Compared with the existing methods state-of-the-art method, the proposed method achieves high accuracy.

knowledge acquisition; information extraction; relation extraction; weakly supervised learning; bootstrapping; Chinese online encyclopedia; conditional random fields; naive Bayes

2013-11-07.

日期:2015-01-13.

國家自然科學基金資助項目(61170111, 61134002, 61202043, 61262058).

賈真.E-mail:zjia@home.swjtu.edu.cn.

10.10.3969/j.issn.1673-4785.201311017

http://www.cnki.net/kcms/detail/23.1538.TP.20150113.1130.008.html

TP391

A

1673-4785(2015)01-0113-07

賈真,何大可,楊燕,等.基于弱監督學習的中文網絡百科關系抽取. 智能系統學報, 2015, 10(1): 113-119.

英文引用格式:JIA Zhen,HE Dake,YANG Yan,et al.Relation extraction from Chinese online encyclopedia based on weakly supervised learnin[J]. CAAI Transactions on Intelligent Systems, 2015, 1(6): 113-119.

猜你喜歡
語料分類器實體
基于歸一化點向互信息的低資源平行語料過濾方法*
前海自貿區:金融服務實體
基于特征選擇的SVM選擇性集成學習方法
基于深度優先隨機森林分類器的目標檢測
基于差異性測度的遙感自適應分類器選擇
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
對外漢語教學領域可比語料庫的構建及應用研究
——以“把”字句的句法語義標注及應用研究為例
基于層次化分類器的遙感圖像飛機目標檢測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合