?

基于自然標注信息和隱含主題模型的無監督文本特征抽取

2015-06-09 23:45饒高琦于東荀恩東
中文信息學報 2015年6期
關鍵詞:詞表語塊語料

饒高琦,于東,荀恩東

(1. 北京語言大學 大數據與語言教育研究所,北京 100083; 2.中國語言政策與標準研究所,北京 100083)

?

基于自然標注信息和隱含主題模型的無監督文本特征抽取

饒高琦1,2,于東1,荀恩東1

(1. 北京語言大學 大數據與語言教育研究所,北京 100083; 2.中國語言政策與標準研究所,北京 100083)

術語和慣用短語可以體現文本特征。無監督的抽取特征詞語對諸多自然語言處理工作起到支持作用。該文提出了“聚類-驗證”過程,使用主題模型對文本中的字符進行聚類,并采用自然標注信息對提取出的字符串進行驗證和過濾,從而實現了從未分詞領域語料中無監督獲得詞語表的方法。通過優化和過濾,我們可以進一步獲得了富含有術語信息和特征短語的高置信度特征詞表。在對計算機科學等六類不同領域語料的實驗中,該方法抽取的特征詞表具有較好的文體區分度和領域區分度。

自然標注信息;自然語塊;隱含主題模型;領域特征;文體特征

1 引言

文本特征可以從兩個方面得到體現:領域性和文體性。前者通過術語的形式得到體現,而后者往往以慣用短語的方式出現。本文統稱這兩者為特征詞語。對于自然語言處理而言,以詞和短語形式體現出的文本特征,可以對分詞、文本分類和自動文摘等諸多自然語言處理工作提供支持。

當前刻畫文本特征的思想多來源于BOW(Bag of Words)模型或其變種,如帶有領域詞典的特征袋BOF模型[1],使用加入命名實體描寫的FLIC[2],帶有短語與N-gram描寫的STC[3]和利用詞間關系進行描寫[4]等。它們大多在自建或通用測試集上達到了80%~95%的精確率。但是注意到現有的方法都以詞項為語義的承載單元,因而過分依賴于分詞和命名實體識別所提供的信息。中文分詞雖然在通用語料上取得了較大進步,但在領域性較強的語料中,以術語為代表的未登錄詞依然是分詞F值失落的重要原因。并且領域語料的標注語料十分稀少,訓練十分困難。有些領域甚至連生語料也較難收集?;谝陨侠щy,本文提出了一種無需分詞與命名實體信息的無監督特征抽取方法,對面向領域語料的自然語言處理具有重要的價值。

自然標注信息(Natural Annotation)來自于語料本身,本質上是語言使用者提供的一種原始眾包標注。在海量語料中對自然標注信息進行挖掘和獲取幾乎不需要標注語料,也極少需要先驗知識,但需要大量訓練語料。我們注意到以LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)模型為代表的主題模型具有較好的無監督聚類功能,可以對詞語間的隱含語義關系進行描述。我們利用這一特點對文本內容進行事先聚類,可以有效地克服自然標注信息需要海量訓練語料的缺陷,將自然標注信息的使用大大“輕量化”,使特征詞語的整個抽取過程可以在較小規模語料上完成。所以本文將主題建模和自然標注信息相結合,提出了“聚類-驗證(Cluster-Verification)”方法,以較少的信息注入在小規模語料上獲取文本的領域特征和文體特征。不同于以往的研究,本文方法不需要分詞和命名實體信息。而且,其提取的特征并不拘泥于傳統意義上詞的范疇,而與閱讀直覺更加相符。

本文的組織結構如下,第二節簡述本文的工作基礎即LDA模型和自然標注信息;第三節介紹基于LDA和自然標注信息的無監督“聚類-驗證”方法;第四節將描述在計算機領域語料和環境、金融等其余五類領域語料上的實驗和結果;第五節中,本文討論特征詞表的領域區分度和文體區分度,并描述了實驗中出現的一種術語“生長現象”,第六節是結論和未來的工作。

2 工作基礎

2.1 隱含主題模型

LDA模型最早由Blei、Ng和Jordan在2003年提出[5],用以發掘文本中的隱含主題。LDA模型是一種完全的生成模型,其假設一個文本集中存在以狄利克雷分布為先驗的隱含主題分布,而對于任一主題也存在一個隱含的詞選擇分布。它的概率圖表示如圖1所示,M為文檔集中的文檔數目,N為文檔中的詞數。整個過程中的外顯參數為詞w和超參數α與β。其經驗性的選擇一般為α=50/T,β=0.01,T為主題個數。

圖1 隱含主題模型LDA的概率圖表示

2004年,Griffiths與Steyvers[6]開始采用吉布斯采樣(Gibbs Sampling)學習LDA模型。本文使用的工具也采用了該采樣方法。

2.2 自然標注信息

自然標注信息的概念來自互聯網應用中的用戶生成信息(User Generated Content)。它作為一個概念最早由孫茂松在2011年提出[7],用以從海量互聯網數據中提取對自然語言處理可用的信息。其后饒高琦和黃志娥[8-9]將其發展,用于無監督發掘語料庫中的詞匯信息。不少學者也在中文分詞和博客信息挖掘中使用自然標注信息進行嘗試[10-12]。近幾年,關于自然標注信息的研究日益廣泛,逐漸擴展到信息檢索[13]、社會計算[14]、情感分析[15]、信息抽取[16]。但總體而言,該領域的研究都需要較大的訓練語料,并且方法仍處于起步階段。

人類語言中蘊含有豐富的自然標注信息,其中以標點符號為代表的顯性自然標注信息對詞邊界的探測具有重要意義。如式(1)所示,Pi為一處自然標注(如標點符號),如果其在中文里絕不與其他符號構成詞,則其自身就形成了一處天然的詞邊界。

饒高琦[8]的工作發現,大規模語料中僅通過顯性自然標注信息(主要包括標點符號、拉丁字母和阿拉伯數字)對字符串進行切分就可以獲得《現代漢語詞典》中幾乎所有的詞項。僅使用1998年《人民日報》的語料進行切分也可以獲得現漢87.84%的詞項。這樣出現在顯性自然標注信息之間的漢字字符串被稱作“自然語塊”(Natural Chunk),其邊界是詞邊界的子集。

基于此,本文假設在領域語料中通過自然標注信息對字符串的切分也可以無監督的獲得具有領域性的詞語或語塊。本文使用了來自2002年《計算機學報》的文本220篇。將標點符號、運算符號、拉丁字母和阿拉伯數字視作標記詞邊界的自然標注信息,并替換為標記‘SPACE’。這樣整個語料僅存留漢字字符和‘SPACE’標記(替換后約217萬字)。將由此形成的自然語塊進行統計可以獲得結果如表1所示。

表1 計算機科學語料上的自然語塊舉例

續表

自然語塊頻次語塊頻次自然語塊頻次一847因此485若458在630則481與449………………國家自然科學基金94計算機學報58中國科學院計算技術研究所38

由表1可注意到,由自然標注信息標識的詞邊界具有很高的正確率。饒和黃都報告了由顯示自然標注信息而來的詞邊界識別在通用語料上具有較高正確率[8-9]。而在本文所使用的計算機科學領域語料中,顯示標注信息和漢字字符結合成詞的現象同樣少見。少量例外現象多為如“χ2檢驗”這樣處于半譯寫狀態的外來術語。

原始語料在加入標點符號和拉丁字母的自然標注信息后形成加工語料。但是從上表所示的現象中還可以注意到,該抽取結果并不能體現出其作為科技論文的文體特征。另一方面在領域特性上,語塊頻次也無法顯示其作為計算機語料的領域特性,排位最高的術語僅占到第80位。其他技術性術語排名更加靠后。其原因在于文本所具有的領域性并不完全由字詞的頻次體現。領域性的短語和詞匯往往隱藏在文本所述的眾多主題之中。因此有必要使用主題建模的方法對文本進行加工。

3 “聚類-驗證”方法

3.1 LDA聚類方法

本文假設如果一個字符串可以形成穩定使用的詞或慣用短語,則其內部成分(字或字組)出現的相對位置,上下文環境,甚至概率都趨于相近。又因為穩定使用的詞(或短語)的子串共同參與了該詞(或短語)的語義表達,則它們也傾向于出現在同一個主題之中?;诮y計方法的主題建模通常以詞簇來表現主題。在只存在字符邊界(沒有分詞信息)和顯性自然標注信息的語料中,構成一個詞(或短語)的字(或字組),也傾向于被LDA模型聚類別同一主題內,如圖2所示。

0號主題:型?;暮喖毚嬖泶亟琼斎齻兺饬肯蚨?號主題:概的念格所而則更應了及稱被本某名前當優2號主題:信息中據來獲確基的對相地是通部標首目三3號主題:存儲問訪一之和方共享可為表沖完執指比或圖2 無詞邊界語料上的LDA聚類結果舉例

形成上例的語料為《計算機學報》生語料,標點符號為停用詞,處理單元是漢字,參數為α=0.23,β=0.01,迭代次數1 000。注意到,雖然LDA模型在生語料上體現出了較好的字聚類性能,但是構成某詞語的漢字也可能構成其他主題的其它詞語,因此一個詞的內部構件間的概率并非完全相等。加之LDA模型的隨機采樣方法,這些都決定了一個主題雖傾向于包含構成一個詞的眾多子串,但其相對位置和詞內原來的字序很少相同。對此,本文選取每個主題中出現概率最高的N個字,對其進行N x N的兩兩匹配,形成每個主題的候選詞集S。又因為自然標注信息標記詞邊界具有高正確率的特性。我們使用它對S中的成員進行過濾和確認,經過優化打分(即自然標注信息的驗證過程)之后形成篩選詞表。

在生語料中,經過一次主題成員的兩兩匹配,所獲得的候選詞顯然都是二字串。我們選取其中高置信度的成員,回標原始語料,從而增加原始語料內的詞邊界信息,以形成結構更加豐富的“字-詞”混合語料。這一過程改變了LDA的聚類對象和概率空間,使得主題成員得到改變,從而再進行下一輪迭代后,獲取更多特征詞語。

3.2 自然標注信息驗證過程

對LDA聚類產生的候選詞表S中的成員,我們可以使用其在原始語料中與自然標注信息的相對位置來判斷其成為詞(或短語)的可能性。因為本工作采用了顯性的自然標注信息如標點符號和數字。它們直接表達了作者的切分意圖。在語料中,自然標注信息被替換為‘SPACE’符號。兩個‘SPACE’標記之間的字符串(自然語塊)Ci+1……Ci+n可以被認為是一個獨立單元,其左右邊界為詞邊界。它未必是語言學上的詞,然而語塊Ci+1……Ci+n與語言學上的詞Word之間必然存在如下四種包含關系,如式(2)~式(5)所示。

即Word與自然語塊的兩個邊界同時鄰接(式(2),Word等于語塊本身),與自然語塊左邊界鄰接(如式(3)),與自然語塊右邊界鄰接(如式(4))和成為自然語塊的子串(如式(5))。

對于待驗證的詞(或短語),其是否穩定使用則可以用其在原始語料中出現四種蘊含關系的頻次來衡量。因此使用式(6)來對候選詞集成員打分。

Score=λbfb+λs(fl+fr)+λnfn

(6)

Score為候選詞集成員成為一個穩定使用詞的可能性打分,λb、λs、λn是四種蘊含狀況所占有的權重。當一個候選詞Word首尾與自然語塊一致,都是詞邊界的時候,其成為一個語言學上的詞的可能性最大。我們樸素地認為左鄰接與右鄰接的權重相等,且略小于兩側鄰接的權重??紤]到使用語料的規模較小,有很多詞沒有機會出現在含有自然標注信息的上下文中,因此其在單純漢字字符上下文中出現的頻率也應被考慮。所以式(6)的參數有λb>λs>λn,且λb+2λs+λn=1的關系。

候選詞表成員經過打分排序,形成重排過濾詞表S_f。本文利用該詞表,使用最大正向分詞方法,對語料進行回標,使得原始語料的結構得到改變,詞邊界更加豐富,進而優化下一輪迭代中的聚類結果。整個聚類-驗證的迭代過程如圖3所示。

審計委員會特征與審計費用相關性的實證研究 ……………………………………………………………………… 陳 丹(3/32)

圖3 聚類-驗證方法的工作流程

4 實驗

4.1 自然標注信息的注入

本文選取了來自2002年《計算機學報》的文本220篇,漢字字符約217萬個。將標點符號、運算符號、拉丁字母和阿拉伯數字等顯性自然標注信息替換為標記‘SPACE’后(語料樣例見圖4),共形成自然語塊87 348個(舉例見表1)。

SPACE在處理器內部有SPACE個開關控制這SPACE個端口之間的連接關系SPACE如圖SPACE所示SPACE這SPACE個端口之間共有SPACE種連接方式SPACE如圖SPACE所示SPACE處理器內部的這些開關可以在算法的執行過程中動態地置成開或關SPACE從而將整根總線分成一些相互獨立的子總線SPACE圖4 引入顯性自然標注信息后的原始語料舉例

本文使用馬薩諸塞大學的開源工具Mallet實現LDA模型[17],并根據經驗選擇主題數目為220個,α=50/220,β=0.01,迭代次數1 000。第一輪主題訓練結果的舉例見圖2。對每個主題我們選取出現概率最高的20個字進行N x N組合,形成每個主題的候選詞集S。在自然標注信息驗證過程中,使用式(6)打分。并在參數約束條件下,根據經驗選取了λb=0.5, λs=0.2, λn=0.1。

第一次迭代共得到候選詞4 708個,得分最高的15個如表2所示。因為原始語料沒有詞邊界,則聚類對象均為單字,故得到的候選詞都是二字詞。

表2 過濾重排詞表中打分前十五的詞語舉例

與表1相比,其對領域性的表達得到了較大增強。如果將單字詞的組合視作詞組,也判為抽取正確(因為其并未打破詞邊界),得分最高的600個候選詞中正確率為92.7%。

并且注意到600個候選詞中44個錯例里有43個是和“的”字的組合,如“的對”、“的數”、“義的”等。出現這一現象的原因在于“的”字是現代漢語各類語料中出現頻率最高的漢字。雖然很少與顯性自然標注信息鄰接出現,但是其自身過高的頻率也拉高了它和自己鄰接漢字組成的候選詞的得分??梢杂^察到,“的”字組合錯例中的另一個字都是計算機領域中高頻詞的首字或末字,如“的對(話、象)”和“的網(絡、關、口、端、卡)”等。

“的”、“著”、“也”、“是”與“和”等在自然標注信息的研究中通常被稱作隱性自然標注信息[8]。本文參考了饒在大規模通用語料中的統計結果,從選取詞邊界標記置信度較高的隱性自然標注信息11個*′是′,′和′,′的′,′也′,′著′,′與′,′個′,′在′,′之′,′有′,′為′,對候選詞集S進行過濾,大大地提升了正確率(99.8%)。并且為了在語料回標過程中減少交搭型歧義的出現,我們將詞語長度加入打分公式以獲得更長的切分單元。修正后公式如式(7)所示。

Score′ =Length(Word)*Score

(7)

4.2 迭代實驗

在處理器內部有SPACE個開關控制這SPACE個端口之間的連接關系SPACE如圖SPACE所示SPACE這SPACE個端口之間共有SPACE種連接方式SPACE如圖SPACE所示SPACE處理器內部的這些開關可以在算法的執行過程中動態地置成開或關SPACE從而將整根總線分成一些相互獨立的子總線SPACE圖5 第二輪迭代后回標形成的語料樣例

對重新注入過自然標注信息的語料進行新一輪的迭代。

隨著自然標注信息的注入,原始語料的邊界信息更加豐富。抽取出的“總詞表”規模隨迭代次數明顯增長(圖6)。原始語料的字表規模為2 495個,即語料共使用漢字2 494種。在第20次迭代后詞表規模則達到5 376個。

圖6 重排過濾詞表的規模隨迭代次數的變化

通用詞語的領域性和文體性特征均不明顯。因此為了進一步提高重排過濾詞表中術語和特征詞組所占的比例,降低通用詞語的排名,本文使用了1998年1月的《人民日報》所生成的詞表對重排過濾詞表進行剪枝。在諸次迭代所產生的詞表中,剪枝率為5.2%~21.3%。

表3、表4和圖7—圖9分別為在計算機領域語料上迭代20次過程中,特征詞表、通用詞、術語、特征短語和抽取規模的變化。還可以看到詞表正確率(既抽取出的字符串是詞或詞組,下同)基本穩定,術語和短語數量穩步上升。術語比例在七次迭代前后收斂。表5為第九次迭代時抽取結果的舉例??梢钥吹匠槿〕龅脑~項由短語(如“本算法”、“我們采用”)和術語(如“數字音頻信號”、“軟件體系結構”)構成。在第五部分中我們將對短語和術語分別進行分析。類似的,本文也在其他領域語料上進行了相同的實驗。表6為在環境科學、金融學、醫學和土木工程四個領域各選取期刊論文100篇,迭代九次后的結果。它們與在計算機科學語料上第九次迭代后的結果具有可比性。

表3 抽取詞數和通用詞比例

表4 特征詞表中術語比例和特征短語比例

圖7 短語數量隨迭代次數變化(橫軸為迭代輪數,主縱軸為詞數,副縱為短語正確率)

圖8 術語數量隨迭代次數變化(橫軸為迭代輪數,主縱軸為詞數,副縱為術語正確率)

圖9 特征詞表規模與正確率(橫軸為迭代輪數,主縱軸為詞數,副縱為詞語正確率)

表5 計算機學報語料下第九次迭代打分前二十詞舉例

表6 在非計算機領域語料上的迭代實驗結果

5 實驗分析和討論

5.1 領域區分度

通過觀察不同語料中特征詞表,我們驗證了特征詞表和術語對領域性充分刻畫的性能。如表7所示,學科間的差異通過詞表重合率得到較好體現。如環境科學和醫學、計算機科學術語重合較多,和土木工程、金融重合很少,這符合一般直覺。這樣的差異是通過分詞詞表的比較無法獲得的。其中我們對語料分詞后,不同領域語料的最高頻1 000個詞(已去停用詞)形成的詞表之間的重合度遠大于特征詞表(術語+慣用短語)和其中術語的重合度且差異不大。這表明了抽取出的特征詞表對不同領域文本具有很強的區分度。

表7 不同領域語料特征詞表中的術語重合度(每一個單元格中左欄為兩個領域分詞詞表中最高頻1000詞的重合比例,中欄為兩個領域所抽取特征詞語表的重合比例,右欄為兩個領域中所抽取術語的重合比例)

環境科學金融醫學土木工程計算機科學環境科學1.32.085.003.38.092.093.44.098.048.36.136.115金融.32.072.0051.28.043.005.44.084.01.34.091.001醫學.38.085.073.28.047.0031.33.059.005.28.13.068土木工程.44.087.035.32.088.005.33.056.0031.46.13.066計算機科學.36.093.064.34.074.004.28.06.048.46.101.051

5.2 特征短語與文體區分度

對過濾后的特征詞表進行標注和統計可以觀察到隨著迭代次數的增加,詞表規模、術語和通用詞的絕對數量都在增加,整體正確率基本穩定(圖7—圖9)。比例和絕對數量增長最為明顯的是一類“特征短語”。文體特征可以由這類短語進行刻畫。

本文將特征短語分為兩類:術語增生而形成的和表示習慣用法的。如“服務器上”、“滿足約束條件”和“基于斐波那契數列”這樣的短語包含有術語,屬于術語增生型,通常是術語和虛詞或動詞的組合。這是隨著迭代次數增加,已形成的術語和高共現詞語組合構成的。在特征短語中,術語增生而得的短語比例相對較少,而且集中于一些極高頻術語的周圍,如“在算法”、“算法中”、“由算法”和“算法進行”等,帶有較強的領域性。

“一種基于”、“我們提出了”、“下面給出”和“如圖”等則屬于慣用短語。 對20次迭代后產生的短語進行統計發現18.9%的短語為術語增生型,慣用短語占81.1%。在學術期刊語料中,發現后者普遍體現了學術、技術寫作的文體特點。由于上一部分實驗中選取的五種語料均為科技論文,語體相同。本文以《圣經》中記錄耶穌言行的馬太福音為語料進行實驗以進行對比分析。結果發現與計算機科學語料短語的重合度僅為1.4%。圖10為兩者慣用短語的舉例。

《計算機學報》本文采用當且僅當實驗表明我們給出了定義如下《馬太福音》我告訴你們所以你們要記著說不要怕他們回答說

圖10 馬太福音與計算機學報的特征短語舉例

注意到,特征短語與陳文亮[1]的工作中所提出的特征關聯詞有一定的相似性,但它的粒度超過復合詞,多為短語。例如本文方法提取的“本文采用”比“本文”和“采用”兩個詞更能體現科技論文的文體性。因而文本特征中文體風格這一特點可以由特征短語體現。

5.3 復雜術語生長

在諸次迭代中,LDA聚類后形成的主題由“字簇”變為“字-詞簇”,并逐漸向“詞簇”變化(圖11為第三次迭代中LDA聚類產生的簇)。類似的,在候選詞表與后續的過濾重排詞表中,詞語長度也在逐漸增長,呈現出一種生長態勢。如上一部分提到的第一次迭代中的錯例“務器”,在第二次迭代中就和“服”組合成為“服務器”?!熬W絡”是在第一次迭代中形成的二字術語。更長的術語“服務器網絡”則在第17次迭代中出現。

0號主題:的超頂點圖鄰中有最小量通分樹孔連矩陣含維次所相1號主題:區間值離散化概率屬性模型參數葉斯樣本學習貝數目合督處理數監混2號主題:時間本次可新并復圖所重在及若將可以號結果多過3號主題:圖形相似尺寸幾何相似性特征識別圖中元素結構約束對其性方法模式連接圖11 第三輪迭代中經過LDA聚類后的主題舉例

又如“自組織隱馬爾可夫模型”這一復雜術語,它的生長過程如圖12所示,圖中數字為該字符串第一次出現時的迭代輪數。其中“自組織”和“模型”在語言學上都是該術語的子成分。而且它們很晚才發生組合。這是因為“自組織”和“模型”頻率很大,而且本身可以出現在大量的其他術語中,因而作為“自組織隱馬爾可夫模型”的組分不如其他組分(如“隱馬爾可夫”)的結合程度高。

圖12 “自組織隱馬爾可夫模型”的生長過程

6 結論與展望

本文提出了無監督提取文本特征的“聚類-驗證”方法:使用隱含主題模型在領域語料中進行無監督聚類,并采用隱性和顯性的自然標注信息對提取出的候選字串進行驗證,從而獲得特征詞表。統計顯示該詞表具有較高的正確率。通過對原始語料進行回標,我們改變主題模型的概率空間和字詞分布。迭代多次后可以獲得較好體現語料領域特征和文體特征的詞語表。實驗從217萬字的計算機領域語料中獲得了可表征其領域特性和文體特征的詞語表,并在和環境、金融等語料上實驗的比較中體現出了其領域性差異。我們還通過科技論文和《圣經》語料對比的實驗結果,驗證了該方法對語體差異描寫的有效性。

本文方法使用主題模型對候選字符串進行預聚類,有助于加速通過自然標注信息發現詞語的過程。相較于以往自然標注信息的使用方法,本方法所需訓練語料少。全過程中待處理語料的信息注入僅限于顯性自然標注信息(標點符號、運算符號、字母和數字)與11個隱性自然標記,在過濾優化過程中也僅使用了1998年1月人民日報詞表。

不同于以往的研究,該方法不需要分詞語料和命名實體信息。因而對缺乏資源的語種和語料處理具有較好的借鑒意義。然而本文只是無監督聚類和自然標注信息相結合的一次嘗試。從表3的錯例(如“出一”、“現了”)所代表的現象可以發現,如果在實驗過程中注入饒高琦[8]的隱性自然標注信息將有助于效果的提升。

本文方法在主題模型本身的優化、求優打分的調參和自然標注信息的靈活應用等方面都有待未來更深入的研究。在詞語生長這一現象中,如何使用不同無監督學習策略來控制和發掘詞語的組分和生長過程,將對更深入的研究構詞,實現詞法自動分析帶來巨大幫助。

[1] 陳文亮, 朱靖波, 朱慕華, 姚天順. 基于領域詞典的文本特征表示[J]. 計算機研究與發展, 2006, 42(12):2154-2160.

[2] 趙世奇, 劉挺, 李生. 一種基于主題的文本聚類方法[J]. 中文信息學報, 2007, 21(2):59-62.

[3] Zamir O and Etzioni O. Web Document Clustering: A Feasibility Demonstration [C]//Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 1998). Melbourne, Australia, 1998:46-54.

[4] 吳雙, 張文生, 徐海瑞. 基于詞間關系分析的文本特征選擇算法[J]. 計算機工程與科學, 2012, 34(6):140-145.

[5] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3:993-1022.

[6] Griffiths T L, Steyvers M. Finding scientific topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101 (Suppl 1):5228-5235.

[7] 孫茂松: 基于互聯網自然標注資源的自然語言處理[J]. 中文信息學報, 2011, 25(6):26-32.

[8] 饒高琦, 修馳, 荀恩東. 語料庫自然標注信息與中文分詞應用研究[J]. 北京大學學報(自然科學版), 2013, 49(1):140-146

[9] Huang Z E, Xun E D, Rao G Q, et al. Chinese Natural Chunk Research Based on Natural Annotations in Massive Scale Corpora [C]//Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data. Springer Berlin Heidelberg, 2013:13-24.

[10] Zhongguo Li, Maosong Sun. Punctuation as Implicit Annotations for Chinese Word Segmentation [J]. Computational Linguistics, 2009, 35(4):505-512.

[11] Si X, Liu Z, Sun M. Modeling Social Annotations via Latent Reason Identification [J]. Intelligent Systems IEEE, 2010, 25(6):42-49.

[12] 劉知遠, 司憲策, 鄭亞斌,等. 中文博客標簽的若干統計性質[C]//中國計算技術與語言問題研究——第七屆中文信息處理國際會議論文集. 2007.

[13] Jeremy, Ginsberg, Matthew H, Mohebbi, Rajan S, Patel, et al. Detecting Influenza Epidemics Using Search Engine Query Data [J]. Nature, 2008, 457(7232):1012-1014.

[14] Sepandar D. Kamvar and Jonathan Harris. We Feel Fine and Searching the Emotional Web [C]//Proceeding s of the Fourth ACM International Conference on Web Search and Data Mining (WSDM 2011). HongKong, China, 2011:117-126.

[15] Qu and Liu. Interactive Group Suggesting for Twitter [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011), Portland, USA, 2011:519-523.

[16] Wu and Weld. Open Information Extraction using Wikipedia [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010). Uppsala, Sweden, 2010:118-127.

[17] McCallum, Andrew Kachites. MALLET: A Machine Learning for Language Toolkit [OL], http://mallet.cs.umass.edu. 2002.

Unsupervised Text Feature Extraction Based on Natural Annotation and Latent Topic Model

RAO Gaoqi1, 2, YU Dong1, XUN Endong1

(1. Beijing Language and Culture University, Institute of BigData and Language Education, Beijing 100083, China;2.Institute for Chinese Language Policies and Standards,Beijing 100083, China)

Text features are often shown by its terms and phrases. Their unsupervised extraction can support various natural language processing. We propose a “Cluster-Verification” method to gain the lexicon from raw corpus, by combining latent topic model and natural annotation. Topic modeling is used to cluster strings, while we filter and optimize its result by natural annotations in raw corpus. High accuracy is found in the lexicon we gained, as well as good performance on describing domains and writing styles of the texts. Experiments on 6 kinds of domain corpora showed its promising effect on classifying their domains or writing styles.

natural annotation; natural chunk; latent topic model; domain feature; stylistic features

饒高琦(1987—),博士研究生,主要研究領域為計算語言學、語言政策與語言規劃。E-mail:raogaoqi-fj@163.com于東(1982—),通信作者,講師,主要研究領域為計算語言學。E-mail:yudong@blcu.edu.cn荀恩東(1967—),教授,主要研究領域為自然語言處理、計算機教育技術。E-mail:edxun@126.com

1003-0077(2015)06-0141-09

2015-07-10 定稿日期: 2015-09-03

國家自然科學基金(61300081,61170162);國家社科重大基金(12&ZD173);國家語委科研基金(YB125-42);北京語言大學研究生創新基金(14YCX074)

TP391

A

猜你喜歡
詞表語塊語料
基于VOLT的藏漢雙向機器翻譯
基于歸一化點向互信息的低資源平行語料過濾方法*
小學英語語塊教學策略
科技漢語語塊的類型和特征
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
信息化環境下英語語塊教學模式在小學英語教學中的運用
語塊教學在高中英語教學中的應用分析
近十年國內外專業學術詞表建立文獻綜述*
對外漢語教學領域可比語料庫的構建及應用研究
——以“把”字句的句法語義標注及應用研究為例
國內外語用學實證研究比較:語料類型與收集方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合