?

基于國內現存文本語料庫規范化的現狀研究及改進

2016-11-11 02:57孫溫穩
河南科技 2016年11期
關鍵詞:語料庫網頁規范化

孫溫穩

(鄭州師范學院信息科學與技術學院,河南 鄭州 450044)

基于國內現存文本語料庫規范化的現狀研究及改進

孫溫穩

(鄭州師范學院信息科學與技術學院,河南鄭州450044)

當前國內對于文本可視化的研究還停留在初級階段,存在著許多方法處理文本語料庫。隨著科學技術的不斷發展,網絡變得越來越普及,人們可以從網絡上獲得大量的文本資料信息,本文主要針對如何獲取序列化、規范化的漢語的語料庫提出了一種新的框架。

語料庫;工具包;文本規范化

1 文本可視化概述

目前國內對于文本可視化的研究還處在初級階段,主要停留在新技術的發展和新系統開發等方面。對于文本集合可視化系統,先通過文本采集模塊、中文分詞模塊、特征詞權重計算模塊和XML文件組織模塊構成本地數據庫,然后通過可視化圖形界面模塊與本地數據庫的接口交互,對用戶的檢索關鍵詞圖形化地顯示結果。其中,文本采集模塊在互聯網上搜集網頁文本,將采集到的文本作為原始數據源傳入中文分詞模塊;中文分詞模塊,對文本采集模塊中得到的文本內容進行分詞處理,獲得以詞為單位的語料,并統計詞頻,保存在本地文本,供后續的詞語權重計算模塊讀取詞頻信息計算權重;詞語權重計算模塊,用于對分詞后的結果進行特征抽取即特征詞權重的計算,將計算結果連同對應的特征詞,以及所在文本的標題交給XML文件組織模塊;可視化圖形界面模塊以上述XML文件組織模塊保留在本地的結果數據為基本語料庫,通過與用戶的交互取得用戶命令,并顯示出結果。

2 文本語料庫規范化概述

文本可視化涉及到信息采集,隨著科學技術的逐步發展,網絡也變得越來越普及。而絕大部分信息就分布在遍及世界各地大大小小的網站上,所以如何從互聯網上獲取信息并進行規范化就變得迫在眉睫。本文著重講述提出一個新的框架用來處理和規范多語種文本語料庫,為了擴大語料庫的來源,可以直接創建互聯網的接口,將網頁作為語料庫的直接來源[1]。

文本語料庫收集需要一個加工步驟才能構成所需要的序列,這種序列可用于語音的識別和對話,比如在感知空間用多種方式交互的語音處理等。XML被構想成為一門獨立的語言,其可提供一種可能性在同一個文件中能存儲多種語音。對一種已知的語言,且對于相同的一個語句,可以一樣地保存多種語言層次的分析。比如一篇文獻的整體包括作者、標題、日期、正文等,正文部分可被劃分成為一些段落和一些語句。我們可保存這些原始的語句,然后將這些語句進一步劃分詞、音節、短語;將文本信息格式化成XML的形式,其將為我們提供一種適用于文本文件的模本化、序列化的形式,這種形式將帶來一系列的好處,快速、便利地開發和使用。比如,當需要增加、修改、提取一些新的模本時,將會變得非常容易。而且這些模本將會使從一種語言變成另一種語言變得非常容易。文本信息以標準化、模塊化的形式存在,一方面能繼承一些工具集中處理、加工的特性,另一方面將能夠快速、特定地適用于其他工具的處理。當一種語言翻譯成另一種語言時,可以繼承兩種語言一些共有的部分,而且使得每種語言固有的模塊進行匹配[2]。

本文提出了一種通用XML格式的文本語料庫和介紹了一些工具轉換,規范多語種文本語料庫。更具體地說,在工作中,一個基于XML的文本語料庫是一套文件,包括描述(作者、標題、等)和文字內容。文件的內容將分解成段落和句子。在句子層面把原來的句子(因為這是寫在源文件)進一步分解成為短語、詞、語素、音節等,當然也涉及一些額外的信息,如引理、詞性或類。

3 語言GAWK編寫程序的應用

將原始的中文網頁轉化成為一個可行的電子語料庫,這需要編寫許多應用程序來實現。所有程序都是使用語言GAWK編寫程序來實現的,包括文件的過濾、處理、加工、轉化成XML形式等。同樣的一件工作,以gawk程式來寫會比用其他程式語言來寫短很多。下面介紹所需要做的一些工作。

3.1將原始的文本信息轉換成為結構化的文件

中文網頁的編碼一般使用GB2312,而我們的工作環境是LINUX,它不能處理使用編碼GB2312的文件,所以進行編碼的轉換,由GB2312轉換為UTF-8??墒褂胕conv命令將一種編碼形式轉換成另一種形式。具體的工作中可以創建一個工具箱,在工具箱內創建許多文件,這些文件分別實現不同的功能最終可以將原始的語料庫逐步規范成所需要的序列化的語料庫。下面分別介紹這些文件的功能,其中HtmltoText.awk將輸入的文件utf-8編碼格式的HTML文件轉換成為一個特定的格式化的XML文件,在XML文件中可以建立許多標簽分別用來存放網頁上不同類別的信息。比如,中文網頁上導航欄上的信息可以放在XML文件中的標簽中,再者“<>< >‘表示網頁上一個新的段落開始,’<>”表示網頁上一個新的句子開始。具體目標文件內容格式如下所示(以網頁作為原始的HTML文件)。

3.2將結構化的文件進一步進行其他形式的轉換

Text2XML.awk將上一步生成的XML文件(exple.1)進一步規范化。在上一個步驟中將網頁上的內容分成了許多段落,在這個階段中將每一個段落分離成為多個句子??稍赬ML文件中繼續添加一些標簽,如標簽中放置被分離的句子。SplitOrig2Wd.awk可將上一步分離出的句子再進一步分割成每一個中國字符,為了實現這個功能可向這一階段生成的目標文件中增添一系列的標簽如,將每個字加入到這些標簽中。如、等。Stick.awk根據已創建Lexique-cn.vocab中文詞典文件(這本詞典主要包括2個字的詞匯象中國、美國、經濟等之類常用詞匯)將已經分割成的中文字符(也就是每一個字)粘貼成詞匯。這一步在執行過程中,有一個重要的規則需要用到,粘貼成一個詞的順序是以每一個字出現在原始句子中的先后順序為前提的。要粘貼成2個字的詞匯,如果一個句子中包含“ABC”,而字典中既有“AB”這個詞,也有“BC”這個詞匯,那么在粘貼成詞匯時,選擇的是前者即“AB”,而不是后者即“BC”。Num2Letter.awk要將上一步所產生的目標文件當中的阿拉伯數字轉換成為中文形式,比如50轉換成為伍拾等。Remove.awk鑒于詞匯,一些文字中的標點符號,可以從文檔中移除。

上面所建立的工具包主要應用于對中文文本語料庫的規范化,也可以對工具包進行擴展用于加入其他一些功能或者是對其他的一些語言進行規范化??舍槍ζ渌Z言與漢語的不同之處,對程序進行相應的修改,很容易就能獲取一個新的模塊用以處理其他語言。目前存在著許多方法處理文本語料庫,但是本文描述的該工具包可獲得一個完整、清潔和統一版本不同語言的文本語料庫。

[1]Brigitte Bigi,Viet-Bac Le.Normalisation et alignement de corpus fran?ais etvietnamiens:Format et Logiciels[J].JADT,2008(9):199-207.

[2]Habert B,Fabre C,Issac F.De l'écrit au numérique:constituer,normaliser,exploiter lescorpus électroniques[J].Paris:InterEditions-Masson,1998.

Research and Improvement on the Current Situation of the Standardization of the Existing Text Corpus in China

Sun Wenwen
(Information Science&Technology College,Zhengzhou Normal University,Zhengzhou Henan 450044)

The current domestic for text visualization research still stays in the primary stage,there are many ways to deal with text corpus.With the continuous development of science and technology,network has become more and more popular.We can get a lot of text information from the Internet,this paper focusedon how to obtain the serialization and standardization of the corpus of Chinese to propose a new framework.

corpus;toolkit;text normalization

TP311

A

1003-5168(2016)06-0019-02

2016-05-21

孫溫穩(1974-),女,碩士,助理經濟師,研究方向:人工智能。

猜你喜歡
語料庫網頁規范化
基于HTML5與CSS3的網頁設計技術研究
《語料庫翻譯文體學》評介
基于CSS的網頁導航欄的設計
基于HTML5靜態網頁設計
價格認定的規范化之路
基于URL和網頁類型的網頁信息采集研究
基于JAVAEE的維吾爾中介語語料庫開發與實現
狂犬?、蠹壉┞兑幏痘A防處置實踐
高血壓病中醫規范化管理模式思考
滿足全科化和規范化的新要求
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合