?

文本數據挖掘系統原型方案研究

2008-07-14 10:05奠石鎂
電腦知識與技術 2008年18期
關鍵詞:系統

奠石鎂

摘要:本文在研究文本數據挖掘技術發展基礎上,對文本數據挖掘系統設計進行深入分析,在此基礎上,論文設計實現文本數據挖掘系統原型方案,該方案將文本分析、數據庫和文本數據挖掘技術有機地結合起來,實現了文本特征值提取、特征值清理入庫和關聯規則挖掘等功能。

關鍵詞:文本數據挖掘;系統;原型方案

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)18-20ppp-0c

The Study on Text Data Mining Antetype Solution

DIAN Shi-mei

(Yunnan Medical College, Yunnan 650031, China)

Abstract: Based on the analysis of text data mining technology, the paper makes deep study about text data mining system design. Then the paper puts forward and designs a text miner antetype solution , which combines text analysis, data base and text data mining technology and realizes such functions as text eigenvalue extraction ,association rule mining and so on.

Key words: text data mining; system; antetype solution

1 引言

文本數據挖掘是近幾年才引起大家的關注并發展起來的一個數據挖掘領域的新興分支,與機器學習、統計、模式識別等前緣理論方法密切相關。面對這樣的挑戰,數據挖掘和知識發現技術應運而生,并得以蓬勃發展,越來越顯示出其強大的生命力,成為數據庫研究的一個新領域。文本數據挖掘是通過自動提取文本信息在大量文本數據中發現未知的知識的過程,與自然語言密切相關,其關鍵是把提取的信息組合起來發現未知知識。文本數據挖掘不同于Web搜索,Web搜索是人們事先己知要查找什么,而文本數據挖掘是發現未知知識,事先可能并不存在。文本數據挖掘也不同于常規意義上的數據挖掘,常規數據挖掘是在數據庫中發現感興趣的模式,而文本數據挖掘是從自然語言文本中發現模式。

2 文本數據挖掘技術發展研究

文本數據挖掘可分為基于單文檔的數據挖掘和基于文檔集的數據挖掘閣。單文檔數據挖掘對文檔的分析不涉及其它文檔,主要挖掘方向有文本自動摘要、文檔知識總結發現、信息提取。信息提取又包括名字提取、短語提取和關系提取等,涉及到較深的語言學的知識。文檔集數據挖掘對大規模的文檔數據進行模式抽取,既可以文本自動摘要、文檔總結,又可以進行文本分類、文本聚類、相似性分析、個性化文本過濾和信息檢索。文本數據挖掘目前主要運用特征信息提取、聚類分析方法對文本進行分類,主要應用在信息學和圖書信息檢索方面提高信息檢索效率,有少部分運用語言學的語法結構知識來分析文本內容,但進展緩慢不大。

傳統數據挖掘所處理的數據是結構化的,如關系的、事務的數據庫和數據倉庫的數據,其特征項數目相對較少且結構單一;而文本數據沒有結構,轉換為特征矢量后特征項數目達到幾萬甚至十幾萬個。隨著信息技術的發展,需要處理的文本信息也日益增加,傳統的信息檢索和處理技術已經不能滿足大數據量文本處理的需要。文本數據挖掘既融合了很多傳統數據挖掘的技術,如挖掘算法思想、挖掘流程構架等,又有自己獨特的處理方法,表現在數據抽取、清洗及巨量數據挖掘算法的改進等方面。

文本可分為純文本和超文本,超文本不僅有純文本的性質,還含有各種標記和鏈接引入的結構對象(如聲音、圖片甚至應用程序等)。對純文本和超文本中純文本部分都可以進行內容挖掘。文本內容挖掘又可分為有背景知識挖掘和無背景知識挖掘。有背景知識挖掘是通過分析文本的語法特征和少量語義特征來進行挖掘,使用的背景知識主要是自然語言知識,如主謂賓及修飾性詞句語法分析、通過輔助詞進行語義分析等,主要挖掘結果是文本的語法結構性和語義性特征。無背景知識挖掘則主要是通過統計方法提取文本特征數據,再對這些提取出的數據進行挖掘,挖掘的數據主要是文本的描述性特征,挖掘的結果根據業務需求千差萬別,如可以通過比較提取出的特征數據的相似程度對文本進行分類,可以在文件檢索中提供給檢索者相關特征詞的文件,還可以對文本進行自動文檔摘要處理等。

文本數據挖掘與目前數據挖掘熱點Web數據挖掘也有較大的差別。Web數據挖掘屬于點擊流數據挖掘,主要關注網頁的鏈接,如Google用“PageRank”來度量網頁重要(興趣)程度,還對網頁使用者的個人信息、使用習性等進行挖掘,以更好的檢索信息、改進Web內容結構等,從理論上講還包括文本數據挖掘,但在目前應用中還對文本數據內容本身關注較少。文本數據挖掘主要關注于文本內容本身,先對文本信息進行結構化處理,再利用挖掘算法發現文本中的未知知識或找出文本之間的關聯信息等。文本數據挖掘也與Web搜索不同,Web搜索是查找事先已知的內容,而文本數據挖掘則是發現文本中的相關知識,這些相關知識是事先未知的。

3 文本數據挖掘系統設計分析

文本數據是一種僅具有有限結構甚至是根本沒有結構的數據體,文本的格式可能存在著段落、縮進以及正文與圖形表格等形式的差別,但對內容而言是完全不同的。對一個純文本進行無背景知識關聯規則數據挖掘第一步是通過完全統計文本中二字詞、三字詞、……、n字短語出現的頻率提取文本中的特征數據。所謂“特征數據”在中文文本中主要指按字數分詞處理后得到的詞匯。其前提依據是出現的頻率越高,這些特征詞就對該文本越具有文本語義上的特征描述性,這些高頻率的詞就在一定程度上代表全文的主題思想。通過分析還發現文本數據的存儲結構方面,每個漢字和標點符號等文本數據占兩個字節,而文本中的英文字符則占一個字節:漢字和標點符號文本數據之間沒有間隔符,而每個英文單詞的文本數據之間則有間隔符來分隔。由于文本數據之間的這些特性造成了對中文文本文件數據進行無背景知識統計分析容易引入一些亂碼,這些亂碼一方面可以通過頻率值門限值清除,另一方面還要通過數據清理清除。文本數據挖掘的第二步就是要對統計出的數據進行清理,把亂碼數據和一些達到統計頻率門限值的特征數據清除掉,保證提取出的特征數據既能表達文本的特征信息,又能保證數據挖掘數據正確性的要求,最后把提取出的特征數據加入到數據庫中。

文本特征值提取是文本關聯挖掘系統中的一個關鍵步驟,而文本關聯挖掘系統的困難之一便是特征值空間的維數過高,特征值的維數對應著文本中不同詞匯的個數。數量巨大的特征值維數一方面導致挖掘算法的代價過高,另一方面導致無法準確地提取文檔的特征信息,造成挖掘效果不佳。需要在不犧牲提取特征質量的前提下盡可能地降低特征項空間的維數?!疤卣鬟x取”的任務就是要將信息量小、“不重要”的詞匯從特征項空間中刪除,從而減少特征項的個數。特征值提取是一個維數歸約的過程,即刪除不重要的特征值從而減少特征空間的維數。文本特征值提取中,不同的詞在文本文件中出現的次數是不相等的,對文本內容的貢獻也就有大有小,因此還要考慮詞在文本中的權重。把文本特征數據提取出來并加載到數據庫以后,就要對這些特征數據進行數據挖掘以發現這些特征數據之間的關聯規則。關聯規則數據挖掘是通過以每個文件名作為標識號,以文本的特征數據及其權重值作為文件名標識號下的數據項,對這些數據項進行關聯分析可以發現文本中隱含的信息和這一組文本文件之間的一些關系。關聯分析算法通過統計交易數據庫中每項交易記錄中每個候選集出現的次數作為該項集的支持計數,然后比較支持計數和其支持度期望,得到頻繁項集,最后生成關聯規則。本系統原型采用加權關聯規則算法。這些挖掘結果既可以用于單文檔的自動關鍵字提?。哼€可用于信息關聯檢索,提供給用戶信息檢索時更廣闊的密切相關的信息,幫助人們提高處理大量文本數據的效率;以及發現隱藏在文本文件之間的語義內容知識。

4 文本數據挖掘系統原型方案

本文在對分析文本數據挖掘相關理論算法基礎之上,設計實現文本數據挖掘系統原型TextMiner方案。TextMiner將文本分析、數據庫和文本數據挖掘技術有機地結合起來,實現了文本特征值提取、特征值清理入庫和關聯規則挖掘等功能。TextMiner主要由數據抽取、特征值清理、特征值入庫、關聯規則數據挖掘和規則應用幾部分構成。

(1)確定目標樣本:由用戶選擇確定挖掘目標的文本樣本,用于數據抽取模塊進行文本特征值的提取。

(2)數據抽取:對用戶指定的純文本文檔集,按照用戶指定的特征值最低統計計數提取文本中的特征值。特征值抽取是采用無背景知識的抽取方法,對文本的二字詞組、三字詞組、……、n字詞組出現的次數進行統計,若出現次數超過指定的最低計數則把這個詞組作為該文本的一個特征值。

(3)特征值清理:對數據抽取得到的特征值進行清洗。文本文件的抽取是在文本中按位置讀出,一些位置上出現一些無自然語義的控制符也被讀入形成無意義的亂碼,若這些亂碼超過最低統計計數,則也被加入到特征值中,所以有必要對特征值中這些無意義的亂碼進行清洗,以保證數據庫中數據的一致性和準確性。

(4)特征值入庫:把數據清理后的特征值加入到數據庫中,同時入庫的還有文本文件的相關屬性值,如文件名、文件路徑、創建時間、最后修改日期、入庫時間等。

(5)關聯規則挖掘:特征值裝載入數據庫后,每一個文本文件對應一個特征值向量,與商品交易數據庫中交易標識號和交易記錄類似。運用加權關聯規則算法對這些特征值向量進行關聯挖掘,得到關聯規則。

(6)應用:TextMiner主要考慮把系統挖掘出的關聯規則用于未知知識發現、文本內容檢索,其它擴展應用還有文本聚類、自動文本關鍵字提取、自動文本摘要等。

圖1 文本數據挖掘系統原型方案

5 結束語

文本內容挖掘才剛剛起步,其前景十分廣闊,將成為信息檢索和情報分析中的一個重要課題,同時把文本內容挖掘的研究成果應用到搜索技術中將為人們提供更準確的有價值的搜索結果。

參考文獻:

[1] 鐘艷花,余偉紅,余永權.web文本挖掘系統及其關鍵技術研究[J].計算機工程與應用,2006(34):167.

[2] 湛燕,陳昊,袁方.文本挖掘研究進展[J].河北大學學報(白然科學版).2005,23(2):221.

[3] 薛為民,陸玉昌.文本挖掘技術研究[J].北京聯合大學學報(自然科學版),2005,19(4).

[4] 范亞芹,劉穎,李興男.web數據挖掘原理及實現[J].吉林大學學報,2004(21).

[5] 高潔,吉根林.文本分類技術研究[J].計算機應用研究.2006.7.

收稿日期:2008-04-13

猜你喜歡
系統
Smartflower POP 一體式光伏系統
WJ-700無人機系統
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
重訪 Duffing 系統中的對稱破裂分岔與激變
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合