?

文本分類算法在山東女子學院檔案管理的應用

2016-10-11 09:36法漢英
科技視界 2016年24期
關鍵詞:文本分類

法漢英

【摘 要】高等教育的快速發展使學校檔案館要管理的檔案越來越多,許多學校針對這種情況采用檔案管理軟件對檔案進行管理,據調查在我校沒有對檔案文件進行自動分類功能,為減輕檔案工作人員工作量便研究一種適合我校檔案的文本自動分類方法。本文大體論述文本分類算法的知識點和文本分類算法的應用。根據山東女子學院檔案的重復性、周期性等特點,詢問檔案館工作人員采用手工對檔案進行分類時,需要知道檔案主題名和檔案人信息確定歸屬于哪一個類別。本文將檔案按照主題名看作不同類別應用加權分類算法對屬于不同的類別的檔案進行自動分類處理。

【關鍵詞】文本分類;山東女子學院檔案;短文本;加權分類算法

1 研究背景和意義

對于檔案人員來說文本分類不是一個陌生的概念,過去用手工進行檔案分類。隨著計算機快速發展出現了許多文本文件。對文本進行有效的分類,利用計算機進行文本分類研究和應用尤為重要[2]。

分類的意思是將具有共同特定特征的事物放在一起方便檢索。最典型的分類應用是在超市里商品排放,例如把不同品牌薯片放在一個貨架上,把餅干放在另一貨架上。這種好處是讓顧客在買東西時能比較品牌信息為購買做決定。用戶在下次購買東西的時候會直接前往該位置。

文本分類是把有相似特征的文本歸納到一起方便查詢。面對海量的檔案信息,目前的管理模式是依靠專業人員在檔案管理系統中進行手工分類工作,利用文本分類算法對山東女子學院檔案系統進行管理以提高檔案管理水平。

2 文本分類相關技術

2.1 文本分類的概念

文本分類是指在一定的分類體系下根據文本的內容自動確定文本類別的過程[1]。文本分類是文本挖掘的一個分支。

2.2 文本分類和文本挖掘

文本知識又稱為文本數據挖掘。文本挖掘不同于數據挖掘,數據挖掘面對的是結構化數據。文本挖掘面對是非結構化的文本,因此決定它采用的方法與數據挖掘不同。文本分類屬于文本挖掘的范圍。

2.3 文本預處理

文本預處理在分類中很重要。文本預處理包括以下幾個方面:1)中文分詞[3]。中文分詞是將句子分為單詞和詞組的過程。2)詞性標注[4]。詞性是詞語的屬性,例如名詞,形容詞等。3)停用詞過濾[5]。停用詞指的是輔助詞。如“的”這些詞出現在大量的句子中如不處理會影響分類效果。4)實體識別[6]。實體識別是指對人名、地理位置等實體名字的識別。

2.4 文本表示

文本表示就是將文本預處理得到的特征詞表示成計算機所能處理二進制數。

2.5 文本特征選擇與特征抽取

對文本特征進行篩選,選出最能代表文本類別的特征,這個過程就是特征選擇[7]。對每個特征計算其統計的度量值,設定一個閾值T,把度量值小于T的特征值過濾掉,剩下的是有效特征。特征抽取通過對初始特征空間進行扭曲、拉伸或者旋轉等變換得到一個新的低維數特征空間的過程。

3 針對山東女子學院檔案的基礎詞庫的創建

根據學院檔案管理的特點結合文本分類技術的發展,提出一種用于學院檔案的基于語義的短文本加權自動分類算法。

3.1 基于山東女子學院檔案自動分類算法的基礎庫設計

對于一份檔案而言,其名字包括該檔案的所有內容,檔案進行計算機分類無需全文分析,只需對檔案的名字分析。

本算法通過對檔案名字信息中特征詞提取和分析來進行檔案的歸類。通過對已分類的檔案名字進行統計分析,將與各個類別相關度高的關鍵詞提取出來建類別詞庫并根據關鍵詞與類別之間的關聯度的強弱為其分配相應的權值,可創建詞庫表。在檔案名字中存在大量的詞如“關于”、“通知”等與分類無關詞,為提高文本在提取特征詞的準確度減少冗余詞的出現,需創建停用詞庫。通過對檔案文件責任者信息提取創建一個責任者詞庫。通過分析確定該檔案所屬的大類類別。

3.2 分類詞庫的創建

類別詞與類之間的關聯度能夠區分,需要為其類別詞與類之間的關聯度建立權重來表達這兩者的不同。當某一類別詞與類之間的關聯度非常緊密時,需要為其賦予較高的權重系數,是該類別詞的檔案文件能夠分到指定的類別。當一份檔案中有多個類別詞,且這些類別詞的檔案有屬于不同的類別號時,可以通過權重計算來確定該份檔案應該分到哪個類號中。

4 基于語義的短文本的加權分類算法

在完成基礎詞庫的創建后,采用加權分類算法對檔案文件進行分類。算法的步驟為:

1)在責任者詞庫搜索該檔案責任者信息,確定該檔案屬于的大類類別。2)用停用詞表對檔案文件名字進行遍歷去除停用詞。3)根據1)確定的類別在類別詞庫中遍歷,提取文本類別詞及其對應的權值。4)將獲得的類別詞及其對應權值進行分類加權匯總并進行比較取得最大值即為該份檔案所屬的類別。

4.1 基于語義的短文本加權自動分類算法

經過這些工作后,對檔案文件進行自動分類可以分為以下步驟:1)獲得待分類檔案責任者信息,用責任者信息在責任者詞庫中檢索獲得待分類檔案的類別。2)對名字進行停用詞操作,去除文本中的停用詞,將待分類的短文本進一步縮短。將相同的分類號合并并計算類別詞的權值進行比較確定最大值,最終確定待分類檔案所屬的類別。

4.2 短文本的處理

首先對短文本進行遍歷,去掉其中的停用詞,再根據類別詞庫中的詞匯與題名中的內容進行比較,最后從中提取出的類別詞作為分類結果。

4.3 合并分類號并權值求和

經過之前的工作,所有的分類主題詞所歸屬的分類號及對應的權重全部得到,即可開始計算權重最終確定其類別。最終運行步驟如下:1)從待分類檔案表中讀取第一條記錄。2)根據該條檔案的責任者信息,判斷其所屬的大類。3)在該大類下的二級類別詞庫中對檔案文件的名字進行遍歷,取得類別詞及相應的權值。4)合并相同類號,對權值求和。5)判斷是否存在唯一最大值,若存在則可直接確定類別;若不存在則轉入人工處理。6)讀取下一條,循環直至完成。最終便完成了對山東女子學院檔案的分類。

4.4 檔案分類應用分析

通過對山東女子學院檔案的自動分類,可以大大減輕了檔案管理工作人員的工作量,對文件進行分門別類的整理,做到井井有條,層次鮮明。通過文本自動分類對各類文本信息進行有效的組織分類,可以高效的為用戶提供信息檢索和信息存儲形成了學校對檔案的獨特管理。

5 總結

跟其他類的文本分類方法相比較,本文所設計的基于山東女子學院檔案的文本自動分類算法的復雜度大大降低了,取消了文本訓練的復雜過程,直接將學校檔案的各類關鍵詞和停用詞依靠人工經驗學習進行了手工構建,然而詞庫的構建很復雜,需要根據分類情況的反饋不斷的調整補充。由于學校所管理的檔案內容的特殊性,為了提高分類的效率,本文中所采用的這種簡單實用的算法經過分析可以減少檔案工作人員的工作量,達到了預期目的。

【參考文獻】

[1]程傳鵬.中文網頁分類的研究與實現[J].中原工學院學報,2007(1).

[2]中國互聯網網絡信息中心.第三十一次互聯網發展統計報告[R].2013-01.

[3]龍樹全,趙文正,唐華.中文分詞算法概述[J].電腦科學與技術,2009,10:2605-2607.

[4]陳曉文.自動詞性標注方法的比較[J].溫州大學學報,2009,01:53-57.

[5]化柏林.知識抽取中的停用詞處理技術[J].現在圖書館情報技術,2010.08:48-51.

[6]孫鎮,王惠臨.命名實體識別研究進展綜述[J].現在圖書館情報技術,2012,06:42-47.

[7]張東禮,汪東升,鄭偉民.基于VSM的中文文本分類系統的設計與實現[M].清華大學出版社,2003.

[責任編輯:李書培]

猜你喜歡
文本分類
基于稀疏編碼器與集成學習的文本分類
基于組合分類算法的源代碼注釋質量評估方法
不同情境下中文文本分類模型的表現及選擇
基于內容的英語錄音教材標注研究與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合