?

基于漢語科技詞系統的專利文獻標引及應用研究*

2013-03-15 03:56張兆鋒中國科學技術信息研究所北京100038
數字圖書館論壇 2013年11期
關鍵詞:詞表標引主題詞

□ 張兆鋒 / 中國科學技術信息研究所 北京 100038

/ 南京大學信息管理學院 南京 210093

桂婕 張運良 / 中國科學技術信息研究所 北京 100038

劉喜文 / 南京大學信息管理學院 南京 210093

基于漢語科技詞系統的專利文獻標引及應用研究*

□ 張兆鋒 / 中國科學技術信息研究所 北京 100038

/ 南京大學信息管理學院 南京 210093

桂婕 張運良 / 中國科學技術信息研究所 北京 100038

劉喜文 / 南京大學信息管理學院 南京 210093

文章介紹了利用漢語科技詞系統的詞表及詞間關系對中文專利文獻進行主題標引的研究進展,根據專利文獻的特點設計了相應的標引策略和流程,并進行實驗及結果分析,證明了本標引方案的有效性,最后對標引結果在專利檢索中的應用特色進行了介紹。

標引,專利標引,主題標引,科技詞系統

1 引言

專利作為一種科技文獻,與期刊論文相比,它提供更全面、更直接的技術信息,其內容具有廣泛性、可靠性、創造性、實用性的特點,是掌握最新技術的重要信息源之一。據研究,全世界的發明成果70%~90%出現在專利文獻中。如果充分利用專利文獻,可以縮短60%的科研周期,節約40%的科研經費[1]。專利文獻是科技創新的體現,同時又是創新的基礎。隨著十八大“實施創新驅動發展戰略”,作為創新載體的專利文獻資源的挖掘與利用必將受到越來越多的重視。

專利文獻與科技論文相比,無關鍵詞字段。因此它不能像論文一樣可通過關鍵詞準確地揭示論文的主要內容,提高檢索的準確性和效率,并基于關鍵詞進行內容方面的深度挖掘,如文獻自動分類和相似性計算等。為了更有效地利用專利文獻資源,服務于技術創新、科研和支持管理決策,本文嘗試基于漢語科技詞系統對中文專利文獻進行主題詞標引,進而給每篇專利賦予主題詞,以便更好地揭示資源,充分利用專利文獻,實現專利信息的精準檢索及與主題相關的分析挖掘服務。

本文在接下來的章節會首先簡要介紹現有的文本標引方法,基于此提出本文采用的標引方法,并介紹相應的詞表及標引策略設計。然后進行實際的標引程序開發實驗,并對實驗結果進行分析,總結此種標引方法的優點和不足,最后對標引的結果的應用場景進行設想。

2 專利標引概述與漢語科技詞系統

2.1 專利標引概述

專利標引指用一個或多個詞來表現專利內容特征及相關技術、算法、組件的過程[2]。根據自動化程度可分為手工標引、機助標引和自動標引;根據標引的詞語的來源不同,可分為抽詞標引和賦詞標引[3]。專利標引的主要對象是專利主題、核心技術、重要算法、關鍵部件等,便于建立專利內容層面的知識關聯,實現對隱含信息的挖掘。李宏芳等人對三個較權威的中文專利數據庫的標引質量進行了測評[4],發現中文專利數據庫的主題標引深度不夠,對非題名關鍵詞的標引不足,不便于從內容層面對相似題名的專利進行區分檢索。同時,由于目前還是以手工標注為主,標引效率較低,標引結果也受標引人員主觀影響較大。要改善此類問題,需要借助于大規模的權威詞表和計算機的自動化技術[5]。

2.2 漢語科技詞系統

漢語科技詞系統(簡稱詞系統:http://www.vocgrid.org/)是中國科學技術信息研究所提出并開發的面向中文為主的科技信息資源管理及深層次知識服務的知識組織系統[6]。該系統為中文科技信息資源的內容處理提供詞匯層面的語義支撐,并建立了一定規模的領域科技詞表,使對海量文獻資源的智能、全面、準確的賦值標引提供了可能。本文探索如何利用大規模詞表結合計算機智能技術對海量專利文獻進行標引的方法。

3 標引策略設計

對專利文獻進行標引,要首先了解專利文本的特點,根據特點設計標引的策略和流程。

3.1 專利文獻的特點

專利文獻作為一種科技成果載體,詳細客觀地描述了發明創造的對象名稱、原理、組成、流程等內容。一般包括專利號、發明名稱、摘要、權利要求書、國際分類號、發明人、申請人、申請日期等題錄信息。專利文獻不同于文學作品,專利描述的語言風格客觀、樸實,不使用比喻、擬人等修辭手法。專利描述用詞具體說有如下特點:

(1)文中的詞語都是如實反映所描述的物體、組件、元素等對象本身的概念,為主題詞賦詞標引提供了很好的前提條件。

(2)專利主題詞會多次出現。作為專利描述的主要對象,能夠代表或接近專利主題概念的詞匯在專利全文中往往會重復出現,多次被提及,因此是專利的主題詞概率更高。

(3)由于專利發明多是對某一小部件或某一新類型的發明創造,因此詞系統中的上下位詞會在專利文本中有較多體現。而下位詞往往是專利發明的具體對象,上位詞是該發明的所屬類別描述,因此標引時應使用下位詞優先標引策略。

(4)專利發明標題與專利文摘和權利要求項相比,標題更能體現專利主題所在,在標引策略設計時應給予更高的權重。

(5)專利文本行文比較規范,很少出現口語化的詞匯和縮略語、簡稱等。因此,在文中出現的能和主題詞表中詞匯匹配的詞語都可作為主題候選詞。

3.2 標引策略

以前的相關研究多為對新聞材料[7]、科技文獻[2]、學位論文[8]等進行標引,對專利文獻的標引研究較少。各種文獻由于文體特點、內容、結構不同,需要制定不同的標引策略。本文詳細分析了專利文獻的特點,制訂了如下的標引策略:

(1)標引源。專利發明名稱一般能比較明確地指出發明的對象,但有些專利直接以一個較上位類的概念詞作為發明名稱,如“汽車”、“電池”等。僅以此為標引詞,檢索時還不能提高查準率。而專利摘要和權利要求書可以對發明名稱有很好的補充。摘要是對發明的具體原理、結構、功能的概要介紹,權利要求書是對專利所聲明保護權利的具體描述,專利所要保護的核心技術和對象會在權利要求書中有所體現。因此,本文選擇發明名稱、摘要和權利要求書作為標引源。

(2)標引權重。自動標引策略設計中對標引源權重的設計很重要,設置不當可能會遺漏主題詞,或者引入干擾詞,需要根據各個部分對主題的表達能力不同給予適當的權重。根據侯漢清、章成志、鄭紅等人對Web語料標引源加權方案的研究知道,“題名具有很強的表達能力”[9],同樣在專利中,專利發明名稱應該具有最高的權重,同時根據專利標引源的特點,摘要和權利要求書描述中同樣的主題或部件名稱會重復出現,因此需要提高標題中主題詞的權重,保證標題中出現的主題詞被標引的優先權?;诖?,對專利標引源權重設計如表1所示。

(3)選詞。詞系統中有一些單字主題詞,如“碲、鋯、鎘、銠”等。單字主題詞多為某元素名或很上位的概念,標引專利意義不大,且對確定正確的標引詞有較大干擾,本文中的標引詞選擇詞系統中詞長大于或等于4個字節的主題詞。

(4)標引算法。在專利文本中,下位詞比上位詞更具體,為了提高檢索的查準率,優先標注下位詞,一般來說下位詞比上位詞長度更長,因此標引時根據詞長順序進行文本匹配標引,并采用正向最大匹配算法。

表1 標引源權重分配表

(5)確定標引詞。根據文本中出現的主題詞詞頻加權求和(簡稱權和),結果從高到低排序,取前5個主題詞作為本篇專利的標引主題詞。若與第5個主題詞權和相同的還有其他主題詞,則都列為標引主題詞,權和為1的主題詞舍棄,即使不夠5個。

4 標引實驗

4.1 實驗環境

本實驗采用的軟硬件環境如下:

硬件環境:服務器內存2GB及以上,服務器CPU3.0GHz及以上,服務器硬盤空閑空間100G及以上。

軟件環境:操作系統Windows XP SP2/SP3、Windows Vista、Windows7,客戶顯示器分辨率1024 ×768及以上,數據庫SQL Server 2008及以上版本,瀏覽器采用IE 7.0以上,IIS7.0、.Net 3.5及以上。

4.2 數據庫設計

本實驗選擇的標引源為12041條專利新能源汽車領域的中文專利,主要字段為專利號、發明名稱、摘要和權利要求書。用于匹配的詞系統主題詞為54750(包括核心詞,不含單字主題詞)。

數據庫表存儲標引源和標引結果,本實驗用到的主要表格如表2、表3、表4所示。表2用來存儲標引源數據,表3存儲領域主題詞,表4為詞間關系表。

4.3 標引流程圖

標引的流程圖如圖1所示。先取一條專利,讀取該專利的發明名稱,然后調用詞系統中的相應領域詞表進行正向最大匹配。如果某主題詞在標題中有匹配,則計算該主題詞權和為詞頻數乘3,并記錄在標引庫中。接下來依次對摘要和權利要求書進行標引統計,權和計算為詞頻乘1,存入標引庫中。在該專利三部分標引完成后根據標引庫中的記錄計算各主題詞的總權和,根據權和的大小從高到低排列,取權和最大的5個詞為標引主題詞,然后處理下一條記錄,直到所有待標引專利處理完成。

表2 標引專利表

表3 領域詞表

表4 詞間關系表

5 實驗結果討論

5.1 標引結果展示與分析

為了便于分析標引的結果,把標引的結果以網頁的形式展示出來,并通過不同的顏色來區分標引詞是基礎詞還是核心詞。如圖2所示,左側為被標引的專利列表,右側為標引結果顯示,能與主題詞表匹配的詞都以顏色標注出來,顯示紅色的為核心詞,藍色的為基礎詞。詞頻統計部分為在該篇專利中涉及的主題詞及數據統計結果展示。主題詞后邊括號內“/”前后有兩個數字,前者為該詞在本篇專利中出現的詞權和,后者為該詞在所有標引源專利中出現的詞權和。

在專利技術檢索時,檢索者最重要的檢索途徑是專利產品名稱、產品部件、核心技術、核心算法等。因此,在對標引結果進行評估時主要是看能指引到這條專利的這些核心部分是否標出。由于專利標引即使是手工標引,不同的人標引結果差別也比較大,而對標引結果的評估主觀性也比較強,因此,筆者采用多人打分取平均值的方法進行結果評價。具體做法是,隨機取500條標引結果,分為5組,由5人對結果進行打分,打分方案如表5所示,根據標引詞對專利內容主題的覆蓋度進行打分。通過對打分結果的統計計算,標引結果的平均得分為81.5分,最多的標引詞為8個,最少的標引詞為5個,平均單篇的標引詞數為6.3個。

圖1 專利標引流程圖

圖2 專利主題詞標引結果

根據統計結果可知,標引詞對專利文本內容有較好的覆蓋,但也有不足的地方,在已選為標引詞的主題詞中也有一些是沒有標引意義的,如“產品(4/509)”,說明“產品”一詞在某專利中出現權和為“4”,總權和為“509”,“產品”一詞為普通概念,沒有專指性,不適合做標引詞,同樣的情況還有“運行(3/1962)”、“系統(3/3042)”等。通過分析可知,詞系統中收集的領域詞匯是該領域盡量全的詞匯,包括一般性概念詞匯,而專利中的檢索大多以名詞為主,專指性強,而標引的正確性還有賴于詞表的有效性。因此,應在詞系統中建立專門用于專利標引的詞表,同時評價時考慮詞語之間的語義關系、部件名詞之間的組合關系,可以有效提高標引結果的有效性和滿意度。

5.2 標引結果應用

利用詞系統的領域主題詞對專利文獻的主題標引,可以充分利用詞系統的特色功能,對專利資源進行合理存儲、深度揭示和精確檢索,并利用主題詞建立與其他科技資源的關聯。具體的特色應用如下:

(1)通過詞間關系進行擴縮減,有效提高檢索的查全率和查準率。用來標引的主題詞都是詞系統中收錄的主題詞,由于主題詞之間建立了各種關系,可以充分利用詞間關系進行檢索。如圖3所示,當在檢索框中輸入關鍵詞“ABS”時,在輸入框下自動列出與“ABS”有相關關系的主題詞,包含“材料-成品”、“拆解為”、“借助”、“類屬”、“全稱-縮略同義”、“異名同義”、“子類”等7種關系,同時在右側列出相應關系對應的主題詞,通過勾選主題詞前的復選框可以擴縮檢索范圍或者提醒用戶具有相關關系的主題詞,提高用戶檢索的針對性。

(2)提高檢索效率。由于專利申請量逐年激增,據統計,今年到目前為止(9月)的專利申請量已超過去年全年。標引后的專利可以根據標引詞檢索,避免對上千萬條專利全文匹配檢索的存在歧義、效率低下的缺點,實現專利技術精確快速檢索定位。

表5 標引結果評價打分方案

圖3 基于詞系統的專利檢索

(3)實現與其他科技資源的關聯。若用類似的方法把科技文獻、科技論文或科技新聞等資源也用詞系統的主題詞進行標引,可以實現以主題詞為紐帶的資源關聯,更有效地把各類資源整合起來,實現為科研技術人員的一站式資源提供服務。

(4)新詞發現。由于專利文獻是發明創造的描述,經常會有新的詞匯創造出來,而在詞系統中本來是沒有的。通過對標引結果的分析可看出,有些標引詞在文中是連在一起的,而且本身可以作為一個主題詞,而詞系統中卻沒有收錄。比如,有篇專利名稱為“折疊式電動踏板車前置兒童座椅”,在本系統標引結果頁面顯示“兒童座椅”四字皆為藍色、但統計結果是:兒童(3/134)、“座椅(3/387)”,說明系統中只收錄了“兒童”、“座椅”兩個主題詞,而“兒童座椅”沒有被收錄,它可以作為“座椅”的下位詞添加進詞系統。因此,標引結果可以用來進行新詞發現,通過設置一定的推薦機制,根據標引的結果向詞系統推薦新詞,經過專家審核后正式成為主題詞。

此外,還可以根據標引結果數據的統計反過來優化詞系統的構建。比如,在主題詞表中檢索詞詞長大于16個字節且被用來標引次數為0的主題詞中,會發現有些不是主題詞的記錄,如“變速器輸入軸與輸出軸以各自的速度旋轉”、“能自動對各車輪的制動和發動機動力進行控制”等。通過這種方法可以快速地對加工后的詞表質量進行評價,發現并刪除詞表建設中所收錄的錯誤詞條,提升詞系統建設的質量。

6 結語

本文利用漢語科技詞系統新能源汽車領域詞表的建設成果,對該領域的中文專利進行主題標注模型設計,并進行實證分析。實驗結果表明,基于詞系統的權威性、語義性、全面性,標引結果能達到令人滿意的結果,通過建立針對專利標引的專用詞表,更能有效提高標引質量。此外,通過對標引后的專利與詞系統的結合,提供專利的語義檢索,提高了檢索的查全查準率,同時降低了用戶的檢索難度,提高了專利檢索系統的易用性。同時,通過標引系統與詞系統的接口設計,保持了標引系統用詞與詞系統主題詞建設同步更新。

本文主要探討利用主題詞表及關系對專利標引的方法,未來可以把語法、語義的因素結合進來,實現綜合的智能標引,進一步提高標引的準確性和完備性,更有效地實現專利資源的揭示和挖掘,為企業創新和決策支持服務。

[1] 魏衍亮.企業專利情報戰略初探[J].中國科技產業,2004(7):45-49.

[2] 蘇新寧,鄒曉明.文獻信息自動標引研究[J].現代圖書情報技術,2000(1):23-26.

[3] 章成志,蘇新寧.基于條件隨機場的自動標引模型研究[J].中國圖書館學,2008(5):89-94,99.

[4] 李宏芳,鄒小筑.中國專利數據庫標引質量測評[J].現代情報,2010(12):58-61.

[5] 章洪流,徐偉,吳倩,等.關鍵詞標引常見問題探討[J].中國發明與專利,2008(8):65-67.

[6] 喬曉東,張運良,朱禮軍.漢語科技詞系統建設與應用進展[J].情報學報,2010,29(6):978-986.

[7] 查貴庭,侯漢清.基于多詞表的自動標引技術研究:新華社新聞稿自動標引的實驗[J].情報學報,2002(3):273-277.

[8] 全根先.學位論文的主題標引及其規范[J].學理論,2011(30):89-91,97.

[9] 侯漢清,章成志,鄭紅.Web概念挖掘中標引源加權方案初探[J].情報學報,2005,24(1):87-92.

Research of Patent Indexing and Application Based on Chinese Scientiflc and Technical Vocabulary System

Zhang Zhaofeng / Institute of Scientiflc and Technical Information of China, Beijing, 100038
/ Nanjing University, Nanjing, 210093
Gui Jie, Zhang Yunliang / Institute of Scientiflc and Technical Information of China, Beijing, 100038
Liu Xiwen / Nanjing University, Nanjing, 210093

This paper introduces a method on how to index patent based on Chinese Scientiflc & Technical Vocabulary System. Tactics and flow are designed according to the characteristics of the patent literature. And experiment is also made, then the authors analyze the result, which verifles the availability of the method. Lastly, special application features of the result are also mentioned.

Indexing, Patent indexing, Subject indexing, Scientiflc & Technical Vocabulary System

10.3772/j.issn.1673—2286.2013.11.003

張兆鋒,男,1979年生,在讀博士,助理研究員。研究方向:專利分析、數據挖掘、信息可視化。E-mail: zhangzf@istic.ac.cn

桂婕,女,1976年生,博士,副研究員。研究方向:專利分析和科技創新管理。E-mail: guij@istic.ac.cn

張運良,男,1979年生,博士,副研究員,研究方向:知識組織、知識工程、自然語言理解、文本自動分類。E-mail: zhangyl@istic.ac.cn

劉喜文,男,1983年生,在讀博士。研究方向:數據挖掘、本體技術。Email:liuxiwenhit@163.com

2013-10-14)

*本文獲得中國科學技術信息研究所預研基金項目“基于漢語科技詞系統的專利文本標注模型構建與應用”(編號:YY201225)的資助。

猜你喜歡
詞表標引主題詞
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
檔案主題標引與分類標引的比較分析
本刊對來稿中關鍵詞標引的要求
敘詞表與其他詞表的互操作標準
本刊對來稿中關鍵詞標引的要求
我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
2014年第16卷第1~4期主題詞索引
《疑難病雜志》2014年第13卷主題詞索引
本刊對來稿中關鍵詞標引的要求
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合