?

敘詞表等同概念映射研究*

2018-09-18 02:32劉偉吳雯娜王星
數字圖書館論壇 2018年8期
關鍵詞:詞表原形術語

劉偉 吳雯娜 王星

(中國科學技術信息研究所,北京 100038)

知識組織系統旨在表達特定學科或領域中概念和實體間的語義結構,敘詞表是其中代表性的知識組織系統之一。敘詞表以概念為單位,具有規范、簡明的詞間關系,在傳統信息組織中,極大提高了文獻的信息組織與信息檢索能力[1]。數字化和網絡的發展,推動了敘詞表的出現、傳播和應用。隨著敘詞表的增多,對敘詞表的合并與融合成了重要的應用需求和研究方向。通過對相同或相近領域敘詞表的融合,可以形成概念和語義關系更加全面的知識組織體系?!吨袊诸愔黝}詞表》是將《中圖分類法》(第三版)與《漢語主題詞表》進行融合的結果[2];醫學領域普遍使用的UMLS是將上百部生物醫學領域的敘詞表,利用規范的關系進行融合,是生物醫學概念所構成的一部全面的敘詞表[3]。

敘詞表的融合或歸并,是指不同敘詞表中概念和語義關系的融合,不同敘詞表覆蓋的學科領域既有重疊又有差異,其中概念體系在詳略、結構等方面也不相同,使得融合過程充滿挑戰。常春等[4]討論了敘詞表詞間關系(等同關系、相關關系、等級關系)的合并方法;吳雯娜等[5]對敘詞表融合中語義關系沖突的問題進行分析,并提出相應技術方案;鄧盼盼等[6]基于詞表內聚合關系與映射類型的關聯提出概念映射關系的處理方案,并討論了產生映射干擾的若干原因;薛春香等[7]對基于詞形、結構和語料的術語映射方法進行總結,對術語映射中的方向性、不一致性、傳遞性等相關問題進行了討論。作為另外一種知識組織系統,本體間的集成、對齊等操作也需要在領域概念間建立起映射,Choi等[8]對其中的映射問題和相應的映射技術做出回顧和總結。雖然本體和敘詞表存在語言規范、組織結構等方面的區別,但許多思想方法可用于敘詞表的融合。

由于敘詞表以概念為單位,多部敘詞表進行融合時,首要步驟是建立敘詞表間概念的映射。概念的映射類型可以分為等同、組代、多重屬分等[6],其中等同概念間的映射是最主要的類型。不同敘詞表的規模不一,有的敘詞表概念量非常大,如EI敘詞表(1993年版)有上萬個概念。在多部詞表之間大規模建立等同概念的映射,完全采用人工方式在時間和成本上不現實。因此,在實際操作中,主要依靠計算機按照一定規則自動生成候選的概念映射,然后由領域專家進行人工審核。目前候選映射的生成規則是基于字符串的匹配,這種方式在有效性和效率方面都存在諸多問題和隱患,本文將以英文敘詞表中的概念為例,討論分析目前敘詞表間概念映射存在的問題,同時提出相應的解決方案。

1 等同概念映射中的問題分析

敘詞表主要包含用、代、屬、分、族、參等類型的詞義關系,在多數情況下,用項(敘詞)和代項(非敘詞)之間表現為同義關系,成為建立等同概念映射的主要依據。在實際的映射操作中,一般把一個概念看作一個同義詞群,用項作為該詞群的優選詞,代項作為該詞群的非優選詞。這是由于在一般情況下,用項和代項屬于同義關系,而且可通過一定方法識別剩余非同義關系的用代項[9]。對不同敘詞表間的概念進行比對時,如果兩個概念對應的詞群優選詞完全相同,那么這兩個概念就形成一個候選映射,即兩個概念可能為等同關系。隨后,由領域專家審核決定候選映射是否成立。也有文獻[10-11]提出較為復雜的語義相似度計算方法,雖然理論上是一種可選擇的方法,但在實際上計算代價較高,且有效性還有待提高。

敘詞表之間進行等同概念映射時,可能的問題主要有映射錯誤和映射丟失兩類。映射錯誤指不同的概念被映射在一起,映射丟失指等同概念沒有被映射在一起。以下將對可能導致這兩類問題的各種情況進行討論分析。

1.1 用項不同

敘詞表在編制時,對一個概念所有的同義詞,應采用最廣泛接受的術語作為用項(優選詞),其他作為代項。早期的敘詞表主要是領域專家依據其背景知識,依據各類工具書、專業術語等進行人工選詞。較新的敘詞表主要是以計算機為主,通過計算共現強度和詞頻等,自動從網絡文獻庫中的關鍵詞、網絡熱點詞及網絡百科資源中選取[12]。因此,敘詞表編制時如果采用不同的敘詞選擇方法,同一個概念可能出現不同的用項術語。舉例來說,早期敘詞表一般會采用概念的全稱作為用項,對應的縮略詞作為代項,這主要是考慮到縮略詞可能對應多個概念,含義不明確;在較新的敘詞表中,如果一個縮略詞被廣泛熟知,且在敘詞表領域中含義明確,而全稱很少使用,該縮略詞會被選為用項,全稱被選為代項。如“human immunodeficiency virus”(人類免疫缺陷病毒)和其縮略詞“HIV”。

通過上述分析得出,只通過用項匹配進行等同概念間的映射,顯然會出現等同概念映射丟失的情況。為解決該問題,實際進行概念映射時,放寬了映射的限制,只要兩個概念的同義詞群有匹配的術語(不論用項還是代項),就將其作為候選映射。這樣雖然提高了映射的召回率,但同時也使得準確率受到較大影響,造成人工審核的代價過高。

1.2 詞形變化差異

英文詞匯具有較豐富的語言形態變化,如復數、分詞、過去式等。不同敘詞表通常采用詞匯的不同形式,這使得僅利用字符串匹配的方式會出現映射丟失的情況。即使在人工審核階段,如果審核人員不熟悉一些詞匯的特殊變化形式,也會導致映射丟失情況的出現。最常見的是單復數差異,如“document”和“documents”“tooth”和“teeth”等。為避免因詞形差異導致的映射丟失,需要在映射前對詞形作規范化處理,將構成術語的單詞的不同變化形式統一化為標準形式,這個過程叫做原形化。

目前,原形化主要有詞干提取和詞形還原兩種方式。詞干提取是將術語的詞干或詞根抽取出來,但抽取結果可能是不具有實際意義的詞,或者詞干不一定能夠表達完整語義。詞形還原是通過形態分析,把單詞的任一變化形式還原成一般形式,通常還具有實際含義的詞典里的有效詞。無論采用哪種方式,都有相應的計算機輔助工具可以直接實現。吳思竹等[13]對常用的幾種工具從功能、實現原理、實驗結果等方面做了對比和分析。

單詞形式的術語處理較為簡單,但也有一定比例的術語是短語或其他形式。如“abuse of children”“child abuse”“abuse(children)”都對應概念“虐待兒童”,這需要對原形化工具的結果作進一步處理。張冰等[14]對這方面的問題作了較細致的分析,提出一個基于原形化判斷等同概念的流程。原形化雖然能夠解決因詞形差異造成的映射丟失問題,但同時會引入新的映射錯誤。如“cell”和“celling”是不同的概念,但原形化處理后會將其錯誤地映射在一起。

1.3 非同義關系

敘詞表常因多種原因(如編制規則、人為錯誤等),使得用項和代項、代項和代項之間并非都是同義關系,還可能是近義、相關甚至是反義關系,如“reservoir”代項“water reservoir”和“seepage”代項“anti-seepage”。這些非同義詞的代項將會導致映射錯誤的發生,使得不屬于等同關系的兩個概念作為候選映射。在被融合詞表的數量較多時,這種映射錯誤會進一步被放大,增加人工審核的難度。以圖1為例進行說明,假設概念A、B、C、D分別是來自不敘詞表的概念,用粗體表示用項,其他為代項。假設概念A中用項a和代項b為非同義關系(如反義關系),其他概念中用項和代項均為同義關系,這樣產生的4個候選映射A-B、B-C、A-C、A-D,其中A-B和A-C就會是錯誤的。

圖1 非同義關系導致映射錯誤示例

1.4 同形異義

同形異義指形式相同而詞義不相同的詞匯,又叫做一詞多義,如英語單詞“set”就有上百個詞義。在敘詞表編制時,一般會選取單義詞匯作為術語,盡量避免使用多義詞匯,但仍然會有大量多義詞匯不可避免地被編入敘詞表。像“cell”有細胞、單元、電池等詞義,在許多敘詞表中都有收錄,這類多義術語的存在顯然會導致映射錯誤的發生,如概念“細胞”{cellula,cell,bioplast}和概念“電池”{battery,cell}。

無論是非同義關系還是同形異義造成的映射錯誤,都可以通過計算概念之間的詞義相似度來判斷是否為等同概念。概念在敘詞表中以樹狀結構排列,分布在不同的“概念樹”上,族首詞為每棵“概念樹”的根。高碧紅[10]和賴院根[15]等利用敘詞表中的等級關系,計算兩棵“概念樹”之間的相似度。當兩部敘詞表在學科領域和詳略程度非常接近時,該方法較有效。在進行等同概念判斷時,除通過敘詞表自身固有的語義關系外,還可以通過概念的屬性信息進行判斷,如范疇分類、翻譯、定義等;也可以利用敘詞表中的概念翻譯信息,對中文術語和英文翻譯進行雙向推導,實現對等同概念的識別[16];從概念的定義中提取特征詞,形成特征詞向量,分析特征詞向量之間的相關性,評估等同概念的可信度[17]。如果候選映射中兩個概念的范疇分類非常接近,那么正確的可能性非常大,否則可能性很小,這是因為一個術語在特定學科領域中的語義是唯一的。以上判斷方法要根據具體情況而選用,因為敘詞表的詳略及包含的屬性信息各不相同,這也是多部敘詞表融合時,需要考慮的順序因素。

2 等同概念映射中的效率問題分析

除有效性問題,效率問題也是等同概念識別的一個重要問題,主要包括候選映射生成效率和人工審核效率。候選映射生成效率指如何快速生成所有的候選映射;人工審核效率指如何減少人工審核的次數。以下從這兩個方面分別進行討論分析,并提出可行的解決方法。

2.1 候選映射生成算法及效率分析

雖然候選映射是由計算機自動產生,如果不采用合適的生成算法,直接對不同敘詞表中的任意兩個概念進行比較,判斷是否符合候選映射,將是一個非常耗時的工作。如對3個敘詞表進行融合,各有1000、5000、10000個概念,若采用直接比較的方式,概念比較次數為:1000×5000+1000×10000+5000×10000=65000000次。

因此,需要一些措施優化候選映射的生成過程,減少比較次數。在此本文提出一種優化的候選映射生成算法。①對進行融合的所有敘詞表的術語進行原形化處理,將其結果稱為術語原形。②對每個術語原形建立集合,集合中每個元素的結構為<原始形式,敘詞表ID,概念ID,用代項>。③從每個術語原形對應的集合中生成候選映射,即集合中的任意兩個元素對應的概念得到一個候選映射。如果集合中有n個元素,產生的候選映射的數量為C2n。④當前生成的候選映射中可能會存在重復,如兩個概念中有多個術語原形重復,這一步可以與③同步完成,即每生成一個候選映射,就檢查是否與已有候選映射重復。

在算法②中,原始形式是在敘詞表中的原始形式,用代項指該術語在當前敘詞表中是用項還是代項。具體實現時,可以與①同步完成:對一個術語原形化后,如果已有該術語原形,就在其集合加入新元素;如果沒有,就生成一個新的術語原形,集合中只有當前的新元素。利用該流程生成候選映射可以極大減少概念比較的次數,因為概念比較只在每個術語原形內發生。雖然生成術語原形需要額外的計算代價,但只是對每個敘詞表的線性處理,與直接生成候選映射的比較次數相比,可以忽略不計。另外,候選等同概念不能包含所有的事實上的映射。如事實上等同的兩個概念之間在原形化后不相同,就不會成為候選映射。

2.2 人工審核效率

在生成所有候選映射后,原則上需要審核人員對候選映射逐一審核,在審核過程中,可以將候選映射按照正確的可能性從高到低排序來提高審核效率。由于候選映射正確的可能性難以量化比較,這里指大概排序,而非絕對排序。下面是本文提出的一種排序方式:①候選映射中兩個概念的用項精確匹配(忽略大小寫差異);②候選映射中兩個概念的用項原形化后精確匹配;③候選映射中兩個概念的多個代項精確匹配;④候選映射中兩個概念的多個代項原形化后精確匹配;⑤候選映射中兩個概念的單個代項精確匹配;⑥候選映射中兩個概念的單個代項原形化后精確匹配。

這樣排序處理的優勢是可以提高單個候選映射的審核速度,減少總體審核次數。一個候選映射準確的可能性越高,人工審核所花的時間就會越少,如排序①中的候選映射甚至可以直接節省人工審核的步驟。在部分情況下,前面的候選映射被審核后,后面的候選映射可以直接推出結果,這樣可以減少審核次數。有3個候選映射A-B、B-C、A-C,如果經過人工審核A-B和B-C正確,那么A-C可以無須審核直接判斷為正確;類似的,如果經過人工審核A-B正確,而B-C錯誤,那么A-C可以無須審核直接判斷為錯誤。

3 實驗分析

前文討論分析了敘詞表等同概念映射中存在的問題,并提出了提高效率的方法。為驗證方法的有效性,在EI敘詞表和INSPEC敘詞表間進行驗證。驗證分為兩個部分,一是用計算機自動生成候選概念映射的效率,二是人工審核候選概念映射的效率。

3.1 候選等同概念映射效率實驗

EI敘詞表有19296個術語和9926個概念,INSPEC敘詞表有18187個術語和10075個概念。按照2.1小節中提出的候選映射快速生成算法,使用計算機共自動生成1360個候選等同概念映射。第一步原形化需要對每個術語處理,共37483(19296+18187)次操作;第二步同樣是對每個術語的處理,也是37483次操作;第三步是得到的候選映射數量,即1360次操作;第四步是重復候選映射,屬于少量操作,對整體效率不會有影響。因此,整個算法生成候選等同概念映射共需要76326次操作。如果利用比較次數公式直接比較生成候選等同概念映射,則需要100004450次操作,顯然遠高于利用候選映射快速生成算法所需的操作次數。

3.2 人工審核效率實驗

人工審核效率取決于候選映射中正確映射在所有候選映射排序中的位置,正確映射排序的位置越靠前,審核人員就會在候選映射中先審核到正確的映射,因此效率就會提高。本文采用經典的MAP(mean average precision)評價指標來比較在2.2小節提出的排序方式與隨機排序方式。

MAP常用于評估搜索引擎的搜索結果排序,反映全部相關結果性能的單值指標。系統檢索出的相關結果越靠前,MAP就應該越高。如果沒有返回相關結果,則準確率默認為0。因此,能夠用于對本文排序方法的評估。如10個候選映射中,正確的映射有4個,排名分別是1、3、4、8,那么對于MAP值的計算為(1÷1+2÷3+3÷4+4÷8)÷4=3.92。對1360個候選映射經過人工判斷,正確的映射共有1249個,具體為:符合第一步的候選映射共976個,都是正確的;符合第二步的候選映射共141個,其中133個正確;符合第三步的候選映射共13個,其中6個正確;符合第四步的候選映射共16個,其中5個正確;符合第五步的候選映射共160個,其中101個正確;符合第六步的候選映射共有48個,其中29個正確??傮w來看,正確的映射主要集中在排序靠前的部分,而錯誤的映射正好相反。按照每個正確的映射在排序中的位置,計算MAP的值為1455.6。如果沒有經過排序,將正確的映射隨機排序(均勻分布),計算MAP的值為1170.3。通過對比可以看出,本文的排序方法要優于隨機排序,而且正確映射比值越小,優越性就會更加明顯。

4 結語

隨著知識組織系統數量的增多,映射與融合成為當前的熱點研究趨勢。等同概念映射是敘詞表融合的重要環節,主要是通過計算機生成候選概念映射,由專家進行人工審核的方式完成。本文從有效性和效率兩個方面對映射過程中的問題作出討論,提出相應的解決方法,結果可以應用到多部敘詞表間的概念映射,并在EI和INSPEC敘詞表上進行了驗證。

猜你喜歡
詞表原形術語
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
原形
Baba Yaga邪惡女巫——芭芭亞加
敘詞表與其他詞表的互操作標準
國外敘詞表的應用與發展趨勢探討*
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
常用聯綿詞表
閱讀(中年級)(2006年6期)2006-07-11
斗力不如斗智
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合