?

國外敘詞表宏觀結構分析*——以理學領域敘詞表為例

2014-12-31 09:13張士男
圖書館論壇 2014年4期
關鍵詞:詞表范疇術語

張士男

敘詞表是信息組織最基本的工具之一,是大存量資源建立存取秩序的支柱。在網絡環境下敘詞表不斷發展與成熟,現存自然科學領域、工程技術領域、農學領域、醫學領域的英文敘詞表多達400 余部。大多數敘詞表的產生都有其特定背景和應用目標,即使同一種語義關系,分布于不同的敘詞表時,往往具有不同的表達方式;不同敘詞表的概念采用不同的關系和屬性進行描述和揭示;相同屬性描述標識在不同敘詞表中表達了截然不同的含義。這種敘詞表結構的屬性異構為開展知識組織體系集成服務帶來障礙。因此,本文對敘詞表宏觀語義結構進行分析,對敘詞表的語義關系、屬性描述等進行歸納、梳理,探索敘詞表集成建設模式下元數據框架的建設思路,以期為敘詞表更好地進行集成建設、支持智能化知識服務提供參考。

1 敘詞表類型

Soergel[1]將敘詞表分為兩種類型,即基于術語的敘詞表(term- based thesaurus)和基于概念的敘詞表(concept- based thesaurus)?;谛g語的敘詞表是一組術語的集合,這種類型的敘詞表僅有一種實體,即術語,術語之間存在層級、相關、等同等關系;基于概念的敘詞表包含兩種實體,即概念和術語,概念是一個思想單元,有時是存在于人腦中的一個想法,一個概念有優選術語、非優選術語、范圍附注等基本信息,概念之間存在層級、相關等關系。Soergel 將兩種類型的敘詞表分為兩種數據結構,即基于記錄的數據模型(record- based model)和基于關系的數據模型(relation- based model)?;谟涗浀臄祿P褪且环N規范化結構,每個術語用一條記錄記錄其相關信息,包括同義術語、上位術語、下位術語、相關術語等;信息存儲在大的數據包中,訪問或修改任何一條信息都需要首先找到相應的數據包?;陉P系的數據模型是一種更高效的結構,信息存儲在單件中,可以使用不同方式進行排列,關系類型是簡單的數據值,新的關系類型可以被方便地添加。

表1 敘詞表類型

不論敘詞表屬于哪種類型,按照哪種數據模型進行組織,從邏輯上來講都是由一種核心對象(術語或概念)及其若干屬性構成。因此,要想在知識組織系統中更好地發揮敘詞表的作用,首先要理清現有敘詞表的結構。

2 研究對象與思路

2.1 研究對象

數學、物理、化學、天文學、地球科學、生物科學是理學領域的主體學科,是從事自然科學研究的基礎,這些領域的知識彼此關聯,但這些領域的概念卻分布在各自的知識組織體系之中,缺少一個集成的平臺將這些概念有效集成,進而方便用戶進行自然科學領域知識的檢索和獲取。因此,筆者以理學領域敘詞表為例,對其結構進行分析,試圖梳理與發現理學領域敘詞表中概念之間的各種語義關系,以期為理學領域知識組織體系的集成服務提供參考。筆者通過對Taxonomy Warehouse 等知識組織體系門戶網站、國內外主要國家圖書館、大學圖書館、研究所圖書館、各專業學會/機構網站及學術數據庫使用的知識組織體系進行調研,以“學科+Thesaurus/Thesauri”為關鍵詞在Google 等搜索引擎進行檢索,共找到理學領域敘詞表62 部;由于受訪問權限限制,可瀏覽或獲取到的敘詞表只有48 部。本文的研究對象是這48 部敘詞表,其中包括一部分綜合性敘詞表;在對詞表結構進行梳理過程中以詞表可獲得的最新版本為準,詞表格式的優先次序是xml、html、txt、pdf、印本。

2.2 研究思路

首先對敘詞表進行結構轉換。為了盡量減小詞表異構導致的影響,將詞表按照基于概念的敘詞表、基于關系的數據模型進行結構轉換;其次是屬性字段含義分析。分析時主要參考敘詞表自帶說明文檔,沒有自帶說明文檔的,抽查分析概念屬性來確定含義。對于敘詞表中擁有屬性值但屬性字段標識缺省的情況,分析確定含義后,根據ISO- 25964[2]賦予其相應標識, 例如天文學敘詞表The Astronomy Thesaurus 的部分概念下方有一串文字說明但沒有字段標識,經分析確認這串文字是對概念的注釋,因此設置該字段標識為SN;最后是屬性字段標識統計。統計階段完成兩項工作:一是將屬性標識區分大小寫不去重進行一次統計,例如UF 和Uf 算作兩個字段標識;二是將這些字段標識根據其含義按照同形異議區分、異形同義合并進行二次統計梳理,例如詞表1 中broader term 表示上級概念,詞表2 中broader terms 也表示上級概念,則二次統計后二者合并為一種語義關系類型。

3 敘詞表宏觀結構分析

經統計,48 部敘詞表共包含各種屬性字段標識113 個,總計出現372 次。將這些屬性字段標識按照其所表達的內涵進行區分,發現它們從5 個維度揭示了概念的38 種描述屬性,見圖1。

圖1 基于概念的敘詞表宏觀結構框架

表2 基于概念的理學領域敘詞表屬性字段標識統計表

(續表2)

字段含義指明屬性的內涵;字段標識是敘詞表中屬性字段使用的字符串;字段標識數量是屬性字段標識去重后數量;字段出現頻次為同一含義的全部字段標識在48 部敘詞表中出現的頻次總和。

3.1 概念基本屬性

基本屬性是指概念所具有的本質屬性,統計發現對概念基本屬性的描述主要集中在概念、唯一標識符、日期、狀態、類型、語種形式等6 個方面。

3.2 概念語義關系

概念的語義關系包括概念間的層級關系、相關關系、映射關系和概念與術語的關系共四種。

(1)層級關系。概念層級關系從詞簇角度揭示了概念語義關系,包括頂級概念、上級概念、下級概念。層級關系是敘詞表的基本關系,但在不同詞表中表示形式差別很大。全部詞表無一例外都描述了概念的上級概念,但有三部詞表沒有對下級概念進行描述,僅有一部詞表描述了頂級概念。

(2)相關關系。概念相關關系是指與當前概念含義有交叉的概念。統計發現,除了規范的相關關系外,還包括了“參見非正式相關術語”、“見相關術語”、“見”等不規范的相關語義關系,這三種不規范語義關系的對象并不是概念和概念,而是詞表編制過程中所形成的過程關系,因此出現的概率也很低。

(3)映射關系。映射關系是指當前詞表中的概念與其他詞表中的概念的“對應”關系。映射是實現知識組織體系互操作最基本的方法,其他很多互操作方法都是要基于映射方法,由于知識組織體系的結構體系、概念定義、屬性等的異質性,造成了映射的復雜性[3]。從本研究的統計可看出,僅有一部敘詞表(生物學)建立了與其他詞表概念的映射,這部生物學敘詞表Thesaurus Ethics in the Life Sciences[4]中的概念與其他4 部參考敘詞表(Bioethics Thesaurus、Euroethics Thesaurus、INSERM Thesaurus、MeSH)中的概念建立了準確映射關系。映射的結果包括一對一映射和一對多映射。

(4)概念與術語的關系。概念與術語的關系指明了概念的優選術語、非優選術語、復合非優選術語。從本研究的統計可看出,在敘詞表實際編制過程中,由于復合非優選術語相對于簡單非優選術語而言具有一定的復雜性,因此對概念復合非優選術語的揭示所占比例很小。

3.3 概念注釋

概念注釋用以說明概念的覆蓋范圍、特殊用途或規則。敘詞表中的注釋類型有概念定義、范圍附注、歷史附注、舉例附注、概念評論等,其中應用最為廣泛的是范圍附注,其次是定義和歷史附注。值得一提的是,《希爾斯主題詞表》(《Sears List of Subject Headings》)提供了三種不同類型的細分附注。該詞表[5]將敘詞分為主題標題、形式標題、地名和名稱四種類型。主題標題是描述常見事物(Things)或概念(Concept)的詞和短語,這些詞和短語能夠表示各種作品的內容;形式標題描述作品的形式,而不是其內容;地名是指已有的獨立場所的名稱,大到州小到某一個湖泊;名稱包括人名、法人團體名稱、電影名稱等。Sears 用SA 表示主題標題細分,用USE 表示形式標題細分,用May subdiv.geog.表示地名細分。雖然Sears 將敘詞分為四種類型,卻沒有在敘詞表中指明每個敘詞具體屬于哪種類型。

3.4 概念范疇

在分類學中,范疇是最高層次的類的統稱[6]。敘詞表按照某種特定標準如某一相關主題領域將不同概念劃分成一個個概念組,將表達相同主題的概念歸入相應的范疇。據本研究的分析發現概念所屬范疇的具體表現形式有范疇類目和范疇號兩種。范疇類目的值是概念所屬范疇類的字符串,范疇號的值是概念所屬范疇類的編碼。目前敘詞表中概念所屬范疇的形式以范疇類目為主,范疇類目一般有十幾個到幾十個不等;范疇類目沒有層級,比較寬泛,方便從較寬的層面概覽概念分布情況。范疇編碼形式的敘詞表所用范疇表相對規范,范疇類自成體系,具有一定層級深度,范疇類目體量較大,所采用的范疇體系發展相對成熟,且一直處于動態更新中,例如INSPEC 使用INSPEC 分類表作為范疇類目,希爾斯主題詞表中的概念建立了與DDC 的映射等。

3.5 概念自定義屬性

自定義屬性內涵寬泛,一般在敘詞表中出現的頻次較少,屬性類型不拘一格:可以是詞表編制過程中為了滿足特定需要描述的概念屬性,例如概念的使用頻次;可以是強調學科概念特點的屬性描述,例如地理學詞表中的經緯度;可以是概念的其他輔助信息,例如概念的來源等。在詞表使用的過程中,要充分重視這些自定義屬性,這些屬性區別于傳統的"用、代、屬、分、參”的概念描述框架,從全新視角對概念進行揭示,能夠很好地滿足多方面需求。例如概念的使用頻次,可作為敘詞表編制過程中概念是否發布的重要參考。詞的發布要滿足三個原則,即用戶保證、出現在文獻中、機構需要。概念的使用頻次揭示了概念在某一時期內的使用頻率,使用頻次越高說明概念在文獻或用戶檢索時出現越頻繁,使用熱度越高;頻次較低甚至為零的概念則可考慮將其不再發布,使用頻次也可作為某一時間段內學科領域研究熱點的發現途徑,同一時段內使用頻次高的詞表示該時段對這一領域的關注度較高。再如概念的經緯度信息,可以方便地進行地理分布信息的挖掘。

3.6 敘詞表宏觀結構分析小結

不同敘詞表中相同含義的屬性標識表達方式差異明顯,例如表示上級概念的屬性標識多達18 種,表示相關概念的標識有11 種。

相同標識的屬性在不同詞表中表達了截然不同的含義,即屬性標識同形異義,這也是敘詞表屬性結構分析的難點,要對此進行細致分析。例如,通過BT1,BT2,BT3……BTn,NT1,NT2,NT3,……NTn 這種形式來完整顯示概念詞簇信息是常見的形式,這里的1、2、3……n 表示層級的含義,BT1 指向相鄰上級概念,BT2 指向上級概念的上級概念,這些標識指向的概念對當前概念而言具有不同深度的語義關系。但也有詞表用1、2、3……n 表示個數的含義,即BT1 標識指向概念詞的第一個上級概念,BT2 標識指向概念詞的第二個上級概念……依次類推,這些標識指向的概念全部是當前概念的相鄰上級概念,對當前概念而言具有相同深度的語義關系。

不同類型的屬性出現頻次差異很大。敘詞表的最小構成單元是概念,每個概念都有優選術語,部分概念還包含了若干個非優選術語。每個概念都描述了上位概念,并從相關概念、映射概念、注釋信息、范疇信息、自定義屬性等不同角度對概念進行描述。頻次在70%以上的有上級概念、下級概念、相關概念、概念和術語的關系、概念注釋;頻次在10%- 40%的有概念所屬范疇、概念引入時間;10%以下揭示了概念定義、歷史附注等;頻次為1 的屬性字段主要是經緯度、索引等自定義屬性。

自定義屬性要引起重視。網絡環境下,對概念的描述除了傳統的層級關系、相關關系、等同關系、注釋等維度外,還出現新的描述角度,例如使用頻次等,這些角度對進一步進行知識發現、推進敘詞表發展起到積極作用。

4 敘詞表集成建設元數據框架的思考

4.1 元數據元素設計原則

利用已有的敘詞表進行知識組織體系集成建設,能夠大大節省知識組織系統建設成本,敘詞表元數據互操作是第一步。敘詞表發展成熟,集中了多個領域大量專家的知識和智慧?;跀⒃~表開展集成知識服務時要盡可能充分地保留來源敘詞表的各種屬性信息,即要考慮如何兼容來源敘詞表的結構。因此,元數據設計框架中元素的設計要充分考慮到完整性、選擇性、靈活性、標準性。完整性是指集成知識組織體系描述框架要盡可能覆蓋全部來源敘詞表的重要元素;選擇性是指描述框架要根據網絡環境下集成建設的需要對元素有所取舍,例如敘詞表的印本格式中描述了概念在附表中的索引位置,網絡環境下需求不大,可根據實際需要舍棄;靈活性是指元數據框架的設計要滿足個性化和可擴展的需求,避免由于新元素的加入而導致元數據結構的重大變化;標準性是指元數據元素的定義要符合元數據標準,包括元素名稱、標簽、含義、編碼體系等設計,要盡可能復用已有標準。

4.2 元數據框架設計思路

基于上述分析,知識組織體系集成建設的元數據框架采用核心元素集與擴展元素集共建的模式,這種模式在本體領域已經得到了較好實踐,VIVO 基于本體來建立科學家的交流模式,采用核心本體VIVO core 和VIVO 本體本地化的方案,滿足不同機構對本體的個性化需求。將敘詞表中出現頻次高的共性屬性納入核心元素集,例如上級概念、下級概念、相關概念、注釋等,這些元素應該具備一定的通用性和普適性;將頻次較低或自定義屬性納入擴展元素集,用以滿足集成不同學科領域詞表的個性化需求。同時,可根據實際需要補充相應的自定義元素,并注意動態信息的獲取,如用頻次信息來記錄概念詞被使用的次數。具體如下:

(1)明確需求。以敘詞表集成建設為目的,盡量保留來源詞表中各種重要屬性。

(2)確定命名空間。命名空間表示標識符的可見范圍,為元素和屬性指派URI,以消除同名稱所產生的模棱兩可。例如都柏林核心元數據集使用“dc”作為前綴,其命名空間為“http://purl.org/dc/elements/1.1/”。

(3)確定描述對象。概念是敘詞表的核心,用不同的術語來表達,按照范疇體系進行組織分類,因此敘詞表集成建設中的描述對象是概念。

(4)確定元素集。首先進行來源敘詞表屬性字段含義分析,其次根據屬性分布和系統建設需要,遴選出相關元素納入核心元素集或擴展元素集,最后可將這些元素集的屬性字段按照語義相似性進行分組,每個組別作為一個元素,將具體表達某一種含義的屬性組成編碼體系,作為這個元素的關系類型,例如,上級概念和下級概念表示概念之間的層級關系,則將這兩種關系歸入“層級關系”組,定義元素“層級關系”,元素“層級關系”的關系類型取值列表為上級概念、下級概念。如果集成詞表數量增多,來源詞表結構更加復雜,知識系統需要補充或細化新的關系,則在其取值列表中增加一個參數值即可,既滿足了集成建設的需要,又大大提高了知識系統建設的靈活性和可擴展性。據本研究的統計發現,高頻屬性主要是圍繞敘詞表中概念之間的關系或概念使用范圍附注等信息展開,低頻屬性主要分為兩種類型:一種帶有學科性質的屬性,例如帶有地球科學性質的經緯度,能夠進一步說明概念的學科特點;另一種是非學科屬性,常為概念的其他說明信息,例如樹形號、來源信息等。因此可將擴展元素集中的元素在邏輯上分為兩類:一類是學科性元素,一類是非學科性元素,為進一步進行知識發現奠定基礎。

(5)元素定義。明確元素的標簽、定義、必備性、可重復性等。

(6)XML 形式化表達。將元數據設計方案進行XML 形式化表達。

采用核心元素集與擴展元素集共建的模式來設計知識組織體系集成建設的元數據框架,較好地滿足了對屬性異構的敘詞表的兼容,實現了對敘詞表核心屬性與非核心屬性的區分,為知識系統進一步進行知識發現奠定了基礎,但關于哪些屬性是核心屬性或非核心屬性,則需根據知識系統的建設目標和應用場景來進一步確定。

[1] D. Soergel. Data models for an integrated thesaurus database [A]. In: International Society for Knowledge Organization,Polish Library Association,Society for Professional Information. Compatibility and Integration of Order Systems: Research Seminar [C]. Warsaw:Wydaw. SBP,1996:47- 57.

[2] International Standard Organization (ISO). Information and documentation- Thesauri and interoperability with other vocabularies- Part 1: Thesauri for information retrieval[S].2011.

[3] 宋文. 知識組織體系語義互操作研究[J]. 圖書館論壇,2012 (6):117- 121.

[4] DRZE.Thesaurus Ethics in the Life Sciences[EB/OL].[2013- 05- 15].http:/ /www2.drze.de/ BELIT/ thesaurus/ sachgebiete.html?la=en.

[5] M. Joseph.Sears List of Subject Headings—20th ed[M].New York: The H.W.Wilson Company, 2010:xviii- xxi.

[6] 維基百科.范疇[EB/OL]. [2012- 05- 22]. http:/ / zh.wikipedia.org/wiki/%E8%8C%83%E7%95%B4_(%E5%93%B2%E5%AD%A6).

猜你喜歡
詞表范疇術語
批評話語分析的論辯范疇研究
編制受控詞表的著作權侵權風險及其應對策略
正合范疇中的復形、余撓對及粘合
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
回路范疇的擴張及其應用
近十年國內外專業學術詞表建立文獻綜述*
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
常用聯綿詞表
不能把范疇不同的兩個問題混為一談
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合