?

機構知識庫嵌入期刊數據規范管理應用與服務研究

2020-12-15 10:55馮中華盧利農祝忠明徐燦燦
圖書與情報 2020年5期
關鍵詞:數據管理自動化

馮中華 盧利農 祝忠明 徐燦燦

摘 ? 要:在機構知識庫數據建設過程中,開發設計具備更高自動化的期刊數據規范管理功能,提高元數據質量,可以為數據的進一步關聯分析、聚類統計、決策審計等能力提供數據保障。文章通過分析期刊數據規范的特征項及輔助因子,采用自動化實現的技術路線,實現對期刊數據規范的功能,并在數據的統計分析中測試修正。該期刊數據規范管理功能具備較高的自動化程度,提高了工作效率,減輕了人力成本,并可高質量完成對相應數據的規范。針對期刊數據規范的自動化技術路線和功能實踐,是一種切實可行、更加高效的實現路徑,可在高質量規范數據的保障下提供更優質的機構知識庫服務。

關鍵詞:機構知識庫;數據管理;期刊規范;自動化

中圖分類號:G239.2 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2020083

Abstract In the process of data construction of Institutional Repository, the development and design of periodical data standard management function with higher automation can improve the quality of metadata, and provide data rantee for the ability of further correlation analysis, clustering statistics, decision auditing and so on. The characteristic items and auxiliary factors of periodical data specification were analyzed, the technical route of automatic realization was adopted to realize the function of periodical data specification, and the correction was tested in the statistical analysis of the data. The data specification management function has a high degree of automation, and it can improve work efficiency and reduce labor costs, and it can also complete the corresponding data specification with high quality. The unstandardized journal data may not be easily discovered on the display layer, so the manual specification is highly required. Aiming at the automatic technical route and functional practice of periodical data specification, it is a feasible and more efficient implementation path, which can provide better Institutional Repository service under the guarantee of high quality normative data.

Key words institutional repository; data management; periodical specification; automations

1 ? 引言

期刊數據的規范性一直是圖情領域所面臨的一大難題,不規范的期刊數據可能會衍生出一系列包括數據冗余、數據不完整、期刊歷史記錄信息無法補充、數據統計與分析錯誤等問題。對于機構知識庫(IR)而言,期刊數據的規范性顯得尤為突出,期刊數據質量是IR是否成功建設的重要標志。在IR中,期刊中英文名稱、期刊ISSN號、JCR簡稱等信息是數據建設工作中的深水區和重災區。在期刊數據中,發表在同一期刊中的文章其“出處/來源”元數據由于刊物歷史名稱的變更或輸入不規范等原因就可能出現各種不同,特別是外文期刊情況更加復雜,一種外文期刊名稱有可能對應數十種以上的別名名稱。在實際數據建設過程中,需要耗時耗力將同一刊物發表的文章都歸并到該刊物名下。因此,對于機構知識庫中期刊名稱、期刊別名等數據的規范急需一種高效、穩定、準確的方式進行集中統一處理。當前,國內學者對期刊數據規范進行了相關研究,如王軍輝等[1]對期刊名稱規范描述記錄組成的文檔,實現對期刊信息的規范化管理以及外部數據本地化之后的統計和分析;張曉林[2]從期刊載文篇均引用文獻、作者地區分布統計、基金論文比例和有作者機構標注論文比四個主要指標來評價分析CSSCI來源期刊和擴展版體育學期刊(2009-2011年)的學術規范程度與學術影響力。上述文獻都是從期刊學術規范角度進行了研究,但對因期刊變動導致期刊信息發生變化等問題未進行深入研究。

文章從期刊的歷史名稱變更、中英文期刊名稱不統一不規范等問題出發,給出一致化解決方案。通過對期刊信息自定義,根據不同機構要求自定義期刊信息數據,對第三方系統提供標準的RESTful接口服務,通過接口可以對接同步期刊基本信息、期刊影響因子、圖譜分析等期刊信息數據。

2 ? 研究現狀

機構知識庫數據規范的研究現在已不在少數,但對機構知識庫中期刊數據規范的研究并不多。大多數都是只針對論文期刊信息顯示的規范性進行研究,采取最為普遍的方法是建立唯一的標識符(Name Identifier)對期刊數據進行規范。但隨著對期刊數據規范性要求的提高,機構知識庫通過對期刊數據的信息進行全面補充,探討期刊變動對期刊的字段信息的影響變化,進而對期刊的數據信息規范。期刊數據規范不僅可以根據期刊的歷史記錄信息查看期刊歷年的影響因子,而且為數據的進一步關聯分析、聚類統計、決策審計等能力提供數據保障。

對于機構知識庫中的期刊數據處理目前還是采用較為傳統的人工介入的方式來完成。一般的方式為,在作品提交或編輯時由提交者或管理員手動的對作品的出處、作者單位等字段值進行規范。采用此種數據規范方法存在效率低下、人力成本較高和由于人工規范失誤所導致的知識圖譜統計分析信息錯誤、期刊論文詳情頁中來源期刊和ISSN號等元數據書寫不規范、論文期刊的統計分析錯誤以及檢索導出條目數據錯誤等各種問題(見圖1)。

由上圖可知,名為“JOURNAL OF BIOLOGICAL CHEMISTRY”的期刊存在“JOURNAL OF BIOLOGICAL CMT”別名,在不對該期刊進行規范時,系統會默認存在上述兩個名稱的期刊,但實際上,上述名稱的刊物為同一期刊。未被規范的數據直接影響的就是統計圖譜的準確性,而錯誤的知識圖譜將嚴重影響機構科研評價、知識共享的能力。因此急需開發對應的數據管理規范功能,對機構知識庫中的數據進行規范,并且對于數據管理規范的目標盡可能多的由機器進行規范處理,以此來提高準確度與自動化程度。

為解決因期刊數據不規范而造成的各種問題,中國科學院西北生態環境資源研究院文獻情報中心研發的機構知識庫采用了一種較為高效的方法對期刊數據進行規范。首先,由用戶在期刊數據中新增期刊,然后為該新增期刊建立別名庫,將該刊存在的名稱形式歸入別名庫,對期刊別名的整合規范處理可以提高引文數據與基礎數據匹配的成功率。在系統中則是為該新增期刊設定唯一標識符,在用戶進行期刊類別統計分析時,將知識作品的出處屬性字段值與期刊別名庫中的值進行一一匹配,若匹配成功,則為該字段賦予唯一標識符,表示作品來源為該新增期刊。在此規范過程中除人工新增期刊外,其余流程都將由機器進行規范操作。

另外,還有一些有關數據規范的算法研究。如曾新等[3]提出的基于join-based的數據規范化算法DNRA;溫捷文等[4]提出的批再規范化算法;米允龍等[5]提出的基于區間模糊匹配函數的數據清洗算法等,其共同特點均是抽取規范數據特征項后再利用其他數據挖掘方法對數據進行聚類規范,但由于此類算法的應用寬廣性,多使用在語義類別數據處理方面。由于機構知識庫規范數據的特殊性與嚴謹性,僅依靠數據規范算法來對機構知識庫數據進行規范顯然是不合理的,因此,開發針對對應的機構知識庫數據的規范功能,再配合算法進而規范機構知識庫數據,可實現將外部數據本地化之后進行統計和分析,使期刊管理高效化。

3 ? 期刊數據特征項及輔助因子

期刊規范數據特征項需要具備的是準確對期刊規范數據的描述能力,一般選擇如“ISSN”號作為其特征項,期刊名稱、期刊別名作為輔助因子,具體介紹如下:

3.1 ? ?期刊數據的特征項

標準國際刊號(ISSN號)[6]具備唯一性,它可以更好的聚類規范數據。在進行期刊數據規范時,通常采用ISSN號作為期刊數據特征項來規范數據。一般情況下,每一個期刊都對應一個ISSN號。但對于一些期刊可能存在發行的電子刊和紙刊對應不同的標準國際刊號、一些期刊的ISSN號會隨著期刊變更而進行變化,但實際上這些變更的ISSN號對應的都是同一期刊,對于出現此類ISSN號不同但屬于同一期刊的問題,我們在做數據規范時會存儲期刊的歷史記錄以及期刊的變更記錄,并根據這些變化的值來進行期刊數據規范。

3.2 ? ?期刊數據的輔助因子

輔助因子作為期刊數據規范流程中不可或缺的一部分,是判斷論文期刊詳情頁中的特征項與期刊規范庫中特征項是否匹配和人工規范確認中間的橋梁。在通過特征項不能進行匹配確認時,就要考慮到使用一些輔助因子來進行二次匹配確認期刊數據。

期刊的名稱樣式可能存在多種情形。一些外文刊物名稱可能存在大小寫問題導致別名形式[7]眾多,一般公開發表的學術作品均會有出處信息,可依據此來判斷作品的來源,如根據名稱為“Advanced Energy Materials”的刊物作品,可判斷出知識作品的出處屬性(見表1)。

4 ? 數據規范功能框架及流程

4.1 ? ?數據規范框架設計

期刊數據規范功能的開發要找到具備一定描述機構知識庫期刊規范的特征項,確定數據規范特征項及其輔助因子后,就具備了對規范數據的細致準確的描述,同時也能對數據管理規范功能的框架進行設計(見圖2)。

在機構知識庫中知識作品的存繳存在多種形式,一般的方式為個人作品提交、管理員進行批量導入、數據回溯或通過OAI數據接口收割同步等。為了使存繳的知識作品中的發表期刊、出處等元數據單元值發生變化后,知識圖譜依然是基于期刊規范數據統計分析得出,在知識作品存繳后,系統會調用期刊規范數據事件,觸發期刊數據規范管理模塊對論文的來源期刊、影響因子等元數據進行規范。

其中,在進行期刊數據規范管理時,系統內部均通過具備唯一標識能力的數據特征項及其輔助因子綜合來確定規范數據名稱[8]。如在進行期刊數據規范時,首先會觸發期刊規范管理事件,對所匹配到的知識作品由系統檢測存在對應的期刊別名,在內部規范時便將此期刊別名歸入規范的期刊名稱下,再比對電子期刊數據具備唯一標識能力的ISSN號,當ISSN號相同,且其他輔助因子對應準確率較高,則說明為同一期刊,即該條期刊數據規范正確。在進行期刊排行等圖譜統計分析時,此知識作品會自動被歸并到規范的期刊名下。

對沒法合并的非規范數據,系統提供了人工規范確認功能,由人工進一步糾正規范數據信息。

4.2 ? ?數據規范流程

期刊數據規范流程的核心是整個數據規范事件,特征項的匹配性直接影響是否繼續執行數據規范事件。而數據規范的流程正是體現到利用機器進行自動化實現。在數據規范時,系統會重復讀取知識作品中的特征項數據,而后與規范庫中的規范特征項唯一標識進行比對,若匹配且其他輔助因子匹配性也較高則可判斷為同一數據,進而完成規范操作,否則都會由人工介入進行二次審核以此來進行數據規范(見圖3)。

5 ? 數據規范功能實現

5.1 ? ?數據規范唯一標識機制

數據規范的前提是需要一個唯一標識來代表某一個規范數據。當唯一標識被建立后,就需要將未規范及待規范的數據信息映射到該唯一標識[9]中。將期刊數據規范及機構數據規范中所設定的數據規范特征項ISSN號字段作為唯一標識,即得到期刊數據規范項(見圖4)。唯一標識的確立,保證了數據統計及傳遞時不會出現數據混亂的錯誤[10]。

5.2 ? ?數據規范設計

5.2.1 ? 根據期刊ISSN號特征項及輔助因子進行規范

在當前提交或采集的期刊知識作品中,首先會提取知識作品的ISSN號,與規范期刊的ISSN號進行匹配,當ISSN號匹配成功時,且輔助因子匹配率較高,即表明為同種期刊。當ISSN號匹配失敗,但輔助因子匹配成功時,就要考慮到因期刊變動引起的期刊ISSN號不同,或者同一種期刊出現的電子版與紙質版的ISSN號不同問題,此時就通過將期刊的歷史變動數據處理來判斷期刊為同種期刊。

5.2.2 ? 自動化期刊數據規范

期刊數據規范的功能在于解決因數據不規范造成的論文期刊詳情頁中字段值不規范以及統計分析中圖譜錯誤的問題。而加入自動化規范期刊數據的技術,能夠避免因人為因素造成的失誤,同時能夠減少人力資源浪費。

自動化期刊數據規范流程:通過云端技術從其他期刊庫中獲取到需要的期刊數據信息,構建一張本地期刊數據規范表,期刊規范表中包含一些在論文期刊詳情頁以及統計分析中常用的規范字段,如影響因子、五年影響因子、JCR分區、CAS分區、學科信息、出版周期、歷史信息記錄和收錄類別。系統通過收錄期刊的歷史數據存儲期刊往年的影響因子等字段信息,有效的解決期刊因變動造成的收錄類別變化的問題,并按照分區規則要求對分區信息字段進行規范。論文期刊詳情頁數據規范顯示:通過Ajax同步請求讀取期刊數據規范表中數據的技術,在客戶端發送數據規范請求后,服務端接收到請求后會根據傳送過來的特征項唯一標識與規范庫中的ISSN號進行匹配,若匹配成功,服務端將規范庫中的數據發送給客戶端,進行字段值的規范。若匹配失敗,則需要將客戶端的期刊名稱,期刊別名等輔助因子與規范庫中對應的輔助因子進行匹配,匹配成功后,服務端將規范庫中的信息發送到客戶端進行數據規范展示,若輔助因子匹配失敗,此時就需要介入人工進行期刊數據處理。論文期刊統計分析圖譜展示:本地期刊數據規范表建立后,設定統計分析條件,系統中將規范庫中的特征項與輔助因子進行聚類統計分析,獲取統計分析圖譜(機器化數據管理規范見圖5)。

5.2.3 ? 人工規范確認

人工規范確認是進行機器化數據管理規范后一個糾錯的過程,如對于一些規范錯誤的數據或未被規范的數據由管理員統一進行規范。

6 ? 應用案例及效果

期刊規范功能匯集國內外近1.7萬種期刊信息,其中包括國別、語種、ISO、ISSN、EISSN等基礎信息,也包括歷年影響因子、對應收錄類別排名等重點信息,對期刊信息進行自動關聯、聚類、分析,并生成可視化圖譜(見圖6)。同時,期刊信息可自動關聯至成果數據,實現成果數據中發表期刊字段的自動關聯更新[11]。該功能支持對期刊信息自定義,根據不同機構要求自定義期刊信息數據,對第三方系統提供標準的RESTful接口服務,通過接口可以對接同步期刊基本信息、期刊影響因子、圖譜分析等期刊信息數據。而這一功能在一些機構得到很好的應用,如:南方科技大學知識苑(SUSTech-KC)以及中國科學院的一些研究所。

6.1 ? ?論文期刊成果數據規范應用

對期刊數據進行規范后,通過Ajax技術[12]將期刊數據的規范表中的數據讀取到期刊論文的詳情頁中。對期刊論文中的發表期刊和ISSN號字段進行自動規范填寫,從而可以根據發表期刊來查看期刊論文的影響因子以及JCR分區的信息。

6.2 ? ?論文期刊統計分析圖譜應用

系統將自動化獲取到的期刊數據進行規范后,可以用于論文期刊的統計分析。在統計分析時可以使用規范后的字段信息作為統計條件進行分析。當按JCR的分區方式進行論文期刊類別統計分析時,即可得到期刊類別分布圖(見圖7)。即得到不同效果圖(見圖8)。

從上述論文期刊統計分析圖的數據管理規范結果來看,采用機構知識庫的期刊數據規范方式將更準確地展示期刊數據、更清晰地查看統計分析結果。同時機構通過不同JCR分區的論文期刊數量和影響因子來判斷該機構的發文質量,也可以通過不同刊物名稱的論文期刊分布圖查看機構的常用發表期刊,用來幫助機構在一些有較高影響力的期刊上進行論文期刊的發表,同時機構根據統計分析出的數據可以對一些發表的高質量的論文進行獎勵,鼓勵科研人員多發表一些高質量的數據。

7 ? 結語

綜上所述,在機構知識庫數據規范管理中期刊規范數據的建立可以讓知識資產更加方便維護管理,也有利于知識資產的多級組合定制統計分析以及知識資產的共享傳播利用,因此對于期刊數據規范管理是具備其獨特意義的,數據規范管理功能的實現也意味著機構知識庫自動化程度的進一步提升。同時,通過期刊規范功能的實現,目前已累計1.7萬條詳細的期刊規范詞表,可以以接口的方式廣泛的應用于知識服務領域的各類期刊規范服務中,具備積極的社會效應。此外,在規范性數據的保障下,更多深層次的機構知識庫應用服務也將被廣泛應用,機構知識庫也將真正成為機構自身管理、利用、傳播知識資源的綜合應用型平臺。

此外,目前的機器自動化數據規范管理由于各類別名的多樣性及其它元數據規范情況的不統一,雖已有較高的自動化處理能力,但依舊無法完全實現機器規范化處理,這兩個問題目前還是機構知識庫以及數據分析領域的兩大難題,還需要不斷的探索與實踐[13]。

參考文獻:

[1] ?王軍輝,方安,任慧玲,等.期刊規范文檔建設方案與應用場景研究[J].數字圖書館論壇,2015(7):9-13.

[2] ?張曉林.中文類體育核心期刊學術規范分析[J].體育文化導刊,2012(8):151-155.

[3] ?曾新,李曉偉,楊健.基于數據規范化的co-location模式挖掘算法[J].計算機科學,2018,45(S1):482-486.

[4] ?溫捷文,戰蔭偉,凌偉林,等.實時目標檢測算法YOLO的批再規范化處理[J].計算機應用研究,2018,35(10):3179-3185.

[5] ?米允龍,李金海,米春橋,等.基于區間模糊匹配函數的數據清洗算法研究及其在問卷調查中的應用[J].南京師范大學學報(工程技術版),2017,17(3):70-79.

[6] ?國際標準刊號[EB/OL].[2020-04-19].https://baike.baidu.com/item/4602660?fr=aladdin.

[7] ?王鵬,馬湃.醫學期刊中常用中藥規范用名與別名校正[J].河南中醫,2004(12):67-69.

[8] ?DOI標識符查找文獻的方法[J].臺灣農業探索,2019(4):46.

[9] ?趙蘊華.國內數字期刊資源唯一標識符的應用研究[J].情報科學,2007(7):1018-1021.

[10] ?劉巍,祝忠明,張旺強,等.機構知識庫中作者標識與作品認領機制的研究與實現[J].現代圖書情報技術,2014(3):8-13.

[11] ?徐春,李廣原.一種高效的增量更新約束關聯規則挖掘算法的研究[J].廣西師范學院學報(自然科學版),2016,33(2):48-54.

[12] ?王菲露,李軍,宋楊,等.基于Ajax技術的ECharts實時圖形報表實現[J].黑龍江工業學院學報(綜合版),2019,19(12):79-83.

[13] ?陳孝文,陳寧,李蕊,等.基于MAPREDUCE并行化處理的用戶地址數據規范化存儲與管理系統設計[J].電子測試,2019(2):87-88.

作者簡介:馮中華,男,南京水利科學研究院科技信息研究中心高級工程師;盧利農,男,中國科學院西北生態環境資源研究院文獻情報中心館員;祝忠明,男,中國科學院西北生態環境資源研究院文獻情報中心研究館員;徐燦燦,女,南京水利科學研究院科技信息研究中心工程師。

猜你喜歡
數據管理自動化
《大數據管理》課程思政教學質量評價體系研究
穿越數據的迷宮
金融行業數據管理將何去何從?
如何有效開展DCMM數據管理成熟度評估
數據挖掘在學生成績數據管理中的應用研究
數據挖掘在學生成績數據管理中的應用研究
AGV小車在白酒行業自動化立體倉庫中的應用
配電室無人職守集控站在京博石化的運用
配電線路運行資料管理自動化的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合