?

論我國學術文獻數據庫的質量調控

2017-04-22 19:58王豐年
出版廣角 2017年4期
關鍵詞:紙版維普文獻數據庫

【摘 要】我國學術文獻數據庫受缺乏統一規劃、知識產權歸屬模糊等因素影響,導致錄入失真、錄入誤差、數據檢測技術失效等問題,影響了用戶的檢索,降低學術文獻數據庫使用的性價比,阻礙了學術文獻數據庫的規?;蛧H化。需要從政府調控、提升文獻數據庫的技術開發水平、完善學術文獻數據庫的標準化、建立學術文獻數據庫的評價體系等方面,提高學術文獻數據庫的質量。

【關 鍵 詞】學術文獻數據庫;學術文獻數據庫質量;改進對策

【作者單位】王豐年,《清華大學學報》編輯部。

20世紀80年代,我國的學術文獻數據庫開始建設;90年代以后,中國知網、萬方數據庫、龍源期刊網、維普數據庫進入商品化和產業化。本文以國內商用廣泛、影響較大的學術文獻數據庫中國知網、萬方數據庫、龍源期刊網、維普數據庫為例,分析我國學術文獻數據庫的質量現狀,提出調整對策。

一、學術文獻數據庫的質量問題

雖然我國學術文獻數據庫像中國知網、萬方數據庫、龍源期刊網、維普數據庫在數量上發展很快,大有遍地開花之勢,但是存在錄入失真、數據遺漏、數據檢測技術失效等問題。

1.錄入失真

雖然學術文獻數據庫已經把紙版期刊的文章數字化,但是,如果用戶下載文章仍然需要使用文字識別軟件,將圖形文字轉化為文本文字,那么這種轉化就可能產生誤差,容易出現亂碼。

由于我國各個學術文獻數據庫閱讀器格式不同,既有兼容圖文的PDF格式,也有純文本的TXT格式,以及網頁WEB格式,導致文字、圖像、表格使用不同格式的閱覽器時呈現的清晰度不同,而且在信息壓縮、信息存儲方面還存在許多技術瓶頸,沒有解決圖像質量和信息壓縮比例的矛盾,這些影響了閱讀、下載文章界面的清晰程度。

很多學術文獻數據庫掃描紙版學術期刊后,將其分類、加工,放在數據庫里,出售給用戶。掃描儀的分辨率直接影響數據庫文章的清晰度,筆者在檢索學術文獻數據庫過程中,曾不止一次發現頁面不清晰的情況。紙版學術期刊存放過程中,難免有劃痕、涂抹、斑點,遺憾的是學術文獻數據庫連同這些瑕疵一起呈現給用戶。如中國知網同一篇文章中的“、”位置不一,影響了讀者的閱讀體驗。

2.數據遺漏

很明顯的遺漏是很多學術文獻數據庫沒有收錄紙版學術期刊的封面和封底,這樣,用戶查不到封底標示的文章出版日期、刊號。很少學術文獻數據庫對某一期刊的收錄從創刊開始,這導致用戶的檢索不完整。截至2012年10月,即使是收錄規模較大的中國知網,雖然收錄國內學術期刊7900多種,但是其中創刊至1993年的期刊也只有3500余種。

雖然各個學術文獻數據庫盡量齊全地收錄重要會議論文、學術期刊、博士學位論文、工具書、年鑒,但是難免有遺漏。例如,中國知網已經收錄了2011年第10—12期《世界經濟研究》,但是2011年第9期卻沒有收錄[2]。

3.數據錄入錯誤

學術文獻數據庫的數據采集、整合、審校都需要人工操作,涉及人工操作的題名、文獻分類錄入差錯會影響文件數據庫的準確程度。

4.數據更新滯后

學術文獻數據庫完成全文收錄,以及整理作者信息、篇名、關鍵詞、摘要等一系列工作都需要一定的時間,更為關鍵的是,為了維持紙版學術刊物的發行量,學術文獻數據庫肯定不能和紙版學術刊物同步發行,即使錄入流程較快的中國知網,也一般滯后紙版學術刊物1—3個月。

5.數據檢測技術的失效

雖然有些學術文獻數據庫開發了學術不端論文檢測系統,在一定程度上制約了學術造假現象,但是,這同時也促使學術造假不斷升級。因為檢測系統比對的是相同字段,只要換一種表達方式,例如改詞、換句、改變描述方式、打亂段落順序,即使觀點、內容重復也查不出來。例如,在中國知網輸入篇名《基于多中心治理的公共政策產出機制研究》搜索,出現18篇篇名相同或類似、作者相同的文章,其中16篇文章題目完全相同。中國知網的學術不端檢測結果是否有效?

6.數據技術的誤差

與計算機技術、網絡技術、信息技術一樣,學術文獻數據庫的技術支持一直處于完善的過程,計算機硬件的性能、計算機的存儲容量和網絡傳輸的準確性直接關系到學術文獻數據庫的質量。

除技術壁壘外,各個學術文獻數據庫在使用操作上存在不同程度的誤差。例如如果用戶瀏覽、下載需要利用文字識別軟件,把圖形文字轉為文本文字,這種轉化存在的誤差會導致用戶下載文字時出現亂碼。

7.缺乏統一的標準化格式

無論是國家新聞出版廣電總局,還是具體的編輯行業協會,都沒有制定學術文獻數據庫的體例規范,所以,要“盡快制定各種數字出版相關的內容標準、格式標準、技術標準、產品標準、管理和服務標準” [3]。中國知網、萬方數據庫、龍源期刊網、維普數據庫在數據的排列格式、主題標引等細節上都存在差異,導致同一主題或者同一文章在不同學術文獻數據庫中檢索會出現不同的結果。有些圖、表、符號的數字化存在技術瓶頸,因此,學術文獻數據庫的體例規范不能照搬紙版學術期刊。紙版學術期刊存在多種體例規范,僅僅以紙版刊物頁下注為例,就有頁下注、尾注、文中夾注等形式,有的將注釋和參考文獻混為一談,導致學術文獻數據庫的體例規范五花八門。

因為我國沒有學術文獻數據庫的統一技術標準,所以,出現了HTML、PDF、CAJ、DOC、 CEB、TEB……格式。用戶需要下載PDF、CAJ等不同的瀏覽器或軟件格式,才能瀏覽、下載各個不同學術文獻數據庫的文章。例如,萬方數據庫的數字化期刊子系統采用HTML和PDF文件格式;中國知網采用CAJ和PDF格式;維普數據庫全文提供VIP格式和PDF格式(國際通用格式),閱讀VIP格式全文需要安裝維普公司的維普瀏覽器,閱讀PDF格式全文需要安裝Adobe Reader閱讀軟件。由于中國知網、萬方數據庫、龍源期刊網、維普數據庫等均采取保護自身利益的措施,導致無法實現學術資源的共享。

除技術壁壘外,各個學術文獻數據庫的使用技術還有待完善,例如有些用戶在使用學術文獻數據庫過程中即使已經確認訂閱成功,卻無法閱讀所檢索到的文章。

二、影響學術文獻數據庫質量的原因

我國學術文獻數據庫受缺乏統一規劃、知識產權歸屬模糊等因素影響,導致出現諸多質量問題。

1.缺乏統一規劃

中國知網、萬方數據庫、龍源期刊網、維普數據庫是當前國內使用廣泛的學術文獻數據庫,但是它們在內容、使用方式、經濟模式 、技術開發等關鍵環節上各自為政,甚至設置技術壁壘,造成相似技術含量的紙版期刊重復收錄。

2.知識產權歸屬模糊

由于學術文獻數據庫存在使用紙版期刊文獻不規范、版權之爭,甚至盜版現象,中國知網、萬方數據庫、龍源期刊網、維普數據庫等很難直接聯系作者授權,導致作者與學術文獻數據庫、紙版學術期刊之間經常發生利益紛爭,甚至訴諸法庭,中國知網、萬方數據庫都曾遭遇群體侵權訴訟。2008年,北京海淀區法院審結了284名碩士、博士起訴萬方數據公司侵權案,其中234人得到法院的判決支持,勝訴率達80%[4]。學位論文的著作權歸屬不清晰是萬方數據公司被訴的原因之一。

3.數據庫編輯水平有待提高

學術文獻數據庫的軟件選擇、計算機設備的運用、操作系統的維護都需要人工完成,數據庫編輯的教育背景、知識結構都會直接影響數據庫的質量。因為缺乏既有編輯學知識又精通計算機軟件知識的編輯人才,所以在學術文獻數據庫建設中,經常出現數據整合誤差、數據信息不完整等問題。

4.學術文獻數據庫監管疏漏

由于沒有統一的管理機構和規范的制約,許多學術文獻數據庫都各自為政。作為正處于探索過程中的新興行業,數字出版在獲得各國政府大力支持的同時,卻缺乏包括學術文獻數據庫質量在內的版權、產業鏈與盈利模式的監管。

5.缺乏科學的數據庫評價體系

雖然紙版學術期刊評價存在不少問題,但是,學術文獻數據庫的評價處于空白狀態。統計學術文獻數據庫涉及圖表文章的點擊率、下載率需要高精度的圖像輸入、輸出控制和色彩管理,學術文獻數據庫的定量評價需要很大的投入,定性評價也需要很多學科專家協助。

三、學術文獻數據庫質量問題引發的后果

學術文獻數據庫的質量問題引起了個人和集體用戶的不滿,因此產生了一系列不良后果。

1.降低學術文獻數據庫的性價比

雖然各個學術文獻數據庫收費不一,但是都存在不同程度的收錄遺漏。如果用戶檢索的文章恰恰被學術文獻數據庫遺漏,那么,無論用戶花費多少錢以包年、 包月方式購買,都是在花冤枉錢。

2.增加用戶不必要的時間成本

萬方數據庫既沒有登錄時間和用戶數量的限制,也不會出現因用戶數龐大而無法瀏覽、下載全文的情況,所以減少了用戶的時間成本。而中國知網設置了用戶登錄時間限制,導致用戶反復重新登錄,增加了用戶不必要的時間成本。中國知網還對包庫用戶設置了并發用戶數的限定,造成因并發用戶數已滿而無法下載、閱讀的情形,這無疑增加了用戶的時間成本。

3.影響學術文獻數據庫的規?;?/p>

我國學術文獻數據庫存在散、亂、雜的弊端,并且呈現遍地開花的趨勢。沒有任何學術機構、政府機構統計學術文獻數據庫的總量,也沒有有效方法進行統計。有些學術文獻數據庫無人問津,點擊量甚至比紙版學術期刊的發行量還慘淡。學術文獻數據庫檢索平臺很難統一、學術文獻數據庫的重復建設導致同行業惡性競爭,不利于學術文獻數據庫的規?;l展。

4.制約學術文獻數據庫的國際化

國際上有代表性的4種外文電子期刊全文數據庫——Elsevier SDOS、EBSCOhost、Springer LINK、OVID,收錄情況、學科范圍、檢索功能及結果處理都很完備,用戶可以正確、準確、快速、有效地利用外文全文數據庫進行文獻信息檢索。我國學術文獻數據庫過度商業化卻制約了其國際化。

四、學術文獻數據庫的質量調控對策

學術文獻數據庫的質量問題引發了一系列后果,需要從增強政府調控、加強學術文獻數據庫建設以及提高學術文獻數據庫編輯的專業素質等角度,來提高學術文獻數據庫的質量。

1.加強政府的調控

當下,很多用戶對學術文獻數據庫存在諸多不滿,如沒有合理有效的監督機制、技術混亂、高收費不良風氣等?!耙獦嫿ㄒ赝暾?、結構合理、水平先進、效益良好、多方共贏的數字出版產業發展新格局,把數字出版產業打造成新聞出版支柱產業”[5],無論從學術還是從管理的角度看,國家新聞出版廣電總局、國家科技部不僅要投入資金,還要發揮其協調和管理職能,定期檢查學術文獻數據庫的質量。

2.提升文獻數據庫的技術開發水平

在技術支持、使用便捷程度上,學術文獻數據庫應該采取人工審校和程序控制雙重把關的措施,定期維護、整理已經收錄的文章,人工核對原始文獻,利用軟件的糾錯功能來審校。

3.完善學術文獻數據庫的標準化

很多用戶抱怨需要下載多個閱讀器才能瀏覽、下載不同的學術文獻數據庫,有的學術文獻數據庫編排毫無美感,降低了用戶的使用體驗,這些問題需要數字出版標準規范。以參考文獻和頁下注為例,學術文獻數據庫需要將文字轉化為編碼,所以相比紙版學術期刊對體例規范的可操作性提出了更高的要求,還要兼容人文、社科等各學科的共性。芝加哥大學出版社1906年出版的《芝加哥文體手冊》(The Chicago Manual of Style)是美國學術規范手冊,之后不斷補充修訂,迄今已經發行了16版。我國應該參照紙版學術期刊的體例規范,建立學術文獻數據庫的標準,包括文獻著錄、標引的體例規范。2005年5月,國際標準化組織ISO批準PDF作為歸檔和保存文件的國際標準格式。目前,國際上通用的學術文獻數據庫閱讀、下載格式PDF實施分層授權:可全文下載、部分下載、打印、不能打印、只讀等。因此,要“加快推進數字內容出版系列標準自主研制以及與國際通用標準對接工作,盡快消除標準多元化造成的資源浪費、消費成本高和用戶體驗差等弊端,為數字出版產業的繁榮發展營造優良生態環境?!盵6]

4.建立學術文獻數據庫的評價體系

按照客觀性、公正性、權威性原則,建立我國學術文獻數據庫評價體系?!伴_展數字出版內容質量、編校質量、制作質量的檢測與評估,提高企業生產優質精神食糧,傳播民族優秀文化意識,引導企業在內容把關、編輯規范、質量保障等方面加大工作力度,改變數字出版優質內容匱乏現狀,促進產業良性發展?!盵7]

5.提高學術文獻數據庫編輯的專業技術水平

學術文獻數據庫編輯不僅要具備紙版刊物的編輯知識,還要掌握計算機、網絡等方面的技能。從紙版刊物的文字轉化為數據庫的圖像需要計算機技術,將 PDF和CAJ呈現給用戶既需要計算機又需要網絡調試技能。學術文獻數據庫編輯和紙版期刊編輯的具體工作方式、過程不同,紙版期刊編輯的主要工作是編輯、校對,扮演的是出版者角色;學術文獻數據庫編輯主要基于XML語言的網絡化協同,處理電子文檔,其工作流程由單文本編輯升級為多媒體編輯。學術文獻數據庫的原始著錄、分類、主題標引,諸如原始文獻中圖分類號的糾錯既需要編輯學的知識,又需要計算機、網絡圖像處理技術。因此,“要不斷完善數字出版人才培養體系,加大數字出版人才培養力度”[8],建立更多數字出版研發機構、院校,培養適應數字出版的人才,像北京印刷學院新聞出版學院首屆數字出版專業畢業生68人,就業率達到100%[9],吉林工程技術師范學院與吉林日報社(吉林日報報業集團)聯合成立股份制二級學院——吉報數字傳媒與創意學院,2016年首屆招生160人[10]。作為北京印刷學院的學生實踐基地,清華大學出版社期刊中心每年都有北京印刷學院的優秀碩士生前來實習。

6.建立學術文獻數據庫協會

國家新聞出版廣電總局、科技部、財政部應協調中國知網、萬方數據庫、龍源期刊網、維普數據庫等成立學術文獻數據庫的行業協會,召開數字技術創新、經營模式的改進、數字出版的法律保護等研討會,提升學術文獻數據庫的數字技術創新能力,減少各個文獻數據庫之間的惡性競爭。

參考文獻

[1]http://www. cnki. net/KCMS/detail/detail. aspx?QueryID=1&CurRec=83&recid=&filename=QBZZ200401047&dbname=CJFD2004&dbcode=CJFQ&pr=&urlid=&yx=&uid=WEEvREcwSlJHSldRa1FhcEE0L01SOC9NcklCUENmU3hVTHV5aGxJbG5wbz0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!&v=MDcxNzJUM3FUcldNMUZyQ1VSTHllWnVabUZpRGtVTDdJTkMvUmRMRzRIdFhNcm85Qlk0UjhlWDFMdXhZUzdEaDE=.

[2]http://bbs. pinggu. org/forum. php?mod=viewthread&tid=1380425&page=1.

[3][5][8]關于加快我國數字出版產業發展的若干意見[EB/OL]. http://www. gapp. gov. cn/contents/1832/113636. html.

[4]張蕾. 480名碩博士狀告萬方數據庫侵權案開庭[D].北京晚報,2008-09-22.

[6][7]關于加強數字出版內容投送平臺建設和管理的指導意見[EB/OL].http://www. gapp. gov. cn/news/1663/185929. shtml.

[9]尹琨,李淼. 數字出版人才供需:熱門專業能否適用[D]. 中國新聞出版報 ,2013-02-28.

[10]宋嘉庚,郝振省. 雙重效應下的數字出版人才培養探析[J]. 出版廣角,2016(19).

猜你喜歡
紙版維普文獻數據庫
《感染、炎癥、修復》雜志檢索數據庫
撤稿聲明
《感染、炎癥、修復》雜志檢索數據庫
全文數據庫(維普、超星)收錄證書
The Role of an Independent Netherlands Laboratory in the Trade and Industry of Edible Oils and Fats
關于停贈紙版期刊和價格變更的通知
中文文獻數據庫中撤銷論文的分布規律研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合