?

科學數據共享平臺的建設與服務探討

2016-12-21 23:44張新興
現代情報 2016年11期
關鍵詞:用戶服務共享平臺資源建設

張新興

〔摘要〕我國的科學數據共享平臺建立了完善的管理機制,基于分布式組織架構整合海量科學數據,利用元數據對科學數據進行全方位的描述,提供多種資源組織方式、檢索方式、結果排序方式、數據獲取方式??茖W數據共享平臺的用戶數和使用量逐年擴大,為科技、經濟、社會發展做出了重要貢獻。今后科學數據共享平臺應拓展和深化數據資源、加強服務能力建設、提高定制化服務水平。

〔關鍵詞〕科學數據;共享平臺;資源建設;用戶服務

DOI:10.3969/j.issn.1008-0821.2016.11.020

〔中圖分類號〕G311〔文獻標識碼〕A〔文章編號〕1008-0821(2016)11-0109-05

〔Abstract〕Scientific data sharing platforms in our country have established perfect management mechanism.Scientific data sharing platforms integrate massive scientific data through distributed structure.Scientific data sharing platforms descript scientific data comprehensively using metadata,offer a variety of resources organization methods,retrieval methods,sorting methods of retrieved result,data access methods.Users and usage of scientific data sharing platforms increased year by year,make a significant contribution for science and technology,economic and social development.Scientific data sharing platforms should expand and deepen scientific data resources,strengthen the construction of service capability,improve the level of customization service in the future.

〔Key words〕scientific data;sharing platform;resource development;user service

我國的數據庫數量約占全球數據庫總數的十分之一,而科學數據共享所產生的效益僅占全球科學數據共享效益的千分之一[1]。為了促進科學數據共享,科技部于2002年啟動了科學數據共享工程。經過十余年的發展,基本建成了覆蓋全面、結構合理的科學數據共享網絡體系,形成了科學數據的良性匯交與更新機制。本文以首批8個科學數據共享工程試點(名單見表1)為例,分析我國科學數據共享平臺的組織管理、資源建設與用戶服務情況,指出科學數據共享平臺存在的不足與發展方向,以期為今后的科學數據資源共享工作提供參考。

1科學數據共享平臺的組織管理

11運行機制

科學數據共享平臺以數據源單位為主體,通過集成、整合、引進、交換等方式聚合國內外的科學數據資源,并進行規范化加工處理、分類存儲,形成覆蓋全國、聯結世界,可提供科學數據共享服務的網絡體系。為保證科學數據共享平臺的規范化建設和可持續發展,平臺實行理事會領導下的平臺中心主任負責制。如國家農業科學數據中心由平臺管理中心主任統籌管理,下設服務組、資源組、系統組、綜合組,負責平臺具體的運行維護和管理。平臺的資源建設則主要采取項目協作制,即若干相互獨立、功能互補的平行工作組共同負責平臺的資源建設工作,以提高資源建設效率。如國家人口與健康科學數據共享平臺基于項目協作的方式共建共享資源,主節點和分節點分別設置專門的資源建設小組,負責各項資源建設與管理工作。

12平臺架構

科學數據共享平臺通常采取分布式系統架構,由1個總中心(認證中心)和若干個分中心(各參加單位)構成。其中中國氣象科學數據共享服務網的分中心數量最多,包括31個省級分節點和若干專題節點(見表1)。平臺分中心又可以劃分為地區分中心、學科分中心、專題分中心等多種類型。地區分中心如國家農業科學數據共享中心和林業科學數據中心的省級分中心,學科分中心如國家人口與健康科學數據共享平臺的學科分節點和地球系統科學數據共享平臺的學科子平臺,專題分中心如中國氣象數據網的專題節點和林業科學數據中心的基礎數據分中心、行業發展數據分中心?!翱傊行摹种行摹钡姆植际较到y架構能夠實現分散的科學數據資源整合與“一站式”的科學數據資源共享服務,避免科學數據共享服務可能給單點式共享平臺造成的網絡堵塞和服務器負擔過重問題。

13制度建設

為了保證科學數據共享平臺資源建設與用戶服務的常態化、制度化,科學數據共享平臺在規章制度、標準體系建設方面取得了大量成果。國家人口與健康科學數據共享平臺特設專門的標準化工作小組,制定了數據類、管理類、服務類、質量控制類、安全類等10余項標準。其中,《醫藥衛生科學數據共享網數據元標準化原則與方法》、《醫藥衛生科學數據共享網數據集分類與編碼原則與方法》、《醫藥衛生科學數據共享網數據集元數據標準》、《醫藥衛生科學數據共享網數據模式描述規則與方法》4項標準已經推廣成為衛生行業標準[2]。國家地震科學數據共享中心也頒布了《地震科學數據共享管理辦法(試行)》及其實施細則——《地震科學數據共享匯交管理規定》、《地震科學數據共享分級分類指南》、《地震科學數據共享運行管理規定》、《地震科學數據共享用戶服務規定》,并編制了12個標準規范。這些規章制度和標準規范在科學數據共享平臺的數據整合、數據交換、數據共享中發揮了重要作用。

2科學數據共享平臺的資源建設

21元數據建設

科學數據共享平臺以元數據為核心實現科學數據的描述、分類、搜索、關聯,借助技術手段實現數據的物理存儲與邏輯表達的分離。元數據作為描述科學數據的結構化數據,包含了數據的標識信息、內容信息、時間和空間覆蓋信息、人員和權責信息、關聯信息、技術信息等各個方面[3]。平臺使用較多的元數據是數據庫(集)名稱、數據摘要、數據內容、時間范圍、數據質量信息、標識信息、分類信息。中國氣象數據網、國家地震科學數據共享中心、國家農業科學數據共享中心、林業科學數據中心的元數據較為詳細,元數據數量都達到了10個或10個以上(見表2)。

為了提高元數據的針對性,提高服務效率,林業科學數據中心根據元數據的詳細程度將元數據劃分為兩級——核心元數據和詳細元數據。核心元數據定義了描述數據集最關鍵的信息內容。在核心元數據的基礎上,充分考慮林業科學數據中各類數據的特點,建立了滿足林業科學數據共享建設需要的詳細元數據。核心元數據包括元數據參考信息、元數據聯系方信息、標識、數據集限制信息、數據質量信息,詳細元數據除此之外還包括內容信息、分發格式等19個元數據。先進制造與自動化科學數據共享平臺根據資源對象類型,將元數據劃分為資源對象元數據和資源集合元數據。資源集合元數據包含一般描述信息、關聯信息、訪問信息,資源對象元數據除上述元數據之外,還包括實例信息、產權信息、使用信息、其他說明。

22資源整合

經過10余年的建設,科學數據共享平臺開發和整合了大量的科學數據資源,資源統計情況見表2。(1)資源類別方面,平臺整合的資源類別介于6種到14種之間,其中國家地震科學數據共享中心涵蓋的數據類別最多,達到了14種。先進制造與自動化科學數據共享平臺的資源種類最少,但也有6種。(2)數據庫(集)方面,平臺數據庫(集)的數量介于100~800個之間,地球系統科學數據共享平臺的數據庫(集)數量高達1 157個,數據庫(集)數量最少的國家地震科學數據共享中心,其數據庫(集)也有54個之多。(3)資源總量方面,平臺的數據資源總量大都在1 000GB以上,其中中國氣象數據網的資源總量更是達到了118 784GB。

如此引人矚目的資源建設成就,得益于平臺高效的資源整合方式。以地球系統科學數據共享平臺為例,該平臺按照“總中心-分中心-數據資源點”的三級架構模式,整合分散在國內外40多個單位的科學數據資源。通過區域和學科分中心的設置,推動區域和學科數據資源的建設。其資源整合方式如下:(1)通過適當的經費支持,整合參與單位已有的科學數據資源;(2)通過科學數據服務,接收和集成數據用戶單位的科學數據資源;(3)通過共享軟件的服務,自動收割和整合軟件用戶單位的科學數據資源;(4)通過開放交換,與其他數據管理機構交換科學數據資源,建立資源鏡像[4]。

23資源檢索

科學數據共享平臺提供數據導航和數據檢索兩種資源查詢方式(見表3)。數據導航又包括3種類型:(1)主題分類導航(專題分類導航)。如先進制造與自動化科學數據共享平臺將平臺數據劃分為現代設計技術、先進制造工藝、自動化技術、通用技術、現代管理5個主題。(2)學科分類導航(中圖數據分類導航)。如國家農業科學數據共享中心的中圖數據分類導航,參照中圖法將平臺數據劃分為自然科學總論、農業科學、交通運輸、工業技術、綜合性圖書等13種類目。(3)因應具體學科特點的特色導航。如中國氣象數據網的數據定位導航,國家地震科學數據共享中心的地域屬性導航。

數據檢索功能包括簡單檢索、高級檢索、組配檢索、數值檢索、條目檢索、專業檢索等諸多方式。中國氣象數據網的資源檢索功能異常強大,能夠實現檢索范圍、數據類別、網站節點之間的組配檢索,并提供層次分類、關鍵詞匹配、條件組合和地圖可視化等多種數據查詢方式。地球系統科學數據共享平臺提供即點即找檢索功能,即通過在頁面中點擊數據貢獻者、數據貢獻單位、空間位置、主題詞、學科類別、主題分類等位置進行數據的查找。除了檢索總平臺數據之外,通過總平臺還能夠檢索特定分平臺的數據資源。

為了便于用戶快速獲取所需數據,科學數據共享平臺提供多種檢索結果排序方式,包括發布時間、下載次數、訪問量、結果相關度、資源類型、數據大小等。其中,發布時間和更新時間是最常用的檢索結果排序方式。國家人口與健康科學數據共享平臺、國家農業科學數據共享中心、交通科學數據共享網均提供發布時間排序途徑,中國氣象數據網、地球系統科學數據共享平臺則都提供更新時間排序功能。林業科學數據中心的檢索結果根據資源類型分類排列,即元數據、庫數據、表數據,是一種較為特殊的檢索結果排序方式。

3科學數據共享平臺的用戶服務

31數據服務

為了確保數據的安全性和完整性,更好地保證系統中信息交流、數據檢索的有序性,平臺大多實行會員注冊制服務,將用戶區分為注冊用戶和非注冊用戶。非注冊用戶可以游客身份瀏覽平臺科學數據,注冊用戶則具有科學數據的瀏覽、查詢、下載等權限。中國氣象數據網、國家地震科學數據共享中心、林業科學數據中心、先進制造與自動化科學數據共享平臺等4個平臺根據用戶來源和可獲取的數據范圍,對注冊用戶做了進一步劃分。如中國氣象數據網將注冊用戶分為普通注冊用戶、個人實名注冊用戶、單位實名注冊用戶、教育科研實名注冊用戶。平臺根據注冊用戶類型,為其提供不同權限的數據服務。普通注冊用戶和教育科研實名注冊用戶具有獲取指定氣象數據和產品的權限,個人實名注冊用戶除此權限外,還具有獲取中國氣象局最新公布的《基本氣象資料和產品開放清單》內的氣象數據和產品的權限,單位實名注冊用戶除上述權限外還具有獲取標準、開放的數據接口服務的權限。

科學數據共享平臺為規范科學數據的共享服務工作,并能及時向各類用戶提供所需數據,對科學數據資源實行分級共享。如先進制造與自動化科學數據共享平臺根據數據的價值、獲取難度及重要程度,將科學數據劃分為7級:經元數據規范的初加工數據;經元數據規范和質量檢驗規范的精加工數據;獲取難度較大的加工數據;有自籌資金投入的數據;應用戶需求,專門為之整理、加工和生產的科學數據;為使用者帶來直接或巨大商業利益的關鍵數據;影響國際競爭力的關鍵數據(影響國家安全的重要數據)。平臺根據用戶級別,為其提供相應等級的數據服務。

平臺的資源獲取方式主要是在線下載,對于一些重要數據或數據量較大的數據資源提供光盤(拷貝),另外還提供數據傳遞、復印等服務。為提升用戶體驗,地球系統科學數據共享平臺在用戶申請數據方面引入了數據訂單概念。數據獲取均以數據訂單方式處理,用戶可以在一個訂單中申請多個數據。數據申請處理過程通過電子郵件主動通知用戶每步的數據處理情況,用戶可以跟蹤訂單的狀態獲知數據申請處理的全過程[5]。

32延伸服務

延伸服務指除了操作數據實體之外的一種增值性服務??茖W數據共享平臺主要提供數據定題服務和嵌入式數據服務兩類延伸服務。(1)數據定題服務根據用戶的需求組織相關資源并進行適當處理,以用戶需要的形式定期或不定期持續提供數據支持服務。國家地震科學數據共享中心提供中國臺網地震目錄、國家臺網連續波形、國家臺網事件波形、國家臺網震相數據等地震科學數據產品定制服務。林業科學數據中心為用戶提供特定專業領域的專題數據及技術服務,根據用戶提出的數據類別及技術指標要求,提供特定數據產品。(2)嵌入式數據服務是針對用戶個性化需要提供的科研支持服務,如根據用戶的需要,派遣領域專家和數據專家加入用戶團隊,主動發現用戶的信息需求并開展數據服務。交通科學數據共享網針對研究課題開展定題服務,為用戶提供從課題前期調研、開題立項、項目開展和成果驗收全過程的科學數據檢索和提供服務。

33服務統計

科學數據共享平臺的社會效能主要體現在注冊人數、訪問量、被鏈接次數等方面,被引次數、對科研項目的支撐則在一定程度上體現了平臺的科研效能。筆者于2016年4月1日通過各科學數據共享平臺網站查詢其注冊人數和訪問量(見表4),發現除先進制造與自動化科學數據共享平臺和交通科學數據共享網外,其余平臺網站均提供相關信息??茖W數據共享平臺的注冊人數大都在萬人以上,訪問量更是超過了百萬次。國家人口與健康科學數據共享平臺的注冊人數最多,達31萬人。國家地震科學數據共享中心的注冊人數最少,但也有近7 000人。中國氣象數據網的訪問量最大,達124 746 363次。國家農業科學數據共享中心的訪問量為1 448 632次,在所有平臺中訪問量最少。利用“站長之家”網站的“友情鏈接查詢”功能,查詢各平臺網站的被鏈接次數(見表4)。其中,國家農業科學數據共享中心和地球系統科學數據共享平臺的被鏈接次數都在30次以上,國家人口與健康科學數據共享平臺和交通科學數據共享網的被鏈接次數最少,但也有1家友情鏈接網站。

在中國知網的“參考文獻”字段檢索各個科學數據共享平臺的名稱,調查其被引情況(見表4),檢索時間為2016年4月1日。調查發現,地球系統科學數據共享平臺的被引次數高達96次,被引次數最少的先進制造與自動化科學數據共享平臺也有4次被引記錄。由于無法全面獲取各平臺精確的科研支撐信息,故僅以地球系統科學數據共享平臺為例,分析該平臺的科研支撐情況。據統計,地球系統科學數據共享平臺共為2 384項國家重大科研項目/課題,青藏鐵路、載人航天工程等35項國家重大工程建設項目,汶川地震急應決策與災后規劃、北京奧運空間環境保障等34個民生工程提供了數據支撐服務[6],向全社會無償提供了從國外引進的陸地資源衛星影像21 726景,僅此一項就為應用部門節省經費約8 256萬元[7]。在該平臺的支撐下,各參加單位共申請到各類科技項目67項,合計經費12 1402萬;發表科技論文/專著572篇;獲得國家、省部各類科技獎勵19項,申請專利12項,申請軟件著作權27項[8]。通過以上數據不難發現,科學數據共享平臺在用戶的工作、學習、科研中所發揮的巨大作用。表4科學數據共享平臺的用戶服務統計

平臺注冊人數(人)訪問量(次)被鏈接次數(次)被引次數(條)中國氣象數據網96 011124 746 3632416國家地震科學數據共享中心6 9513 782 8052264國家人口與健康科學數據共享平臺310 0001 540 000125國家農業科學數據共享中心25 5901 448 6323345林業科學數據中心30 0003 000 000464地球系統科學數據共享平臺94 21218 133 2433196先進制造與自動化科學數據共享平臺——49 733 482144交通科學數據共享網————119

4結語

41平臺存在的不足

我國的科學數據共享平臺經過十余年的建設,形成了較為完備的科學數據資源共享體系,取得了顯著的經濟社會效益,但仍然存在一些不足。

411安全性有待提高

科學數據共享平臺整合了海量的科學數據資源,其中包含很多涉及經濟、科技命脈乃至國家安全的重要數據,以及注冊用戶的大量私人信息,因此極易遭受黑客攻擊。農業科學數據共享中心、交通科學數據共享網都發生過SQL注入漏洞,導致網站癱瘓,用戶信息大量泄漏。今后應加強平臺的網絡與信息安全技術防范,建立政治類、災害類、黑客攻擊類網絡安全分類管理措施和應急保障體系[9],進一步優化和完善平臺數據容災系統。

412資源更新滯后

科學研究和科技創新對科學數據的時效性有著較高的要求,但平臺的網站內容和數據資源更新頻率較低。以國家人口與健康科學數據共享平臺為例,其現有資源中,有明確更新維護方案的數據集僅200余個,尚不足資源總數的1/3[2]。為提高平臺的資源共享效果,保證服務的長期可持續發展,平臺應對匯交和整合的數據資源,以及平臺的管理、業務、服務等新聞信息進行及時更新,確保資源的時效性。

42今后的改進方向

從進一步充實科學數據共享平臺的數據資源,提升科學數據共享平臺的服務能力,改善用戶體驗的角度考慮,平臺建設者今后還需要努力做好如下3個方面的工作。

421豐富數據資源

平臺的數據資源以國家和地方科研項目產生的科學數據為主,今后須進一步拓展數據資源整合的區域范圍和數據類型,加強國際數據資源的引進,重視網絡數據資源的收集組織,提高數據資源形成、成長、成熟、衰亡過程的全鏈條式管理,為用戶提供更加豐富的數據資源。

422提升服務能力

隨著數據密集型應用的發展,科研人員在科學研究的各個環節都更加依賴系統和專業的、經過科學分析和整理的科學數據[10]。平臺應加強以用戶為中心聚合資源和服務的能力,力爭成為用戶工作環境和科研流程的有機組成部分[11]。平臺需以可視化和智能化的數據獲取為目標,研制在線數據處理分析工具,實現以數據內容服務為核心,向“數據—工具”一體化服務轉變。

423完善定制化服務

針對平臺的建設信息、新聞信息、數據資源等的頻繁更新,平臺可以結合用戶的興趣愛好以及行為特征,采用基于RSS的聚合方式,為不同的用戶群組織不同結構的RSS文件,并推送給對應用戶[12];或者為數據需求量大的機構建立機構門戶,及時發布和推送相應的數據資源,方便用戶便捷地管理資料,及時高效地利用資源。

參考文獻

[1]胡兆珀.科學數據共享工程啟動[N].科技日報,2002-02-06.

[2]李贊梅,孫海霞.國家人口與健康科學數據共享平臺資源建設模式分析[J].醫學信息學雜志,2015,(10):72-76.

[3]王亮緒,吳立宗,南卓銅.基于B2C架構的綜合性科學數據共享系統[J].遙感技術與應用,2013,(3):355-361.

[4]諸云強,劉潤達,馮敏,等.分布式地球系統科學數據共享平臺研究[J].計算機工程與應用,2009,(1):245-248.

[5]苗茹,宋佳,王卷樂,等.地球科學數據共享平臺建設思路與實踐[J].中國科技資源導刊,2014,(4):64-72.

[6]國家地球系統科學數據共享平臺.國家地球系統科學數據共享平臺簡介[EB/OL].http:∥www.geodata.cn/aboutus.html,2016-03-21.

[7]地球系統科學數據共享平臺.地球系統科學數據共享平臺簡介[EB/OL].http:∥www.geodata.cn/Portal/aboutWebsite/aboutus.jsp,2016-03-21.

[8]諸云強.地球系統科學數據共享平臺建設與服務[J].中國科技投資,2011,(12):27-29.

[9]王蓉,廖明丹,劉磊.國家自然科技資源共享平臺安全保障措施研究[J].中國科技論壇,2007,(7):26-30,144.

[10]宋立榮.我國科學數據共享項目建設中存在的問題及對策建議[A].International Conference on Engineering and Business Management(EBM2010)[C].2010:5141.

[11]趙勝鋼.國家農業科學數據共享平臺體系結構研究[D].北京:中國農業科學院,2009:127.

[12]韓厚繼,肖慧,楊寧生,等.個性化服務在漁業科學數據平臺中的應用探索[J].廣東農業科學,2012,(2):151-154.

(本文責任編輯:郭沫含)

猜你喜歡
用戶服務共享平臺資源建設
新媒體時代老年類報刊的用戶服務轉型與升級對策
中企搭乘“共享平臺”好出海
保定旅游資源建設現狀及存在的問題研究
高校大型儀器設備共享平臺構建與運行管理探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合