李海燕 ,賈李蓉 ,聶瑩 ,王斌 ,孫華君 ,傅昊陽 ,李靜 ,張磊 ,王廣志 ,付林飛
1.中國中醫科學院中醫藥信息研究所,北京 100700;2.中國中醫科學院中醫藥數據中心,北京 100700;3.廣東省中醫院,廣東 廣州 510120;4.上海中醫藥大學,上海 201203;5.中科軟科技股份有限公司,北京 100080
本文件按照GB/T 1.1-2020《標準化工作導則第1部分:標準化文件的結構和起草規則》起草。
本文件由中華中醫藥學會提出并歸口。
隨著中醫藥信息化的發展,中醫藥相關政府部門、醫療機構、科研機構、教育機構、產業機構等產出了大量數據,包括醫療數據、科研數據、文獻數據、產業數據等各類數據資源,如此龐雜的數據資源需要進行分類組織和管理。因此,亟須建立一套描述數據資源特征的標準,即元數據規范,幫助用戶從海量數據中發現符合需求的資源,從而促進數據資源的共享與利用。本文件在分析國內外有關不同類型元數據標準基礎上,從規范描述中醫藥領域數據資源的需求出發,研究建立中醫藥領域數據資源元數據規范,以促進中醫藥領域數據資源描述的規范化和標準化。
本文件規定了中醫藥數據資源元數據結構,包括元數據子集、元數據實體及元數據元素,用于完整描述中醫藥數據資源。
本文件適用于中醫藥數據資源編目、歸檔、建庫、發布、共享、交換與檢索等。
下列文件對本文件的應用是必不可少的。凡是注明日期的引用文件,僅所注日期版本適用于本文件;凡是未注明日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T 38327-2019 健康信息學 中醫藥數據集分類
GB/T 4880.2-2000 語種名稱代碼 第2部分:3字母代碼
ISO 13119:2012 Health informatics - Clinical knowledge resources-Metadata
ISO 15836-1:2017 Information and documentation -The Dublin Core metadata element set - Part 1: Core elements
ISO/TS 17948:2014 Health informatics -Traditional Chinese medicine literature metadata
下列術語和定義適用于本文件。
能夠產生經濟或社會效益的數據。
中醫藥領域能夠產生經濟或社會效益的數據。
定義和描述其他數據的數據。
元數據的基本單元。
一組說明信息資源相關特性的元數據元素。
元數據的子集合,由元數據實體和元數據元素組成。
中醫藥數據資源元數據定義了3個層次的結構(見表1),即元數據子集、元數據實體、元數據元素。中醫藥數據資源元數據由7個元數據子集構成。a)標識信息子集:關于中醫藥數據資源外部特征的基本信息,包括名稱、標識符、創建者和出版者等;b)內容信息子集:關于中醫藥數據資源內部特征的基本信息,包括主題、描述等;c)分發信息子集:關于用戶獲取中醫藥數據資源的信息;d)質量信息子集:關于中醫藥數據資源保存狀態的質量信息;e)限制信息子集:關于中醫藥數據資源及元數據獲取和使用的限制信息;f)維護信息子集:關于維護中醫藥數據資源的信息;g)關聯信息子集:關于中醫藥數據資源與其他資源之間的關聯關系的參考信息。
表1 中醫藥數據資源元數據結構
中醫藥數據資源元數據實體與元素引用了都柏林核心元數據(ISO 15836-1:2017)、臨床知識資源元數據(ISO 13119:2012)和中醫藥文獻元數據(ISO/TS 17948:2014)。
中醫藥數據資源元數據元素來源:
1)選擇常用來描述中醫藥數據資源的一般元素;
2)描述中醫藥數據資源信息必要元素和特殊元素,包括資源名稱(正式名稱、唯一標識符)、資源來源(臨床試驗、古籍文獻)等。
中醫藥數據資源元數據實體與元數據元素采用英文名稱,以便于計算機標記和編碼,并與國際通用的元數據標準保持語義一致性,中文標簽便于對照理解。
中文標簽是元素名稱的一個語義屬性,在具體的應用領域,允許賦予其適合的中文標簽,但語義上不允許與原始定義有沖突,不允許擴大原始語義。
元素值域宜優先選取有常設機構維護的詞匯表、符號集和術語受控詞表。同時,為了某些特定領域內的互操作性,可以開發利用其他受控詞表。
所有元素均為非限制性,如果在特定的項目或應用中使用,可進行必要的擴展,并增加使用說明,本文件中的元素描述及示例有可能涉及擴展描述。
元數據實體與元數據元素屬性定義見表2。
表2 中醫藥數據資源元數據屬性定義
6.1.1 元數據實體描述
6.1.1.1 資源名稱
英文名稱:data resource title;
中文標簽:資源名稱;
定義:簡要描述中醫藥數據資源主題與內容的標題;
注釋:其元數據元素包括正式名稱,譯名,名稱注音,其他名稱及唯一標識符;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,1]。
6.1.1.2 創建者
英文名稱:creator;
中文標簽:創建者;
定義:創建中醫藥數據資源的主要責任實體;
注釋:其元數據元素包括創建者名稱,創建者類型、創建者地址、創建者電話、創建者郵箱、創建者傳真、創建者主頁;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,N]。
6.1.1.3 貢獻者
英文名稱:contributor;
中文標簽:貢獻者;
定義:對中醫藥數據資源做出貢獻的其他責任實體;
注釋:貢獻者包括個人、組織或某項服務,若有多個貢獻者則全部列出;其元數據元素包括貢獻者名稱、貢獻者地址、貢獻者電話、貢獻者郵箱;
實體類型:復合型;
約束:可選(O);
頻次范圍:[0,N]。
6.1.1.4 存儲信息
英文名稱:store information;
中文標簽:存儲信息;
定義:中醫藥數據資源的存儲類型、格式等;
注釋:其元數據元素包括存儲類型、存儲格式、存儲量、記錄數等;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,1]。
6.1.1.5 出版者
英文名稱:publisher;
中文標簽:出版者;
定義:使中醫藥數據資源可以獲得和利用的責任實體;
注釋:出版者包括個人、組織或某項服務,其元數據元素包括出版者名稱、出版者地址、出版者電話、出版者郵箱;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,1]。
6.1.1.6 日期
英文名稱:date;
中文標簽:日期;
定義:記錄與數據資源生命周期中某個時間相關的時間;
注釋:采用由萬維網聯盟(W3C)制訂的日期和時間編碼規則--基于ISO 8601的一部分,并使用YYYY-MM-DD格式著錄;元數據元素包括創建日期、更新日期、發布日期、可獲得日期;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,N]。
6.1.1.7 來源
英文名稱:source;
中文標簽:來源;
定義:當前數據資源的原始出處;
注釋:指當前數據資源的來源,如某個科研機構,其元數據元素包括數據來源、來源類型;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,1]。
6.1.2 元數據元素描述
6.1.2.1 正式名稱
英文名稱:formal title;
中文標簽:正式名稱;
定義:數據資源在共享時使用的名稱;
注釋:必備,數據資源在共享時規定使用的名稱,不能與其他名稱混用;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,1];
限定實體:資源名稱。
6.1.2.2 譯名
英文名稱:translated title;
中文標簽:譯名;
定義:資源名稱的其他語言翻譯名稱;
注釋:本術語有則必備,須在譯名后注明語種;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:資源名稱。
6.1.2.3 名稱注音
英文名稱:phonetic notation;
中文標簽:名稱注音;
定義:資源名稱的漢語拼音;
注釋:本術語有則必備;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:資源名稱。
6.1.2.4 其他名稱
英文名稱:other titles;
中文標簽:其他名稱;
定義:資源名稱的簡稱、別名或其他語言翻譯的名稱等其他非正式名稱;
注釋:須在其他名稱后注明語種;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:資源名稱。
6.1.2.5 唯一標識符
英文名稱:identifier;
中文標簽:唯一標識符;
定義:在特定環境中,給予數據資源一個特定的標識,使其在該環境中唯一;
注釋:建議資源標識符采用正式標識體系規定的標識符;
數據類型:字符串;
值域:URI[包括統一資源定位符(URL)]、數字對象標識符(DOI)、國際標準書號(ISBN)、國際標準連續出版物號(ISSN)、開放學術出版物及學術產出的作者標識符(ORCID)等;
約束:必選(M);
頻次范圍:[1,1];
限定實體:資源名稱。
6.1.2.6 創建者名稱
英文名稱:creator name;
中文標簽:創建者名稱;
定義:創建者的名稱;
注釋:創建機構、團體或個人的名稱,包括科研單位、醫療機構、項目組及個人等;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,N];
限定實體:創建者。
6.1.2.7 創建者類型
英文名稱:creator type;
中文標簽:創建者類型;
定義:根據創建者的功能,對創建者進行分類,負責建立或創建該數據資源的實體類型;
注釋:采用GB/T 38327-2019《健康信息學 中醫藥數據集分類》的“創建者類型”進行標識;
數據類型:字符串;
值域:按GB/T 38327-2019規定取值;
約束:必選(M);
頻次范圍:[1,10];
限定實體:創建者。
6.1.2.8 創建者地址
英文名稱:creator address;
中文標簽:創建者地址;
定義:創建者的地理位置;
注釋:創建者或創建機構的具體地址,采用YZ/T 0127-2006《郵政地址信息數據結構》進行標識;
數據類型:字符串;
值域:按YZ/T 0127-2006規定取值;
約束:必選(M);
頻次范圍:[1,N];
限定實體:創建者。
6.1.2.9 創建者電話
英文名稱:creator phone number;
中文標簽:創建者電話;
定義:創建者的電話;
注釋:創建者或創建機構聯系人的電話,可以包括座機號碼、手機號碼;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:創建者。
6.1.2.10 創建者郵箱
英文名稱:creator e-mail;
中文標簽:創建者郵箱;
定義:創建者的郵箱;
注釋:創建者或創建機構聯系人的郵箱;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:創建者。
6.1.2.11 創建者傳真
英文名稱:creator fax;
中文標簽:創建者傳真;
定義:創建者的傳真;
注釋:創建者或創建機構聯系人的傳真號碼;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:創建者。
6.1.2.12 創建者主頁
英文名稱:creator homepage;
中文標簽:創建者主頁;
定義:創建者的主頁;
注釋:創建者或創建機構的主頁地址;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:創建者。
6.1.2.13 貢獻者名稱
英文名稱:contributor name;
中文標簽:貢獻者名稱;
定義:貢獻者的名稱;
注釋:通常是創建者名稱,也可以是其他貢獻者實體名稱;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:貢獻者。
6.1.2.14 貢獻者地址
英文名稱:contributor address;
中文標簽:貢獻者地址;
定義:貢獻者的地理位置;
注釋:通常是創建者地址,也可以是其他貢獻者的地址,采用YZ/T 0127-2006《郵政地址信息數據結構》進行標識;
數據類型:字符串;
值域:按YZ/T 0127-2006規定取值;
約束:可選(O);
頻次范圍:[0,N];
限定實體:貢獻者。
6.1.2.15 貢獻者電話
英文名稱:contributor phone number;
中文標簽:貢獻者電話;
定義:貢獻者的電話;
注釋:通常是創建者的電話,也可以是其他貢獻者的電話;
出處:自定義;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:貢獻者。
6.1.2.16 貢獻者郵箱
英文名稱:contributor e-mail;
中文標簽:貢獻者郵箱;
定義:貢獻者的郵箱;
注釋:通常是創建者的郵箱,也可以是其他貢獻者的郵箱;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:貢獻者。
6.1.2.17 存儲類型
英文名稱:type;
中文標簽:存儲類型;
定義:中醫藥數據資源的特征或類型;
注釋:包括電子文件、電子表格、數據集、圖像、音頻等;DCMI類型詞匯表提供了一個通用的、跨域的已批準術語列表,這些列表可以用作Type元素的值來標識資源的類型;
數據類型:字符串;
值域:DCMI Type Vocabulary,URI:https://www.dublincore.org/specifications/dublin-core/dcmi-type-vocabulary/2003-11-19/;
約束:必選(M);
頻次范圍:[1,1];
限定實體:存儲信息。
6.1.2.18 存儲格式
英文名稱:format;
中文標簽:存儲格式;
定義:數據資源的計算機可讀格式;
注釋:數據資源的存儲格式,電子文件的存儲格式為OFD、TXT、WPS、XML、DOC、HTML、PPT、PDF等;電子表格的存儲格式為ET、XLS、XLSX等;數據庫的存儲格式為DM、KingbaseES、access、DBF、Dbase、MDB、sysbase、ORACLE、SQL、DB2、HBase等;圖形圖像類的存儲格式為JPEG、GIF、BMP、PNG等;視頻格式為FLV、RMVB等;音頻格式為WMA、MP3等;流媒體類的存儲格式為SWF、RM、MPG等;自描述格式由提供方提出其格式;
數據類型:字符串;
值域:MIME,URI:http://www.w3school.com.cn/media/media_mimeref.asp;
約束:必選(M);
頻次范圍:[1,N];
限定實體:存儲信息。
6.1.2.19 存儲量
英文名稱:storage;
中文標簽:存儲量;
定義:數據資源在計算機中所占的字節數;
注釋:數據資源的總量,用所占字節數表示,與數據記錄數不同;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,1];
限定實體:存儲信息。
6.1.2.20 記錄數
英文名稱:record count;
中文標簽:記錄數;定義:數據資源所包含的一組完整記錄的數量;
注釋:數據文件中可閱讀的記錄數量,與字節數不同;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,N];
限定實體:存儲信息。
6.1.2.21 出版者名稱英文名稱:publisher name;
中文標簽:出版者名稱;
定義:出版者的名稱;
注釋:可以是個人、機構、組織或某項服務的名稱;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,1];
限定實體:出版者。
6.1.2.22 出版者地址
英文名稱:publisher address;
中文標簽:出版者地址;
定義:出版者的地理位置;
注釋:采用YZ/T 0127-2006《郵政地址信息數據結構》進行標識;
數據類型:字符串;
值域:按YZ/T 0127-2006規定取值;
約束:必選(M);
頻次范圍:[1,1];
限定實體:出版者。
6.1.2.23 出版者電話
英文名稱:publisher phone number;
中文標簽:出版者電話;
定義:出版者的電話;
出處:自定義;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:出版者。
6.1.2.24 出版者郵箱
英文名稱:publisher e-mail;
中文標簽:出版者郵箱;
定義:出版者的郵箱;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:出版者。
6.1.2.25 創建日期
英文名稱:date created;
中文標簽:創建日期;
定義:創建該元數據的日期;
注釋:建議采用規范編碼體系,如ISO 8601-1[W3C-DTF],并使用YYYY-MM-DD格式著錄;
數據類型:日期型;
值域:采用YYYY-MM-DD格式;
約束:必選(M);
頻次范圍:[1,1];
限定實體:日期。
6.1.2.26 更新日期
英文名稱:date modified;
中文標簽:更新日期;
定義:數據最近更新的日期;
注釋:建議采用規范編碼體系,如ISO 8601-1[W3C-DTF],并使用YYYY-MM-DD格式著錄;
數據類型:日期型;
值域:采用YYYY-MM-DD格式;
約束:必選(M);
頻次范圍:[1,1];
限定實體:日期。
6.1.2.27 發布日期
英文名稱:date issued;
中文標簽:發布日期/出版日期;定義:數據資源發布或出版的日期;
注釋:建議采用規范編碼體系,如ISO 8601-1[W3C-DTF],并使用YYYY-MM-DD格式著錄;
數據類型:日期型;
值域:采用YYYY-MM-DD格式;
約束:必選(M);
頻次范圍:[1,1];
限定實體:日期。
6.1.2.28 可獲得日期
英文名稱:available date;
中文標簽:可獲得日期;
定義:數據資源成為可獲得資源的日期;
注釋:建議采用規范編碼體系,如ISO 8601-1[W3C-DTF],并使用YYYY-MM-DD格式著錄;
數據類型:日期型;
值域:采用YYYY-MM-DD格式;
約束:可選(O);
頻次范圍:[0,1];
限定實體:日期。
6.1.2.29 數據來源
英文名稱:data source;
中文標簽:數據來源;
定義:當前數據資源的實體;
注釋:數據來源可以是個人、機構、應用程序等;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,N];
限定實體:來源。
6.1.2.30 來源類型
英文名稱:type of source;
中文標簽:來源類型;
定義:以數據原始載體的角度,對當前數據資源的分類;
注釋:建議采用GB/T 38327-2019《健康信息學中醫藥數據集分類》的“數據來源類型”進行標注;
數據類型:字符串;
值域:按照GB/T 38327-2019規定取值;
約束:必選(M);
頻次范圍:[1,4];
限定實體:來源。
6.2.1 元數據實體描述
6.2.1.1 描述
英文名稱:description;
中文標簽:描述;
定義:資源的說明解釋;
注釋:描述可以包括但不限于以下內容:文摘、目錄、圖形圖像表示,或關于資源的文本描述;元數據元素包括資源范圍、摘要、目錄、資助項目、瀏覽圖、應用、語種;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,N]。
6.2.1.2 資源分類
英文名稱:dataset classification;
中文標簽:資源分類;
定義:說明中醫藥數據資源相應的分類信息;
注釋:采用GB/T 38327-2019《健康信息學 中醫藥數據集分類》的分類信息進行標識;元數據元素包括類目名稱、類目代碼;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,N]。
6.2.1.3 主題
英文名稱:subject;
中文標簽:主題;
定義:資源的主題;
注釋:一般采用主題詞、關鍵詞、關鍵詞短語或分類號來描述,建議使用受控詞表;元數據元素包括主題詞、關鍵詞;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,N]。
6.2.2 元數據元素描述
6.2.2.1 資源范圍
英文名稱:coverage;
中文標簽:資源范圍;
定義:數據資源涉及的時間或空間范圍,或資源適用的空間或資源所轄的范圍;
注釋:用文本描述數據資源包含的范圍,一般包括時間、空間、主題等范圍;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:描述。
6.2.2.2 摘要
英文名稱:abstract;
中文標簽:摘要;
定義:對數據資源主要內容的文本型概述;
注釋:一般是對數據資源主要內容進行描述,也可以包括其他一些重要信息,如特殊歷史信息、重要用途等;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,1];
限定實體:描述。
6.2.2.3 目錄
英文名稱:contents;
出處:dcterms;
中文標簽:目錄;
定義:組成數據資源的所有單元的列表;
注釋:著錄內容包括章節名稱、圖表清單、文檔、圖形、樣式表等;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:描述。
6.2.2.4 資助項目
英文名稱:funded project;
中文標簽:資助項目;
定義:創建數據資源時,提供資金支持的項目;
注釋:包括但不限于國家重點研發計劃、國家自然科學基金等;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:描述。
6.2.2.5 瀏覽圖
英文名稱:graphic overview;
中文標簽:瀏覽圖;
定義:數據資源的概略圖形;
注釋:概要性說明數據資源的圖形;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:描述。
6.2.2.6 應用
英文名稱:application;
中文標簽:應用;
定義:創建數據資源的目標、用途或應用領域;
注釋:描述數據資源的具體用途和應用領域;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,1];
限定實體:描述。
6.2.2.7 語種
英文名稱:language;
中文標簽:語種;
定義:資源的語種;
注釋:采用GB/T 4880.2-2000《語種名稱代碼第2部分:3字母代碼》進行標識;
數據類型:字符串;
值域:按GB/T 4880.2-2000規定取值;
約束:必選(M);
頻次范圍:[1,N];
限定實體:描述。
6.2.2.8 類目名稱
英文名稱:dataset classification name;
出處:GB/T 38327-2019《健康信息學 中醫藥數據集分類》;
中文標簽:類目名稱;
定義:資源所屬的類目名稱;
注釋:采用GB/T 38327-2019《健康信息學 中醫藥數據集分類》數據集分類名稱進行標注;
數據類型:字符串;
值域:按GB/T 38327-2019規定取值;
約束:必選(M);
頻次范圍:[1,N];
限定實體:資源分類。
6.2.2.9 類目代碼
英文名稱:dataset classification code
出處:GB/T 38327-2019《健康信息學 中醫藥數據集分類》;
中文標簽:類目代碼;
定義:資源所屬類目的代碼;
注釋:采用GB/T 38327-2019《健康信息學 中醫藥數據集分類》數據集分類代碼進行標注;
數據類型:字符串;
值域:按GB/T 38327-2019規定取值;
約束:必選(M);
頻次范圍:[1,N];
限定實體:資源分類。
6.2.2.10 主題詞
英文名稱:subject headings;
出處:自定義;
中文標簽:主題詞;
定義:表達數據資源主題的受控詞;
注釋:參照《醫學主題詞表》(MeSH)、《中國中醫藥學主題詞表》等進行標注;
數據類型:字符串;
值域:按照MeSH和《中國中醫藥學主題詞表》規定取值;
約束:可選(O);
頻次范圍:[0,N];
限定:主題。
6.2.2.11 關鍵詞
英文名稱:key words;
出處:自定義;
中文標簽:關鍵詞;
定義:單個媒體在制作索引時,所適用的詞匯;
注釋:表達數據資源內容的詞語,不使用專門的主題詞,可用自由詞;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定:主題。
6.3.1 元數據實體描述
6.3.1.1 分發格式
英文名稱:distribution format;
中文標簽:分發格式;
定義:分發數據資源的格式說明;
注釋:元數據元素包括名稱、版本、在線(鏈接)、離線(介質);
實體類型:復合型;
約束:可選(O);
頻次范圍:[0,N]。
6.3.1.2 分發者
英文名稱:distributor;
中文標簽:分發者;
定義:進行中醫藥數據資源分發的責任實體;
注釋:元數據元素包括分發者名稱、分發者地址、分發者電話、分發者郵箱;
實體類型:復合型;
約束:可選(O);
頻次范圍:[0,N]。
6.3.2 元數據元素描述
6.3.2.1 名稱
英文名稱:distribution format name;
中文標簽:分發格式名稱;
定義:數據資源分發的格式,一般用名稱進行標識;
注釋:給使用者發放時的格式,不一定是數據資源的原始格式,可以是壓縮后或者轉換后的格式;數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定:分發格式。
6.3.2.2 版本
英文名稱:version;
出處:自定義;
中文標簽:分發格式版本;
定義:數據分發格式的版本;
注釋:一般是版本號或日期;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,1];
限定:分發格式。
6.3.2.3 在線(鏈接)
英文名稱:online URL;
中文標簽:在線(鏈接);
定義:從互聯網上得到數據資源的位置和訪問方法;
注釋:用戶通過網絡可訪問數據資源的一種方法;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:分發格式。
6.3.2.4 離線(介質)
英文名稱:off-line medium;
中文標簽:離線(介質);
定義:用戶通過非網絡的方式獲得數據資源的方法;
注釋:用戶通過移動存儲設備、紙質版本等介質獲得數據資源;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:分發格式。
6.3.2.5 分發者名稱
英文名稱:distributor name;
中文標簽:分發者名稱;
定義:數據資源分發者的名稱;
注釋:數據資源分發者的名稱可能與創建者一致或不一致,可為個人、組織、機構等;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定:分發者。
6.3.2.6 分發者地址
英文名稱:distributor address;
中文標簽:分發者地址;
定義:數據資源分發者所在的地理位置;
注釋:數據資源分發者的具體地址,可定位到具體位置;采用YZ/T 0127-2006《郵政地址信息數據結構》進行標識;
數據類型:字符串;
值域:按YZ/T 0127-2006規定取值;
約束:可選(O);
頻次范圍:[0,N];
限定:分發者。
6.3.2.7 分發者電話
英文名稱:distributor phone number;
中文標簽:分發者電話;
定義:數據資源分發者電話;
注釋:數據資源分發者,如機構或聯系人的座機號碼、手機號碼;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定:分發者。
6.3.2.8 分發者郵箱
英文名稱:distributor e-mail;
中文標簽:分發者郵箱;
定義:數據資源分發者的郵箱;
注釋:數據資源分發者,如機構或聯系人的電子郵箱地址;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定:分發者。
6.4.1 元數據實體描述
6.4.1.1 數據志
英文名稱:lineage;
中文標簽:數據志;
定義:非量化的數據質量信息;
注釋:數據創造者對數據源和處理步驟的說明,包括但不限于數據的完整性、規范性、一致性、準確性、唯一性和關聯性的說明和解釋;元數據元素包括數據志;
實體類型:簡單型;
約束:必選(M);
頻次范圍:[1,N]。
6.4.1.2 質量報告
英文名稱:quality report;
中文標簽:質量報告;
定義:對數據集的數據質量評測行為或評測結果等有關信息的鏈接指向;
注釋:此元素為指向數據集質量信息的鏈接地址,鏈向在數據質量相關成果規約下的數據質量評測相關元數據;元數據元素包括質量報告;
實體類型:簡單型;
約束:可選(O);
頻次范圍:[0,N]。
6.4.2 元數據元素描述
6.4.2.1 數據志
英文名稱:lineage;
中文標簽:數據志;
定義:非量化的數據質量信息;
注釋:數據創造者對數據源和處理步驟的說明,包含但不限于數據的完整性、規范性、一致性、準確性、唯一性和關聯性的說明和解釋;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,N];
限定:數據志。
6.4.2.2 質量報告
英文名稱:quality report;
中文標簽:質量報告;
定義:對數據集的數據質量評測行為或評測結果等有關信息的鏈接指向;
注釋:此元素為指向數據集質量信息的鏈接地址,鏈向在數據質量相關成果規約下的數據質量評測相關元數據;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定:質量報告。
6.5.1 元數據實體描述
6.5.1.1 法律限制
英文名稱:legal restrictions;
中文標簽:法律限制;
定義:法律層面上,對訪問和使用中醫藥數據資源的限制;
注釋:依法對中醫藥數據資源的使用做出限制措施;元數據元素包括訪問限制、使用限制;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,N]。
6.5.1.2 保密限制
英文名稱:confidentiality restrictions;
中文標簽:保密限制;
定義:從國家、單位或個人安全的角度出發,對中醫藥數據資源的使用施加的限制或約束;
注釋:根據《中華人民共和國保守國家秘密法》規定,對數據資源的保密級別做出不同限制;元數據元素包括保密限制;
實體類型:簡單型;
約束:必選(M);
頻次范圍:[1,1]。
6.5.2 元數據元素描述
6.5.2.1 訪問限制
英文名稱:access rights;
中文標簽:訪問限制;
定義:為保護隱私權和知識產權,對訪問中醫藥數據資源施加的限制或約束;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,N];
限定實體:法律限制。
6.5.2.2 使用限制
英文名稱:service restrictions;
中文標簽:使用限制;
定義:為保護隱私權或知識產權,對使用數據資源施加的限制和約束;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,N];
限定實體:法律限制。
6.5.2.3 保密限制
英文名稱:confidentiality restrictions;
中文標簽:保密限制;
定義:從國家、單位或個人安全的角度出發,對中醫藥數據資源的使用施加的限制或約束;
注釋:根據《中華人民共和國保守國家秘密法》規定,對數據資源的保密級別做出不同限制;
數據類型:枚舉型;
值域:絕密級、機密級、秘密級、內部非涉密、公開(見附錄表A1);
約束:必選(M);
頻次范圍:[1,1];
限定實體:保密限制。
6.6.1 元數據實體描述
6.6.1.1 更新維護
英文名稱:update and maintenance;
中文標簽:更新維護;
定義:根據實際需要,中醫藥數據資源更新和維護的具體信息;
注釋:根據中醫藥數據資源的應用情況,中醫藥數據資源創建者和維護者對數據資源更新和維護的頻次、范圍及具體內容的描述;元數據元素包括更新維護頻率和更新維護內容;
實體類型:復合型;
約束:可選(O);
頻次范圍:[0,N]。
6.6.1.2 維護者
英文名稱:maintainer;
中文標簽:維護者;
定義:維護中醫藥數據資源的責任實體;
注釋:包括個人、組織或某項服務;通常用維護者標識這一元素實體;元數據元素包括維護者名稱、維護者地址、維護者電話、維護者郵箱;
實體類型:復合型;
約束:必選(M);
頻次范圍:[1,N]。
6.6.2 元數據元素描述
6.6.2.1 更新維護頻率
英文名稱:frequency of update and maintenance;
中文標簽:更新和維護頻率;
定義:在中醫藥數據資源元數據初次完成后,維護者對其進行更新、修改或補充的頻率;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:更新維護。
6.6.2.2 更新維護內容
英文名稱:details of updates and maintenance。
中文標簽:更新維護內容。
定義:中醫藥數據資源元數據更新維護的范圍、細節的說明;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:更新維護。
6.6.2.3 維護者名稱
英文名稱:maintainer name;
中文標簽:維護者名稱;
定義:中醫藥數據資源維護者的名稱;
數據類型:字符串;
值域:自由文本;
約束:必選(M);
頻次范圍:[1,N];
限定實體:維護者。
6.6.2.4 維護者地址
英文名稱:maintainer address;
中文標簽:維護者地址;
定義:中醫藥數據資源維護者的地理位置;
注釋:維護者或維護機構的具體地址,采用YZ/T 0127-2006《郵政地址信息數據結構》進行標識;
數據類型:字符串;
值域:按YZ/T 0127-2006規定取值;
約束:必選(M);
頻次范圍:[1,N];
限定實體:維護者。
6.6.2.5 維護者電話
英文名稱:maintainer phone;
中文標簽:維護者電話;
定義:中醫藥數據資源維護者的電話;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:維護者。
6.6.2.6 維護者郵箱
英文名稱:maintainer e-mail;
中文標簽:維護者郵箱;
定義:中醫藥數據資源維護者的郵箱;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:維護者。
6.7.1 元數據實體描述
關聯
英文名稱:relation;
中文標簽:關聯;
定義:中醫藥數據資源與其他數據資源之間的關聯關系;
注釋:建議采用符合正式標識體系的字符串進行標識;元數據元素包括有……版本、是……的版本、替代、被……替代、有……部分、是……的一部分、被……參考、并列、附加;
實體類型:復合型;
約束:可選(O);
頻次范圍:[0,N]。
6.7.2 元數據元素描述
6.7.2.1 有……版本
英文名稱:has version;
中文標簽:有……版本;
定義:當前數據資源的不同版本之間關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
6.7.2.2 是……的版本
英文名稱:is version of;
中文標簽:是……版本;
定義:當前數據資源的不同語種或不同格式之間的關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
6.7.2.3 替代
英文名稱:replace;
中文標簽:替代;
定義:當前數據資源替代其他數據資源,導致其他數據資源停用或不再更新的關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
6.7.2.4 被……替代
英文名稱:is replaced by;
中文標簽:被……替代;
定義:當前數據資源被其他數據資源替代,而導致當前數據資源不再更新或使用的關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
6.7.2.5 有……部分
英文名稱:has part;
中文標簽:有……部分;
定義:當前數據資源與其組成部分之間的關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
6.7.2.6 是……的一部分
英文名稱:is part of;
中文標簽:是……的一部分;
定義:數據資源及其組成部分之間的關聯關系,從組成部分角度,構成了本關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
6.7.2.7 被……參考
英文名稱:is referenced by;
中文標簽:被……參考;
定義:當前數據資源被其他數據資源應用,從被參考方的角度,構成了本關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
6.7.2.8 并列
英文名稱:parallel;
中文標簽:并列;
定義:數據資源與其他數據資源,在一定主題或范圍內具有同等地位或位置,兩者之間構成本關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
6.7.2.9 附加
英文名稱:addition;
中文標簽:附加;
定義:一個數據資源作為另一個數據資源附帶的內容時,從主數據資源角度,與另一方構成本關聯關系;
數據類型:字符串;
值域:自由文本;
約束:可選(O);
頻次范圍:[0,N];
限定實體:關聯。
附錄(資料性附錄)
表A1 保密限制分級
本文件起草單位:中國中醫科學院中醫藥信息研究所、廣東省中醫院、上海中醫藥大學、中國中醫科學院中醫藥數據中心、中科軟科技股份有限公司。
本文件主要起草人:李海燕、賈李蓉、聶瑩、王斌、孫華君、傅昊陽、李靜、張磊、王廣志、付林飛。