?

開放科學創新生態構建中的數據處理倫理準則框架研究

2022-11-28 13:05劉靜羽賈毓潔黃金霞
農業圖書情報學刊 2022年9期
關鍵詞:數據管理數據處理準則

劉靜羽,賈毓潔*,黃金霞,王 昉

(1.中國科學院文獻情報中心,北京 100190;2.中國科學院大學經濟與管理學院圖書情報與檔案管理系,北京 100190)

1 引言

開放科學是全球科技發展的重要趨勢,構建 “開放、信任、合作” 的開放科學創新生態被認為是推動開放科學的重要途徑[1]。當前,數據作為社會新型生產要素[2]和戰略性資源[3],與開放科學的演進深度交融,以數據復用驅動的科研基礎設施建設成為中國現階段開放科學實踐的核心[4]。習近平總書記在2021 年6 月30 日的兩院院士大會中國科協十大重要講話中提出要“構建開放創新生態,參與全球科技治理”[5],突出強調了前瞻預判科技發展中的倫理挑戰以及要進一步完善倫理審查規則及監管框架。

做好數據治理,建立與開放科學創新生態構建相匹配的數據處理倫理準則,指導開放科學創新生態中的參與主體在數據創造、共享、傳播、利用過程中按照法律規定和倫理規范開展行動,約束數據處理行為向好向善、造福社會,對于營造良好開放科學創新生態至關重要。

2 數據處理倫理與開放科學

2.1 數據處理倫理

倫理,是建立在是非觀念上的行為準則,倫理準則側重于公平、尊重、責任、誠信、質量、可靠性、透明度和信任等方面,主要包括道德準則、法律規范和利益分配等內容。2020 年9 月,美國總務署(General Services Administration,GSA)發布的《數據倫理框架草案》中,數據倫理概念被定義為在收集、管理或使用數據時,為保護公民自由、最大限度地降低個人和社會的數據使用風險、實現公共利益最大化等目的,進行適當判斷和問責的依據。數據處理倫理,是指如何以符合倫理準則的方式獲取、存儲、管理、使用和銷毀數據,是從實踐出發的狹義數據倫理概念,主要應用于組織機構數據管理層面[6]。

數據生命周期的各個階段,包括數據產生、獲取、存儲、傳播、利用等活動,都需要數據處倫理的指導,以保證數據質量。明確數據處理倫理準則,能有效地規范組織機構對數據的管理與利用?;趥惱頊蕜t處理數據,對于任何希望從數據中持續獲得價值的組織和個體來說都是必要的;反之,違反數據處理倫理準則會導致組織面臨聲譽損失、用戶流失等風險,一些違反倫理的行為甚至會觸犯法律。

隨著社會探索和利用大量數據和信息的專業化能力不斷提升,數據倫理與人類社會生產生活緊密融合,重要性日益增強。數據處理倫理已被納入國際公認和權威的數據管理知識體系中,在2017 年最新出版的數據管理領域權威性基礎工具書《DAMA 數據管理知識體系指南》中被作為單獨的一章加以論述。國際標準化組織(ISO)、國際數據治理研究所(DGI)、Gartner公司、國際信息系統審計和控制協會(ISACA)等均嘗試構建數據治理模型/框架,并強調以倫理規范指導數據管理,控制數據質量,防范數據被歪曲、濫用和誤解的風險。

2.2 開放科學環境下的數據倫理難題

在數據管理領域,數據處理倫理在理論和實踐層面都已經有了一定程度的發展和應用。但隨著開放科學在中國的持續推進,開放科學創新生態構建成為未來發展的大趨勢,其對數據治理的要求與數據處理倫理準則的核心要義不謀而合。

但數據處理倫理是一個較為復雜的問題,不僅橫跨生物醫學、空間科學、教育管理、計算機科學、新聞傳播等多個學科,還關系到政府、企業、個人等利益相關主體。中國數據要素市場尚不完善,智能技術應用[7]中存在數據權屬不明確、數據標準不一、數據共享開放不充分[8]等倫理和道德問題,阻礙了數字化時代中國的開放科學發展。劉金亞等[9]分析并得出了23 個開放科研數據環境下的倫理問題,覆蓋數據創建者對數據的控制權、數據描述規則、數據濫用、數據透明、知情同意、數據隱私等多個方面;陳勁等[10]提出數據真實性審查,以及基于機器學習、大數據分析的智能數據采集、智能決策可能帶來的負面社會影響均屬于開放科學須直面的倫理問題;李倫[11]指出人與自由的關系是數據倫理處理準則的核心,數據倫理問題早已隨著大數據技術的發展而受到廣泛關注,成為技術倫理學探尋的熱點命題之一。

因此,有必要研究和探討開放科學創新生態構建中的數據處理倫理問題,包括:在開放科學創新生態構建中各利益主體需要遵循的數據處理倫理準則是什么;各國和各組織機構間已有的數據處理倫理準則是否可以移植到開放科學創新生態環境;開放科學創新生態中的數據處理倫理準則是否對原有準則內容有新的內涵或擴展。

本研究運用文獻調研、內容分析法,從相關法律、指南、框架和典型數據管理模型中,調研歸納數據處理倫理準則的一般維度和認可度較高的準則內容,并從國內最新規劃政策與開放科學內涵中,提煉出開放科學創新生態環境下的數據處理倫理準則需求。之后,通過矩陣分析綜合比較兩項結果,從共性和特性、準則內容與政策及理念協同等角度,分析得出開放科學創新生態構建中的數據處理倫理準則框架。該框架未來可用于制定適應中國開放科學創新生態構建的數據處理倫理準則文本,指導各相關利益主體形成對倫理的準確認識,使其在開展數據處理活動時,規范數據處理方式和工作流程,甄別和規避倫理風險,進而推動中國開放科學創新生態的可持續發展。

3 數據處理倫理準則的內容及維度分析

數據處理倫理仍在發展中,尚未形成一套統一的框架。受到法律、組織文化差異等影響,現有的數據處理倫理準則在國家和組織機構之間呈現出一定的內容差異性和分布零散性,不同的準則有各自的側重。本研究從普適的角度出發,立足數據獲取、存儲、管理、使用和銷毀的實踐,面向廣義的社會性數據,同時兼顧一部分科研數據,關聯整合不同的準則內容,尋求現有準則間的共有主題和內容[12]。

3.1 數據處理倫理文本選取

倫理準則從類型來講,覆蓋 “硬法”(強制性的法律和條約)、“軟法”(志愿性的、非約束力的協議或指南)和非正式措施(行為準則和提高意識等道義勸告);從作用面來講,又可分為國際、區域、國家、行業等多個尺度[13]。從數據處理倫理的普適性出發,本研究選取目前國際上普遍認可、實踐中較為領先的數據處理倫理相關法律法規、報告指南、框架草案及政策,同時也關注了模型中的數據處理倫理準則,期望從中提取和梳理數據處理倫理準則的基本維度。

3.1.1 法律層面的強倫理約束

隨著數據在社會生產生活中的愈來愈占據重要地位,各國陸續制定了一系列法律法規,對數據處理活動進行規制。這些固定性、強制性的規則部分涉及由“隱私” “安全” 等道德倫理上升而來的內容,為數據處理相關的活動劃下了一道紅線,是社會生活中的數據處理活動最基本的強倫理約束。

歐盟2018 年發布的GDPR,一以貫之個人隱私保護的原則,是目前全球在保護個人數據方面,規定最為嚴格、處罰最為嚴厲的法規;加拿大響應個人信息保護國際運動號召,2019 年發布了PIPEDA,為通過商業渠道采集的歐盟國家公民的個人信息提供了強有力的保護;美國作為世界上最早提出并通過法規對隱私權予以保護的國家,1974 年的《隱私法案》是最重要的一部保護個人信息方面的法律,2019 年的NSPDPA 則開始限制跨境數據流向,將數據保護提升到國家安全層面;中國則在 “十四五” 開局之際,相繼完善和推出了《數據安全法》《個人信息保護法》《數據出境安全評估辦法》《網絡數據安全管理條例》等多項法律法規,進入數據安全保護的法制化時代。

這些數據處理相關的代表性法律法規(表1),可以在一定程度上反映出不同區域或國家對于數據處理所秉持的態度、最基本的要求和底層的道德倫理邏輯。

表1 數據處理倫理相關的法律法規Table 1 Laws and regulations related to data handling ethics

3.1.2 指導層面的弱倫理約束

盡管部分倫理道德可以上升為法律,但法律無法完全代替道德倫理,法律的固定性和強制性決定了其在快速發展變化的社會環境下,一定程度上滯后于現實需要。因此,面對層出不窮的數據處理倫理需求,各行各業陸續制定公布了數據處理相關的報告指南、框架草案以及政策,從而進行自我規制。

宏觀上,1979 年的《貝爾蒙報告》提出的貝爾蒙特醫學研究原則也適用于信息管理學科,2012 年的《Menlo 報告》則將貝爾蒙特醫學準則用于信息和通訊技術研究,為數據倫理準則提供了一個良好的起點;《大數據的數據隱私、道德和保護指導說明》和《DATAETHICS—公司、當局和組織的原則和指南》與數據隱私、數據保護和數據道德相關,可以幫助指導將數據倫理整合到數據處理活動中。微觀上,《EDPS道德框架》《數據倫理框架》《倫理和數據保護》《數據倫理框架草案》《數據處理倫理語境關系》以及《個性化健康研究中負責任數據處理的倫理框架》則從具體實踐出發,為組織和利益相關方的數據處理和操作提供了倫理參考依據。更有《科學數據管理辦法》《開放存取與數據傳播和保存政策指南》《開放數據白皮書:釋放潛能》《開放數據政策——將信息作為資產進行管理》《NIH 數據管理和共享最終政策》為國家、機構、組織等的數據管理和開放共享提供方向指導。

這些數據處理相關的代表性報告指南、框架草案及政策(表2),是各領域和行業從業人員對于其數據處理倫理需求的補充,更具體地反映出從業人員對于數據處理行為規范有著更高級別的要求。

表2 數據處理倫理相關的報告指南、框架草案及政策Table 2 Reporting guidelines,draft frameworks and policies related to data handling ethics

3.1.3 實踐層面持續發揮作用的倫理約束

數據處理倫理還在數據管理過程中持續發揮著指導作用。數據管理是一個復雜的過程,是一項跨職能的工作[6],數據質量保證這一難題貫穿著數據管理的整個生命周期[36]。在數十年的時間,DataFlux、Gartner、IBM、斯坦福大學、企業數據管理委員會(EDM Council)、卡耐基-梅隆大學旗下的CMMI 協會以及中國國家標準管理委員會等國際組織、跨國IT 服務企業和權威咨詢機構相繼推出模型以從不同視角揭示數據管理過程中的重要內容(表3),其中數據質量管控、數據安全策略、信息隱私保障、數據文化構建、信息風險防范等目標都與數據處理倫理相關。

3.2 數據處理倫理維度層級

從上述數據來源和內容可以看出:數據處表3 理倫理,以法律法規為準繩向上下延伸,向上是宏觀的道德倫理準則,向下是微觀的數據操作細則要求(圖1)。

圖1 數據處理倫理維度層級結構Fig.1 Dimension hierarchy of data handling ethics

表3 數據處理倫理相關的數據管理模型Table 3 Data management models related to data handling ethics

數據處理倫理相關的法律法規以保障國家安全、維護社會和公眾的利益為核心原則,為數據處理相關的活動劃下了一道紅線,為組織保護數據提供了動機。但一些組織認為只要遵守法律相關規定,就不會有數據處理相關風險,這是一個危險的假設,因為立法往往跟不上數據生態變化帶來的風險,故而在法律法規的指導下,還需要從宏觀角度理解數據處理的道德倫理準則,從微觀視角規范數據處理操作細節要求。從宏觀來看,數據處理倫理的原則包括維護公共安全、保護社會公平、尊重主體權利、重視隱私保護、推動開放共享、保障數據生態的可持續發展;從微觀來看,在數據處理的各個過程中,相關的操作要求要遵循法律規范和倫理原則進一步細化,例如:數據收集的知情同意、數據存儲的安全保障、敏感數據的脫敏處理、責任主體的合理界定、數據管理的信任機制等。

3.3 數據處理倫理內容分析

以上述選定的文本為研究對象,結合數據處理倫理的維度層級,本研究將對數據處理倫理進行內容分析,主要包括3 個步驟:概念化、范疇化和邏輯整合。概念化是對原始文本語句依據普遍理解,通過貼標簽后形成概念;范疇化是對已形成概念的歸納整合;邏輯整合則是在已有概念和范疇的基礎上深挖其中的邏輯關系,形成有意義的理論。

3.3.1 概念化和范疇化

本研究針對原始文本,并未嚴格按照逐詞、逐句、逐行或逐段的某種固定方式提取概念,而是選取可操作的、有意義的某些片段進行概念化和范疇化,選取的內容主要包括兩個方面:一是隱性體現的一般性倫理準則;二是顯性提出的一般性倫理準則。由于后者一般是已經形成的概念,故而選取的資料還是以前者為主,后者多作為輔助材料在概念化的過程中作為參考,部分概念化過程如表4 所示。

表4 概念化和范疇化過程示例(部分)Table 4 Example of conceptualization and categoryization process(partial)

3.3.2 邏輯整合

通過對選定的文本進行概念化和范疇話后,經過歸納整合,最后共得到數據處理倫理相關的11 個關鍵要素,包括:公眾安全、個人主權、隱私保護、數據安全性、數據準確性、數據時效性、數據可信度、數據透明度、人員培訓、監管機制和風險防控。將這些要素依據宏觀、中觀和微觀3 個層面進行歸納整合后,可以得到數據處理倫理的3 個主題維度:長治久安、協調有序以及系統科學(圖2)。

圖2 數據處理倫理維度整合Fig.2 Dimension integration of data handling ethics

(1)以長治久安為目標,體現國家安全觀和社會責任觀。從國家安全觀和社會責任觀看,數據處理倫理以長治久安為目標,包括公眾安全、個人主權和隱私保護。公眾安全包括公眾利益和社會安全,是數據處理倫理相關法律法規的核心原則,也是數據利用的終極目標。個人主權即尊重人的權利。大數據時代,代表個人特征的數據一旦被用于決策時,會影響人們的生活,故而無論是數據生產者還是數據利用者,都要以 “不傷害” 的原則加強對個人權利的尊重和保護。隱私保護是數據處理倫理中被重點強調的內容,在收集、處理和分析他人產生的數據時要注重隱私保護,這既是對數據生產者的尊重,也是數據處理者保護數據安全的重要一環。

(2)以協調有序為方向,強調規范秩序和行業自

律。在規范秩序和行業自律方面,數據處理倫理以協調有序為方向,包括人員培訓、監管機制和風險防范。對于組織機構來說,對人員進行培訓,加強倫理觀念和倫理準則,是提高數據素養的直接途徑。同時,建立數據處理和監督的方法、風險防范相關制度,定期進行數據審計,也是確保數據被正確使用的重要措施,例如DAMA 國際建立倫理風險模型工具,有助于幫助組織及時發現問題并解決。

(3)以系統科學為指導思想,要求操作標準和程序正當。在具體實踐方面,數據處理倫理以系統科學為指導思想,要求操作標準和程序正當,包括數據安全性、數據準確性、數據時效性、數據可信度和數據透明度。這些倫理準則體現為一系列規范措施,例如數據保障措施、目的限制、問責制度、授權許可以及合規挑戰等方面的規章制度,其目標是確保數據不被濫用以及不被用于欺騙和誤導,以保證數據分析和數據支撐決策的精準性,從而規避數據風險導致的成本和信譽損失,最終幫助組織積極承擔責任,構建良好的數據生態。

4 開放科學創新生態中的數據處理倫理準則框架

開放科學創新生態,是開放科學發展與開放創新生態建設的融合,體現著科學與社會的銜接。本研究在前文所描述的數據處理倫理準則維度基礎上,結合開放科學理念和國家社會發展需要,從國內最新規劃政策與開放科學內涵中,提煉出開放科學創新生態環境下的數據處理倫理準則需求后,通過矩陣分析綜合比較兩項結果,從共性和特性、準則內容與政策及理念協同等角度,分析得出開放科學創新生態構建中的數據處理倫理準則框架。

4.1 開放科學創新生態發展總體目標與基本原則

開放科學創新生態的構建不能脫離國家和社會發展,開放科學創新生態中的數據處理倫理準則也必須與國家科技創新、數字化轉型發展中的理念、原則相契合。本研究選取《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035 年遠景目標綱要》,以及2021 年出臺或實施的部分法律和規劃,分析其總體目標、基本原則、與數據處理相關內容等,提取相應關鍵詞,為設計開放科學創新生態中數據處理倫理準則的參考和依據(表5)。

表5 國內部分法律政策分析及關鍵詞提取Table 5 Analysis and keyword extraction of some domestic legal policies

上述所有理念的并集,應成為開放科學創新生態數據處理倫理準則的指導與依據,而表中顯示的 “安全、質量、開放、誠信、系統” 等高頻關鍵詞,應在開放科學創新生態數據處理倫理準則設計中得到更為突出的體現。例如,在數據處理全過程中,強化數據安全保障責任和風險防控意識,防范數據泄露,注重關乎國家科技安全、企業發展的重要數據保護,以及個人信息和隱私數據保護,重視數據記錄、溯源等;尊重數據所有權、使用權、控制權、交易權等多種權益,并積極根據國家法律法規、數據要素市場發展、數據產權框架發展的動態變化,調整數據處理倫理準則中關于數據權屬的規定;強調數據處理主體間的協同高效、開放合作等理念,提高行業的自律意識,營造良好的數據倫理生態。

4.2 開放科學創新生態中的數據處理倫理準則框架構建

由上述分析可知,開放科學理念與數據處理倫理準則一般維度相契合。故而本研究在數據處倫理一般維度的基礎上,根據開放科學理念和國家社會發展需要所提煉和增加的內容,如圖3 中藍色部分的要素,構建起開放科學創新生態中的數據處理倫理準則框架,共包含3 個維度、15 個要素。

圖3 開放科學創新生態中的數據處理倫理準則框架Fig.3 Framework for data handling ethical guidelines in the open science innovation ecology

4.3 開放科學創新生態中的數據處理倫理準則框架發展與應用

根據聯合國教科文組織發布的《開放科學倡議書》,開放科學的理念是 “參與、包容、分享、合作、公開、透明”[44],這與數據處理倫理準則中 “長治久安、協調有序、系統科學” 3 個維度是高度契合的,開

放科學創新生態建設應從以下5 個方面關注數據處理倫理。

(1)科學研究是造福人類的事業,須向善而行。正如2017 年歐盟特別峰會所簽署的《羅馬宣言》指出的 “科研和創新的決策尊重人的尊嚴、自由、民主、平等、法治及尊重人權”。2021 年12 月中央全面深化改革委員會第二十三次會議審議通過《關于加強科技倫理治理的指導意見》也強調,科技活動必須遵守的科技倫理準則,包括堅持增進人類福社、尊重生命權利、公平公正、合理控制風險、公開透明等[45]。因此,開放科學中的數據處理必須以尊重人權為首要原則,同時重視保護隱私權。例如在有關臨床病例或者環境監測的公民科學研究中,往往涉及個人數據的收集和身份信息的識別,需要加強對隱私的保護。

(2)開放科學中的數據處理倫理準則應更多體現包容性。聯合國2030 可持續發展議程提出17 個可持續發展目標,其中有5 個都提及 “包容”。聯合國教科文組織也在積極探討如何通過開放科學推動實現更大范圍的數字包容,彌補仍然存在且可能進一步加劇的數字鴻溝。目前主要發達國家的數據治理中都已考慮數字包容問題[46],中國在構建開放科學創新生態過程中,也應考慮將“包容” 原則納入數據處理的倫理準則框架。在實踐中,已有一些考慮包容性的數據實踐包括美國國立醫學圖書館(National Library of Medicine,NLM)為方便所有的科研人員和社會公眾都能無障礙地獲取開放科學所公開的出版物、研究過程、數據和軟件,積極采取措施,包括建設開放資源和數據中心、應用語義化技術、開發軟件工具等,幫助人們共享開放科學成果。

(3)開放科學創新生態中的數據處理倫理更多強調 “責任”。如何實現研究與創新的責任治理,引導科技創新朝著社會滿意方向演進,是科技治理中的基本命題[47]。開放科學從誕生開始便蘊含主動開放的理念,包括科研人員、研究機構、政府、企業、公眾等主體在參與開放科學的過程中都應具有倫理自覺性、主動承擔相應責任,規范自身行為。在開放數據領域,開放科學框架(Open Science Framework)的在線社區,已形成數據信息開放的標準化管理與存儲,可實現科研完整生命周期內數據資源的可讀性與流通性,從而實現責任治理。在大數據、人工智能技術不斷發展應用的背景下,更應強調數據處理的中的倫理責任,才能保障整個開放科學創新生態良好運轉。2017 年著名的《阿西洛馬人工智能23 條原則》、2018 年出臺的《歐盟人工智能》文件都體現了面對新興科技倫理所體現出的責任意識,國內學者張夢在智能社會的基本倫理中明確提出“落實責任” 這一內容。

(4)開放科學中的數據處理倫理準則也需要包含培訓、監管和風險防控等內容。培訓方面,數據處理倫理準則應面向參與開放科學中的所有參與主體制定培訓計劃,提升整體意識。監管方面,需要考慮在數據處理過程中,制定監管機構和執行機構,例如,墨爾本大學(The University of Melbourne,Australia)規定,科研中受試者的數據訪問只有獲得倫理委員會的許可才能執行,防止隱私泄露[48]。風險防控方面,應考慮如何從數據處理全流程出發,包括數據核驗、記錄、發布、權屬、內容管理等多個環節,明確相應的責任和義務。

(5)在數據處理倫理中準則的實踐落地方面,數據安全、準確、時效性、可信度,透明度等都開放科學中是必備條件。根據經濟合作與發展組織(OECD)對開放科學的定義,開放科學強調主動向全社會披露科學知識、研究過程、研究數據與研究成果[10],確保輸出高質量、可信、可檢驗的信息,在此基礎上才能實現知識共享與再利用,以及科學共同體的高度協同與合作。中國學者姚長青等認為,促進科研過程中的數據開放性和透明度有利于科研誠信建設[49]。

5 總結

本研究面向開放科學創新生態的建設需求,引入數據管理領域中 “數據處理倫理準則” 這一重要概念,從共性與特性相結合的視角開展分析,總結歸納出數據處理倫理準則的一般維度,并結合開放科學理念和國家社會發展需要,提出包含3 個維度15 個要素的開放科學創新生態的數據處理倫理準則框架,以期為更好理解把握開放科學創新生態中參與主體所應具備的倫理道德,以及如何制定開放科學創新生態中的數據管理實施方案提供了一定參考,未來可應用于制定適應中國開放科學創新生態發展的數據處理倫理準則文本等具體場景。但本文所提出的數據處理倫理準則框架,在準則內容、準則應用場景方面還有待結合開放科學創新生態的應用需求做進一步補充完善,這也正是本文不足之處,后期也將繼續深化相關項研究。

猜你喜歡
數據管理數據處理準則
企業級BOM數據管理概要
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
定制化汽車制造的數據管理分析
基于低頻功率數據處理的負荷分解方法
IAASB針對較不復雜實體審計新準則文本公開征求意見
航發葉片工藝文件數據管理技術研究
無人機測繪數據處理關鍵技術及運用
高層建筑沉降監測數據處理中多元回歸分析方法的應用研究
高層建筑沉降監測數據處理中多元回歸分析方法的應用研究
數據挖掘在學生成績數據管理中的應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合