?

下一代的數據管理
——以人為本

2019-01-21 18:35
張江科技評論 2019年4期
關鍵詞:數據管理概念人工智能

目前,關于數據管理的討論缺乏以人為本的視角。下一代的數據管理需要從人認知的角度重新反思數據究竟是什么,以及人與數據是如何互動的,才能更好地管理好它們。

數據管理有兩個核心概念:一個是“數據”,一個是對它的“管理”。兩者都不是新的概念,已經使用了數百年。從中文的“數”和“據”來講,可能更早,有上千年的歷史。除自然界產生的數據外,人一直是所有數據的產生者和使用者。要理解數據是什么,就應該從人的認知過程進行理解。

正確認識數據

我們能聽到的和看到的(輸入)、說出的和寫出的(輸出)都是數據??梢院敛豢鋸埖卣f,我們每個人,無論是大人還是小孩,是專家還是普通員工,每時每刻都在接收、處理和產生數據,有意無意都在“管理”數據,只是各人所處的場景不同、所用的數據管理工具不同而已。

在數字時代,理解“數據”是什么,是理解許多其他概念的基礎。我認為,數據對人來講就是能感知的信號(輸入的是對人的生理刺激,輸出的是人對腦中的概念和思考的各種表示,包括人的行為)。數據的存在形式是物理信號。人沉浸在各種物理信號之中,這些物理信號有的能被人直接感知,有的不能被直接感知。自然界或人處理數據的過程是一個不斷循環的過程。

數據的本質是表示(或表征)。人們最感興趣的是希望發現數據表示后面的內涵或規律。自然界數據表示的是自然規律,人產生的數據是人對腦中相關概念和思維的表示。盡管它們都是物理的,但后者是通過人的感知、概念/思維、語言映射的結果。數據后面的人的認知過程應是理解數據管理的重要部分。

數據的產生是一次性的,可以設想每個數據有它產生的時間戳。它被改動就是一個新的數據,不應被認為是老數據生命周期的繼續。

數據具有循環性,產生的數據不斷被循環使用。每個實體(包括自然界、人、機器)既是數據的產生者又是使用者。我們提到“數據源”或“數據驅動”,指的是在某一循環中的某一階段的數據,驅動這一循環的是人,而不是數據本身。人的學習過程就是人與數據從不終止互動的循環過程。為模擬人的學習,美國卡內基·梅隆大學著名機器學習專家湯姆·米切爾(Tom Mitchell)曾提出了機器從不終止學習的算法,稱為NEL(Never Ending Learning)。

國際數據管理協會的“數據管理知識體系”

國際數據管理協會簡稱DAMA國際,其中DA代表數據,MA代表管理。DAMA國際是一個全球性技術和業務數據管理專業志愿人士組成的非營利協會,致力于數據管理的研究和實踐。國際數據管理協會在全球有40多個分會,由7 000~8000名數據管理專業人員組成,協會理事會由志愿者每2年1次選舉產生,負責協會的日常管理。

DAMA國際自1988年成立以來,在數據管理領域累積了豐富經驗。它的“數據管理字典”和“數據管理的知識體系和指南”(Data Management Body of Language,DMBOK)集業界數百位專家的經驗于一體,是數據管理業界最佳實踐的結晶,已成為數據管理工作的經典參考和指南,在全球范圍內廣受好評。

DAMA中國是DAMA國際的中國分會,是國際、國內數據專業人員在數據管理領域進行知識交流、經驗共享、共同發展的一流平臺。其目的是幫助推廣數據管理的最新理論、最佳實踐,提高各行業數據管理的水平,促進數據管理與業務管理的有機結合。

人工智能希望模擬人對數據的處理,但與人處理數據的機制和過程不同,它取得的進步是不斷受到腦科學和認知科學啟發的結果。人工智能與傳統數據管理處理數據的過程也不同,人工智能直接從數據作為信號開始,而傳統數據管理從人已形成的概念的表示開始。我們希望在認知科學的基礎上,通過跨學科和跨行業的交流、研討和理解,把以上不同的數據處理方法融合起來,有助于各學科和各行業的協同、全面發展。

數據管理行業的現狀及挑戰

隨著數據的重要性被廣泛理解和接受,各企業和行業對數據管理也越來越重視。數據管理不再被業務和管理層認為僅僅是信息技術部門的事,但在如何打通技術、業務和管理層對數據的不同理解和處理上還有許多工作要做。在橫向上,如何打通不同業務部門間、不同行業間數據的交叉共享仍面臨許多挑戰。

企業高管層對“數據管理”應由哪個部門負責并沒有明確的認識,組織結構也不清楚。最近一次對全球企業高管的調查發現,75%高管認為,盡管信息技術部門需要介入,但數據質量問題最終應由業務部門負責,業務部門如果不能直接控制數據,將影響企業實現其戰略目標。在業務交叉環境下的數據管理,跨部門、跨行業的數據該如何定義、分類是目前數據管理的主要挑戰。數據管理與從人認知的高度和深度來理解數據孤島的形成原因,以及提出切實可行的解決方案還有很大的差距。

在數字經濟時代,要想為未來做好準備并獲得真正的商業價值,企業需要重新構建數據管理策略和技術,并在多個位置進行管理,采用先進的數據管理理念、工具和技術來將這一切轉化為競爭優勢。

人工智能給傳統數據管理帶來的啟發和沖擊

從數據無終止地不斷被產生和使用循環來看,傳統數據管理關注的是如何按各種需求把存在于人腦外的數據儲存在機器中、取出、挖掘和分析,而人工智能是希望能模擬數據如何在人腦內被人感知、概念化、語言化的過程。

按照目前數據量和種類增長的態勢,傳統的以人工為主的數據管理和處理很難繼續或跟上,但這些工作有多少能由人工智能替代目前尚不清楚,二者對數據處理的方法、過程和技術區別很大。目前,人工智能只能通過各種統計算法在模式層次上來分類、識別數據,達不到傳統數據管理為業務需要提供概念層的定義、分類、結構等。給機器輸入大量的數據和復雜算法,結果有時會“不可解釋”,這在傳統數據管理中是無法理解的。但是,如果我們能把基于概念的傳統數據管理與基于統計算法處理數據的人工智能對接并融合起來,這將可給包括數據管理行業在內的所有行業和產業,提供與數字時代所需要和匹配的新的數據管理平臺。

從數據管理行業的角度來看,我們希望通過結合傳統數據管理和人工智能處理數據的各自優勢對目前數據管理中的難題,如數據孤島、跨界的數據如何定義、分類和共享等,有所突破。然而,這一突破面臨的仍是一個需要理解對跨界數據如何被交叉認知的挑戰,最終還是需要以人為本,依靠人對數據的思考和啟發來發現和實現。

我覺得,目前對數據和所謂智能的討論過于集中在機器方面,對數據后面人的認知過程的重視、討論和理解還遠遠不夠。我們希望通過舉辦“數據后面的科學”跨界研討,建立基于人認知的下一代的數據管理知識體系,幫助和推動各學科、各行業、各產業更高效地協同發展。

猜你喜歡
數據管理概念人工智能
企業級BOM數據管理概要
Birdie Cup Coffee豐盛里概念店
定制化汽車制造的數據管理分析
海洋環境數據管理優化與實踐
CTCS-2級報文數據管理需求分析和實現
幾樣概念店
2019:人工智能
人工智能與就業
學習集合概念『四步走』
數讀人工智能
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合