?

大數據環境下情報學發展的十個特征

2021-06-24 10:35羅立群李廣建
圖書與情報 2021年1期
關鍵詞:發展特征情報學大數據環境

羅立群 李廣建

摘 ? 要:近年來,認知科學、復雜科學、計算社會科學等領域出現的新思潮和新理論,為情報學的發展帶來了新的機遇;大數據、人工智能的興起,為情報學提供了新方法和新技術。大數據環境下的情報學在思想、方法和技術上都發生了許多變革,文章在跟蹤近年情報學發展動態的基礎上,歸納了大數據環境下情報學發展的十大特征,分別為計算化、模擬化、平臺化、知識化、智能化、一體化、多元數據融合、方法聯合化、結果聚合化和人機融合化。

關鍵詞:大數據環境;情報學;發展特征

中圖分類號:G350 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2021011

Ten Characteristics of the Development of Information Science in Big Data Environment

Abstract In recent years, new trends and new theories in cognitive science, complex science, computational social science and other related fields have brought new opportunities for the development of information/intelligence studies; the rise of big data and artificial intelligence has provided new methods and new technologies for information/intelligence studies. Based on tracing recent developments of information/intelligence studies, the paper summarized ten characteristics of information/intelligence studies to show the full picture of information/intelligence studies in the big data environment, which are computerization, simulation, platformization, knowledge-based, intelligent, integration, multi-data fusion, methods combination, results aggregations, and human-machine integration.

Key words big data environment; information/intelligence studies; development characteristics

近年來,全球科學與技術界發生了重大的變革,認知科學、復雜科學、計算社會科學等領域出現的新思潮和新理論,為情報學的發展帶來了新的機遇、注入了新的活力;大數據、人工智能的興起,特別是深度學習、知識融合、認知計算等技術的成熟為情報學提供了新方法和新技術。情報學正在積極擁抱這些新的機遇與挑戰,深度融合這些新的思想理論和方法技術,大數據環境下的情報學在思想、方法和技術上都發生了許多變革。從國外研究看,以美國為首的西方國家近年來開展了大量的大數據環境下的情報學研究,如XDATA項目為大數據環境下開展大規模情報分析提供了彈性計算框架和計算工具[1];大機制(Big Mechanism)項目試圖解決大數據環境下情報因果關系的推理與自動分析,從海量文獻自動抽取因果片段,將它們組裝成完整因果模型,從而發現文獻中蘊含的因果關系[2]。從國內研究看,賀德方[3]提出了情報工程,即利用工程化思維將數據、分析方法、情報技術等情報研究工作的要素進行組織,用工程化的模式實現情報分析的全過程;吳晨生等[4-5]針對情報3.0環境下情報機構面臨互聯網信息過載挑戰,將智能工具作為情報生產方式變革的核心內容;李廣建和江信昱[6]提出了計算型情報分析,通過計算解決大數據情報分析問題。上述國內外的研究和實踐表明,大數據環境下情報學的理論、方法發生了許多變化。筆者在跟蹤近年情報學發展動態的基礎上,總結和歸納了大數據環境下情報學的十大特征。需要指出,有些特征之間存在著交叉,但強調的重點有所不同,揭示的情報學發展的方面有所不同,故筆者在本文中都盡量將它們列舉出來,以期能全面展示情報學近年的發展。

1 ? 計算化

計算化是計算思維和情報思維相結合的產物,強調通過將情報需求或情報課題轉換成可形式化表達和求解的問題,對情報研究的問題進行數學建模,運用計算的方式進行大規模、自動化的分析,從而獲得有價值的結論。情報計算化的核心主要包括兩個方面,即情報問題的模型化和情報過程的自動化。

情報問題的模型化就是指利用系統化的符號和數學表達式對情報問題進行抽象的描述,其本質是對情報問題進行數學建模,這個過程也是深入理解情報問題的過程。情報問題的模型化是實現情報計算化的重要途徑。如在科技情報分析中,傳統的基于計量的情報分析主要依賴于計量和計數的方法,對情報問題缺乏深入的洞察力。大數據環境下,海量的科技文獻、科技新聞等為情報建模提供了良好的數據基礎,能夠幫助研究人員從科技文獻內容/文本中提取有價值的信號以及重要的知識,從而對文獻內容進行細粒度的建模,發現一些潛在的和隱藏的模式。這是傳統的計量型情報分析所不具備的優勢和特征。Choi和Jun[7]開發了一種針對專利內部特征分析的計算方法和模型——基于專利文本分析的貝葉斯模型——來預測技術空白點,該模型通過文本預處理技術從海量的專利文件中提取關鍵的技術術語并用專利文檔技術矩陣進行技術特征建模,使用貝葉斯聚類方法對結果進行投票,從而確定未來技術的空白研究領域。Choi和Jun提出的這種計算和建模方法深入到了專利文本內部,對技術細節進行細粒度的表征,對技術領域做了更細致的區分,因此能夠有效地表征微觀層面的技術特征,可以對細分的技術領域做出預測,這是傳統的計量分析方法很難做到的。

情報過程的自動化就是指通過形式化的軟件指令,在不需要人工干預(或極少干預)的情況下,按預期的情報目標實現情報的采集、加工、分析、服務等各個環節的工作。大數據時代,情報工作面臨海量、高速、低價值密度的大數據的挑戰,而情報活動本身又是一個充滿競爭、博弈的活動,這就需要通過自動化賦能,使情報工作具備高效、準確、持續的能力。情報過程的自動化不是簡單的將機器作為輔助工具,而是將其上升到了情報過程的主導地位,盡量減少人的主觀因素對情報過程的影響和干擾,從而最大限度地保證情報結果的客觀性和可靠性[8]。發現并識別未來有影響力的科學和研究概念可以幫助學者和科學家集中更多的精力聚焦有前景的研究領域。傳統上情報分析被認為是一種藝術[9],以分析人員為主導的情報分析往往會受到人的認知因素和外部環境因素的影響而產生發現和識別的偏差,為此,Kathy等[10]設計了一種自動化的科技預測的情報流程,通過自動化的處理單元將科技情報分析、預測劃分為四個階段,分別是碎片生成、文檔分層處理、碎片分層處理以及機器學習,為了保障分析的客觀性,整個流程中研究人員只需對各個階段所必要的參數進行設置,而無須干預中間的處理過程,情報分析系統將按照預設的分析模型(如概念識別、實體關系鏈接、引文情感分析和句子修辭分析等)實現大規模、實時的科技情報分析和預測,通過對800萬篇全文文章和4800萬條元數據進行分析,驗證了該情報分析流程具有較高的準確性和可靠性。

2 ? 模擬化

模擬化泛指以實驗或訓練為目的,將原本的系統、事物的關鍵特性或者行為功能予以系統化和公式化,對關鍵特征做模擬,從而實現對系統或事物的發展趨勢、發展結果等的預測。模擬不僅僅是一項技術,也是一種解決問題的方法[11]。模擬一般要通過計算機進行仿真,其實質上是在計算機中構造與現實世界相對應的“人工世界”,建立起與真實系統相對應的“平行系統”,在“人工世界”與 “平行系統”中對現實復雜系統進行試驗性研究[12]。情報學的模擬化是指通過復雜、動態仿真方法和技術根據以往的情報現象演化的過程和規律,抽象并驗證出情報現象演化的關鍵特征,從而發現情報現象發展的基本規律,并推斷研究對象未來可能出現的狀態。

傳統的情報研究中缺乏有效的途徑對復雜、動態的情報研究對象進行刻畫,情報的推理和預測能力非常有限。在大數據時代,情報源發生了巨大的變化,傳統情報源的數字化以及互聯網技術和物聯網技術的興起,使得情報研究對象的活動和發生的事件等相關信息都會迅速地反映到各類數據庫、網站、網絡媒體之中,同時,數字化和網絡化的數據資源又大大方便了情報的感知和采集,從而使得動態研究情報對象成為可能。模擬為動態情報研究提供了一種實現路徑,通過為情報研究對象的關鍵特征構建仿真模型,將平行映射的數據作為輸入,對真實世界的運行狀態進行仿真計算,可以有效地進行情報的推理。如在社會情報研究中,根據社會行為和情報的理論或經驗,構建一個關于現實社會系統的在計算機中運行的人工社會,然后模擬其動態演變過程,以便獲得對社會結構、功能及其變遷更好的理解,并解釋復雜的社會現象或情報現象,乃至預測社會發展演變的可能方向,從而針對特定的社會活動獲取有價值的情報[13]。網絡輿情的演變就是一個典型的實時動態變化的過程,傳統的分析方法對網絡輿情動態傳播機制的解釋能力較弱,難以對網絡輿情未來的發展和演變進行推理,往往需要借助仿真思想和方法對輿情的演變進行模擬,從而為輿情的干預提供有效的預案。彭程等[14]基于傳統的SIR模型并引入信任系數變量來刻畫輿情傳播中,易感染類網民的動態演化過程以及輿情演化趨勢,通過模擬實際網絡輿情傳播的特征解釋了復雜網絡輿情的傳播機制,并通過易感染類網民占比與閾值間的大小關系發現了效用最大化的輿情防控點,最后利用仿真計算來檢驗政府輿論干預手段的有效性。

在科技情報研究中,論文、專利、報告等科技文獻真實地記錄了科學研究的成果、研究的過程、學者及研究機構的情況、作者和機構之間的合作關系、項目的受資助情況等諸多科研要素,海量的科技文獻就構成了學術大數據。傳統的情報方法受制于技術因素對學術大數據的利用非常有限,往往借助簡單的、靜態的計量方法對科技文獻的內外部特征進行分析。如基于引文的文獻計量方法是科技情報領域最為基礎和重要的量化手段和方法,引文分析方法有助于探索,組織和分析大量科技創新的歷史數據,主要是幫助研究人員理解過去。大數據時代的科技情報研究不僅僅需要理解過去,更需要了解未來,諸如都有誰是未來有潛力的學者、將來可能有哪些顛覆性的研究領域、哪一類的團隊組合更易產生創新成果等。這就需要利用微觀層面細粒度的學術數據對知識融合、科學創新的演變進行仿真計算,模擬并推演可能的創新過程。如Dashun Wang等[15]通過海量的學術大數據對科學家的影響力的演變過程進行擬合,加入了時間維度來量化科學家職業生涯中影響力和生產力的動態變化過程,他們通過隨機影響力的規則構建了一個隨機仿真模型,將發表產量、個人能力和運氣的影響作為參數,仿真模型能夠模擬出科學研究成功的普遍模式,用來推測出科學家未來影響力的演變軌跡,同時,該研究還能利用學術大數據的模擬仿真,揭示出學術研究、知識創新過程中所蘊含的規律、機制以及隱藏模式,以幫助加速科學發現和創新。

3 ? 平臺化

平臺化的概念最早來源于軟件開發領域,是指一套綜合的工具和一組實踐證明的共享的最佳平臺,它形成了完整、久經考驗、開放和模塊化的解決方案,旨在隨需應變開發軟件和基于軟件的服務。廣義的平臺化概念被定義為任何一種在其上可以構建其他應用(內容)的技術基礎,這種理念本質上是一種更先進的生產模式。在情報領域,將成熟的、共性的情報方法和技術進行抽象、集成、封包成為“平臺”,基于平臺實現最大程度的重用,規?;那閳蠓治龊颓閳蠓?,這樣,一方面極大地提高了情報分析和情報服務的效率、降低了成本和代價;另一方面能為情報用戶提供了基于平臺的個性化、多樣化的情報分析和服務的定制。這種理念,我們稱之為“平臺化”。

情報的業務需求有兩個特點,一是情報需求多且繁雜;二是情報需求時效要求極高。在傳統的情報工作中,情報分析和情報服務是基于情報分析人員的“手工藝活”,往往需要分析人員耗費大量的時間和精力根據不斷變化的情報需求進行調整,情報工作的效率難以保障。如在科技情報研究中,科技數據的采集、存儲、科技情報的處理和分析等情報過程都需要情報人員根據實際的情報業務需求尋找不同的方法、工具并進行不斷地調試,進行針對性的開發。當新的情報需求出現時,由于原有的業務代碼與通用代碼的耦合性較差,已有的成果難以得到有效的復用。近年來,云計算技術和大數據技術的興起,為情報服務和情報分析提供了符合行業標準的開放平臺,這類開放平臺能夠幫助情報人員快速定義、集成和自動化地構建情報系統的業務流程,最大化減少了重復開發和調試的工作量,使情報的分析能力、計算能力和存儲能力得以高效復用。如DARPA開展的XDATA項目就是一個廣泛的基于現在云計算和大數據行業標準的情報開放平臺[1],該項目開發了高度可復用的情報分析、計算和存儲的通用技術平臺,包括資源采集、清洗與轉換、數據建模、數據分析、結果可視化、用戶交互、信息查詢等基礎功能,情報部門可以根據自身情報業務的實際需求在其基礎之上快速地搭建、個性化地配置面向具體領域情報工作的情報系統和服務平臺。另一方面,隨著情報技術和情報方法的成熟以及工作流技術在情報領域的應用,將情報分析中的共性方法、技術按情報任務抽象、集成、封包成“情報技術平臺”和最佳的“情報解決方案”,通過可配置的方式根據情報分析業務的需求對分析方法、分析模型、分析的計算資源等進行靈活的組合和配置,能夠快速的構建面向特定情報任務的分析流程,從而實現情報分析和情報服務的規?;ㄖ?。如王靜宜等[16]深入地研究各類型情報分析方法,提出了情報方法具有層次性,即“理論型方法指導思維邏輯、集合型方法集成研究流程、操作型方法實施任務解決、計算型方法實現測度計量”,揭示了情報分析方法在數據處理和任務解決中的應用規律。這項研究對不同數據和不同情報任務中的情報方法的定制和組合提供了理論基礎。

4 ? 知識化

知識化是大數據時代情報學理念和思想的重大轉變之一,情報學正從過去的強調知識組織和知識體系構建的研究即解決“是什么”的模式,朝著強調深層次知識發現與知識利用研究即發現情報現象背后所蘊含的規律和模式的“為什么”以及提出理性解決方案的“如何做”的方向發展。知識一直以來是情報學研究的核心問題,著名情報學家布魯克斯[17]曾指出情報學研究對象是客觀知識世界,只是受制于不同時期的認知水平和技術水平,不同時期組織、利用知識的方式方法及其效果也不盡相同。傳統上情報學都是通過間接的方式對知識進行處理,更多的是基于對信息、數據的分析和處理來實現對知識的組織和定位,高階的分析和處理往往還需要分析人員根據自身的經驗和知識以及對情報問題的理解來進行。在大數據環境下,情報人員有限的腦力難以對海量的信息和知識進行轉化和利用,知識化的本質在于用機器逐漸替代情報人員在情報問題的解決過程中成為知識轉化和利用的主體,機器借助于知識驅動的計算模式直接、高效地利用可表征、可計算的知識參與到情報采集、情報分析、情報服務中需要使用到知識的環節,協同其它的情報方法實現與情報分析人員相似的知識轉化、知識利用的認知功能。知識化的核心在于情報/知識的可計算化,這就需要知識驅動的計算模式來加以支撐[18],這些知識計算模式包括概念推理、語義計算、知識圖譜、因果關系分析、反事實預測等,而且,隨著對知識化的深入研究,還會誕生新的知識驅動的計算模式。

當前情報學中的知識化研究呈現出兩個主要的特征和趨勢:

(1)利用領域知識指導面向特定任務的情報過程,優化情報結果。具體地說,就是領域知識的融合貫穿于信息采集、預處理、模型選擇與數據分析及結果解讀整個情報過程。在這個過程中,領域知識的融合有助于消除存在歧義或不確定性的數據、降低數據的冗余度、降低算法計算的難度和模型構建的復雜度。同時,將領域知識融合與情報分析結果相互印證,提高情報結果解讀的質量,從而增強情報分析的可靠性和準確性。如王萍等[19]提出了領域知識融合驅動下的醫學情報分析模型構建與優化的思想和方法,以冠心病患者的臨床資料為分析對象,將醫學領域知識融合嵌入機器學習全過程,優化領域知識驅動數據挖掘模型構建策略,促進數據的知識發現從傳統型的算法驅動向新型的領域知識指導轉型,提高了數據挖掘結果的置信度。

(2)發現蘊含在大數據中隱藏的模式、規律、因果關系等高階知識,這類知識一般具有較高的使用價值或其本身已經是情報產品了。在傳統的情報工作中,單一孤立的知識和事實是需要人工去交叉驗證的并分析其中的因果關系,但是,大數據時代的海量數據信息中隱藏的因果關系結構一般都比較復雜、因果鏈冗長,其中往往會包含數量巨大的相關的、不相關的、顯性的和隱性的多種因素,因果關系的構建需要將分散在不同數據中的多個單一知識點融合起來才能形成一個完整的鏈條,傳統的情報方法很難實現,需要新的思路和方法,知識計算就是一種解決方案。如Valenzuela-Escárcega 等[20]提出了一種面向生物醫學的文獻自動閱讀思想和方法,該方法能夠對癌癥生物學科技文獻進行大規模的分析,能夠從有關文獻中抽取出Ras基因家族的癌癥生物信息傳導途徑和機理,進而將它們融匯成大型的因果模型,利用這些模型識別出并解釋了大量先前并不明確的癌癥信息傳導途徑。

5 ? 智能化

智能化是大數據時代情報學最核心的特征之一,也是未來情報學發展的重要趨勢。智能化是指以情報思想為指導,以解決情報問題為目標,借助大數據、機器學習、云計算、物聯網等智能技術賦能情報獲取、處理、分析、分發等情報全流程,實現數據、信息、知識、情報、智慧的轉化、管理與應用。對于情報工作而言,智能技術帶來的影響是全局性和根本性的,情報工作已經從“數據世界”的獲取和管理發展到了“知識世界”的知識發現和情報知識轉化這樣的層次。智能技術在情報領域的應用可以提升情報全流程各階段的能力,因此日益成為世界主要國家情報競爭的制高點[21]。正如美國中央情報局前副局長兼首席學習官Joseph Gartin[22]所言,情報領域正處于重大的轉折點,未來將受到人工智能,大數據和機器學習潛在的強大破壞性影響,人工智能和機器學習正迅速成為情報中重要的組成部分。

在情報獲取過程中,智能化使情報從被動采集轉向主動監測,情報處理的部分功能被前置到了情報獲取階段,情報獲取的效率和規模得到了極大的提升。傳統的情報流程屬于線性的模式,情報的采集往往是基于情報的需求和情報計劃來執行的。大數據時代的情報環境存在深度不確定性,情報源的數據和信息更新快、規模大、來源多等特性決定了傳統的線性情報獲取模式已經不再有效,智能化技術賦能情報獲取則改變了傳統的情報模式,能夠實現跨時空、立體、多點、主動的監測,通過智能感知從海量信息中主動獲取微弱信號,提前預警預測可能發生的危機。如Compton R等[23]提出了一種用社交媒體進行智能感知的情報獲取思想和方法,該方法通過智能過濾器動態地從推特上公開可用的數據中提取推文,快速收集有關即將發生的事件的時間、地理位置等關鍵信息,有效避免了大量獲取的無關信息對情報分析帶來的負擔,對拉丁美洲可能發生的社會動蕩事件進行高效預測。

在情報處理和分析過程中,智能化使情報分析主體從分析人員轉變為智能機器代理,智能機器代理承擔了更多的情報分析和處理任務。在傳統的情報工作中,情報分析人員要花費大量的時間和精力對圖像、視頻、文本、社交媒體等全源情報進行分析,從時空、事物、人物、事件等多維度去發現特定的聯系或模式,這種方式已不再適用新的大數據情報環境。大數據時代的情報處理和分析,智能機器代理通過模擬情報人員的情報分析認知模式,以便理解復雜的現象世界,并對關鍵的對象、事件進行提取和抽象,協助情報人員發現動態變化的情報環境中復雜事件所蘊含的模式和趨勢。如美國伊利諾伊大學的研究團隊在研究人類對復雜事件如何進行組織的認知規律的基礎上,提出了基于事件理解的抽象模式和事件組織結構,借助自然語言處理、圖像識別等智能技術從多源異構情報源中識別對國家安全產生重大影響的動態,并對復雜事件及所有參與者按時間順序進行鏈接和組織,進而識別和繪制出看似無關的事件或數據之間的關聯關系,從而對國家安全與影響國家利益的事件進行預警[24-25]。

6 ? 一體化

情報的一體化是新時期情報思想、情報體系和情報工作的一種轉變。從國外看,美國情報部門認為當今世界充滿復雜性和不確定性,美國面臨的戰略環境急劇變化,其受到的來自國際與國內的威脅與挑戰日趨多樣且相互關聯,情報一體化是應對上述挑戰的一種明智的情報戰略轉變。美國歷來就非常重視情報一體化的建設,不論是戰略目標制定上還是戰略實施方法,情報一體化都是核心內容[26]。一體化就是通過情報體系整合化、情報流程協同化、情報資源集中化,整合情報界各部分力量,使整體力量大于各部分之和[27]。從國內看,新時期我國情報工作的外部環境發生了重大轉變,情報工作正面臨“百年未有之大變局”,國際形勢正處在新的轉折點上,世界多極化、經濟全球化、社會信息化、文化多樣化深入發展,各國相互關聯、相互依存度前所未有,國際形勢進入了加速演變和深刻調整的時期[28]。情報體系所面臨的外部環境是一個相互關聯、相互影響、非線性的復雜系統,牽一發而動全身。如近年來,以美國為首的國家發起的貿易爭端,這背后涉及到國家的科技安全、經濟安全、產業安全等問題,這些問題錯綜復雜、相互交織,這就需要一體化的情報思想、情報體系應對新的挑戰、化解重大危機。情報的一體化經歷了兩個發展階段,第一個階段是在全球化的背景下,情報工作強調跨部門或跨國的同類情報和信息的共享與交互。全球化促進了國際貿易和投資、技術進步和經濟改革,創造了一個無國界的世界。但越來越多的邊界滲透、流動人口以及全球金融和通訊帶來了許多新的安全挑戰,包括政權顛覆、內戰、傳染病、恐怖主義、叛亂、族裔沖突、非法販運人口、毒品、武器、走私等[29]。上述安全挑戰具有跨國、跨地區的特點,這就需要情報工作加強國家間情報機構、國際組織、私營機構之間的合作,通過情報的共享與交換應對這些安全挑戰。特別是在金融情報、公共衛生情報、反恐情報等領域開展情報共享與交換尤為重要。如歐盟國家為加強打擊國際金融犯罪的力度,荷蘭、英國、法國、盧森堡等國于2002年聯合建立了歐盟的金融情報體系—金融情報網絡(FIU.NET),開展歐盟金融情報部門之間的信息交換,取得了一定效果。

上述信息共享是在單一類型情報系統內,不同類型機構間并不存在橫向上的情報共享機制,逐漸形成煙囪式體制,無法產生更高價值的情報產品為預警、決策服務[30]。特別是近年來國際情報戰略重心已從全球反恐情報轉向地緣政治情報,情報一體化發展跨入了第二個階段,即向情報深度全域融合的一體化方向發展。深度全域融合是指情報工作已不再局限于特定領域、特定類型的機構、特定區域或國家,而是重視全領域的、全類型的情報共享,從以往強調專業化的垂直情報,轉向強調全局化的多領域橫向融合的情報,打通分散在各個領域、各個層次的情報孤島。深度全域融合主要體現在兩個方面:一方面是在情報的體系架構上實現情報的融合,建立類似于大腦中樞機制的情報中樞,通過情報中樞將不同區域、不同機構、不同來源的信息、情報匯聚到中心節點、集中統一進行分析和處理,為不同的情報機構提供統一的、全局的情報,從根源上有效的解決了情報共享的問題。最典型的例子是美國在2003年開展的情報融合中心項目,主要目的是提升聯邦政府層面上如聯邦調查局、中央情報局、司法部、美國軍隊等與州級、地方政府之間相互分享信息能力[31];另一方面是在情報服務國家重大決策上,往往涉及的領域和層面較多,更加強調從全局多領域視角洞察隱藏的重要模式和重要因素之間相互的影響。傳統的情報工作模式都是不同領域、不同層次的情報機構為重大決策分別提供情報參考,這種情報是割裂的,難以產生情報的協同效應,情報的輔助決策功能大打折扣。這就需要系統的、全局的將軍事情報、經濟情報、社會情報、產業情報、科技情報等情報領域統一協調,從總體的角度為決策層提供的全局的、跨領域的全面態勢感知,為決策的各個方面、各個環節提供全面的情報。如在供應鏈安全情報領域,一般會涉及眾多的產業公司、情報組織、政府部門和非政府組織,供應鏈特別是ICT領域的供應鏈往往鏈條較長,影響輻射面較廣,供應鏈的多層次性質掩蓋了家庭、汽車、航空運輸以及至關重要的政府武器系統和關鍵基礎設施中使用的產品和技術服務的安全性,這就需要一體化的情報保障供應鏈安全[32]。2018年,美國政府通過了《安全技術法案》,在情報組織體系上由聯邦采購安全委員會(FASC)開展供應鏈安全的情報工作,其采取了“全行業”和 “全政府 ”的策略,聯合了聯邦部門和機構、州和地方政府以及私營部門,在情報資源和情報服務上,通過為眾多情報合作機構和組織提供統一的平臺來實現供應鏈情報的共享和一體化情報決策服務,進而減輕對手對美國供應鏈的不對稱攻擊[33]。

7 ? 多元數據融合

多元數據融合是指在情報工作重視多來源、多類型的數據,并在情報工作中注重這些數據的整合與融合。如在科技情報領域,多元數據一般包括論文數據、專利數據、科技新聞、學術網站、實驗數據等,多類型的數據包括數值型數據、文本型數據、流媒體類數據等。多元化的數據可以從不同的角度刻畫出情報對象的特征,多元數據融合綜合利用情報對象相關的各種信息,以更加全面、系統的方式刻畫和描述出情報對象的發展狀態和趨勢。美國國防部資助的 “科學和技術預測的回顧性研究”項目中指出,最好的預測不是從單個數據流中構建的,而是從數百或數千個數據流的平均值中得出的[34]。由此我們可以看到,多元數據融合不僅提升了分析的全面性,還提升了分析結果的準確性。

多元數據融合是現代情報領域中非常重要的一個特征和方法論,多元數據融合的第一次飛躍是在2000年左右,信息技術的不斷發展和成熟,在金融消費、個人出行、移動通信等領域得到了廣泛的應用,社會組織和個人的活動都可以被其產生的數字足跡追蹤到。另一方面,受911恐怖襲擊的影響,面向社會情報的多元數據融合和情報獲取愈發受到國內外情報界的重視。如2003年美國情報界開始重視公民多元數據的獲取和融合化工作,通過持續的自動監測與分析來識別并預警可能的高風險恐怖活動[35]。美國國防高級研究計劃局DARPA開展的完全掌握情報項目(Total Information Awareness),通過開發超大型全源信息存儲庫技術創建虛擬、集中式的大型數據庫,實現對多來源信息融合[36],其中多元數據包括:財務記錄、醫療記錄、通訊記錄和旅行記錄以及新的信息來源。該項目開發的數據挖掘和知識發現工具能夠對大量信息進行分類以識別和發現特定的恐怖活動模式。多元數據融合的第二次飛躍是在2010年以后,Web2.0技術、大數據技術、傳感技術等新一代信息革命推動了全球社會、經濟、生活與數字技術的深度融合,可供情報工作使用的數據在數據量、多樣性、豐富性、可訪問性等方面都有大幅的提升,面向Web的、面向開源數據的情報采集與獲取成為這一時期情報界研究的重點。如韓國首爾國立大學的Heyeol Kwon[37]提出了一種基于多元數據融合的新興科技情報分析框架,該框架通過不僅獲取了傳統科學出版物的數據,還融合了多個開源的科技數據源,包括了Web學術數據、Wikipedia數據等,通過潛在語義分析、知識提取、實現了對新興技術的分析和預測。該研究發現,不同數據源對科技預測起到的作用是不同的,而且,相同的內容在不同數據源中出現時所代表的含義也是不同的。如當科學研究產生成果時,最先會以學術論文的形式出現,相關內容會出現在論文數據源中,表明有可能出現科技變革;當某個研究成果已經達到一定的成熟度時,專利就會開始引用相關文獻,相關內容會出現在專利數據源中,預示著未來技術變革的可能性進一步增大;而當相關內容被新聞轉載時,說明這些內容已經不局限在學術圈之內了,這些內容已經引起社會的高度關注,意味著該研究成果已經成熟或者即將成熟。由此通過多元數據的融合就能判斷出新技術的發展趨勢以及當前的發展階段。

8 ? 方法聯合化

方法聯合化是指通過融合多種情報方法、情報模型的優勢對情報問題進行求解,以獲得最優的情報決策、推斷、預測等結果。任何單一的分析方法和模型都是從某一個維度或角度對分析對象的一種反映和呈現,各種分析方法和模型都有自身的優勢和劣勢,為了最大化避免分析方法和模型的不確定性和盡量減少分析誤差,充分利用各種分析方法和模型的優點,就要通過多種分析模型和方法的混合、組合、整合等融合手段來抵消各自的系統不同偏差,從而取得準確的分析結果[38]。

大數據時代,情報任務呈現出兩個突出的特點:(1)情報需求更加復雜化、模糊化,深度不確定的情報環境造成了情報用戶對情報需求和情報問題難以清晰定義,存在“走一步看一步”的情況,明確情報任務和問題本身就成為一個情報問題,需要從情報需求的不確定性中探索確實性;(2)情報對象更加多元化、隱蔽化,情報對象的真實面貌往往被大量數據和信息所掩蓋,真實的情報需要多方法聯合化來融合大量的“信息碎片”以發現“全貌”。上述特點強化了情報工作中多方法、多模型聯合使用。具體地說,首先,需要聯合多種分析模型和方法提高情報工作的準確性、全面性和可靠性。如在情報分析中,單一的情報方法很難達到較為理想的準確率,相對于選擇最佳情報模型而言,多種情報模型和方法的融合是提高分析的準確性的一種手段[39]。美國著名的技術情報專家Tugrul.U Daim曾指出,新興技術識別是非常困難的,特別是在缺乏可用歷史數據的情況下,復雜的商業技術如芯片技術、動力電池技術、食品安全技術等通常會有多種因素(政治,文化等)影響商業技術的普及,僅靠技術趨勢的分析是無法考慮到這些因素對技術的影響。他提出的解決辦法就是將文獻計量法、專利分析法、系統動力學等多種方法進行組合,對新興技術進行融合分析。使用文獻計量方法和專利趨勢曲線擬合方法從技術視角對新興技術進行分析,使用多選項分析和組織影響力分析從組織視角對新興技術進行分析,使用市場分析和競爭力分析通過校準代表消費者偏好的變量來合并個人觀點從消費者視角對新興技術進行分析,最終通過系統動力學將所有這些變量合并到一個模型中,以便表示復雜的反饋回路,并生成表示市場滲透率的預計S曲線,實現對商業技術的精準分析和判斷[40]。其次,數據驅動型和知識驅動型方法的聯合化。本文提到知識化是當前情報學的一個重要特征,而知識驅動的方法往往會與數據驅動的方法一同使用。在大數據環境下,一方面,海量的數據流動和離散多元的信息嚴重影響了情報分析的效率和效果,所以還需要相關領域的知識來支撐數據驅動的分析;另一方面,大數據環境下的情報需求具有不確定性,這就需要情報分析方法對復雜情報環境和分析對象具有深入的洞察力。數據驅動和知識驅動相融合的方法非常適合在問題邊界定義模糊的情報分析場景中發現一些隱藏的模式。如在輿情分析中,知識技術的應用主要對特定領域、特定需求的輿情信息進行組織,從而對輿情數據的采集、分析進行過程性指導和監督,甚至可以直接用于輿情服務,提高大數據輿情分析系統的準確性和實用性。張思龍和王蘭成[41]提出了一種知識和數據雙輪驅動的網絡輿情分析技術,它既能發揮大數據處理技術在智能信息處理和深度語義挖掘方面的優勢,又結合了知識技術構建一系列的輿情知識庫和案例庫,從而完善輿情知識服務體系。

9 ? 結果聚合化

結果聚合化是指在情報領域利用群體智慧效應獲得相對最優的情報問題解決方案或情報分析結果,一般包括針對特定情報任務或問題的推斷、決策或預測。群體智慧是從許多個體的合作與競爭中涌現出來的,具有優于個體的智慧與能力的特點。著名的科學家弗朗西斯·高爾頓曾通過實驗發現聚合眾人智慧優于個人的智慧。他讓787個不同職業的人根據自己經驗去猜測一頭牛的體重,盡管每個人的答案與實際重量(1197磅)相差甚遠,但最終答案聚合后的平均值卻十分接近正確答案,誤差不到一磅[42]。美國科學院院士斯科特·佩奇[43]進一步從多樣性的視角驗證了在復雜環境中多樣性在決策上的優勢,證實了聚合具有多樣性的認知、多樣性職業背景、多樣性教育背景的群體智慧,在進行分析、決策、預測時往往優于能力較強的個人或單一背景的團隊。

近年來,研究表明,領域專家在分析和決策中普遍存在一定程度的認知偏差,諾貝爾獎獲得者丹尼卡尼曼[44]指出,認知偏差會影響預測者做出理性的推理。在情報分析領域,美國著名的情報科學家菲利普·泰洛克曾受IARPA的資助進行過長達數十年的實證研究,其研究結果表明,單一領域或單一背景的專家(組)在情報分析中做出的推斷、預測的準確性要落后于具多樣性背景的團隊[45]。針對情報分析和決策中單一的分析結果可能存在的認知偏差問題,情報結果的聚合是一種有效的解決途徑,通過充分發揮群體的智慧、聚合來自不同分析團隊對同一情報問題的分析結果,可以使分析結論更加全面、客觀、理性。菲利普·泰洛克[46]提出了一種全新的聚合群體智慧進行情報預測的思想和理論方法體系,并將該方法應用于地緣政治“宜居帶”問題的預測(即難度適中,即不能特別容易,也不能難到世界上無人可以回答)。首先,從全美招募了2700多名志愿者,他們的教育背景、職業、年齡各異,通過均化的方法將他們全部的預測結果進行聚合,第一年團隊的準確率比個人高23%。之后,遴選出準確性較高的預測者組成超級預測者團隊,通過在線預測平臺向眾多分布在各地的預測者發布相關的預測問題并及時推送與預測相關的各種信息,在交互的過程中完成預測結果的收集并通過聚合全部預測者的結果進行平均。結果顯示預測平均準確率高達80%以上,遠遠超過了掌握機密資料的專業分析人員的預測。除此之外,信息市場也被認為是一種比較有效的結果聚合模式,信息市場是交易特定合同的市場,該種合同基于不確定的未來事件的結果,以此確定贏虧,現在被用于預測各類事件包括國際事件、社會事件、科技預測等領域[47]。信息市場的機制是增加準確預測者的資產,并使最不準確預測者的資產趨于零。那些具有較強預測能力的人則傾向于將更多的資產進行投資,因此會對市場價格產生更大的影響[48]。其本質就是將分析者的智慧、知識、信息通過網絡平臺進行聚合通過市場行為形成最優化的決策、預測結果。

10 ? 人機融合化

人機融合化是指在情報工作中使機器概率化的智能與情報分析人員有機化的智能相互融合、互為補充,共同協作完成復雜的情報任務。情報工作往往涉及到社會、文化、道德、宗教、價值取向等多種因素,人之所以有人的用處,主要在于人有區別與其他物體和生物的道德、人格、靈魂、精神、記憶等精神活動[49],這是在情報工作中機器和人工智能技術不能替代人的重要原因。在情報工作中,將情報組織在決策、預測、干預中體現的價值效應(社會價值、文化價值)和國家利益融入機器的算法和模型之中并相互匹配,形成有機化與形式化相互協調的、理性的、智慧的情報結果。情報的人機融合化是一個遞歸循環的過程,一方面情報組織通過充分發揮人在反省、歸納、預期等認知能力,將基于自身發展目標、戰略意圖等隱性的情報預期與機器進行融合,而機器則充分發揮其在搜索、分析、計算、優化等方面的能力。人機融合就是人處理其擅長的“應該”(should)等價值取向的主觀信息,而機器不僅處理其擅長的“是”(being)等規則概率的客觀數據,同時也將從人處理“應該”(should)信息中優化自己的算法,從而產生人+機器既大于人也大于機器的效果[50]。

傳統的情報工作中,機器處于輔助地位,主要承擔了信息的存儲、組織與計算;人的分析處于主導地位,依賴于大量的分析人員直接干預分析的方法、分析的過程以及對分析的結果進行解釋,這就使得需要一定的分析周期才能最終形成情報產品以輔助高層決策。近年來,一方面,情報工作發生根本性轉變,情報環境更加復雜多變,競爭對手更加狡詐敏捷,情報任務具有影響要素眾多、抽象層次較高、時間更加緊迫、不確實性更強的特性;另一方面,隨著人工智能技術特別是態勢感知、人機協同認知、智能決策等認知智能技術的成熟,人機融合化正逐漸成為情報領域重要的特征和發展趨勢。人機融合化使機器成為情報分析中解決問題的合作伙伴,在網絡安全、數據分析、災難援助等情報工作中與人類分析人員共同完成較為復雜和高級的情報任務。這就要求機器要像情報分析專家一樣承擔更多的、更高級的情報分析任務,解決機器和人類在情報處理等“思考”方式上的基本差異,促進情報領域的人機融合化。如2017年DARPA確立了全新的情報發展戰略——將機器作為合作伙伴,從認知層次解決情報問題(Transform cognitive problems using machines-as-partners)[51],這一發展戰略背后蘊含三層含義:(1)機器與人共同協作、融合承擔更高級別的情報分析任務;(2)將人的情報分析思維和認知機制向機器遷移,使機器模仿人的情報、知識的轉化、融合機制;(3)機器要具有一種更適合機器的情報決策、預測、干預的認知能力,最終超越人類情報認知能力。目前,機器正在認知上學習和模仿人類的情報分析策略和機制,在某些分析能力方面已超越人類的現有分析能力,人機融合將在未來的情報工作和復雜決策中發揮重要作用。如南加州大學的研究人員研發了一種用于地緣政治預測的人機融合的系統SAGE[52],該系統不僅融合人類分析員的預測,還包括了一系列基于數據驅動的機器模型。機器模型可以預測事件的結果,或者作為工具幫助人類分析員梳理大量的數據,尋找歷史事件的證據,而人類分析員對定性數據進行推理,結合機器對數據聚合、處理的能力,實現更加精準的預測。該平臺融合人類洞察力和機器學習模型,允許數據驅動平臺針對缺乏歷史先例的新興問題“實時”整合人為的反饋。在2019年,SAGE已與另外兩個預測系統進行了對比測試,對相同的400多個地緣政治問題進行了預測,SAGE系統生成的預測結果比其它兩個系統更加準確。

參考文獻:

[1] ?XDATA.Defense Advanced Research Projects Agency[EB/OL].[2020-10-14].https://www.darpa.mil/program/xdata.

[2] ?DARPA.DARPA Big Mechanism[EB/OL].[2020-10-14].https://www.darpa.mil/program/big-mechanism.

[3] ?賀德方.情報工程學的探索與踐行[M].北京:科學出版社,2016.

[4] ?吳晨生,張惠娜,劉如,等.追本溯源:情報3.0時代對情報定義的思考[J].情報學報,2017,36(1):1-4.

[5] ?吳晨生,陳雪飛,李佳娛,等.情報3.0環境下的情報生產要素特征與情報生產方式變革[J].情報理論與實踐,2018,41(1):1-4.

[6] ?李廣建,江信昱.論計算型情報分析[J].中國圖書館學報,2018,44(2):4-16.

[7] ?Choi S,Jun S.Vacant technology forecasting using new Bayesian patent clustering[J].Technology Analysis & Strategic Management,2014,26(3):241-251.

[8] ?李廣建,羅立群.計算型情報分析的進展[J].中國圖書館學報,2019,45(4):29-43.

[9] ?Khalsa S. The Intelligence Community Debate over Intuition versus Structured Technique:: Implications for Improving Intelligence Warning and Analysis[J/OL].[2020-10-13].https://journals.lib.unb.ca/index.php/jcs/article/view/15234/20838.

[10] ?McKeown K,Daume III H,Chaturvedi S,et al.Predicting the impact of scientific concepts using full‐text features[J].Journal of the Association for Information Science and Technology,2016,67(11): 2684-2696.

[11] ?Cioffi-Revilla C.A methodology for complex social simulations[J].Journal of Artificial Societies and Social Simulation,2010,13(1): 7.

[12] ?王飛躍.人工社會、計算實驗、平行系統——關于復雜社會經濟系統計算研究的討論[J].復雜系統與復雜性科學,2004(4):25-35.

[13] ?羅俊.計算·模擬·實驗:計算社會科學的三大研究方法[J].學術論壇,2020,43(1):35-49.

[14] ?彭程,祁凱,黎冰雪.基于SIR-EGM模型的復雜網絡輿情傳播與預警機制研究[J].情報科學,2020,38(3):145-153.

[15] ?Sinatra R,Wang D,Deville P,et al.Quantifying the evolution of individual scientific impact[J].Science,2016,354(6312): aaf5239.

[16] ?王靜宜,徐敏,祝振媛,等.情報分析中的方法應用研究[J].情報理論與實踐,2020,43(1):33-41.

[17] ?Brookes B C.The Foundation of Informatiom Science,PartⅢ,Quantitative aspects[J].Journal of Information Science,1980,2(6):269-275.

[18] ?邱韻霏,李春旺.智能情報分析模式:數據驅動型與知識驅動型[J].情報理論與實踐,2020,43(2):28-34.

[19] ?王萍,牟冬梅,石琳,等.領域知識融合驅動下的數據挖掘模型構建與優化[J].情報理論與實踐,2018,41(9):114-117,153.

[20] ?Valenzuela-Escárcega M A,Babur ?觟,Hahn-Powell G,et al.Large-scale automated machine reading discovers new cancer-driving mechanisms[J/OL].[2020-10-13].https://academic.oup.com/database/article/doi/10.1093/database/bay098/5107029#129405514.

[21] ?栗琳,孫敏.數據智能技術驅動的情報全流程變革及發展[J].情報理論與實踐,2020,43(10):7-12.

[22] ?Gartin J W.The Future of Analysis[J].Studies in Intelligence,2019,63(2):2.

[23] ?Compton R,Lee C,Lu T C,et al.Detecting future social unrest in unprocessed twitter data:“emerging phenomena and big data”[C].2013 IEEE International Conference on Intelligence and Security Informatics.IEEE,2013: 56-60.

[24] ?Li M,Zareian A,Zeng Q,et al.Cross-media Structured Common Space for Multimedia Event Extraction[J].arXiv preprint arXiv:2005.02472,2020.

[25] ?Li M,Zareian A,Lin Y,et al.GAIA: A Fine-grained Multimedia Knowledge Extraction System[C].Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations,2020:77-86.

[26] ?賴金輝.構建一體融合的情報界——2019年版《美國國家情報戰略》解讀[J].情報雜志,2019,38(12):48-53.

[27] ?Office of the director of national intelligence: National intelligence strategy of the United States of America 2019[EB/OL].[2020-10-14].https://www.dni.gov/files/ODNI/documents/National Intelligence Strategy 2019.pdf.

[28] ?中共中央黨史和文獻研究院.習近平關于總體國家安全觀論述摘編[M].北京:中央文獻出版社,2018.

[29] ?Heine Jorge,Thakur Ramesh.The Dark Side of Globalization[M].New York: United Nations University Press,2011.

[30] ?張家年.情報融合中心:美國情報共享實踐及啟示[J].圖書情報工作,2015,59(13):87-95.

[31] ?Intelligent Fusion Center[EB/OL].[2020-10-13].https://www.dhs.gov/fusion-centers.

[32] ?Supply Chain Risk Management A Framework for Assessing Risk[EB/OL].[2020-10-13].https://www.dni.gov/files/NCSC/documents/supplychain/20190422-SCRM-Framework-for-Assessing-Risk.pdf.

[33] ?NCSCNewsletter[EB/OL].[2020-10-13].https://www.dni.gov/files/NCSC/documents/supplychain/20190422-NCSCNewsletter.pdf.

[34] ?Charbonneau S,Fye S,Hay J,et al.A retrospective analysis of technology forecasting[C].AIAA SPACE 2013 Conference and Exposition,2013: 5519.

[35] ?United States.Office of Homeland Security.National strategy for homeland security[M].Office of Homeland Security,2002.

[36] ?Murray N.Profiling in the age of total information awareness[J].Race & Class,2010,52(2): 3-24.

[37] ?Heyeol Kwon.Data-driven Technology Foresight:Text Analysis of Emerging Technologies[D].Seoul:Seoul National University,2018.

[38] ?Thomson M E,Pollock A C,?魻nkal D,et al.Combining forecasts:Performance and coherence[J].International Journal of Forecasting,2019,35(2):474-484.

[39] ?Bates J M,Granger C W J.The combination of forecasts[J].Journal of the Operational Research Society,1969,20(4):451-468.

[40] ?Daim T U,Rueda G,Martin H,et al.Forecasting emerging technologies: Use of bibliometrics and patent analysis[J].Technological Forecasting and Social Change,2006,73(8):981-1012.

[41] ?張思龍,王蘭成.知識和數據雙輪驅動的網絡輿情分析技術研究[J].現代情報,2018,38(4):106-111.

[42] ?Surowiecki J.The wisdom of crowds[M].Anchor,2005.

[43] ?Page S E.The difference: How the power of diversity creates better groups,firms,schools,and societies-new edition[M].Princeton University Press,2008.

[44] ?Kahneman D.Thinking,fast and slow[M].Macmillan,2011.

[45] ?Tetlock P E.Expert political judgment:How good is it?How can we know?-New edition[M].Princeton University Press,2017.

[46] ?Tetlock P E,Gardner D.Superforecasting:The art and science of prediction[M].Random House,2016.

[47] ?Hahn R W,Tetlock P C.Introduction to information markets[J].Information Markets: A New Way of Making Decisions,2006:1-12.

[48] ?Laskey K B,Hanson R,Twardy C.Combinatorial prediction markets for fusing information from distributed experts and models[C].2015 18th International Conference on Information Fusion(Fusion).IEEE,2015:1892-1898.

[49] ?(美)維納.陳步,譯.人有人的用處:控制論與社會[M].北京:北京大學出版社,2010.

[50] ?劉偉.人機融合智能的現狀與展望[J].國家治理,2019(4):7-15.

[51] ?DARPA and Data:A Portfolio Overview[EB/OL].[2020-10-13].https://www.nitrd.gov/nitrdgroups/images/3/31/DARPA-and-DATA.pdf.

[52] ?Morstatter F,Galstyan A,Satyukov G,et al.SAGE:a hybrid geopolitical event forecasting system[C].Proceedings of the 28th International Joint Conference on Artificial Intelligence.AAAI Press,2019:6557-6559.

作者簡介:羅立群,男,北京大學信息管理系博士后,研究員;李廣建,男,北京大學信息管理系教授,博士生導師。

本文系國家社會科學基金重大項目“大數據時代知識融合的體系架構、實現模式及實證研究”(項目編號: 15ZDB129)研究成果之一。

收稿日期:2020-12-17;責任編輯:柴若熔;通訊作者:李廣建(ligj@pku.edu.cn)

猜你喜歡
發展特征情報學大數據環境
專題導語:創新情報學探索
圖書情報與圖書館的關系探索
大數據時代下的情報學思考
卷首語
我國戰略性新興產業發展研究
基于大數據環境的新聞編輯理念變革創新機制
改革開放以來廣東包裝設計的發展特征(1978—2000年)——消費心理研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合