?

大數據技術在科技情報研究工作中的應用分析

2022-05-30 07:44周萍王壯思萬冬陽
電子測試 2022年8期
關鍵詞:科技情報情報信息結構化

周萍,王壯思,萬冬陽

(91054部隊,北京,102442)

1 科技情報研究工作的現狀分析

科技情報研究工作是根據現代化建設、軍事需求、國民經濟和科學技術發展需要,運用科學的方法和現代信息技術手段,對與裝備建設有關的國內外科技信息進行搜集、加工處理、分析和開展深入研究,進而為裝備建設的宏觀決策提供數據支撐和信息服務??萍记閳笱芯渴菄@數據開展的科學研究工作,數據是情報研究工作最寶貴的資源[1]。

隨著大數據、云計算、物聯網以及互聯網新媒體等信息技術的發展,可獲取的數據信息量呈爆發式增長,這給科技情報工作的帶來了快速發展的機遇。同時,在數據量呈指數增長,數據類型多樣復雜的背景下,需要從海量數據中挖掘出有用的信息來開展情報研究工作,也是對科技情報工作新的挑戰。

2 大數據技術對科技情報研究工作的影響

2.1 拓寬了情報信息的數據來源

以往的情報研究工作中,處理和分析的對象多為結構化數據。隨著信息時代的到來,從互聯網上收集的數據中常是文本、視頻、音頻、圖片等半結構化或非結構化數據,這類數據不支持常規的數據檢索,在數據的操作、處理和分析上有難度。大數據技術可實現對大量非結構化數據的識別、清洗、整理、篩選,并最終將多源異構數據統一為結構化或半結構化數據,從而能夠進行后續的數據分析和處理環節。通過大數據技術豐富數據來源和數據類型,極大的拓寬了情報研究工作的基礎數據。

2.2 提升了情報工作的數據處理速度

以往的情報研究工作受機器的性能限制,數據分析和處理耗時長,處理精度不高。大數據技術具有分布式集群處理能力,極大的提高了系統的計算和存儲能力,具有實時計算、離線數據計算、批處理、流數據處理能力,實現TB級數據秒處理的指標。

2.3 提高了情報研究工作的科學性

以往的情報研究工作中,由于情報數據獲取渠道難,相關數據少,在形成情報研究結果時常常需要情報人員結合個人經驗進行分析,導致最終形成的研究報告客觀性不夠。大數據技術提供了可靠的數據存儲方式,可以對海量情報數據和相關數據進行保存,同時大數據技術的數據挖掘工具,通過信息跟蹤、比較驗證等方式來提升情報質量,分析數據間關聯度,建立情報信息的完整脈絡,有效地避免了個人偏好等人為因素等人為因素的影響,增強了情報數據的系統性、科學性和客觀性[2]。

3 大數據技術在科技情報研究工作中應用分析

3.1 情報數據采集

科技情報研究工作主要包括接收任務、進行情報數據采集、情報數據的預處理、情報數據分析和挖掘、情報研究結果展示等環節,下面分別從這幾個環節介紹大數據技術在情報研究工作中的應用,具體的數據流轉如下圖所示。

圖1 情報研究工作中數據流轉圖

3.2 情報數據采集

情報數據的采集是從各個情報來源渠道通過不同技術手段來收集情報數據并進行匯總。從采集情報的數據渠道來說,可分為內部渠道和互聯網渠道。內部渠道是指自建的各類信息資源數據庫,集中訂閱或采購的期刊、文獻資料、內部積累形成的各種研究報告工作手冊等。通過內部渠道進行情報數據采集手段主要是人工錄入,數據庫導入等。

從互聯網渠道進行數據采集是指國內外各類網站廣泛收集情報數據,由于互聯網數據量巨大,傳統技術手段難以支撐采集工作,所以需要利用大數據技術手段。大數據技術中網絡爬蟲等數據采集工具可以高效、快速的進行情報數據的采集。網絡爬蟲軟件可以根據預設的關鍵詞和規則進行搜索,并對目標網站的內容更新進行實時監測和下載[3]。

3.3 情報數據預處理(清洗和加工)

互聯網上雖然數據量巨大,但充斥著大量的重復、冗余、錯誤的信息,因此采集到的初始情報數據包含大量無用的信息,為提高后續數據處理的正確性,需要對采集到的初始情報數據包進行數據預處理操作。

首先通過數據清洗、過濾等相關技術,去除情報信息數據包中重復、無用、毀壞的數據,,提高情報信息的有效性和可信度。然后對篩選過的情報數據包進行加工?;ヂ摼W中存儲著大量的文字、圖像、音視頻等非結構化數據,在數據加工階段,需要按照數據標準化規范統一各類多源異構數據源。通過大數據技術將不同來源、不同結構、甚至存在語義沖突的數據包進行加工處理,將異構的數據轉換為具備統一語法和語義的通用數據模型。

在預處理階段還需要利用大數據技術建立一個可靠的、持久化存儲的數據中心,數據中心包括科技情報研究工作的所有過程和結果數據庫。大數據技術中,大批量非結構化數據的持久化存儲主要依托于文件系統HDFS,對于結構化數據的訪問和管理,少部分結構化數據存放在傳統關系型數據庫MySQL中,大存儲量可應用分布式列存儲數據庫HBase來完成。為了加快數據處理速度,還可以引入高性能Redis數據庫用于存儲內存數據。

3.4 情報數據分析和挖掘

情報數據分析和挖掘是科技情報研究的核心工作,通過對采集到的情報數據進行科學分析,建立數據間相關性,梳理情報數據的脈絡,挖掘潛在情報信息,最終形成高價值的情報研究報告。在以往科技情報研究工作中,情報人員需要對情報數據進行分析處理,然后結合自身的經驗積累,進行綜合分析,最終形成專題報告。由于數據量不充足,情報數據分析和處理的往往停留在初步分析和淺層挖掘,同時,受情報人員知識素養的主觀因素影響,形成的研究結果的客觀性和綜合性還有待加強。

在情報數據分析和挖掘過程中,大數據技術中自然語言處理、信息關聯、智能分析等相關技術,采用定量的科學分析方法,通過構建知識圖譜、建立學習模型,結合數理統計的理論,模擬專家思維過程,實現對情報數據的關聯分析和深度挖掘。而大數據技術中數據融合算法可將多源異構數據進行融合,運用社會網絡分析法、機器學習等技術對情報數據進行分析建模,反映情報數據的脈絡,推斷情報數據的規律和發展趨勢。

3.5 數據展示和決策支持

科技情報研究工作最終要形成對特定技術領域相關技術情報工作的研究報告,而數據展示可以將研究報告的關鍵指標數據以圖形化形式直觀的表達出來,讓用戶能迅速掌握情報研究報告的核心內容。以往的科技情報研究工作,可通過常規圖表繪制形式對研究結果進行展示。隨著互聯網上科技情報數據量的猛增,研究報告中的數據集也相應增長,常規圖表難以支撐大批量的報告數據的展示。而大數據技術中數據可視化技術,可對復雜多元的報告數據在很短的時間內實現從抽象到可視化結構的映射,通過數據聚合等操作,可以實現多種數據檢索方式,實現情報數據自定義范圍的可視化展示。

在提供決策支持方面,大數據技術支持對情報數據的動態跟蹤,對情報數據進行實時統計,通過定量分析與建設的方法,描繪情報數據的形成軌跡和趨勢走向圖,進行科學可靠的預測,為決策層提供數據支撐。

4 啟示和策略

4.1 提供主動推送的情報信息服務

由于科研任務繁重,科技情報研究的日常工作中經常會承擔臨時性任務,通常要求在短時間內要形成情報研究報告,這使得科技情報工作容易處于需求牽引的被動狀態,不能開展前瞻性、主動性的情報研究,長期下去容易導致情報研究工作的價值不能有效發揮。因此有必要轉變服務理念,創新情報研究工作模式,從被動的接受需求轉變為主動推送信息服務,通過深挖頂層需求,選取關鍵技術領域進行長期、主動的跟蹤和積累,形成多元化情報研究成果,提供具有精準性、創新性、前沿性的信息服務,充分發揮科技情報對戰略決策及科研創新的牽引和支撐作用。

4.2 建立科技情報信息資源共享平臺

在以往的科技情報研究工作中,由于缺乏有效的資源共享機制,情報研究工作的相關資料和研究報告還是處于分散管理的狀態,無法及時有效的傳遞已有信息資源,這會導致科技情報研究工作重復、耗時費力、效率較低,造成了信息資源的浪費。因此,有必要整合已有信息資源,建立科技情報信息資源共享平臺,通過搭建數據服務中心實現不同技術領域資源統一歸口管理,如專題資源庫,動態資訊庫等,確保情報資源的充分利用和深度共享。

4.3 完善情報工作的安全保密措施

大數據技術背景下,容易獲取數據,另一方面也容易被獲取數據。在科技情報研究工作中要重點從技術防范上入手,深度學習和應用大數據各方面技術,比如通過應用“反爬蟲”技術來防止技術數據被竊取。從物理安全和技術安全兩方面保障研究工作的開展,在安全保密的基礎上形成資源共享的信息安全環境。

猜你喜歡
科技情報情報信息結構化
淺談新形勢下科技情報工作
基于數據工程的國防科技情報生態體系構建
顧麗英:小學數學結構化教學的實踐探索
借助問題情境,讓結構化教學真實發生
深度學習的單元結構化教學實踐與思考
基于向量空間模型的科技情報用戶畫像及場景化服務推送研究
左顧右盼 瞻前顧后 融會貫通——基于數學結構化的深度學習
試論市場經濟條件下農業科技情報自動化發展策略
圖書館情報信息服務的創新發展
對公安情報信息意識的思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合