?

國際合作實踐項目“挖掘數據挑戰”內容分析

2019-03-20 06:52徐志瑋天津理工大學圖書館

圖書館理論與實踐 2019年2期

關鍵詞：社科數據挖掘人文

徐志瑋（天津理工大學圖書館）

大數據時代，人文社科研究數據量增長迅速，如何創新地運用基于計算的研究方法對這些數據進行智能搜索和深度解析，改變和拓寬人文社科的研究思維和方向是目前的重要課題之一。同時，網絡化平臺連接著世界各地的用戶，從國際化的宏觀視角探討人文社科課題，得到新的國際觀點，也是目前的重要課題。為此，本文分析了美國國家人文基金會（National Endowment for the Humanities，NEH）專為數字人文研究設立的國際合作項目“挖掘數據挑戰”，為我國的相關研究提供參考。

1 國內外研究現狀綜述

基于數字人文的大數據挖掘研究帶有明顯的應用性特點，大部分以軟件開發和升級、工具使用、算法優化和實驗等成果為主，部分已發表在學術期刊上。本文以SCI、SSCI和中國知網為數據來源進行檢索，盡管不能涵蓋所有研究成果，但也能了解目前的研究現狀。

1.1 國外研究現狀

① 從學科分布看，國外利用歷史數據開展的實證性研究最多。Phillips MG等［1］利用數字技術和傳統定性研究方法，挖掘20世紀初澳大利亞婦女通過遠程方式進行閱讀的特點；Hinrichs U等［2］聯合環境歷史學家、計算語言學家和可視化專家，挖掘了四個世界知名歷史數據集中收藏的商品交易數據；Linn AR［3］利用在線3D虛擬技術，繪制了挪威人移民到美國的歷史路徑；Van Eijnatten J等［4］解析了1863-1940年間荷蘭和德國出版的有關毒品、販毒和吸毒者內容的報紙，挖掘了整個跨大西洋地區存在的毒品問題；Grubert E等［5］探討了文本挖掘分析技術在人文環境科學和國家政策相互影響方面的價值。② 從數據來源看，針對社交媒體開展的大數據挖掘是熱點之一。Hsu WF［6］以一個著名的朋克樂隊Kominas在社交媒體Myspace和Twitter上進行互動的數據為對象，研究音樂數據的地理空間可視化技術的實現，以及數據的標注和分析。③ 從技術層面看，語義元數據成為數據挖掘的關鍵技術之一。Van Hooland S等［7］探討了“描述”等非結構化元數據在數據挖掘中的命名實體識別和術語提取方面的問題。

國外圖書館也在嘗試實驗性的實踐研究。Green HE［8］對伊利諾伊大學圖書館研發的數據挖掘軟件MONK進行實證研究，揭示人文學者使用數字工具追求創新研究方法的能力；Morgan EL［9］分析了將文本挖掘和其他數字人文計算技術整合到圖書館目錄和“發現系統”中的可能性。

1.2 國內研究現狀

國內的主要研究者為圖書館館員。① 歷史學科方面，Zhu SL等［10］將地理信息系統應用于我國古代地方志的開發和利用，實現了“廣東地方志”產品分布歷史數據的挖掘和可視化；趙思淵［11］介紹了《中國地方歷史文獻數據庫》的元數據結構、交叉導航和數據統計等功能。② 古籍方面，歐陽劍［12,13］對古籍文本的數據挖掘進行了探索。③ 藝術史方面，范楨［14］利用計算機自然語言處理工具對《白石老人自傳》進行詞頻統計、高頻分布和語義網絡的細讀，確認《白石老人自傳》的核心內容；夏翠娟等［15,16］探討了家譜和地理數據在圖書館數字人文項目的應用，以及關聯數據在家譜服務中的應用。

綜上所述，國內外都取得了一些實踐成果。國內基本上是以圖書館和歷史專業為主導的實踐研究，國外涉及的學科范圍更加寬泛，數據來源也更加豐富。

2 “挖掘數據挑戰”項目概述

“挖掘數據挑戰”（Digging into Data Challenge，DiD）是NEH于2009年設立的一個資助數字人文研究的國際合作項目，［17］由美國、英國、加拿大、德國等11個歐美國家的18個國家級別的基金組織提供資助（見表1），基本上每兩年舉行一輪，目前已經成功舉辦4輪，共有50個項目獲得了大額資金的支持。2016年，DiD被重新命名為“T-AP數據挖掘挑戰”，T-AP即根據歐盟第七框架研究與開發框架計劃（授權號613167）而建立的“跨大西洋平臺Trans-Atlantic Platform”。

3 成功獲得資助的50個項目案例總結

DiD會在網站上公布已經完成項目的最終成果白皮書（2016年獲得資助的14個項目只有標題和摘要），筆者對全部項目進行了仔細閱讀及分析。由于篇幅有限，本文只列出2016年公布的14個最新獲獎項目的名稱、合作單位和研究內容摘要（見表2）。

表1 DiD合作國家和資助組織名稱表

3.1 跨國學術機構的強強聯合，打造世界頂級研究成果

2009年，DiD規定每個項目要有2個及以上國家的3個機構參與，2016年變為每個項目至少需要3個國家的合作。申請機構需要在國際人文社科領域有顯著的影響力，且希望項目最終能夠達到世界領先水平。如，“挖掘符號:制定針對符號語言數據進行交叉語言量化分析的標準注釋實踐”項目（Digging into Signs:Developing Standard Annotation Practices for Cross-Linguistic Quantitative Analysis of Sign Language Data）的目的在于打造世界最大的聾啞語言語料庫并制定世界標準；“挖掘生物多樣性”項目（Mining Biodiversity）對當前世界最大生物多樣性系統“生物多樣性文獻圖書館”（Biodiversity Heritage Library，BHL）進行升級，以期將其打造成下一代生物多樣性社會數字資源平臺；“Field Mapping:An Archival Protocol for Social Science Research Findings”項目的目標則是構建世界上最全面的全球跨學科科學發現的搜索引擎。

值得一提的是，“中文文本自動化數據抽取”項目（Automating Data Extraction from Chinese Texts）是來源于十年前由哈佛大學費正清研究中心、北京大學中國古代史中心和臺灣“中央研究院”歷史語言研究所聯合主持的“中國歷代人物傳記數據庫”的一個子課題，旨在解決數據采集、整理和轉換等方面遇到的難點。

3.2 人文研究范式的徹底改變

（1）明顯的跨學科研究范式。DiD項目往往由多個學科的專家共同參與。如，“挖掘考古學數據:圖像搜索和標記”項目（Digging Archaeological Data:Image Search and Marking，DADAISM）集合了考古學、圖像處理和檢索、文本挖掘技術等專家，開發了一個序列模型的人機交互系統；“Analyzing Child Language Experiences Around the World（ACLEW）”項目由語言學、語音科學工程、計算機技術等專家參與，開發自動標注大規模嬰兒語料庫的軟件；“Understanding Opinion and Language Dynamics Using Massive Data”項目的研究團隊擁有數據科學、物理、語言學、哲學和法律等領域專業人才。

表2 獲得2016年DiD資助的14個項目

（2）開拓人文社科研究的創新思路和方法。研究人員將數字技術運用到人文社科研究中，就是希望得到手工模式無法獲得的信息。如，“Analyzing Child Language Experiencesaround the World（ACLEW）”項目挖掘海量嬰兒語言，探討文化/跨國文化和語言之間的相互關系，并預測這種關系對嬰兒語言成長過程中所造成的影響和差異；“Cascades,Islands,or Streams?Time,Topic,and Scholarly Activities in Humanities and Social Science Research”項目挖掘社交媒體上那些被忽視、但有價值的非正式學術活動數據，預測未來的創新研究課題；“全球趨勢:文學網絡文化（1050-1900）”項目（Global Currents:Culturesof Literary Networks（1050-1900））運用圖像處理技術和社會網絡分析方法，研究不同文化時期的知識交流網絡特點，揭示世界文化的差異；“Digging by Debating”項目運用主題建模和半形式的話語分析技術，自動抽取HathiTrust學術論文中的論據，并以可視化方式標識哲學和科學之間的關系。

3.3 承諾項目研究成果的開放獲取

NEH要求數字人文項目的申請者承諾免費公開研究成果。NEH認為，研究成果的開放獲取有助于其他學者開展相似研究，同時，能夠培養公眾的人文素養，提高其哲學批判思維的能力。獲得DiD資助的已完成項目開發的軟件都可以免費下載，且研究者必須在項目結束后公開一份詳細說明研究成果的白皮書。如，“Trees and Tweets:Mining Billions to Understand Human Migration and Regional Linguistic Variation”項目允許公眾免費使用研發的軟件Word Mapper，并承諾會公開完整的定量數據集。

3.4 積極開展國家層面的宏觀比較分析

DiD是一個跨大西洋的國際合作專項基金，因此，探討歐美在文化、經濟、法律等人文社科方面的國家級問題是其主要研究課題之一。如，“Digging into High Frequency Data:Present and Future Risks and Opportunities（Atlantis）”項目建立了一個整合的歐美股市高頻交易數據模型，以便在全球范圍內控制股市風險；“Intelligent Search Engine for Belief Legends（ISEBEL）”項目對荷蘭、丹麥和美國三國收藏的本國最大的民間傳說數據庫進行搜索和分析，比較三國民眾在文化信仰方面的差異；“SPeech Across Dialects of English（SPADE）:Large-Scale Digital Analysis of A Spoken Language across Space and Time”項目對英國、加拿大和美國三國不同的英語系語言的語音數據進行大數據分析，探討英語語言的變化規律；“Trees and Tweets:Mining Billions to Understand Human Migration and Regional Linguistic Variation”項目分析英國和美國在社交媒體上的語言變化，了解英美兩國語言變遷的形成過程和原因，以及語言變化和移民之間的關系，“Digging into Linked Parliamentary Data”項目對加拿大、荷蘭和英國的議會數據進行分析，闡述不同國家在政治和制度方面的發展和異同。

3.5 深度挖掘紙本資源隱含的信息

手稿、古籍和報紙等紙質資源是人文社科研究中最有價值的紙本資源，也是DiD項目的主要數據來源。如，“An Epidemiology of Information:Data Mining the 1918 Influenza Pandemic，”項目對美國國會圖書館和阿爾伯塔省圖書館收藏的1918年發表的有關西班牙流感疫情的100多份報刊進行數據挖掘，探索疾病和信息傳播之間的關系；“Digging into the Enlightenment:Mapping the Republic of Letters”項目對18世紀以紙質信件進行通訊的數據進行分析，得到知識史網絡圖，并解析知識傳播的軌跡；“Oceanic Exchanges:Tracing Global Information Networks in Historical Newspaper Repositories，1840-1914（OcEx）”項目對 1840-1914年，美國、德國、墨西哥、芬蘭、英國、荷蘭六國報紙上的消息、流行信息、詩歌和小說等內容進行大數據分析，探索文化的世界傳播特點。

3.6 鼓勵有學術價值的數字資源的解析

除了對紙本資源進行數據挖掘，DiD還非常重視兩類網絡資源的研究:學術數據庫和網絡化社交媒體。

數字圖書館、檔案館和博物館是創建、存儲、管理和保存學術性數字數據的重要平臺，是數據挖掘的重要數據來源，DiD一直鼓勵申請者對這些重要的且已經數字化的數據庫進行深度挖掘。為此，DiD專門在網站上發布了重要數據倉庫的列表:ARTstor、Biodiversity Heritage Library、 JSTOR、 National Library of Medicine（NLM）、National Science Digital Library（NSDL）、National Technical Information Service（NTIS）、Pro ject MUSE等。如，“Digging by Debating”項目以Hathi Trust Digital Library收藏的數字資源為數據來源；“Integrating Data Mining and Data Management Technologies for Scholarly Inquiry”項目對JSTOR進行分析；“Mining Biodiversity”項目對Biodiversity Heritage Library平臺進行升級改造；“THEMIS.COG:Theoretical and Empirical Modeling of Identity and Sentiments in Collaborative Groups”項目對世界上最大的社交編程和托管平臺GitHub的用戶進行研究，“Dig That Lick:Analysing Large-Scale Data for Melodic Patternsin Jazz Performances”項目對世界知名爵士樂數據庫開展跨學科的音樂分析。

社交媒體是最大的公眾在線交流平臺，對這些大數據進行用戶行為研究，能從公眾視角分析世界格局。DiD主要采用三種研究方法。① 傳統媒體和社交媒體的比較研究?！癠nderstanding Opinion and Language Dynamics Using Massive Data”項目比較了傳統雜志《紐約時報》和新型在線媒體Twitter上發表的政治新聞數據，探討大數據信息環境改變人類的活動、行為和決策過程，尤其是意見擴散和語言演變的軌跡。② 專業學者的用戶研究?！癉igging by Debating”項目對學術書目數據庫和專家撰寫的綜述論文進行研究，分析學者在跨學科研究方面的行為特點；“Cascades,Islands,or Streams?Time,Topic,and Scholarly Activities in Humanities and Social Science Research”項目探討了學者使用Twitter社交媒體開展非正式學術活動的特點，探討社交媒體對學術研究的影響。③ 一般公眾的用戶行為研究?！癟reesand Tweets:Mining Billionsto Understand Human Migration and Regional Linguistic Variation”項目比較了美國和英國公眾利用Twitter的語言差異，探討語言和移民之間的關系。

4 國內人文社科管理部門的啟示

4.1 宏觀規劃

目前，國內還沒有一個國家級別的數字人文資助機構，沒有統一的宏觀布局，缺乏國際合作的條件和資金支持。國家自然科學基金委員會在2015年設立了“大數據驅動的管理與決策研究”重大研究基金，2017年該基金在指南中指出：“在大數據背景下，傳統的管理與決策正從以管理流程為主的線性范式逐漸向以數據為中心的扁平化范式轉變，管理與決策中各參與方的角色和相關信息流向更趨于多元和交互”，［18］這說明，國家已經意識到大數據研究的重要性，只是該基金主要面向自然科學研究領域。筆者也查詢過國家人文社科基金，有關數字人文和大數據的項目近年來增長較快，但是還沒有基于人文社科的數據挖掘實踐內容的基金立項，更沒有國際合作項目。為此，需從國家層面進行宏觀規劃，建立國際合作專項基金，有效利用全球的數字資源，打造國際化的創新團隊，增強國家層面的人文社科研究實力。

4.2 建立評估機制

數據挖掘研究一般以實踐應用為目標，軟件是最普遍的研究成果，如何對這種成果進行學術評價，國內還沒有一套完善的評價標準，也就難以鼓勵研究者開展相關的實踐探索。2017年9月，浙江大學頒布了《優秀網絡文化成果認定實施辦法（試行）》，提出將優秀網絡文化成果納入學?？蒲谐晒y計、各類晉升評聘和評獎評優范圍，但這也只是少數高校的嘗試性做法，還未普及，不足以激勵技術人員和人文社科研究者的合作意向。因此，需要改變國內學術評價機制，并鼓勵跨學科的研究者開展創新性實踐探索。

4.3 設立“數據管理計劃”

數字資源的長期保存、復用和增值日益受到學術界的重視。數據挖掘研究勢必產生大量計算生成的非線性、多維度的“大數據”，需要對這些數據進行合理的管護。美國國立衛生研究院要求，2003年開始，申請經費在50萬美元以上的申請者必須提交一份數據共享管理計劃；美國國家科學基金會在2011年要求申請者提交“數據管理計劃”；［19］NEH在資助數字人文項目時，明確提出申請者需要附上2頁的“數據管理計劃”。在數據管護越來越受到重視的學術研究背景下，國內基金管理部門應積極設立類似的數據保護計劃。

4.4 鼓勵共享研究成果

開放獲取模式對培養公眾的人文素養有積極作用，基于數字人文的數據挖掘項目往往涉及公眾的文化、生活、經濟、法律等內容，這些研究成果對公眾開放，可以提高公眾對人文社科問題的批判思維能力，也能了解公眾對這些問題的認知程度，還能掌握學者和公眾對這些問題的理解差異。同時，對人文社科學者也有幫助。大部分數據挖掘項目的研究成果是軟件和工具，這些成果可以幫助其他學者分析數據，而無需投入精力開發系統，起到了事半功倍的效果。

5 對國內圖書館理論和實踐研究的啟示

5.1 對數據管護的研究

網絡時代，圖書館需要把數字資源的管護納入自己的服務范圍。數字人文研究讓數據管護工作變得更加重要，尤其是人文社科研究者經常使用計算建模方法開展數字人文研究，會產生很多數據，對這些數據進行合理的存檔、保存、監護和管理，是圖書館參與數字人文實踐研究的一個重要職責。另外，圖書館一直承擔著信息素養的培訓工作，有豐富經驗。大數據時代，數據素養教育可以作為圖書館的一個服務方向。首先，對館員進行數據素養教育，鼓勵館員學習信息技術知識，有條件的圖書館可以設立數據館員職位，與其他專業的學者進行數據管護合作；其次，對人文社科研究者和公眾進行數據素養培訓，幫助用戶提高數據管護的能力。另外，高校圖書館還可以拓寬學科服務范圍，如搜集整理學科科研數據、分析學科的學術發展態勢等。

5.2 對數據來源的研究

社交網絡平臺是目前大數據研究的重要數據來源。社交媒體將人類信息傳播的速度帶入了一個嶄新的時代，也為人文社科研究貢獻了大量的網絡數據。為此，圖書館可以拓寬以下兩方面的研究。①社交媒體環境下的學術性評價研究。目前，大量學術活動通過社交媒體進行傳播，這些數據能洞察創新性學術內容的最初端倪，屬于有學術價值的早期指標。但是，至今還沒有太多的科學證據對此予以證明。因此，對于社交媒體產生的非正式性學術傳播數據進行學術性評價研究，可以在一定程度上成為網絡資源評價機制的依據。② 社交媒體情景下的公眾輿情研究。公眾利用社交媒體發表大量有關人文社科問題的數據，社交媒體成為學者和公眾知識分享的平臺。通過數據挖掘，可以獲得公眾對人文社科問題的認知，掌握學者與公眾在人文社科問題理解上的差異。

同時，圖書館也要加強對已有數字語料庫的研究。開放獲取數據庫、企業數據庫、數字圖書館、檔案館和博物館等都保存了大量有學術價值的數字資源，圖書館不僅要對這些資源進行合理管理，還需要加強對這些數據的分析研究，開展知識發現的咨詢服務和情報分析。為此，圖書館主管部門可以列出一些高質量的數字語料庫，尤其是具有中國特色的語料庫，鼓勵人文社科專家、計算機專家和圖書館等合作開展數字人文挖掘研究。

5.3 對數字技術的研究

目前，圖書館與信息技術的關系越來越緊密，圖書館的技術人員和管理者需要了解數字技術的內容和發展趨勢，才能更好地開展創新的服務工作。筆者對DiD項目運用的數字技術進行歸類，發現常用的技術包括文本挖掘、機器學習、數據模型、聚類、神經機器翻譯、光學字符識別、可視化、圖像處理技術、地理信息系統和關聯數據等，機器學習技術中的自然語言處理和自動語義標注是關鍵技術。這些技術的專業性很強，圖書館需要與專業人員開展合作才能開展數字人文研究。同時，圖書館可以在元數據技術方面開展研究，如，元數據的自動標注技術、異構元數據的互操作技術、關聯數據技術等。

猜你喜歡

社科數據挖掘人文

社科成果展示

山西高等學校社會科學學報(2022年10期)2022-10-25

改進支持向量機在特征數據挖掘中的智能應用

九江學院學報(自然科學版)(2022年2期)2022-07-02

美在山水，魂在人文

初中生之友·中旬刊(2022年5期)2022-05-25

最樸素的人文

初中生之友·中旬刊(2022年5期)2022-05-25

西安交通大學社科三刊簡介

西安交通大學學報（社會科學版）(2021年2期)2021-04-06

探討人工智能與數據挖掘發展趨勢

大眾投資指南(2021年35期)2021-02-16

我校首次獲批教育部人文社科一般項目

西安航空學院學報(2020年4期)2020-08-18

數據挖掘技術在打擊倒賣OBU逃費中的應用淺析

中國交通信息化(2020年1期)2020-07-27

中國三峽(2017年3期)2017-06-09

軟件工程領域中的異常數據挖掘算法

電子技術與軟件工程(2016年24期)2017-02-23

圖書館理論與實踐2019年2期

圖書館理論與實踐的其它文章: 我國省級公共圖書館健康信息服務調查與啟示; 正反冰山模型與知識晶煉理論的融合發展; 美國國會圖書館《2016-2020戰略規劃報告》分析與啟示; 數字化網絡化環境下的圖書館“去中介化”辨析及中介性2.0的形成; 數字圖書館個性化移動視覺搜索機制研究; 應用類文獻在圖書館的深閱讀實踐——以《非暴力溝通》的閱讀推廣為例

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合