?

人文大數據及其在數字人文領域中的應用

2022-02-17 20:22陳靜
大數據 2022年6期
關鍵詞:人文數字文本

陳靜

南京大學藝術學院,江蘇 南京 210031

0 引言

長期以來,人文學者習慣稱呼其研究對象為文本、圖像,或是音樂、電影,而非數據。他們主要通過書籍、圖書館、檔案館、博物館,甚至是手工記錄和拍攝等途徑獲取材料,再通過經驗性閱讀、主觀分析和語言解釋的方式加以研究。盡管人文研究中也會涉及一定的信息采集和基于數據分析的定量研究,但人文學者習慣處理基于印刷(print-based)或者實物的材料,并將之視為唯一可信且權威的依據,再以經多年訓練和研究獲得的學識為基礎,展開具有強烈經驗色彩的個人研究。這種傳統研究除了強調人文研究需要長時間知識生產的積累、承襲外,還高度依賴學者作為個體對材料的占有和處理能力,以及材料本身的原真性和有效性。甚至在一定意義上,材料的質量、真假以及豐富性對于一項研究具有決定性的意義。然而,從20世紀中葉以來,信息通信技術(information and communications technology,ICT)及相關基礎設施已經深刻地改變了人文學者獲取材料、分析內容、書寫文本、組織學術交流的方式,重塑了當前的學術生態環境。數字技術及數字化使印刷物、手寫書稿、非正式出版檔案、繪畫、照片、視頻、聲音文件、建筑、雕塑、壁畫、紡織物、器物等多種材質、多種類型的人造物從物質實體變成了虛擬數字,與大量數字生成(digital-born)的內容一起成為人文學者的新研究對象。數字檔案庫、文本和圖像數據庫的出現使人文學者可以不用親自到訪千里之外的圖書館、博物館、檔案館就可以獲取所需要的信息;搜索和下載功能使研究者可以在成千上萬的資料中快速地瀏覽和找到有效信息并“據為己有”;文本處理和管理軟件改變了研究者組織材料、撰寫文章的方式,使研究過程更多地成了“界面操作”;甚至研究者的思考方式也受網絡化知識組織方式的影響而變得超文本化,使研究者更多地關注到不同議題和材料之間的關聯性[1]。這樣的新一輪知識生產方式的變革最集中的體現就是“數字人文”(digital humanities)作為一種跨學科研究領域的出現。數字人文強調將數字科技與人文研究進行結合以推動人文研究轉型,“其面對的是未來的知識體系及方法的構建,其回應的是大數據時代基于學者導向(research oriented)的研究需求與基于資源共享的網絡基礎設施建設(cyberinfrastructure),其建設的是面向數字出生(born-digital)新生代人類的認知方式系統與路徑”[2]。盡管作為一個新興的研究領域,“數字人文”諸多議題尚在討論之中,但從其發展歷程來看,數據的獲取和數據本身都對相關研究的開展及研究方法的提出起到了至關重要的作用。特別是大數據和人文數據的關系,以及大數據研究方法在數字人文研究領域中的應用,也是近年來數字人文研究中的焦點問題。本文將聚焦“人文大數據”這一具體對象,將之放置于“數字人文”的研究框架與范圍內,對其來源及產生方式進行描述,并通過與自然科學和社會科學數據進行比較,對其特點進行說明,進而對數字人文因人文大數據及其方法的特殊性而呈現出的多樣性問題進行探討。

1 人文大數據

大數據指的是超出了常用軟件工具在可容忍的時間內捕獲、管理和處理數據能力的數據集。自21世紀中葉以來,數據的收集和處理已經成為計算機、生物醫學、信息科學、經濟金融等學科的基本研究手段。甚至有學者指出,大數據帶來的是一次新的認識論和范式轉型,從知識驅動(knowledge-driven)轉向數據驅動(data-driven)。而數據驅動的主要特征就是數據密集(data-intensive)、統計探索(statistical exploration)和數據挖掘(data mining)[3]。套用“大數據”的通用定義,即“超出了常用軟件工具在可容忍的時間內捕獲、管理和處理數據能力的數據集”,人文大數據可以被定義為“基于數字化或者數字生成的,被認為是人文藝術范疇的大規模數據集”。人文領域中的大數據可以分為兩類:一類是通過對人文對象數字化(數據采集)的方式獲取的各類數據,這類數據以美術館、圖書館、檔案館和博物館等文化機構的文化遺產數據為代表,規模龐大且類型多樣,在被數字化之前就已經具備了體量大、數據類型多樣且價值高等特點,這些數據主要來自手抄或印刷文獻、器物、建筑、繪畫、模擬方式記錄的聲音、視頻等人造物,代表人類物質與精神文明的歷史成就;另一類則是數字技術出現以后不斷生成的數字文本、圖像、視頻、音頻以及3D模型等基于各類數字軟件的多媒體數據,這類數據以博客、Facebook、Instagram這類網絡社交媒體的文本和圖像為代表,體現了更寬泛意義上的“數字文化”(digital culture),是數字化時代對人類文化藝術活動的記錄。此外,還有一些數據,在傳統意義上被認為是非人文社會科學領域的數據,但其被應用到了人文研究之中,因此也開始被研究者認為是人文大數據,如地理及空間信息數據。歷史地理信息系統早在20世紀90年代已經出現,其旨在運用地理信息系統(geographic information system,GIS)來研究歷史問題。近年來歷史地理信息系統得到了進一步發展,從社會史向其他人文科學領域拓展,形成“人文GIS”,與“空間人文”形成了共謀。后者主要的特征之一就是向人文內容進行滲透,更深一步地對人文材料內部進行挖掘(如對文學作品中蘊含的地理及空間特征進行的研究)。而在人文研究領域,也有學者開始將地理系統或者空間作為研究方法,開展“文學地圖”或“在地研究”。這些都是人文研究在數字技術時代,尤其是大數據時代出現的新現象。

2 人文大數據的“大”與“小”

人文數據可以很大。若將人文藝術領域跨越千年的各種類型的材料都加以數字化,那所形成的數據集將相當可觀。以世界上最大的圖書館——美國國會圖書館為例,截至2021年,該館館藏超過17.3億件,其中2 200萬件藏品在“美國記憶”(American memory)項目的資助下被數字化,按照估算大概是9 PB,包括從公元10世紀至今的、來自66個國家的印刷書籍、期刊、照片、錄音、報紙、地圖、電影、手稿、法律文書、個人敘述、軟件、網頁、網絡檔案庫和3D對象等多種格式的文件。盡管這個數字化數量已經相當驚人,但尚不能代表人類文明的總量。類似“美國記憶”的數字化項目在過去幾十年間一直在進行中,積累了大量的人文大數據,也為相關研究者開展進一步的數據分析提供了基礎條件。另一個人文大數據的例子是谷歌的N-gram項目,以讓·巴蒂斯特·米歇爾為首的研究團隊與谷歌圖書合作開展的“基于百萬數字圖書的文化量化分析”基于谷歌大規模數字化書籍的語料庫開展計算分析,并以可視化方式呈現人類文化的發展趨勢。研究團隊使用自然語言處理中較常用的N-gram模型,以單個詞或多個詞為單位,對來自全世界的大學圖書館的1 500萬本數字化圖書中的,從1800年到2000年的500萬本,共計7種語言500億字的文本進行了統計分析,對英語詞匯量變化、英語語法的變遷、集體記憶與健忘、大眾聲望、審查檢測等文化議題進行解讀。由于該項目是基于200年間的詞頻波動進行觀察的,因此得出的一些結果是非常具有啟發性的。例如英語書籍中最常使用的詞匯實際上比權威字典的要多,而且常用詞中大約63%的英文詞匯在齊夫定律(Zipf’s law)的測量下是低頻使用詞,更有52%的詞匯是沒有被收錄到詞典中的。這種通過對大數據集進行定量分析,從而學習人類文化的方式被命名為“文化測量”(cultural analytics)模式,相關成果于2011年在Science上發表[4]。此后,不少學者也將此模式用于不同的文化數據集[5-6]。例如卡萊弗·李塔魯(Kalev Leetaru)對30年間全球的本地新聞進行了調性和地理分析,并成功預測了2011年在阿拉伯半島發生的重大政治事件及該事件發生的地點[7]。這種規模的數據集使從大規模尺度上對文化事件、趨勢、變化進行計算測量成為可能,實現了傳統人文學科無法企及的效果。

“我也要親一下那個白大褂衣襟上總愛插一朵花的護士!”恭建兵一蹦三尺高,將隨身攜帶的軍用水壺敲得當當作響,“我都想了好長時間!”

但對于人文數據而言,大數據的5個V(volume、variety、veracity、value、velocity)中的“volume”(體量大)是一個相對的概念。對于很多人文研究來說,數據集不會很大(如文本數據),幾十萬字甚至上百萬字的文本也不過以KB為單位,相比生物數據之類的大數據而言,算得上小。但是,這些文本包含的內容及其可供研究的問題,并不能用體量來衡量?;仡檾底秩宋牡陌l展歷史,很多“小”文本語料扮演了非常重要的角色。

“數字人文”在西方一般被認為有兩個源頭:人文計算(humanities computing)與文本批評(textual critics)。而文本批評以電子編輯(electronic editing)為代表[8]。人文計算的開創往往會追溯到意大利神父羅伯托·布薩(Roberto Busa)在1949年開啟的、與國際商業機器公司(International Business Machines Corporation,IBM)合作的The Index Thomisticus項目。這個項目主要是利用IBM當時基于穿孔卡和磁帶存儲的計算機對中世紀神學家托馬斯·阿奎納(Thomas Aquinas)寫作的及與其相關的179部、1 000多萬字古典文本進行處理,半自動地生成中世紀拉丁文字詞的索引[9]。該項目在20世紀70年代出版了56卷7萬多頁的印刷物,其中包括10卷索引(index)、31卷托馬斯·阿奎納作品索引大全(concordances)、8卷相關作者的索引大全以及7卷原初文本的重印本。該項目在1989年以CD-ROM形式出版后,在2005年發布了在線版本,在2006年啟動了對全部語料庫的語義分析。整個項目持續多年,耗費巨大,除了成噸的卡片以外,還有長度達到1 500 km的磁帶、1萬小時的計算機工作時長和100萬小時的人工工作時長[10]。無論是從文本還是從技術上而言,這個項目都是具有開創性意義的, 其塑造了一種新型的人文學者與科學家(工程師)合作模式的典范,也奠定了計算機處理人文文本的一些共性,如文本分析以語料分析為基礎、半自動化或者自動化程序處理、索引作為語料的基礎數據、多學科的跨學科性等。但倘若純粹地從數據量上來看,這個“不僅是第一個,也是有史以來最大的數字人文項目之一,盡管按照今天的標準,其結果可能被認為是‘小’”[9]——其光盤內的數據不過1.4 GB。但可以確定的是,由此開啟的是人文研究,乃至知識生產歷史中的一個新時代。托馬斯·阿奎納項目的開啟和實施,不僅標志著人文計算作為一個新興領域的出現,更標志著人文研究中使用計算機運算的技術已經形成一套理論化的思考,也開啟了一系列基于文本索引的語料庫和程序的計算語言學項目,其中包括倫敦大學學院(University College London)和擎天計算實驗室(The Atlas Computer Laboratory)開發的COCOA二代、牛津語匯索引程序OCP和希臘語庫TLG等。這些文本處理程序主要致力于語料庫的建設與對文本創建、維護和存儲方面的程序進行聯合開發與推廣。這種取向在1950—1960年影響了不少文學研究者利用計算機處理機器可讀文本的內容,對大體量的作品做出分析,如關于聯邦黨人信件的作者研究堪稱經典。

由另一個源頭即文本批評所延伸出來的數字人文脈絡則更關注從文獻學的角度利用信息技術對文本進行深度編輯與標注。最重要的成果是文本編碼倡議(Text Encoding Initiative,TEI)的《電子文本編碼和交換指南》(guidelines for electronic text encoding and interchange)。TEI是一個集體開發和維護數字形式的文本表示標準的聯盟,其主要成果是一套規定了機器可讀文本的編碼方法的準則。該準則主要被應用于人文學科、社會科學和語言學領域。對于數字人文領域而言,TEI提供了一種機器讀取人文文本的規范標準,因其靈活性、綜合性和可擴展性等特點,在很多圖博檔機構中得到了應用。此外,文本批評非常重視對文本的深度挖掘,因此尤其強調通過標注的方式對非結構化數據進行結構化,或生成元數據,在元數據的基礎上進行數字存檔和知識再生產。例如羅塞蒂檔案(the Rossetti Archire)或威廉姆·布萊克(William Blake)檔案這樣的項目就很好地踐行了這樣的路徑。特別是對于文本物質性的重視,使這些檔案在數字化的過程中盡可能地考慮到了印刷文本的專有屬性,并通過數字標注的方式加以呈現[11]。在此類項目中,對象本身的數量并不多(如威廉姆·布萊克檔案中收錄的作品數量不過100多幅),但每一幅的元數據不僅包括了作品信息數據,還包括對圖像內容的標注和文本內容的轉錄。這種對小數據集展開的深度標引和研究,也形成了數字人文中的重要內容。特別是隨著20世紀90年代中后期數字技術的更新迭代、數字化內容的不斷增加,計算語言學逐漸從人文計算中獨立出去,這種研究趨勢得到了更廣泛的應用,影響遍及各個人文學科,也顯示著“數字人文”新階段不再延續早期的發展路徑。大約在2000年以后,“數字轉向”(digital turn)時代到來,個人計算機變得十分普遍,成為大多學者可以方便使用的設備,如OMEKA、Voyant這樣的專門面向人文學者的數據檔案化、文本分析可視化的工具也被開發了出來。

從西方形成的人文計算到數字人文這個脈絡來看,實際上我國在20世紀下半葉就開展了大量基于語料庫的計算語言學研究,如從1979年到1983年,就有4個大型的現代漢語語料庫項目在我國落地,即武漢大學的漢語現代文學作品語料庫(1979年,527萬字)、北京航空航天大學的現代漢語語料庫(1983年,2 000萬字)、北京師范大學的中學語文教材語料庫(1983年,106.8萬字)和北京語言學院(1996年更名為北京語言大學)的現代漢語詞頻統計語料庫(1983年,182萬字)[12]。這些數據庫和之后的國家級語料庫、大規模真實文本語料庫等專業數據庫主要針對語言學方面的研究。面向更多領域學者的中文學術數據庫多為圖博檔甚至是商業公司開發的基于典籍的文本圖像或者全文數據庫,如由香港迪志文化出版有限公司推出的文淵閣四庫全書的電子版、由北京大學等高校與北京愛如生數字化技術研究中心合作建立的“中國基本古籍庫”[13]。與此同時,還有一些人文學者從研究需求出發開發的數字項目,如北京大學中文系開發的全唐詩分析系統與全宋詩分析系統、先在香港中文大學后遷至臺灣政治大學的“中國近現代思想史研究專業數據庫(1830—1930)”等。在這些項目中,數據規模雖大,類型各有不同,但數據庫限定性比較強,往往只能進行檢索,無法下載或者進行更深入的研究。關于此類問題,在近年來關于文獻數字化的相關討論中已經非常多了。尤其是研究者們已經關注到了以往數字化工作中的一些問題,如傳統的古籍數字化大多是對原始紙質文獻的圖片展示,僅可檢索編目數據,對內容僅以瀏覽為主,缺少全文提供,用戶也無法按照自身的研究需求對數據進行深度挖掘和再利用等[14]。相較而言,“中國歷代人物傳記數據庫”(China biographical database,CBDB)和德龍(Donald Sturgeon)開發的“中國哲學書電子化計劃”(Chinese text,Ctext)則兼顧了大數據與人文研究的屬性。雖然CBDB的單機下載版總共不過幾十MB(SQlite格式),但其中收錄了超過52萬位歷史人物的傳記資料,每個人物條目都包含了人名、時間、地址、職官、入仕途徑、著作、社會區分、親屬關系、社會關系、財產、事件等數據,可供學者們開展統計分析、地理空間分析與社會網絡分析等[15]。值得一提的是,CBDB不僅涉及了中文文獻的數字化、數據化(datafication)、數據清洗、數據分析、數據庫搭建、軟件開發以及數據可視化等一系列的數據全流程工作,而且非常仔細、詳盡地記錄和說明了整個數據庫的發展歷史、技術開發和數據處理過程,對其他人文大數據項目的建設極具參考價值。

3 人文大數據的多樣性與語境化

葛劍雄教授曾經在講座中提到,“運用現代科學技術,我有兩個衡量標準,那就是,首先它最后的精確度有沒有其他方法加以驗證,其次它的結果有沒有意義,能不能改變一個重大的學術論斷。我發現大數據在歷史研究中還是沒有太大必要,因為我們掌握的數據不夠,而且很多是二手甚至三手數據,盲目運用的結果就是可信度越來越低,誤差也會越來越大,到最后還是需要人來做出判斷和取舍,這是沒有必要的”[16]。這里他談到關于大數據應用于歷史研究的必要性,首先談到的是數據的量不足,其次是數據的可信度低。關于數據的量,這點前文已經討論過,對于人文數據而言,量并不是最重要的,過度強調大,其實是對大數據的一種化約式(reductive)的誤讀。實際上,大數據的多樣性(variety)和真實性(veracity)往往發揮著更加重要的作用。

首先,人文大數據的來源決定了這些數據從一開始就會是多種多樣的。例如美國國會圖書館在線上發布時,不僅考慮到原真性,發布了文件數字化后的圖像文件,還考慮到了人文研究者的分析需要,提供了數字文件的元數據,以及包括了XML格式的標記數據和TXT格式的全文數據,這體現了人文數據的多樣性和特殊性。異質的數據往往同時被應用于同一個人文研究項目中,而學者就是要利用這些異質數據集之間的聯系和重疊進行各種推斷。對于人文大數據而言,多樣性還意味著這些數據集結構的多樣性。很多時候,這些不同的數據集無法被整合成一個統一的數據集,然后用一種方法來分析。甚至,同一種算法針對不同的數據集也可能需要訓練不同的模型。但人文數據的異質性是人文大數據最明顯的優勢,也是人文學科數據最大的挑戰。有了這些來源不同、格式不同的數據,研究者才能更加靈活地組合,以便從中獲取最大的研究效果。這也是人文大數據與社會科學大數據、科學大數據的區別之一。

其次,大數據的真實性和準確性需要一定的人工干預。雖然更大量、多樣的數據才可以彌補以往小樣本、抽樣數據的片面與偏差,但正如葛劍雄教授所言,對數據的盲目應用往往是導致數據誤差的重要原因。布薩神父在論及他為何在阿奎那項目開始后試圖引入計算機時回憶說,“我相信計算機的速度和準確度將對這項研究中涉及的數據匯編工作有很大幫助”,但他也關注到了任何關于語言學數據的解釋都是歸納式的,更多的是基于已有的經驗證據及支持可靠結論的文獻的完整度,因此布薩非常關注源數據的質量[9]。中國學者在處理大規模真實文本語料時也發現了類似的問題,如宋柔在統計語料庫中的詞語接續對時發現,隨著語料庫規模的增大,新增加的接續對中的垃圾逐漸會占大部分甚至絕大部分。垃圾主要分布在統計到的低頻度接續對中,主要來源是分詞中專名識別錯誤[12]。實際上數據一旦達到一定的規模,其中難免存在錯誤、冗余數據,對于傳統的統計學或者數據科學來說,合理范圍內的偏差是可以接受的,但對于人文研究而言,會因為文本在光學字符識別(optical character recognition,OCR)過程中出現的亂碼而被批評。在這個問題上,如何在盡可能擴大數據規模的同時,兼顧數據的多樣性,并確保其真實性,就成為人文大數據處理中的關鍵。大部分的數字人文項目會特別關注數據準確性的問題。

再次,人文數據需要語境。這種語境一方面體現在人文數據不僅僅是被提取和計算的對象,也要被放回原初語境,如放回文本的上下文中進行觀察和解讀;另一方面則是因為人文研究談及的社會或歷史“語境”是非常大的范圍。在概念史研究學界曾經有過一場爭論。金觀濤、劉青峰兩位老師在1997年啟動了一個名為“特定現代中文政治概念形式的量化研究”的項目,意圖對新文化運動期間最具代表性的12個中文期刊中的文章進行量化統計和分析。隨后,兩位老師意識到現代重要政治觀念的研究開展是可以通過對更大范圍內的文本進行檢索和分析進行的,由此建立了“中國近現代思想史研究專業數據庫(1830—1930)”,并將基于該數據庫的相關研究以《觀念史研究:中國現代重要政治術語的形成》為名出版,其中包括了對近代思想史中多個(組)現代重要觀念進行的基于關鍵詞的研究。此后有學者提出,基于數據庫對歷史進行研究受到數據庫收錄資料的限制,其中很多資料沒有被收錄,會影響到研究的真實性。很多語境化的信息,如信息及觀念的傳播方式、物質構成、商業運作、讀者獲得途徑、讀者的閱讀接受情況等,無法用精準的時間或數字來表現,企圖用數據多少或出現頻率來揭示,不但存在極大的難度,更存在致命的缺陷。兩位老師隨后在回應中明確回復,其所做的研究也都是在數據庫所收錄的文獻范圍內開展的,因此如若認為更大規模資料的收錄會影響目前的研究結果,則需要進行實際的研究加以驗證。而且,以關鍵詞為中心的觀念史研究是典型的人文學科,只不過引進了數據庫方法:“數據庫在人文研究中只有輔助作用,它為研究者提供了極大的便利,也提出了更高的要求。它只是在對關鍵詞的使用情況和類型分析這一素材收集和整理環節上提供了工具,而研究者在此基礎上,要以人文學科的基本范式和自己的研究素養來分析這些資料”[17-18]。這場論辯中批評者的主要懷疑點在于一定數量的數據(哪怕是一億兩千字的數據量)及基于該數據集的一種統計分析能否體現歷史的真實?其實回到大數據本身,或許就能有更好的理解。不存在任何數據集是“全數據”,事實上,可能永遠都沒有辦法做到全數據。那么基于大數據的研究與所有以往的研究一樣,都是在一定的范圍內基于一定的對象進行的研究,因此局限性是不可避免的。那么這里實際上要回答的是,基于部分數據,而且是相當大的數據集的研究是否有效?這個答案也是毋庸置疑的,實際上,哪怕是基于某一種單一來源的數據集,當體量大到一定程度時,從數據的角度而言,其與基于多個數據來源的小數據集的研究都一樣具有意義。衡量的標準不在于數據本身,而在于研究的結論本身。而驗證結論的方法是定量還是定性也是沒有唯一性的。但提出批評是需要一定的條件的,尤其是對定量分析的批評,最好是要建立在對同樣數據集的驗證實驗的基礎上,而這一點往往更多地體現在自然科學研究中,而非人文研究。同時,數據、文本的語境與歷史、社會的語境并非同一層面。正如批評者所言,并非所有的歷史、社會語境都可以文本化、數據化,因此,也并非所有的人文研究都需要依賴數據分析。在這個意義上,有學者在討論“什么不是數字人文”“什么是數字人文”以及“什么是好的數字人文”中都提到了,數字人文或者說基于人文大數據的人文研究,重要的并不是工具或者方法論本身,而是究竟用這樣的數據和工具解決什么樣的人文問題。人文性在數字人文研究中是第一位的??梢哉f,這樣的討論體現了人文學界對于大數據及大數據研究方法的一種內省和警覺。正如葛劍雄教授提出的,要考量“它的結果有沒有意義,能不能改變一個重大的學術論斷”,人文研究的問題還是要回到人文的領域里進行檢驗。

4 深層數據與智慧數據

那么,理想的人文大數據是什么樣的?不妨從與社會科學的比較開始分析。通常社會學、經濟學、政治學、傳播研究和營銷研究被認為更適合使用定量方法(即用于分析數據的統計、數學或計算技術),而人文學科,如文學研究、藝術史、電影研究和歷史,則傾向于使用詮釋學、參與觀察、厚重描述、符號學和細讀等方法。對于社會科學和人文研究而言,數字技術與大數據所帶來的學科影響則以計算社會學(computational social science)和數字人文為代表。盡管兩者在研究對象和研究方法上有相同與交叉,如皆以數字技術及數字文化為對象、都會涉及數據處理方法的應用,但兩者也存在區別,如數據獲取和處理的方式、研究問題的提出等。而從數據的層面來說,列夫·馬諾維奇(Lev Manovich)將前一類可以適用于定量分析的,與大群人或團體有關的數據稱為“表層數據”,將后一類與更為小眾的群體有關的數據稱為“深層數據”[19]。他指出盡管基于大規模數據的社會計算(social computing)研究往往能提供關于人類在數字文化時代的行為和表現得更廣泛的數字圖景(digital landscape),但計算機在理解文本、圖像、視頻和其他媒介意義與語境方面具有的局限性,使這些研究都只能是基于簡化維度的分析,甚至會受到錯誤數據的影響。而他所設想的理想狀態則是將人所具有而計算機所不具有的理解和解釋能力與計算機運用算法處理大規模數據的能力結合起來。這一點其實在有關“智慧數據”的討論中也有所體現。

曾蕾、王曉光、范煒與克里斯托弗·紹什(Christof Sch?ch)分別曾撰文討論過智慧數據。曾蕾等指出智慧數據是“實現大數據特征中最后一個‘V’——價值(value)的方法,即通過對任何規模的可信的、情境化的、相關切題的、可認知的、可預測的和可消費的數據的使用來獲得重大的見解和洞察力,揭示規律,給出結論和對策”。借此他們提出,“智慧數據通常帶有自描述機制,背后有領域本體作支撐,使這些數據符合特定的邏輯結構和形式規范,而且可以支持推理,由此形成智慧的基礎,產生可預測和可消費的數據”。同時,還因為“智慧數據較強的可解釋性,支持邏輯推理從而使之可以用于多種用途和支持多種互操作,并且具有很強的可追溯能力,能夠滿足人文研究范式的需要?!彼麄兺ㄟ^圖博檔中關于關聯數據、圖像深度標引和非物質文化遺產數據的元數據等議題來說明智慧數據具有的特性。紹什關于智慧數據的定義則更加簡潔,即“我建議首先將大數據看作相對非結構化的、混亂的和隱含的、體積相對較大的、形式多樣的。相反地,我建議將智能數據看作半結構化或結構化的、干凈的和明確的,以及體積相對較小、異質性有限的?!眱煞N定義從不同方面指向了智慧數據的價值和屬性,可以幫助人們理解為什么在人文研究中學者會強調智慧數據。這恰恰是因為人文研究對數據的要求更高、更加苛刻,而人文數據,尤其是第一類通過數字化生成的人文數據,其數據的結構化程度、清潔度和可量化效果都是由數據生成過程,甚至是投入人力的多少來決定的。

5 計算很重要,但不是全部

隨著大規模數據集的出現和數據分析方法的更新,計算的問題也越來越多地受到了學者的關注。在文學界,以佛朗哥·莫雷蒂(Franco Moretti)為代表的學者,包括馬修·喬克斯(Matthew Jockers)、馬修·威爾肯斯(Matthew Wilkens)和安德魯·派珀(Andrew Piper)等在內,支持運用主題建模、網絡分析等從海量數字化文學資料庫中挑選出的語言與形式的宏觀模式。尤其是莫雷蒂基于對大量小說文本信息(如標題)的統計分析形成的“遠讀”(distant reading)理論及研究方法對數字人文乃至整個人文學界影響深遠。但從實際效果而言,莫雷蒂的“遠讀”方法也并沒有真正從根本上解決布薩1949年提出的問題:如何用計算機使學者們快速而準確地深入研究諸如真實性、文本批評、風格、年代和翻譯等一系列問題。在美國現代文學協會出版物(Publication of the Modern Language Association,PMLA)2017年組織的一次關于“遠讀”的討論中,莫雷蒂對此作出了回應。他部分地贊同了蘇真(Richard Jean So)教授對其的批評——“(莫雷蒂)所做的不過是對其語料的一個統計描述”,同時還指出安德魯·派珀所提出的實現一種“模型的模型”(model of a model)是未來必然的發展路徑。他指出,蘇真等人及芝加哥大學文學實驗室正在進行的“模式”的研究將完全改變理論所具有的可能性,將會改變歷史與文學研究的關系,尤其是改變文學研究的時間性框架,歷史將成為文學研究的前提[20]。而“模型的模型”或者說“模式”正是計算文學努力通過量化計算實現的方法論嘗試。趙薇指出,從莫雷蒂的概念模型到后來的文學實驗室的計算批評,“實證研究”與文學闡釋、文化批評被有機地融合在一起。量化文學研究的本質是根據研究的需要,選取合適的測量尺度和有效的測量手段,只有這樣才能真正發現問題[21]。

然而,并非所有的學者都能接受對人文數據進行量化分析。一篇于2017年10月15日發表在美國《高等教育紀事報》網站上名為《數字人文搞砸了》(The digitalhumanities bust)的文章引發了廣泛爭論[22]。作者提摩太·布倫南是明尼蘇達大學雙城分校的文化研究、比較文學及英語系教授。在布倫南教授看來,英國劍橋分析公司Ada算法事件體現的是對“數據”和“算法”的盲目樂觀主義在現實社會中的受挫。布倫南指出,算法不僅是一系列失敗事件背后的推手,也是隱藏在數字人文研究及其20年蓬勃發展的邏輯,數字人文也在這種“非常公開和尷尬”的結果中面臨危機與反思。他在歷數了這些年來數字人文學者得到的諸多好處(如美國國家人文基金、梅隆基金會提供的大量資金資助,一流期刊文章的背書以及得到晉升終身教職崗位等)之后,提出質疑:數字人文到底有什么成就?布倫南教授認為,數字人文研究對算法的依賴使數字人文學者在面對文本時只看到了通過算法所呈現出的文本的特點(如詞頻),卻無法觸及文本中有價值的內容;也同時因為對算法的依賴,數字人文學者無法擺脫計算的局限性,而以此局限性為探尋研究問題的限定。尤其針對書籍內容的量化分析、文學批評中的“遠讀”策略和“文學模式識別”等,布倫南認為數字人文學者只是看到了表層的數字和數據,但卻不能像使用大腦那樣使用計算機進行深入的思考:“由于其自身機制,數字‘閱讀’從根本上將大腦自然產生的智慧靈感,建立價值形式的建立,以及本能沖動都徹底排除在外?!闭撈湓?,一是因為將“更多信息混淆為更多知識”,數字人文學者無法在其所施用的方法之外進行反思,認識到該方法在認識論上的意義和方法論上的價值;二是“對科學的迷戀,新自由主義的撤資”,占有少量資源或者長期處于學界邊緣的年輕學者通過新科技在已經劃定格局的學術場域內爭取更多的文化資本,獲取地位提升。因此,“與其說數字人文是一場革命,不如說數字人文是為了反對主流形式,從而強行將人文從其存在原因中剝離出來的那個楔子”。

文中提到的關于數字人文中的某些局限性也確實是數字人文學界普遍存在的問題,如部分研究還停留在詞頻的程度上,而且有些數據本身也是經過預先加工的,因而有“作弊”嫌疑,同時很多數據處理的過程也是在人工監督下完成的,因此結果也不那么令人驚喜等。但布倫南一文中的問題也是非常明顯的,如“數字人文”在文中被簡化為了關于數字的“量化”,而抹殺掉了數字人文中學科、研究問題和領域的多樣性;再如蘇真和霍伊特·朗(Hoyt Long)關于日本俳句的“文學模式識別”(literary pattern recognition)研究并非只是在檢驗一個已知結果的正確性,而是通過一種新的計算方式挑戰及改變以往對于俳句的認知及研究思考。對于這種誤讀或者攻擊,包括被批評對象特德·安德伍德(Ted Underwood)和霍伊特·朗在內的3位學者在2017年11月1日的《“數字”與“人文”不對立》(“digital” is not the opposite of “humanities”)[23]中做出了回應:首先,量化研究在經濟、社會學乃至人文研究中應用已久,數字人文因此“獲罪”實在是作者有意為之;其次,僅就量化或者說數字而言,數字人文中所說的“數字”也比作者所說的簡單計算詞頻要廣泛得多,例如之前提到的“文學模式識別”,“就已經被用來探討虛構的本質、文類的周期,以及塑造角色的性別假設等”。這些問題是文學史的核心問題,并且因數字人文得以從一個新的尺度進行討論。最后作者還指出,數字人文不僅僅意指新的研究手段,也影響到博物館、新聞、圖書館等機構面向公眾傳播的新形式。類似的討論還出現在了歷史研究、藝術史研究等領域。以大數據和計算的方式進行人文研究受到了普遍的爭議。但正如埃里克·威斯科特(Eric Weiskott)在對此的回應中提到的,數字技術正在重新創造歷史,這個過程和16世紀印刷技術在歐洲出現時發生的情況類似,也同樣引起了質疑。而作為一種不可逆轉的過程的結果,數字技術改變的不僅僅是知識傳遞,更是一種新的知識形式的體制建構,并非僅僅是認識論的改變[24]。確實如此,對于數字人文而言,計算并非僅有的手段,但人文大數據卻是已經存在且必須要面對的現象。如何更好地利用數字技術與方法對人文大數據開展多角度的研究是比爭論是否可以使用數字技術或方法更為實際和迫切的問題。

6 結束語

以上關于人文大數據的討論,多將人文大數據看作為達到某種研究目的所使用的材料,但事實上大數據本身及大數據分析過程中產生的一系列倫理問題,如ImgaeNet這樣的大規模圖像數據集中具有的性別、種族偏見問題以及這些問題引發的相關算法缺陷問題、數據收集及清理背后的數據勞動問題等,引發了人文學者的普遍關注。人文大數據帶來的問題不僅僅是研究范式的轉變,其更成為研究問題本身。但很遺憾的是,目前從事數據科學的研究者們卻較少與人文學者就人文大數據及大數據在人文研究中的價值展開直接而深入的討論,期待此次專題能開啟如此契機。

猜你喜歡
人文數字文本
文本聯讀學概括 細致觀察促寫作
作為“文本鏈”的元電影
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
答數字
人文紹興
數字看G20
人文社科
誰來教“醫學人文”課
讓人文光輝照耀未來
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合