?

人工智能時代的“新子學”試探

2019-05-30 11:28金把路韓國中央大學韓國首爾156756
名作欣賞 2019年15期
關鍵詞:人文數字文學

⊙金把路[韓國中央大學,韓國 首爾 156-756]

一、前言

自谷歌(Google)的阿爾法圍棋(AlphaGo)擊敗人類職業圍棋選手以后,人工智能迅速地進入大眾視野。有人期待人工智能與人類合作的烏托邦(Utopia),有人擔心人工智能統治人類的反烏托邦(Dystopia),但不管如何,人類從來不會放棄手里的武器。我們無法阻擋人工智能技術的發展,我們只能領導人工智能技術的發展軌跡。哲學界已經針對人工智能進行了許多研究,其代表有約翰·羅杰斯·希爾勒的“中文房間”(Chinese room),但是哲學界針對人工智能的探索大部分留在哲學思辨領域。哲學家是以局外人的立場,觀察、探索、預測人工智能與人工智能所帶來的未來。雖然哲學的局外省察也格外重要,但是人工智能能否應用于哲學領域呢?

西方人文學界已經開始提倡數字與人文學融合的數字人文(Digital Humanities)。數字人文是對數字技術與人文學之間的交叉領域進行研究、教育以及創新的一門學科,它不僅力求傳統文本的數字化,還考慮到文本挖掘(Text Mining)、社會網絡分析(Social Network Analysis)、空間分析(Spatial Analysis)等數字分析方法與多媒體、虛擬現實(Virtual Reality,VR)、增強現實(Augmented Reality,AR) 等數字視覺化,在歷史、哲學、文學等人文學研究領域的應用。簡單地說,數字人文是在傳統人文學研究的基礎上導入數字的研究方法。數字人文的本質還是對人類的探究,只是傳統人文學以紙張為基礎,而數字人文以數字為基礎。數字人文借用計算機的能力,可實現人類無法或者難以實現的情報搜集、分析與共享,還可以實現紙張無法提供的多媒體視覺化。

論者把數字人文研究領域分為設計、建造、分析、解釋、視覺化。設計是為了人文學情報數字化,研究人文學各個研究對象的結構與內容;建造是按照設計結果,新造、再編、運營人文數據庫;分析是以人文數據為基礎,以傳統人文學研究方法結合文本挖掘、社會網絡分析、空間分析等的數字分析方法導出分析結果數據的領域;解釋是通過人文學的觀點與思維,在分析結果數據上賦予意義的領域;視覺化是設計結果、人文數據、分析結果數據、解釋結果變為適用于人類可讀的領域。本文以數字人文的觀點為基礎,探討在人工智能時代實現“新子學”研究的自由性、開放性、多樣性、平等性、包容性的現實方法。

“新子學”語義網(Semantic Web)概念圖

二、設計與建造

(一)人文數據概述

設計與建造都是數據的領域。人文學領域已經有豐富的紙張情報,所以人文學領域比較關心數字化(digitalization)。但是很多人文學領域的人士忽略數據的質量。根據鍵連公開數據(Linked Open Data,LOD),數據可分為五個等級。

第五等級的條件是制作權公開(Open Licence),我們一般接觸的PDF文件屬于這一類。數字網絡的最大特點在情報的共享,如果某一個情報無法共享等于沒有數據。第四等級的條件是制作權公開與可再用(Reusable),我們一般接觸的Excel文件屬于這一類。為了借用計算機的力量,必須建造機器可讀數據(machine readable data),雖然最近PDF文件通過光學字符識別(Optical Character Recognition,OCR)可以變成文本(TEXT),但是其導出的文本還是有限的。機器有限地讀出其內容意味著人工智能只能有限地處理其內容。第三等級的條件是制作權公開、可再用的、自由文件格式(Open format),其代表文件形式為CSV格式。雖然我們常用Excel,但是Excel文件只能在微軟的Office上才能運行,所以我們為了保障自由性,得采用自由文件格式。第二等級的條件是制作權公開、可再用的、自由文件格式、統一資源標志符(Uniform Resource Identifier,URI)。URI是為了同時保障多樣性、平等性而產生的一種出處表明手段。如果方勇所想的“新子學”與金白鉉所想的“新子學”是不同的,那么數字上分別表達為“方勇:新子學”“金白鉉:新子學”,實際上是利用網絡上常用的統一資源定位符(Uniform Resource Locator,URL)來表達。如果方勇的網站是“http://fangyong.com",方勇的“新子學”可表達為“http://fangyong.com/新子學”。第一等級的條件是制作權公開、可再用的、自由文件格式、統一資源標志符、鍵連數據(Linked data)。人人皆有自己的想法,我們在第二等級的數據條件下,已經可建立各自的人文數據庫。第一等級是各自的人文數據庫互相連接的,比如中國“新子學”數據庫與韓國“新子學”數據庫之鍵連、“新子學”數據庫與“新儒學”數據庫之鍵連、“新子學”數據庫與康德數據庫之鍵連,但是現在大部分的人文數據連第五等級都達不到,重點在于機器可讀性數據與數據共享。

如今,最高級的機器可讀性數據是語義網(Semantic Web)。語義網是由萬維網聯盟的蒂姆·伯納斯-李(Tim Berners-Lee)在1998年提出的一個概念,它的核心是:通過給萬維網上的文檔(如HTML)添加能夠被計算機所理解的語義(Meta data),從而使整個互聯網成為一個通用的信息交換介質。語義萬維網通過使用標準、置標語言和相關的處理工具來擴展萬維網的能力。不過語意網概念實際上是基于很多已有技術的,也依賴于后來和text-and-markup與知識表現的綜合。為了實現語義網需要設計數字本體(digital ontology)。數字本體的基本要素為類(Class)、屬性(Property)、個體(instance),基本形式為論域(domain)——關系(relation)——定義域(range)。

“老子”“《道德經》”“道可道,非常道”是個體,“老子”“王弼”“明太祖”屬于“人物”類,“創作”“圖像”“注解”是屬性?!叭宋铩鳖惖摹袄献印眰€體——“創作”——“文獻”類的“《道德經》”個體,我們可將其抽象化為“人物”類——“創作”——“文獻”類(參考本文第一頁“新子學”語義網概念圖)。雖然數字本體的結構是比較簡單的,但是語義網(Semantic Web)已經成功實現了各種人文數據庫,如歐洲數位圖書館(Europeana)統合了歐洲各個圖書館、美術館、博物館的文化遺產情報。

需要注意的是,人文情報的結構與語義網的結構比較相似。從前人文情報的數字化依靠可擴展標記語言(Extensible Markup Language,XML)與關系數據庫(Relational database,RDB)。雖然可擴展標記語言與關系數據庫是商業上得到地位的方法,但還是無法完全包含數位情報的全部內容。相反,語義網以數字本體為基礎可輸入、運營、輸出多層次的人文情報,還可以按照以往的人文數據進行倫理推論而找到新的情報。大膽地說,我們通過語義網,把人的思維移植到數字上了。

(二)設計與建造之應用

1.數字《子藏》

“新子學工作包括三個部分:文獻、學術史、思想創造。這是逐步深入的研究步驟,也是并進的三個方面?!狈接滤f的文獻就是人工智能時代的數據?!蹲硬亍匪鸭耸澜绺鞯氐闹T子百家文獻而精選了其中的最好版本,體現了“全”與“精”,但是現在《子藏》出版于紙張。數字人文的立場也贊同搜集盡可能多的版本,但是數字人文無法贊同“選”版本而出版于紙張的行為,因為其行為本質上限制開放性、多樣性?,F在學者們難以接觸《子藏》全集,只能看到選取的精本,在《子藏》上尋找所需的內容也十分艱難。因此筆者建議建設數字《子藏》,這是參考了CBETA漢文大藏經與CTEXT(中國哲學書電子化計劃),建造全世界的相關學者們容易接近、查看、互動的數字《子藏》平臺,數字《子藏》不僅推薦《子藏》項目所選的最好版本,同時還提供與其他版本之比較,這才是“全”與“精”的。

2.數字“新子學”

方勇曾說:“以往的研究大多以各子或者各家為對象,像一般的哲學史或者諸子學論著中,都以儒家、墨家、道家、法家等為章節,逐一加以論說,或僅論說諸子個人,如‘先秦七子’一類。當代諸子學研究已經有了諸多積累,各種學派研究、重要子家的研究,成果都非常豐碩,即使諸如《鹖冠子》《文子》《鬻子》等典籍也都有可觀的研究成果,這是綜合性研究的基礎。諸子學研究需要會通諸子學各家各派,回環往復地閱讀研究,以通盤的視野看待諸子思想,這樣才可能做到真正的綜合”。但是在紙張上綜合以往的成果是個難題,而且即使綜合了成果可能也難以找到研究者個人所需要的。在將“新子學”的研究成果編纂為機器可讀性數據的前提下,人工智能可以實現研究者的需求,甚至幫助研究者找到個人難以找到的情報。因此我們不僅應針對《子藏》進行數字化,還需要針對“新子學”研究與教育環境進行數字化。

3.“新子學”人工智能倫理模型

為了防止人工智能造成惡性未來,我們需要人工智能倫理模型。世界各國正在力求建立各種各樣的人工智能倫理模型,但其倫理模型是以功利主義與康德主義為基礎的。人工智能完全依靠倫理模型來判斷,在現在的趨勢下,就變成西方哲學的代行者。換個思路,我們能否建立老子人工智能倫理模型呢?西方倫理學有個著名的思想實驗——有軌電車難題(Trolley Problem):“假設你看到一輛剎車壞了的有軌電車,即將撞上前方軌道上的五個人,而旁邊的備用軌道上只有一個人,如果你什么都不做,五個人會被撞死。你手邊有一個按鈕,按下按鈕,車會駛入備用軌道,只撞死一個人。你是否應該犧牲這一個人的生命而拯救另外五個人?”簡單地說,以功利主義為基礎的人工智能倫理模型一般會選擇撞死一個人,但是以老子為基礎的人工智能倫理模型可能與功利主義人工智能不同,也許會為了體現“無為”不按鈕,也許會為了體現“自然”隨機(random)按下按鈕。

三、分析與解釋

(一)數字分析與人文解釋

以往的人文學研究用不著分開分析與解釋,但是在計算機明明超越人類的計算能力的現實下,人文學也需要探索與計算機的合作之路。人工智能在條件限定的情況下,遠遠超過人類的認知與計算能力。如現在根本不會有人從北京走路到首爾,學術也沒有理由回避借用計算機的能力。但人工智能無法限定條件,人類才能限定條件。更重要的是,到現在為止,人工智能無法判斷其意義,無法賦予其意義,解釋領域還在人類的手里。只是解釋計算機分析結果的前提是針對計算機分析方法的理解。遺憾的是,人工智能的核心技術是深度學習(deep learning),而深度學習需要大數據(Big Data)。到目前為止,幾乎沒有大量的人文數據,所以現在難以直接利用深度學習進行人文學研究,只能依靠小數據(Small Data)的數字分析方法?,F在比較成熟的數字分析方法為文本挖掘、社會網絡分析、空間分析。

(二)文本挖掘

文本挖掘是用計算機進行語言文字分析的。語言分析方法眾多,有自然語言處理(Natural Language Processing,NLP)、語料庫語言學(corpus linguistics)、文本分類、文本聚類、共字分析(co-word analysis)、感情分析等。傳統人文學研究經常進行版本比較研究,但是其研究一般是以少數文章之間的比較為主。因為個人難以進行異本之間的全文比較研究,所以只能依靠幾十年積累的經驗為基礎的直觀研究。文本挖掘如何應用在人文學研究上?可以參考“類書對應查詢系統”所提供的《藝文類聚》與《太平御覽》之間共引內容的比較功能。

《太平御覽》的道部總共25條,其條內容在《藝文類聚》中涉及11部、總共29條。由其分析可知,唐代的居處部、靈異部、木部、山部、樂部、水部、寶玉部、果部、人部、禮部、藥香草部到宋代都歸為道部。更具體一點,《藝文類聚》靈異部的被榮都屬于仙道,但在《太平御覽》其條分為天仙、里所、服餌、地仙,而《太平御覽》中地仙的內容來源不僅有《藝文類聚》的靈異部,還有木部、樂部、寶玉部、果部。從中我們可以理解唐代與宋代“仙”的概念之異同。以上情況,如果是個人進行研究,將會難以完成任務,或者只能選擇幾個案例,但是利用計算機,就很容易可以實現,并可以將剩下的時間投入在解釋層面。我建議同一個方法應用在“新子學”文獻之間的變遷研究上。

(三)社會網絡分析

社會網絡分析是通過網絡中關系的分析研究網絡的結構與屬性特征的方法。屬性特征是度中心性(Degree Centrality)、接近中心性(Closeness Centrality)、中介中心性(Between Centrality) 等。社會網絡分析的基本數據要素是來源(Source)與目標(Target)。例如,王弼注釋了《老子》的“王弼(來源)——《老子》(目標)”。社會網絡分析如何應用在人文學研究上?中國歷代人物傳記數據庫(China Biographical Database Project,CBDB)提供了中國歷史人物之間的社會網絡分析之數據。

上圖是1050至1100年間取得進士學位者之間的社會網絡。網絡中的關系一般為血緣關系:F是父親,FF是祖父等。我們可以看出當時少數家族獨占進士學位。與文本挖掘一樣,個人基本上無法進行類似的研究,只能利用計算機觀察到比較客觀的整體狀況。筆者建議同一個方法應用在歷代“新子學”學者之間的分析上。

(四)空間分析

空間分析是對于地理空間現象的定量研究,以空間數據為基礎,提取空間數據與其相關數據里潛在的信息。其主要研究為空間位置、空間分布、空間形態、空間距離、空間關系。歷史地理學領域已有歷史地理信息系統(Historical Geographic Information System,GIS)??臻g分析如何應用在人文學研究上?WorldMap提供了開放的地理信息系統。

上圖是WorldMap上的宋代與明代科舉考試合格者的出生地比較,出身數量利用氣泡圖(bubble chart)來視覺化了。我們可以看出宋、明科舉合格者出生地的相異。其分析是中國歷代人物傳記數據庫的科舉數據與中國歷史地理信息系統(China Historical Geographic Information System,CHGIS)的地名數據結合而成的。筆者建議同一個方法應用在“新子學”思想的傳播分析上。

四、視覺化

紙張印刷基本上依靠單色的文字與圖畫,雖然已有彩色印刷技術,但是成本還是比較高。相反地,數字技術不僅提供彩色的文字、圖片、照片,還提供紙張無法呈現的聲音、動畫和影片,以及程序所提供的互動功能。近年來甚至出現虛擬現實(virtual reality,VR)與增強現實(Augmented Reality,AR)以及兩者合成的混合現實(Mixed Reality,MR),慢慢地走向瓦解虛擬與現實的邊界的方向。但是數字上的視覺化領域的基礎是數據,問題是現在“新子學”的數據不足以深入研究視覺化,只能一邊建造數據一邊視覺化。不過“新子學”通過數字人文的方法進行設計、建造、分析、解釋,可以實現如下視覺化:“新子學”文獻的視覺化、“新子學”文獻結構的視覺化、“新子學”文化遺產的視覺化、“新子學”思想與文化遺產的互聯視覺化。

五、結論

雖然在人工智能時代,“新子學”可以展開研究人工智能所帶來的問題,這也是“新子學”應當擔任的責任,但是對其批評首先需要對其深刻理解,而且人工智能可以幫助傳統“新子學”的研究,并且可以開拓新的“新子學”研究,我們又何必留在限制自由性、開放性、多樣性、平等性、包容性的紙張上呢?

猜你喜歡
人文數字文學
美在山水,魂在人文
最樸素的人文
街頭“詛咒”文學是如何出現的
答數字
數字看G20
人文社科
成雙成對
數字變變變
文學
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合