?

ChatGPT 對數字人文研究的影響芻議

2023-10-02 14:59李少建中國人民大學信息資源管理學院中國人民大學數字人文研究院
浙江檔案 2023年7期
關鍵詞:人文數字文本

李少建/中國人民大學信息資源管理學院 中國人民大學數字人文研究院

1 引言

ChatGPT是由OpenAI開發的一種基于深度學習的自然語言處理模型,它使用了一個名為Transformer的神經網絡架構,該架構利用了自注意力機制,能夠很好地處理自然語言的語義和上下文關系。經過訓練,ChatGPT能夠生成自然流暢的文本,并在各種應用中展現出驚人的效果,已被廣泛應用于各種場景,如自動化寫作、機器翻譯、智能客服等,是一個具有巨大潛力的自然語言處理模型。數字人文(Digital Humanities,DH),源于人文計算(Humanities Computing),是在計算機技術、網絡技術、多媒體技術等新興技術支撐下開展人文研究而形成的新型跨學科研究領域[1]。在數字人文研究中,研究者通常需要處理大量的文本數據,包括文學作品、歷史文獻、社交媒體數據等。這些文本數據的分析和解釋需要一定的語言理解和生成能力,而ChatGPT恰好在這方面展現出了強大的應用價值。ChatGPT可以用于文本生成、摘要、文本分類、機器翻譯等多種任務,這些任務都是數字人文研究中常見的步驟與過程。ChatGPT作為一種強大的語言模型,為數字人文研究提供了新的思路和方法,同樣它也給數字人文研究帶來了挑戰。

2 研究回顧

ChatGPT作為GPT技術在對話生成任務上的應用,其發展伴隨著自然語言處理技術的發展而不斷完善和優化。ChatGPT采用了Transformer模型、思維鏈、基于人類反饋的強化學習等技術,并且從GPT-1到GPT-4,其模型的規模呈現指數級增大,訓練數據也愈發豐富,同時其性能和表現也在每一次升級中得到了顯著的改進,不斷擴充其在各種應用場景的巨大潛力。自2023年1月至5月底,中國知網上的期刊論文中已發表530余篇ChatGPT的相關論文,報紙文章560余篇,可見相關話題的熱度之高。相關論文涉及面很廣,但多以探討ChatGPT對各行業帶來的影響為主,如郭瀟雅、孔祥勇[2-3]等論及醫療行業,徐敬宏、沈衛星[4-5]等論及出版行業,劉妍、吳青[6-7]等論及教育行業,曾雄、李燕[8-9]等論及金融行業,舒洪水、文婷[10-11]等論及法律行業。信息資源管理領域的相關熱議有蔡迎春、趙瑞雪[12-13]等討論了ChatGPT對圖書館的影響。曹樹金、尹克寒[14-15]等討論了ChatGPT對情報學的影響。周文歡[16]討論了ChatGPT在檔案文本摘要,檔案分類等方面的作用。陸偉[17]等人論述了ChatGPT為代表的大模型對信息資源管理的影響。葉鷹等人[18]闡述了GPT類技術對數字人文在語料庫建設,文本分析,文本生成,跨語言處理方面的技術支持以及在創意寫作與生成藝術,語言學研究,文化遺產保護,語義網絡構建等方面的拓展影響。但該文是從宏觀視角闡述了GPT類技術對數字人文重塑,而本文旨在從微觀視角入手,以朱本軍,聶華[19]對全球“數字人文”項目實踐的梳理和歸納總結得出的4個數字人文研究的主要內容入手,分析ChatGPT為數字人文研究帶來的影響。

3 ChatGPT為數字人文研究提供的機遇

3.1 人文數據庫或數據集建設

ChatGPT的出現對人文數據庫或數據集的建設方面產生了積極影響。首先,它為人文數據庫和數據集的建設提供了新的工具和技術,使數字人文研究得以更加深入和全面地開展。將非數字的人文資料加工轉化為數字內容,對非結構化的數字文本內容按照某種使用目的進行規范化標注著錄的數據集建設,這兩項工作是數字人文研究的前期基礎,是數字人文研究內容的重要來源之一。其次,GPT-4作為一個大型多模態模型,可以支持對多模態數據載體的處理,如對非結構化、半結構化文本進行結構化處理,從而為研究內容的數據化,以及數據集的建設提供便利。在數字人文研究領域中,許多項目和研究需要處理大量文本數據,例如歷史文獻、數據集、語料庫等等,同時不少數字人文項目涉及多模態,ChatGPT可以作為一種有效的工具來處理這些數據,并且可以通過對這些數據的學習來生成新的文本內容。再次,ChatGPT可以利用其強大的自然語言理解和生成能力,為非結構化數字文本內容提供高質量的摘要、標題、關鍵詞等元數據信息。同時也可以根據不同的研究主題和需求,為非結構化數字文本內容進行智能分類和聚類,形成不同領域或子領域的數據集。通過ChatGPT建設的高質量數據集可以提高人文數據的可視化和交互性,使其更容易被分析和理解,同時也降低了數字技術對人文研究者的門檻。

3.2 人文數字工具的開發使用

數字工具和平臺在數字人文研究中所起的作用主要是處理低水平重復的工作,如資料查找、文本比對、文本標記等,將人文學者從“體力勞動”中解放出來,讓其將精力放在更高深的人文問題研究中[20],這一方面ChatGPT無疑展現了其巨大價值。另外使用或設計非人文領域研究方法的數字工具來理解和分析數據集。常見工具方法有社會網絡分析,地理信息系統,知識圖譜等,如社會網絡分析(Social Network Analysis,SNA)是對社會網絡中各種關系結構及其屬性加以分析的一套理論和方法,它主要分析的是行動者之間的關系模式[21]。當前數字人文研究中運用社會網絡語分析來處理歷史人物的親屬關系或社會關系的研究已十分常見。在社會網絡分析中,最基礎也是最重要的信息就是社會網絡關系中的節點與邊,節點即為要分析的具體對象,邊即為對象與對象之間的聯系。通過ChatGPT,可以快速獲取相關的節點與邊的數據,并將其導入gephi、ucinet等社會網絡分析工具中,從而得到對應的社會網絡。以《紅樓夢》社會網絡關系構建為例,通過ChatGPT快速構建紅樓夢社會網絡關系的步驟。第一步是提取《紅樓夢》中的人物信息,并將人物轉化成社會網絡關系中節點,通過提問可快速從ChatGPT處得到相關信息,并且可通過重復要求和訓練從而更加全面地獲取紅樓夢中主要人物信息。第二步是構建社會網絡關系中的邊,也即第一步所得到的人物與人物之間的關系。至此構建《紅樓夢》社會網絡關系的基本信息已獲取,由于經過指令,ChatGPT輸出的信息都是較為規范的結構化數據,因此可以將詢問ChatGPT所得信息復制下來保存為txt文本,再通過ChatGPT生成代碼將文本批量轉換為人物與人物之間關系的CSV文件,最后將得到的CSV文件導入至neo4j中即可得到《紅樓夢》的社會網絡關系。采用ChatGPT大大減少數字人文研究中運用社會網絡分析方法時獲取基礎數據較為麻煩的問題,以及解決部分研究者因并未同時掌握python、neo4j、gephi等相關技術工具而無法完成一個完整的數字人文研究的問題,大大提升研究的效率和質量,拓寬研究的視角與方法。

3.3 人文研究方法和研究范式

數字人文研究將人文學者較多采用的定性研究轉變為定性研究與定量研究相輔助的形式。而ChatGPT可以幫助人文學者利用機器學習和自然語言處理等技術,幫助人文學者探索和分析大量的文本數據,將定性研究與定量研究相結合,從更多的角度和維度開展人文相關的研究。改變傳統通?;谌斯俗⒑褪謩臃治龅奈谋痉治龇椒?,可以通過機器學習和自然語言處理技術,實現自動處理和分析大量的文本數據。這種自動化的文本分析方法可以為人文學者提供更快捷、更全面、更準確地分析結果。比如ChatGPT可以對大量的文本數據進行分析和建模,識別和提取文本中的主題和話題,對文本進行分類,幫助人文學者批量發現、理解和處理文本中的主題,了解文本的情感色彩和情感變化,以便進行定性和定量分析。其次,ChatGPT還能幫助運用知識圖譜和關系建模開展相關研究,例如使用實體識別和關系提取技術來識別文本中的實體和關系,組織和表示大量的文本數據,幫助人文學者發現和理解文本中的關系和聯系以幫助人文學者構建知識圖譜和進行關系分析。再次,其也可幫助人文學者進行數據可視化和交互分析,ChatGPT可以使用各種數據可視化和交互分析工具來幫助人文學者理解和探索大量的文本數據。例如,ChatGPT可以幫助使用網絡圖和熱力圖等可視化工具來展示文本中的關系和變化,以幫助人文學者發現和理解文本中的模式和趨勢。這種結合可以為人文學者帶來新的研究方法和研究范式,從而促進人文學科的創新和發展。

3.4 人文領域的創造性破壞與建設

作為創新的兩種類型,延續性創新與創造性破壞(Creative Destruction)在范式演進的全鏈條中交替發生作用,后者是前者與需求側矛盾轉化的自然結果[22]。創造性破壞是人類進步的常態,在數字人文領域,這種“破壞”帶來的不是文化之死,而是更為多彩的文化[23]。作為一種先進的人工智能技術,ChatGPT的出現與數字人文的出現,在某種程度上都是顛覆傳統的,而如果再將二者相結合,那必定會碰撞出更具有顛覆性的火花。首先從傳統人文研究的內容角度上而言,數字人文研究可以對其進行知識重組與知識庫構建。如中國歷代人物傳記資料庫(China Biographical Database,CBDB),由哈佛大學費正清中國研究中心、臺灣中央研究院歷史語言研究所及北京大學中國古代史研究中心三方合作進行,系統性地收入中國歷史上所有重要的傳記資料,截至2022年8月為止,共收錄約五十二萬余人的傳記資料,這些人物主要出自七世紀至十九世紀。就傳統人文研究的方式而言,學者窮盡一生也許都難以從各種書中閱覽完這些人物傳記資料。ChatGPT作為一種基于人工智能技術的語言模型,可以通過大規模的語料庫訓練,傳統的人文研究需要大量的人力和時間進行文本分析和研究,而ChatGPT可以通過自動化的文本分析技術,快速地分析和理解大量的文本數據,從而挖掘出隱藏在文本中的知識和信息。同時傳統的人文研究往往受限于數據的規模和質量,而ChatGPT可以通過大規模的數據處理和分析,挖掘出更多的知識和信息。

傳統人文研究的思路角度上,ChatGPT可以為相關數字人文研究提供研究的思路與靈感,通過分析和學習大量的文學、藝術、社會、文化等方面的數據,ChatGPT可以自動生成一些新的、具有創造性的文化、社會、藝術、文學等內容,提供一些素材、構思、情節等方面的支持,激發人文學者的想象力和創造性,為研究者提供一些新的創意和靈感。同時也可以直接利用ChatGPT在文學、藝術等領域中,如AI寫詩與AI繪畫等。ChatGPT可以生成自然語言文本,例如可以根據用戶輸入的數據生成詩歌、散文、小說等文學作品,或者模擬人物對話、寫作等場景。但需要注意的是,ChatGPT目前還存在一些限制和局限性,例如在文學、藝術等領域中,它仍然難以完全替代人類的創作和審美能力。因此,ChatGPT在數字人文領域的創造性破壞與建設方面,還需要不斷地探索和優化以發揮更大的作用。

4 ChatGPT給數字人文研究帶來的挑戰

4.1 對數字人文從業者的挑戰

ChatGPT在數字人文領域的廣泛應用,給數字人文從業者帶來了一系列挑戰。雖然ChatGPT所帶來的顯著特點在于自動化取代人工的趨勢更甚,但是數字人文從業者需要意識到,在這個數字化、智能化的時代,他們的職業生涯需要不斷地適應和調整。首先,ChatGPT可以通過自動化的文本分析技術,快速地分析和理解大量的文本數據,從而取代了一部分需要人工分析和研究的工作,尤其是文字與編輯方面的工作,數字人文相關從業者可能會面臨職業轉型的壓力。因此,他們需要及時提升個人能力,擁抱數字技術,以適應新形勢下完成相應任務的更高要求與更多方法。其次,隨著人工智能與人文學科的交叉的不斷深入,數字人文從業者需要具備跨學科的知識和技能,以便于將人工智能技術應用到相應人文學科領域中。他們需要不斷學習和更新知識,以滿足不斷變化的需求。同時數字人文從業者需要注意避免技術依賴,不能過度依賴ChatGPT等語言模型技術,從而導致技術上的困境和瓶頸,影響數字人文領域的創新和發展。最后,數字人文從業者需要意識到人文學科的價值和意義,不能將數字技術完全取代人文學科的研究方法和思維方式,否則可能會損害數字人文領域的價值和意義。數字人文從業者需要認識到,數字技術的發展需要與人文學科的研究相結合,以推動數字人文領域的創新和發展。他們需要不斷地探索和創新,以滿足不同領域的需求。只有這樣,數字人文從業者才能在這個數字化時代中保持競爭力,為數字人文領域的發展作出更大的貢獻。

4.2 對數字人文教育的挑戰

ChatGPT的出現對數字人文教育也將帶來一些沖擊。首先,數字人文教育需要重新審視其教學目標和方法。隨著其智能化程度的不斷發展,應用場景的不斷拓展,技術工具在數字人文研究中的應用將逐漸普遍化和低門檻化,使人文研究從過去以資源占有為決定性因素,轉變為如今以提出問題的想象力為驅動的“第四范式”[24]。因此,數字人文教育需更注重培養學生的創新能力,使其能在思維創新和創造力層面超越人工智能。其次,數字人文教育需要不斷更新和調整課程內容,以應對新技術和工具的應用。ChatGPT等自然語言處理技術的出現意味著數字人文教育需更深入地探索和應用這些技術,以幫助學生更好地理解和應用這些新技術。數字人文教育還需要將數字技術和傳統的人文學科知識相互結合,以提高學生的綜合素質。再次,數字人文教師的角色也將發生變化。數字人文教育的發展可能使得教師需要更多地擔任指導和輔導的角色,而不是傳統的講授和評估的角色。教師需要更加注重學生的個性化需求和學習能力,以幫助他們更好地掌握數字人文技術和工具,并發揮其創新能力。數字人文教師還需要不斷地學習和更新自己的知識和技能,以適應數字時代數字人文教育的發展。最后,數字鴻溝將擴大。數字技術和工具的應用和普及程度不同將導致數字鴻溝的擴大,一些學生和教師可能由于主觀或客觀的原因,無法充分利用數字人文教育所提供的機會和資源,數字人文教育需要更加注重教育公平,為每個學生提供平等的機會和資源,以便于他們掌握數字人文技術和工具,從而更好地開展數字人文研究。

5 結語

ChatGPT技術的發展為數字人文研究帶來了廣泛的應用前景,它是建立在海量語料庫的基礎上進行訓練的人工智能技術,其實現了對人類語言能力的高度還原,同時在經過千千萬萬人的會話微調后,其性能不斷提高,更加貼近于人類的認知習慣。但ChatGPT的強大并沒有什么理論的創新,也沒有構造多巧妙的算法,其能力來自人工神經網絡規模達到數百億之后出現的復雜系統涌現現象,至于其實現的原理尚未可知。約翰·霍蘭作為涌現理論奠基人,他是公認的“遺傳算法之父”,他曾指出涌現現象也會在那些至今幾乎還沒有什么規律可循的領域中發生[25],而ChatGPT就是一個生動的例子。但ChatGPT一個最大的缺點在于其無法保證生成內容的準確性與真實性,有時生成的內容完全是胡編亂造。在最近發表于《Nature》上的文章《ChatGPT:五個重要的研究問題》中,研究者指出,如果將ChatGPT用于科學界,必須堅持人類審查的原則。同樣,在數字人文研究中使用ChatGPT也必須保證有人對其進行人工審核和糾正。我們需要充分認識到其應用的潛力和限制,不斷提高我們的技術和方法水平,以更好地應用ChatGPT技術開展數字人文研究。

猜你喜歡
人文數字文本
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
答數字
人文紹興
數字看G20
人文社科
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
誰來教“醫學人文”課
讓人文光輝照耀未來
成雙成對
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合