?

給文學作品做“親子鑒定”

2020-07-16 03:46朱會鑫
讀者·校園版 2020年14期
關鍵詞:親子鑒定歸因文學作品

朱會鑫

我們知道DNA(脫氧核糖核酸)技術可以對人進行親子鑒定,可你知道嗎,隨著科技的不斷進步,AI(人工智能)已經可以給文學作品做“親子鑒定”,進而判定其作者是誰。那么,AI是如何判定文學作品的作者的呢?利用AI判定文學作品的作者是否準確呢?

下面,我們就以利用AI判定英國著名戲劇《亨利八世》的作者是誰為例。與《紅樓夢》究竟是誰寫的一樣,《亨利八世》也存在同樣的問題??梢哉f,在長達一個世紀的時間里,關于《亨利八世》的作者是誰的爭論一直沒有停息,直到最近的一項研究才使這個問題的答案變得明朗起來。

捷克科學院的研究員普列查奇,最近使用機器學習技術來識別《亨利八世》的作者,并取得了具有說服力的結果。那么,他究竟是如何利用AI判定《亨利八世》的作者的呢?

簡單地說,就是從詞匯和節奏入手,辨別文本的來源。在了解作者的風格和常用的字詞與句式后,再去辨別目標作品中的文本習慣樣式,以判定它們是否出自同一個作者之手。即通過算法模型對文本常用詞、常用語句和節奏模式進行分析,使算法學會辨別相關作者的寫作特征。

具體來說,就是先將劇本《亨利八世》細化成多個小場景,再使用支持向量機對《亨利八世》的各個場景進行歸因分類和分析。其中,以500種最常見的節奏類型的頻率和500個最常見單詞的頻率作為分類器的功能集。鑒于作者在不同時期可能出現的風格差異,普列查奇采用了同時期其他戲劇的場景(如《暴風雨》《科里奧蘭納斯》)作為訓練樣本,對于可能的作者也同樣收集了訓練樣本。

最終,普列查奇收集了53個莎士比亞訓練樣本、90個弗萊徹訓練樣本和46個馬辛格訓練樣本。為了測試模型的準確性,他還通過交叉驗證的方式進行了檢驗。完成訓練學習后,在《亨利八世》的文本上運行該模型,最后結合詞匯和多功能化的綜合分析,確定哪些作者參與了劇本的寫作,以及他們的具體貢獻。

結果證明,這是區分莎士比亞、弗萊徹和馬辛格風格非??煽康囊罁?。尤其是使用常用詞和常用節奏的組合模型,在3位作者的風格鑒定上,準確率高達96%。當模型應用于《亨利八世》的分析時,結果清楚地表明,莎士比亞和弗萊徹都參與其中,另一位傳聞中的劇作家馬辛格在算法的層面上和劇本無關。

為了更可靠地了解具體作者承擔的份額,以超越特定場景的簡單歸因,普列查奇采用滾動歸因分析方法,確定了具體文本片段屬于某位作者的概率。滾動歸因是一項針對涉及混合作者身份的案例技術。在滾動歸因中,不對整個文本或其邏輯部分(章節、場景等)進行分類,而是對其固定長度的重疊部分進行分類。該方法使用移動窗口的概念,同時與標準的監督分類技術相結合,旨在評估離散文本樣本之間的樣式差異,以測試其文本樣式的一致性。

結果表明,結合了詞匯特征的滾動歸因方法是非??煽康模涸趨^分莎士比亞和弗萊徹時,滾動歸因的準確率高達99.77%。

對文學研究者和愛好者來說,利用AI對文學作品進行“親子鑒定”,以破解名著的作者之謎,是一件很有價值的事情,同時也提供了一個數據維度的視角,以解決此類問題。

(成瑜摘自《知識窗》2020年第2期,邱炯圖)

猜你喜歡
親子鑒定歸因文學作品
我們為什么要文學
班主任引導高三學生考后積極歸因的探索
虐待對兒童歸因風格的影響
文學作品與電影文學作品間的對比分析
積極歸因方式:當船漏水了
日本做親子鑒定的夫妻增多
為什么有些人喜歡把成功歸因于自己 把失敗怪罪給別人?
文學作品與數學
親子關系,可以推定
文學作品與數學
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合