?

結合主題模型的中國古代詩人大五人格預測

2023-06-05 09:15閆瀅鈺汶東震張冬瑜林鴻飛
關鍵詞:人格特質人格詩人

閆瀅鈺,汶東震,張冬瑜,林鴻飛

(大連理工大學 計算機科學與技術學院,遼寧 大連 116024)

0 引言

古代詩人擅長用詩歌理解世界和記錄生活,中國古典詩歌作為中華民族傳統文化的重要載體,被認為是中國古代人類智慧與文化的結晶。詩歌是詩人物我相接、思維傳達的產物,很大程度上體現著我國古代詩人的個性,并且蘊含著詩人的情感。同樣,詩人的性格也極大地影響著詩歌的寫作主題與風格。只有對詩人的性格有科學的掌握才能更好地輔助對詩歌的理解。隨著自然語言處理領域的發展,通過對大量文本的情感進行挖掘,判斷個體性格的研究已經成為該領域的熱點研究問題,并推進了計算機科學和心理學領域的共同發展。詩歌文化也是我國素質教育的重要部分,通過分析古詩并結合心理學理論模型研究詩人的人格特質,可以對人們理解中國古代詩人、研究詩詞提供極大幫助,有助于傳統文化教育的發展,對詩詞的傳承起到很好地輔助作用。

近年來,學者開始圍繞與古代詩歌有關的課題展開研究。其中,對古詩的情感鑒賞以及探究詩人的人格特質一直是品析詩文化研究的重要內容,也是數字人文近年來研究的熱點方向,但目前相關的研究還處于起步階段。與其他文學作品相比,詩歌文體的語言簡明精煉,而在內容上又表現出濃重的抒情色彩,情感緊湊和豐富。當前的情感分析研究語料多集中在新聞評論、商品評論、社會傳媒評論、個人博文等,對古詩的研究則相對較少。前人提出了一些詩歌情感分析的方法,但是對情感的分析僅限于詩歌層面,目前還沒有面向詩人的分析研究?,F階段人格分析任務的研究主要對人們在社交軟件(如微博、推特等)上發表的言論及用戶行為進行分析,從而反映用戶的人格特質。其中人格研究者關注與支持最多的一種理論模型,即大五人格模型,被廣泛應用于分析人格特質的任務中。中國古代詩歌作品同樣可以看作是古代詩人用來表達自身想法與情感的“微博”。大五人格被證明在世界主要區域都具有穩健性,對詩人進行大五人格的分析,可以對中國古代詩人有更深刻的認識。

然而,在自然語言處理領域,鮮有類似的工作發表,并且也沒有可用的語料庫。這顯然阻礙了該領域工作的進展。在中華文化發展的歷史長河中,歷代詩人留下的佳作不計其數,這使得人們只能通過一個詩人的部分經典詩歌對詩人進行分析,當詩人的詩歌數目比較多時,有必要引入自然語言處理相關技術對詩人人格進行分析。同時,詩人創作詩歌時,常?;谀承┑奶貏e的主題和情緒。詩歌的主題對于詩歌的情感具有決定性的影響。因此,分析詩歌的主題,就是對詩歌的語義進行全面的把握,這對于詩人的人格分析、詩歌生成都具有一定的意義,同時也有助于從數字科學的角度來分析和了解詩人的詩歌創作意圖,反應詩人性格。

本文研究工作主要內容如下:

(1)目前計算機領域關于古代文學的工作集中于分析詩詞而不是詩人,并且沒有學者開展對詩人進行人格特質分析的任務。為填補此類任務的空白,本文構建了一個針對唐宋兩代詩人的大五人格數據集,用于支撐對古代詩人的人格特質分析任務。

(2)由于詩歌寫作主題極大程度地反應了詩人性格和情感,本文提出結合主題模型的詩人大五人格分析方法,并應用于詩人畫像構建。實驗證明,本文方法可以提高對詩人人格特質預測的準確性與科學性。

1 相關工作

1.1 古詩詞與古代詩人相關研究

最早對古詩詞的計算分析起源于20 世紀90 年代。在對古詩詞語料庫的構建方面,劉巖斌等[1]建立了我國第一個利用電腦進行古代詩詞研究的系統,提供了詞匯、韻律、文體等相關功能。在詩歌分析方面,學者們提出了一些詩歌分類與情感分析的方法,諸雨辰等[2]將文本分類任務引入唐詩研究,Tang 等[3]結合CNN和GRU 提取唐代詩歌特征,并對其進行情感分析。

對古代詩人的研究主要集中在人文學科領域,學者們偏向于對某一具體詩人的性格,或對其某一作品進行獨立的分析,如李貞[4]結合杜甫的人生經歷分析了杜甫的性格,夏妍月[5]從《古風五十九首》中分析李白的悲劇蘊藉。這體現出了傳統的人文科學的許多研究方法傾向于從單一方面或單一作品分析思考和寫作得出結論,缺乏一定的科學性和完整性。利用現有的計算機技術,可以極大影響到傳統的人文學科,可以更科學和全面地了解古代詩人。

1.2 大五人格

自20 世紀90 年代,心理學界提出了大五人格理論[6]之后,大五人格模型得到了廣泛的關注,它抓住了大部分現有的人格特質的共同性和共通性,在不同年齡、文化和性別中具有普遍性。大五人格包括開放性、外傾性、神經質性、盡責性和宜人性五方面的人格特質,開放性反映了個體對知識的好奇心、創造力;外傾性反映了個體自信、善于交際的特性;神經質性反映了個體對沖動的控制力較差;盡責性反映了個體的自律性,傾向于細心規劃而不是無計劃地行動;宜人性反映了個體對同情和合作的傾向性。大五人格為各行各業的研究者提供了一個系統的人格描述模型。雖然大五人格最早是由西方學者根據詞匯學方法和聚類統計方法提出來的人格特質模型,但是過去十幾年對大五人格模型的跨文化研究表明,大五人格模型同樣適用于其他國家,具有跨語言、跨文化和跨評定者的穩健特質,在世界主要國家和地區具有普適性,這使得大五人格模型被心理學家普遍接受[7]。早期獲取大五人格信息采用的是傳統的問卷方式,時效性很低。后來人們開始運用機器學習等手段預測人的性格,使得越來越多其他行業的研究人員將大五人格與自己的研究相結合。比如在分析人格特質的任務上,Lin 等[8]基于大五模型的不同特征和測量方法,應用經典的機器學習模型研究了Facebook用戶個性特征的可預測性。目前還沒有研究將古代詩人與大五人格進行結合,借助機器學習并結合現代心理學對古代詩人的人格特質進行科學解讀,而這是本文要解決的一個重點任務。

2 數據集

2.1 數據預處理

本實驗的數據庫選取唐朝和宋朝的詩人進行構建,因為唐朝和宋朝的詩歌與詩人相關記載和相關史料相比其他朝代的更加完整,有利于對古代詩人大五人格的標注工作。本文首先收集了唐代和宋代的詩人與詩歌,原始數據來自Github 上名為chinese-poetry 的開源數據庫①https://github.com/Chinese-porty/Chines-porty,此項目整理了中華古典詩集與文集,包含 5.5萬首唐詩、26 萬首宋詩、2.1 萬首宋詞和其他古典文集。此數據庫通過 JSON 格式存儲詩歌,格式如圖1。

圖1 原始數據格式Fig.1 Format of original data

本文使用了針對古漢語的開源分詞器甲言②https://github.com/jiaeyan/Jiayan對古詩進行預分詞,其主要包含正向最大匹配分詞和預訓練的隱馬爾可夫模型來分詞兩種方式。

數據清洗分兩步,得到詩歌的分詞結果后首先刪除不完整、有錯誤和重復的詩歌數據。第二步對語料庫進行篩選,首先去除無作者信息的詩歌(如作者名為無名氏、不詳或缺名),同時去除一些朝代的禮樂歌詞(如郊廟朝會歌辭),為了保證數據集的科學性與可用性,提高數據集標注的質量,同時提高模型學習的準確性,本文選擇詩歌作品數目在30 以上的唐宋詩人進行標注,避免某些詩人的語料過少,導致對詩人人格的不合理預測,并刪去目前無記載或記載較少的作者。最后,數據清洗后的語料庫共包含581 名作者創作的246 458 首詩,后續將對233 個唐代詩人以及348 個宋代詩人進行標注工作。表1 展示了語料庫中詩人的基本統計信息。

表1 語料庫中詩人的基本統計信息Table 1 Statistical information of poets in the corpus

表2 詩人大五人格評級標準Table 2 Big Five personality rating standards for poets

2.2 標注規則

本文邀請了兩名漢語國際教育碩士生以及一名計算機技術碩士生擔任標注員。將大五人格每個維度分為五個評分等級。分別表示詩人在該人格維度上的評價為極差的(1 分)、較差的(2 分)、一般的(3 分)、較好的(4 分)、或極好的(5 分)。標注時結合詩人詩歌作品、詩歌主題、作者史料和作者生平經歷進行標注。有關詩人的史料記載與相關信息來自百度百科①https://baike.baidu.com/、知網②https://www.cnki.net/、萬方③https://g.wanfangdata.com.cn/index.htm、古詩文網④https://www.gushiwen.cn/以及中國歷代人物傳記數據庫⑤https://projects.iq.harvard.edu/chinesecbdb(CBDB)中詩人的相關信息以及對詩人性格的評價。同時參考唐宋詩人相關的出版書籍,比如林庚先生的《唐詩綜論》[9],張學淳的《唐宋詩人故事》[10],王運熙的《中國古代文論管窺》[11]等含有唐宋詩人人格特質描述的相關章節,同時統計每個詩人的高頻詞為參考依據輔助標注工作。

2.3 標注流程及一致性控制

標注期間為保證數據集的標注質量,標注工作的整體流程分為試驗標注階段和正式標注階段兩個階段。在試驗標注階段,標注人員主要熟悉標注的規則以及流程,每位標注人員在待標注數據中隨機抽取50 條進行標注。通過本階段的標注結果,著重討論標注結果不一致的部分,討論解決方法并合理更新標注規則,當三位標注員對標注結果達到較高的一致性并且完善了標注規則之后,進入正式標注階段。

在正式標注階段,每一個詩人的大五人格評分先由一名漢語國際教育碩士生以及一名計算機技術碩士生進行標注。標注者之間的一致或意見分歧程度的大小選用Kappa 系數[12]來衡量,Kappa 系數是一種廣泛使用于衡量標注者之間評分一致性的指標。在正式標注階段,兩位標注員的Kappa 值達到了80.36%,這表明了整個數據集上評分的高度一致性,同時反映了該數據集的標注結果的可靠性。對于標注不一致的地方,由標注員共同討論并由第三位標注員進行仲裁。

2.4 標注結果分析

唐代和宋代大五人格每個維度的均值如圖2 所示。唐代的詩人們大多心系國家,充滿著想求取功名的心態,渴望建功立業,所以唐朝詩人的盡責性普遍較高。同時,唐代詩人性格豪放,隨心所欲,在人生的坎坷之路上仍能保持熱情,總體體現出較高外傾性。宋代作為中國文學歷史上的又一高峰,十分重視文治教化。在這個哲學氣氛濃厚,大多數文人為探尋真理進行思辨的社會,哲學和美學相互作用,總體體現出宋代詩人較高的開放性。另外,宋詞主題多為傷春悲秋、離愁別緒、風花雪月、兒女情長等,也體現出了宋代詩人較高的神經質性。

圖2 詩人大五人格分布均值情況Fig.2 Mean distribution of poets' Big Five personalities

本文構建的數據集有助于古代詩人的畫像構建,幫助解決詩人自然屬性識別特別是人格特質方面的問題,幫助走出傳統人文學界只針對單一詩人,單一題材或者單一詩歌風格的定性研究,同時可以用于輔助風格可控的詩歌生成,多方面地推動數字人文領域的發展。

3 主題增強的詩人大五人格預測模型

從上述數據標注過程可以看到,詩人的作品是其生平經歷、人生態度以及處世哲學的反映。詩人的不同人生階段中發表的詩歌往往是對詩人本身特性的映照。因此本文提出一個主題增強的詩人大五人格預測模型,基于多視角特征以及多任務學習方法并結合詩篇信息對詩人的大五人格特性進行建模。

如圖3 所示,模型分為三個部分,第一個部分是作者特征嵌入矩陣,用于對作者生平特征進行學習。第二個部分是利用基于預訓練語言模型的詩詞分析器抽取作者全部詩文語義特征。第三個部分為在詩歌語料庫上訓練的主題模型,用來獲得當前詩文的主題特征信息。最終三種特征向量以拼接方式進行特征融合,獨立的五個大五人格特征強度分類器會對作者的大五人格屬性特質進行預測。

圖3 主題增強的詩人大五人格預測模型Fig.3 Model of poet's Big Five personality analysis with theme enhancement

具體而言,在作者特征嵌入部分,以唐、宋兩代詩人名錄為詞表構建嵌入矩陣。此處假定作者為Ai∈VA,其中VA表示當前數據庫收錄的所有作者,包括當前數據集中收錄的作者名稱以及一個特殊符號<UNK>,該符號用于表示數據集之外的所有作者(即Out of Vocabulary情形),用于處理未經收錄的詩人的情況。即當Ai?VA時有Ai=<UNK>。此處設置一個用于學習作者特征的作者嵌入矩陣EA,其中有EA∈R|VA|×dA,即每個作者的表示向量為一個dA維的實數向量。此處本文約定EA(·)表示獲取指定作者表示向量的操作,則當前作者Vi的表示向量fA如公式(1)所示,在模型學習階段參與作者文風特征的記憶網絡進行訓練學習。

作者詩文特征抽取部分,本文采用在四庫全書數據上基礎上預訓練的語言模型“sikubert”來獲取古詩文表達的深度語義特征表示。本文將作者的所有詩文拼接為一個篇章作為作者生平的作品表示TAi。TAi為包含n個單詞的長文本,TAi=[w1,w2,…,wj,…,wn],其中文本中第個j單詞為wj。此處本文約定BERT(·)為獲取指定文本在BERT 模型下的特征向量表示。則作者的生平作品的深度語義表示特征向量fs可以通過公式(2)所示表示。在進行輸入時本文遵循Bert 模型的輸入格式,在作者作品文本上拼接<CLS>和<SEP>確保語言模型正確性,則最終輸入BERT 模型中的文本格式為。

具體而言,在拼接作者詩文進行輸入時,首先按照作者詩文發布的時間進行分桶處理,同時為了避免在使用預訓練BERT 模型處理輸入文本時的超長問題,同一個作者的不同分桶拼接的詩文總長度小于512 字符。同一作者的不同分桶輸入最終通過作者特征嵌入向量fA進行進行統一學習,確保同一作者的詩文特征學習過程的穩定。

而主題模型部分,本文首先在整個唐、宋古詩文數據語料庫上對古代詩歌文本進行主題模型的訓練。主題模型部分本文選用隱狄利克雷分布模型(LDA)作為詩歌主題特征的獲取方式,此處預訓練的模型記為LDAp,簡化的主題模型可以視為一個輸入文本到主題特征的映射函數LDAP(TAi),因此可以得知針對古代詩歌作者分析時,作者生平作品的主題特征表示向量可通過公式(3)得到:

其中fT∈R1×dT,即dT表示當前對作者詩文主題分析時的主題數目,fT涵蓋了作者生平所有詩文的總體主題特征,對應在dT維的主題空間上。最后,在特征融合階段本文使用谷歌提出Wide&Deep 方法,將三種視角的特征進行拼接作為作者人格特質預測的多視角融合的特征向量:

針對五種人格特質,采用5 個獨立的分類層來預測人格特質的5 個等級,此處約定分類權重矩陣We,Wo,Wa,Wn,Wc,分別表示外傾性、開放性、宜人性、神經質以及盡責性五種人格特質的分類權重。均有W∈Rdf×5,其中df=|fbig5|,即用于人格特質預測的特征向量的維度。而上文提到,本文將5 種人格特質劃分為5 個等級進行預測以更細粒度方式對詩人人格特質進行建模,因此權重W的第二維度對應為5 作為分類輸出等級,則如公式5 所示,假定當前人格特質預測目標為yp,其對應的分類權重為Wp∈{We,Wo,Wa,Wn,Wc},則在此基礎上結合Softmax 非線性映射對結果進行變換可以得到最終人格特質的5 個等級預測概率。

而訓練階段,本文使用交叉熵損失函數進行人格特征等級的監督學習,每個人格特質分別使用交叉熵函數對當前特質繼續訓練,如公式6 所示:

可以看到,在進行人格特質預測時本文使用同樣的特征向量fbig5,搭配不同的分類權重參數對相應的人格特質進行預測。5 種人格特質預測任務之間的訓練和預測過程相互獨立。但詩人的5 種人格特質相互之間存在著一定的約束和影響,因此單一地進行模型訓練是不可取的。因此在最終的人格特質預測訓練過程中本文引入了多任務學習方法。本文在分析大量詩歌文本基礎上,對詩人不同人格特質在詩歌體裁的文學作品中的體現程度進行了加權劃分,結合這樣的權重,本文對5 種人格特質的預測損失函數進行了融合,得到最終的綜合人格特質損失lbig5,最終的損失函數如公式7 所示:

4 實驗效果

4.1 評價指標

詩人大五人格數據集強度等級分為依次遞進的5 個類別,因此評價指標方面本文使用準確度(Accuracy)作為模型預測效果的評估方法。此處假定樣本總量為N,針對五種人格特質中任一特質進行預測時正確預測等級的數目分別為:C1,C2,C3,C4和C5,分別對應一個人格特質中預測正確的樣本數目。則準確度分數計算方式如公式8 所示:

4.2 基線模型和實驗設置

本文使用SIKU-BERT①https://github.com/hsc748NLP/SikuBERT-for-digital-humanities-and-classical-Chinese-information-processing作為預訓練語言模型,該模型對于古文語料有著更好的理解和表示能力。主題向量通過gensim 庫中的LDA 模型工具包進行生成。本實驗設置訓練集和測試集的比例為8∶2。對比實驗部分,本文選取國內外大五人格特質預測分析研究的相關工作,由于部分工作尚未進行開源,因此本文根據論文對方法的描述對其實驗方案進行了復現,并在本文提出的數據集上進行實驗,以驗證本文方案的合理性。

機器學習模型部分,本文選用Ramon 等[17]的實驗方案作為基礎的基線實驗進行結果對比。其方案在數據采集基礎上構建了文本的特征表示,并在此基礎上結合線性回歸、邏輯回歸和決策樹模型進行人格特質分類的研究。Rudi 等[18]基于支持向量機模型構建了人格特質分類模型,此處本文同樣基于這一模型復現進行結果對比。Michael 等[8]基于梯度提升決策樹模型,研究大五人格特質分類問題,在myPersonality 數據集上達到了最優的效果。而深度模型方面,Ren 等[19]構建基于文本特征,結合卷積網絡和循環網絡構建分類模型研究人格特質預測任務,此處本文復現了作者的方法,并在本文提出的數據集上進行了測試。此外,為了對比的公平,本文去除復雜的神經網絡特征學習結構,使用詞向量平均以及多層感知機方式構建作者詩文的特征表示。

機器學習模型部分參照現有研究選用詞頻-逆文檔頻率(tf-idf)作為模型輸入特征[20],針對每個人格維度獨立訓練模型進行學習。深度模型部分本文使用預訓練模型的分詞器對古詩文進行分詞并使用相同的詞嵌入向量獲取詩文的表示特征,以便于對比的公平。主題向量會與模型抽取得到的特征向量拼接,之后針對不同的人格維度通過線性層進行分類。

深度學習模型分詞器和詞嵌入向量部分與siku-bert 模型保持一致,本文從預訓練的語言模型中抽取了已經訓練好的詞向量特征,并使用相同的分詞器對詩文進行分詞。深度學習模型訓練優化器使用AdamW,學習率保持在1×10-4,使用混合精度訓練保證訓練效率和顯存占用的均衡。深度模型的多任務學習過程與本文提出模型保持一致,損失融合部分不同人格維度的權重設置通過本文實驗驗證。

在權重選擇部分,本文將交叉驗證策略與隨機搜索(random search)策略相結合。模型驗證時,本文使用五折交叉驗證方法對模型進行驗證評估。數據集劃分中相應將訓練集等分為五份,分別訓練模型并交叉驗證。并在選擇達到最好結果的模型在測試集數據上進行測試以評估最優模型。在交叉驗證階段,本文使用網格搜索對五項人格特質權重進行選擇,權重范圍限制為0~1,權重步長為0.1。在五項人格特質權重組合中,每次訓練隨機使用一種組合進行模型訓練效果的驗證。最終得到外傾、開放、宜人、神經質、盡責分別采用0.2、0.2、0.3、0.1、0.2 時能夠得到最穩定的訓練結果。

4.3 詩歌主題模型分析

詩歌主題對于詩人情感傾向分析十分重要,本文提出主題增強的詩人大五人格預測模型以及對比模型中均對主題特征向量的重要性進行了分析。因此本文針對主題數目這一參數進行分析。在整個詩歌語料庫上結合LDA 模型構建主題模型,使用UMass 指標[21]計算共現分數如公式9、10 所示:

其中,V是一組主題詞,?表示平滑因子。D(x,y)統計包含單詞x和y的文檔數量,D(x)統計包含x的文檔數量。并設置10~500 的不同主題數目,實驗結果如圖4 所示,可以看到當主題數目為50 時能夠取得最好的共現分數指標,因此本文在構建模型過程中使用50 作為主題數目參數。

圖4 主題模型不同主題數共現分數Fig.4 Number of scores for different topics

4.4 實驗結果與分析

機器學習模型部分的實驗結果如圖5 所示,其中柱狀圖部分為不同機器學習模型對于5 種人格特質的預測結果。背景的陰影堆積面積高度表示當前模型和特征結合預測結果的平均值情況,圖中左側縱軸對應柱狀圖數值,右側縱軸對應折線圖數值。從圖5 中平均值的面積堆積圖可以看到,從左向右整體趨勢表現出向上增長特性,說明詩文的主題特征向量對于詩人人格特質建模有著重要影響。

圖5 機器學習基線模型結果Fig.5 Machine learning baseline model results

深度學習基線模型結果如圖6 所示,對比可以看出,相比于傳統tf-idf 抽取的文本稀疏編碼特征向量,預訓練模型中獲取的稠密向量在文本語義編碼效果上效果更好。整體來看卷積神經網絡在深度語義建模方面效果相對更好,而循環神經網絡相對較差。原因在于在構建作者粒度的詩文向量表示時,直接使用了文本詞向量的平均池化結果作為特征,對于詩文的順序結構有所破壞。未來可以針對這一問題進行進一步的探究。最后整體來看深度學習基線模型的平均結果的分數情況,隨著LDA 特征的加入,模型對于人格特質預測的結果會有較大的提升。

圖6 深度學習基線模型結果Fig.6 Deep learning baseline model results

本文提出的主題增強的詩人大五人格預測模型表現結果如表3 所示。表3 匯總了對比的基線模型與本文提出模型的全部平均結果,可以直觀看出,詩人所有詩文的主題特征向量被加入時,模型對于其大五人格特質的預測能力會相應地提高,表明提取詩歌主題作為特征加入模型對預測詩人人格特質任務的重要性。

表3 大五人格預測模型表現結果Table 3 The performances of the Big Five personalities prediction model

最后,如圖7 所示,本文進行了模型結構的消融實驗。圖中文本方法表示僅使用siku-bert作為詩文深度語義表示的抽取器,預訓練模型本身參數不參與微調,僅微調人格特質分類層參數,作為預訓練模型在本文數據集上的基線模型結果。

圖7 模型消融實驗結果Fig.7 Results of ablation study

而文本+LDA 方法與深度模型基線實驗設置一致,獲取到文本特征之后與主題特征拼接再進行人格特質預測。文本+作者則是結合作者表示向量作為預測特征。最后為本文完整模型,即融合了多視角特征和多任務學習方法的主題增強詩人大五人格預測模型??梢钥吹?,結合主題特征的確能夠對詩人人格特質預測產生貢獻。而單純加入作者特征嵌入特征時,模型在建模預測時表現出不穩定的情況。當融合三種視角特征時,模型取得綜合最優效果。

4.5 案例分析

在本文針對詩人具體形象進行分析時,選取了唐代詩人李白和宋代詩人王安禮,結合其詩文文本內容和大五人格維度分數,對其人格特質和創作主題進行畫像建模。

圖8 對宋代詩人王安禮的作者形象進行了描繪。從作者的詩文主題詞云可以看出,詩歌以贈答友人詩居多,體現出較高的外傾性。通過模型給出的大五人格預測分數得以看出,雖王安禮生平遭多人彈劾,但在外傾性方面仍表現出很高的特質分數,憂國憂民的鐵骨柔情也反映出高的宜人性。這為研究王安禮的生平提供了全新的視角。

圖8 宋代詩人王安禮詩人畫像Fig.8 Wang Anli's persona

從圖9 詩人作品主題詞云可以看出,其作品大多抒懷壯志,誦清風明月,徜徉天地和美酒。體現出詩人豪放不羈恣意灑脫的情懷。在大五人格預測分數方面也進一步體現了其較高的外傾和宜人特性。

圖9 唐代詩人李白詩人畫像Fig.9 Li Bai's persona

在古代詩人大五人格分析工具基礎上,本文能夠更加細致地構建古代詩人的人格特質形象,為進一步窺探作者生平,分析作者隱式情感特性提供了新的思路與工具。

5 結論

大五人格是分析建模人格特質的有力工具,本文結合大五人格特質理論,面向中國古代詩人群體基于詩歌作品構建其大五人格特質畫像。本文首先收集了唐宋兩朝詩人作品,通過數據整理后邀請相關專業人員進行詩人大五人格特質的標注。其次,本文在標注數據上實現了常見的機器學習和深度學習預測方法,對數據集的質量進行全面評估。最后,本文重點針對詩歌主題對于詩人人格特質預測影響進行了研究,并以此提出主題增強的大五人格預測模型。

本文研究表明,詩人生平所譜寫作品的主題是詩人性格各方面的良好映照。與當代人格分析,尤其是基于社交網絡技術的人格特質分析的相關工作相對比可以看到,古代詩人的人格特質更為直白和外顯,詩人不同時期的作品往往直接反映著其思想形態和情緒波動等特性。詩人所采用的借物喻情等寫作手法特征也能夠直接通過深度語義理解的方式進行捕獲。而相比之下,當前人格分析研究面臨的情感、態度以及觀點的隱式表述問題更為突出,需要結合深度語義模型以及相關語料庫進行更進一步進行分析。

猜你喜歡
人格特質人格詩人
人格特質對企業員工時間侵占行為的影響
共產黨人的人格力量
遠去的平凡背影,光輝的偉大人格
選擇一張神奇的行為藝術照片,秒測你的真實人格特質
曬娃還要看詩人
我理解的好詩人
詩人貓
論君子人格的養成
人格特質對抑制表現的預測研究
人格特質與腦外傷偏癱患者殘障接受度的相關性研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合