?

基于Python的豆瓣金融類圖書數據分析

2021-09-06 01:20揚州大學社會發展學院馬夢燁華中師范大學信息管理學院王涵
辦公室業務 2021年15期
關鍵詞:類圖書可視化書籍

文/揚州大學社會發展學院 馬夢燁;華中師范大學信息管理學院 王涵

豆瓣是目前網上對于圖書信息收錄最全的網站,圖書評論都直接由用戶提供(User-generated content,UGC),用戶對圖書的記錄是:評分、貼標簽、寫短評等等。豆瓣的圖書評分可以最直觀地幫助用戶進行圖書挑選,但由于用戶愛好不同、傾向不同,評分仍會帶有一部分主觀因素,不能做到絕對客觀。因此,本文提出基于Python的數據可視化分析研究方法,對標簽為“金融”的豆瓣圖書進行了更深入的分析,為讀者和用戶如何選取金融類圖書提供指導和建議。

一、研究框架

本文對豆瓣金融類圖書的研究框架如圖1所示。首先,用Python抓取網頁源代碼并獲得包含書名、作者、出版社等各個網頁元素的數據。其次,將所抓取的圖書數據進行處理和分析,并進行格式化存儲,以便于后續的可視化展示。接著對數值數據和文本數據進行預處理操作,包括異常值處理、數據清洗、缺失數據補齊等。最后進行數據分析,利用Python做詞云圖、用Excel透視表繪制散點圖、條形圖等直觀的展示圖書各要素之間的關系,評估結果并得出結論。

圖1 研究框架

二、數據分析

本文對Python抓取到的1000本豆瓣金融類圖書信息進行了出版社詞云可視化分析、評分可視化分析、評價人數和評分可視化分析。

(一)出版社詞云可視化分析。使用Python中的Wordcloud模塊,對1000本金融類圖書的出版社進行分析并生成詞云圖。從圖中可以看出,出版社這個詞出現的頻率最高,這是因為大部分出版社的后綴都是出版社,但也有部分后綴如出版公司、商務印書館等,因而并未對出版社此后綴做統一處理。拋開此頻率最高的詞,其余頻率前三的出版社自動加上后綴名,分別為機械工業出版社193本、中信出版社189本和中國人民大學出版社77本,說明國內外學者們尤其是國外學者對這三個出版社的青睞度最高。

(二)評分可視化分析。對1000本金融類圖書評分數據進行分析,得出評分最高的5本金融類圖書,通過Excel繪制條形圖。評分最高的5本金融類圖書分別為:應用公司財務、投資者養成指南(一)、金融隨機分析(共2冊)、證券法學(第四版)和投資者文摘,評分分別為9.9分、9.8分、9.7分、9.7分和9.7分。

(三)評價人數和評分可視化分析。對1000本金融類圖書評價人數的數據進行整理,通過Excel繪制散點圖。由圖中可以發現,絕大部分金融類圖書的評價人數都集中在0-5000人這個區間內,其中評價人數前五的書籍為:貨幣戰爭、原則、經濟學原理(上下)、思考快與慢和偉大的博弈,評價人數分別為43853人、24112人、16539人、14531人和12409人,評分分別為7.2分、8.3分、9.1分、8.1分和8.3分。

同時又對1000本金融類圖書中評分大于等于9.0以上的評價人數的數據進行整理,通過Excel繪制散點圖。由圖中看出,絕大部分評分大于等于9.0以上的評價人數都集中在0-4000人這個區間內,其中評價人數前五的書籍為:經濟學原理(上下)、經濟學原理、經濟學原理(第7版)、期貨市場技術分析和彼得·林奇的成功投資,評價人數分別為16539人、10259人、2926人、2398人和2029人。

將兩張圖對比可以發現,評價人數前五的書籍評分都不高,僅有一本書的評分大于9.0分。其中評價人數最多的書籍是貨幣戰爭,但其評分只有7.2分;評分前五的書籍評論人數也不多,僅有經濟學原理(上下)這本書處在評論人數前五的書籍中。由此得出評論人數多的評分不一定高,評分高的評論人數不一定高,評論人數和評分之間的相關性較弱。

(四)評分和出版年份可視化分析。對1000本金融類圖書評價人數的數據進行整理,通過Excel繪制散點圖。評分大于等于9.0以上的書籍出版年份集中在2005年以后,且評分大多集中在9.0分和9.1分,評分為9.7分及以上的書籍較少。進一步分析猜測評分大于等于9.0分以上的這些書籍可能是由于出版年份較晚,閱讀和評論人數較少。而一本書的總體評分受每個評分人給出的評分和評論人數的影響,可能是少部分的評論人數均給出較高的評分,因而評分大于等于9.0分以上的書籍并不代表書的熱度高和受歡迎程度高,這兩者之間的相關性較弱。

三、結論

統計學和圖書館學等傳統研究方法并不能深層次地挖掘圖書信息的潛在規律。本文基于Python語言從豆瓣讀書頁面中獲取金融類圖書相關數據,并對其進行可視化分析,得出以下結論:

圖書出版社詞云分析得出,機械工業出版社、中信出版社和中國人民大學出版社是出版金融類圖書最多的三個出版社,說明讀者對這三個出版社的青睞度最高。在選擇圖書出版社時,可優先將自己的作品交給這三個出版社進行出版發行,同時,圖書館、書店等在采購金融類圖書時也可優先關注這三個出版社的信息。

圖書評分分析得出,評分最高的5本金融類圖書分別為:應用公司財務、投資者養成指南(一)、金融隨機分析(共2冊)、證券法學(第四版)和投資者文摘,這對有意學習金融知識的人來說,具有很好的參考作用,在閱讀金融類圖書時可以更優先考慮評分最高的金融類書籍。

圖書評價人數和評分分析得出,評價人數前五的書籍評分都不高,僅有一本書的評分大于9.0分。其中評價人數最多的書籍是貨幣戰爭,但其評分只有7.2分;評分前五的書籍評論人數也不多,僅有經濟學原理(上下)這本書處在評論人數前五的書籍中。由此可見評論人數和評分之間的相關性較弱,因而在選擇金融類圖書時,不能夠由評分人數的多少判定圖書的好評度,也不能由評分的高低來判斷圖書的熱度。

評分和出版年份分析得出,評分大于等于9.0以上的書籍出版年份集中在2005年以后,且評分大多集中在9.0分和9.1分,評分為9.7分及以上的書籍較少。進一步分析猜測評分大于等于9.0分以上的這些書籍可能是由于出版年份較晚,閱讀和評論人數較少。而一本書的總體評分受每個評分人給出的評分和評論人數的影響,可能是少部分的評論人數均給出較高的評分,因而評分大于等于9.0分以上的書籍并不代表書的熱度高和受歡迎程度高。由此可見這兩者之間的相關性較弱,因而在選擇金融類圖書時,不能只根據評分來判定圖書的熱度和受歡迎程度,還需要考慮出版年份、評論人數等多重因素。

四、結語

綜上,本文基于Python和Excel透視表對豆瓣金融類圖書信息進行了深入的分析,在用戶對金融類圖書的選擇上給出了更好的建議,同時也給圖書館、書店等采購金融類圖書提供了建設性意見。但本文在數據預處理部分考慮的并不充分,此外本次研究選擇的僅是對豆瓣金融類圖書進行分析,并未對更多標簽下的圖書信息進行分析,具有一定的局限性。

猜你喜歡
類圖書可視化書籍
自然資源可視化決策系統
中國書籍享譽海外
Chinese books find an audience overseas中國書籍享譽海外
思維可視化
大數據背景下如何開創科技類圖書的新板塊
誰是2019美國圖書市場最大黑馬?
復變函數級數展開的可視化實驗教學
復變函數級數展開的可視化實驗教學
復變函數共形映射的可視化實驗教學
復變函數共形映射的可視化實驗教學
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合