?

基于因果發現的智慧圖書館兒童分級閱讀智能薦書研究

2023-02-24 00:46吳鑫宇
廣西教育學院學報 2023年4期
關鍵詞:書籍分級變量

吳鑫宇

(廣西工商職業技術學院,廣西 南寧 530008)

分級閱讀的理念由西方的學者提出,經過不斷研究后,成為指導閱讀出版和閱讀教育的重要工具。受發育規律影響,在兒童成長的不同階段,兒童的認知能力、語言水平與閱讀能力都不盡相同,其心理發育具有明顯的年齡特征,閱讀層次也存在明顯的差異性。一些醫學生不愿意成為兒科醫生,其原因很大一部分在于兒童無法準確地表達自己的感受,無法直觀地解釋自己的想法,最終導致問診困難,難以對癥下藥。同理,在面對家長與館員的提問時,兒童也難以表達出某本書自己能不能看懂,是不是真的適合自己。館員也常常對此感到困惑,無法給出標準答案,因此在平時的工作中,館員大多是憑自己的經驗為兒童選擇閱讀的文本。如此行為不利于兒童的閱讀與成長,因此,進行兒童分級閱讀的研究勢在必行。

一、研究背景

(一)大數據

目前,學界對大數據的研究已經十分成熟,各行各業都開始應用大數據技術為其服務,然而大數據的定義卻一直沒有一個統一標準。大數據是一種數據量巨大,數據類別繁多,無法在短時間內通過常規工具來捕捉、管理與處理的特殊的數據集,也是一種需要強洞察力、強決策力、高流程優化能力的處理模式來處理的海量、高增長率與多樣化的新型信息資產[1]。大數據的特點主要是數據海量,數據類型繁多,處理速度快與價值密度低[2]。目前,大數據已經廣泛應用在各個領域各個學科,諸如因果發現等許多技術都需要大數據進行支撐,因此,將大數據引入兒童分級研究相當有必要。

(二)因果發現技術

近年來,因果發現算法在人工智能、機器學習等領域得到越來越多研究者的關注,并在神經科學、經濟學、基因組學等領域得到了廣泛的應用[3]。其通過觀察一項事物,觀測其變量或是對其中某些變量進行干預,從而發現其中的因果關系,獲得結論。傳統的機器學習方法僅對已觀察到的數據進行數據整理與因果推斷,僅僅找出了變量間的相互關系,得到的結果也只是已觀察過情況的總結。當一個未觀察過的情況出現時,該方法便無法準確得出結論。而因果發現技術則可以在已觀測數據與少量甚至未干預過的數據中發現其變量之間的因果關系,推測出未觀測過的情況,推斷出其結果變量的情況。這種學習方法有著很強的泛化能力,能夠游刃有余地應對真實世界中各種復雜的場景,在各個學科中有廣泛的應用前景。該技術在外國已經有較為成熟的研究,但在國內并未得到應有的重視。

目前,因果發現技術已經在生物信息學、神經科學與遺傳學等領域得到廣泛應用。例如,通過建立基因庫與病人的案例,研究人員可以通過因果發現來找到基因中存在某些突變的患者在服用蒽環類藥物時會導致蒽環類藥物心臟毒性[4]。還有研究者使用該技術通過觀測患者大腦區域間的變化來研究患者腦部疾病的影響與恢復情況的關系,通過觀察癌癥患者體內的體細胞基因改變與差異表達來發現導致腫瘤產生的基因之間特定的因果關系[5]等。

(三)兒童分級閱讀

“閱讀分級”指的是讀者可以根據自身的閱讀能力而選擇不同難度等級的讀物。閱讀分級在歐美國家被廣泛接受,成為一種行之有效的閱讀教學和閱讀出版的指導工具,并在中國香港、臺灣地區也得到普遍認可。歐美分級閱讀已經產生了一系列意義深遠的閱讀分級標準,如A—Z 分級法、Lexile 分級系統等[6]。分級閱讀作為課堂閱讀教學和課外閱讀延伸,對兒童閱讀起到極大推動作用。兒童處在生理與心理快速發育的重要階段,閱讀動機與閱讀性質不盡相同,不同年齡、性別間知識結構亦存在差別,甚至不同家庭和地區的兒童閱讀水平也有明顯差異[7]。因此,將分級閱讀引入兒童閱讀是非常有必要的。

目前,我國已經對兒童的分級閱讀有了較為成熟的分類體系,根據兒童不同時期的心理特點設立了不同的推薦閱讀書目,其評價標準有身體與動作發展,認知與智力發展,語言發展,情緒、人格與社會發展等。如接力出版社發布的《中國兒童分級閱讀參考書目》和《兒童心智發展與分級閱讀建議》將兒童分級閱讀年齡的分層主要為:0~4 歲,4~6 歲,7~8 歲,9~10 歲,11~12 歲[8]。0~4 歲的兒童注意力短暫,但可以認知基本物體與概念,因此推薦閱讀《小酷和小瑪的認知繪本》《嬰兒游戲繪本》。其語言發展特征主要為喜歡運用聲音玩游戲、開始學習基本的詞匯與語法,建立語言基礎,因此推薦閱讀《噼里啪啦系列叢書》《我爸爸》等??梢钥闯?,不同年齡的兒童閱讀能力是存在差異的,分級閱讀向兒童閱讀提供了循序漸進的上升臺階,為家長與館員指導兒童閱讀提供了有效標準[9]。

二、兒童分級閱讀智能薦書目標下的因果發現結構模型

(一)數據的采集與整理

大數據能對人類的科學研究范式產生翻天覆地的影響,圖書館并不缺乏大數據,并且圖書館也應重視大數據的收集工作,并為之所用[10]。數據的采集與整理是該模型的最初階段。數據采集指圖書館通過各種形式收集讀者的各種資料,作為大數據對后面的分析工作做前期鋪墊并經過關聯和聚合后,采用統一的結構來存儲此類數據,采集渠道可以通過讀者讀書證、會員卡、讀者圖書館網站賬號信息、問卷調查等進行收集,整理成各種所需數據錄入數據庫,以供進一步數據分析。圖書館應向讀者承諾所收集到的個人隱私完全保密,絕不對外公開。圖書館可根據算法分析所需的條件向讀者獲取各種必須分析的信息,包括讀者的姓名、年齡、借書記錄、愛好、性別、所處地區等。

讀者的姓名可以作為收集數據的小數據集頭標,起到區分不同數據的作用。讀者年齡是兒童分級閱讀的關鍵數據,用以區分不同年齡段的讀者。借書記錄則是通過讀者的閱讀習慣與喜好,向讀者提供更加精準的書籍推薦服務。

讀者的愛好、性別、所處地區則是圖書館用以更加精準地進行讀者畫像的方式。不同性別、不同地區的讀者其閱讀意愿是有所不同的[11]。由于地區之間存在經濟、地理條件等差異,不同地區的人有可能會導致各個區域的分析產生差異化的結果[12]。例如我國東北、新疆、內蒙古等地區的人大多直爽豪邁,受地區的社會背景影響,很有可能導致其喜歡閱讀的書籍有所不同,因此讀者所處的地區也可以作為分析的標準之一。

數據整理指的是圖書館對收集來的數據進行匯總后清洗,將其中多余的假數據、空數據去除,并把有效數據篩選出來[13],保證數據的可靠性,之后進行整理,按照事先所預設的標準,將各項數據,分別分成一個個節點,并經過關聯和聚合后采用統一的結構來存儲此類數據。

在進行圖書推薦時,館員常常與少兒的父母溝通,以了解少兒的偏向書籍與興趣愛好,以準確快速地為他們查找與推薦相關方面的書籍,增強少兒快樂閱讀的體驗[14]。但值得注意的是,由于兒童在書籍的選擇上缺乏主動性,兒童閱讀書籍的選擇一般都受到家長與館員嚴重的干擾。因此,在數據的收集階段,館員必須提醒前來圖書館借書的家長充分尊重兒童的閱讀意愿,必要時,館員可以通過引導式的提問向兒童讀者進行詢問,推測出兒童最有可能想要閱讀的書籍,并進行推薦。

(二)數據分析

數據分析是因果發現工作中最核心的部分,指的是挖掘數據之間隱藏的聯系。圖書館數據庫能夠采集到大量的信息,而這些信息是未經加工過、雜亂無章的信息,因此便需要進行數據分析。目的不同,數據分析使用的技術也會存在差別,目前數據分析常用的技術有云計算、傳感技術等。

1.已采集到數據的數據特點

(1)無向性:所獲取的數據形成的節點并無固定方向,其父屬性可以變成子屬性,子屬性也可以成為父屬性,且一對成父子屬性的節點可以互為父子屬性,即互為因果關系。即在該模型中,研究人員可以通過讀者的年齡、借書記錄等各種信息推算出讀者最有可能需要借閱的圖書,以達到智能薦書的目的,也可以通過某書籍被某個年齡的兒童借閱次數較多,從而推斷出該書籍適合某個年齡段的讀者閱讀,以達到促進分級閱讀的目的。

(2)無時序性:所獲取的數據不受時間順序的影響,即數據的獲取時間不影響因果聯系的發生。即讀者在某個時間段借了某本書,并不會對該讀者現在想要借某本書產生結果上的影響。因此所收集的數據存在時間上的差異并不會對程序運算的結果產生影響。

(3)節點相互獨立:指某個節點的產生并不會對其他節點造成影響,也不會對其他單個父-子的因果聯系造成影響。例如,讀者姓名的不同并不會對其年齡與借書記錄產生任何影響,也不會對程序運算的結果產生影響。因此,不同數據集中的節點是相互獨立的,不會對其他平行鏈條上的父-子節點產生任何影響。

2.采集數據對貝葉斯網絡的影響

貝葉斯網絡(Bayesian Networks)用以表示變量集合的連接概率分布,其由一個有向無環圖和條件概率組成。它提供了一種自然的表示因果信息的方法,貝葉斯網絡本身各結點是獨立計算的,并沒有輸入和輸出的概念,所以貝葉斯網絡的學習可以自上而下進行推理,也可以從下級結點反過來推理上級結點[15],與采集數據的特點一致。在這個因果貝葉斯網絡中的各個變量是網絡中的一個個節點,節點間線段相連,并存在條件概率值。該線段表示變量關聯,概率表示關聯性的大小。

以下是貝葉斯網絡的數學定義。如表示一個在一個有向無環圖中,設G=(X,A),X 為節點集合,A 為節點直接依賴關系,aij 表示Xi 與Xj 之間的有向連接,Xi←Xj;Θ 是網絡參數貝葉斯網絡所表示的所有節點的聯合概率就可以表示為各節點條件概率的乘積。

其中當i ?。?,2,…,n)時,π(Xi)表示Xi 的父節點集。網絡結構G 確定后,節點間的相關關系也隨之確定。此后,結合網絡參數Θ,貝葉斯網絡就可以準確地推理出節點X 的聯合概率分布。并且,如果節點間存在條件獨立的性質,貝葉斯網絡的計算效率將比其他計算聯合概率的方法高得多[16]。

根據本模型收集數據的特點可知,最終建立的模型為無向圖,只含無向邊的圖稱為無向圖。無向邊一般表示對稱關系,比如隨機變量間的相關關系。如在無向圖g=(V,E)中,X、Y、Z是V 的三個互不相交的子集,X、Y 不是空集,若從X 到Y 的每條路徑都經過Z 中的點,則稱X和Y 被Z 分離,記為X⊥Y|Z,并且稱Z 是X 和Y的分離集。因此從{me}到{an}的每條路徑都經過集合{al},因此{me}⊥{an}|{al}。DAG 是指只含有向邊且不含有向環的圖,其中的有向邊一般表示時序或者因果等非對稱關系,可用來推斷因果關系。因為DAG 模型蘊涵的信息豐富,近幾年來頗受關注,尤其是在人工智能領域[17]。

由于不同數據的特性存在差異性,其因果發現的方法也應存在不同。其可以分為基于時序與非時序的觀察數據的因果關系發現方法兩種。據上文所述,本項研究的對象同樣是具有非時序性的?;诜菚r序觀察數據的因果關系發現如下:給定p維變量集V={v1,v2,…,vp}上的m組非時序觀察數據X={x1,x2,…,xm},發現變量{v1,v2,…,vp} 間的因果關系[18][19]。目前,非時序觀察數據的因果關系也是領域內的研究熱點,具有更廣的適用范圍。

3.“大P大數據”與“大N大數據”

隨著技術的進步,為了對大數據進行形象化的研究,“大N 大數據”和“大P 大數據”的概念被提了出來。如設大數據為一矩陣,N 為觀測個數,P 為變量個數,便可細分出以上兩種大數據。當觀測目標數量大于變量時,此數據類型被稱為“大N大數據”。該類數據能提升推斷精度,但觀測個數的多少會對結果產生很大的影響。當個數過大或過小時,其得出的推算結果往往會偏離。因此,僅僅使用“大N 大數據”技術是難以展開因果推斷的。而“大P 大數據”的P 指的是某個指定的研究對象中所有的信息,P 即對象本身。在大P 數據集中,單個個體的所有信息都能包含在內,例如用戶的家庭背景、社會背景、個人行為偏好等。因此,相較于其他數據集,“大P 大數據”可增加更多變量,提供更多信息,推理更加有效。實驗中盡管變量的具體有可能少于觀測個數,但卻已經包含了指定觀測對象的全部信息,使得實驗進行的推斷更加全面與準確[20]。

值得注意的是,當利用“大P 大數據”進行因果推斷時,其中的變量必須不低于外生可能性的所有變量,即對結果可能產生影響的除了處理后變量的所有變量,這是利用“大P 大數據”進行因果推斷有效的前提。因此使用“大P 大數據”時,需要研究對象相關的理論進行細致的研究,以設置科學的變量,保證使得變量的范圍能夠包涵單個研究對象足量的信息[21]。

(三)數據解釋及可視化

在大數據時代,傳統的分析方法往往難以處理龐大且復雜的數據關系,因此需要利用可視化技術來輔助研究。圖形化的數據相較于抽象的文字是更加具體與形象的,復雜的多維數據關系與深層的原因與現象都能夠直觀、簡化地呈現出來,減少了科研人員的工作量,并且在數據結果的理解上,能使科研人員與用戶更直觀地閱讀與接受。

四、因果發現模型在智慧圖書館兒童分級閱讀智能薦書的應用

1.通過因果推斷的兒童閱讀智能書籍推薦

某項研究中的各個屬性之間通常有一定的因果關系。如太陽的周期活動很可能導致了某地的洪水泛濫,因此研究人員可以采用圖模型的形式對這種屬性之間因果關系進行表達。圖模型可以包括兩部分內容,即定性描述與定量描述兩種。定性描述指的是描述屬性之間相互關系的結構,而定量描述指的是描述該屬性與其父親屬性的相關程度的參數。當圖中各屬性的連線是有向弧并且結構中沒有環時,該圖模型稱為DAG(directed acyclic graph),有時也稱為因果模型(causal models)。因果模型不僅能表現出不同屬性之間的因果聯系,還是進行概率推理的有效工具[22]??梢钥闯?,通過因果發現算法圖書館能夠計算出某本書適合某位兒童讀者的概率,圖書館員可以根據運算出來的概率結果,向讀者推薦有可能最適合該讀者的書籍,以達到智能薦書的效果,更好地服務讀者。該算法通過大數據及節點間的因果聯系進行順推,根據讀者提供的不同信息,如性別、年齡、偏好等,結合其歷史借閱情況,推斷出不同年齡段不同偏好的兒童最有可能借閱的圖書,便可以進行書籍的智能推薦。

如該讀者是第一次使用圖書館,所需信息較少,即前文所述的“大N 大數據”,難以進行準確的因果推斷,則根據其僅有的條件進行大數據推斷,即如僅有信息“性別(男)”,則對整個男性兒童讀者進行統計,向其推薦整個男性兒童讀者借閱率最高的書籍。

2.大數據在智慧圖書館兒童分級閱讀的因果發現

同心理過程相比,人工智能算法是具有更高規范性的。對于所有因果發現算法,機器學習研究者都在演繹推斷的嚴格意義上證明了它們在正確的輸入下能夠輸出正確的結果[23]。因此,通過因果發現這類人工智能算法來對兒童閱讀書籍進行分級更規范,更準確。兒童分級閱讀智能薦書模型是基于大數據及節點間的因果聯系進行逆推,在保證兒童借書選擇最大程度的主動性上,對不同年齡兒童最受歡迎的圖書情況進行分析,在其中還可以加上各圖書作者、書商對圖書的評價情況與專家對各圖書的評價等作為標準,以增加分級因果推斷的準確性,綜合推斷出不同年齡段的兒童所適合閱讀的書籍,以達到兒童書籍分級的目的,促進我國兒童分級閱讀事業的發展。

四、結論

因果發現是一種準確有效的人工智能概率算法。圖書館可以運用該算法建立智慧圖書館兒童分級閱讀智能薦書模型,將圖書館日常工作中所收集的讀者數據作為大數據輸入模型,通過概率運算,可以得出兒童讀者最有可能想要閱讀的書籍是哪本、哪本書適合該讀者的概率最大。并且,通過大數據計算,還可以對兒童圖書的分級進行計算,分析出各個年齡段兒童所適合閱讀的書籍,促進我國兒童分級閱讀事業的發展。

猜你喜歡
書籍分級變量
魯迅與“書籍代購”
抓住不變量解題
也談分離變量
AOS在書籍編寫的應用
書籍
分級診療路難行?
分級診療的“分”與“整”
書籍是如何改變我們的
分級診療的強、引、合
“水到渠成”的分級診療
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合