?

邁向可信學習分析:報告解析、結構模型與未來生態
——2023年學習分析與知識國際會議評述

2023-12-27 11:06吳永和郭勝男許秋璇
現代遠距離教育 2023年5期
關鍵詞:分析模型教育

吳永和,錢 雨,郭勝男,許秋璇

(1.華東師范大學,上海 200062;2.上海熙育信息科技有限公司,上海 200062)

一、引言

2023年3月13日至17日,學習分析研究協會(Society for Learning Analytics Research, 簡稱SoLAR)在美國德克薩斯州舉辦了第十三屆學習分析與知識國際會議(The Thirteenth International Conference on Learning Analytics &Knowledge,簡稱LAK23),該會議以線上和線下相結合方式舉行,邀請了來自學習分析、教育數據挖掘、學習科學、教育技術和其他相關學科領域的297名研究專家,共同探討學習分析領域的前沿研究。此次會議的主題為“邁向可信學習分析” (Toward Trustworthy Learning Analytics),從學習分析的設計、實施和評估等多個階段討論偏見、隱私、道德、透明度和問責制等問題,旨在保護學習者的隱私、尊重學習者的自主性和多樣性發展等。

學習分析旨在通過挖掘和分析教育數據提高教育質量和優化教育決策,是推動教育數字化轉型的核心力量。然而,隨著學習分析在教育中的成熟度增加,收集和使用學生數據表現出極大的安全隱患,甚至被控訴為一種監控和潛在的隱私侵犯,其在主要應用場景中的倫理風險逐漸暴露?!?022地平線報告:教與學版》也對學習分析有效性提出了質疑,并指出了學習分析中的倫理、算法偏差、不公平等問題[1]。由此可見,當前學習分析的可信度較低,嚴重影響了其在實踐應用中的持續推進與采納,也難以避免地給教育數字化轉型造成負面效果。因此,本文通過系統梳理和分析LAK23會議的主要報告和研討內容,洞悉學習分析技術的研究動態和未來趨向,深入探索并構建可信學習分析的框架和實踐生態系統,以促進學習分析技術的高效、健康發展,為教育數字化轉型提供可持續的新動能。

二、主題報告

本次大會包含兩場精彩的主題報告,主講人分別是倫敦大學學院的伊瓦·羅杰斯(Yvonne Rogers)教授和卡內基梅隆大學的肯恩·科丁格(Ken Koedinger)教授。

(一)主題報告1《以人為本的學習工具:賦權還是分析學生?》(Human-Centred Learning Tools: Empowering vs Analysing Students?)

當前,新一代大型語言模型(Large Language Models,簡稱LLMs)蓬勃發展,比如ChatGPT(由OpenAI開發)就引發了業界和學界的熱烈討論。許多學者對這種新型人工智能的教育應用表示擔憂[2],而Rogers教授認為,不應擔心ChatGPT會把學生變成欺騙者,而應該學會接受和利用這種技術,教學研究者需要重新思考課后作業內容和評價反饋方式。在報告中,Rogers教授從“提供反饋是學習的核心”入手,分析和比較了數字便利貼(Digital post-It notes)、實體聊天盒(SmallTalk)、數據可視化(Data Visualizations)等提供反饋的技術工具,研究表明,這些工具都能有效促進學生的思考與反思,但數字反饋能夠更好地幫助教師跟蹤和了解學生的學習路徑?;诖?進一步提出了在軟件應用程序中嵌入探究式聊天機器人,以此作為一種學習支架,為學生提供及時的評估和反饋。最后,Rogers教授討論了生成式人工智能工具在教育中的未來,她認為這種新一代的人工智能可以幫助學生更好地思考,將為學生和教師的學習和分析帶來各種新的可能性。另外,她還強調需要研發與可信學習分析相關的課程,并輔以一種迎合學生喜好和興趣的方式來開展人工智能倫理教育。

(二)主題報告2《實現更好、更公平的學習分析》(Learning Analytics Toward Better, More Equitable Learning)

針對本次大會的主題“邁向可信學習分析”,Koedinger教授認為,其中一個關鍵點是測試學習分析能否為改善學生學習的課程改革提供可靠見解。他將該測試稱為閉環實驗,因為其具體過程是一個從使用課程數據來構建更好的預測模型,到將預測模型實踐于該課程中改進學習的循環。他強調,更好的預測必須完成這個循環,即必須要證明該預測和改善學習有明顯的因果關系。在報告中,Koedinger教授介紹了兩個閉環實驗:第一個是2016年的“實干者效應”預測研究,基于四門不同課程中12500多名學生的數據,該研究進行了因果推斷分析,結果表明,積極的實踐比被動的閱讀或觀看的學習效果更好,并且通過混合效應回歸發現課程單元內實踐比單元前實踐或單元后實踐的學習效果更好。第二個研究是基于K-12學生和大學生在人工智能導師、在線課程、教育游戲中產生的主動學習數據,對學生的學習曲線進行建模,結果發現,在精心設計的在線實踐環境中,各個學生的學習曲線具有極大的相似性。最后,Koedinger教授提出,這些閉環實驗的結果可以為產生更好、更公平的學習提供普適性的啟示。

綜上,Rogers教授從技術發展的角度,提出了以ChatGPT等生成式人工智能工具推動學習分析的發展,并針對其倫理問題提出要研發與可信學習分析相關的課程;而Koedinger教授則基于學習分析本質的視角上,提出以完整的閉環實驗支持可信學習分析的發展。兩位教授的報告內容均為可信學習分析的研究與實踐提供了重要思路。

三、 主要內容

本次會議共收錄論文72篇,其中長篇論文49篇,短篇論文23篇。通過對這些論文進行關鍵詞提取與可視化分析得到詞云圖(如圖1所示),由此可見,“機器學習”“協作學習”“多模態”“隱私”等是本次會議聚焦的熱點話題。

通過研究剖析會議收錄論文并結合2022版《學習分析手冊》要義[3],以及基于中國古代哲學“道法術器”思想的視角[4],本文將會議的研究主題歸類為四個方面: 學習分析技術、學習分析方法、學習分析應用和可信學習分析(如圖2所示)。其中,學習分析技術是“術”的層面,指支持各個研究階段的具體干預或分析手段;學習分析方法是“法”的層面,指研究學習環境中數據與各個主體之間的關系的方法或策略;學習分析應用是“術”和“法”的落地實現,是檢驗技術與方法有效性的反饋和優化;最后,可信學習分析是“道”的層面,是學習分析的指導思想和方向,引導和約束學習分析技術、學習分析方法和學習分析應用的發展。

(一)學習分析技術

1.網絡分析技術

網絡分析技術主要包括社會網絡分析(Social Network Analysis,簡稱SNA)和認知網絡分析(Epistemic Network Analysis, 簡稱ENA),構成網絡的要素主要有節點和關系。其中,社會網絡分析是一種利用網絡和圖論來研究社會結構的技術[5]。認知網絡分析是基于認知框架,通過分析話語數據和文本數據創建可視化模型來探索各個認知要素間的關系特征[6]。Lixiang Yan等提出了一種社會-認知網絡分析(SeNA)方法,通過將社會網絡分析與認知網絡分析相結合,在社會空間分析中加入時間的度量來分析同質性[7]。該研究基于開放學習空間中98名學生的多模態數據進行同質性分析,結果發現,與單獨的社會網絡分析相比,社會-認知網絡分析可以更好地揭示不同學習設計的對照組之間在同質性方面的顯著行為差異。Nicole等利用認知網絡分析來評估專家和新手教師在模擬使用儀表盤時的時間話語模式,以此了解專家和新手教師的認知網絡差異,為基于儀表盤的課程計劃定制提供啟示[8]。

圖1 LAK23會議關鍵詞詞云圖

2.自然語言處理

自然語言處理(Natural Language Processing, 簡稱NLP)是一種利用計算機技術對人類語言進行自動化分析的技術[9],旨在實現人與計算機之間的有效通信。Nazaretsky等收集了模擬教室中教師與模擬學生互動討論的轉錄數據,然后采用自然語言處理技術對其進行自動分析,結果表明,該方法可以對教師的表現作出較準確的評估[10]。Byeongjo等利用自然語言處理技術分析大規模開放在線課程(MOOCs)中學生解決問題的辦法,研究發現,有18種常見的解決問題方法,如使用紙筆、同伴學習、試錯等,并發現學生在解決編程問題時嚴重依賴 “工具”[11]。Wesley等使用Transformer語言模型對MOOCs中同行提供的論文分數的可靠性和有效性進行驗證,通過對BERT大型語言模型進行微調來自動對論文質量進行評分,并以此作為驗證的衡量標準,該方法可以提高MOOCs中同行評分的可靠性,增加系統的可信度[12]。

3.多模態學習分析

多模態學習分析是指通過對視頻、日志、音頻、手勢、生物傳感器等多種數據進行采集、編碼和分析,來深度分析和詮釋學習者的學習心理和學習行為變化等,旨在理解學習過程、挖掘學習規律以及優化學習效果[13]?;诘湫偷亩嗄B學習分析管道開發的協作質量模型,Pankaj等探索了不同配置的管道建模,以提高模型的泛化性,結果發現,經常被忽視的上下文數據特征可以提高協作質量模型的泛化性[14]。Fahmid等提出利用多模態來識別和檢測學生在基于游戲的協作學習環境中的脫離行為,研究表明,單模態模型的預測精度嚴重依賴于基礎真值的模態,而多模態模型以其豐富的模態數據得到了更高的準確性,超越了單模態模型[15]。Armanda等基于多模態學習分析視角探索了一種交互式的、低障礙的學習分析過程,稱為“教師在循環”。通過該過程,教師參與設計用于評估小組工作的探索性數據,利用可視化工具挖掘數據隱含的教學意義,并使用這種多模態信息迭代改進課程[16]。

4.時序性學習分析

時序性學習分析是指在學習分析中加入時間的概念,主要包括時間推移分析和時間序列分析,其中時間推移分析認為時間是一個連續的事件流,而時間序列分析認為時間是多個事件的相對排列[17]。Nazeri等探討了自我調節學習的時間性,基于自我調節學習的相變和周期性特征來描述四種自我調節學習階段:確定任務、計劃、實施和適應,這四種階段對應了自我調節學習的多種迭代行為,研究發現,自我調節學習階段與作業成績之間存在顯著相關性,另外,該研究還發現,兩天是進行階段干預的合適時間[18]。為了評估團隊合作的有效性,Zhao等提出了多模態具身團隊簽名(Multimodal Embodied Teamwork Signature,簡稱METS),這是一種結合空間和時間數據對團隊對話內容建模以生成具身團隊簽名的方法,研究證明了該方法可以識別高績效團隊和低績效團隊在不同的學習階段的關鍵差異[19]。

5.學習分析儀表盤

學習分析儀表盤是一種可視化學習軌跡的技術,幫助教師、學習者和其他利益相關者深入探索和理解學習過程,為實施干預、優化學習提供了可靠證據[20]。Bla?enka等分別于2017年(N=222)和2022年(N=196)對二年級信息通信技術專業的學生進行了調查,旨在深入了解學生們認為最能支持學習的儀表盤功能,最后通過因子分析產生了一個包含五個潛在因素的儀表板模型:比較、計劃、預測、課外活動和教師[21]。為了改進學生同行評審,輔助教師提供寫作反饋,Amber等設計了一個接受學生評論并用機器學習模型標記評論的儀表盤,該儀表盤將有效利用學生同行提供的信息、識別學生寫作中的常見問題,并且可以對學生同行評審的質量進行評估[22]。Stanislav等探索了具有不同可視化素養(Visualisation Literacy, 簡稱VL)技能的教師如何使用帶有數據講故事元素的學習分析儀表板,結果表明,高可視化素養的教師往往采用復雜的探索策略,對設計中的細微矛盾更敏感,而低可視化素養的教師從更明確的數據講故事指導中獲益最多[23]。Kimia等運用韋納(Weiner)歸因理論,探索儀表盤信息內容對學習者的影響,旨在研究學生對設計的儀表盤的理解以及社會比較對學生學習判斷的影響[24]。

(二)學習分析方法

1.預測模型

預測模型是基于已知數據對未來事件進行推理的一組技術或方法,包括線性回歸、邏輯回歸、決策樹、貝葉斯網絡和支持向量機等[25],既可用于預測教學試題質量,也可用于預測學生學習成功或失敗的個性化因素和機制等。Marinho等基于神經語言模型提出了一個新的神經網絡文本回歸優化目標:項目特征曲線,旨在預測多選題中的項目反應理論參數,并將其應用到巴西國家高中考試(ENEM),結果表明所采用的結構可以較好地預測2020和2021年項目的難度參數b[26]。Boxuan等從學習者的遺忘行為和語言特點出發,建立了一個預測學生單詞回憶概率的模型,該模型利用注意機制整合了與遺忘、問題格式和詞間語義相似度相關的關鍵信息,結果表明,該模型具有較好的預測性能,并發現將多種遺忘信息類型和項目格式相結合可以提高學習成績[27]。Husni等利用學生在智能數學輔導系統MATHia的活動表現數據建立了一個預測模型,旨在預測中學生的閱讀能力,并發現MATHia跟蹤的某些特定知識或技能可能會推動學生學習數學時閱讀能力的自適應發展[28]。為了預測學生閱讀過程中的分心,Daniel等提出了一種僅依賴于滾動數據分類的早期脫離檢測方法,并基于565名大學生的閱讀數據集進行評估,研究得出該方法預測準確率達70%[29]。Louis-Vincent等基于Moodle 學習管理系統數據,結合行為參與的概念,采用聚類技術和訓練機器學習算法預測加拿大的一所法語大學本科課程的輟學率,以指導教師對“有風險”學生進行干預[30]。

2.解釋模型

解釋模型是利用所有可觀察的證據對結果進行解釋以確定它們之間的因果關系,是一種典型的事后檢驗[31]。解釋模型與預測模型的主要區別在于前者不對未來作出任何聲明或判斷。Jionghao Lin等利用一個綜合的以學習者為中心的反饋框架來分析作業反饋內容,旨在確定不同成績的學生群體的反饋內容特征,研究使用可解釋模型SHAP (SHapley Additive exPlanations)對學生學習結果的預測結果進行解釋,并發現SHAP可以透明地解釋特征對預測的重要性[32]。Vinitra Swamy等檢查并比較了LIME(Local Interpretable Model-agnostic Explanations)和SHAP兩種基于實例的可解釋性方法,將其用于九門不同課程的學生成功預測模型,并對其可信度進行定量分析和半結構化專家訪談研究。定量結果表明,兩個解釋模型在任何單個課程的重要特征都不一致;定性結果表明,教育工作者不喜歡任何一種解釋模型,甚至經常選擇一種混淆性的解釋[33]。Hilário Oliveira等比較了十種機器學習和深度學習模型對葡萄牙語和英語文章連貫性評分的預測性能,并利用可解釋的人工智能方法來檢查和解釋表現最好的模型中的重要特征。結果表明,基于傳統機器學習模型的自動連貫性評估的解釋性比基于深度學習模型更好,在特征方面發現,衡量詞匯多樣性和詞匯發生率的特征(如形容詞和狀語短語)、代表心理過程的特征可以較好地預測兩種語言類型文章的連貫性[34]。

(三)學習分析應用

1.自我調節學習分析

自我調節學習(Self-Regulated Learning,簡稱SRL)是指學習者積極地探索與調節自身學習過程中的情感、認知和行為變化以實現其目標,而自我調節學習分析旨在表征SRL各要素的狀態特征以及基于數據改善SRL各階段的學習效果[35]。Jeremy等探索了學習管理系統日志中反映學生SRL行為的頻率和順序模式以及它們與學習成績之間的關系,結果顯示,成績好的學生比成績差的學生更頻繁地表現出一些SRL行為(例如制定個人計劃、評估),但總體上,兩組學生表現出相似的SRL行為序列[36]。Oleksandra等通過對學習成績、學生自我調節學習的測量報告以及基于學習行為序列聚類生成的檔案進行調查,描述了學生學習行為的不穩定性和變化,并提出了一種通過聚焦學生行為變化來分析自我調節學習中時間性的新方法[37]。

2.協作學習分析

協作學習分析關注學習者協作過程中的交互和真實環境,旨在用數據分析促進協作。Andrew Zamecnik等根據四種反饋類型(任務型、流程型、監管型和自我水平型)比較了客戶和導師兩種類型行業主管的反饋對團隊協作的幫助效果,并調查了臨時反饋的質量,結果表明,導師的反饋比客戶的反饋更有幫助、更有利于協作學習[38]。Robin Jephthah Rajarathinam等利用語音活動檢測(Voice Activity Detection, 簡稱VAD)算法,從本科工程討論部分錄制的單個音頻流數據中提取小組工作的話語轉換信息,然后通過手動編碼分析學生的協作行為和師生互動,結果表明,高質量的個人音頻數據可以有效地描述課堂上發生的協作過程,為未來使用音頻數據概念化團隊協作提供了啟示[39]。

3.教育話語和寫作學習分析

教育話語和寫作學習分析聚焦于語言和人工制品,通過自然語言處理等技術來分析與提供反饋,從而改進學習。Yukyeong Song等基于學生和教師之間的在線數學討論話語,對語言同步性和學生的數學素養進行建模,結果表明,數學素養高的學生更有可能與教師做分享,而數學素養較低的學生傾向于重復教師的話語,該研究促進了對教師數學討論的理解,并可以指導教師有效開展數學討論[40]。Sehrish Iqbal等通過比較傳統的機器學習分類器和預先訓練的語言模型BERT來研究基于布魯姆分類法的修辭類別分類的自動化程度,并探索了修辭類別與寫作表現之間的關聯,結果表明,BERT模型的準確率比傳統的基于機器學習的分類器高18%,另外,在低成績組、中成績組和高成績組中,修辭類別之間存在統計學差異,這表明修辭類別可以預測寫作表現[41]。Watts等基于自動反饋設計框架、自我調節學習理論和有效協作學習教學法開發了一個自動反饋的工具,為學生“有機化學”課程的寫作作業提供形成性反饋[42]。

4.情感學習分析

情感學習分析將數據驅動的學習分析、教育數據挖掘技術與情感科學和學習科學的理論相結合,目前關注的研究話題包括輟學情感分析、論壇討論情感分析、課堂情感分析、教師情感分析等。Andrew Zamecnik等設計了一個壓力分析儀表盤,該儀表盤將學生的生理數據編碼為真實團隊模擬的不同階段的壓力水平,旨在可視化學生的生理數據,并調查了教師對該儀表盤的理解程度、使用效果和信任度。除了壓力外,走神也是學生課堂常見的情感狀態[43]。Megan Caruso等進一步探索了走神與學習結果之間的關系,通過分析學生閱讀長篇文章的自我走神報告和不同時間的學習評估,研究發現,走神對事實性的、基于文本的明確信息和跨文本多個部分的信息整合有負向預測作用,而對單個句子的局部推理沒有作用。此外,走神只能預測閱讀期間的理解能力,但無法預測延遲一周后的情況[44]。

5.社會性學習分析

社會性學習分析用于量化、表征和改善社會環境中的非正式學習,包括社交媒體學習、社區學習、博物館學習等,利用網絡分析等理解人與人以及人與物之間的關系,關注節點的特征以及節點之間的關系本質。Nguyen利用社交媒體平臺TikTok上年輕人創作的視頻來研究和理解氣候變化教育,他對與氣候變化相關的標簽進行語義網絡分析,揭示了多層次、相互交織的話語,包括氣候變化危害、呼吁人們采取行動減少人類對自然系統的影響以及倡導環保行動等,并進一步探索了年輕人對氣候變化的討論和觀點[45]。由于學習目標和學習模式的分散,互動式博物館的學習效果很難衡量,Matthew Berland等針對該問題提出了一個新的度量標準——共同選擇時間(Joint Choice Time,簡稱 JCT),旨在衡量游客如何以及何時圍繞交互式博物館展覽進行合作,并使用辛普森多樣性指數來衡量博物館展覽游戲結果的創造性[46]。

(四)可信學習分析

學習分析高度依賴于教育數據,在收集、分析和使用個人數據的過程中隱藏著重要的倫理問題,嚴重限制了學習分析的采納與實踐推廣,可見,研究可信學習分析成為當務之急,是數字化轉型時代的重要議題。Max van Haastrecht等強調了可信是學習分析驗證的一個重要標準,通過系統回顧學習分析驗證研究,發現目前的研究過度依賴實證效度標準,而忽略了可信和真實性等解釋性標準,認為學習分析需要通過整合“深描”教育經驗的整體驗證策略來推進,并提出基于論證的驗證是一種“前途無量”的方法,可以產生可信的和真實的結果[47]。

學習者是學習分析的關鍵主體,因此,學習者隱私素養等是可信研究的關鍵方向之一。Andrea Franco等擴展了SpeakUp社交媒體課堂交互應用程序,基于學生個人的實際社交媒體痕跡設計了一個技術增強的主動學習場景,旨在提高青少年對互聯網數字痕跡的認知,提升青少年的隱私素養[48]。為了研究學生對學習分析隱私擔憂的性別差異,René F Kizilcec等對德國、美國等五個國家的762位高等教育學生進行了調查并基于多元回歸等分析發現,國家背景、學位課程和年齡是學生對學習分析隱私擔憂的性別差異的重要調節因素[49]。

隱私保護是倫理問題的首要維度,旨在保護學習者和其他教育利益相關者的數據權益和隱私,亦是可信學習分析的重要考慮。為保護學習分析在線討論中的學習者身份,Elaine Farrow等開發了一種半自動化的方法,基于正則表達式識別論壇消息中的人名并用一致的假名替換,結果發現,這種為在線討論量身定制的方法在精確性和召回率上都優于使用深度神經網絡的通用假名化工具[50]。Xinyu Li等提出了一種計算機視覺定位(CVPE)方法,旨在收集復雜學習環境中的社會空間數據,該方法兼顧可擴展性和實用性且重點考慮了學生隱私保護,具有屏蔽個人面部身份、處理后自動刪除記錄等功能[51]。

一些學者亦聚焦于學習分析中的算法偏見、公平等以支持其可信。Fan Zhang等針對多群體的偏見問題,提出了一個組合方案——將預測學生成績的機器學習模型與保持高度的模型公平性的強化學習模型相結合,結果表明該模型有效地降低了多群體的算法偏差,并且實現有競爭力的預測精度[52]。Lin Li等針對學習分析中的預測偏差問題,對49篇最新發表的同行評議實證論文進行系統綜述,從保護性屬性、公平性指標及其在各種教育任務中的應用、增強預測公平的策略三方面探討當前的局限性,并提煉出相關建議以指導未來學習分析中預測偏差的研究[53]。

(五)研究述評

隨著人工智能技術的迭代更新,學習分析也在發展過程中日趨成熟,呈現出以下研究趨勢:(1)在學習分析技術方面,通過將不同技術結合或加入不同變量,豐富數據分析功能和數據可視化結果,比如將社會-認知網絡分析相結合,并加入時間維度以分析同質性;(2)在學習分析方法方面,通過對機器學習算法和深度學習神經網絡等進行批判性對比或優化改進,研究出一種更適合自己研究目的的算法,對未來事件進行更精確地預測或對因果關系進行更準確地解釋;(3)在學習分析應用方面,將智能化的數據挖掘技術和分析算法應用于自主學習、協作學習、語言學習和社會學習等各種學習場景,為改進學習效果提供有效啟示。然而,當前的學習分析普遍缺乏對數據的明確規范和有效管理,數據隱私和倫理成為新的挑戰。確保學習分析技術合理應用的關鍵是要落實隱私保護,充分激發和增強數據主體的信任,實現可信學習分析。此外,未來研究需關注交叉學科與學習分析領域的融合。例如,將腦科學、學習科學理論引入學習分析的學業預測和自我調節學習層面,促進發現學習規律。

四、可信學習分析的結構模型

LAK會議是學習分析領域最具權威性的頂級學術會議之一,匯聚了學習分析領域的學術前沿與熱點研究。LAK23的主題為“邁向可信學習分析”,這與當前學習分析發展的社會需求相呼應。隨著人工智能技術在教育實踐中的應用范圍不斷擴大,《2022地平線報告:教與學版》提出了基于人工智能的學習分析這一概念,即在學習分析的過程中使用人工智能技術來收集、分析和理解數據,幫助教育利益相關者進行決策與規劃[1]。與此同時,該技術的應用也引發了更多的道德與公平問題,比如師生群體對該技術的有效性存在質疑、對數據的不嚴謹使用會引發隱私泄漏、不完善的算法會導致學生受到不公正待遇等,這些問題亟需社會各界的關注與解決。因此,進一步深入剖析LAK23的主題“邁向可信學習分析”,對可信學習分析進行具體的概念闡釋、發展梳理與框架研究,旨在為我國學習分析領域的創新和進步提供啟示。

(一)可信學習分析的概念闡釋

“信任”的本質是社會成員在面對社會不確定性和復雜性增加時,對置信對象的一種依賴方式[54],較為典型的有情感型信任、規范型信任與理性型信任,這三種類型都是以信任者為中心,聚焦于信任者的情感態度或行為選擇[55]。而“可信”是指置信對象通過展現自身的特質,使個體或組織對其產生信任[56]。

隨著智能時代的發展,“信任”不僅局限于人際關系,也擴展至人機交互。最早出現的是“可信機器學習”[57],綜合不同學者的觀點,其特質包括透明性、隱私性、公平性、可解釋性和魯棒性等[58-59]。Michael Lewis等曾提出系統的可信任性與其可靠性、可預測性、智能水平和透明度、自主程度緊密相關[60]。Khalid等認為,當機器人具有人性化、透明度高、溝通順暢和反饋有效等特性時更容易被信任[61]。眾多國際組織和學術團體也對其重點關注,2019年4月,歐盟發布《可信人工智能的倫理指南》(Ethics guidelines for trustworthy AI),提出了可信人工智能的七項關鍵條件[62],包括“人類能動性和監管”“技術穩健性與安全性”“隱私與數據治理”“透明性”“多樣性、非歧視性和公平性”“社會與環境福祉”“問責制度”。2019年6月,美國國家科學技術委員會更新了《國家人工智能研究與發展戰略規劃》(The national artificial intelligence research and development strategic plan),強調機器學習算法的合法性、道德性和魯棒性[63]。2022年4月,京東探索研究院發布了《可信人工智能白皮書》,從“可靠可控”“透明可釋”“數據保護”“明確責任”“多元包容”五個維度構建了可信人工智能框架[64]。

基于“可信人工智能”的發展,一些學者也在學習分析領域提出了“信任”的概念。Corrin等強調在學習分析中負責任地使用數據,提出從數據所有權和管理、知情同意、隱私和安全、信任和問責制等解決學習分析中的公平和公正問題[65]。Brown等認為,執行不當的倫理和數據隱私框架會對學習分析的結果以及研究的可重復性產生負面影響,并從長遠來看會破壞對該學科的信任[66]。隨著學習者行為數據的挖掘和積累、數據分析技術的提升,自2016年起,LAK會議也開始關注學習分析中的“可信”問題(如圖3所示),通過提煉LAK16—LAK23歷年論文關鍵詞發現,學者們對學習分析的隱私、公平、信任等問題的關注度越來越高,LAK23更是直接以“可信學習分析”為會議主題,旨在全面審查使用教育數據和算法的意外后果,包括潛在的誤用和誤解、道德規范、隱私、透明度和問責制等,切實解決在設計和實施學習分析的過程中引發的社會和教育問題。綜上,眾多學者對于“可信學習分析”都強調了隱私安全、技術信任、社會正義等方面。因此,本研究認為,可信學習分析(Trustworthy Learning Analytics,簡稱TLA)是指具有安全性、穩健性和公正性的學習分析,即在數據收集、數據處理和數據分析的過程中充分保障數據主體的安全和權益,以獲取數據主體的信任。

(二)可信學習分析的結構模型

如今,學習分析中的數據關注范圍不斷擴大,不僅可以訪問更多的數據,而且還可以訪問不同種類和粒度的數據[67],導致數據隱私等擔憂日益增加。當前可信人工智能是熱點議題,尤其是關注“以人為中心”的設計理念[68],但鮮有研究聚焦于可信學習分析。因此,本研究立足于“以人為中心”的視角,基于可信人工智能倫理準則,結合學習分析自身的特征和過程,從安全性、穩健性和公正性三個層面提出了可信學習分析結構模型(如圖4所示)。

圖3 LAK16—LAK23的“可信”關鍵詞

首先,可信學習分析要保障數據主體的安全性。學習分析的所有利益相關者可分為數據主體和數據客體,其中學生既是數據主體,也是數據客體,而教師、研究者和機構等都是數據客體[69]。在學習分析的過程中,數據主體的個人隱私面臨各種風險,保障其安全的關鍵在于控制和限制,其中,控制是指個人對自身信息流動的影響能力,限制是指防止他人訪問自身數據的可能性[70]。為達到較好的控制和限制效果,第一,需要培養數據主體個人的數據意識和隱私素養。第二,需要增強各個利益相關者的道德感和責任感,制定個人道德準則,比如避免任何損害學生及其受教育機會的行為、確保利益相關者理解所使用的學習分析技術、保證分析教學和實踐中的科學性、準確性和真實性等。

其次,可信學習分析要確保數據收集技術、數據處理技術和數據分析技術的穩健性,具體包括精準分析和預防傷害兩個層面。在數據收集方面,需要利用語音識別、腦電感應、眼動追蹤等技術和相應的設備捕捉全面的多模態數據,包括行為、心理、生理和基本信息等類型的數據[71],并結合研究目的完成數據的分類、回歸與特征選擇,以保障學習分析的精準性;此外,數據收集要充分尊重數據主體的自主性,尤其是在使用攝像頭、眼動追蹤眼鏡和位置傳感器等設備進行監視時,需要進行嚴格的數據管理,還可以利用去身份化數據來保護個人隱私[72]。在數據處理方面,選擇合適的算法和技術是至關重要的,比如線性回歸、邏輯回歸、決策樹、樸素貝葉斯分類器、支持向量機和神經網絡等,根據研究問題建立適切的模型并對模型進行不斷驗證和優化,最終選擇最佳方案,該方案決定了學習分析的精準性;另外,在整個數據處理過程中都需要保證算法、模型等的透明化、可解釋性,并采取有效措施防止學習者隱私泄露和多平臺間的數據鴻溝等問題。在數據分析方面,以可視化的方式呈現學習分析結果,比如交互式儀表盤、熱點圖、統計數字和圖表以及自動報告等有意義的形式,可以突出分析重點、提高實施干預的精準性;還可根據反饋結果進行迭代以檢驗分析結果的有效性,防止因數據缺失、算法偏見等問題導致學習者的學習、性格、興趣、能力等出現發展偏差。

最后,可信學習分析要維護社會的公正性。學習分析是教育數字化轉型的核心助推劑,要與社會發展保持一致,通過人類監督和制度規范實現學習分析非歧視性、多樣性和公平性。第一,需要防范分析技術的偏見風險。特征工程是學習分析中生成預測分析的常用數據挖掘技術,其中人口統計學特征極易引發偏差,比如性別刻板印象等。此外,使用無監督機器學習技術(如聚類)也可能會引發歧視[73],如為學生標記“有風險”或“表現不佳”等標簽,可能會對學生的自尊和教師的期望產生負面影響。第二,需要結合人類的解釋性。在學習分析過程中應始終堅持“以人為中心”的基本原則,尊重學生的多樣性和異質性算法驅動的學習分析技術只是一種工具,還應該整合人類教育經驗的驗證、解釋和評價,通過人工編碼等實現學習分析的多樣性和全面性。第三,需要建立適切的問責制。問責制是一系列規范學習分析場景中各個方面的原則,具體是指學習分析的每個部分都必須由一個人、一個機構或一個部門精準負責,保障相關內容符合倫理并正常運作。通過確定責任實體和責任領域可以評審整個分析過程,推動學習分析的穩健發展,實現學習分析問責的公平性。

圖4 可信學習分析結構模型

五、可信學習分析的未來生態

通過闡釋可信學習分析框架發現,可信學習分析的實踐需要個人、企業和社會等共同支持。2022年3月,中共中央辦公廳、國務院辦公廳印發的《關于加強科技倫理治理的意見》中也進一步明確了開放合作以建立多方協同合作機制的治理要求[74]。因此,基于人-機-環境系統理論構建了可信學習分析生態系統(如圖5所示),為可信學習分析的研究和實踐提供未來方向和建議。

人-機-環境系統理論從整體觀念出發,將人、機、環境看作是一個相互作用、相互依賴的系統,并運用系統科學和系統工程的方法合理地安排系統中每一個布局,以獲得系統的整體最優化[75]。從該視角看,可信學習分析也是一個由人、機、環境(側重于社會環境)構成的系統,其中,“人”指所有參與系統的教育利益相關者,“機”指各種學習分析軟件和硬件設施,“環境”指人、機共同和諧存在的社會條件。因此,可信學習分析生態系統具體包含三個層面:主體可信、技術可信和制度可信,通過提升個人的隱私素養和數據素養、監督企業科技“向善發展”、鼓勵政府設立“底線責任”、探索基于新型人工智能的學習分析技術、構建可信的“學習分析學”等途徑,在拓展學習分析的研究方法和應用領域的同時,充分保障學習分析的發展潛力。

(一)立足“以人為本”,提升教育利益相關者的隱私素養和數據素養

學習分析的核心主體始終都是教育中的“人”,即學習者,其他利益相關者在學習分析實踐過程中需要充分考慮和保護其權益,以實現主體可信。首先,為了防止學習分析計劃與實施的不平等,要保證所有教育利益相關者參與學習分析決策和實踐的全過程,并整合記錄參與人特征、參與時間和決策發言等內容,以全面了解利益相關者的需求并制定相應策略。其次,可以通過舉辦講座或工作坊等形式培養數據主體的隱私素養,包括數據意識、安全意識和保護意識等,增強對數據的感受力、判斷力和洞察力,提高對自我數據信息的控制能力以及對他人使用自我數據的限制能力。最后,可開設學習分析技術的相關培訓課程以發展數據客體的數據素養,包含數據技術素養、數據理論素養和數據價值素養三方面[76]。其中,數據技術素養是指使用學習分析技術的能力;數據理論素養是指具有數據分析原理、數據分析倫理、教育學原理等理論知識;數據價值素養是指正確的數據價值觀,對數據本體、數據價值產生和數據價值挖掘等有準確深刻的理解。

圖5 可信學習分析生態系統

(二)堅守“科技向善”,建立數據管理機制和技術安全標準

高新企業是學習分析的關鍵技術支撐,提供了重要的學習分析平臺和工具,是保障技術可信的核心力量。一方面,數據是學習分析的基礎,因此,建立數據管理機制是保證學習分析技術安全、可靠的重要基石。企業要在專家團隊的理論指導下對學習分析數據的“采集、存儲、傳輸、使用和刪除”全周期的安全進行管理規劃,提供透明化、可控化和可追溯的數據安全解決方案,奠定數據安全可信的發展根基。另一方面,要聯合其他企業建立學習分析技術安全標準和行為規范等,將可信學習分析原則融入學習分析平臺和工具開發應用各個環節,保證安全合規。具體來說,對內需要制定技術安全行動指南和內部監管審查制度,加強倫理教育和培訓;對外需要促進相關企業間的互信合作,實現平臺互認的同時相互監督,構建良性的競爭合作關系。

(三)設立“底線責任”,制定可信學習分析治理規范和問責制度

新興科技的進步推動學習分析朝著更智能、更開放的方向發展,但是技術本身具有較強的不確定性、復雜性和模糊性等特征,需要國家對其進行約束以塑造可信學習分析的制度環境。當前教育數據治理存在著許多問題,比如治理主體的數據治理能力較低、數據采集及共享商業化現象嚴重、數據應用及監管標準缺乏一致性等,極大地影響了學習分析的可信發展,因此需要政府制定可信學習分析治理規范,具體包含學習分析需求評估體系、數據運行與審查機制、學習分析風險預警與防范機制等,以統籌學習分析發展與治理之間的關系。另外,要制定精準的問責制度,進一步明確學習分析每一個環節倫理監管和可信保障的組織機構和職能權限,兼顧處于不同發展階段、應用場景的各個責任主體的利益需求,完善各個組織機構的管理職能,以實現形成動態敏捷的風險防控和監督管理。

(四)探索基于新型人工智能的學習分析技術,賦能教育數字化轉型

隨著大語言模型(如BERT、DALL-E、GPT-4等)的興起,人工智能技術開啟“模型通用化”的范式轉變[76],即訓練的模型不再只針對某一特殊領域,而是適用于大范圍甚至所有領域,該模型也被稱為基礎模型或大模型[77]。在教育領域,豐富的學習場域和革新的多模態技術生成了海量的教育數據,但針對不同學生年齡、不同學習科目、不同教學過程的數據則需要訓練不同的學習分析模型,導致現有的學習分析工具適用領域較窄,限制于某一學段或某一學科。因此,在新型人工智能技術的支持下,學習分析專家需要探索并構建基于通用大模型的學習分析模型,降低其對教學環境的敏感度,拓展學習分析的適用范圍。此外,人工智能技術也可以助力研發相關學習分析工具,如學習分析儀表盤、自動反饋等,使其更加智能與個性化,幫助使用者更簡便、更高效、更可靠地分析結果、理解學習與優化學習,加強教育利益相關者對學習分析的信任,以優質數據和智能技術共同賦能教育數字化轉型。

(五)構建可信的“學習分析學”,發展數字教育新范式

作為教育技術學的重要學科分支,學習分析已發展出較為成熟的理論基礎和實踐應用,比如數據科學、分析技術、教育信息化實踐等,具備成為獨立學科的能力。學習分析學的根本理念是“以人為本”,旨在通過數據科學和分析技術全面、系統地追蹤學習、理解學習和優化學習,其可信的關鍵在于充分保障教育利益相關者的權益,尤其是教育主體的安全,這與祝智庭教授所提出的教育第四范式的理念相一致[78]。該范式是數字時代的教育新范式,圍繞數據挖掘和智能分析,強調“以學生為中心”“適性發展”“精準、定制、個性化”“需求驅動”,旨在以機制靈活、開放創新、適需服務的未來數字化教育顛覆傳統教育體系和教育組織形式??尚诺膶W習分析學是從個人、技術、社會等多個角度綜合考慮學習分析的安全性、穩健性和公正性,基于“可信”的意義,對數字教育新范式的理念進行繼承與發展。在未來,學習分析學需要不斷扎實學科理論與迭代優化教學實踐,構建出更安全、更可靠的學科生態體系,擔負起其對于教育的責任,傳達“以人為本”的人性關懷,不斷深化數字教育新范式,推動教育改革朝著更加公平、高效和優質的方向發展。

猜你喜歡
分析模型教育
國外教育奇趣
題解教育『三問』
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
教育有道——關于閩派教育的一點思考
電力系統不平衡分析
辦好人民滿意的首都教育
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合