?

大語言模型在小學生計算思維評測中的應用

2023-06-26 09:01沈成柏毅
中小學數字化教學 2023年6期
關鍵詞:人機交互評測計算思維

沈成 柏毅

摘要: 在現代社會中,培養計算思維能力對于學生的發展來說有著重要意義。通常用于評測學生計算思維的方法有編程與非編程兩類,為了科學評測沒有編程基礎的小學生,教師宜采用不插電、不涉及編程的問卷等方法評測。教師借助ChatGPT等大語言模型工具,利用其智能交互、理解文意、實時反饋功能進行輔助評測,可靈活調整評測內容,評測形式多樣,操作便捷、快速、節約人力。ChatGPT、文心一言等生成式人工智能工具將日益完善,它們在教育評價和教學評測領域有廣闊的應用前景。

關鍵詞:計算思維;評測;人機交互;LLM;ChatGPT

目前,教師要科學評估小學生計算思維能力并非易事,小學生缺乏編程基礎、語文水平不高使得評測設計變得困難。教師用傳統方法評測,如基于選擇題的測試或紙筆任務形式的測試,難以準確反映學生的思維過程,耗時費力。此外,教師這樣評測可能無法捕捉到計算思維的細微差別,也無法全面反映學生的技能和能力。ChatGPT等大語言模型工具可以輔助教師設計評測試題,也可以扮演評測計算思維教師,與學生進行交流并記錄相關數據,幫助教師評估學生的計算思維能力。使用ChatGPT來評估計算思維有幾個明顯的優勢。一是ChatGPT已在各種文本上接受訓練,具備與學生進行自然語言對話的條件。二是通過提問或采訪,ChatGPT可以對學生的思維過程實時反饋,并確定其優勢和劣勢領域。三是人機交互會話使學生更容易解決問題并相對真實地表達他們的想法,使得評估更加準確和全面。此外,智能評測不僅省時省力,而且能實時提供結果。對于精準評測一至六年級小學生計算思維能力有何更優方法,已有的研究相對匱乏。不同年級的學生其計算思維水平、文本閱讀能力、語言表達能力存在較大差異。智能語音交互工具的應用可以避免學生語文水平對于評測的干擾,能對學生的計算思維能力進行更全面和準確的評估和描述。筆者以ChatGPT為例研究智能工具在評估小學生計算思維方面的潛力,給出應用的思路、方法和建議。

一、相關概念及研究目的

(一)計算思維

計算思維是運用計算機科學的基礎概念進行問題求解、系統設計,以及人類行為理解的一系列問題解決方法和思維活動。計算思維的運用就是行為主體將復雜的問題分解成較小的、可管理的部分,并應用邏輯和系統推理來尋找解決方案。人們生活在越來越依賴信息技術的世界,在中小學義務教育中培養學生計算思維的重要性也逐步提升。中央電化教育館發布了《中小學人工智能技術與工程素養框架》,提到“既要使學生學會如何利用人工智能技術制定問題解決方案,又要培養學生根據具體問題、場景選取合適的人工智能技術的能力,尤其要注重計算思維和系統思維的培養”。

近年來,人們對培養小學生的計算思維能力越發重視。研究表明,在早期發展這些技能,對孩子未來的學業和職業成功,以及他們解決問題和批判性思維的能力都有積極影響。在開展計算思維教學之前,對于學生計算思維能力的評價尤為重要。

(二)大語言模型(LLM)

近年來,大語言模型(LLM,Large ?Language ?Model)快速發展。隨著開放人工智能研究中心(OpenAI)在2022年11月30日發布ChatGPT,相關研究受到全世界關注。ChatGPT是OpenAI開發的一個基于多模態預訓練大模型GPT3.5的LLM,可以實現上下文語義的理解,與人進行自然對話,在設定好各類條件的情況下,可以扮演擁有背景設定的角色。2023年2月,谷歌公司發布了聊天機器人Bard,它由谷歌的大語言模型LaMDA驅動。2023年3月16日,百度公司開發的文心一言正式上線,底層技術基礎為文心大模型。此外,還有清華團隊開發的開源的ChatGLM-6B等可以部署在本地的LLM。ChatGLM-6B是一個具有62億參數的中英雙語語言模型。

(三)研究目的

筆者研究ChatGPT等智能工具在評估小學生計算思維方面的應用,目的在于:討論LLM在教育評估領域運用的可能性,探究如何在教育評估領域運用LLM,用以評估小學生的計算思維水平,最終促進教師對LLM用作教育評估工具的理解,并探討這種方法的優點和局限性,為該領域的研究提供建議。

二、借助LLM評測計算思維的方法

(一)設計試題或問卷

教師設計試題,應該針對計算思維進行細化,如問題分解、模式識別、抽象、算法設計和評估等。這些試題的類型可以是選擇題也可以是開放式問題。教師借助LLM設計的試題,其難度應當與小學生的年齡和理解能力匹配。在試題或者問卷回收評分環節,教師也可以借助LLM這一輔助工具對學生數據進行管理,收集和儲存學生的作答信息以備分析。

教師借助LLM設計試題,需要設定背景。例如,研究者在ChatGPT對話框中輸入如下指令:“請給出一些例題用于評測小學生的計算思維。題目的類型為選擇題,共4個選項。題干不宜太復雜,且不直接出現編程相關概念。請給出各題的答案和解析,說明該題用來評測學生哪方面的具體計算思維能力,給出分類和關鍵詞?!?/p>

ChatGPT給出以下例題:莎拉想用密碼給她的朋友發送一條信息。其中每個字母都被它后面的第三個字母代替。例如,A將被替換成D,B被替換成E,以此類推。信息“hello”?的密碼是什么?

選項:?A.khoor B.khoot C.ehoor D.ehoot

答案:A

分類:算法與編程

關鍵詞:加密;替換密碼;字母轉換;模式識別

可以看出,LLM使用密碼學中的愷撒密碼很好地完成了命題工作。盡管題目難度是否適合小學生,以及題目的信效度仍需要進一步檢驗,但確定的是題目的完成度較好,背景設定中提到的要求都列出了,基本符合要求。教師設計試題時,可以運用LLM生成大量題目,進行篩選和改編。

(二)對學生進行訪談

LLM可以扮演教師的角色,以訪談的方式對學生的計算思維進行評測。為了實現這一目標,教師要事先給LLM設定身份,設定項目要盡可能周詳,包括評估學生的年級、有無編程基礎、選用什么類型的題目進行評測、打分的基準等。教師對小學生評測時,通常還需要結合運用語音識別的插件,或用語音錄入的方式完成評測。

Edge-TTS是一個Python庫,它使用微軟的Azure Cognitive Services來實現文本到語音轉換。Whisper也是一個Python庫,可以通過本地電腦進行語音識別和輸入。筆者將Whisper—LLM—Edge-TTS組成一套實時語音交流系統,實現了學生與LLM所扮演的教師實時語音交流。這一技術手段在評測小學生計算思維方面,尤其是對于低年級學生的評測,有廣闊的應用空間。

(三)利用LLM進行數據分析

對于從試題或訪談中收集的數據,教師可以利用LLM進行統一分析,以評估學生的計算思維能力。教師可以采用統計學方法,如平均值、標準差和檢驗來定量分析數據,也可以采用內容分析方法來定性分析。教師可以將收集到的數據與其他數據來源(如標準化考試成績)比較,以確定評估方法的可靠性和有效性。ChatGPT給出的數據分析結果簡潔明了,教師可以根據需要選擇適當的視覺輔助工具和表格呈現。需要注意的是,教師分析數據時,要保護學生的信息隱私,并采取適當的措施確保信息安全。

三、借助LLM評測計算思維的實例

(一)ChatGPT

在中文環境下,筆者讓ChatGPT扮演一名評測計算思維的教師。?ChatGPT很容易將中文“計算思維”理解成數學計算的思路(Calculation Thinking)。注意:在中文語境下,使用國外的LLM進行有關計算思維的研究時,需要著重標注計算思維是指Computational Thinking,甚至需要全部使用英文表述。在修正有關計算思維的表述之后,ChatGPT給出的題目質量有了顯著提高(如圖1),但是在中文表述方面還存在一些問題,比如語言生硬造成學生理解困難。

在英文環境下,ChatGPT回復速度更快,對于計算思維的理解也不會出現偏差。教師給出疊加多個條件的指令,仍可以獲取較好的結果。ChatGPT在給定的條件下,可以給出完整的題目,并且給出相對應的解析。這些題目通過教師的翻譯和潤色,以及信效度檢驗之后,將其應用于實際評測也不是不可能。在英文環境下,ChatGPT可以近乎完整地模擬一次對于學生計算思維的訪談評測,并且在預先設定的條件下,引用相對成熟的計算思維評測——Bebras挑戰賽的信息。在模擬情境中(如圖2),ChatGPT首先統計了學生姓名和年級信息,其中年級信息決定了后面試題難度,其次基于學生沒有編程基礎的預設,對于學生是否了解計算思維進行提問,在簡短描述Bebras挑戰賽的背景之后,分別從空間推理、邏輯思維等方面出題,綜合考查了學生的計算思維水平。

(二)文心一言

文心一言是百度公司開發的LLM,用戶可以通過App直接使用,不需要借助其他插件就可以實現語音輸入。盡管由于廠商限制,其并不能扮演特定角色(如評測教師等),但仍可以在提供命題思路等方面為教師提供幫助。

(三)ChatGLM-6B

ChatGLM-6B可以部署在本地計算機上,無需聯網,使用門檻較低。但由于預訓練參數比前兩類LLM少,ChatGLM-6B在邏輯推理等能力方面存在差距。ChatGLM-6B盡管能夠扮演教師角色(如圖3),但是在語言表達方面仍存在一定的問題。不過作為一款開源LLM,它可以通過微調參數來進行針對性修正。

四、借助LLM評測計算思維的結論與展望

(一)LLM扮演教師評測小學生計算思維具有可行性但仍有提升空間

以ChatGPT為代表的LLM在人機交互方面有能理解上下文、提供實時反饋的特點,先發優勢明顯。在實際應用于計算思維評測時,用戶借助ChatGPT可以快速生成大量與評測主題相關的英文試題,經翻譯潤色和信效度檢驗后完成問卷,用于評測,預期可以取得較好的效果。在整個評測的過程中,教師可以運用LLM來完成數據記錄和分析。但LLM在扮演教師以訪談方式評測小學生計算思維方面仍存在不足:一是對于語音輸入,不能保證識別的準確性;二是國外的LLM在中文環境下容易誤解詞義,各類LLM在中文表述上都略顯生硬;三是各類LLM的預訓練模型不同,質量不穩定,并且沒有針對需要評測的項目進行微調,這使得借助LLM來單獨評測學生的計算思維尚不可行。隨著各類LLM的發展和更新,未來它們在評測相關領域的表現會越來越好。

(二)人機結合、優勢互補、綜合評估是LLM評測應用的發展趨向

LLM在教育評測領域發展前景良好,但它作為教學輔助工具的定位是不變的。LLM設計的題目是依據現有內容二次生產的,不具備原創性,需要教師甄別。在與學生的訪談實踐時,LLM可以與學生進行有關評測主題的對話,但是不具備判斷對話內在邏輯的能力。LLM的打分只能作為參考,需要教師依據對話內容進行研判。

在有條件的情況下,教師可以將LLM實際用于小學生計算思維評測。LLM可以用于線上數據的收集。教師可以對LLM評測的結果與其他現有評估方法的結果進行比較、分析,比如將LLM的評估結果與傳統的筆試或口試的結果比較,或者與其他形式的基于技術的評估結果進行比較,還可以嘗試討論每種方法的優點和局限性,進而綜合優化評測,讓LLM為教學賦能。

參考文獻

[1] 惠恭健,蘭小芳,錢逸舟.計算思維該如何評?——基于國內外14種評價工具的比較分析[J].遠程教育雜志,2020(4): 84-94.

[2] Peter B H, Thomas J C, Jeannette M W. Computational thinking[J]. ACM SIGCSE Bulletin,2007(1):195-196.

[3] Jeannette M W. Computational thinking[J]. Communications of the ACM,2006(3):33-35.

[4] 中央電化教育館. 中小學人工智能技術與工程素養框架[EB/OL].(2021-11-30)[2023-04-25].https://www.ncet.edu.cn/zhuzhan/tztgao1/20211130/5505.html.

(作者沈成系東南大學兒童發展與教育研究所、兒童發展與學習科學教育部重點實驗室碩士研究生;柏毅系東南大學兒童發展與教育研究所、兒童發展與學習科學教育部重點實驗室教授)

責任編輯:祝元志

猜你喜歡
人機交互評測計算思維
次時代主機微軟XSX全方位評測(下)
次時代主機微軟XSX全方位評測(上)
攻坡新利器,TOKEN VENTOUS評測
Canyon Ultimate CF SLX 8.0 DI2評測
某型柴油機虛擬維修系統研究
人機交互課程創新實驗
程序設計課程中計算思維和應用能力培養問題研究
民族高校C語言程序設計課程教學改革的研究
算法的案例教學探析
淺談藝術專業學生計算思維能力的培養
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合