?

基于MOOC平臺的互評質量控制的研究

2018-03-28 06:03張忠宋繼紅付笑晗
軟件工程 2018年2期
關鍵詞:質量控制

張忠 宋繼紅 付笑晗

摘 要:近年來,隨著眾包的發展,對工作者的準確率估計越來越受到關注。而作為一種特殊的眾包形式,學生互評也被MOOC平臺(大規模開放式在線課程)廣泛應用。本篇文章研究MOOC課程中的在線互評機制,通過結合學生互評質量與學生的學習能力對其互評能力做出估計,以此設計互評分配算法。通過更精準地分配互評任務,得到更符合學生作業質量情況的互評結果。

關鍵詞:MOOC;推薦互評;眾包;質量控制;分配算法

中圖分類號:TP391 文獻標識碼:A

Abstract:In recent years,with the rapid development of crowd-sourcing,estimating the precision ratio of crowd workers has attracted more and more attention.As a special form of crowd-sourcing,peer grading has been used by most of Massive Open Online Courses (MOOCs).This paper studies peer grading mechanism in MOOCs,and estimates students' peer grading ability through a combination of their peer assessment and study ability,so as to design an allocation algorithm and achieve more accurate results in compliance with students' works by means of more accurate assignments of peer assessment.

Keywords:MOOC;peer grading;crowd-sourcing;quality control;allocation algorithm

1 引言(Introduction)

近年來,隨著大型在線開放課程MOOC平臺的流行,使得越來越多的人可以通過觀看視頻的形式學習具有大學水平的在線課程。然而,新型互聯網科技雖然可以讓學生獲取視頻資源,同時也使得對學生給出的復雜的、開放式的作業進行評估和反饋的能力大大受限,例如數學證明、設計問題和文章等形式的作業[1]。相比較于學校中常規的課程,MOOC課程的規模是非常大的,每個課程通常超過20000名學生,因此,學生直接互評作業機制的引入勢在必行[2]。

同學間的互評之所以受到質疑和挑戰,是因為學生的知識和能力與教師存在很大的差距,因此把單純而隨機地通過給學生分配互評任務得到的互評評價結果作為課程的反饋在一定程度上會遭到學生的質疑。而在大規模的在線課程中,學生的能力、語言又不盡相同,這可能給學生的互評帶來新的挑戰[3]。因此,本文的主要思路是在沒有黃金標準[4]的條件下,結合學生以往的互評工作經驗對學生的評價能力進行估計,并設計互評分配算法。

2 互評質量控制的簡述(Overview of quality control of peer grading)

學生互評本質上是一種眾包,而眾包是一種將任務通過互聯網外包給個人的方法。這種方法將具有特殊需求的任務分布式地發放出去,其目的是結合群眾的智慧。然而眾包之所以受到很多爭議,正是由于參與眾包任務的工作者大多不是專業人士。如果任務涉及了專業的知識,那么并不能保證工作者們給出的結果的準確性[5]。

目前,三大MOOC平臺之一的Coursera已經將互評機制引入課程學習的過程中。學生的作業全部需要上傳到服務器,每個作業包含一個評估準則,它描述了該作業的打分標準[6]。在學生評閱之前,工作人員大約需要完成12份作業的評閱工作,其中8份用來對每個學生進行訓練,剩下的4份用來估計學生評閱的準確率。學生在每個作業的評閱過程都包含兩個階段:校正和評價。

在學生完成校正過程后,便開始正式的評閱過程。在此過程中,學生會被分配五份作業進行評閱。但學生不知道這五份作業中的一份是工作人員所評閱過的作業,這份作業用來對學生評閱的準確度進行評估。綜上所述,每個學生會收到四份隨機分配的其他同學的作業,以及一份與工作人員共同評閱的作業。本算法應用于在線互評系統中,將學生評閱質量估計與學習能力結合起來進行學生評閱作業的分配,實現以更小的評閱數目得到更準確的評閱結果。

3 評閱質量估計方法及實驗分析(Estimation method and experiment analysis on Quality of Peer Grading)

3.1 問題定義

每次發布的作業會有k個評分標準,而每個評分標準又分為m個不同的評分。因此每個學生對某一作業給出的反饋為一組k維的向量S,而每份作業又會交給隨機選擇的n個人進行評閱,那么作業ti得到的反饋為一個由n個向量組成的集合,用表示該集合:

為作業ti得到的學生s1的評分。為中的第k個元素,則表示集合中每個向量的第k個元素組成的集合:

3.2 學生能力估計

在所有學生都完成評閱之后,我們可以得到由學生的評閱數據所產生的集合。若想對學生的評閱質量進行估計,那么需要得到每個作業的各標準分數。由于互評的特點,自身能力較強的同學傾向于給出較平均分更低的結果,而能力較弱的同學又有很大的幾率給出較平均分更高的結果[1]。每份作業的評閱者都會包含能力較強和較弱的學生,因此我們需要在n個評閱結果中將最高分和最低分去除,以將偏差較大的數據點去除。

定義1 表示作業ti的標準分數,則有:

其中為的第k個標準所得分數,是由集合所有向量的第k個元素的集合去除最大值和最小值后取均值得出。對所有k∈(1,n)進行計算后可以得到一個n維向量,則將該向量作為作業ti的標準分數,我們以此分數向量各元素的和來代表上傳了作業ti的學生s的能力估計值as,既:

3.3 評價質量估計

在前面介紹了對學生能力估計的方法,所得到的估計值結果質上是作業ti的標準分數,那么只要計算某學生給出的作業ti的評分與標準分數之間的偏差,便可以對學生的評價質量進行估計。

而計算該偏差需要選取適當的距離函數。歐氏距離和余弦相似度被廣泛應用于計算用戶評分的相似度。但是余弦相似度函數只能判斷出兩個評分方向上的相似程度,而無法識別距離上的相似程度。因此,我們選用歐氏距離來計算學生評分與標準得分之間的相似度。設兩個向量、的相似度為:

則學生si對作業ti評價的偏差為。由于每份作業會被n名同學評閱,為了保證平均分配,那么每個學生同樣需要評閱n份作業。即只要綜合學生評閱的n份作業的偏差均值便可以求得學生評閱的總體偏差。

定義2 設為學生s的總體偏差,則有:

3.4 歸一化和排序

依據3.2節和3.3節中所敘述的方法,我們可以分別計算出學生s的評價質量估計值ds和學習能力估計值as。但所得ds和as的標量卻并不相同,因此并不能將兩個估計值簡單相加和比較,而是需要依據各自的范圍區間分別對兩個值進行歸一化,將兩個標量映射到一個相同的范圍,以產生相互可比較的結果。

由于所有學生完成某次課程作業的互評工作后,評閱數據已經不再變動,即不會再有新生成的數據集加入,因此我們可以采用離差標準化的方法的同時將ds和as歸一化。用D代表所有學生的評價質量估計值d所產生的集合,則對學生s的歸一化方法如式(5)所示:

(5)

同理,對as采用相同的方法歸一化后,便可通過賦予相應的線性系數加權產生本次作業的評閱估計值es:

(6)

在MOOC中,由于在一門課程的學習周期中教師會布置多次作業,若只考慮學生單次的評閱偏差,并不能準確地反映學生的真實能力。因此本文采用跟蹤評閱質量的方法對學生的互評能力進行估計。將本次的評閱結果估計值和以往作業的估計值賦予一定的權值后結合起來,形成該學生的總體評閱估計值。用Sk代表學生s在完成第k次作業的評閱后得到的估計值es。

3.5 分層評閱

根據求得的總體估計值es,我們可以得到學生的評閱結果排名R。設某次作業參與評閱的學生總數為n。首先,在R中選取排名靠前的k個學生作為上層學生,其他的學生作為下層學生,則我們的目的是盡可能地將上層學生和下層學生按比例分配作為每份作業的評閱者,即假設每份作業的評閱人數為m,那么對于任意提交的作業,我們要選取或名上層學生來評閱。例如每份作業要求10人來評閱,而我們從排名中選取前60%的學生作為上層學生,則每份作業應該由6名上層學生和4名下層學生評閱。

在整個分配的過程中,我們采用了同班級回避的方法。因為如果不采取這樣的策略,那么可能會存在同一個班級甚至同一個寢室的學生相互評閱。若學生在完成作業的過程中存在相互討論的情況,那么會影響最終評閱的準確性。

(1)實驗數據集描述

在本實驗中,我們共計選取789名學生參加此次實驗。這些學生共同參與大學計算機相關課程,共有48課時,經歷12周完成教學任務。其中在課程中期依次布置三次作業:數據處理作業、圖片處理作業和科技論文寫作。數據集統計見表1。

(2)實驗過程

每次作業的評閱過程中,對學生提交的作業會分配10名學生進行評閱。而每次作業會由教師根據課程的需要制定7—10個評分標準,學生會根據作業的完成質量在評閱時對每個評分標準給出0—5的打分。

在課程的第一次作業中,老師會將課程的作業發布在網上。然后通過班級回避的隨機分配算法分配學生之間的評閱關系。最后,學生登錄互評系統并完成在線評閱。整個過程是單盲實驗,學生既無法知道他所評閱的作業來自哪一位同學,又無法知道自己的作業被哪些同學評閱。這會盡量使得學生給出的評閱分數不存在作弊的行為。第一次作業所得到的結果作為下一次作業分配算法的輸入數據。

在第二次作業中,為了直觀地比較實驗結果,我們通過學號把這些學生分為四組,其中第一組不做任何特殊的處理,只是依據班級回避的策略進行隨機分配。而第二、三、四組學生使用第一次作業的評閱結果作為上述分層評閱的分配算法的輸入數據,對學生進行排序和分配。其中第二組學生依據第一次作業的評閱結果,選取60%的學生作為上層學生;第三組選取70%的學生作為上層學生;第四組選取80%的學生作為上層學生。而代表學生能力估計和評價能力所占比重的權值k1和k2則各設置為0.5。

而在第三次作業中,仍然沿用第二次作業的分組方法進行評閱分配,但與其不同的是將前兩次作業的評閱估計結果作為輸入數據,實現迭代的計算過程。由于相比較來說,學生當次作業的評閱結果要比之前的評閱結果更為重要,因此我們設置權值a1=0.25,a2=0.75。

(3)實驗結果

得到學生的評閱結果后,我們通過計算每個學生各個評分標準所得所有分數的均值作為該標準所得的最終分數。設學生s1對學生s2的某一評分標準t1的評分為g1,s2的t1標準的最終得分為g,用ε表示該分數的偏差,則ε=g1-g。假設某學生的某個標準的最終得分為3.8分,那么無論是4或5分都是正確的分數,即|ε|<1。因此,我們可以根據所有學生評閱的打分情況統計出其中給出正確結果的學生票數的比例。更高的正確比例代表著這組學生有著更為一致的評閱結果,其評閱準確程度也會更高。實驗結果詳見表2和表3。

可以看出在根據第一次作業計算排名后所分出的排名靠前的學生相比較靠后的學生普遍具有更高的一致性。其中將上層學生的百分比設置為60%時取得了較好的結果,|ε|<1的比例相差5.9%,而當選取80%的學生作為上層學生時,該比例相差3.6%。

而在第三次作業的評閱中,由于結合了第二次的評閱結果估計值以及當前的評閱情況,因此產生了好的結果??梢钥闯?,設置60%的上層學生依然產生了最好的結果,上層學生和下層學生|ε|<1的比例相差17.7%,而相差最小的是按照7:3分配上下層學生的9%,大于第二次作業中的相差的最大值5.9%。這說明結合以往的估計值會大大提升算法的魯棒性,可以更好地識別出評閱更為準確的學生。而將上層學生和下層學生的比例設置為6:4時得到了最好的結果,因而可以看出算法對評閱

4 結論(Conclusion)

本文通過結合學生評閱能力和學習能力來對互評中學生的評閱準確性做出估計,準確地識別出評閱工作中的上層學生和下層學生。在后續的工作中,我們將研究如何通過算法所產生的估計值轉化為對學生評閱準確率的估計,進而將此算法應用于更為一般的眾包系統中,實現對眾包工作者的工作能力估計,以及實現使用更少的上層眾包工作者來實現較為準確的結果,以此來降低發布眾包任務的成本。

參考文獻(References)

[1] Kulkarni.C,Wei K.P,Le H.Peer and self assessment in massive online classes[J].ACM Transactions on Computer-Human Interaction,2013(39):1-32.

[2] Joglekar.M,Garcia-Molina.H,Parameswaran.A.Evaluating the crowd with confidence[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2013:686-694.

[3] Guo.S,Parameswaran.A,Garcia-Molina.H So who won?:dynamic max discovery with the crowd[C].ACM SIGMOD International Conference on Management of Data.ACM,2012:385-396.

[4] Welinder.P,Perona.P.Online crowdsourcing:Rating annotators and obtaining cost-effective labels[C].Computer Vision and Pattern Recognition Workshops.IEEE,2010:25-32.

[5] Bellare.K,Iyengar.S,Parameswaran.A,et al.Active Sampling for Entity Matching with Guarantees[J].ACM Transactions on Knowledge Discovery from Data,2013,7(3):12.

作者簡介:

張 忠(1990-),男,碩士生.研究領域:推薦系統.

宋繼紅(1963-),女,碩士,副教授.研究領域:計算機網絡通信,計算機網絡遠程控制,嵌入式技術.

付笑晗(1990-),男,碩士,工程師.研究領域:大數據信息安全.

猜你喜歡
質量控制
淺談機車總風缸的制作質量控制
淺談在公路橋梁施工環節的質量管理及控制
淺談石灰土基層施工及質量控制
黃土路基臺背回填的質量控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合