?

基于人工智能技術的二級建造師執業資格考試智能化閱卷研究

2023-04-05 14:17崔冬
中華建設 2023年4期
關鍵詞:建造師評卷主觀題

崔冬

建造師執業資格考試是建筑行業的重要考試之一,近年來報考人數達到百萬之眾??荚囬喚砉ぷ髟诠?、公正、安全的前提下有序、高效地開展才能保障每名考生的權益。主觀題閱卷工作量大,工作流程復雜,持續時間長。利用人工智能技術開展智能化閱卷工作能夠大大節約社會資源,提高閱卷工作效率。本文分析了建造師考試的特點以及采用智能化閱卷的可能性,在二級建造師考試主觀題人工雙評模式閱卷工作結束后采用智能化閱卷進行了輔助質檢,并將智能化閱卷結果與人工閱卷結果進行對比分析。結果表明,智能化閱卷與人工閱卷的一致性較高,可以為人工閱卷提供有效的質量監控。

一、智能化閱卷發展情況

人工智能技術是一門利用計算機模擬人類智能行為科學的統稱,它涵蓋了訓練計算機使用其完成自主學習、判斷決策等人類行為的范疇。人工智能技術在信息處理等方面的應用已經非常廣泛,文字和語音識別、人工智能應答等應用隨處可見。在我國各類升學考試、職業技能類考試參與人數迅猛增長,主觀題閱卷工作的面臨著極大的挑戰,閱卷規模不斷擴大,投入的人力、物力也在不斷增加。我國在國民經濟和社會發展第十四個五年規劃中明確提出,要利用人工智能技術對社會資源進行優化整合。教育領域、職業技能類等考試的主觀題閱卷大規模閱卷工作可以利用人工智能技術開展智能化閱卷工作。開展智能化閱卷可以提高閱卷工作效率,提升保密安全性,優化社會資源配置,綠色節能環保,更好的保障考試的公平、公正。

最早對于人工智能技術運用將在考試評分工作是2005年美國教育考試服務中心利用作文自動評分系統進行托??荚嚨淖魑脑u分。我國對于利用人工智能技術進行主觀題考試閱卷工作的研究的起步相對較晚,發展至今,已經有在高考英語作文、語文作文等考試中作為質檢手段進行應用,人工評分和人工智能評分一致率達到90%以上。職業技能類考試有全國中級會計師考試、消防工程師采用了智能化閱卷作為正式評卷手段進行評分。在考試閱卷的工作領域中,智能化閱卷在技術上已經具備了一定的基礎。

二、建造師考試

1. 建造師考試情況

建造師是從事建設工程項目總承包和施工管理關鍵崗位的執業注冊人員,建造師是掌握管理、技術、經濟、法規多方面技術的綜合型技術人員,既要具備相關的理論知識,又要有現場實踐經驗和組織管理能力。建造師必須通過執業資格考試獲得資格并注冊,才能擔任施工管理的項目施工負責人或其他符合法律規定的業務活動。建造師作為建筑行業發展的中堅力量,建造師執業資格考試作為建筑行業準入類考試,需要把握好人才選拔的標準。

建造師執業資格考試分為綜合知識與能力和專業知識與能力兩個部分,其中,一級建造師的專業知識與能力共劃分為10個專業類別,二級建造師的專業知識與能力共劃分為6個專業類別。綜合知識與能力考試題型為客觀選擇題,專業知識與能力考試題型分為客觀選擇題和實務操作與案例分析題。實務操作與案例分析題考核內容以考察施工現場實踐經驗為主要目的,從多方面檢驗考生的知識結構和能力。每道實務操作與案例分析題包含多個問題,根據建筑、市政、水利等各個不同專業類別需要的知識儲備進行考核??己说慕ㄔO工程知識能力分層次遞進。作答內容包括文字論述、復雜公式計算、作圖等多種類型。

2. 建造師考試閱卷

建造師執業資格考試近年來報名人數都達到百萬人以上。建造師執業資格考試采取人工雙評閱卷模式,主觀題閱卷工作量極大。建造師執業資格考試的主觀題目考生作答字數較多,每道大題的作答字數在都在百字以上,且書寫字跡遠不如高考考生的工整、好辨認。人工閱卷工作需要在考生作答的海量內容中篩選出有效信息,并在專業范圍內判斷考生作答內容的科學性和邏輯性是否與標準答案一致。閱卷工作枯燥繁瑣,且工作持續時間長,以一級建造師考試為例,閱卷工作時長至少三周。閱卷工作不僅要保障準確率,同時還要做好各項安全保密措施。

人工智能技術通過深度學習能力模仿人工閱卷?,F今,少數有關考試采用智能化閱卷的研究已經取得了一定成果,但針對作答內容較為復雜的建造師執業資格考試的主觀題閱卷工作適用程度尚未可知。本文在與建造師考試主觀題題型和作答類型相近的考試中,選取已經采用智能化閱卷作為正式評卷員之一職業技能考試—全國中級會計師考試與建造師考試進行比較。建造師考試題型和作答內容在影響智能化閱卷實施效果的關鍵技術節點上依然很多不同之處:

(1)考試題型不同:會計考試題目不含作圖題目,近年一級、二級建造師考試部分科目中含有進度計劃網絡圖、關系繪制等作圖要求;

(2)作答內容復雜:會計考試提問針對性強,建造師考試考核內容廣泛,作答內容層次多,可能包含多個工作順序或者多個計算步驟;

(3)評判標準不同:會計考試計算題答案唯一,建造師考試計算題適用公式不唯一,計算最終結果也可能不唯一。某些建設工程知識名稱不唯一,工作順序不唯一,或者某些工程問題現場有多種處理辦法導致答案都不唯一。

與已經采用智能化閱卷的全國中級會計師考試不同,建造師考試實施智能化閱卷還需對閱卷的適用性和閱卷效果進行檢驗。

三、智能化閱卷應用

1. 智能化閱卷工作開展背景

2021年度云南省開展了二級建造師執業資格考試計算機化考試。計算機考試作答方式減少了智能化閱卷工作的開展技術上的困難,消除了由識別于作答字跡帶來的誤差。

本次考試的專業科目主觀題考核作答內容包括文字論述、工程計算、工作順序等。智能化閱卷工作是在人工雙評模式閱卷工作完成后作為輔助質量檢測開展的。

2. 智能化閱卷工作流程

結合二級建造師的現有的閱卷工作流程,智能化閱卷的工作流程如下:

(1)接收基礎數據:接收經過保密處理的考生編碼和考生作答信息,進行數據檢驗和核查。

(2)接收人工閱卷據:接收部分由人工產生的閱卷數據,進行數據校驗。

(3)樣本選擇和模型訓練:從產生人工閱卷的樣本中抽取訓練樣本,抽選的樣本按不同分數段抽取有代表性的樣本進行多模型訓練,在驗證集上進行模型優選。

(4)智能化閱卷:利用優選的模型對考生作答內容進行評分,形成智能化閱卷評分數據。

(5)提交復合卷:將智能化閱卷評分數據反饋至專家組進行復審。

(6)統計分析:對全部考生數據的智能化閱卷評分數據、人工閱卷數據進行綜合分析,形成智能化閱卷報告。

3. 智能化閱卷效果

以二級建造師計算機化考試答卷作為智能化閱卷軟件的閱卷能力進行檢測,針對閱卷時長、閱卷信度、閱卷準確度等方面進行分析對比。本次測試的試卷份數約5萬份,包含五個專業科目約20萬道試題。

(1)閱卷時長

智能化閱卷選取模型訓練樣本,訓練完成后進行正式閱卷。單科目約4萬道試題從模型訓練到完成閱卷需要大約2小時;多科目閱卷工作可同時進行,20萬道試題單評模式閱卷花費時長約3~4小時,雙評模式不超過8小時。相同的工作采用人工閱卷雙評模式的工作時長約為23小時。采用智能化閱卷的工作時間大大縮短,不到人工閱卷花費時間的一半,效率非常高。人工閱卷工作中由于試卷量大導致工作持續長,不可避免地帶來評分準確率下降和效率降低等問題。采用智能化閱卷輔助閱卷工作能夠幫助避免以上問題的發生。

(2)閱卷信度分析

信度是指測量結果的穩定性程度。使用同一工具反復測量,多次測量結果間的一致性就被稱為信度。信度高的測量是不因操作者或者操作時間等方面發生變化而使得測量結果發生較大變化。

評分者間信度是指多個評分者對同一批考生的答卷進行評分的一致性程度。智能化閱卷的信度高,則說明智能化閱卷與人工閱卷的評分一致性較高時,能夠說明智能化閱卷已經成功掌握標準答案和評分規則,已經具備正式閱卷工作的評分能力。

本文將基于經典測量理論選擇評分者信度的測量方法,根據評分人數、數據類型選擇Spearman相關和Pearson積差相關進行智能化閱卷的評分信度進行測量。本文采用SPSS軟件針對五個專業科目的四道主觀題智能化閱卷評分值和人工閱卷評分值進行了數據分析,結果如圖1所示。

圖1 五科目Spearman相關和Pearson積差數據

由圖1可得知,五個實務科目的Spearman相關和Pearson積差數值均在0.9以上。當數值越接近1時,智能化閱卷和人工閱卷的評分一致性越高。

由人工閱卷與智能化閱卷的各分數段評分分布的情況也能夠直觀的看出,智能化閱卷和人工閱卷的評分趨勢非常接近,一致性高。

圖2 科目1各分數段評分分布圖

圖3 科目2各分數段評分分布

圖4 科目3各分數段評分分布

圖5 科目4各分數段評分分布

圖6 科目5各分數段評分分布

(3)閱卷準確度

某實務科目的主觀題共四道題目,每題20分。以5000份人工評分作為學習樣本,共計11750份試卷,4×11750=47000道題。以10%(2分)的誤差率進行控制。

四道題的智能化閱卷與人工閱卷的2分差以內的評分一致率分別為:97.02%、98.15%、94.73%、99.06%。智能化閱卷與人工閱卷的分差統計如表1所示:

表1 智能化閱卷與人工閱卷分差統計

以10%(2分)作為誤差控制的情況下,智能化閱卷與人工閱卷的分差最大分差7分,僅有3例。出現智能化閱卷與人工閱卷分差大于誤差限值時,人工智能評卷系統將提示進行評卷復檢。下面針對同一題目人工閱卷和智能化閱卷評出的不同分值進行分析。

①分差分析

從表1中可以看出其中題目三的“分差>2分”一欄的百分比較其他題目高,分析其原因包括以下幾點:

a.該題目采分點較多;

b.該題目每個采分點分值高,智能化閱卷與人工閱卷評分不同時,分差也更大;

c.訓練模型問題,針對該題目作答內容模型無法捕捉到重要得分點的有效特征,出現錯評;

d.該題目評分規則比較復雜,難以形成較為統一的評分標準。

由以上幾點分析可以看出,智能化閱卷的訓練模型需要根據考試作答特點,增加訓練模型中習得多種、復雜評分規則的能力;在判斷得分方面不局限于個別關鍵詞語,不依賴于語句順序。

②誤評分析

針對該科目閱卷工作中智能化閱卷和人工閱卷產生的分差,對產生分差的題目進行復檢。在復檢過程中,將存在的幾種誤評類型總結如下。

a.智能化閱卷與人工閱卷都錯誤:

該題包括兩問,共6分。本題目智能化閱卷與人工閱卷零分差率達到97.37%。該題目的評分對比如表2所示:

表2 考生作答評分情況對比1

按照標準答案,該考生作答內容應得4分;智能化閱卷與人工閱卷評分都不正確,需要修正考生得分。

b.人工閱卷錯誤:

該題共一問,共1分,零分差率達到99.06%。

表3 考生作答評分情況對比2

按照標準答案,該考生作答內容應得1分,需要修正考生得分。

c.智能化閱卷錯誤:

該題共兩問,共6分,零分差率達到92.62%。

表4 考生作答評分情況對比3

按照標準答案,該考生作答內容應得0分。

根據智能化閱卷的情況,智能化閱卷產生錯誤的原因可能是:模型訓練樣本數量少,訓練程度不夠;評分邏輯復雜,模型學習效果不能實現復雜評分規則;模型對考生作答內容“理解”錯誤。

智能化閱卷作為人工閱卷的質檢手段可以很好地檢查錯誤評分情況。人工閱卷采用雙評模式作為減少錯誤評卷控制的手段,但題目分值較低時,雙評模式對低分值的錯誤或誤差感知不明顯,智能化閱卷作為質檢手段可以很好地幫助減少錯誤評卷。

四、結論與展望

智從本次閱卷工作看出,能化閱卷優勢非常顯著:

(1)智能化閱卷速度快,工作效率高,大大減少人工閱卷的人力物力投入。

(2)智能化閱卷與人工閱卷一致性高,已經具備正式閱卷工作的評分能力。

(3)智能化閱卷錯誤率低,能夠感知低分值評分錯誤,更好地保障考試的公平、公正。

(4)閱卷工作是一項保密工作,標準答案、評分標準以及考生作答內容等都需要嚴格保密,采用智能化閱卷能夠嚴格控制保密內容的知悉范圍,保密安全能夠得到有效控制。

智能化閱卷智有明顯的工作特點和適用范圍:

(1)能評卷適用范圍有數量限制,數量太少不適用智能評卷。本次評卷數量約5萬份,約20萬道題目。評分題目數量較少,出現的問題也比較少。在將來建造師考試的大規模試卷閱卷工作還應進行測評和調整,以發現更多的問題。

(2)作為訓練模型的初始樣本篩選很重要。保留各個不同分數段的得分樣本之外,還應針對不同評分人群以及篩除誤評樣本之后在進行正式閱卷。正確的、多樣的、優秀的樣本才能在將模型訓練成為一個擁有一定判別能力的合格 “閱卷員”。否則,模型就是一個拿著錯誤答案的“閱卷員”,無法公正共公平的完成閱卷工作。用于模型訓練的初始樣本數量最小值和樣本篩選規則需要在技術上有更新的突破才能更廣泛的適用于閱卷工作。

適用于建造師考試閱卷工作的智能評卷模型需要有進一步調整,首先要進一步準確“掌握”評分規則。除了對作答內容的科學性、邏輯性等內容進行判斷之外,還應包括在評判正確、錯誤之后的比較復雜的賦分規則。

其次,現今智能化閱卷尚未實現作圖題目的閱卷功能。建造師的考試是與工程實踐相結合的考核,需要對考生有作圖方面的綜合能力進行考核。智能化閱卷需要在該方面的技術有待研究。

除此之外,智能化閱卷的訓練模型無法完成建設工程行業知識、規范和標準的深層次內容的累計,模型訓練的每次學習從“零”開始。如果訓練模型可以針對題目選擇保留知識內容或者一直累知識,只清零賦分規則,則非常有利于復雜問題的評判。

人工閱卷工作在面對大規??荚嚂r候需要消耗大量的社會資源,智能化閱卷能夠很好的輔助閱卷工作,甚至成為正式閱卷的評卷員之一。推進智能化閱卷的應用將在主觀題閱卷工作中大大降低安全保密、人力、物力、方面的支出,更加綠色環保,更加高效,優化社會資源配置,更好的保障考試的公平、公正。

猜你喜歡
建造師評卷主觀題
淺談“立體幾何主觀題”的復習備考
淺談高中政治“認識類”主觀題答題技巧
極坐標方程主觀題考點分析
由模仿而來的“小小建造師”
高考政治主觀題對學生思維能力的考查
吉林省建造師資源配置分析
2019年對口升學考試網上評卷考生答題注意事項
一級建造師考試現狀分析與評價
“畫?!痹u卷
大規??荚嚲W上評卷中趨中評分的成因探析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合