?

普通話水平測試第四題“人機”測試模式信度研究

2023-02-03 08:40楊惠麟
綿陽師范學院學報 2023年1期
關鍵詞:人機語料普通話

楊惠麟,張 俊

(1.西南醫科大學,四川瀘州 646000;2.瀘州市語言文字工作委員會,四川瀘州 646000)

一、引言

普通話水平測試(Putonghua Shuiping Ceshi,以下簡稱PSC)是一項國家級語言測試。公平公正地執行測試,是國家憲法賦予的使命[1]。自從2007年計算機輔助測試在安徽、上海開始試點,PSC開始了計算機測試前三題,兩位測試員測試第四題(“命題說話”項)的機測模式。這一模式在全國施行已有十多年。國內的研究者通過大量的數據收集和分析認為:計算機輔助測試是普通話水平測試未來的發展方向,但尚有許多技術問題需要解決。機測系統有其明顯的優點,也有顯而易見的不足。其優點主要表現為:減少了測試員的勞動,增加了測試量;減少了測試員主觀因素的干擾,從而增強了測試的客觀性和公正性。其不足主要有:計算機對“語音標準程度”的評測,“正誤”辨識度高,“缺陷”辨識不準確[2];計算機測試系統評測時“字化”現象明顯[3];對整體的停連、輕重、節奏、流暢度把握不準確,不能有效評測朗讀的語感;語調、協同發音、音節韻律等具有“模糊性”的語音現象,成為制約機評準確性的瓶頸[4];機評前三題使兩名測試員在測評第四題時無前三題的參考,對受測者“語音面貌”不能準確定檔,導致評分差異加大,復評率上升[5];機評導致復審二甲錯檔人數增加。

從2019年開始,計算機輔助測試又向前邁進了一大步,進入計算機與一名測試員共測第四題的全新階段。這就意味著,普通話水平測試工作已大部分由計算機完成,測試員只參與第四題,并且是與計算機共同評分,采用“人+機”的全新模式。其信度目前尚無相關的研究。

二、研究設計

此次研究采用描述性統計分析方法,以2018、2019、2020年瀘州市語言文字工作委員會測試站的測試數據為依據,篩選出偏差復審的被試成績,提取第四題的評分細節進行分析。普通話水平測試中的復審包括一級復審、抽查復審、偏差復審、異常復審。偏差復審是指普通話水平測試中同一應試人第四題“說話”項的語料因計算機和測試員(2019年以前是兩位測試員)評分差異較大,由復審員(國家級測試員)進行再次審核測評的考評機制。應試人的最終成績由復審員給出的分數與一評時計算機或測試員中評出相近成績一方的分數平均而成。此次研究偏差復審的標準,四川省語言文字工作委員會文件要求為:2018、2019年為2分,2020年為1.5分。本研究只選取偏差復審的語料進行統計分析,其優點是:統計偏差復審率,可以直觀分析計算機與測試員的評分差異;通過復審員的復審可以進一步比較計算機與復審員的評分差異;便于從龐大的測試數據中選出有代表性的數據進行分析研究,減少了人力、物力和時間上的浪費。

由于計算機測試系統對第四題只提供一個總成績,筆者分別進行了三年復審率比對,2019、2020年復審數據計算機與測試員評分差、計算機與復審員評分差、復審成績等級變化比對,異常偏差復審語料50例語音面貌描述和第三次測評比對、討論,并輔以測試員評分問卷調查表,多維度地探求計算機測試第四題的信度。

三、偏差復審數據分析研究

(一)(2018—2020)偏差復審復評率比對

從表1的數據看,2018年采用兩名測試員測試第四題(即“人+人”模式),復評率高于施行人機共測(即“人+機”模式)的2019年和2020年;2020年復評率略高于2019年,應是復評標準由第四題機器與測試員相差2分復評,改為相差1.5分復評的緣故??梢钥闯?,“人+人”模式比“人+機”模式的復評率高。造成“人+人”模式復評率高的原因主要有:1.由于前三題為計算機測試,測試員只測試第四題,沒有更多語料參考對受測者“語音面貌”準確定檔;2.“人+人”模式的兩名測試員是隨機確定的,雙方并不了解彼此的評分習慣,造成復評率高。但“人+人”模式的高復評率并不是壞事,有爭議的語料可以通過復審再次測評,從而保證了測試成績的準確、公正?!叭?機”模式中,測試員有可能在長期的測試實踐中與計算機“磨合”,自覺或不自覺地迎合計算機進行評分,從而使看似公平的測試有最終成為計算機“一言堂”的風險。

表1 偏差復審復評率比對

(二)偏差復審語料計算機與測試員評分比對

從表2可知,2020年偏差復審的語料以測試員評分高為主,占94.8%;計算機評分高的僅占5.2%。以往研究者認為計算機對前三題的測試存在過于嚴苛的現象,例如:1.計算機把原本應判為“缺陷”的語音判為了“錯誤”;2.對語調、協同發音、音節韻律等具有“模糊性”的語音現象判斷不準確;3.對整體的停連、輕重、節奏、流暢度把握不準確,不能有效評測朗讀的語感。第四題“說話”項,被測者根據所選的話題自由說話三分鐘。面對不同說話對象,沒有固定模板,語料測評情況更為復雜,這一現象似乎更為明顯。除上述幾點外,由于計算機評測時對無效語料時間的計算比測試員更為精準,因而會扣掉更多的分值,加之評測第四題的測試員評分往往是“定性”——整體語音面貌判斷和“定量”——扣分數值相結合,因此導致計算機評分普遍偏低。

表2 2020第四大題偏差復審語料“人機”評分比對

(三)偏差復審語料復審員與計算機、測試員評分比對

為了使研究數據更為客觀,此次研究的第三審測試員均選取未參加過“人+機”模式測試,對計算機評分習慣不熟悉的測試員。從表3和表4可知:1.計算機、測試員、復審員三方測試比對,2019年復審員評分最低,2020年計算機評分最低,初評測試員兩年評分均為最高;2.復審員與計算機評分2019年至2020年分差值越來越小,與初評測試員分差進一步加大。這一情況是否說明,“人+機”模式說明了瀘州市部分省級測試員業務水平有待提高,專業能力訓練需要加強;專業能力強的復審員與計算機的評分高度一致,反映出計算機評分的準確性高,亦或更熟悉計算機的復審員會自覺或不自覺地為降低與計算機的分差而迎合計算機評分,從而使復審有失公正。這一統計與此次研究從2019年和2020年所有偏差復審語料中選出的異常偏差復審語料50例的情況一致。從表5的統計數據可看出,第三審測試員的評分與第一審測試員評分一致率高達70%,而復審員與計算機評分一致率竟高達90%。即便考慮測試員業務水平差異導致的誤差,從統計數據的呈現上看,也讓人憂慮偏差復審這一環節,復審員會自覺或不自覺地迎合計算機的評分規律評分,從而使復審失去意義。

表3 2019年偏差復審語料“人機”評分差比對

表4 2020年偏差復審語料“人機”評分差比對

表5 異常偏差復審語料50例“人機”評分差比對

(四)偏差復審語料等級變化比對

四川省偏差復審由語言文字工作委員會辦公室組織,選調其他地市州國測員組織進行。從表6數據比對可見,機測第四題以后,復評等級變化情況不大,整體仍以等級降低占絕對高值,即便在異常偏差復審50例中也高達42%(見表7)。這一數據說明:1.復審等級降低占絕對高值這一情況在計算機參與第四題測試前后沒有發生改變;2.異常偏差復審50例中的語料,雖因各種原因造成評分困難或分差較大,但等級不變的卻能高達58%,這說明計算機對情況復雜、難于評分的語料定檔還是比較準確的。此50例語料為2019、2020年共445例偏差復審語料中精選的有較強語音特征和評分爭議的語料。等級降低的21例中“二乙”降為“三甲”15人,“二甲”降為“二乙”的6人。

表6 2020年與2018年偏差復審等級變化比對

表7 異常偏差復審語料50例等級變化情況

(五)異常偏差復審語料50例分析

1.8號語料

評分情況如下:第一審計算機評分23分、測試員評分29分;復審評分25分;三審評分28分。語料情況描述:“語音標準程度”定檔四檔,但因考前未做準備,有效話語時長共五個時段,共34秒左右。此語料計算機與一審測試員分差6分,與復審員分差2分,與三審測試員分差5分,其原因應為:(1)計算缺時的時間差異;(2)評判無效語料的標準。其中計算缺時時長應為最主要的原因,計算機顯然比人工更為精確,測試員之間對時間的計算差異較大。這樣的情況同樣出現在4號、38號、40號、44號、47號、48號、49號語料上。依據《普通話水平測試大綱》(教育部、國家語言文字工作委員會發教語用〔2003〕2號文件)的評分標準,說話不足3分鐘,酌情扣分:缺時1分鐘以內(含1分鐘),扣1分、2分、3分;缺時1分鐘以上,扣4分、5分、6分;說話不滿30秒(含30秒)本測試項成績計為0分[6]。另在評分時,補充評分標準為:(1)說話時間不足2分鐘的,“語音標準程度”已得分數再降2分;“詞匯語法規范程度”和“自然流暢程度”至多定為二檔,這兩項各自再扣1分或2分。(2)說話不足1分鐘的,“語音標準程度”已得分數再降4分;“詞匯語法規范程度”和“自然流暢程度”至多定為三檔,這兩項各自再扣3分或4分。缺時1分鐘以內(含1分鐘)按20秒為一個檔次計,缺時1分鐘以上按30秒一個檔次計,時間計算相差幾秒,有可能產生8分至9分,甚至更大的分差。這一標準使測試員在具體實施時很難操作。測試員之間差異大,計算機與測試員之間差異更大。隨著評分方式的變化,為了考試的公平公正,國家相關部門應重新出臺更適合目前測試方式的評分細則,減少計算機與測試員之間對“缺時”的差異,使評分更為客觀公正。

2.44號、19號、21號語料

評分情況如下:第一審計算機評分29分、測試員評分33分;復審評分30分;三審評分33.5分。語料情況描述:“語音標準程度”定檔四檔,“詞匯語法規范”和“缺時”兩項容易判斷,分差應出現在“自然流暢度”上。由于準備不充分,談話者在1∶15—2∶40區間,每一兩句出現2~3秒的停頓多次,2∶40—2∶48出現8秒停頓一次。另有兩例為19和21號,將這兩例語料由兩名省測員進行了第四次測試并由幾名測試員進行了討論,較為認可的等級均為“二乙”,與初測等級相同。經討論認為這兩例語料的共同特點為:(1)整體語音面貌和語音標準程度尚可定為四檔;(2)由于受測者在說話初始階段,因緊張等因素,自然流暢度受到影響,但隨著自我調整慢慢恢復到正常狀態。其中21號語料此特點最為明顯。三次評分均為計算機最低,復審員其次,第三測最高。其中初評與第三次測試的測試員評分分差低于1分,而與計算機分差為3~4分,和復審員分差2~3分。這一現象說明計算機的評分過于死板,忽略了人在情緒變化時語言流暢度正常的變化,而一般的測試員對這一現象有更包容的態度。

停頓是一種自然的言語現象,停頓的頻次和長短常常被用作言語流暢與非流暢的量化標準。關于停頓的頻次和時長,國內外語言學者都做了許多的研究,但在自然狀態下的言語過程中,影響停頓的因素很多,例如年齡、性別、習慣、情緒等,因此并未有公認的較為客觀的界定流暢與非流暢的明確標準。這使計算機和測試員在判斷“自然流暢”“基本流暢”“語言不連貫”上很難統一。由于沒有數據,無法知道計算機是怎樣給一段3分鐘話語的流暢度進行評分的,加之《普通話水平測試大綱》上并沒有明確的頻次和長短的參考數值,測試員基本上是依據自己的專業和生活經驗來進行評分。從評分的情況對比來看,測試員的“人腦”似乎比“電腦”在評分標準上更具靈活性和包容度,能依據說話人的年齡、語言習慣、情緒等作出判斷,因此普遍評分偏高。除了以上3例語料,在這50例語料中,還有多個語料亦是這種情況。

3.32號、40號語料

評分情況如下:第一審計算機評分30分、測試員33.5分;復審評分30分;三審評分34.8分。語料情況描述:語音面貌定檔三檔(扣4分)或四檔(扣5分),此語料在“詞匯語法規范”“自然流暢度”和“缺時”上無爭議。評分差應為錄音效果不好(話筒距離受測者太近或錄音設備故障)導致對“語音標準程度”的扣分。40號語料也是這種情況。40號評分情況如下:第一審計算機評分30分、測試員33.5分;復審評分31分;三審評分34分。為此,筆者組織了兩名測試員第四次測試和討論。結果為:32號和40號語料排除掉錄音效果干擾,單從整體語音面貌印象來判斷,32號為二乙高段,40號為二乙中段。有研究認為,“人腦”可以自動“修復”因外界因素導致的語音信息不全,排除干擾,從而獲得更多的信息。而這也是導致計算機和測試員面對此類語料分差大的原因。如果上述兩則語料不是受測者自身操作不當,那么提高計算機的語音識別能力,縮小與“人腦”的差距,會讓考試更為公正。

(六)測試員問卷調查情況

本次研究,采用了問卷調查法,對參與初審的測試員進行了測試感受的問卷調查。此次問卷共7個問題,共20名瀘州市語言文字工作委員會測試員參與,有效問卷14份,調查結果如下:

問卷問題分別為:1.測試的過程中,你是否有不自覺地根據電腦的評分特征評分的行為?2.測試的過程中,你是否會為減少偏差分數,根據電腦的評分特征迎合電腦評分?3.你認為機測與人測分數偏差最大的是哪項?4.你認為機測與人測分數偏差最小的是哪項?5.你認為機測與人測的分數偏差是否能接受?6.你認為電腦測試的最終結果是否可信?7.你認為電腦會不會最終完全取代測試員?

從問卷調查的結果,可以分析出以下信息:1.測試員有可能在長期的測試實踐中與計算機“磨合”,自覺或不自覺地迎合計算機進行評分,從而使看似公平的測試有最終成為計算機“一言堂”的風險。2.從測試員主觀感受來看,“詞匯、語法規范程度”評分結果偏差最小,“無效話語界定”評分結果偏差最大。3.大部分測試員認為機測與人測的分數偏差是能接受的,并認為電腦測試的最終結果基本可信。4.大部分測試員認為電腦不會完全取代測試員,認為普通話水平測試是仍需要測試員參與的。

四、結論

從本次研究數據分析的結果,可以得出如下的結論:普通話水平測試機評第四題“命題說話”測試成績基本可信,大部分測試工作者對“人+機”測試模式及測試結果是認可的。但第四題“命題說話”測試目的,是測查應試人在無文字憑借的情況下,使用普通話進行言語表達和交際的能力。不僅要測試語音標準程度,還要測試詞匯語法規范程度,更要測試其使用普通話時的說話語感、自然流暢度。因此“人+機”模式仍有如下問題需要解決:1.測試員、復審員在長期的測試實踐中與計算機“磨合”,自覺或不自覺地迎合計算機進行評分,從而使看似公平的測試有最終成為計算機“一言堂”的風險。2.計算機、測試員、復審員三方測試比對,計算機評分最低,最為嚴格,而這種嚴格與第四題測試目的不符,顯得過于“嚴苛”。之前有研究者提出計算機在前三題的測試中存在以下問題:“語音標準程度”的評測,“正誤”辨識度高,“缺陷”辨識不準確;評測時“字化”現象明顯,對整體的停連、輕重、節奏、流暢度把握不準確;對語調、協同發音、音節韻律等具有“模糊性”的語音現象不能準確地處理判斷。這些問題最終使計算機評分普遍低于測試員,從而造成了“嚴苛”這一現象。由于此次研究時間偏短,數據不夠充分,未能作進一步探討,但從已知的數據看,計算機在“自然流暢程度”和“缺時”的評分上與測試員有較大分歧,且評分較低。3.計算機對錄音效果要求高,錄音語料出現意外干擾會嚴重影響評分的準確性。

通過此次研究,筆者對今后普通話測試工作有如下建議:1.普通話測試應緊跟科技發展的步伐,不斷完善測試系統平臺的各項工作,進一步解決計算機語音識別系統存在的技術性問題;采集更多的語料數據,完善數據庫;完善系統管理功能;緊跟時代特征,完善測試題庫建設。2.建立協調互補的多維度評分體系和測試管理體系。如:評分差異最大的“無效話語界定”可否將評分細則進一步細化,以減少評分偏差;“缺時”扣分計算機比測試員更精準,這項評分是否可由計算機獨立完成,測試員不再參與;“自然流暢度”評分,由于測試員在評分標準把握上更具靈活性和包容度,能依據說話人的年齡、語言習慣、情緒等作出判斷,更符合第四題的測試目的,能否由測試員獨立評分或測試員評分權重更大;3.應處理好計算機與測試員之間的協作關系。隨著計算機技術的不斷發展,計算機將更多地參與到國家各級各類考評測試中,處理好“人機”關系是不得不思考的問題?!叭藱C”誰為“主導”,誰為“輔助”?揚長避短,充分發揮“人”與“機”各自的優勢,才能使測試更加客觀、公正。

猜你喜歡
人機語料普通話
人機“翻譯員”
基于歸一化點向互信息的低資源平行語料過濾方法*
從內到外,看懂無人機
我教爸爸說普通話
“人機大戰”人類智慧遭遇強敵
未來深空探測中的人機聯合探測
《苗防備覽》中的湘西語料
17
國內外語用學實證研究比較:語料類型與收集方法
廣而告之推廣普通話
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合