?

基于機器學習的縱向缺失值處理方法在體育科學研究中的應用
——以運動對大學生執行控制影響的縱向研究為例

2021-07-26 02:12孫志遠陳愛國史一凡
南京體育學院學報 2021年7期
關鍵詞:向量機器條件

孫志遠,陳愛國,2,熊 軒,朱 昊,史一凡

(1.揚州大學體育學院,江蘇揚州225127;2.揚州大學體育運動與腦科學研究所,江蘇揚州225127)

近年來,隨著體育科學研究的不斷深入,縱向實驗研究在體育科學研究中越來越多,但在研究過程中由于外界因素干擾或研究參與者自身原因等,后測數據容易缺失。如果不能可靠地處理缺失數據,將導致分析結果產生潛在的偏差,甚至會得出誤導性的結論[1]。以往采用按照一定規律,選擇合理的數據對缺失數據進行替換的插補方法來處理缺失值,得到“完全數據集”后,再使用數據統計方法對數據進行統計分析與統計推斷[2]。常用的插補方法有回歸替換法、均值替換法和多重替代法等。但插補方法的選擇會受到缺失數據的比例、變量間的關聯度和時間限制等因素的影響,并且在不同的數據缺失模式和分布模式下,選擇不適合的插補方法仍然會使數據產生偏離,得出錯誤的結果[3]。如何科學可靠地處理后測數據的缺失值,成為一個擺在研究者面前需要解決的難題。

機器學習是一門多領域交叉學科,專門研究計算機如何模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能[4]。隨著人工智能浪潮的到來,作為人工智能核心的機器學習被廣泛應用于各個學科領域。臨床醫學使用機器學習算法建立疾病診斷、療效判斷預測模型[5];電氣工程領域通過機器學習算法對短期電力負荷進行預測[6];經濟學把機器學習應用于復雜經濟和金融網絡中[7]。機器學習在預測中的可靠性受到各大領域的強烈響應。相比之下,在將機器學習如何應用于處理體育科學研究中的后測數據缺失值方面尚無針對性研究;與常用的一些插補法處理缺失值相比,機器學習建立的預測模型適合任意缺失模式,對數據的分布類型要求較低,模型的擬合效果好,且穩健性好,偏差?。?]。因此,基于機器學習建立應用于體育科學研究中后測數據缺失值的預測模型是非常有必要的。

本研究以運動對大學生執行控制影響的縱向研究為例,全面地介紹如何應用機器學習來處理體育科學研究中的后測數據缺失值。執行控制是指在認知過程中有意識地對自動的、占主導地位的優勢反應的抑制,包括阻止與情境不適宜的優勢反應進入,終止被部分激活但與目標無關的信息進入,抑制不相關信息的激活[9-10]。執行控制作為個體認知、情緒和社會功能的核心,對其身心健康發展有著極其重要的作用[11-13]。尋找改善執行控制的有效途徑已成為各個學科和社會共同關注的熱點問題。近些年的研究發現,基線有氧適能和基線執行控制與后測執行控制有著密切的關系[14-17]?;诖?,本研究選擇通過基線有氧適能和基線執行控制對后測執行控制的缺失值進行預測。

綜上所述,本研究選擇機器學習算法建立預測模型,以基線有氧適能和基線執行控制為模型特征,對后測執行控制的缺失值進行預測,旨在探索縱向缺失值處理的新方法,為機器學習應用于體育研究中后測數據缺失值的處理提供實踐基礎。

1 方法

1.1 數據來源

研究對象為通過網絡和發放調查問卷的方式在揚州某大學招募的89名(男/女:36/53)在校大學生。所有研究參與者填寫了身體活動問卷和SCL-90癥狀自評量表,并進行了心肺功能檢查,色覺和(矯正)視力正常,研究參與者的生理和心理狀況正常,適合參加本研究。

隨機將所有的研究參與者分為實驗組和對照組,在實驗期間,實驗組進行10周有氧運動,對照組進行常規活動。最大攝氧量是能夠反映人體有氧適能水平最直接的指標[15],研究選用功率自行車(Elmed EGT 1000)來測量最大攝氧量[16]。使用陳愛國[17]開發的執行控制評價和測量方法,通過Flanker任務對執行控制進行測試。評價指標為不一致條件下的平均反應時減去一致條件下的平均反應時,差值越小,執行控制越好。

1.2 機器學習算法的選擇

研究選擇機器學習中的支持向量計算法來建立預測模型。支持向量機采用結構風險最小化原則,在小樣本條件下仍然可以獲得良好的擬合能力[18]。支持向量機模型的最終預測結果由少數支持向量決定,對異常值不敏感,具有較好的“魯棒性”[19],算法也相對簡單。支持向量機還可以通過可靠的已知算法得到目標函數的全局最小值,將學習問題表示為凸顯優化問題[20]。

2 支持向量機預測模型

2.1 支持向量機算法

支持向量機算法求解回歸問題是在高維特征空間中進行的,高維特征空間中的數據是輸入數據通過非線性變換后的映射[21]。

設給定訓練集為{(x1,y1),(x2,y2),...,(xn,yn)},n表示訓練集數據數量,xi為輸入特征向量,yi為輸出值。設定目標函數:

式中:w和b為支持向量機的參數。

引入松弛變量ζ≥0和ζ*≥0將目標函數進行轉換:

約束條件為:

令L(w,b,ζi,ζ*,α,α*,μ,μ*)對w,b,ζi和ζ*i的偏導為零并代入式(3),可得:

支持向量機回歸函數可以表示為:

可以用核函數代替內積,轉換為:

式中: ),(ixxK表示核函數。

采用高斯徑向基函數作為核函數,具體表示為:

最終的回歸函數表示為:

2.2 建模的工作流程

(1)劃分訓練集和測試集

將所有樣本集隨機劃分為訓練集和測試集,其中訓練集為總樣本的80%(n=71),測試集為總樣本的20%(n=18)。

(2)數據預處理

采用標準化方法對數據進行預處理,該方法可以加快收斂速度,解決數據無量綱化的問題。

式中,x′(i)為第i個樣本的標準化值;x(i)為第i個樣本的實際值。為總樣本的平均值;σ為總樣本的標準差。

(3)根據訓練集建立支持向量機模型,選擇模型評價指標

選用均方誤差(RMSE)和決定系數(R2)來評價后測執行控制缺失值預測模型的性能。

RMSE表示為:

式中,m為樣本總數,y為實際值,y′為預測值。RMSE越接近零模型性能越高。

R2表示為:

式中,y為實際值,y′為預測值為實際值的平均值。R2越接近1表示模型性能越高。

(4)使用網格搜索確定模型最優參數

網格搜索通過交叉驗證方法,將估計函數中每一個參數的所有可能取值都分別生成一個列表,然后把每個列表中的值都進行組合,所有的組合結果就生成了“網格”,以此將學習算法優化至最佳。在擬合函數嘗試了所有的組合結果后,返回一個最合適的學習器,自動調整至最佳參數組合。

(5)輸入測試集對后測執行控制缺失值預測模型的性能進行測試和分析。

綜上可知,建立基于機器學習的后測執行控制缺失值預測模型的工作流程如圖1所示。

圖1 后測執行控制缺失值預測模型的工作流程Fig.1 The workflow of prediction model of missing values on executive control at post-test

3 結果

執行控制的評價指標是不一致條件下的平均反應時減去一致條件下的平均反應時得出的差值。因此,執行控制的缺失意味著一致條件下的平均反應時或者不一致條件下的平均反應時存在缺失。本研究將執行控制缺失值的預測模型分為一致條件下的平均反應時預測模型和不一致條件下的平均反應時預測模型,通過這兩個模型更加細致精確地預測執行控制的缺失值。此外,為了展現出后測執行控制缺失值預測模型的優越性,選擇插補方法中常用的回歸替換法和均值替換法與預測結果進行對比。

3.1 一致條件下的平均反應時預測結果

圖2為預測模型對測試集數據中一致條件下的平均反應時預測的結果。從圖2可以看出,一致條件下的平均反應時的實際值和預測值有多點近乎重合,相差很小。預測模型獲得了理想的預測結果,驗證了該模型的有效性。

圖2 一致條件下的平均反應時預測結果Fig.2 The predicted results of average reaction time under congruent conditions

表1為預測模型、回歸替換和均值替換三種方法對一致條件下的平均反應時缺失值進行處理后的結果對比。從表1可以看出,預測模型方法的最大絕對誤差為20.86 ms,最大誤差率為4.87%,平均絕對誤差為11.32 ms,平均誤差率為2.41%,都低于回歸替換法和均值替換法?;貧w替換法的各項誤差指標全部低于均值替換法。

表1 不同方法處理一致條件下的平均反應時缺失值的結果比較Table 1 Comparison of the results of the missing values of the average reaction time under congruent conditions by different methods

3.2 不一致條件下的平均反應時預測結果

圖3為預測模型對測試集數據中不一致條件下的平均反應時預測的結果。從圖3可以看出,不一致條件下的平均反應時的實際值與預測值同樣相差很小,擬合效果很好。預測模型可以描述測試集中數據的變化趨勢。

圖3 不一致條件下的平均反應時預測結果Fig.3 The prediction result of average reaction time under incongruent conditions

表2為預測模型、回歸替換和均值替換三種方法對不一致條件下的平均反應時缺失值進行處理后的結果對比。從表2可以看出,預測模型方法有著很大的優越性,其最大絕對誤差為44.54 ms,最大誤差率為7.19%,平均絕對誤差為16.6 ms,平均誤差率為3.02%,在各項誤差指標上都比回歸替換方法和均值替換方法低。當數據發生較大的波動時,均值替換法不能很好描述這種變化趨勢,從而產生了較大的絕對誤差。

表2 不同方法處理不一致條件下的平均反應時缺失值的結果比較Table 2 Comparison of the results of the missing values of the average reaction time under incongruent conditions by different methods

3.3 模型評價指標

表3為一致條件下的平均反應時預測模型和不一致條件下的平均反應時預測模型的RMSE和R2。結果表明,兩個模型的決定系數分別達到0.96和0.95,都大于0.85,這證明兩個模型都很可靠。因為一致條件下的平均反應時實際樣本值本身較小,所以在決定系數相差不大的情況下,不一致條件下的平均反應時預測模型的均方誤差高于一致條件下的平均反應時預測模型的均方誤差。

表3 模型評價指標Table 3 Model evaluation index

4 結論

本研究以運動對大學生執行控制影響的縱向研究為例,提出和驗證了一種基于機器學習的縱向缺失值處理新方法,可以有效地解決體育科學研究中的后測數據缺失值問題,為今后機器學習應用于體育科學研究中的后測數據缺失值處理提供了實踐基礎。

猜你喜歡
向量機器條件
機器狗
向量的分解
機器狗
排除多余的條件
聚焦“向量與三角”創新題
選擇合適的條件
未來機器城
為什么夏天的雨最多
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合