?

基于數據挖掘技術的體育訓練模式研究

2022-03-18 08:11
關鍵詞:粗糙集體育訓練決策樹

趙 蕾

(西安翻譯學院 體育部,陜西 西安 710105)

體育[1]是一門綜合性很強的學科,包含了人文體育科學、體育社會科學等。隨著計算機、信息技術飛速發展[2-4],特別是人工智能理論和數據挖掘技術的發展,為科學訓練與先進的訓練方法應用提供了良好的理論基礎[5]。

統計分析是國內外常用的科學分析運動訓練數據的方法[6]。王華滿[7]結合數據挖掘技術,研究了一種改進的體育訓練模式決策支持評估系統。容博尚[8]對大數據在體能訓練中應用的可行性進行了研究。劉錦偉[9]基于數據挖掘技術開發了一套訓練質量監控和臨場戰術統計系統,可為教練制定和調整訓練計劃起輔助決策作用。郝歡等[10]開發了一套體能訓練管理系統,能夠實現學員訓練的數據的管理和分析,從而提高學員的體育訓練水平。這些方法突破了以往教練員憑經驗指導訓練的現狀,為科學訓練提供了參考價值。

隨著訓練數據不斷積累,常規的統計分析技術在訓練數據的分析上可能存在不足,很難找到一個合適的模式來描述這些數據之間的相關性。數據挖掘的出現為在大量復雜的訓練數據中發現科學規律和相關性提供了優化方法[11]。數據挖掘技術綜合了統計學、人工智能、決策樹、數據倉庫和信息論等多學科技術,對運動訓練指標進行綜合分析。

為此,本文提出將數據挖掘技術應用于運動訓練指標分析。根據數據集的特點,確定指標參數的分類,引入數據挖掘技術建立體育訓練分析機制,構建分析模型。通過對數據準備、數據挖掘和結果解釋三個過程的分析,得出訓練指標的數據挖掘結果,完成數據分析。

1 相關概念

1.1 數據挖掘

一般情況下,數據挖掘過程可描述如下[12]:給定一組訓練數據T,其中元素記錄由多個屬性描述,所有屬性中只有一個屬性作為類屬性。令X=(X1,X2,…,Xn)為類屬性集合,其中Xi(1≤i≤n)表示非類別屬性并且可以具有不同的范圍,當屬性的值范圍為連續時,稱為連續屬性;否則,稱為離散屬性。令C={C1,C2,…,Ck}表示具有k個不同類別屬性集,則分類任務可描述為由數據集T確定從向量X到C的映射函數,即

進一步,可利用數據挖掘技術來表達隱函數H,有

其中:H為隱函數,H0表示函數的初始狀態;p表示函數的定義屬性;a表示元素記錄的范圍;n表示條件的范圍;e表示運動指數的范圍;f表示運動指數的離散指數。

1.2 訓練過程分析

訓練過程主要包括5 個環節,包括學生狀態診斷、訓練目標、訓練計劃、訓練方案、目標完成評估,如圖1所示。其中,訓練分析是體育訓練的關鍵環節。

圖1 訓練實施過程Fig.1 Training implementation process

2 運動訓練指標分析模型

2.1 基于粗糙集的數據預處理

粗糙集算法主要是在現有知識庫的基礎上,對知識的近似描述進行評估,消除數據處理資源中的冗余數據,獲得更準確、更可靠的決策結果[13]。傳統的粗糙集只能對分類資源數據進行評估和處理,而對數據的進一步處理需要離散化,這將導致信息和數據的缺失。本文采用鄰域粗糙集方法對體育訓練指標進行屬性約簡,并以環境因素為輸入參數,對體育訓練質量進行評價。本文規定決策集Dnt可定義為一個三元組,即

其中:U={x1,x2,…,xn}為數據集;D為體育訓練的分類等級;A為屬性集合。

基于此,將簡約后的初始集設為空集,計算出該體育訓練指標中剩余屬性的顯著性參數,如果這些顯著性參數均不為0,則優先選擇進入約簡集中。該過程可總結如下:

步驟1?α∈A,計算各個屬性的臨近關系矩陣Nα;

步驟2初始化屬性粗糙集RED為空,且令φ→RED;

步驟3遍歷屬性A中所有RED未包含的屬性,并計算各屬性參數的重要性,即?α∈A-RED,

步驟4選擇具有最大重要性的屬性αk,即

步驟5若αk>0,則將其添加入RED,且;否則跳轉至步驟3,直到滿足循環終止條件。

2.2 數據挖掘處理分析

數據挖掘處理分析分為三個步驟:數據選擇、數據處理和數據轉換。數據選擇主要是從數據庫中提取數據,形成目標數據。預處理是對提取的數據進行處理,使其符合要求。數據轉換是減少數據的維數。初始特征函數的表達式為

其中:m為數據特征變量;I為數據可變性;N為目標數據;v為計算量;θ為拼寫記錄,l為挖掘范圍;E為數據挖掘,E1為初始條件挖掘,E2為工作狀態挖掘;i為第i級數據。

2.3 基于決策樹的數據挖掘模型

決策樹模型因其易于理解、可解釋強等優點廣泛應用于數據挖掘中[14]。決策樹以樹形結構表示最終的分類結果,表達式可描述為

式中:E0為理論表達式函數;n為計算長度;a為元素記錄范圍;f為離散指標;e為指標范圍。

決策樹可通過一系列規則對數據進行分類,可從一組不規則元素中推斷出決策樹表示的分類規則。一般情況下,決策樹采用自頂向下的遞歸方法比較內部節點的屬性值,并根據不同的屬性值向下分支,其中葉節點是要劃分的類。因此,從根節點到葉節點的路徑即對應一個分類規則。圖2 所示為一典型決策樹構成,主要由決策節點、分支節點和葉節點三個部分組成。每個節點對應于一個非類別屬性,每個分支對應于該屬性的每個可能值,樹的每個葉節點表示一個類別。樹的中間節點通常用矩形表示,而葉節點用橢圓表示。然而,傳統決策樹容易受噪聲和異常數據干擾造成冗余分支問題。

圖2 典型的決策樹構成Fig.2 Typical decision tree composition

為解決上述問題,圖3 所示為本文改進的決策樹算法。算法可分為學習和測試兩個階段。學習階段采用自頂向下的遞歸方法訓練參數;之后,將模型及參數帶入測試階段進行驗證并對模型進行優化。該算法主要包括兩個過程:其一是生成樹;其二是對樹進行剪枝,去除一些可能存在噪聲或異常的數據。去除噪聲和異常數據的公式為

圖3 改進的決策樹生成過程Fig.3 Improved decision tree generation process

式中:Ln表示噪聲去除函數;x表示數據集合,xi為決策樹的第i層結果,同理xj為決策樹的第j層結果;n表示搜索條件的范圍。

3 仿真分析

3.1 仿真環境與數據準備

仿真環境為:windows10 操作系統下,i7 處理器,顯卡GeForce GTX 1080,內存6 GB,并在python環境下編譯程序。實驗數據由本學院提供,包括2016-2020 年部分大學生體質測試項目(包括田徑、球類、游泳、武術等)。剔除無用記錄后,實驗數據量為9860。

3.2 數據預處理

數據質量有很多評價因素,其中最重要的三個因素是準確性、完整性和一致性。但在實驗所用數據集中,存在著不正確、不完整、不一致的數據,因此需要對數據進行預處理,從而提高數據質量,進而提高數據挖掘結果的質量。此外,不同運動的指標包含不同屬性,如田徑類以時間屬性為標準,球類以得分、命中率、時間等屬性為標準。為有效進行數據挖掘,可將每個屬性的不同值映射到一系列整數,并使用整數替換該類別屬性的值。如果存在(q×10)個屬性類值,則每個原始值將唯一分配給區間[0,q] 中的整數?;诖植诩臄祿A處理后的數據及相關參數見表1。

表1 仿真數據及相關參數Tab.1 Simulation data and related parameters

3.3 數據挖掘結果

利用本文改進的決策樹分析方法對體育訓練指標進行分析,并與傳統的聚類指標分析方法和神經網絡方法進行對比,結果如圖4 所示。從圖4 的比較可以看出,改進決策樹較其他兩種方法訓練成績預測準確率更高。然而由于訓練器材精度或記錄誤差等因素,本文所使用的樣本數據具有一定程度噪聲。因此,三種方法預測結果呈波動,且隨著數據樣本個數增多,整體預測準確率不斷下降,這符合實際情況。此外,聚類方法在數據采樣個數大于170 后,準確率急劇下降。分析其原因,一方面由于系統誤差使得模型效果有所降低;另一方面數據中部分體育訓練類型指標類似(如球類和射擊,指標都包含得分、命中率),給聚類算法帶來一定干擾。

圖4 不同方法模型預測準確率Fig.4 Prediction accuracy of different models

4 結論

體育訓練過程積累了許多訓練數據,常規的統計分析技術很難找到一個合適的模型來描述這些數據之間的相關性。數據挖掘的出現為在大量復雜的訓練數據中發現科學規律和相關性提供了優化方法。為此,本文對數據挖掘、粗糙集、決策樹模型進行分析,提出了數據挖掘技術應用于體育訓練指標分析,為提高體育訓練質量提供參考。

猜你喜歡
粗糙集體育訓練決策樹
體育訓練教學中的平衡發展
基于Pawlak粗糙集模型的集合運算關系
營養健康與體育訓練結合的思考
一種針對不均衡數據集的SVM決策樹算法
基于二進制鏈表的粗糙集屬性約簡
決策樹和隨機森林方法在管理決策中的應用
優勢直覺模糊粗糙集決策方法及其應用
青少年體育訓練存在的問題及對策
多?;植诩再|的幾個充分條件
基于決策樹的出租車乘客出行目的識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合