?

基于主成分分析和兩階段聚類分析的汽車行駛工況評價模型

2022-04-22 10:41惠姣姣云南大學數學與統計學院云南昆明650091
關鍵詞:特征參數運動學聚類

惠姣姣(云南大學數學與統計學院,云南 昆明 650091)

0 引 言

近年來,隨著汽車保有量的快速增長,我國的交通狀況得到了很大改善,研究表明,以新標歐洲循環測試(new European driving cycle,NEDC)工況為基準所優化標定的汽車,實際油耗與法規認證結果偏差較大[1].多年來,這一問題始終沒有得到糾正,這無形中影響了政府的公信力.造成實際油耗與法規認證結果偏差較大的原因,一方面是我國長期以NEDC工況為基準優化汽車的各項特征參數,隨著我國道路及交通狀況的改變,NEDC工況越來越不符合我國實際情況[2];另一方面,我國地域遼闊,各個城市發展程度、交通狀況及氣候條件不同,因此各個城市的汽車行駛工況也存在顯著差異.在這種條件下,構建符合某個城市實際情況的汽車行駛工況顯得尤為重要.

汽車行駛工況的確定,是汽車行業一項重要的基礎技術,是車輛能耗、排放測試方法和限值標準的基礎,也是汽車各項特征參數優化的主要基準.該技術的實施,需調查車輛的實際行駛狀況,并運用統計分析方法,定量描述在特定交通環境下(如:高速公路、城市道路等),小轎車、公交車和重型車等車輛的行駛狀況[3].對于汽車行駛工況的構建,劉明哲[4]利用基于主成分分析(principal component analysis,PCA)的分層聚類方法,將汽車行駛工況凝聚為均速工況、加速工況、減速工況和怠速工況4類;李耀華等[5]通過馬爾可夫蒙特卡洛方法,構建了西安市城市公交行駛工況;劉宇等[6]利用基于PCA的K-means均值聚類,對海灣大學城的汽車行駛工況與交通安全進行分析;徐婷等[7]首先利用馬爾科夫蒙特卡洛模擬法,構建行駛工況,并利用基于PCA的K-means均值聚類,將運動學片段聚為加速路段、勻速路段和道路線形復雜路段3類.

已有文獻都是利用常見的聚類分析方法來處理數據,但當樣本量很大時,聚類結果的精確程度會有所下降.由于本文數據樣本量較大,因此在對汽車行駛工況進行分析時,采用改進的聚類分析方法——兩階段聚類分析(two-stage cluster analysis,TSCA).本文首先選取與汽車行駛工況有關的18個特征參數,并利用PCA將其綜合成若干個主成分,在此基礎上再進行TSCA,以期建立基于PCA和TSCA的汽車行駛工況評價模型,即PTV評價模型.

1 數據預處理

汽車行駛工況的評價,需建立在運動學片段的基礎上進行,而本文獲取到的數據是GPS記錄的實時數據,且數據中存在大量異常值.因此,首先要對數據進行預處理,并在此基礎上將實時樣本數據劃分為運動學片段.運動學片段是指汽車從怠速狀態開始至下一個怠速狀態開始之間的車速區間[8],其提取應在時間連續并修正異常值的基礎上進行.

本文使用的數據為某輛車時間段為2017年12月18日13:42:13—24日13:37:49 GPS設備所采集的數據,總樣本量為185 725條.汽車在行駛過程中,由于各種客觀因素,可能會導致采集到的數據含有異常值,對異常值進行如下處理:

(1)由于隧道、高層建筑覆蓋等多種因素,導致檢測車速的GPS信號丟失,而造成記錄時間出現中斷.對于時間不連續問題,利用Rstudio1.4.1103軟件對數據進行插補,并按時間順序重新排列[9].

(2)汽車的加速度和減速度超出理論值.通常,普通轎車速度由0增加至100 km/h的時間應>7 s,緊急剎車時最大減速度應為 7~8 km/h[10].經 過計算,當車速為0~100 km/h時,加速度應≤3.968 3 m/s2,若>3.968 3 m/s2,則按邊界值 3.968 3 m/s2來修正.

(3)怠速時間>180 s.怠速即汽車停止運動,但發動機保持最低轉速運轉的連續過程.通常,怠速時間>180 s為異常情況,此時,將該部分劃分為2條運動學片段即可.

(4)由于車主停車不熄火等候,或停車熄火了,但采集數據設備仍在運行等不當操作,從而產生異常停車數據.對于此類異常值,使用Rstudio1.4.1103軟件對等候時間進行判斷,若≤180 s,按怠速處理;若>180 s,則視為長時間停車,從而分成2條運動學片段.

(5)由于堵車等多種外在因素,導致的車速長時間過低(最高車速<10 km/h).本文將斷續低速行駛時間以180 s為界限,若堵車時間>180 s,則屬于異常情況,將其劃分為2條運動學片段;若≤180 s,則按照怠速的情況處理.

對185 725條原始數據經過上述5種情形的異常數據處理,共填充15 277條數據,經處理后,時間上變為連續的,數據量變為201 002條.根據運動學片段和怠速的定義,應該以GPS車速為0作為分界點,劃分運動學片段.本文采用Rstudio1.4.1103軟件中的base包將201 002條數據劃分為1 743條運動學片段.該車一段汽車行駛工況曲線如圖1所示,其包含7條運動學片段.

圖1 汽車行駛工況曲線

2 PTV評價模型的構建

2.1 汽車運動特征評價體系

在評估汽車行駛工況之前,首先構建一個合理的汽車運動特征評價體系.經過查閱參考文獻,評估體系中應包含18個特征參數,分別為平均速度、平均行駛速度、怠速時間比、平均加速度、平均減速度、加速時間比、減速時間比、速度標準差、加速度標準差[11]、經度、緯度、發動機轉速比、扭矩百分比、瞬時油耗、油門踏板開度、空燃比、發動機負荷百分比和進氣流量[12].其中,平均速度、平均行駛速度、怠速時間比、平均加速度、平均減速度、加速時間比、減速時間比、速度標準差和加速度標準差這9個特征參數的數據需根據運動學片段的劃分計算得到.

為方便表述,將1 743條運動學片段看作1 743條樣本數據,并將18個特征參數分別記為xi(i=1,2,3,…,18).從數據形式來看,各特征參數的量綱不統一,在建立模型之前,需對數據進行標準化處理.對于正向因子,采取(xi-xmax)/(xmax-xmin)進行標準化;對于負向因子,采取(xmax-xi)/(xmax-xmin)進行標準化[13].

2.2 PCA

由于特征參數過多,在建模時為了避免“維數災難”,首先對1 743條樣本數據的18個特征參數,進行PCA,將18個特征參數綜合成18個主成分,以達到降維的目的[14].PCA的總方差解釋如表1所示.一般情況下,主成分的累積方差貢獻率達到80.000%時,便認為對應的主成分具有良好的解釋原始信息的能力[15].前5個主成分的方差貢獻率達到82.156%,即前5個主成分解釋了82.156%的原始信息,這說明前5個主成分能較好地解釋18個特征參數的信息.

表1 總方差解釋

18個主成分的碎石圖如圖2所示.第1個主成分到第2個主成分的曲線非常陡峭;在第5個主成分之后,特征值降到<1,且曲線較為平緩.這說明在利用PCA處理汽車運動特征評估體系中的18個特征參數時,降維效果很好,前5個主成分能夠較好地代替18個特征參數的信息.

圖2 主成分分析(PCA)碎石

前5個主成分與18個特征參數的相關關系如表2所示.

表2 前5個主成分與18個特征參數的相關關系

選取的5個主成分記為F1,F2,…,F5,則5個主成分與各特征參數之間的關系為

由表2可以看出:第1主成分主要解釋了平均行駛速度、速度標準差、平均速度、發動機轉速、空燃比、進氣流量、油門踏板開度和加速度標準差8個特征參數的信息;第2主成分主要解釋了加速時間比、減速時間比和怠速時間比3個特征參數的信息;第3主成分主要解釋了發動機負荷百分比、扭矩時間比和瞬時油耗3個特征參數的信息;第4主成分主要解釋了經度和緯度2個特征參數的信息;第5主成分主要解釋了平均加速度和平均減速度2個特征參數的信息.這說明前5個主成分能較好地解釋18個特征參數的信息.

2.3 TSCA

聚類分析是一種數據規約技術,可以把大量的觀測值規約為若干個類,該技術被廣泛應用于生物行為科學、市場以及醫學研究中.聚類分析的一般步驟為:選擇合適的變量、縮放數據、尋找異常點、計算距離、選擇聚類算法、獲得一種或多種聚類方法、確定類的數目、獲得最終的聚類解決方案、結果可視化、解讀類和驗證結果[16].最常見的聚類方法是層次聚類和劃分聚類.考慮到數據樣本量較大,本文采用TSCA對1 743條樣本數據進行聚類分析.針對數據量較大的利用層次方法的平衡迭代規約和聚類(balance iterative reducing and clustering using hierarchies,BIRCH)算法進行準聚類.BIRCH算法基于CF樹生長的思想,對傳統層次聚類法加以改進,其實質是層次聚類方法與其他聚類方法相結合的多階段聚類[17],準聚類過程如表3所示.可知,BIRCH算法將1 743條樣本數據初步凝聚成15個子類.其中,第1個子類的施瓦茲的貝葉斯判別準則(Schwarz’s Bayesian criterion,BIC)值為1 744.221,在15個子類中數值最大,該子類包含的信息量最多.第5個子類的BIC值為1 139.408,在15個子類中數值最小,則該子類包含的信息量最少.

表3 準聚類過程

以15個子類為對象,利用凝聚法(agglomera‐tive hierarchical clustering method,AHCM),逐個凝聚子類,直到獲得期望的子類數量[18].15個子類凝聚為3類,分別為子類1、2和3,對應BIC值分別為2 243.811、1 958.271和 1 566.429,均>1 000.000,這說明最終凝聚成的3個類包含了足夠的信息量[12].根據汽車行駛工況將這3個類分別記為:低速工況、中速工況和高速工況.1 743條樣本數據中,含有11條離群值,對其進行去噪處理后,利用TSCA方法進行聚類匯總,對應結果列于表4.可知低速工況、中速工況和高速工況的聚類數量分別為873、578和281條.

表4 聚類匯總表

為了直觀地表示TSCA的聚類效果,其質量圖如圖3所示.粉色區域代表聚類效果較差,黃色區域代表聚類效果中等,綠色區域代表聚類效果較好,藍色數據條已經超過0.5,落入綠色區域,處于聚類質量圖的“good”階段,說明本文建立的基于PCA和TSCA的PTV評價模型效果較好.

圖3 聚類質量

綜上,本文構建的PTV評價模型的流程如下:實際中,速度<30 km/h時,為低速工況;速度在30~80 km/h時,為中速工況;速度≥80 km/h時,為高速工況.首先,對該車輛的1 743條樣本數據按實際情況劃分為低速、中速和高速工況,作為實際結果;其次,基于PCA和TSCA的PTV評價模型,將1 743條樣本數據聚類為低速、中速和高速工況,作為聚類結果.將實際結果與聚類結果進行對比分析,結果顯示,本文構建的基于PCA和TSCA的PTV評價模型的準確率為98.970%,這一數據足以顯示本文所建模型的合理性.

圖4 基于PCA和TSCA的PTV評價模型的流程

3 結束語

本文提出了基于PCA和TSCA的PTV評價模型,利用PCA將18個特征參數綜合成5個主成分,且這5個主成分的方差貢獻率達82.160%,在此基礎上,利用TSCA評估某個運動學片段的工況屬于低速工況、中速工況還是高速工況.將聚類結果與實際結果進行對比表明,本文建立的基于PCA和TSCA的PTV評價模型擬合效果良好,可用于汽車行駛工況的研究.

猜你喜歡
特征參數運動學聚類
冕洞特征參數與地磁暴強度及發生時間統計
基于MATLAB的6R機器人逆運動學求解分析
基于K-means聚類的車-地無線通信場強研究
工業機器人在MATLAB-Robotics中的運動學分析
基于交通特征參數預測的高速公路新型車檢器布設方案研究
基于D-H法的5-DOF串并聯機床運動學分析
基于PSO-VMD的齒輪特征參數提取方法研究
基于視頻的車輛特征參數算法研究
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合