?

基于數據挖掘的消費者電動汽車購買意愿分析

2022-09-26 12:27張峰張麗娜張程
江科學術研究 2022年3期
關鍵詞:特征選擇意愿電動汽車

張峰 張麗娜 張程

一、問題的提出

隨著汽車產業的發展,國內家庭汽車擁有量不斷攀升,而汽車的尾氣排放對生態環境造成嚴重的破壞。2012年7月,國務院印發《節能與新能源汽車產業發展規劃(2012—2020年)》[1],提出“以純電驅動為新能源汽車發展和汽車工業轉型的主要戰略取向,當前重點推進純電動汽車和插電式混合動力汽車產業化”。新能源汽車產業成為戰略性新興產業,大力發展以電動汽車為代表的新能源汽車是解決能源環境問題的有效途徑,市場前景廣闊。但是,電動汽車作為一個新興的事物,與傳統汽車相比,消費者在擁有購買意愿的同時,對于諸如電池等一些方面仍存有顧慮,對電動汽車行業的發展產生了極大的影響。因此,對消費者電動汽車購買意愿影響因素進行挖掘分析,預測消費者的未來需求,有利于政府或企業制定更有效的營銷策略,做出更加科學合理的決策,服務于電動汽車產業化,促進電動汽車產業的健康發展。

通過文獻分析發現,針對電動汽車購買意愿的影響因素挖掘研究已有一些進展,如Hidrue等[2]通過研究發現行駛里程、燃料成本節約和充電時間是影響消費者購買電動汽車的重要因素。田園和卓慧娟[3]對電動汽車的性能、便利性等12 個影響因素使用SPSS 進行分析,結果表明電動汽車的性能和便利性是電動汽車購買的重要影響因素。楊洪寶和干宏程[4]通過確定產品屬性、經濟補償以及消費者態度等3類對消費者電動汽車購買意愿有著重要影響的變量,結合Logistic 回歸,建立消費者電動汽車購買意愿的預測模型,結果驗證了影響變量的可靠性。姬丹丹等[5]對消費者購買汽車意愿影響因素進行研究,引入燃料成本和持有者總成本信息,結合排序Logit方法,對數據建模分析,結果表明燃料成本和持有者總成本信息對電動汽車的銷售具有顯著影響。

綜上所述,國內外學者對電動汽車購買意愿影響因素的研究取得了一定的成果,但也存在一些不足之處。即當前多數研究考慮的影響因素比較單一,并未從消費者的角度出發,考慮到消費者自身的個人特征信息。鑒于此,本文從電動汽車的產品屬性、消費者個人信息特征進行綜合分析,同時結合消費者電動汽車體驗數據,使用極端梯度提升(Extreme gradient boosting,XGBoost)對消費者電動汽車購買意愿的影響因素進行挖掘,并運用支持向量機(Support Vector Machine,SVM)建立消費者電動汽車購買意愿的預測模型,驗證影響消費者購買的因素的有效性和可行性。

二、研究方法

(一)極端梯度提升

極端梯度提升(XGBoost)是一種改進的梯度提升樹。其基本思想是先訓練生成一個弱分類能力的模型,在生成新模型時,學習前一模型的殘差,通過最小化目標函數,生成新的模型,如此迭代進行,最終由多個簡單模型組合為強分類能力的新模型。該模型為

其中

(二)支持向量機

支持向量機(SVM)是一種經典的統計學習方法。在處理分類問題時,SVM 既可以處理線性可分問題,又可以處理非線性可分問題。

因此,得到具體優化問題為:

三、數據收集及清洗

(一)數據收集

通過文獻分析,首先確定可能的影響因素;其次,通過對已體驗電動汽車的消費者發放問卷進行調查,問卷由三部分組成,具體有消費者對電動汽車的滿意程度,包括電池技術性能、舒適性等8 項特征變量;消費者個人特征信息,包括消費者的戶口情況、駕齡、居住區域等17 項特征變量;消費者電動汽車購買意愿情況,如表1 所示。問卷共計發放2000份,回收1964份,回收率98.2%。

表1 消費者電動汽車體驗數據特征變量

(二)數據清洗

由于獲取的原始數據中存在大量異常、缺失等情況,因此對消費者電動汽車體驗數據進行挖掘和預測,必須對其進行數據清洗,從而進一步提高數據集的質量。

首先,對原始數據中的異常值進行刪除。異常值主要是指在數據記錄中存在不符合邏輯或實際情況的數據。比如消費者對體驗的電動汽車的電池技術性能的滿意度打分值超過100 分,如分數“753.07”,對電動汽車的經濟性打分出現“703.00”等異常情況;此外,在消費者個人特征信息數據中存在個人的出生年與居住時間、出生年與工作年限、家庭年收入與個人年收入以及個人婚姻情況與子女數等多種不切實際的情況,將這些異常數據進行刪除,剩余有效數據共計1836條。

其次,對原始數據中的缺失值進行處理。缺失數據是指數據集中存在空白或未知數據的情況。在目標客戶的個人特征信息中的“子女數”字段存在缺失值,缺失占比25.65%。針對該字段的缺失問題,本文分兩種情況進行處理,包括:第一,關系填補,主要通過目標客戶的個人婚姻類型與子女數的關系進行填補,如婚姻類型為1、2、3、4所對應的子女數應為0;第二,對于無法確定的缺失部分,本文通過眾數填補的方法進行填補。

四、數據的特征選擇

為在清洗后的數據中挖掘出對不同品牌電動汽車銷售的影響因素,本文需對其進行特征選擇。在特征選擇的過程中,主要采用相關變量法和XGBoost特征選擇對數據進行特征處理。

相關變量法,主要是指依據皮爾遜相關系數來衡量特征間的相關程度,刪除相關程度強的特征。假設(x1,x2,L,xn)是一個n 維隨機變量,對于任意xi與xj的相關系數存在,有

對于兩個強相關特征xi和xj,比較ri與rj值,如果ri>ri,則保留xi,否則保留xj通過上述方法刪除強相關性的特征,最后剩余15個特征變量。

XGBoost 特征選擇,是指利用XGBoost 輸出特征的重要度,特征重要度數值越大,表示特征的重要性越大。使用清洗后數據集構建XGBoost模型,計算各特征變量的相對重要性,該模型輸出的15 個重要特征變量,如圖1所示。

圖1 特征變量的重要度排序

圖1中,房貸占收入比、車貸占收入比、動力性表現得分的特征重要度在10%以上,對于消費者購買電動汽車具有重要影響;品牌類型、家庭年收入、居住時間、家庭成員數、居住區域類型、單位性質、職位類型、最高學歷、戶口類型、駕齡、工作年限以及子女數,對于消費者購買電動汽車也具有一定的影響??梢钥闯?,決定消費者是否購買電動汽車的重要影響因素有電動汽車本身的因素,也有消費者個人特征的因素。因此在模型的構建過程中要考慮不同特征的影響,避免遺失重要的特征。

五、對比實驗

(一)模型性能評估指標

消費者電動汽車購買意愿的預測結果即為消費者是否會選擇購買電動汽車,這是一個典型的二分類任務。因此,本文使用二分類問題中常用的評估指標,即準確率(Accuracy,ACC)和F1值,來評估模型性能[7]。

其中,FN表示正類樣本(即標簽“1”)預測為負類(即標簽“0”)的樣本數,TP表示正類樣本預測為正類的樣本數,FP 表示負類樣本預測為正類的樣本數,TN表示負類樣本預測為負類的樣本數。

(二)類別不平衡處理

經過數據清洗和特征選擇,有效數據共計1836條,包含特征15 個,其中未購買的客戶數據樣本有1744個,已購買的客戶數據樣本有92個,存在著嚴重的類別不平衡問題。因此,本文采用過采樣技術從數據層面上進行處理,以平衡正負類樣本數量。在類別不平衡處理方法中,SMOTE(Synthetic minority over-sampling technique)算法[8]是應用最為廣泛的過采樣技術,但該算法在采樣過程中會產生樣本重疊問題,容易導致過擬合現象。因此,本文采用其改進算法Borderline-SMOTE[9],來處理類別不平衡問題,該方法能夠有效克服上述問題。消費者電動汽車體驗數據平衡情況,如表2所示。

表2 消費者電動汽車體驗數據平衡情況

(三)結果分析

為驗證消費者電動汽車購買意愿的影響因素的有效性,本文在處理后的數據集基礎上,運用SVM的方法,構建消費者電動汽車購買意愿的預測模型。具體地,本文將處理后的數據集按7∶3的比例隨機劃分訓練集與測試集,并按照XGBoost模型輸出的特征重要性分數從高到低,將特征輸入到SVM 模型中。同時,為使模型達到最佳的分類效果,本文使用網格搜索算法進行優化,尋找最優參數。

為對比所構建模型的可行性,本文將所構建模型與Logistic、隨機森林(Random forest)以及XGBoost等常用分類方法在測試集上進行對比,如圖2所示。

圖2 XGBoost特征選擇下的不同分類方法的分類效果比較

從圖2 中可以看出,當特征個數為8~13 時,SVM的分類效果優于其他分類方法,并且特征個數為9時,SVM 的分類效果最佳,即當特征個數為9 的特征子集為最優特征子集。不同分類模型在最優特征子集上的分類效果,如表3所示。

表3 中,可以看出SVM 在輸入特征個數為9 時,其準確率達到97.99%,F1值為97.95%,明顯優于其他模型在其最優特征個數下的分類效果。進一步驗證了房貸占收入比、車貸占收入比、動力性表現得分、品牌類型、家庭年收入、居住時間、家庭成員數、居住區域類型、單位性質等9個特征是決定消費者是否購買電動汽車的重要影響因素。在這些因素中不僅有電動汽車本身的因素,也有消費者個人特征的因素,都是影響消費者購買電動汽車的重要影響因素。

六、結論

本文通過對消費者電動汽車體驗數據進行清洗、滿意度分析,結合XGBoost 對消費者電動汽車購買意愿的影響因素的挖掘,建立了基于SVM 的消費者電動汽車購買意愿預測模型,通過模型的分類效果驗證了影響消費者電動汽車是否購買的因素不僅在于電動汽車產品本身的屬性,也由消費者自身的個人特征決定?;诖丝蔀殡妱悠囆袠I企業制定有針對性的營銷策略提供良好的借鑒。

猜你喜歡
特征選擇意愿電動汽車
健全機制增強農產品合格證開證意愿
網絡入侵檢測場景下的特征選擇方法對比研究
純電動汽車學習入門(二)——純電動汽車概述(下)
汪濤:購房意愿走弱是否會拖累房地產銷售大跌
電動汽車
基于最大信息系數和近似馬爾科夫毯的特征選擇方法
Kmeans 應用與特征選擇
現在可以入手的電動汽車
基于特征選擇聚類方法的稀疏TSK模糊系統
An Analysis on Deep—structure Language Problems in Chinese
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合