李姣姣
(合肥城市學院 安徽合肥 230601)
隨著科技和經濟的不斷發展,建筑工程也逐漸復雜化、大型化[1]。目前關于建筑工程造價預測的方式多集中在住宅建筑方面,同時大多通過單一的機器學習算法進行預測,這就導致適用性不強,精確度偏低的問題[2-4]。文章旨在通過多種算法結合支持向量機進行對比,從中選擇最優的混合模型。
通過企業信息收集以及造價信息網等方式,對某市新建建筑工程信息進行收集,共收集52例項目。經過分析以及篩選,得到39例樣本工程數據,由此組成的箱型圖如圖1所示。
圖1 單方造價箱型圖
由圖1得到的數據包含兩種類型:描述型和數字型。針對描述型,工程造價在進行特征量化時按照從低到高的順序進行。如裝修標準中,毛坯房為1,簡裝為2,精裝為3,暖通方面由低到高分為1~4級,其中1級粗糙度最高;針對數字型,按照對應的數值分析量化數據。量化后借助SPSS進行對應的標準化,所得數據如表1所示。
表1 標準化工程造價數據節選
表1中,節選了部分標準化的數據。其中,樣本數據類型說明如表2。
表2 樣本數據類型說明
結合表2,各數據類型正則化后均在3標準差內,符合實際的數據需求。
通過對多變量向少量主成分進行轉化,由綜合的數據指標對原始數據的特征信息反應即主成分分析。主成分分析的方法一是可以避免不同影響因素相互的關聯性影響實際預測,而是可以避免輸入量過多產生的過擬合問題。對篩選所得的39例樣本工程數據進行主成分分析,通過降維進行少量主成分的等效轉化。
以標準化為基礎,對給定指標值構建相應的矩陣,如下所示:
(1)
式(1)的39×19階矩陣中,結合SPSS中矩陣的相關性理論,對變量的相關性進行Bartlett's球形檢驗以及相應的KMO檢驗,所得結果如表3所示。
表3 相關性檢驗結果
表3中,Bartlett's檢驗所得應小于0.001,KMO檢驗所得值應大于0.7。Bartlett's檢驗值為0.000,KMO檢驗所得值0.717,均符合要求,也即數據輸入結構合理,能夠記性進一步的主成分分析。
對主成分特征值以及貢獻率等進行分析,所得結果如表4所示。
表4 主成分特征值與貢獻率分析
在主成分分析中,通常要求總方差即累計貢獻率超過80%,符合主成分結束的要求。方案設計將該值設定為85%,結合表4,對前8個貢獻率較高的進行提取,其累計貢獻率為85.530,滿足總體解釋需求。同時,數據因子的提取需結合造價數據碎石,如圖2所示。
圖2 造價數據碎石圖
圖2中,在第8個數據因子中出現較為明顯的拐點,對前8個數據提取滿足實際分析需求。
在非線性以及多因素的分析問題中,灰色關聯的方式應用廣泛?;疑P聯主要通過對序列曲線對應的集合相似度來進行不同序列關聯度的判斷,序列關聯度越大,序列曲線的形狀越相似?;疑P聯是一種有序的相關性分析方式,其計算公式如公式(2)。
ξ0,1(k)=
(2)
式(2)中,分辨系數用ρ表示,對應的參考序列用x0(k)表示,指標個數用m表示,對象個數用n表示。其中i=1,2,…,n,k=1,2,…,m。
對應的關聯序通過公式(3)進行計算。
(3)
通過DPS分析39個項目案例與數據因子的灰色關聯,分析時分辨系數的值設定為0.5,得到的關聯度如表5所示。
表5 因子與工程造價之間的關聯度
表5中,結合工程造價中實際的重要影響因素以及關聯度排序數據,從中選擇X18、X17、X15、X12、X4、X6、X5、X2、X19共9項數據因子作為預測模型的輸入集。
對預測模型性能的進一步提高,通過結合BP神經網絡、SVM支持向量機以及BP神經網絡完成。
BP神經網絡包括輸出層、隱含層以及輸入層,實際運行時,誤差進行反向反饋。模型設置的BP神經網絡為3層,對連續函數進行擬合,其經驗公式如公式(4)。
p=1bd
(4)
其中,p應滿足公式(5)的約束條件。
(5)
式(4)、式(5)中,隱含層對應的節點數用p表示,輸入層對應的節點數用d表示,輸出層對應的節點數用f表示。a為常數,a∈[1,10]。
SVM支持向量機的應用主要針對非線性的分類與回歸。其原理主要是在高維特征空間當中進行數據因子的非線性映射,將待求解問題進行向二次優化的問題轉化,提高對應的魯棒性。
算法優化主要結合粒子群算法、遺傳算法以及交叉驗證法,從而進行參數的最小化尋優,以提高模型的精確度。粒子群算法能夠通過更少的參數實現結果尋優,但更新迭代僅通過內部速度完成。遺傳算法可以結合環境進行個體適應度的選擇,需要確定種群規模、遺傳迭代次數以及對應的變異概率。模型在對于交叉驗證方式的選擇上,采用K-CV的方式,該種方式計算效率更高,更加適合SVM支持向量機的參數優化。
3.1.1 BP神經網絡模型預測 BP神經網絡模型中,選擇正切S性tansig函數未對應的傳遞函數,選取trainlm為對應的訓練函數。設定訓練速度的值0.1,訓練目標的值0.01,訓練補償的值為100,通過公式(4)進行隱含層的確定,不同隱含層對應的決定系數如表6所示。
表6 隱含層數決定系數
表6中,當隱含層數為6時,決定系數的均值最大,選擇隱含層數為6。模型預測通過GA-BP模型以及PSO-BP模型進行預測。對39組樣本數據進行隨機抽取,其中測試樣本數量為7,訓練樣本數量為32。輸入變量為提取到的8個數據因子,輸出為對應的建筑工程造價,各模型運行11次,以準確率第6的結果為最終結果。
通過GA-BP模型預測的適應度曲線以及預測結果如圖(3)及圖(4)所示。
圖3與圖4的GA-BP模型中,輸入層的神經元個數為8,輸出層的神經元個數為1,隱含層的神經元個數為6。初始值設定上,迭代為50次,變異率為0.1,對應的種群數為20。通過PSO-BP模型預測所得的適應度曲線以及預測結果如圖(5)及圖(6)所示。
圖3 GA-BP適應度曲線
圖4 GA-BP模型預測結果
圖5 PSO-BP適應度曲線
圖6 PSO-BP模型預測結果
神經網絡的網絡結構設定為8-6-1,初始化設定上,迭代為80次,學習因子均設置為2,PSO規模設定為30。
3.1.2支持向量機模型預測 通過交叉算法對支持向量機進行優化,所得的最終預測結果圖形如圖7所示。圖7中,懲罰參數c設定為eh,核函數的參數g設定為eb?;貧w參數粗選時設定步長1,h=[-8,8]、b=[-8,8],最終懲罰參數的值為16,核函數參數的值為0.1184。由粗選結果進行精選時,設定步長為0.5,h=[-5,5]、b=[-5,5],求得的懲罰因子為4,核函數的參數為0.0625。
圖7 交叉算法優化向量機預測結果
通過GA-BP對向量機進行優化,得到的測試預測結果如圖8所示。
圖8 GA-BP優化向量機預測結果
圖8中,設定種群規模120,進化代數最大為200,最終得到的懲罰因子為23.6388,核函數參數的值為20.8472。通過PSO-BP對向量機進行優化,得到的測試結果如圖9。圖9中,設定種群規模120,進化代數最大為200,最終得到的懲罰因子為2.9405,核函數的參數為1.9617。
圖9 PSO-BP優化向量機預測結果
通過GA-BP對灰色關聯模型優化后的預測結果如圖10所示。
圖10 GA-BP優化灰色關聯預測結果
圖10中,種群數初始值設定為20,迭代設定為80次,變異率設定為0.1。通過PSO-BP對灰色關聯模型優化后的預測結果如圖11。圖11中種群規模設定為30,迭代設定為80次。通過交叉算法對灰色關聯模型進行優化,并結合SVW支持向量機,得到的預測結果如圖12所示。
圖11 PSO-BP優化灰色關聯預測結果
圖12 交叉算法優化灰色關聯-SVW預測結果
圖12中,交叉算法參數設置與前文相同,求得懲罰因子的值為2,核函數參數的值為0.0442。
通過GA-BP優化灰色關聯并結合SVW向量機的預測結果如圖13所示。圖13中,最終求得的懲罰因子數值為84.1303,核函數參數的值為35.3061。通過PSO-BP優化灰色關聯并結合SVW向量機的預測結果如圖14所示。
圖13 GA-BP優化灰色關聯-SVW預測結果
圖14 PSO-BP優化灰色關聯-SVW預測結果
圖14中,最終求得的懲罰因子的值為0.9966,核函數參數的值為5.7113。
對應預測模型所得結果進行匯總,詳見表7。
表7 預測模型結果匯總
表7中,R2為對應的決定系數,其值越高則代表由越高的精確度。通過整體對比,主成分分析(PCA)的方式進行預測的精確度要優于灰色關聯分析(GRA)的精確度。同時,通過算法對支持向量機進行優化相對誤差均在10%,優于單純算法預測模型的結果。綜上,通過交叉算法(CV)優化向量機進行主成分分析的結果最優。通過該辦法預測后的效果對比如表8所示。
表8 交叉算法優化向量機主成分分析結果
表8中,預測的相對誤差均在10%之內,整體預測結果接近實際數值,符合實際環境中工程造價預測需求。
傳統的工程造價預測模型同場存在誤差較大、適用性有效以及計算繁瑣等問題。通過交叉算法對支持向量機進行優化,結合主成分分析的方式,進行建筑工程造價預測,能夠最大化簡化計算步驟,提高造價預測的精確度。同時,該辦法廣泛適用于各類建筑工程造價預測。經過實驗驗證,方法切實可行,能夠應用于實際生產工作中。