?

基于二元密度聚類的物資價格時延計算方法研究

2023-12-21 03:36程曉曉蒲兵艦張國平丁萌萌
吉林大學學報(信息科學版) 2023年5期
關鍵詞:規整原材料物資

程曉曉,蒲兵艦,張國平,丁萌萌

(國網河南省電力公司 a.物資部; b.物資公司,鄭州 450000)

0 引 言

物資的市場價格變化受多種因素影響,若進行物資市場價格預測需要掌握對物資價格產生影響的特征數據,例如原材料價格、各原材料占比、經濟指數[1-2]等。物資市場價格受社會供需結構、市場需求、原料價格波動等多種要素的間接影響,且這種影響是具有傳遞性的,當供應鏈上游發生波動后,該影響在供應鏈條中逐漸向下游傳遞,最終作用在產品的市場價格上。例如,電纜物資由多種原材料組成,當其中某一原材料價格發生變化時,不會直接對物資的價格產生影響,而是隨著庫存的消耗、市場的動態均衡、供需關系的調整等因素逐漸作用于物資的價格,直至物資的市場價格與原材料價格的走勢趨于一致,這段時間即為價格的時間延遲。因此在對物資的市場價格與原材料價格數據進行融合時需考慮價格的時間延遲。

一般利用動態時間規整算法計算時間序列的相似度,動態時間規整算法是基于動態規劃的思想,用于解決時間序列非對齊和相對偏移問題[3]。通過動態時間規整算法可以對物資的市場價格和原材料價格兩條非對齊的時間序列進行規整計算,目的是尋找一條使兩條時間序列之間距離最小的彎曲路徑,并可利用彎曲路徑的路徑長度衡量時間序列之間的相似度。但在收集數據時發現數據中存在干擾值,若直接使用動態時間規整算法將會對結果產生干擾,因此筆者提出將二元密度聚類方法與動態時間規整算法相結合,利用二元密度聚類方法對價格的特征數據進行編碼操作,可有效規避干擾。

物資的市場價格受原材料價格的時間延遲計算,即是對兩條時間序列進行聚類和規整計算。目前各行業對市場價格的影響機理都開展了相關研究,張桓等[4]考慮漁業種群、漁獲量對最后水產市場價格的影響關系和作用時間,并建立新型動態價格。王露曉[5]在農業領域對菜籽油市場價格波動機理開展研究,最終發現菜籽油的市場價格與玉米、大豆和棉花等大宗期貨品種間的價格波動間的相關性。對價格預測的常用方法有動態時間規整算法、時間序列建模、HMM(Hidden Markov Model)等,但傳統動態時間規整算法存在局限性,因此學者們提出了改進的動態時間規整算法。陶洋等[6]針對傳統的分段時間序列聚類的效果并不理想,提出了一種基于動態時間規整距離度量的層次聚類算法。Li等[7]針對動態時間規整易于出現過度拉伸和壓縮問題,提出了一種自適應約束算法,利用自適應懲罰函數規劃路徑。Mueen等[8]提出一種新的稀疏時間序列的時間翹曲相似性度量(AWarp),將該度量作用于稀疏時間序列的游程編碼表示。靳子豫等[9]將時間序列劃分為短期和長期時間序列,并基于短、長期時間序列分別進行預測,結果證明長期時間序列效果更優。梁建海等[10]提出以標識極值作為時間序列的區間性特征,相應的特征標識能對距離相同但趨勢不同的時間序列進行有效分類。丁望祥[11]提出多變量時間序列聚類算法,從而對多特征的時間序列進行歸類分析,提高分析結果的可靠性。在筆者研究的數據集中,盡管物資的市場價格和原材料價格在趨勢上相近,但二者在數值上的差異較大,且計量單位也統一。為排除上述因素干擾,通過密度聚類將物資價格變換為其所屬的簇號,同時考慮物資價格的持續時間,設計了一種二元密度聚類方法。利用該聚類方法對各特征數據進行編碼,然后將物資的市場價格和原材料價格的編碼序列執行動態時間規整算法,得到相似系數最小的兩條時間序列,即相似程度最高的兩條時間序列。計算這兩條時間序列相似度最高點對應時間的差值即為價格的時間延遲。

1 數據預處理

數據融合方法的設計框架如圖1所示。

筆者主要對收集到的物資價格、原材料價格、原材料屬性數據集進行預處理操作,并針對物資的市場價格與原材料價格進行時間延遲計算。分別對價格數據和記錄時間數據進行密度聚類操作,再將簇類得到的簇號序列利用動態時間規整計算相似系數,根據相似系數確定價格的時間延遲,計算價格的時間延遲前需要先設置制定規范。定義每次選擇的時間跨度(以周為單位)的大小為細粒度。

1.1 數據標準化處理

利用爬蟲技術獲得電纜物資的名稱、市場價格、市場價格記錄時間等,共同組成初始數據集。由于各項數據的記錄時間不同,因此以時間戳為查詢條件時部分特征缺少對應數據。利用線性插值方法根據缺失值前后的數值為基準,對缺失值進行補全,將補全的數據集規范化存儲,價格數據集示例參見表1。

表1 價格數據集示例

由于二元密度聚類要求聚類操作的數據類型統一化,因此需將補全的特征數據集規范化處理,將特征數據以獨熱碼形式進行儲存。

1.2 計算細粒度

粒度大小即為對物資的市場價格和原材料價格進行動態時間規整的窗口大小,以原材料價格和物資的市場價格為例,需按給定的細粒度對原材料價格時間序列和物資市場價格的時間序列在時間維度上進行切割。因此粒度越大,對比的時間序列長度越長,即價格的時間延遲周數越大。首先設置一個初始的粒度大小,以此粒度值為基準對物資的市場價格、原材料價格、經濟指標進行切割,形成一個由多個一維數組組成的二維數組,其中一維數組的長度即為粒度值大小。

2 價格數據融合方法

數據融合方法流程如圖2所示。數據融合方法首先需要確定規整窗口大小即尋找周數的范圍,再將價格數據利用二元密度聚類算法進行編碼操作,實現對價格高低類別的劃分,在此過程中可直接排除干擾值。

圖2 數據融合方法流程示意圖

對編碼后的市場價格和原材料價格的時間序列進行動態時間規整計算,得到這兩條時間序列的相似系數,時間序列對應時間的間隔即為價格的時間延遲。將該價格的時間延遲作為物資的市場價格和原材料價格數據的合并條件,完成數據融合。

2.1 計算價格的時間延遲

根據設定的細粒度截取經濟指標、原材料價格和物資的市場價格的獨熱碼形式的數據。使用二元密度聚類對經濟指標和物資的市場價格以及原材料價格和物資的市場價格在價格和時間兩個維度上做聚類操作,將具體的數值劃分到聚類簇中用簇號表征[12]。在此基礎上,調用動態時間規整算法對簇號序列間的相似度做計算,得出兩個序列間相似程度的數值表示形式,即相似系數,將其儲存在一個數組。選中相似系數數組中最小的相似系數所對應的細粒度,計算經濟指標和物資的市場價格以及原材料價格與物資的市場價格之間的時間延遲,即為在該粒度下價格的時間延遲。價格的時間延遲計算流程如圖3所示。

圖3 價格的時間延遲計算流程

2.2 基于價格的密度聚類

時間序列作為數據挖掘的關鍵,可通過聚類分析找到不同序列的特征,最終確定該序列所屬的類別。密度聚類算法無需事先指定簇的個數,即最終簇的個數不確定,可滿足從數據集中分析得到類別個數的要求[13]。

首先計算被細粒度切割形成的二維數組中各個數值所歸屬的簇號,并返回輸出簇號序列。根據價格數值大小進行歸類,數值較大的被聚類到1號簇,數值較小的則被歸到0號簇,噪聲數據則被歸為簇號-1類,簇號歸類后刪除噪聲數據輸出簇號序列。

初始化二元密度聚類算法并調制其參數,設置密度閾值為2.0,設定半徑的取值范圍[0.001,1],步長為0.05。對輸入的物資市場價格簇號序列和原材料價格簇號序列做聚類操作,將聚類的結果保存到一個自定義的結果對象中,并將所有結果儲存為聚類結果數組,從聚類結果數組中過濾出聚類簇數大于1的結果對象,從中取出最大的半徑參數作為調參的結果。選中二維數組中的第1個子數組,依次與其他子數組做密度聚類計算,完成后第2個子數組循環上述操作,直至二維數組中全部的子數組均被遍歷。

2.3 基于時間的密度聚類

在完成基于價格的密度聚類后,基于價格的持續時間對物資的市場價格和原材料價格進行密度聚類,得到簇號序列。在簇號序列中根據簇號連續出現的次數生成一個持續時間序列,持續時間序列中每個元素值對應的就是價格簇號序列中同一個簇號連續出現的次數。由于持續時間序列的輸入數據可能存在噪聲點,需對噪聲點進行過濾,在對其進行過濾后即完成了針對時間與價格的二元密度聚類,可對最終得到的持續時間序列進行動態時間規整。

2.4 基于時間特征的相似度計算

物資的市場價格和原材料價格時間序列由于每次記錄的時間間隔不同,因此這兩個簇號序列的長度可能不相等。為此,筆者使用具有彈性度量性質的動態時間規整算法計算兩個長度不相等的時間序列的相似系數,將其存入一個相似系數數組中[14],基于時間特征的相似度計算流程如圖4所示。

圖4 基于時間特征的相似度計算流程

具體操作方法,首先將物資的市場價格和原材料價格的簇號序列轉化為簇號序列字符串,利用動態時間規整的彈性度量方式,對序列做動態時間規整計算。

動態時間規整即是對時間序列做對齊操作,將較長的簇號序列的長度壓縮至與較短簇號序列長度相等。設兩個時間序列長度為n和m,則需構造一個長為n、寬為m的矩陣網格。矩陣元素(i,j)表示長度為n的簇號序列上i點到長度為m的簇號序列上j點的距離,距離越小則相似度越高,目的即是尋找沿著該路徑的積累距離達到最小值的路徑。通過動態時間規整計算,將兩個長度不相等的簇號序列進行壓縮,壓縮后得到兩個長度相同的子序列,計算壓縮過程中累計的最短距離,此距離即為兩個子序列的相似系數。將得到的全部相似系數儲存為一個相似系數數組中。

遍歷選出最小相似系數對應的兩條簇號序列,確定每個簇號序列第1個簇號所對應的日期時間,計算出這兩個簇號序列的時間間隔。如圖5所示結果表明,時間間隔為11周時價格序列的相似度系數最大。

圖5 延遲周數的相似度系數對比

延遲周數的價格趨勢對比如圖6所示。

圖6 延遲周數的價格趨勢對比

為驗證上述結論,筆者分別選取了2019年-2021年間4次采購的電纜不含稅單價平均值,并以周為單位依次前推,繪制原材料價格(銅價)和電纜不含稅單價的折線圖。如圖6所示,前推10周和12周的相似度與前推11周最接近,前推1周的相似度與前推11周差距最大。這證明了上述得出的時間間隔為11周是相似度最大的結論。

2.5 價格數據融合

以原材料價格時間為比對基準,首先找到原材料價格記錄的最初時間,在此時間基礎上后延計算得到的時間延遲長度找到對應時間的市場價格。表示最初的原材料價格實際對物資的市場價格產生影響,導致市場價格進行調整后的價格應為后延時間延遲長度所對應的市場價格。最后將物資的市場價格數據與原材料價格數據按上述操作進行合并,完成價格的數據融合。

3 結 語

物資的市場價格受到多因素的影響,因此在預測物資的市場價格時需要考慮與其相關的特征進行特征數據的融合。通過二元密度聚合方法與動態時間規劃算法的結合,計算出不同時間間隔內物資的市場價格與原材料價格走勢的相似度并找到相似度最高的點,即價格的時間延遲。二元密度聚類分別從價格、價格對應的日期兩個維度進行編碼操作,在此過程中可有效的規避特征數據中的干擾值。動態時間規整算法則用于計算編碼后的市場價格和原材料價格之間的相似系數,得到價格的時間延遲。價格的時間序列以價格的時間延遲作為物資市場價格和原材料價格數據合并的依據,利用合并后的價格數據訓練價格的預測模型。通過價格的預測模型可針對當前日期及經濟指標,預測物資的市場價格,采購人員可將該預測價格視為一個相對公平的指導價格,減少干擾值的影響,為采購人員提供決策意見。

猜你喜歡
規整原材料物資
水利工程原材料質量檢測控制探討
被偷的救援物資
觀點
300kt/a硫酸系統規整填料使用情況簡介
知識無窮盡
電力企業物資管理模式探討
提高日用玻璃陶瓷規整度和表面光滑度的處理方法
電梯的建筑化藝術探索
救援物資
基于發音機制的貪婪自適應語音時長規整算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合