?

基于k-means聚類算法與多維特征融合的群體劃分模型

2023-11-29 11:04陳翀旻余泓夫朱迪唐超符華莫梁媛
粘接 2023年11期

陳翀旻 余泓夫 朱迪 唐超 符華 莫梁媛

摘 要:常規群體劃分模型構建方法主要采用二分均值算法,該方法易受到數據特征項貢獻度的影響,使得模型的劃分結果準確性較低。因此,提出基于k-means聚類算法與多維度特征融合的群體劃分模型。利用k-means聚類算法通過合理設定密度閾值與鄰域半徑,提取用戶群體的興趣區域,在興趣區域中選取貢獻度較大的數據特征項,并計算特征項的權值,以此為依據,采用多維特征融合算法改進最大化目標函數,以此實現群體劃分模型的構建。實驗結果顯示,利用所提方法構建的群體劃分模型,能夠得到較高的劃分準確度。

關鍵詞:k-means聚類算法;多維度特征融合;群體劃分

中圖分類號:TP311.132

文獻標志碼:A文章編號:1001-5922(2023)11-0193-04

Group partition model based on k-means clustering algorithm and multi-dimensional feature fusion

CHEN Chongmin,YU Hongfu,ZHU Di,TANG Chao,FU Hua,MO Liangyuan

(Nanning Power Supply Bureau of Guangxi Power Grid Co.,Ltd.,Nanning 530029,China

Abstract:The traditional population division model construction method mainly uses the dichotomy mean algorithm,which is vulnerable to the influence of the contribution of data feature items,making the accuracy of the model division result low.Therefore,a group partition model based on k-means clustering algorithm and multi-dimensional feature fusion was proposed.The k-means clustering algorithm was used to extract the interest area of th user group by reasonably setting the density threshold and neighborhood radius,select the data feature items with greater contribution in the interest area,and calculate the weight of the feature items.Based on this,the multi-dimensional feature fusion algorithm was used to improve the maximization objective function,so as to achieve the construction of the group division model.The experimental results showed that the population division model constructed by the proposed method can obtain high classification accuracy.

Key words:k-means clustering algorithm;multidimensional feature fusion;group division

群體交易行為能夠在一定程度上反應用戶的交易特點與用戶之間的內在相關性[1-2],更好地分析群體的行為特征,根據用戶的需求為客戶制定個性化的服務策略從而優化用戶體驗,具有重要的現實意義。當前廣泛應用的群體交易行為劃分方法包括基于時序特征的群體劃分[3-5]和基于長短期記憶網絡的群體劃分[6-8],前者無法有效處理原始數據中的高維屬性數據與冗余數據,使得在分析用戶行為特征時易受到噪音影響[9-10],后者缺少對用戶的細粒度數據分析,易受到數據特征項貢獻度的影響,上述影響因素導致劃分準確度不高[11-12]。針對以上問題,本文提出利用k-means聚類算法與多維度特征融合相結合的方法來進行群體劃分。應用傾向強度和相似性系數計算特征項的權重,將權重計算結果作為特征項貢獻度,明確客戶的價值重要度。

1 基于多維度特征融合的群體劃分

1.1 基于k-means聚類算法的用戶群體興趣區域提取

設δ為以C為圓心,R為半徑的鄰域,如果用戶在一定時間內到訪該區域的次數達到指定閾值,則稱該區域為用戶的一個興趣區域,即用戶頻繁選擇的幾個鄰近位置所構成的一個空間區域。用戶群體的興趣區域如圖1所示,其中F1、F2 F3、F4分別表示該興趣區域中具有不同選擇頻次的4個被頻繁訪問的位置;節點的大小表征了其被選擇次數的多少;C為4個位置的質心,也即該興趣區域的質心。

為精準提取出用戶群體的興趣區域,采用k-means聚類算法對群體的興趣區域進行提?。?3]。k-means聚類算法從密度可達區間的角度對密度閾值和鄰域半徑進行合理設定,并且通過選取合適的聚類數將相似性較高的數據歸為一類,因此,非常適用于本文的群體興趣提取。算法所涉及的鄰域半徑與密度閾值分別對應了興趣區域定義中的δ和ε,參數δ用來確定興趣區域的大小;參數ε用來確定用戶對該興趣區域的感興趣程度。

利用隨機選取方法在用戶數據集中獲取各類簇的聚類中心,利用下式計算數據的輪廓系數(p):

p=a0+∑MI~=1∑LJ=1aI~J+ε+k(1)

式中:a0表示待估變量;M表示概念產品的屬性;L表示產品的吸引性系數;I~表示概念產品的實時變化狀態;J表示概念產品的效用值;aI~J表示初始聚類處理系數;ε表示用戶對該興趣區域的感興趣程度;k表示聚類中心數。

通過對用戶群體針對產品選擇的時間序列與頻次進行累加處理,利用k-means聚類算法對群體興趣區域的提取,據此可以有效地進行群體劃分特征項權重計算。

1.2 群體劃分特征項權重計算

貢獻度是指某個因素對整體結果或目標的影響程度,可以用于衡量不同因素對最終結果的相對重要性,幫助理解和解釋影響因素的作用??紤]到客戶的重要程度不同,需要了解特征項對群體劃分結果的影響程度即特征項的重要性,將貢獻度代作為每個特征項對最終的群體劃分結果的相對重要性,通過計算特征項權重,可以量化特征對群體劃分的貢獻度,進而明確客戶的價值重要度。因此,將群體劃分特征項的權重作為計算中的貢獻度[14-16],選擇傾向強度來計算特征項的權重。特征項集合(Fe):

Fe=C|(t1,t2,…,ti)(2)

式中:C表示興趣區域的質心;t1,t2,…,ti表示特征項。

特征項間的語義相似性計算公式為:

w(ti)=∑Fe×Sti×Iti(3)

式中:Sti表示ti出現的頻率;Iti表示ti的強度系數。

在計算特征項權重時,考慮到特征項間的相似性因素,本文設置了相似度系數,判斷2個特征項的相似程度。

使用s(X,Y)表示2個特征項的相似系數,計算方法:

s(X,Y)=0.6,1>Sim(A,B)≥0.75

0.0.75>Sim(A,B)≥0(4)

針對群體興趣區域C在計算ti權重時,考慮到興趣區域C存在與ti相似的其他鄰域特征項cik。此時,ti權重ω(ti)的計算方法:

ω(ti)=ti+cik×s(X,Y)2×logNs(ti,cik)/2(5)

式中:s(ti,cik)表示特征項與距離中心的相似度系數;N表示數據總量。

綜上,在群體興趣區域中,本文提出的ti權重綜合計算公式:

ω′(ti)=ti+cik×s(X,Y)2×logNs(ti,cik)/2×I(6)

利用上述分析與計算過程,基于群體興趣區域,興趣能夠表征群體選擇傾向的特征項,并計算特征項的權重系數,明確用戶的價值重要度,為后續群體劃分模型的構建奠定基礎。

1.3 基于多維度特征融合的群體劃分模型構建

在進行群體興趣區域的提取與特征項權重計算后,利用多維度特征融合算法構建群體劃分模型[17-18]。

(1)在獲取特征項權重后,需要分析驗證用戶行為特征數據,以獲取群體劃分依據。但由于特征項權重計算主要是通過興趣空間質心和相似系數確定的,因此原數據可能存在噪聲因素、偏倚情況,對群體交易行為劃分的準確性產生不良影響。因此,需要根據特征項權重計算結果,對特征數據進行預處理,濾除冗余數據,獲取標準化結果,其公式為:

Q′i=ω°(ti)ω°(ti)max-ω°(ti)min(7)

式中:Q′i表示特征數據標準化結果;ω°(ti)表示特征項初始權重;ω°(ti)min、ω°(ti)max分別表示初始權重的最小值與最大值。

(2)由于數據預處理僅能濾除原數據中的冗余數據和干擾因素,但原數據中會包含大量特征或屬性的數據集,導致用戶交易行為劃分的計算量較大,無法以統一維度進行數據的處理,甚至還會出現部分數據缺失的情況[19-20]。因此,在完成數據預處理后,需要處理原數據中的高維數據,統一數據維度,本文對特征數據制定半局部策略,將數據按維度分類為一階數據與二階數據,以保證數據的完整性。

(3)對一階數據與二階數據執行新的融合策略,以強化時間序列的提取能力,計算公式為:

R=12m∑

Aij-didj2m(8)

式中:m表示鄰域邊數;Aij表示鄰接矩陣;di、dj分別表示對應連接節點的分布概率。

(4)將特征向量中異質性的數據予以剔除,僅保留同質性數據,之后對其余數據進行多維特征融合計算,即:

α(i)=Q′i∑R(9)

式中:Q′i表示特征項數據標準化結果;R表示局部策略。

(5)更新數據融合目標函數。表征多維度屬性信息與參數信息能夠同步進行融合,則得出改進后的最大化目標函數為:

S=1m∑α(i)γ(ci,cj)(10)

式中:γ(ci,cj)表示節點i與節點j屬于同一個鄰域。

(6)以最大化目標函數作為合并標準,利用式(11)計算不同時段特征向量的融合結果,并將所有結構進行合并,得到群體劃分模型為:

Gij=Sα(i)/xa∑Sα(i)ω°(ti)max(11)

式中:xa表示特征數據的待標定參數。

上式即為本文建立的群體劃分模型,至此,完成基于多維特征融合算法的群體劃分模型的構建。

2 實驗論證分析

2.1 實驗準備

實驗中選取的數據為某電力公司的50萬用戶在2020年10月的關于電力產品需求的瀏覽記錄。數據以CSV文件格式進行存儲,共包含500萬條記錄。

2.2 實驗說明

利用本文提出的k-means聚類算法對用戶群體的興趣區域進行提取,設定算法中的鄰域半徑與密度閾值分別為20和0.2,最優聚類個數為5,輪廓系數值為0.5,大小比率為5.63,實驗數據維度為500×365×4,每個樣本與各初始質心的距離均為10?;诳蛻舻膬r值需求進行興趣區域提取,提取過程如圖2所示。

2.3 模型應用結果分析

根據實驗數據的所屬標簽,實驗選取3 500個用戶數據劃分為4類,分別定義為A、B、C、D類。A類表示交易頻繁用戶;B類表示高價值用戶;C類表示中價值用戶;D類表示低價值用戶。參照群體劃分模型中特征項的計算規則,以此計算不同特征數據的權重,最后通過閾值判斷用戶群體數據的所屬類別,并與真實類別進行比較,評估本文構建的模型的劃分準確性,劃分模型的應用結果如圖3所示。

由圖3可知,利用本文構建的群體劃分模型對實驗數據中的用戶類別進行劃分,其輸出值與真實值基本一致。其中對于B類的劃分得到的劃分準確率為100%。由于文中所提群體劃分模型構建方法能夠根據用戶交易行為特點對用戶群體的價值需求進行分析,從而獲得更好的劃分結果。

2.4 模型劃分準確性對比試驗分析

為體現本文設計的群體劃分模型構建方法的整體優越性,采用基于時序特征的群體劃分模型(方法1)、基于長短期記憶網絡的群體劃分模型構建方法(方法2)與文中設計的方法進行仿真對比試驗。三種模型的劃分準確性結果對比如圖4所示。

由圖4可知,與另外2種劃分模型相比,本文提出的基于k-means聚類算法與多維度特征融合的劃分模型得到了最高的劃分準確率,在樣本數量為50時,本文模型取得了96.8%的劃分準確率。對比實驗結果表明,文中所提的群體劃分建模方法是有效可行的。

3 結語

本文利用k-means聚類算法與多維度特征融合的綜合算法對用戶群體的主體特征與行為模式進行分析,基于用戶興趣區域與特征項權重構建群體劃分模型,以明確不同類型用戶的行為特征,以此來確定用戶群體的類別,為企業推行個性化服務提供決策依據。

【參考文獻】

[1] 李金武,王清珍.基于融合云模型分析的時間序列概念劃分方法[J].河南工程學院學報(自然科學版),2022,34(3):54-60.

[2] 郭曉軍,王云峰,朱亮.基于時序特征提取的用戶群體劃分模型[J].中國電子科學研究院學報,2021,16(6):592-598.

[3] 江兵,李國榮,孫趙盟,等.基于長短期記憶神經網絡和改進型k-means聚類算法的居民峰谷時段劃分模型[J].現代電力,2021,38(6):620-629.

[4] 許偉佳,秦永彬,黃瑞章,等.基于DMA與特征劃分的多源文本主題模型[J].計算機工程,2021,47(7):59-66.

[5] 黃艷國,張升升,劉紅軍.基于高斯混合模型聚類算法的交通狀態劃分[J].現代電子技術,2022,45(7):168-173.

[6] 袁健,王姍姍,羅英偉.基于圖像視野劃分的公共場所人群計數模型[J].計算機應用研究,2021,38(4):1256-1260.

[7] 曾四鳴,李鐵成,李順,等.基于改進型密度峰值算法的電力負荷聚類分析[J].科學技術與工程,2022,22(25):11032-11040.

[8] 張曉紅,張欣,石冠男,等.基于馬爾可夫過程的多部件系統劣化狀態空間劃分模型[J].控制與決策,2021,36(2):418-428.

[9] 楊資集,潘雁,祝躍飛,等.基于概率模型的二進制協議字段劃分方法[J].計算機科學,2022,49(10):319-326.

[10] 于晗,蔡鴻明,張翼飛,等.基于增量式流處理的自適應群體劃分方法[J].計算機學報,2020,43(12):2337-2351.

[11] 孫勁光,李桃,董祥軍.屬性一致的物體輪廓劃分模型[J].電子與信息學報,2021,43(10):2985-2992.

[12] 李俊,葉楊,何世東.基于城市用地規劃的微網格劃分模型研究[J].廣東通信技術,2021,41(7):47-49.

[13] 雷翔勝,王興華.基于變電能力提升和電源接入質量的優化設計[J].粘接,2022,49(10):158-160.

[14] 高虹雷,門昌騫,王文劍.一種特征值區間劃分的模型決策樹加速算法[J].小型微型計算機系統,2021,42(6):1136-1143.

[15] 張夢瑤,朱廣麗,張順香,等.基于情感分析的微博熱點話題用戶群體劃分模型[J].數據分析與知識發現,2021,5(2):43-49.

[16] 劉渝琳,司緒,宋琳璇,等.收入群體的持續期與退出風險估計——基于EM算法的收入群體劃分[J].統計研究,2021,38(5):121-135.

[17] 常兵.融合多維度特征的特定領域新詞發現方法[J].自動化應用,2023,64(8):159-162.

[18] 高云梅,張淑慧.基于信息檢索與K均值聚類的化工產品精準推薦算法研究[J].粘接,2023,50(3):132-135.

[19] 楊長沛,廖列法.基于門控空洞卷積特征融合的中文命名實體識別[J].計算機工程,2023,49(8):85-95.

[20] 杜濤,王朝龍,朱靖,等.基于聚類算法的變壓設備運行數據監測與異常檢測技術[J].粘接,2022,49(12):137-140.

收稿日期:2023-09-10;修回日期:2023-10-09

作者簡介:陳翀旻(1980-),男,工程師,研究方向:電力系統自動化;E-mail:Cchongm@163.com。

引文格式:陳翀旻,余泓夫,朱 迪,等.基于k-means聚類算法與多維特征融合的群體劃分模型[J].粘接,2023,50(11):193-196.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合