?

基于K-means算法的居民數字畫像促進基層治理研究
——以CS市XZ社區為例

2024-01-23 06:13夏廣偉周玉梅
長沙民政職業技術學院學報 2023年4期
關鍵詞:畫像類別聚類

夏廣偉 周玉梅

(長沙民政職業技術學院,湖南 長沙 410004)

基層治理作為現代社會和政府體系的基石,扮演著關鍵的角色,直接影響著民眾的生活質量、社會穩定和國家發展?;鶎又卫聿粌H僅是政府機構的職責,還涉及廣泛的社會參與和各種層面的政策制定。因此,理解和改進基層治理尤其重要。近年來,基層治理在數字化及智能化進程[1],“智治”賦能市域社會治理方式現代化[2]等方面取得了不俗成績。但是仍然存在人工化管理模式低效率問題[3]、目標弱等典型問題[4],其根本原因是基層部門對居民的分類不夠精準,依靠傳統基層治理手段和方式,很難解決當前基層治理問題[5],在滿足現代社會多元化需求和變化的背景下,無法充分考慮居民多樣性和個體需求。

因此,基層治理需要采用更現代、靈活和多維度的分類方法,以確保服務更加精準和有效,以提高分類的質量。

1 居民畫像研究現狀

居民畫像方法的研究是一個關鍵領域,它旨在理解和劃分不同居民群體,以滿足他們的需求和制定相關政策。這一領域的研究涵蓋多種分類方法,主流的方法有兩類:一是傳統的以居民社會屬性為分類對象的主觀經驗分析方法。如,劉浩等提出通過分析居民的靜態屬性構造數字畫像來提升城市公共服務水平[6]。羅金滿等探討了基于客戶年齡、性別、家庭人口等基本信息的畫像方法,得出目標人群的大致框架[7]。但此類方法的分類標準具有剛性和靜態性等弊端,忽略了研究對象的文化和社會背景等情況的特殊性,導致資源不均衡分配。

另一種是基于多維數據的機器學習算法,如鄭明超等提出了一種基于決策樹的居民評估模型[8]。盡管可以將居民有效地進行分類畫像,但也存在一些不足之處:在樹的深度很大時,決策樹容易過度匹配訓練數據;對于包含復雜關系的數據,決策樹可能無法捕捉到這些關系等。因此,本文提出一種基于K-Means的居民數字畫像算法,通過構建B-EWE特征模型來對社區居民進行更精準和多維的分類分析。

2 基于CS市XZ社區的居民數字畫像模擬

2.1 算法設計

K-means(K均值)算法是一種常見的無監督學習算法[9-10],用于數據聚類,即將數據集中的樣本分為不同的組或簇,以便相似的數據點歸為同一組。其目標是將數據點分為K個不同的簇,以最小化每個數據點與其所在簇中心之間的距離,使得簇內的數據點足夠相似,而不同簇之間的數據點差異較大。工作流程如圖1所示。

圖1 K-means算法流程圖

原數據中存在大量非數值型字段值,不利于進行算法計算,需要對其進行預處理。如將性別、是否有車的值設置為1和0,表示“是”和“否”兩種狀態;將是否結婚的值設置為0、1和2,分別代表“單身”“已婚”和“離異”。同理,將年收入的范圍、不同的受教育程度以及職業類型的歸屬分別以不同的值來代表其所在區間。使用python工具對數據進行預處理并按以上規則轉換。為使結果更加精確集中,將數據進行標準化處理。

設計數據模型階段,根據居民基本情況(Basic information)、經濟狀態(Economic status)、工作情況(Work situation)、受教育程度(Education Background)等主要信息,構建居民B-EWE特征模型,即基本情況特征(B)、經濟狀態特征(E)、工作情況特征(W)、受教育程度特征(E)。最后,通過計算簇內誤差平方和(SSE)來選擇合適的k值。

式中,Ci代表數據樣本空間,p代表樣本聚類中心,mi為簇內每個樣本點。通過公式生成SSE圖像,再結合不同聚類中心數目的得分可以得出最佳聚類中心個數。

2.2 數據描述分析

本文使用的數據來源于CS市XZ社區的居民,經過預處理后剩余1454條數據,數據集主要包括性別、是否有車、是否有房、子女數量、年收入、受教育程度、是否結婚、住戶類型、職業、同住總人數、年齡、工齡等12個關鍵字段。部分字段的具體值如表1所示。

表1 數據表部分字段值

通過統計分析得到居民的以下基本數據信息,可以看出該小區居民中女性住戶占比為47.25%,男性居民占比為52.75%,男性居民數量略多于女性居民數量。其中,已婚居民占比為74.35%;單身19.33%;離異6.33%。只撫養1個孩子的家庭數量最多;沒有撫養孩子的家庭數量大概為前者的一半;少數家庭撫養2個或多個子女。同住人口方面,3人家庭數量最多;其次是獨居和只有2人同住的家庭。如圖2所示。

圖2 家庭基本情況

居民經濟情況如下,該小區居民中有車居民占比為54.88%,無車居民占比45.12%,二者相差不大。住戶中,有房的居民占比75.72%,無房的24.28%,其中是本小區業主的居民占比71.60%,說明在此居住的居民中有的在別處也有房產。小區居民家庭的年收入在15萬-18萬的居多,收入過低和過高的較少,數據分布如圖3所示。

圖3 居民經濟情況

住戶的工作情況如圖4所示,小區居民年齡大部分分布在30歲到50歲之間,符合正態分布。工齡整體呈跳躍性趨勢,說明自由職業者的工齡比較難以界定,對整體數據存在一定的影響,工齡年限在15年到25年的最多,與年齡分布大體一致。

圖4 居民工作情況

居民職業及受教育程度如圖5所示。從職業分布看,高級白領所占比例最大,為11.21%;經理、工人、教師占比都在7%以上;IT工程師、銷售、公務員和高級職員占比相近;保潔、服務員、客服等服務類職業人數較少,總占比為10%左右。其中部分職業對學歷要求較高,如金融白領、工程師、公務員和事業單位工作人員(教師、醫務工作者)等,從事此類職業的人數總占比達到了62.42%。受教育程度看,本科學歷的居民占比最多,達到了69.94%;其次是大專學歷的居民,為20.84%;碩士研究生學歷的居民占比為7.08%;博士研究生和??埔韵聦W歷的占比最少。

圖5 職業及受教育程度

通過相關性計算如圖6所示,可以看出住戶類型與是否有房、同住總人數與子女數量、年齡和工齡、年收入和職業這4對變量存在著明顯的相關性。

圖6 變量相關性分析

2.3 數字畫像模擬結果及分析

應用公式(1),將數據進行計算,結果如圖7和圖8所示,可以看出當聚類中心個數為4的時候,SSE圖像中出現了明顯的拐點,且分數達到最高,說明k值最優。

圖7 簇內誤差平方和

圖8 不同k值所得分數

計算出最佳聚類中心數目后,將數據進行聚類,得到每條數據所屬類別圖,可以看到數據被分別分類到“0”“1”“2”“3”四個類別中。部分結果如表2所示。

表2 聚類中心

將聚類中心數據進行處理,可得到居民分群,如表3所示??梢钥闯鲱悇e為“0”的居民個數為297個,類別為“1”的居民個數為533個;類別為“2”的居民個數為278個;類別為“3”的居民個數為346個。其中類別為“1”的居民所占比例最大,分布如圖9所示。

表3 居民聚類分群表

圖9 居民聚類分布

由上述的表3和圖9可以得出4個聚類中心,聚類類別中的“0-3”分別表示不同類型的居民,圖9中的圖像面積與表3中的類別個數相吻合,都表示類別內居民的具體數值。其中,經濟特征數值越大,說明收入越高;工作情況特征值越大,說明工作越穩定;受教育特征值越大,說明受教育程度越高??梢愿鶕用竦慕洕鸂顟B、工作情況、受教育程度這三個特征來結合居民的基本情況進行數字畫像。

3 基層居民治理策略優化

結果顯示小區居民數字畫像的類型最佳可分為4類,分別定義為:改善型居民、提升型居民、帶動型居民、穩定型居民?,F結合社區實際情況提出治理與服務策略建議如下。

改善型居民指的是聚類類別序號為“0”的居民:此類居民經濟狀況中等偏下、工作狀況極不穩定、受教育程度一般。針對此類居民,社區基層應采取重點關注的治理和服務策略,如:提供兼職、職業培訓和技能發展,以幫助他們改善生活狀況、提高就業機會。定期提供政策信息和資源,幫助居民獲取社會福利、補助金、低收入家庭支持等。鼓勵并培訓家長參與孩子的教育,提供教育咨詢。建立互助網絡,促進鄰里互動。提供社交和文化活動,增進社區凝聚力。促進居民參與社區決策,建立開放和包容的對話機制,以改善居民的生活狀況。

提升型居民指的是聚類類別序號為“1”的居民:此類居民經濟狀況很好、工作狀況很穩定、受教育程度很高。對于此類居民,社區基層的治理重在提供高品質的服務。如:組織各種社交、文化和藝術活動等;促進交流提升,鼓勵居民分享自己的經驗和知識;提供高級教育和技能培訓機會,以支持個人和職業發展;組織并鼓勵居民在社區內分享技能,支持其他社區居民的學習;提供高級醫療保健服務,包括健康檢查、專業醫療服務和心理健康支持;鼓勵居民參與社區治理和決策,包括社區會議、項目規劃和政策制定,提升居民參與基層治理能力和社會責任感。

帶動型居民指的是聚類類別序號為“2”的居民:此類經濟狀況很差、工作狀況比較穩定、受教育程度不高。針對此類居民,社區基層需要提供多方面支持,以幫助他們改善生活狀況,同時提升社會融入感。如:組織基礎職業培訓,包括技能培訓、求職技巧等,以幫助提高就業技能;提供低門檻的就業信息,如臨時工作、兼職工作和季節性工作,幫助他們提高就業機會;提供基本醫療保健服務,包括健康檢查、藥物配方和緊急醫療服務;提供基礎教育機會,包括學歷提升課程和基本文化課程,以提高受教育程度;支持兒童和青少年教育,以幫助家庭改善下一代的機會;鼓勵居民參與社區決策,以帶動居民走出現有困境。

穩定型居民指的是聚類類別序號為“3”的居民:此類居民經濟狀況一般、工作狀況很穩定、受教育程度一般。針對此類居民,社區基層需要提供綜合的治理和服務策略。如:提供社會互助和社交支持,促進鄰里關系和社交互動,以促進社交聯系;提供繼續教育機會,包括技能培訓、文化課程和職業發展課程;為家庭教育和學習資源提供支持,以提高居民和子女的教育水平;開展多元化的活動交流,提升居民的幸福感和參與感;鼓勵居民參與分類服務的制定和評估過程,幫助基層更好地理解他們的需求,從而有效地提高生活質量。

本文所設計的基于K-means聚類分析法的BEWE評價模型,通過對社區居民的信息數據進行處理分析,提出居民分類標準,從而將其分配到適當的服務類別中。居民數字畫像分類完成后,制定針對每個分類的政策和服務,以滿足不同群體的需求。與傳統的居民數字畫像分類方法相比較,本文算法能從多個維度和角度對居民的狀況進行評估,不僅可以更精確地實現居民畫像分類、實時準確了解轄區居民的情況,也能夠針對不同類型的居民進行有效的管理,進而及時制定相應的服務策略。

猜你喜歡
畫像類別聚類
威猛的畫像
“00后”畫像
畫像
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
服務類別
一種層次初始的聚類個數自適應的聚類方法研究
論類別股東會
中醫類別全科醫師培養模式的探討
潛行與畫像
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合