?

基于改進K-means聚類算法的上市公司信用風險評估研究

2023-01-03 02:58李云飛
內江師范學院學報 2022年12期
關鍵詞:財務指標信用風險聚類

趙 衡,彭 鈴,李云飛

(西華師范大學 數學與信息學院,四川 南充 637009)

0 引言

近年來隨著我國金融市場的逐漸開放,引入外資銀行以及國內金融機制的改革,我國金融市場迅速發展,市場規模也不斷成長.2020中國金融學會學術年會披露,我國上市公司數已達4100家,上市公司總市值超過79萬億元,位居全球第三.這也說明我國資本市場目前最急迫的問題已不再是快速擴大上市公司數量,接下來面臨的將是如何提高上市公司質量的問題,要確保我國資本市場未來可持續且平穩健康的發展.我國上市公司目前面臨亟待解決的問題有上市公司管理制度不規范、信息披露不充分、財務信息不準確、退市制度不完善、券商參與了上市公司造假行為等,這些都將影響我國經濟健康發展和投資者的利益.因此,探索上市公司信用評級方法至關重要,為了提高上市公司質量,應建設規范、透明、開放、有活力、有韌性的資本市場.

早期比較流行的信用風險評估方法是專家基于企業提供的材料,利用個人經驗以及專業技能,對企業信用進行評估并衡量其風險,即5C、5W、5P方法以及Alexander Wole提出的沃爾評分法與杜邦財務分析體系[1].然而,此類方法對評估者的專業知識要求高而且主觀性強,屬于定性分析.隨著市場經濟的發展以及20世紀90年代信息技術不斷發展與成熟,人工智能方法在信用風險評估中應運而生,機器學習模型被引入到信用風險評估研究中.例如,Makowsik[2]首次在信用評估中應用決策樹模型;Tae等[3]提出用決策樹模型建立基于經濟正常與經濟危機兩種情況下的經濟破產預測模型;吳世農等[4]通過資產變現力、負債狀況、資產使用效率和盈利能力4個方面,建立以線性判定分析法為主的企業破產預測模型,研究結果顯示此模型對破產企業和非破產企業均具有較高的預測能力;Odom[5]以Altman建立Z值分析模型時選取的5個財務指標作為輸入變量,構建了神經網絡模型,研究對象為128家破產和非破產企業,結果表明神經網絡模型對非破產企業預測的準確率高于破產企業;周首華等[6]基于改進的Z評分模型,建立了財務預測模型——F分數模式,并用Compustat PC Plus會計資料庫中的4160家公司驗證,其準確率達到70%;Gao等[7]通過對上市公司2012-2014年財務狀況與股價等相關數據的分析,構建的AHP與KMV-Merton模型,并驗證其合理性,拓寬結果可靠性思路,探討如何加強我國SEMs信用評級體系;Guo等[8]提出了一種基于BP神經網絡的貸款風險評估算法,爬取2015—2019年P2P借貸平臺數據,并采用Logistic回歸與BP神經網絡進行比較,發現BP神經網絡的算法優于傳統Logistic回歸算法;袁宇等[9]首先采用網絡爬蟲技術獲取80家健康平臺數據,利用K-means聚類方法構建P2P網貸平臺信用風險預警模型,合理預測平臺風險情況;孫劍斌等[10]運用CHAID決策樹和BP神經網絡模型分別對555家上市公司進行預測,發現BP神經網絡模型預測結果較好;仵曉溪等[11]運用優化后的基于熵權-FCM模型和傳統FCM模型對50家上市公司進行信用風險評估研究,發現優化后的模型對上市公司的信用風險級別劃分更加合理有效.

聚類分析屬于無監督機器學習方法,它基于物以類聚原理,分析和探索事物的內在聯系和本質[12].聚類算法不需要對樣本數據進行標記,可以從樣本數據出發,根據樣本點自身的特征,自動進行分類;聚類分析過程是一種根據相似性原理,將樣本數據分類到不同的類或者簇,屬于同一簇中的對象相似度高,而不同簇間的對象有相異性.如王賽芳等[13]針對傳統K-means聚類算法對初始中心和孤立點的問題,提出一種基于密度選取初始聚類中心的方法,利用隨機產生的三組實驗數據驗證改進的K-means聚類算法的效果,發現改進后的算法能產生高質量的聚類結果;謝娟英等[12]針對傳統K-means聚類算法隨機選取初始聚類中心,發現這樣容易導致聚類結果不穩定,且優化初始聚類中心需要人為選擇參數等缺點.于是基于樣本空間緊密度,提出利用最小方差優化初始聚類中心的K-means算法,發現改進的K-means聚類算法使得聚類結果穩定且抗噪音效果強;王菲菲等[14]對于K-means聚類算法初始中心選取敏感以及需要先給定初始聚類中心這兩個方面的缺點,提出一種二分類思想和BWP指標改進算法,發現改進的算法具有更高的有效性和穩健性;馬克勤等[15]利用加權密度法選取初始聚類中心點時,為了減少離群點的影響,提出一種基于最大最小距離和加權密度的K-means聚類算法,最后在人工數據集和UCI數據庫驗證,發現改進的算法增強了穩定性.對于上市公司的研究,蒲永平[16]采用系統聚類和快速聚類對150家公司的數據進行聚類,最后用散點圖對其進行了準確性驗證.

但是傳統的K-means聚類算法也存在一定的缺陷:聚類指標間的冗余性與重要性差異會影響聚類的效果、最佳聚類數不易確定、聚類的準確性及穩定性易受初始聚類中心選取的影響等.本文針對傳統的K-means聚類算法在確定初始聚類中心時具有隨機性的缺點,基于密度和權重對傳統K-means聚類算法進行改進,并對上市公司的信用風險評估問題進行研究.

1 K-means聚類算法

1.1 傳統K-means聚類算法

K-means聚類算法是一種應用廣泛且基于劃分的聚類算法.傳統的K-means聚類算法是將誤差平方和作為判斷聚類效果的準則函數.K-means聚類算法是將含有R個樣本的集合劃分為互不相交的K個簇,屬于同一個簇的樣本相似度較高,而不同類簇之間的樣本相似度較低.K-means聚類算法的基本思路是:首先在一個含有R個樣本的集合中隨機選取K個樣本作為初始聚類中心,根據每個樣本到K個中心的歐氏距離,將樣本分配到最相似的聚類中心,從而得到互不相交的K個簇;重新計算K個簇的新中心,然后再根據歐氏距離原理將R個樣本分配到最相似的類簇.不斷重復迭代此過程,直到K個類簇中心不再改變,從而得到原始集合的互不相交的K個穩定的類簇.

1.2 基于密度和權重改進的K-means聚類算法

傳統的K-means聚類算法對初始聚類中心的確定具有隨機性,同時也可能會選到孤立點或噪聲點,這樣可能會導致聚類結果與樣本數據集的真實分布不一致,得不到正確的聚類結果.已有學者針對傳統K-means聚類算法隨機選擇初始聚類中心的缺點,提出根據樣本數據的緊密程度選擇聚類中心,從而可以避免初始聚類中心不穩定和需要人為給定參數的缺陷,保證聚類結果的客觀性和穩定性[17-19].然而對于孤立點或噪聲點的缺陷,陳小雪等[20]和王子龍等[21]提出一種基于距離和樣本權重改進的K-means聚類算法,采用維度加權的歐式距離,從而減少異常點的影響.盡管近年來已有學者針對傳統K-means聚類算法隨機選取初始聚類中心,容易造成聚類結果不穩定的缺陷,提出了一些優化初始聚類中心選擇的方法,使得聚類的結果更加穩定,然而卻忽視了樣本數據中異常點的影響.因此本文根據樣本空間的緊密程度最高(即方差最小)的原則,再采用引入權重后的平均距離作為半徑,選取K個位于不同區域的初始聚類中心,提出了結合樣本密度和權重改進的K-means聚類算法.根據方差最小的原則優化初始聚類中心的選擇可以避免其隨機性,同時初始聚類中心從相距較遠的簇中選取從而避免其位于同一簇中,引入權重是為了減少離群點對聚類結果的影響.

假設給定的待聚類數據集M={x1,x2,x3,…,xn},且每個樣本點均為m維,表示為xi={xi1,xi2,xi3,…,xim}(i=1,2,…,n).

定義1[20]計算距離時樣本點不同維度數據的權值計算式為:

(1)

定義2[12]樣本點xi,xj之間的歐式距離為:

(2)

定義3樣本點xi到所有樣本點的平均值距離為:

(3)

定義4[12]樣本點xi的方差為:

(4)

定義5樣本數據點平均歐氏距離為:

(5)

定義6[12]聚類誤差平方為:

(6)

1.3 基本思路

參考謝娟英等[12]的研究方法,以方差衡量樣本點的密度,根據密度最大,以樣本空間加權后的距離的平均值作為半徑,選取K個位于不同區域且誤差平方和最小的樣本點作為初始聚類中心.本文考慮基于樣本空間的緊密程度和權重選取初始聚類中心.若想要達到聚類收斂的效果,首先通過式(4)計算樣本點數據的方差,找到密度最大的樣本點為初始聚類中心,以樣本數據點賦予權重距離的平均值為半徑,位于此區域的樣本數據點構成集合M1;在M-M1中選取方差最小的樣本點,以余下所有樣本數據點的賦予權重距離的平均值為半徑,且處于該區域的樣本數據點構成集合M2;不斷重復上述步驟,直到將待聚類數據集M劃分為K個位于不同區域的集合;再將每一個集合M1,M2,…,MK的均值作為該集合新的聚類中心;最后再由式(6)計算聚類的誤差平方和.

1.4 基本步驟

輸入:數據集M={x1,x2,x3,…,xn},分類數K.

輸出:K個聚類簇.

1.4.1 確定初始聚類中心:

M2={d(xj,xi2)cmean,j=1,2,…,n}.

(3)重復上述步驟,直到找到K個互不相交的集合.

1.4.2 構造初始劃分

(1)根據式(2)得到每個樣本點到選取的K個初始聚類中心的歐式距離,再把樣本點劃分到最近的類中,構成初始劃分;

(2)計算初始劃分每一類的均值,并作為該類的新中心;

(3)由式(6)計算聚類結果的誤差平方和.

1.4.3 迭代更新聚類

(1)根據上次聚類得到新的聚類中心,由式(2)計算樣本數據點到新中心的歐式距離并分配到最近的類;

(2)計算每一類的均值,并作為該類的新中心;

(3)由式(6)計算聚類結果的誤差平方和;

(4)將此結果與上次聚類的誤差平方和進行比較,若E′-E10-10,則滿足聚類中心不再改變,迭代終止,輸出聚類結果;否則,繼續上述步驟,直到聚類結果收斂.

2 數據來源和指標篩選

2.1 數據來源

本文從網易網站(http://quotes.money.163.com/stock)選取上市公司的財務數據,包括償還能力、成長能力、盈利能力、營運能力.從以上四個維度選取能夠詮釋上市公司運營狀況的財務指標,構建信用風險評估體系.如果上市公司出現違約或違規狀況通常會被特別處理,即對該公司實施ST制度.無論是銀行或是投資者均會優先考慮“非ST”上市公司,現從網易財經股票網站中隨機選取了滬、深兩市50家“非ST”企業作為評估對象,并截取其2020年的年報數據,均包含四個維度,一共27個財務指標,具體如表1所示.

2.2 指標篩選

有諸多因素會影響上市公司信用風險的評估結果.因此,指標的選取要遵循合理性、全面性及客觀性等原則,判斷選取的指標是否科學合理,會對所選取的上市公司評估結果產生影響.由于本文選取的50家上市公司2020年的27個財務指標中,有部分指標所表達的經濟學信息含義相同,也即指標之間具有相關性,本文首先采用因子分析法對選取的27個指標進行降維處理,以便篩選出最有效的財務指標來綜合反映各公司的財務狀況.根據KMO和Bartlett球體檢驗結果分別為0.703、0,而理論上KMO值大于0.5且Bartlett球體檢驗的顯著性P值小于0.05就適合進行因子分析.因此,本文選取的27個財務指標可以通過因子分析法進行降維處理.

本文運用數據分析軟件SPSS26對27個財務指標進行分析,在因子分析法中選擇最大方差法對因子進行旋轉,從而可以提取到6個公共因子,且公共因子累計貢獻率為78.72%.所提取到的6個公因子基本上可以覆蓋所選取的研究對象的絕大部分信息,通過Kaiser正態化最大方差法,旋轉在9次迭代后收斂,旋轉成分矩陣如表2所示.第一類公共因子F1,其中n18、n19、n20三個指標具有較大載荷量,分別為:0.806、0.920、0.926;第二類公共因子F2,其中n8、n9、n6、n25四個指標具有較大載荷量,

表1 財務指標體系

分別為:0.878、0.848、0.847、0.800;第三類公共因子F3,其中n27、n26、n5三個指標上具有較大載荷量,分別為:0.905、0.796、0.729;第四類公共因子F4,n17、n10、n16三個指標具有較大載荷量,分別為:0.756、0.731、0.704;第五類公共因子F5,其中n4、n14兩個指標具有較大載荷量,分別為:0.888、0.750;第六類公共因子F6,其中n22、n21兩個指標上具有較大載荷量,分別為:0.679、0.588.為檢驗選取的六大類公共因子的合理性,再對每個指標大類做KMO和Bartlett檢驗,根據KMO大于0.5且Bartlett球體檢驗顯著性P小于0.05,選擇載荷量最大的一項作為信用風險評估指標.結果顯示,只有第一類公共因子到第四類公共因子通過檢驗.

綜上所述,經過因子分析法分析發現對于第五類和第六類公共因子均保留,從而對指標進行降維處理后,剔除19個指標,余下8個指標為n4、n8、n10、n14、n20、n21、n22、n27.

表2 旋轉后的成分矩陣a

3 算例仿真分析

3.1 標準化處理

本文對上市公司財務指標進行因子分析后,選取了8個財務指標,但不同財務指標之間單位不同,如基本每股收益(元)、銷售凈利潤(%)、固定資產周轉率(次),且三個指標之間單位存在計量與數量級的差異.所以為了消除各項指標之間量綱不同的影響,需要對數據進行標準化處理.常見的數據標準化方法有:Z-score標準化、最大-最小標準化、按小數定標標準化.由于財務指標有正向指標、中性指標和逆向指標之分,故本文對數據進行標準化處理時,采用最大—最小標準化方法.

正向指標標準化:

逆向指標標準化:

中性指標標準化:

式中,xij'代表標準化后的值;xij表示第i個上市公司的第j個財務指標數據值;n代表上市公司總數;q為適中指且通常為1[11].

3.2 K-means聚類

為了進一步說明本文改進的算法性能有所提高,分別采用傳統K-means聚類算法、最小方差聚類算法和本文算法在UCI機器學習數據庫上進行驗證[22].

按照信用風險級別將上市公司分以下三類:低風險、中風險、高風險.本文利用python編寫傳統K-means聚類、最小方差K-means聚類和本文改進的K-means聚類算法的程序,將50家上市公司的27個財務指標,經因子分析法降維處理與標準化處理后篩選出的8個財務指標數據導入編寫好的程序,最后比較三個程序迭代終止時的誤差平方和,依次為19.473 46、9.547 96、9.529 45.驗證結果顯示,本文改進的算法誤差平方和有所提高.

基于密度和權重改進的K-means聚類迭代終止,將本文選擇的50家上市公司聚為三類,其中低風險公司有1家,中風險公司有24家,高風險公司有25家,具體的評級結果如表3所示.最后將本文聚類的評級結果與仵曉溪等[11]的研究結果進行比較,結果表明本文的信用風險等級劃分結果與其基本吻合.

4 結論及建議

4.1 結論

本文從網易網站選取50家上市公司2020年財務數據,根據樣本的緊密程度最高(即方差最小)的原則和引入權重后的平均距離作為半徑,選取K個位于不同區域的初始聚類中心,提出運用密度和權重改進的K-means聚類算法對上市公司進行信用風險評估研究,最終比較傳統的K-means聚類算法、最小方差K-means聚類算法以及本文改進的K-means聚類算法迭代終止時的誤差平方和.研究結果表明,本文改進的算法誤差平方和最小為9.529 45,并且將選取的研究對象聚類為三類,其中1家屬于低風險,24家屬于中風險,25家屬于高風險.

4.2 建議

目前,根據我國金融市場發展現狀,提高上市公司質量是首要問題.因此,需要構建合理有效的信用風險評估模型,探索研究上市公司信用風險評估問題.其一,針對指標的選取方面.首先要考慮指標的全面性、客觀性以及具有代表性,其次篩選出能夠真實有效反映我國上市公司現狀的指標體系;其二,本文針對選取的50家上市公司采用密度和權重改進的K-means聚類算法構建的上市公司信用風險評估模型進行三分類研究,從而投資者可以考慮從低風險和中風險的25家上市公司選擇風險較低的公司進行投資,同時在保證降低投資風險的基礎上爭

表3 評級結果

取能夠獲得更大收益.此外,公司管理者可以根據信用風險評級結果制定公司未來發展的策略,比如針對劃為高風險等級的上市公司,管理者可以從公司股權分配、各職能部門工作是否協調等多方面進行考慮.所以構建合理有效的上市公司信用風險評估模型有益于投資者的投資決策和有利于上市公司更好地發展.

猜你喜歡
財務指標信用風險聚類
油氣貿易企業信用風險管理研究
大數據背景下的電子商務信用風險預警方法
關于財務指標實際應用的思考
面向WSN的聚類頭選舉與維護協議的研究綜述
探討醫院財務分析中財務指標體系的應用
基于高斯混合聚類的陣列干涉SAR三維成像
EVA業績評價體系應用分析
貝因美股份有限公司償債能力分析
京東商城電子商務信用風險防范策略
基于Spark平臺的K-means聚類算法改進及并行化實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合