?

基于SVM 主動學習的制革企業財務管理數據分類方法

2024-01-03 13:46高溪王良浩
皮革與化工 2023年6期
關鍵詞:制革分類樣本

高溪,王良浩

(1.中國農業大學煙臺研究院,山東 煙臺 264000;2.廣西職業技術學院,廣西 南寧 530001)

1 引言

財務管理是企業管理中至關重要的一項任務,對制革企業而言也不例外。隨著信息技術的快速發展和應用,制革企業財務管理的數據處理和分類變得越來越關鍵。在現代經濟環境下,制革企業面臨著諸多挑戰和機遇。合理的財務管理和決策對于企業的財務健康和穩定發展至關重要。然而,由于制革企業的特殊性,其財務管理數據的分類問題需要額外的關注和研究。在過去,許多制革企業僅僅采用傳統的財務分類方法,無法滿足企業發展和管理的需求。同時,財務管理數據分類方法也可以幫助企業進行風險評估和預測,及時識別潛在的經營風險并采取相應的措施。因此,探討制革企業財務管理數據的分類具有重要意義[1,2]。

當前針對該問題的研究已經取得的一定的進展,例如文獻[3]提出基于聚類算法的醫療財務大數據分類方法。采用PNCC 模型對數據進行降噪,從而消除了數據中的噪聲對分類效果的影響;對財務管理數據進行自適應鄰域選擇,對其進行降維處理,建立QS-KFCM的聚類算法,實現對海量財務管理數據的精確分類。文獻[4]提出基于融合馬田體系的財務非均衡數據分類方法,該方法將馬田體系和AdaBoost 算法相結合,根據前一基分類器的預測結果,對財務非均衡數據分類方法進行調整,從而得到相關的分類結果。文獻[5]提出基于RPA 技術的財務數據分類方法。該方法結合多源數據構建了一種性能較優的財務機器人管理的數據交互模型。該模型利用RPA 技術,能夠自動與稅務、銀行等外部相關系統進行接口對接,并實現財務機器人業務數據的自動分類處理。

然而,制革企業的財務管理數據可能涉及多個方面,如財務會計、成本管理、預算、資金管理/經營指標數據等,而每個方面都有自己的特點和指標體系。由于制革企業的特殊性,傳統的財務管理數據分類方法往往難以滿足其需求。此外,制革企業的財務管理數據可能存在不平衡性和非線性關系,使得難以標注代表性的樣本,使得傳統分類方法在應對這些數據時效果不佳。因此,本文引入SVM主動學習方法,設計一種新的制革企業財務管理數據分類方法。SVM主動學習是一種機器學習算法,它結合了SVM和主動學習的思想。在制革企業財務管理數據的分類問題上,SVM主動學習通過主動選擇最具代表性的樣本進行標注,從而最大程度地減少標注過程中的工作量,提高數據屬性標注的效率,能夠提高分類準確性和適應性。

2 制革企業財務管理數據分類方法

2.1 制革企業財務管理數據降維處理

由于市場規律和宏觀經濟因素的影響,制革行業普遍具有周期性波動。需求、價格和盈利水平在不同的周期中可能表現出不同的趨勢,這對財務管理數據產生直接影響。為了解決這個問題,在對制革企業財務管理數據進行分類之前,需要進行樣本處理和向量化。針對這一需求,制革企業財務管理數據分類過程先對原始數據進行了標準化或歸一化處理,將各個財務指標歸一到相同的尺度范圍內,以便在分類過程中更有效地比較它們的相對大小和趨勢?;赟VM 主動學習的制革企業財務管理數據分類方法的創新之處在于,在考慮周期性波動的情況下,能夠更準確地捕捉到財務管理數據的潛在特征和趨勢。通過將數據轉換為向量模式并對其進行標準化處理,可以更好地對不同周期的數據進行比較和分類,從而提高分類結果的準確性和魯棒性。這種方法對于制革企業財務管理數據的分類與分析具有重要意義。

結合向量空間模型,將制革企業財務管理數據特征項的權重用{W1,W2,…,Wm}表示,其中Wi代表第i 個特征項的權重。計算制革企業財務管理數據的整體權重值:

通過上述的處理和計算,將制革企業財務管理數據庫表示為規格為m ×n 的資源矩陣,則有:

上式中,αij為制革企業整體財務管理數據量,m 代表資源庫中含有的不同財務管理數據類型[6,7]。

制革企業的經營涉及多個環節,這就意味著財務管理數據反映了企業在不同方面的特點,如資產負債結構和融資狀況,同時也體現了各項成本的變化和占比情況。然而,由于制革企業的復雜性,財務管理數據往往處于高維向量空間中,其中特征維數可能高達幾十萬。在高維向量空間中進行財務管理數據的分類和處理具有一定的困難。為了有效解決這一問題,需要對財務管理數據進行降維處理,將特征維數壓縮至適當的大小,以匹配訓練樣本數量。通過降維,可以有效去除財務管理數據中的噪聲,并提升分類效率和準確度。通過降維處理,將制革企業的財務管理數據轉化為更加緊湊的表示形式,可以減少不必要的冗余信息,同時保留重要特征,這有助于提高財務管理數據分類的質量。通過合理的降維方法,能夠在保持數據的完整性和準確性的同時,顯著降低計算復雜度,提升財務管理數據分類過程的可行性和可靠性。

通過互特征選擇方法計算不同制革企業財務管理數據的信息量對應的比重值[8],具體的計算式為:

2.2 基于SVM 主動學習機的數據分類

以降維后的制革企業財務管理數據為基礎,SVM 將制革企業財務管理數據U 中的樣本數據x映射到特征空間中[10],此時的特征空間可表示為:

上式中,z 為特征空間,φ(x)為映射量。在特征空間維度較高的條件下,考慮數據的線性可分性,促使權向量w 和b 需要滿足以下的約束條件:

上式中,w 為權向量,b 為偏置項,訓練樣本集代表w 和φ(x)的點積,通過SVM組建超平面(+b):

引入松弛因子ζi≥0,則有:

為了簡化操作流程,最優分類面問題可用公式(8)表達,其中在約束條件下函數最小值,即:

上式中,Cp代表懲罰參數。

由于特征空間的維數十分高,w 和φ(x)的取值不精準,引入核函數K (x,x'):

通過徑向基函數將線性不可分問題改為線性可分問題,該函數用以下公式表示:

式中,y 為財務數據維數。

現階段SVM訓練算法的速度并不理想,主要是受到目標函數對應矩陣維數的影響,致使問題的求解速度下降和維度增加[11,12]。為了有效解決上述問題,將主動學習加入到SVM[13]中,主動學習[14,15]可以通過選擇具有較高不確定性或邊界樣本的方式進行主動查詢,只需標注這些樣本,即可獲得信息豐富、高價值的訓練數據,從而降低了標注成本。通過選擇具有最大信息收益的樣本進行查詢,將這些樣本添加到訓練集中進行模型訓練,可以提高模型的性能和魯棒性。由于主動學習能夠針對目標任務聚焦于關鍵樣本,使得模型對關鍵樣本的分類準確性更高,從而提高了整體分類效果。具體操作步驟為:

在特征空間中搭建SVM 主動學習機,SVM 主動學習機由兩個部分組成(f,q),f 代表獨立的分類器;q 代表查詢函數。SVM主動學習機主要是通過查詢函數確定最終的查詢策略,同時在未進行標注的候選集U 中選取下一個需要進行標注的樣本,結合決策概率進行數據分別,以保證后續的數據分類質量與效率。

制革企業運營面臨多種風險和不確定性會導致財務管理數據的波動和變化,因此在對制革企業財務管理數據分類的過程中,分類間隔中生成的樣本會影響分類器的構建,為了確保分類結果的準確性,在每次進行分類面選擇時,選擇距離分類器距離最近的樣本為最新的樣本。但是在整個操作的過程中,仍然會對分類器的性能產生影響,為此需要利用SVM 主動學習機對于制革企業財務管理數據進行標注,具體操作步驟如下:

(1)從候選集U 中選擇i 個代表性樣本,按照不同的類型進行標記,建立一個初始的訓練樣本集T。

(2)通過T 建立分類器f 。

(4)從樣本集U 中選擇出最接近于分類器邊緣的、未標記的樣本(x,)。

(5)將不同的制革企業財務管理數據進行標注后,直接放置到訓練樣本集T 中。

(6)假設檢測精度達到設定的范圍內,則停止計算;反之,則返回步驟(2),重復上述操作,完成數據屬性標注,得到標注后的數據樣本集L0。

基于SVM 主動學習機的制革企業財務管理數據分類流程如下:

步驟1:初始化帶類別標注樣本集L0,L0=L;未帶類別標注候選樣本U0,U0=U 。

步驟2:進行第i 次采樣學習,在樣本集L0基礎上尋找最優分類超平面fi,計算該樣本集數據屬于這一樣本集的最大決策概率值,該值的計算公式如下:

式中,p 為初始候選樣本量,q 為最終標注樣本量。

步驟3:針對每一個候選樣本Ui∈U,假設P(b)代表第二大的決策概率值,得到制革企業財務管理數據分類的初步決策函數,該函數用以下公式表示:

上式中,k 代表Kappa 系數,δ(Ci)代表訓練樣本中屬于類別Ci的樣本概率,其計算公式如下:

上式中,A(Ci)代表訓練樣本中屬于類別Ci的樣本總數。

結合上述分析,制革企業財務管理數據分類結果如下:

3 仿真實驗

為了驗證所提基于SVM 主動學習的制革企業財務管理數據分類方法的綜合有效性,在MATLAB R2016a 軟件中進行測試,實驗環境設置如表1 所示。

表1 實驗環境設置

選用山東省中小型制革企業作為研究對象,采集該研究對象2020-2022 年的所有數據。由于所采集到的制革企業的所有數據包含非財務數據,這類數據屬于冗余數據,因此需要對其進行篩選與去除處理,具體過程如下:

(1)確定非財務數據范圍:非財務數據涉及到公司員工信息、市場銷售數據、供應鏈數據等與財務管理無關的信息。

(2)數據集初步篩選:根據確定的非財務數據范圍,對整個數據集進行初步篩選,并通過查看數據字段、列名、描述或文檔來確定包含或排除某些數據。

(3)人工查找與刪除:基于對數據的了解、特定關鍵詞或指標的搜索來確定哪些數據是非財務數據,并通過人工方式將其從數據集中刪除。

隨后,在實驗過程中從篩選得到的財務管理數據集中選取相關共計3000 條數據,其中包含現金流數據、投資數據、籌資數據、財務會計數據、成本管理數據、預算數據、資金管理數據、經營指標數據、稅務數據、經營報表數據。通過對上述數據進行降維處理,去除數據中的冗余特征,再進行實驗數據的選取。具體實驗數據類型如表2 所示。

表2 實驗所用數據類型

實驗過程如下:

對財務管理數據進行清洗、去除異常值、處理缺失數據等操作,確保數據的質量和一致性。將文獻[3]方法和文獻[4] 方法以及所提方法作為實驗對比方法,通過對比不同實驗指標來對于不同方法的實際應用效果進行了深入驗證。

實驗指標1:將所有實驗數據以打亂的形式使其分散在樣本空間中,利用不同方法對于其進行分類,哪種方法夠將相同屬性的數據分為一類,則說明該方法的分類效果好。

實驗指標2:在制革企業財務管理數據分類的過程中,容錯率是指分類方法對錯誤分類或誤差的容忍程度。它衡量了在分類過程中允許的錯誤預測的比例。較高的容錯率意味著模型對于錯誤分類或誤差的容忍性較高,可能會導致更多的誤報或漏報。

實驗指標3:Kappa 系數考慮了不同方法的分類準確率與預期準確率之間的一致性,用于評估方法與隨機分類之間的差異,其取值范圍為[0,1]。

文獻[3]方法和文獻[4]方法以及所提方法的制革企業財務管理數據分類效果如圖1 所示。

圖1 制革企業財務管理數據分類效果

分析圖1 中的結果可知,利用文獻[3]方法對于制革企業財務管理數據分類后,部分數據被歸為一類,但是有更多的數據依然并未歸類,因此這種方法的分類效果比較差。利用文獻[4]方法對于制革企業財務管理數據分類后,雖然能夠將數據分為8 個類別,但是分類結果中存在較多的漏分和錯分情況,所以這種方法的分類效果依舊不佳。而與這兩種方法相比,所提方法能夠將所有樣本數據精準分為7 類,存在漏分情況,但是不嚴重,說明這種方法的分類效果好。

文獻[3]和文獻[4]方法以及所提方法的制革企業財務管理數據分類容錯率對比結果如圖2 所示。

圖2 制革企業財務管理數據分類容錯率

分析圖2 中的實驗數據可知,制革企業財務管理數據分類容錯率隨著實驗次數的增加具有顯著的波動變化趨勢。其中,文獻[3]方法的制革企業財務管理數據分類容錯率最大值為36.7%,最小值為14.6%;文獻[4]方法的制革企業財務管理數據分類容錯率最大值為37.2%,最小值為18.1%;所提方法的制革企業財務管理數據分類容錯率最大值為6.8%,最小值為2.8%;綜合來看,所提方法的制革企業財務管理數據分類容錯率曲線始終位于實驗對比方法之下,且變化較為穩定,說明該方法的容錯率較低,能降低數據錯誤分類發生的概率。

文獻[3]方法和文獻[4]方法以及所提方法的制革企業財務管理數據分類Kappa 系數對比結果如表3 所示。

表3 Kappa 系數對比結果

分析表3 中的結果可知,所提方法的Kappa 系數均值為0.92,文獻[3]方法的Kappa 系數均值為0.76,文獻[4]方法的Kappa 系數均值為0.61。經過對比可得,所提方法的Kappa 系數更接近與1,說明該方法的分類結果與真實結果之間一致性更高,具有較高的預測精度。

綜合分析上述各項測試指標可知,所提方法的分類效果、容錯率和Kappa 系數均高于另外兩種方法,最為主要的原因是:在實際操作的過程中,所提方法加入了主動學習算法對制革企業財務管理數據進行分類,促使整個方法的各項性能均得到有效提升,同時具有較強的魯棒性。

4 結束語

財務信息是企業運營和決策的重要基礎,通過對財務數據的分類和分析,可以幫助管理者更好地進行戰略規劃、風險控制和決策制定,因此提出了一種基于SVM 主動學習的制革企業財務管理數據分類方法,以期為制革企業面臨的復雜市場環境和周期性波動所帶來的挑戰提供了一種創新的解決方案。仿真實驗結果表明,所提方法能夠有效提升方法的分類效果,降低容錯率,提升預測精度,分類效果達到了相關預期。該方法能夠給制革企業提供了一種精確、高效的解決方案,可以幫助企業更好地理解和分析財務管理數據,從而做出更為準確的業務決策。

猜你喜歡
制革分類樣本
制革工業水污染全過程防治技術組合方案研究
分類算一算
用樣本估計總體復習點撥
分類討論求坐標
推動醫改的“直銷樣本”
數據分析中的分類討論
教你一招:數的分類
隨機微分方程的樣本Lyapunov二次型估計
制革下腳料酶解物對番茄生長的影響
村企共贏的樣本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合