?

國有企業并購完成率預測及其影響因素研究*
——基于數據挖掘和隨機森林算法的分析

2022-07-29 01:05
上海金融 2022年5期
關鍵詞:完成率決策樹顯著性

王 言

(1 清華大學五道口金融學院, 北京 100083;2 華夏銀行博士后科研工作站, 北京 100005)

一、引言

自1997 年9 月黨的十五大報告第一次正式提出混合所有制經濟的概念, 至今已有二十余年的歷史。在此期間,黨中央、國務院多次指出要積極發展混合所有制經濟, 促進國有資本和社會資本交叉融合。2015 年9 月,國務院指出,在特定領域的國有企業,堅持國有資本控股,在沒有明確規定的其他領域,鼓勵通過并購重組進行股權比例調整??梢娀旌纤兄聘母锛捌涓母飫訖C實現的關鍵在于混改后國企的治理問題,而并購重組則是企業重要的外部治理機制(吳超鵬等,2011)。近些年在市場和混合所有制改革的政策引導下出現大量國企并購行為。 同花順iFinD 數據顯示,2017-2018 年, 滬深兩市共發生國企重大重組涉及交易總體價值10003.1 億元,2017 年就滬市而言, 國企并購重組金額就已超過5400 億元。 2020 年是國企改革三年行動的開局之年,混合所有制改革實踐進一步深化,國有資本布局進一步優化,67 家次深市國有控股上市公司披露控制權變更,全年實施重大資產重組23 家次,交易金額2437 億元。

近幾年實踐發現,國企在如此大規模并購交易背景下,由于各種因素,很多企業超出自身能力范圍盲目進行并購,導致并購未能完成。 有的在證監會批復前取消并購, 如2014 年5 月成飛集成發布公告稱由于不可抗力或者雙方以外的其他客觀原因而終止并購交易協議;2017 年8 月博云新材召開董事會稱:“經慎重考慮決定終止本次重大資產重組事項。 ”2022 年1 月金力泰發布公告稱:“由于高登科技與公司未能就中科世宇后續經營運作、主營業務未來發展方向等方面達成一致意見,一致同意終止《股權轉讓協議》?!庇械谋蛔C監會或交易所暫停、中止或取消,如2018 年11 月中國證監會決定終止對風神股份發行股份購買資產并募集配套資金暨關聯交易事項行政許可申請的審查。 2021 年1 月ST 龍韻收到上海證券交易所上市公司監管一部下發的《關于對上海龍韻傳媒集團股份有限公司收購股權暨關聯交易事項的問詢函》,公司與協議相關方一致同意終止本次收購資產暨關聯交易事項。 在并購過程中,并購能否最終完成是并購雙方最為關注的問題。 對于并購雙方來說,能否成功完成并購交易體現并購過程的最終結果,直接關系到并購雙方對于并購交易的期望(溫日光,2015)。所以,研究影響并購完成與否的關鍵因素、預測并購完成情況從而規避并購風險、提高并購完成率具有十分重要的現實意義。

二、理論基礎與文獻回顧

(一)并購績效的影響因素

現有文獻從并購是否完成的視角進行研究的很少,大多是研究并購成功后的經濟后果即并購績效問題,而忽略了并購實施過程中失敗的可能性。 對于并購績效的影響因素分別從理論和實證兩方面進行研究,其中實證是主流方向。

在理論方面, 國外學者研究較早,Jensen 和Meckling(1976)從代理理論出發,認為管理者為了追求自身利益而發動了并購,這主要是由于管理者和所有者的利益沖突所致,管理者為了分散個人風險往往會通過多元化并購的方式實現,但基于此目的并購績效仍需商榷。 Ruback 和Jensen(1983)認為,并購中存在管理效率差異,主并購方、標的方、出讓方之間的管理效率差異是推動并購的原動力,也被稱為并購Q 理論。 劉峰等(2004)指出,國企偏好將盈利性較好的資產剝離上市,留在母公司的資產質量較差,直接影響了企業并購績效。邱金輝和王紅昕(2006)按照并購動機、并購行為、并購績效的邏輯順序,探索并購理論在我國的發展和研究方向,對于非國有企業,并購是一種逐利行為,而對于國有或國有控股企業來講,并購還反映了政府意志,即政府制定了許多財政、稅收優惠政策鼓勵并購。

在實證方面,國外學者Bruton 等(1994)發現,在財務困境時候并購,并購經驗對績效的感知測量是正效應。Shahwan(2004)的研究表明,并購商譽與上市公司市場價值之間顯著正相關。 國內學者李善民等(2004)分析發現,支付對價是影響并購績效的主要因素。 陳芳和景世民(2007)則研究了資產結構,包括資產周轉率、流動比率與并購績效的關系。 蔣璐(2009)認為, 監事會對提高公司并購績效的作用有待加強。翟進步等(2011)指出,債務融資降低了收購公司的市場績效。郭妍和張立光(2011)則發現,成長性、盈利能力是銀行并購績效的重要影響因素。余鵬翼和王滿四(2014)的研究發現,現金支付方式、第一大股東持股比例對中國企業跨國并購績效具有顯著正向影響。周紹妮等(2017)的研究表明,在國企的關聯并購中,機構投資者提高并購績效的治理的作用不再顯著。王艷和李善民(2017)通過實證分析表明,主并方社會信任度越高,越有利于提高并購價值創造能力。 雷衛和何杰(2018)分析發現,內部控制對國企并購后績效影響小于民營企業。宋賀和段軍山(2019)研究證明了并購財務顧問會降低并購績效。

(二)人工智能算法在經濟領域中的應用

人工智能算法近年來被廣泛應用于現代經濟金融服務中, 與傳統研究事物關系型的回歸分析相比,人工智能算法可以對未來情況進行預測。將人工智能算法引入并購領域,本文尚屬首次。

現有文獻針對價格、商務、金融等經濟問題利用機器學習和深度學習算法進行了預測研究。 Paolella和Taschini(2008)利用GARCH 模型對碳價格進行了預測且預測值與實際值較為接近。 Wang 等(2013)運用支持向量機預測交通速度數據,從模型復雜性和預測精度兩方面來看具有一定優勢。趙峰和張杰(2014)構建了馬爾可夫轉換模型預測違約風險溢價。 Zhang等(2016)研究了P2P 網絡借貸風險預警,發現決策樹效果明顯。萬昊等(2017)借助BP 人工神經網絡模型,通過有監督的機器學習來對項目評審專家組的決策進行打分預測。張若雪(2018)探索利用無監督機器學習算法, 自動識別貨幣市場質押式回購交易異常波動。 張斌儒等(2018)構建BA-SVR@CSQ 混合模型對酒店平均入住率進行預測。劉美霖等(2018)構建神經網絡和STARMA 的時空序列混合模型預測未來發生犯罪的數量變化。 劉金全和張龍(2019) 基于TVPFAVAR 模型測算中國FCI,發現MF-FCI 和經濟增長的因果關系在混頻Granger 檢驗下更密切。 祁凱和彭程(2019)基于OCS-EGM 算法構建覆蓋網絡集群行為在各個階段的監測及預警模型。 肖艷麗和向有濤(2021)將債券發行主體是否發生違約作為企業債券違約風險變量,搭建了基于GWO-XGBoost 的債券違約風險組合預警模型。

隨機森林算法是重要的人工智能算法, 處理問題效率很高,近年來被廣泛應用于預測問題研究中。國外學者Kampichler 和Singh(2010,2013)比較5 種機器學習算法后發現隨機森林預測效果最好。Markus(2016)利用Sentinel-2A 影像的光譜特征,使用隨機森林進行了樹種和農作物分類預測研究。 國內學者原欣偉等(2017)以小米社區MIUI 論壇為例提出基于隨機森林分類的領先用戶識別方法。 陳光慧等(2018) 利用隨機森林模型研究了影響勞務眾包APP平臺上任務完成率的因素。 陳標金和王鋒(2019)通過比較4 種模型的預測精度發現隨機森林算法對國債期貨指數預測能力最強。 陳丹玲等(2019)運用隨機抽樣Bootstrap 法構造耕地利用效率測度隨機森林模型, 結果表明模型不受量綱限制, 運行所需參數少,過程簡化,準確率高。 王超等(2019)運用多元線性和隨機森林回歸方法探索西藏人口分布影響因素及其差異。

(三)文獻述評

綜上所述,現有文獻對并購績效問題進行了大量理論和實證分析, 而忽略了并購實施過程中能否成功完成的問題;針對價格、商務、金融等經濟問題利用人工智能算法進行了預測研究, 但還沒有針對并購重組問題引入預測模型。 人工智能算法為傳統計量方法不能解決的預測問題提供了基礎。 隨機森林模型是目前應用最廣泛的機器學習模型, 屬于機器學習中的提升算法,本文研究數據量少,適用機器學習而不是深度學習模型。 基于上述兩點,本文首先選取滬深兩市A 股國有上市公司2014-2020 年并購事件,然后建立國企并購完成率評價體系,利用同花順iFinD 和Python 網頁、文本提取和抓取數據,并將所有數據歸一化處理后進行初步顯著性和相關性分析,接著運用Logistic 回歸模型(LR)對影響因素進行實證檢驗,最后基于隨機森林算法(RF)構造預測模型對國企并購完成率進行預測, 并將該模型與其他經典機器學習模型決策樹(DT)、樸素貝葉斯(NB)、支持向量機(SVM)和傳統LR 進行比較,觀測其預測精度。 本文探索融合多種影響因素數據,利用機器學習方法構建國企并購完成率預測模型, 有利于國企在并購行為中早防范、早發現、早干預,從而更有效地開展并購活動。

三、模型設計

(一)Logistic 回歸模型

本文考察國企并購完成率與可能影響因素之間的關系,如當年國企并購完成,則定義“y=1”;反之,則定義“y=0”。 設p 為完成的概率,則未完成的概率為1-p, 國企并購完成與未完成的比率被稱為機會比(odds ratio),即,取自然對數,即對p做Logistic 轉換后)的取值范圍為(-∞,+∞),所以Logistic 回歸模型是以取自然對數機會比為因變量,以影響因素為自變量,具體如式(1)所示:

其中,xi表示影響國企并購完成率的第i 個解釋變量,k 為解釋變量個數,α 為截距項,βi為系數,反映該變量對國企并購完成率的影響方向及程度,用最大似然估計法求得。將(1)式兩邊取指數函數,則國企并購完成率的Logistic 回歸模型的表達式為:

也等同于

其中,eβi反映xi每變化1 個單位所引起的事件發生比變化的倍數。

此外,Logistic 回歸模型既可以研究關系型問題,也可以對未來進行預測。 本文主要利用Logistic 回歸模型進行關系型研究,針對預測部分,主要將其與隨機森林預測模型做對比實驗。

(二)隨機森林模型

決策樹(Decision Tree)是通過對數據反復二分進行回歸或分類,從而評估、預測項目風險和可行性的一種決策方法。 隨機森林(Random forest)由多個決策樹組成,其可以匯總隨機化數據和變量后生成的多棵決策樹的結果(李欣海,2013)。 具體構造過程如下。

1.抽取樣本形成訓練集

假設有M 樣本, 按照一定比例采取有放回連續從M 樣本中抽取M 次,形成一個訓練樣本集,沒有被抽中的稱為測試樣本,用來評估模型性能。

2.建立決策樹模型

假設有N 個樣本屬性,在訓練樣本中隨機選擇n個最優屬性進行分支,構建決策樹模型,分支過程即為決策樹生長過程。

3.建立隨機森林模型

重復(1)和(2)步驟M 次,得到M 個訓練集和測試集,形成M 棵決策樹組,即構成隨機森林。

4.利用隨機森林模型預測

根據隨機森林分類器對測試集進行預測,對每棵決策樹的預測結果進行匯總,最終選擇預測最多的分類結果。 分類公式為:

其中:xi表示第個測試樣本同時具有n 個屬性特征,hi(xin)表示第i 棵決策樹的預測結果;m 表示預測最多的分類結果;n_tree 表示決策樹的個數。 隨機森林算法流程如圖1 所示。

圖1 隨機森林算法流程示意圖

(三)預測結果評價指標

對分類問題的預測結果評價指標有召回率(recall)、查準率(precision)、準確率(accuracy)、F1 score和AUC 面積等。

1.混淆矩陣、召回率與查準率

在衡量模型預測結果時,通常采用混淆矩陣對結果進行區分,具體如表1 所示。 TP 代表實際積極認為積極,FP 代表實際消極認為積極,TN 代表實際消極認為消極,FN 代表實際積極認為消極。

表1 隨機森林預測模型的混淆矩陣

則召回率定義如下:

表示實際為積極樣本被正確預測為積極樣本所占的比例。

查準率定義如下:

表示預測積極樣本被正確分類占被分類為實際積極樣本的比例。

準確率定義如下:

表示所有樣本被正確分類的比例。

2.F1 score 和AUC 面積

使用F1 score 評價綜合預測能力,F1 score 計算如公式(8)所示,即為查準率與召回率的乘積除以兩者和的二倍。當兩者其一值比較小時F1 會急劇下降,是查準率與召回率的加權體現。 根據定義,F score 的取值范圍在[0,1]區間,取值越大,表明模型的預測能力越強。

由于國企并購完成率的樣本為非平衡數據,所以需要同時將AUC 面積作為評估指標之一 (Janitza et al.,2013)。 AUC 取值范圍在[0,1]區間,AUC 值越大,面積越大,模型預測能力越強,其計算公式為:

其中,M 為積極類樣本的數量;N 為消極類樣本的數量。

(四)國企并購完成的界定和影響因素分析

本文確定國企并購完成的方法為,在當年國企并購樣本中找到完成、未完成標簽,即為本年國企并購完成與未完成樣本。明確影響國企并購完成率的關鍵因素是進行完成率分析和預測的重要前提。在綜合分析了現有文獻有關影響并購及國企并購績效的因素,借鑒中關村國睿金融與產業發展研究會評價上市公司指標體系,考慮數據可得性之后,總結了包括企業資產結構、創利能力、價值再造、法人治理、外部監管、并購事件特征共同作用六大系統共26 個影響國企并購完成率的指標,具體如表2 所示(表中列示的每一個三級指標同時析出了支撐文獻)。

表2 影響國企并購完成率指標評價體系

四、實驗過程

(一)數據選取及處理

1.并購事件

本文基于同花順iFinD 數據庫選取滬深A 股國有上市公司2014-2020 年并購事件為研究樣本,并購收購標的為股權,剔除資產剝離、資產置換、資產收購、債務重估以及吸收合并等廣義并購形式。 由于承債和無償的收購支付結算方式樣本很少, 所以刪去,保留現金、股權、現金和股權三種收購方式。經過以下篩選和處理最終得到555 條并購樣本:①首次公告日實際控制人為國務院、地方國資委或其他具有政府機構性質的行政機關、事業單位、國有企業等研究對象,不包括國有股東為第一大股東但無實際控制人的并購交易1例如,2014 年的萬科A(000002.SZ,2014 年底第一大股東為華潤股份有限公司,持股比例14.97%)。;②上市公司為收購方的樣本;③剔除并購交易正在進行中的樣本;④剔除金融類企業;⑤剔除被特別處理(ST)的樣本;⑥剔除關鍵研究數據不全或缺失的樣本。

2.指標數據搜集

在國企并購完成率指標評價體系中,除系列財務數據外,很多治理、監督指標數據不能直接從數據庫獲得,這些指標獲取難度大且可能會對國企并購完成率分析及預測產生很大影響。 所以,本文首先利用同花順inFnD 數據庫提取部分直接可獲得數據,然后基于扎根理論(Grounded Theory)(郭宇等,2018),利用文本挖掘(textual mining)(溫有奎等,2019)和網絡爬蟲(web crawler)(韓貝等,2019)技術,通過詞典法列出指標關鍵詞, 根據Python 和正則法則進行匹配,抓取了不易獲得的上市公司一手數據。詳細操作過程如圖2 所示。

圖2 基于扎根理論的文本挖掘和網絡爬蟲抓取數據分析框架與流程

在進行抓取數據前, 還需制作指標抓取具體規則,即需求文檔。 針對不可直接獲得的6 項指標數據(POGP、ICM、WPS、COO、AQ、HP) 的需求文檔總結如表3 所示。

表3 利用正則法則和python 抓取網頁和文本數據的需求文檔

3.非連續屬性值和歸一化處理

屬性值處理即非數值屬性的數值化, 本文26 項指標中非數值屬性數據都屬于屬性值之間有趨勢的文本屬性。 其中,MAE、POGP、ICM、WPS、COO、AQ、HP、WTL、TPL、MAR、RPT, 采用0 和1 量化的方法進行取值,若是則取值為1,反之為0;SM 為現金、股權、現金和股權,分別取值1、0.5、0;GD 為國企中央控股、省級控股、地市控股,分別取值1、0.5、0。 由于有些連續數值規模較大,對收斂速度有很大影響,所以為了使各項指標間具有可比性以及模型的預測結果更加準確,本文利用Python 軟件按照歸一化公式對各項連續指標進行歸一化處理。

(二)并購地域統計

如圖3 可知,廣東、北京、上海分別是所選取國企并購樣本發生次數的前三名,由此可見,國企并購與當地經濟發展水平之間具有高度相關性。

圖3 各?。▍^、市)并購發生的事件數(不包括港澳臺)

(三)顯著性和相關性分析

1.顯著性檢驗

由于國企并購完成(377 個)和未完成樣本(178個)存在顯著差異,因此,必須檢驗指標對于兩類樣本是否存在顯著差異以進一步選取指標。本節所有操作均通過SPSS 20.0 軟件得出。

(1)樣本數據的正態性檢驗。表4 列示了Kolmogorov-Smirno(K-S)和Shapiro-Wilk(S-W)正態分布檢驗結果。 由表4 可知,在完成組中,不管是K-S 還是S-W檢驗顯著性水平都為0.000 且小于0.05, 即不符合正態分布;在未完成組中,除機構投資者股東外的顯著性水平都為0.000 且小于0.05,機構投資者股東在KS 檢驗中顯著性水平雖然為0.200 且大于0.05, 但在S-W 檢驗中顯著性水平為0.080 且小于0.05,還考慮到該變量在完成組中的非正態分布狀況,所以該組同樣不符合正態分布。 因此,13 個連續變量應選擇非參數檢驗方法驗證相關性。

表4 單樣本K-S 和S-W 檢驗結果

(2) 非正態分布連續變量Mann-Whitney U 檢驗。本文采用P 值0.05 的顯著性水平為臨界值判斷變量是否顯著。 從表5 受檢驗的13 個變量可知,有8 個變量在完成組和未完成組之間顯示出了差異性, 即顯著性水平小于0.05; 在其余5 個變量顯著性水平均大于0.05,即完成組和未完成組之間沒有明顯的差異性。

表5 連續變量差異的Mann-Whitney U 顯著性檢驗

數據來源:本文整理。

(3)非正態分布分類變量卡方檢驗。由于GD、POGP、COO 變量中存在頻數小于1 的項,因此其顯著性檢驗觀察Fisher 精確檢驗Sig 值(雙側);TPL、HP、AQ 變量中存在頻數大于或等于1 且小于5 的項,因此顯著性檢驗觀察連續校正漸進Sig 值(雙側);其余變量中存在頻數大于或等于5 的項, 因此顯著性檢驗觀察Pearson 卡方漸進Sig 值(雙側)。表6 列示了分類變量差異的卡方顯著性檢驗,結果顯示有7 個變量顯著性水平小于0.05,即具有有顯著性影響,其余6 個變量顯著性水平均大于0.05,即沒有顯著性影響。

表6 分類變量差異的卡方顯著性檢驗

2.相關性分析

本文同時選用Kaiser-Meyer-Olkin (KMO) 統計量、Bartlett's 球形、Pearson 和Spearman 相關性矩陣以及方差膨脹因子(Variance Inflation Factor,VIF)四種方法進行相關性驗證。其中,由表7 可知,在Bartlett 的球形度檢驗中,Sig 值為0.000, 小于0.05, 但KMO 值為0.558,小于0.6,表明變量不太適合因子分析;由表8 可知,VIF 最大值為2.272,均值為1.432;由表9 可知,變量之間的相關系數都小于0.65。所以,綜上四種方法說明變量間不存在多重共線性的干擾, 并且變量選取合理。 本節所有檢驗均通過SPASS 20.0 軟件得出。

表7 KMO 和Bartlett 檢驗

表8 方差膨脹因子檢驗

表9 變量相關系數矩陣

五、實驗結果分析

(一)Logistic 回歸檢驗結果與分析

1.模型估計結果

利用SPSS 20.0 統計軟件對經過初步顯著性檢驗得到的影響國企并購完成率的15 項指標進行二元Logistic 回歸分析,結果見表10。由表10 可知,模型系數的綜合檢驗步驟/塊/模型顯著性概率為0.000,通過了5%的顯著性水平檢驗,模型在統計上是有意義的。此外,用Hosmer-Lemeshow 擬合優度檢驗來檢驗模型的擬合優度,卡方值為13.188,自由度為8,顯著性概率為0.106,大于0.05,這表明該模型的效果非常好,自變量提供的信息能較好地解釋因變量。

表10 Logistic 回歸模型估計結果

由表10 得出以下模型:

即Logistic 回歸模型為:

2.結果分析

通過初步變量差異顯著性檢驗和進一步LR 回歸檢驗,得到以下結論:

(1)創利能力中凈資產收益率(=0.033,p<0.05)對國企并購完成率具有正向顯著作用,并購公司凈資產收益率越高,越有利于國企并購成功完成,即凈資產收益率每提升一個單位, 并購完成率相應提升0.033倍。凈資產收益率是公司經營管理業績的較為理想的衡量標準,凈資產收益率越高,表明公司經營管理業績越突出, 越容易被并購雙方和其他利益相關者接受。

(2) 并購特征中出讓方上市與否(β=-1.010,p<0.05)、重大資產收購(β=-0.783,p<0.05)對國企并購完成率具有負向顯著作用, 而結算方式 (β=1.324,p<0.01)對國企并購完成率具有正向顯著作用,即出讓方為上市公司相比非上市公司對并購完成率降低約50%, 并購事件為重大資產收購要比非重大資產收購對并購完成率降低21.7%, 并購結算方式以現金結算相比股權、現金和股權對并購完成率提高1.324 倍。這是由于一般公司的并購實施起來相對容易,并購雙方就可以決定交易成敗,上市公司的并購則不同,交易變量和約束條件均大大增加,證券監管部門、行業主管部門、 公眾股東都成為并購交易中的重要角色,證券法律法規、第三方機構意見、媒體輿論都會不同程度地影響交易進程, 還有牽涉極為廣泛的公眾利益。此外,如果并購交易還涉及重大資產收購、出讓和置換,則更是難上加難,使得并購完成概率大大降低。 現金結算方式有利于國企并購的完成是由于現金結算方式是公認為更容易被接收的一種并購結算方式。

(3)價值再造中歷史是否發生并購(β=0.635,p<0.01)對國企并購完成率具有正向顯著作用,即歷史發生過并購的公司相比未發生并購的公司對并購完成率提高0.635 倍。 一些學者已經發現并購經驗與并購績效之間存在正相關關系。 Bruton 等(1994)發現,在財務困境的時候進行并購,并購經驗對績效的感知測量是正效應。有并購經驗的國企熟悉并購的一系列流程,從而規避影響并購未完成的各種風險,極大地提高了并購完成概率。所以,國企并購經驗越豐富,越有利于國企并購的完成。

(4)法人治理中董事會審批過內控建設管理辦法(β=-0.672,p<0.01) 對國企并購完成率具有負向顯著作用,即董事會審批過內控建設管理辦法的公司相比未審批的公司對并購完成率降低32.8%。 企業并購存在風險,內部控制是防范企業并購風險最為行之有效的一種手段。 董事會審批過內控建設管理辦法,一方面說明了公司治理結構和內控機制的健全,另一方面通過對企業并購風險的有效評估將企業的并購風險消滅在萌芽狀態。 所以,董事會審批過內控建設管理辦法有利于降低并購失敗率和并購完成率。

(二)隨機森林分類預測分析

1.類別聚合

為了加強樣本分類方法訓練集與測試集的泛化能力,驗證分類方法的精度,使用K 折交叉驗證法進行估計(Kohavi,1995),如式(12)所示。 本文采用更為嚴格和精確的五折交叉驗證方法,按照4∶1 比例將樣本大體分為5 份,每份111 個樣本。 從5 份樣本中逐次抽取4 份即444 個樣本作為訓練集,剩下111 個樣本作為測試集。 一個用來訓練分類器,一個用來檢驗分類器的效果,總共訓練5 次,計算5 次結果的均值求得模型精度估計值。

其中,θ 為K 折正確率平均值,θm為第m 折的正確率,K 為折數。

2.基于隨機森林算法的國企并購完成率預測模型結果及對比

(1)準確率。利用初步顯著性篩選后的15 個變量對國企并購完成率進行預測,按照bootstrap 法從444個訓練樣本中隨機抽取i 種組合方式組成數據集Ai,i的取值即為決策樹的數量(n_tree),從0 到50 分別測試不同的取值對模型預測結果的影響。 對數據集Ai,使用式(4)即f(x)=m{hi(xin)}i=1n_tree建立國企并購完成率預測決策樹:x 是自變量矩陣,即每個測試樣本n 是決策樹可以利用的屬性特征。 經過訓練,得到決策樹序列{h1(x),h2(x),…,hi(x)},將決策樹序列組合起來,設置最多分類結果為輸出類別。然后結合類別聚合分析進行5 次試驗,通過對111 個測試數據預測,可得模型對測試集的最終預測正確率。 從圖4 中可以看出,綜合考慮模型的運行速度和模型的效率,選擇i=30 作為隨機森林算法中決策樹的數量, 同時模型的正確率在30 時達到最高,為85%,初步說明了模型的科學性與有效性。

圖4 樹的棵數對模型預測正確率的影響

(2)查準率和召回率的比較。 分別采用經典機器學習模型DT、NGB、SVM 和傳統LR 模型與RF 作對比實驗。圖5 展示的是5 個模型的查準率與召回率對比。如圖5 所示,RF、DT、NGB、LR 和SVM 模型的查準率分別為84%、82%、55%、51%和32%,召回率分別為82%、87%、67%、33%和66%。RF 查準率與DT 較為接近,分別比NGB、LR、SVM 高29%、33%、52%;RF 召回率比DT 偏低, 分別比NGB、LR、SVM 高15%、49%、16%。由于RF 查準率和召回率與NGB、LR、SVM 差距較為明顯, 但與DT 不能明顯看出差距, 需要繼續用F1 score 進行判斷。

圖5 國企并購完成率預測模型的查準率和召回率

(3)國企并購完成率預測模型變量全集和子集的比較。為了比較不同解釋變量對于預測國企并購完成率的重要程度, 按照經初步顯著性篩選后的15 個變量所涉及的系統門類, 針對5 種模型進行分別預測,其中包括資產結構、創利能力、價值再造、法人治理、并購事件特征五大系統。第一個子系統是企業內在結構的體現,良好內在肌體是并購完成的前提;第二個子系統是企業盈利能力的體現,強有力的賺錢能力是并購完成的基礎;第三個子系統是企業成長能力的體現,并購經驗豐富、價值較大、未來增長快是并購完成的動力;第四個子系統是企業的大腦中樞神經,是決定并購能否成功完成的指揮棒;第五個子系統是并購發生的現實狀況, 是并購能否成功完成的最直接動因。 如果將五個子系統全部變量納入模型, 并以LR為基準,則結果如圖6 和圖7 所示。 譬如,從F 值來看,SVM 比LR 的預測能力提高了3%,NB 比LR 的預測能力提高了23%,DT 比Logistic 的預測能力提高了44%,而RF 比LR 的預測能力提升了47%,表明RF的預測能力最強,其次是NB,然后是DT,最后是SVM和LR。 從AUC 值來看,RF 最優,其次是DT,然后是SVM,最后是NB 和LR,可見RF 模型的優勢比較明顯。 綜合考慮F 值與AUC 值這兩個評價指標,RF 模型對于國企并購完成率的預測效果最好。 但注意到,如果僅以并購特征作為解釋變量進行建模時,DT 的F 值和AUC 值都稍高于RF; 如果僅以資產結構和創利能力作為解釋變量進行建模時,NB 和LR 能夠取得較高的AUC 值,因此,DT、NB 和LR 在某種情境下也不失為一種可用的國企并購完成概率預測模型。

圖6 國企并購完成率預測模型的F 值

圖7 國企并購完成率預測模型的AUC 值

(4)變量重要性排序?;赗F 模型的訓練結果探討了15 個并購完成率預測變量的相對重要性。 由圖8 可知, 排名前三位的指標分別為:BPNP (權重系數0.247)、BPNA (權 重 系 數0.165)、SM (權 重 系 數0.101)。 與其他變量相比,這三項指標對于并購完成率的區分能力明顯強于其他指標,它們的共同特點是都和并購事件特征相關,說明并購事件本身的系列屬性對于并購完成率的預測更加重要和有效。

圖8 影響國企并購完成率指標的相對重要性排序

六、結論、建議及展望

(一)研究結論

本文基于同花順iFinD 數據庫選取滬深A 股國有上市公司2014-2020 年并購事件為研究樣本,旨在通過對國企并購是否完成做出假設,研究影響并購完成的相關因素,利用Python 網頁、文本提取和抓取數據, 運用LR 模型分析影響因素與并購完成率的相關關系。 首次將人工智能算法引入并購重組領域,基于RF 算法構建國企并購完成率預測模型進行預測,并將該模型與其他經典機器學習模型進行比較,觀測其預測精度,并探究了各影響因素對并購完成率預測的重要程度,得到了如下結論:

第一,凈資產收益率每提升一個單位,并購完成率相應地提升0.033 倍;并購結算方式以現金結算相比股權、 現金和股權對并購完成率提高1.324 倍;歷史發生過并購的公司相比未發生并購的公司對并購完成率提高0.635 倍;出讓方為上市公司相比非上市公司對并購完成率降低1.010 倍;并購事件為重大資產重組比非重大資產重組對并購完成率降低0.783倍;董事會審批過內控建設管理辦法的公司相比未審批的公司對并購完成率降低0.672 倍,同時,該項指標為利用文本挖掘技術抓取的治理指標之一,這說明除財務、并購特征等容易獲得的數據外,不容易獲取的治理數據同樣會對國企并購完成率預測產生很大影響。

第二, 基于RF 算法構建的國企并購完成率預測模型正確率為85%;查準率與DT 較為接近,分別比NGB、LR、SVM 高29%、33%、52%;召回率比DT 偏低,分 別 比NGB、LR、SVM 高15%、49%、16%;F 值 為86%, 分 別 比DT、NB、SVM、LR 高3%、24%、44%、47%;AUC 值為87%,分別比DT、NB、SVM、LR 高1%、4%、25%、42%。 所以,RF 相比DT、NB、SVM、LR 對國企并購完成率具有最優的預測效果。

第三, 經初步顯著性篩選后的15 個變量都對并購預測具有影響, 且發現從一級系統體系整體來看,并購事件特征對并購完成率預測較為重要,其中買方支付凈資產比(0.25)、買方支付凈資產比(0.17)、結算方式(0.10)三項指標最為重要。

(二)啟示及建議

針對上述研究結論,并購國企可以采取以下具有針對性的措施,以有效地控制并購風險,提高并購完成概率:

第一,國企應創新產品,開拓市場,努力增加銷售收入,加大控制成本力度,降低各種費用、減少固定資產、存貨和應收賬款,加快各項資產周轉,從而提高凈資產收益率。

第二, 國企應選擇出讓方為非上市公司進行并購,盡量避免重大資產收購,盡可能使用現金結算方式。

第三,國企應根據自身情況,制定清晰的發展戰略,爭取外延式發展,熟悉并購的一系列流程,提升并購經驗,增強并購能力。

第四,公司治理結構和行為是影響國企并購完成的重要因素, 公司治理的部分數據雖然較難獲取,但卻不容忽視,公司治理結構類似人的神經系統,是現代企業制度中最重要的中樞。國企應建立健全公司治理結構,實現規范的公司治理行為。 雖然董事會審批過內控建設管理辦法對國企并購完成率具有負向顯著作用,但這并不意味著要減少董事會審批,反而要進一步對并購嚴格把關,減少不良并購,從長遠視角提高并購績效。

(三)未來展望

在未來研究中,將繼續尋找影響國企并購完成率的關鍵因素,更加關注公司治理結構和行為,對RF 算法參數和模型融合進行優化,以進一步提高算法分類準確性和計算效率,完善并購完成率預測模型及其應用。 總之,隨著國有資本和社會資本交叉融合的國企改革不斷深入,國企并購重組業務不斷涌現,并購風險也隨之加劇,人工智能算法對于構建并購風險預警模型并進行風險預警具有重要的應用價值,可以早防范、早發現、早干預,從而使國企更有效地開展并購活動。

猜你喜歡
完成率決策樹顯著性
國有企業更容易“走出去”嗎?——基于跨境并購完成率的分析
多措并舉:洪雅聯社提前完成6項指標
關于提高航天型號計劃完成率的思考
本刊對論文中有關統計學表達的要求
一種針對不均衡數據集的SVM決策樹算法
基于顯著性權重融合的圖像拼接算法
基于視覺顯著性的視頻差錯掩蓋算法
決策樹和隨機森林方法在管理決策中的應用
論商標固有顯著性的認定
基于決策樹的出租車乘客出行目的識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合