?

面向互聯網輿情事件的企業風險識別

2022-03-13 23:14張志劍劉政昊馬費成
預測 2022年1期
關鍵詞:風險事件風險識別知識圖譜

張志劍 劉政昊 馬費成

摘 要:信息智能時代背景下,互聯網輿情信息對企業的影響愈加顯著。有效準確地從輿情事件中識別風險有助于企業進行風險管理,實現良性運營。本文提出一種有效識別企業風險的模型KGANN,該模型使用知識圖譜的結構和內容構造神經網絡,實現知識圖譜和神經網絡的融合,從而提升模型風險識別能力。實驗結果表明,在企業風險識別任務上所提方法相較于傳統方法具有顯著優勢。同時根據知識的權重值對模型進行分析,得到股權結構復雜、司法案件較多、知識產權較少的企業風險等級較高。研究結果為企業和監管機構進行風險管理提供了重要的研究視角,對防范企業風險具有一定的參考價值。

關鍵詞:互聯網輿情;風險識別;風險事件;知識圖譜;神經網絡

中圖分類號:F272.35 文獻標識碼:A 文章編號:2097-0145(2022)01-0065-09 doi:10.11847/fj.41.1.65

Abstract:Under the background of the information intelligence era, the impact of Internet public opinion information on enterprises is becoming more and more significant. Effectively and accurately identifying risks from public opinion events is helpful for enterprises to carry out risk management and realize benign operations. This paper proposes a model KGANN for effectively identifying enterprise risk. The model uses the structure and content of knowledge graph to construct a neural network to realize the integration of knowledge graph and neural network to improve the ability of model risk identification. The experimental results show that the proposed method has significant advantages over the traditional methods in enterprise risk identification. At the same time, the model is analyzed according to the weight value of knowledge. It is concluded that the enterprise with a complex ownership structure, more judicial cases, and less intellectual property rights has a higher risk level. The research results provide an essential research perspective for enterprises and regulators to carry out risk management and have a specific reference value for preventing enterprise risks.

Key words:internet public opinion; risk identification; risk events; knowledge graph; neural network

1 引言

近年來,隨著經濟全球化進程的不斷加速,市場主體各要素間的關聯性不斷增強,金融系統的風險敞口也日益增大。在全球經濟貿易互通互聯、國內經濟加速轉型的特殊階段,企業正處于創新發展與經濟轉型升級的關鍵時期,然而由于企業內外環境的不確定性、生產經營活動的高度復雜性和部分企業能力的有限性,導致各類風險因子高度集中,企業風險事件頻發[1]。與此同時,互聯網媒體的發展大大加快了各行業信息產生和傳播速度,一些負面的互聯網輿情事件的爆發與傳播更是加劇了企業風險,給企業帶來了巨大的財產損失和聲譽損失。

習近平總書記在深圳經濟特區建立40周年慶祝大會發表的重要講話中強調,世界經濟面臨諸多復雜挑戰,要統籌好發展和安全兩件大事,增強自身競爭能力、開放監管能力、風險防控能力。企業全面風險管理是一項十分重要的工作,關系到資產的增值保值和企業持續、健康、穩定發展[2]。相關企業如果對互聯網輿情事件處理不及時或不到位,將會面臨資產負債和信用破產的風險,甚至直接影響到行業和社會經濟的正常運行[3]??梢?,識別重大風險因素對于企業及時發現風險根源、調整戰略規劃、實現良性運營和長足發展具有重要意義。企業應廣泛且持續地收集與自身風險和風險管理相關的輿情信息[4],提高風險防范意識,并制定有效的風險識別和預警方案。

傳統的企業風險識別研究主要采用案例分析方法[5~7],重點在于將人工定義的風險類型應用于個體風險的管理,但具有一定的主觀因素,普適性較差。隨著大數據、人工智能、云計算等新一代信息技術的發展和企業數字化轉型加速的沖擊,企業的經營決策與風險管理更加依賴對互聯網新聞輿情等企業外部信息的智能化分析與處理。在面向企業風險的識別任務中,卷積神經網絡(Convolutional Neural Networks,CNN)、循環神經網絡(Recurrent Neural Network,RNN)和長短期記憶神經網絡(Long Short-Term Memory,LSTM)等傳統深度學習模型因推出時間較早,已在業界得到了廣泛應用[8~10]。但由于傳統深度學習模型融入知識的能力較差,導致模型可擴展性較差。為此,本文提出了一種知識圖譜神經網絡(Knowledge Graph Artificial Neural Network,KGANN),該模型能夠更為有效識別互聯網輿情事件下企業風險,KGANN模型結合了知識圖譜模式層構建的基本原理,將知識圖譜中的“知識”作為神經網絡的一部分,實現了神經元與知識的有效融合,在風險識別任務中有著更好的表現,同時一定程度上增強了深度學習模型的可解釋性。

2 文獻綜述

企業風險通常指未來的不確定性對企業實現其經營目標的影響,一般可分為戰略風險、財務風險、市場風險、運營風險、法律風險等[11]。從企業管理的角度來看,風險源只是潛在的損失信號,而風險事件的發生則將其轉化為了現實的損失[12]。企業風險管理是對企業內可能產生的各種風險進行識別、衡量、分析、評價,并適時采取及時有效的方法進行防范和控制,用經濟合理的方法來綜合處理風險,以實現最大安全保障的一種科學管理方法[13]。其中風險的識別是風險管理的前提與核心環節,主要指通過企業面臨的尚未發生的潛在的各種風險進行系統的歸類分析,從而加以認識與辨別的過程。

由于風險具有動態性、可變性和潛伏性,導致識別難度較高。如何采用有效的方法對企業風險進行準確識別一直是學者們關注的重點。除了傳統的依賴人工感知、判斷或歸類的方式對現實的和潛在的風險性質進行鑒別的定性識別方法外[5~7],較為常見的企業風險識別方法還包括資產財務狀況分析法[14]、分解分析法等量化分析方法[15]。近年來,隨著大數據、人工智能等信息技術的發展,許多研究嘗試借助機器學習和深度學習技術,從海量的相關數據中識別風險因素。Leng等[16]提出一種改進的加權下降的反向傳播(Back Propagation,BP)算法,建立起反欺詐風險識別模型。Bose和Pal[17]使用支持向量機研究了風險預測問題。柳向東和李鳳[18]利用隨機森林模型建立了企業信用風險評估模型,并通過采樣算法SMOTE改進模型。曹如中等[19]對企業競爭情報工作中出現的市場風險、生產風險、環境風險等進行了細致的總結和自動識別。黃世忠等[20]則在近期提出了碳中和背景下企業財務風險的識別框架。

近年來,網絡科技發展迅猛,網絡分析也逐漸成為風險識別研究的重要方法。Allen和Gale[21]首先將網絡分析方法應用于系統性風險研究。Didimo等[22]通過建立決策支持系統,對企業關聯交易的逃稅行為進行檢測。Yerashenia和Bolotov[23]基于語義數據分析原理,提出了一種企業智能破產風險預測計算模型,并構建了破產預測本體和語義分析圖數據庫系統。在此基礎上,大規模語義網絡——知識圖譜也在風險識別與管理領域得到了初步應用。楊波和廖怡茗[24]針對風險的演化特性構建了面向風險事件的動態企業風險圖譜。在圖譜應用方面,Franco-Salvador等[25]對風險事件的關鍵特征進行了標注,并構建了企業風險知識庫,而后借助Jena推理機完成了對風險信息的識別和推理。姜增明等[26]利用知識圖譜和社交網絡分析等手段,提高防范欺詐風險的效率。金磐石等[27]基于企業的關聯圖譜預測小微企業欺詐的可能性。王成和舒鵬飛[28]通過知識圖譜的網絡嵌入方法預測網絡借貸中的欺詐行為。陶士貴和相瑞[29]建立了股權關系圖譜,通過復雜股權關系路徑算法,對企業相關風險進行預警。

結合國內外文獻可以發現,定量化與智能化已成為企業風險識別與分析的趨勢,但部分技術手段存在只能處理單一數據源、數據類型受限、數據組織方式存在割裂性等問題。知識圖譜作為一種新生技術形態,能夠將大量的金融數據進行關聯融合,精準描述風險主體之間的關系,并根據分析結果及時做出風險識別和判斷。當前利用知識圖譜進行企業風險識別的研究依然較為有限,大多數研究僅僅關注企業風險知識圖譜的構建和基于圖譜的查詢及預測,將其作為外部知識引入深度學習模型的思路尚不多見。另一方面,由于輿情數據具有體量大、多樣性、碎片化、價值稀疏性等特點,目前的面向輿情事件的風險識別工作尚處于起步階段,相關分析大多仍以事后風險監測為主要目的,利用計算機輔助輿情分析與信息抽取并結合人工校驗,分析方式較為被動,導致風險識別和預警能力弱,具有較大的局限性。如何借助知識圖譜和深度學習的方法,從風險事件的角度去識別與挖掘企業風險,讓計算機能完全理解新聞輿情、賦能智能風控,仍然是一個挑戰性課題。

3 企業風險識別框架

3.1 模型設計

為了幫助企業快速準確地從海量輿情信息中自動識別和獲取風險預警信號,進而快速做出響應,降低企業損失。本文提出一種KGANN模型,該模型通過融合知識圖譜的結構和內容,提高了從輿情信息中識別風險的效果。

基于KGANN的企業輿情事件風險識別框架共包含8個步驟。(1)構建企業風險本體庫。該本體庫由領域專家構建,包含企業基本信息、企業股權信息、企業財務信息和企業風險信息。(2)構建企業風險知識圖譜?;谄髽I風險本體庫,使用自頂向下的方式構建企業風險知識圖譜。(3)知識圖譜向量化。使用TransE方法[30]對知識圖譜所包含知識進行訓練,生成知識向量。(4)識別知識圖譜結構。依據本體庫的層次結構對知識圖譜進行結構識別。(5)數據集預處理。去除“互聯網輿情企業風險事件的識別和預警”比賽數據集無用字段并進行分詞及去除停用詞處理。(6)訓練Word2vec模型。使用第五步生成的數據集訓練Word2vec模型,利用該模型對語料進行向量化表示。(7)構建并訓練神經網絡模型。輸入層負責接收向量化的語料,隱藏層的結構為第四步所提取出知識圖譜的結構,隱藏層的“知識”即第三步生成的知識向量。全連接層將隱藏層的特征進行融合,得到融合特征向量,并將其縮放至適當的維度。最終識別層使用softmax函數將融合特征向量進行歸一化表示,得到輸入語料的風險類別概率。(8)風險識別及分析。保存訓練過程中識別效果最好的模型,該模型可用于后續的風險識別。然后對模型的識別效果進行評估,并通過“知識”的權重對模型進行分析。

3.2 企業風險本體庫與知識圖譜構建

與傳統神經網絡模型不同,所提框架的隱藏層結構和內容由知識圖譜決定。構建知識圖譜有自底向上和自頂向下兩種模式,自底向上的知識圖譜構建方式通常為數據驅動,從公開的海量數據集中進行知識抽取,并選擇其中置信度較高的知識存入知識圖譜[31]。自頂向下的知識圖譜構建方式通常需要構建本體庫,使用本體庫從高質量的結構化和半結構化數據進行知識抽取并存入知識圖譜[32]。本體是知識圖譜的模式層和邏輯基礎,知識圖譜是本體的實例化,本體研究的成果可以促進該領域知識圖譜得到更快的發展和應用[33]。在使用KGANN模型時,需要考慮計算開銷,小而精的知識圖譜更加適合本框架。因此,使用自頂向下的方式來構建知識圖譜。

企業風險本體庫由領域專家構建。本體庫共分為三層,第一層為企業基本信息、企業股權信息、企業財務信息和企業風險信息本體;第二層包含法人、登記狀態、成立日期、所屬地、所屬行業、曾用名、參保人數、變更記錄等;第三層包含控股股東、持有股份、投資比例、投資金額、案件金額、裁判結果等。

通過自頂向下的方式構建知識圖譜,需要借助高質量的半結構化和結構化的數據,從中抽取符合本體結構的知識加入到知識圖譜中??紤]到知識圖譜應具有更高的可復用性和普適性,將滬深300指數和語料集包含的3527家企業納入知識抽取范圍。最后按照本體庫在互聯網上獲取相關企業的具體數據,獲取到2822394個三元組。

3.3 隱藏層神經元

隱藏層神經元由“神經網絡”部分和“知識”部分組成,每部分都包含獨立的權重系數,用來調節兩個部分之間的重要程度。通過“知識”部分的權重系數,可以了解不同知識在訓練過程中的重要程度。在訓練過程中,與任務密切相關的知識權重系數絕對值會提高,此時神經元中“知識”部分起到更重要的作用。相反地,與任務相關程度低的知識權重系數絕對值會降低,此時神經元中“神經網絡”部分更為重要。訓練過程使用BP算法,降低了人工選擇知識的難度,隱藏層神經元由兩部分構成,如(1)式所示。

其中由“神經網絡”部分生成的向量稱為特征向量,使用nn表示。由“知識”部分生成的向量稱為知識向量,使用kg表示。然后,將特征向量和知識向量進行拼接,得到高維的語義特征向量。該語義特征向量融合了語料的特征和領域先驗知識,任務語料的語義信息得以更充分地表示。最后,神經元使用激活函數引入非線性因素,提高模型的學習能力和魯棒性。具體的計算過程如圖1所示。

其中xi表示第i個輸入向量,WN表示特征向量的權重,bi表示特征向量的偏置,KGM表示知識矩陣,wk表示知識矩陣中每條知識的權重,WR表示轉換矩陣,可以將輸入向量和知識矩陣進行融合,并以適當維度輸出。nn的計算方式如(2)式所示,kg的計算方式如(3)式所示

其中“神經網絡”部分的計算過程參考了感知器的計算過程,Word2vec模型將輸入語句轉換為包含一定語義信息的向量xi,接著使用WN對輸入向量進行加權處理,最后添加偏置因子bi,使模型表達能力更強。

其中KGM的每一行都代表一個知識,為了區分不同知識的重要程度,需要給每條知識賦予權重。此時的知識是按行存放,然而輸入神經元時需要按列讀取,因此需要將(wkKGM)轉置。然后,需要計算輸入向量和知識間的語義關聯性,但是輸入向量xi和知識矩陣KGM維度往往不匹配,無法直接進行計算。因此,需要引入轉換矩陣WR做連接,將輸入向量和知識矩陣進行融合后得到融合知識向量。

3.4 輿情文本向量化

常用的詞向量模型為Word2vec模型和雙向注意力機制編碼器(Bidirectional Encoder Representations From Transformers,BERT)模型。2013年Mikolov等[34]提出Word2vec模型,由于其簡單有效得到了廣泛的應用。2018年Google的研究人員提出了BERT模型,該模型使用self-Attention機制進行特征提取,在多種自然語言處理任務中取得SOTA結果[35]。

BERT模型具有較強的特征提取能力,然而該模型的最大輸入長度為512,去除[CLS]和[SEP]兩個標簽后,有效輸入僅為510個字,因此難以處理長文本任務。為此,有研究人員提出截斷法,將輸入文本的起始部分和結尾部分作為模型輸入,但是依舊難以覆蓋完整語料;另一些研究人員提出將輸入文本進行切分,分別輸入BERT模型,最后使用注意力機制將多個輸出進行融合。但是該方法生成向量的語義并不連續,效果難以達到預期;還有一部分研究人員提出擴大BERT模型的輸入長度,雖然該方法可以更好地支持長文本的輸入,但其計算成本也大幅提升,難以得到廣泛的應用。

經統計,數據集中的每條正文平均包含1042個字,上述三種方法難以較好地應用于當前任務。因此,使用Word2vec模型作為框架的詞向量模型。通過將訓練集分詞和去除停用詞之后,使用Skip-gram方式訓練Word2vec模型。

4 實驗設置及分析

4.1 數據集與知識圖譜

實驗使用“互聯網輿情企業風險事件的識別和預警”比賽數據集,該數據集包含13個字段:新聞ID、新聞標題、摘要、正文、作者、下載源地址、文章類型、來源、首發網站名稱、網站頻道、發布時間、企業名稱、風險標簽。共計13類標簽,其中包含12類企業風險事件和無風險事件,剔除無用字符后風險類型和字詞數量統計信息如表1所示。

由表1可知,無風險類別的數量遠高于其他風險類別,為降低數據類別不平衡所產生的影響,使用欠采樣(under sampling)方法隨機從無風險類別數據中取800個樣本。同時,平均詞數最多的風險為重大訴訟仲裁,達到937個詞。為了覆蓋大部分語料,將Word2vec模型的最大輸入長度設置為1000詞,當輸入長度超過1000詞時,采用截斷法,取開頭500詞和結尾500詞作為輸入。

本文構建的企業風險知識圖譜包含280余萬條知識,如果將其全部納入KGANN模型會導致參數過多且難以訓練。因此,根據企業所屬行業和規模,選取具有代表性的86家企業及其相關知識節點,生成知識圖譜子圖。接著對子圖進行剪枝,去除無意義的節點。為保證每層知識向量的長度一致,使用企業類型為屬性的三元組作為第一層知識(例如:[中國石油化工股份有限公司,企業類型,其他股份有限公司(上市)])。最終得到知識圖譜的第一層包含86個節點,第二層共計914個節點,第三層共計6650個。以此為基礎構成了KGANN模型的隱藏層結構。

4.2 實驗設置

使用Word2vec模型和TransE模型分別對輸入語料和知識圖譜進行向量化表示,然后構建KGANN模型,模型均采用early_stopping策略進行訓練,模型的相關參數設置如表2所示。

實驗采用精確率P(Precision)、召回率R(Recall)和F1值進行評估,在多分類任務中,需要單獨計算每一類的P、R和F1值。當計算某一類樣本的指標時,該類樣本為正樣本,其余類樣本為負樣本。其定義如(4)~(6)式所示。

其中TP表示正樣本識別正確的數量,FP表示正樣本識別錯誤的數量,FN表示負樣本識別錯誤的數量。P表示在識別樣本總數中,識別正確的樣本占比,R表示在所有正樣本數中,識別正確的樣本占比,F1值是P和R的等權調和平均值,可以對P和R進行整體評價。

4.3 對比實驗

為了驗證模型的有效性,選取了RNN模型和Bi-LSTM模型作為KGANN模型的對比模型。上述模型均使用Word2vec作為詞向量工具,RNN模型和Bi-LSTM模型的神經元個數設置為1024,使用包含1200個樣本的驗證集對模型進行驗證,得到結果如表3所示。

由表3可知,Bi-LSTM模型的相關評價指標略優于RNN模型,其原因是Bi-LSTM模型引入門結構可以將對識別結果有益的特征進行保留,無益的特征選擇遺忘。同時雙層結構可以同時提取輸入語料的正向特征和逆向特征,進而提高了模型的特征提取能力。KGANN模型在相關評價指標中均顯著優于RNN模型和Bi-LSTM模型,其原因是KGANN模型將知識圖譜轉化為模型,不僅模型結構更加符合邏輯,而且在模型識別風險過程中考慮到企業相關的領域知識。領域知識可以對特征向量進行補充或約束,從而使模型在識別風險時更具有針對性。

為了進一步研究KGANN模型在識別不同類別風險時的差異,將模型在驗證集上所得結果繪制成如圖2所示混淆矩陣。

由圖2可知,有5個安全事故的樣本被識別為環境污染,是因為安全事故有時會導致環境污染,例如有毒有害化學品大量泄露會在一定范圍內造成環境污染。有15個被采取監管措施的樣本被識別為被監管機構罰款或查處,有22個被監管機構罰款或查處的樣本被識別為被采取監管措施。其原因是監管措施是非行政處罰性監管措施,通常以監管談話、出具警示函和計入誠信檔案等形式出現,而被監管機構罰款或查處則是通過減損權益或增加義務的形式,達到一定的懲戒效果,通常以罰款、限制生產經營活動和責令關閉等形式出現。兩種風險事件存在部分重疊,因此模型在識別時存在誤判的情況。有7個信息披露違規樣本被識別為被采取監管措施,其原因是信息違規披露通常為企業信息披露不完整、風險揭示不充分,造成企業和廣大投資者之間的信息不對稱,損害了金融市場的健康發展。因此監管機構會對企業信息違規披露行為處以相應監管措施。有22個實控人變更的樣本、16個債務逾期樣本、19個重大訴訟仲裁樣本和13個退市樣本被識別為破產重整。其原因是當企業一旦出現上述情形時,如果處理不當往往會演變為企業債務危機,甚至陷入資不抵債和破產重整的境地。因此企業出現上述四種重大風險時,往往伴隨著破產重整。

4.4 分析及討論

在自然語言處理領域,神經元的含義不明確是傳統深度學習模型可解釋性較差的根本原因,KGANN模型通過將知識圖譜轉換為可訓練的深度學習模型,模型可以通過追蹤隱藏層中每個神經元的知識部分,從而對深度學習模型進行分析。同時,知識圖譜的構建依賴于本體庫,通過本體庫可以對模型進行邏輯上的解釋。

保存訓練過程中F1值最高的模型,其中每一條知識都包含對應的權重值。通常,權重值有正負之分,當神經元處于激活狀態時權重值為正,此時神經元內的知識有利于風險識別;當神經元處于靜息狀態時權重值接近于零,此時神經元內的知識作用較低;當神經元處于抑制狀態時權重為負,此時神經元內的知識不利于風險識別。通過分析權重值可以了解深度學習模型的側重點,并分析不同類型的風險對應的重要因素和指標。

4.4.1 隱藏層權重分布描述性統計

第一層隱藏層包含86個節點,節點所包含的知識結構為[企業名稱,企業類型,企業類型的值]。選取企業時需要盡量包含不同行業和規模的企業,以此為基礎鏈接到企業具體的知識節點。第一層隱藏層節點包含企業名稱和企業類型,模型無法通過企業名稱來判斷企業是否包含風險。盡管企業類型和風險類別存在一定關聯,但樣本過少不具備統計學上的解釋意義。因此后續分析的數據為第二層隱藏層和第三層隱藏層的知識權重值,簡稱為第二層和第三層。

描述性統計結果顯示,第二層和第三層權重值在零附近聚集,說明模型中的大部分知識對模型的修正較為謹慎。第二層相較于第三層的權重值具有更高的離散度和區分度,其原因是第三層所包含的知識更為具體,例如第三層的“變更項目”、“變更前”和“變更后”相較于第二層的“變更記錄”更為具體,更上層的概念所能表達的特征更豐富,對模型產生的影響更大,因此第二層權重相較于第三層權重更加分散,方差也更大。

第二層和第三層的均值接近零,分別為0.00056和-0.00127,說明模型中的知識激活或抑制較為均衡。第二層和第三層的標準差分別為0.70607和0.16717,說明第二層知識的權重更離散,相較于第三層的知識有著更高的區分度。第二層的最大值和最小值分別為3.29179和-3.72968,第三層的最大值和最小值分別為1.89145和-2.05702,可以看到第二層知識的權重區間更大,說明數據分布較為分散。

離群點中具有極高和極低的權重值,對模型產生的影響較大,具有分析意義。使用四分數方法計算離群點,首先將數據從小到大排列分成四等份,三個分割點從小到大分別為下四分位Q1、中位數Q2、上四分位Q3。第二層的Q3和Q1分別為0.05243和-0.04162,第三層的Q3和Q1分別為0.02734和-0.02715。接著使用(7)式和(8)式計算權重值的最大觀測值和最小觀測值。

經計算第二層的最大觀測值和最小觀測值分別為0.19108和-0.18121,第三層的最大觀測值和最小觀測值分別為0.10872和-0.10876。最后,大于最大觀測值或小于最小觀測值的權重值為離群點,第二層和第三層的離群點個數分別為372和831。

4.4.2 離群點特征分析

基于本體庫構建知識圖譜時,知識的關系及屬性含義較為清晰,因此使用知識的關系及屬性來表示知識的所屬類別。為了分析模型在學習過程中調整了哪些類別的知識,使用負離群點表示小于最小觀測值的點,使用正離群點表示大于最大觀測值的點。通過觀測負離群點和正離群點中不同關系及屬性占比的變化,進而分析出哪些類別的知識具有更高的區分度。最后對第二層和第三層隱藏層中占比變化最大的八類關系及屬性進行統計,如圖3所示。其中橫軸為初始狀態下各關系及屬性的占比,在橫軸以下代表占比減少,在橫軸以上代表占比增加。正離群點在橫軸以上時,代表該類別的關系及屬性有利于風險識別,有更高的區分度。而負離群點在橫軸以上時,代表該類別的關系及屬性不利于風險識別,容易混淆風險識別特征。

圖3 隱藏層關系及屬性占比變化 圖3(a)和圖3(b)中“案件名稱”為司法案件的名稱,正離群點的增幅較大,說明司法案件相關知識在風險識別過程中起到了積極的作用。除去一些特殊行業的企業,如保險公司雖有較多的司法案件,但不影響其風險水平。但常規企業涉及司法案件較多時,通常伴隨著企業的信用缺失和風險水平的提高。

圖3(a)和圖3(b)中“被控制企業名稱”的正離群點的增幅較大,說明被控制企業相關知識有利于風險的識別。與之相對應的是圖3(a)和圖3(b)中“投資企業名稱”的正負離群點的占比同時增加,說明投資企業分為兩種情況,一種對風險識別有益,一種對風險識別無益。投資人以股東身份投資企業時分為控股股東和非控股股東,控股股東對應“被控制企業名稱”,表現出正離群點占比增加趨勢,有利于風險的識別。非控股股東則表現負離群點占比增加趨勢,無益于風險的識別。這是因為許多投資人為了規避風險,通過多層嵌套的方式,利用有限責任公司間接持有上市公司股份。由于自身風險得到控制,股東有動力實施自身收益更高而風險更大的決策,這樣的決策無形中提高了企業的風險水平,不利于金融市場的穩定性。

同時,企業為了擴展自身業務還會開設分支機構,如圖3(a)中的“分支結構名稱”表現出負離群點占比增加的趨勢,說明分支結構的相關知識和風險識別關聯度較低。其原因是分支結構與總公司存在密切聯系,當分支結構出現風險事件時,總公司難以置身事外,需要承擔相應的責任。因此分支機構不會增加企業的風險水平。圖3(b)中的“狀態”為企業分支結構的狀態,呈現正負離群點的占比同時增加,但負離群點占比增幅大于正離群點,說明分支機構的狀態和企業風險的關聯度較低,這是因為分支機構在業、存續或注銷都不會顯著影響企業的風險水平。

圖3(a)中的“主要人員”為擔任董事長、總經理、董事和監事等重要職務的人員,表現為負離群點占比增加,說明企業的主要人員與風險關聯度較低。其原因是高風險水平企業的主要人員通常不是企業的實際控制人,即便是實際控制人對待自己不同企業也有不同的策略,因此企業的主要人員缺少能夠表征企業風險的相關特征,無法判斷企業的風險水平。

圖3(a)中的“經營范圍”表現為正離群點占比少量增加,說明部分經營范圍相關的知識有利于風險的識別。其原因是少數風險和企業的經營范圍密切相關,例如金融領域的企業發生安全事故的概率極低,教育領域的企業發生環境污染的概率極低。因此通過企業的經營范圍可以對識別結果進行一定程度的約束,從而達到全局最優解。

圖3(a)中的“變更記錄日期”和“曾用名”均表現為負離群點占比增加,說明兩者與企業風險關聯程度較低。這兩類關系缺少風險識別的相關特征,模型無法通過“變更記錄日期”和“曾用名”來辨別企業的風險水平。

圖3(b)中的“投資比例”為圖3(a)中的“投資企業名稱”的下位關系,兩者具有相似的變化趨勢,其中投資比例較高的情況對應被控制企業。與之相關的關系為圖3(b)中的“投資數額”,表現為負離群點占比增加,說明投資數額與企業風險水平相關性較低。同一投資數額對不同規模的企業影響不同,投資比例相較于投資數額具有更高的區分度。

圖3(b)中“知識產權名稱”表現為正離群點占比增加,說明知識產權有利于風險識別。其原因是重視知識產權的企業,通常具有更強的法律意識,有助于企業在簽訂合同、履行合同、融資等過程中規避風險。因此,以知識產權為著眼點可以體現企業全局的法律意識,知識產權具有較高的風險區分度。

圖3(b)中“關聯產品或機構”表現為正負離群點占比同時增加,負離群點增幅大于正離群點。說明該關系所包含的大部分知識不具有區分度,小部分有較高的區分度。其原因與圖3(a)中“經營范圍”相似,小部分企業產品和機構與特定類型的風險相關,例如主營產品為礦產的行業發生安全事故的風險明顯高于其他行業。

5 結論與建議

風險對企業的生存發展有著重要的作用,隨著互聯網的快速發展,網絡輿情信息對企業影響越來越大,如何快速準確地識別輿情事件中的風險成為了企業、投資人、監管機構和學術界共同關注的熱點之一。為了對企業風險進行更為準確的識別,本文研究提出了KGANN模型。與傳統深度學習模型不同,KGANN模型保留了知識圖譜的層級結構和具體的知識。得益于特殊的結構,每個神經元都包含獨立的知識特征,模型可以根據當前任務對知識的權重進行主動學習,具有較高的自主性。實驗結果表明,所提方法在相關評價指標中優于RNN和Bi-LSTM模型,在風險識別任務上具有顯著優勢。

本文的貢獻主要體現在以下三方面:(1)在領域專家的指導下構建了企業風險本體庫,并以該本體庫為基礎構建了企業風險知識圖譜。(2)提出了一種全新的知識注入模型,該模型在企業風險識別任務上的效果較好,可以幫助企業識別風險并及時響應。(3)與傳統的深度學習模型相比,本文所提模型具有一定的可解釋性。知識是以三元組形式出現,因此可以根據權重值對模型的側重點進行分析,進而得到風險水平較高企業的特征,實現風險預警的功能。

本研究的相關結論對企業及監管部門開展風險預警、分析和監管等管理活動也具有一定的指導意義。(1)對于企業而言,企業自身應加大科研創新的投入,只有擁有自主知識產權的核心技術,企業才具有核心競爭力。此外,企業經營者還應提升自身的法律意識,并加強權力制約和內部規章制度的設立,做好各級員工法律意識的建設,以保證公司依法經營、依法管理和依法決策。(2)對于監管機構而言,相關監管部門應當加強對企業實控人的識別和對一些司法案件較多、知識產權較少、股權結構復雜企業的監管。研究在識別風險的過程中發現,投資人經常會使用間接持股的方式控制企業,這種行為擾亂了監管機構的視野,導致在監管過程中存在盲區。2021年初,中國證券監督管理委員會發布了《監管規則適用指引——關于申請首發上市企業股東信息披露》,文件強調要加強對違規代持、影子股東、突擊入股和多層嵌套等IPO亂象的監管。因此,相關部門需要加強對股權穿透的識別分析,確??梢詼蚀_地核查到企業的實際控制人,并將風險水平較高的企業放在聚光燈下,以充分保障金融市場穩定有序的發展。

參 考 文 獻:

[1] 黃文鋒.企業家精神[M].北京:中國人民大學出版社,2018.

[2] 人民日報評論員.在更高起點上推進改革開放——論學習貫徹習近平總書記在深圳經濟特區建立40周年慶祝大會上重要講話[J].人民政壇,2020,(10):1.

[3] 楊波,楊美芳.風險事件驅動的企業知識服務模型及應用研究[J].情報理論與實踐,2021,44(10):100-109,71.

[4] 白喜平.關于企業風險管理模式及管理原則的研究[J].山西財稅,2021,(1):36-37.

[5] Deng M R. Study on risk conduction of commercial banks based on business process chain[J]. Contemporary Economic Management, 2006, 28(6): 76-79.

[6] 李柏洲,徐廣玉,蘇屹.基于扎根理論的企業知識轉移風險識別研究[J].科學學與科學技術管理,2014,35(4):57-65.

[7] 葉偉政.中國白酒企業財務風險識別及應對措施分析——以五糧液股份有限公司為例[J].中國總會計師,2021,(8):59-61.

[8] 楊子昭.基于卷積神經網絡的上市企業財務風險預測模型研究[D].上海:上海師范大學,2021.

[9] 李旻旸,戴月娥.基于模式識別技術的財務風險識別研究[J].電子設計工程,2021,29(4):122-125,130.

[10] Ahn B S, Cho S S, Kim C Y. The integrated methodology of rough set theory and artificial neural network for business failure prediction[J]. Expert Systems with Applications, 2000, 18(2): 65-74.

[11] 周春生.企業風險與危機管理[M].北京:北京大學出版社,2007.

[12] Francisco J, Poblacion G. Financial risk management[M]. Berlin: Springer International Publishing, 2017.

[13] Coleman thomas S. A Practical guide to risk management[M]. Virginia: CFA Institute Research Foundation, 2011.

[14] 武彥伏.企業財務風險識別及應對策略[J].消費導刊,2014,(11):106-107.

[15] 張祥來,金雪梅,周俊紅.如何做好危害識別與風險評價工作[J].安全,2013,(9):37-38.

[16] Leng B, Du H, Wang J, et al.. Analysis of taxi drivers’ behaviors within a battle between two taxi apps[J]. IEEE Trans Intell Transp Syst 2016, 17(1): 296-300.

[17] Bose I, Pal R. Predicting the survival or failure of click-and-mortar corporations: a knowledge discovery approach[J]. European Journal of Operational Research, 2006, 174(2): 959-982.

[18] 柳向東,李鳳.大數據背景下網絡借貸的信用風險評估——以人人貸為例[J].統計與信息論壇,2016,(5):41-48.

[19] 曹如中,劉長奎,曹桂紅.企業競爭情報工作風險識別及控制研究[J].圖書與情報,2010,(4):38-42.

[20] 黃世忠,葉豐瀅,李詩.碳中和背景下財務風險的識別與評估[J].財會月刊,2021,(22):7-11.

[21] Allen F, Gale D. Financial contagion[J]. Journal of Political Economy, 2000, 108(1): 1-33.

[22] Didimo W, Giamminonni L, Liotta G, et al.. A visual analytics system to support tax evasion discovery[J]. Decision Support Systems, 2018, 110: 71-83.

[23] Yerashenia N, Bolotov A. Computational modelling for bankruptcy prediction: semantic data analysis integrating graph database and financial ontology[A]. 2019 IEEE 21st Conference on Business Informatics(CBI)[C]. IEEE, 2019. 84-93.

[24] 楊波,廖怡茗.面向企業動態風險的知識圖譜構建與應用研究[J].現代情報,2021,41(3):110-120.

[25] Franco-Salvador M, Rosso P, Montes-y-Gomez M. A systematic study of knowledge graph analysis for cross-language plagiarism detection[J]. Information Processing & Management, 2016, 52(4): 550-570.

[26] 姜增明,陳劍鋒,張超.金融科技賦能商業銀行風險管理轉型[J].當代經濟管理,2019,41(1):85-90.

[27] 金磐石,萬光明,沈麗忠.基于知識圖譜的小微企業貸款申請反欺詐方案[J].大數據,2019,5(4):100-112.

[28] 王成,舒鵬飛.WEB:一種基于網絡嵌入的互聯網借貸欺詐預測方法[J].大數據,2019,5(6):85-100.

[29] 陶士貴,相瑞.基于大數據技術的商業銀行反洗錢風險識別“穿透”研究[J].金融發展研究,2020,(7):73-78.

[30] Bordes A, Usunier N, Garcia-Duran A, et al.. Translating embeddings for modeling multi-relational data[J]. Advances in Neural Information Processing Systems, 2013, 26: 1-9.

[31] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600.

[32] 李濤,王次臣,李華康.知識圖譜的發展與構建[J].南京理工大學學報,2017,41(1):22-34.

[33] 黃恒琪,于娟,廖曉,等.知識圖譜研究綜述[J].計算機系統應用,2019,28(6):1-12.

[34] Mikolov T, Sutskever I, Chen K, et al.. Distributed representations of words and phrases and their compositionality[A]. Advances in Neural Information Processing Systems 26(NIPS 2013)[C]. NIPS, Nevada, 2013. 3111-3119.

[35] Devlin J, Chang M W, Lee K, et al.. Bert: pre-training of deep bidirectional transformers for language understanding[A]. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics-Human Language Technologies(NAACL-HLT2019)[C]. NAACL, Minneapolis, 2018. 4171-4186.

3390500338226

猜你喜歡
風險事件風險識別知識圖譜
持牌消費金融公司如何有效開展內部審計工作
風險管理在門診中的應用
護理風險管理在頭頸腫瘤外科護理中的應用觀察
網絡風險事件中的集體行動研究
基于知識圖譜的產業集群創新績效可視化分析
基于知識圖譜的產業集群創新績效可視化分析
H銀行企業信貸項目風險評估分析
基于知識圖譜的智慧教育研究熱點與趨勢分析
戶外俱樂部活動的風險因素識別與分析
從《ET&S》與《電化教育研究》對比分析中管窺教育技術發展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合