?

基于Benford律的Logistic模型及其在財務舞弊識別中的應用

2019-09-20 02:36楊貴軍周亞夢孫玲莉石玉慧
統計與信息論壇 2019年8期
關鍵詞:錯誤率頻數財務指標

楊貴軍,周亞夢,孫玲莉,石玉慧

(天津財經大學 統計學院,天津 300222)

一、引言

近年來,盡管政府監管不斷加大對上市公司財務舞弊的懲罰力度,財務舞弊事件仍然屢屢發生,干擾了正常的市場經濟秩序,損害了廣大投資者的利益。財務舞弊的原因非常復雜,舞弊手段也不斷更新,更加有效的財務舞弊識別新方法仍是當前關注的熱點。

Benford律是舞弊識別的常用方法之一,指大量自然數據集中首位數字的分布規律。如果某財務指標的首位數字分布與Benford律不一致,則認為該財務指標的舞弊風險高,數據受到人為操縱的可能性較大[1]。在會計、稅務、審計等領域,Benford律已被用于識別財務數據是否有修飾、篡改與舞弊等問題。Nigrini等最早提出將Benford律用于財務舞弊識別并應用到會計、稅務等領域,成功識別出大量舞弊案例[2-3]。Carslaw、Thomas先后使用Benford律識別出新西蘭和美國的會計凈利潤數據的人為操縱行為及特征[4-5]。Aris等識別出馬來西亞公共部門的會計欺詐風險[6]。張蘇彤等驗證了Benford律對中國上市公司的財務數據具有適用性,提出可將Benford律作為查找上市公司財務舞弊征兆的工具[7]。朱文明等進一步給出了應用Benford律進行舞弊審計的操作步驟和分析流程[8]。然而,以上所有學者對Benford律的研究僅限于評價財務數據整體質量。雖然Benford律可以檢測數據質量低的財務指標,確定異常數據范圍,但無法識別出具體的舞弊樣本點,而識別舞弊樣本點對于審計實務具有更重要意義。

實質上,財務舞弊識別往往被看做二分類問題,很多財務舞弊識別模型都來源于Logistic模型[9-11]。Mscore模型和Fscore模型是西方資本市場常用的財務舞弊識別模型。Mscore模型選擇財務指標作為解釋變量,建立Logistic模型,成功預測出美國安然公司的財務舞弊[9]。Fscore模型在Mscore模型基礎上,從應計項、財務指標、非財務指標、表外業務和市場信息五個方面選擇解釋變量,建立預測財務舞弊的Logistic模型,識別出美國在1990年和2000年互聯網泡沫期間的財務舞弊公司最多[10]。錢蘋等利用中國上市公司財務指標,基于Mscore模型和Fscore模型,建立適合中國資本市場的Cscore財務舞弊識別Logistic模型[11]。已有使用Logistic模型識別財務舞弊的研究僅關注財務指標,并未關注這些指標的數據質量。

財務指標真實可信是Logistic模型成立的前提條件之一。根據Benford律分布一致性檢驗原理,如果財務指標的首位數字分布與Benford律之間差異顯著,說明財務指標受到人為操縱的可能性大,不能直接使用這些財務指標建立Logistic模型。否則,建立的Logistic模型結論的合理性將受到質疑。為此,本文提出將Benford律和Logistic模型結合的一種舞弊識別方法。新方法首先基于Benford律生成一組可以反映財務指標數據質量并標記潛在異常樣本點的變量,稱為Benford因子,然后將Benford因子作為新解釋變量引入Logistic模型中,改善Logistic模型擬合效果,提高舞弊識別的正確率?;谥袊鲜泄矩攧諗祿哪M顯示,包含Benford因子的Logistic模型往往具有更高的正確率,識別財務舞弊樣本點的正確率也高于普通Logistic模型。

二、帶有Benford因子的Logistic模型

(一)Benford律

Benford律是指在大量自然數據集中首位數字的頻率分布呈單調下降趨勢的一種對數規律[12]。Hill給出Benford律的統計解釋[13]。記d=1,2,…,9,首位數字D為d的概率為:

fB,d=log10(1+1/d)

(1)

現有的理論研究和實證分析顯示,大量財務數據的首位數字都服從Benford律,舞弊行為往往會導致財務數據不符合Benford律[2]。財務數據中首位數字分布規律與Benford律之間差異顯著,意味著財務數據質量低,存在弄虛作假、修飾、篡改等風險。檢驗首位數字的概率分布是否服從Benford律的方法主要有四種:χ2擬合優度檢驗、修正K-S擬合優度檢驗、距離檢驗和Pearson相關系數檢驗[14]。χ2擬合優度檢驗是最常用的方法。記N為樣本量,fd為待檢驗財務數據的首位數字d(d=1,2,…,9)出現頻率。χ2擬合優度檢驗統計量為:

(2)

給定顯著性水平,如果χ2檢驗統計值大于臨界值,拒絕原假設,認為財務數據集中首位數字出現頻率不符合Benford律。數據集中首位數字分布與Benford律比較,只能給出數據質量的總體評價,很難識別某個具體樣本點是否存在舞弊問題[15]。

(二)基于Benford律的Benford因子構造

(3)

(4)

(5)

構造指標Xj(j=1,2,…,k)的Benford因子,記為Bj。若樣本點p的指標xj,p的首位數字為a(j),則Bj取值為1;否則,Bj取值為0,即:

(6)

注意,Bj因子可能與其他Benford因子之間存在交互效應,需要根據實際情況選擇。

(三)Benford-Logistic模型

Benford因子及其交互效應提供了樣本點的數據質量信息。本文將包含Benford因子的Logistic模型稱為Benford-Logistic模型。財務舞弊識別的Logistic模型中涉及的財務指標一般為財務比率指標,是根據同一時期財務報表中兩個或多個項目之間的關系,計算其比率。比率指標用相對數表示??偭恐笜耸怯脕矸从成鲜泄矩攧湛傄幠;蚩偹降慕y計指標,用絕對數表示,是計算比率指標的基礎指標。Benford律對這兩類財務指標的數據質量評價效果有所不同。實際上,如果總量指標存在舞弊問題,經過運算得到的比率指標可能滿足Benford律。這是因為數據在運算過程中往往過濾掉大量信息,其中可能包括舞弊信息,降低了Benford律對比率指標的舞弊識別效果。這里,Benford因子包括總量指標Benford因子和比率指標Benford因子。假設因變量Y表示是否為財務舞弊公司,財務舞弊公司記為1,非財務舞弊公司記為0。解釋變量為財務指標,記為Xi(i=1,2,…,m,m≥k)。普通Logistic模型為:

ln{P(Y=1|X)/[1-P(Y=1|X)]}

=β0+β1X1+β2X2+…+βmXm

(模型Ⅰ)

包含總量指標Benford因子的Benford-Logistic模型為:

ln{P(Y=1|X,B)/[1-P(Y=1|X,B)]}

(模型Ⅱ)

ln{P(Y=1|X,B)/[1-P(Y=1|X,B)]}

(模型Ⅲ)

采用Benford-Logistic模型識別財務舞弊公司的主要步驟如下:

1.對所有待檢驗財務指標數據集,采用Benford律進行顯著性檢驗,識別出數據質量低的財務指標Xj(j=1,2,…,k)。

3.將比率指標的Benford因子或總量指標的Benford因子加入到Logistic模型中,構建比率指標Benford-Logistic模型或總量指標Benford-Logistic模型,對公司進行財務舞弊識別。

本文提出的Benford-Logistic模型保留了Benford律能有效評價數據質量、Logistic模型分類準確率高的優點,增加Benford因子也提高了Logistic模型的正確率。

三、中國上市公司財務舞弊識別的模擬研究

下面基于中國上市公司財務數據,利用Benford-Logistic模型識別財務舞弊的上市公司。

(一)變量選擇與數據來源

現有上市公司財務舞弊的研究文獻,主要是從舞弊動因、償債能力、盈利能力、現金流量、營運能力五個方面考慮影響上市公司財務舞弊行為的財務指標[9,16]。衡量舞弊動因的代表性指標是舞弊前三年平均ROE∈(6%,7%)和管理層持股比例。在中國證券市場安排機制下,舞弊前三年平均ROE在(6%,7%)的上市公司處于配股邊界,出于增發配股的需要,其財務舞弊可能性較大。管理層持股比例增加,管理層對企業的控制力就會不斷增強,外部約束力被削減,更容易發生財務舞弊。公司償債能力的代表性指標是流動比率和速動比率,反映公司通過資產變現短期償還債務的能力。盈利能力的代表性指標為ROA和ROE,反映公司對投入資金的運作回報能力?,F金流量的代表性指標是現金流量比率和每股現金流量,反映公司現金流動性與獲取現金的能力。營運能力的代表性指標是存貨周轉率、資產周轉率、應收賬款周轉率,評價公司運用存貨、總資產、應收賬款等各項資產賺取利潤的能力。一般而言,償債能力越弱、盈利能力越弱、流動性與獲取現金能力越弱、營運能力越弱,公司舞弊可能性越高。具體變量定義如表1所示。

表1 財務舞弊識別指標

選取因財務舞弊受到證監會、上交所、深交所和財政部處罰的A股上市公司作為舞弊公司樣本,響應變量Y取值為1。沒有因財務舞弊受到公開處罰的A股上市公司作為非舞弊公司樣本,響應變量Y取值為0。中國從2005年開始實行股權分置改革,因此本文將樣本區間確定為2006—2017年。剔除金融行業、關鍵數據缺失和上市不足3年的上市公司后,共收集到158個舞弊公司樣本、4 115個非舞弊公司樣本。相關數據來源于銳思金融數據庫(RESSET)。

基于相關系數檢驗和VIF檢驗,部分變量存在較強的相關性。采用AIC準則和變量顯著性等識別辦法對解釋變量進行篩選,最終保留了重要且顯著的2個財務指標變量:ROA和現金流量比率。由表1可知,構成比率指標ROA的總量指標有凈利潤和資產總額,構成比率指標現金流量比率的總量指標有經營性現金流量和流動負債。相關統計描述見表2。

表2 變量說明、描述性統計與χ2擬合優度檢驗

(二)Benford因子的構造

為了構造表征財務舞弊的Benford因子,先對財務指標進行Benford律顯著性檢驗。檢驗的指標包括4個總量指標,分別為凈利潤、資產總額、經營性現金流量、流動負債;2個比率指標,分別為ROA、現金流量比率。各指標首位數字觀測頻率與Benford律下理論頻率差異的χ2擬合優度檢驗結果見表2的最后1列。表2的χ2擬合優度檢驗結果顯示,只有流動負債指標的χ2檢驗值為8.36,小于顯著性水平10%下的臨界值13.36,表明流動負債數據首位數的分布規律與Benford律較為一致。其他指標的χ2檢驗值高,說明這些指標可能存在數據質量問題。計算每個指標首位數字的觀測頻率與Benford律下理論頻率之間差值,結果見表3。

表3顯示,流動負債指標的首位數字分布較好服從Benford律,與Benford律下理論頻率之間差異小。其他指標的首位數字觀測頻率與Benford律下理論頻率之間差異大。ROA、現金流量比率、凈利潤、資產總額、經營性現金流量等指標,觀測頻率與Benford律下理論頻率偏差最大的首位數字分別是4、2、3、7、1,觀測頻率比Benford律下理論頻率分別高出2.07%、2.44%、1.38%、1.18%、0.98%。構造與上述指標相對應的Benford因子,然后根據式(6)對樣本點的Benford因子賦值。

表3 指標首位數字的觀測頻率與

(三)Benford-Logistic模型正確率分析

考慮到模擬結果的穩定性和數據不平衡會降低模型的擬合效果,本文對正常公司樣本進行1 000次不放回抽取,每次抽取158個樣本點,然后與舞弊公司樣本點合并,構成容量為316的1 000組樣本。

為了比較三個模型的優劣,計算每個模型的正確率、第一類錯誤率、第二類錯誤率和最優頻數。表4給出每個模型分類結果的四種情形。記n=a11+a12+a21+a22。正確率等于實際舞弊的公司被判斷為舞弊公司以及實際正常的公司被判斷為正常公司的比例,即正確率為(a11+a22)/n。第一類錯誤率是將正常公司錯判為舞弊公司的概率,即第一類錯誤率為a21/(a21+a22)。第二類錯誤率是將舞弊公司錯判為正常公司的概率,即第二類錯誤率為a12/(a11+a12)。最優頻數是在1 000次模擬中某模型的正確率最大的頻數、第一類錯誤率最小的頻數和第二類錯誤率最小的頻數[17]。

表4 分類矩陣(樣本數為n)

基于全部樣本構建模型,分別利用普通Logistic模型、基于總量指標的Benford-Logistic模型和基于比率指標的Benford-Logistic模型進行舞弊公司識別。模型分類結果受閾值影響,為了便于模型比較,將閾值統一設定為0.5。分別依據上述三個模型對樣本類別進行判斷,比較分類結果與真實類別,計算正確率、第一類錯誤率、第二類錯誤率和最優頻數。

圖1、圖2、圖3分別給出了三個模型1 000次結果的正確率和第一類錯誤率、第二類錯誤率的箱線圖。圖中的3個箱線圖從左到右依次為Logistic模型、基于總量指標的Benford-Logistic模型和基于比率指標的Benford-Logistic模型。圖1顯示,三個模型1 000次結果的正確率中位數分別為57.59%、59.18%、59.18%。模型Ⅱ和模型Ⅲ的正確率中位數相等,都高于模型Ⅰ。圖2顯示,三個模型1 000次結果的第一類錯誤率中位數分別為44.94%、43.67%、42.41%。模型Ⅲ的第一類錯誤率中位數低于模型Ⅱ和模型Ⅰ。模型Ⅱ的第一類錯誤率中位數低于模型Ⅰ。圖3顯示,三個模型1 000次結果的第二類錯誤率中位數分別為39.87%、37.34%、39.24%。模型Ⅱ的第二類錯誤率中位數低于模型Ⅲ和模型Ⅰ。模型Ⅲ的第二類錯誤率中位數低于模型Ⅰ。

圖1 回判正確率圖 圖2 第一類錯誤率圖 圖3 第二類錯誤類圖

表5的第2至4行分別給出三個模型1 000次模擬的平均正確率、平均第一類錯誤率、平均第二類錯誤率,5至7行給出三個模型在1 000次模擬中的正確率最高、第一類錯誤率最低、第二類錯誤率最低的頻數。表5顯示,三個模型1 000次結果的平均正確率分別為57.49%、59.26%、59.12%。平均正確率最高的模型是模型Ⅱ,其次是模型Ⅲ,最低的是模型Ⅰ。三個模型1 000次結果的平均第一類錯誤率分別為45.02%、43.46%、42.64%。平均第一類錯誤率最低的模型是模型Ⅲ,其次是模型Ⅱ,最高的是模型Ⅰ。三個模型1 000次結果的平均第二類錯誤率分別為40.01%、38.03%、39.12%。平均第二類錯誤率最低的模型是模型Ⅱ,其次是模型Ⅲ,最高的是模型Ⅰ。表5顯示,在1 000次模擬中三個模型的正確率最高的頻數分別為86、500和476,模型Ⅱ的正確率的最優頻數最大,達到500次,模型Ⅲ的正確率最高的頻數為476次,略低于模型Ⅱ,但高于模型Ⅰ。在1 000次模擬中三個模型第一類錯誤率最低的頻數分別為146、394和541,模型Ⅲ的第一類錯誤率最低的頻數最大;模型Ⅱ的第一類錯誤率最低的頻數為394次,低于模型Ⅲ,但高于模型Ⅰ。在1 000次模擬中三個模型的第二類錯誤率最低的頻數分別為197、536和346,模型Ⅱ的第二類錯誤率最低的頻數最大,達到536次;模型Ⅲ的第二類錯誤率最低的頻數為346次,低于模型Ⅱ,但高于模型Ⅰ。相比較而言,模型Ⅲ針對正常公司的正確率優于模型Ⅰ和模型Ⅱ。模型Ⅱ的正確率和第二類錯誤率優于模型Ⅰ和模型Ⅲ。尤其對于舞弊公司,模型Ⅱ的識別效果明顯優于模型Ⅰ。模型Ⅲ和模型Ⅱ的正確率差異小,二者都明顯優于模型Ⅰ。

表5 分類準確性和最優頻數統計

注:若出現模型正確率相等的情況,按照每個模型都是最優模型統計頻數。這里最優頻數之和不一定等于總模擬次數1 000。

綜上所述,針對舞弊識別的二分類問題,Benford-Logistic模型的正確率往往高于普通Logistic模型。其中,基于總量指標的Benford-Logistic模型識別舞弊公司的正確率優于基于比率指標的Benford-Logistic模型?;诒嚷手笜说腂enford-Logistic模型識別正常公司的正確率優于普通Logistic模型和基于總量指標的Benford-Logistic模型。

(四)Benford-Logistic模型與Logistic模型正確率的進一步比較

對于上市公司財務舞弊問題,將財務舞弊公司識別為正常公司會造成更嚴重的損失,需要嚴格控制第二類錯誤率。模型Ⅱ在三個模型中犯第二類錯誤率的頻率最低。為此,下文進一步比較模型Ⅰ和模型Ⅱ的正確率。

在1 000次模擬中,模型Ⅱ的正確率高于模型Ⅰ的頻數為806次,占總模擬次數的80.6%。為了進一步比較模型Ⅱ和模型Ⅰ的性質,將806次模擬結果分類,按照第一類錯誤率的分組結果見表6的1至3列,按照第二類錯誤率的分組結果見表6的4至6列。表6第1列表示模型Ⅰ與模型Ⅱ的第一類錯誤率差值,第2列給出模型Ⅱ的第一類錯誤率低于模型Ⅰ的頻數,第3列給出了相應比率。第4列給出模型Ⅰ與模型Ⅱ的第二類錯誤率差值,第5列給出了模型Ⅱ的第二類錯誤率低于模型Ⅰ的頻數,第6列給出了相應比率。表6顯示,在模型Ⅱ的正確率高于模型Ⅰ的806次模擬中,模型Ⅱ的第一類錯誤率低于模型Ⅰ的頻數是612次,比率為75.93%,模型Ⅱ的第二類錯誤率低于模型Ⅰ的頻數是618次,比率為76.67%。模型Ⅱ的正確率高于模型Ⅰ的情況下,模型Ⅱ的第一類錯誤率和第二類錯誤率往往低于模型Ⅰ。

表6 模型Ⅱ的正確率高于模型Ⅰ的情況(總頻數為806)

在1 000次模擬中,模型Ⅱ的第一類錯誤率低于模型Ⅰ的頻數為691次,占模擬總次數的69.1%。將691次模擬結果進行分組,按照第二類錯誤率的分組結果見表7的第1至3列,按照正確率的分組結果見表7的第4至6列。表7的第1列表示模型Ⅰ與模型Ⅱ的第二類錯誤率差值,第2列給出了模型Ⅱ的第二類錯誤率低于模型Ⅰ的頻數,第3列給出了相應比率。第4列表示模型Ⅱ與模型Ⅰ的正確率差值,第5列給出了模型Ⅱ的正確率高于模型Ⅰ的頻數,第6列給出了相應比率。表7顯示,在模型Ⅱ的第一類錯誤率低于模型Ⅰ的691次模擬中,模型Ⅱ的第二類錯誤率低于模型Ⅰ的頻數達到424次,占比為61.36%。模型Ⅱ的正確率高于模型Ⅰ的頻數是612次,占比為88.57%。在模型Ⅱ的第一類錯誤率優于模型Ⅰ的情況下,模型Ⅱ的第二類錯誤率和正確率往往優于模型Ⅰ,且正確率高的情況更多。

表7 模型Ⅱ的第一類錯誤率低于模型Ⅰ的情況(總頻數為691)

在1 000次模擬中,模型Ⅱ的第二類錯誤率低于模型Ⅰ的次數達到692次,占模擬總次數的比率為69.2%。將692次模擬結果進行分組,按照第一類錯誤率的分組結果見表8的1至3列,按照正確率的分組結果見表8的4至6列。表8的第1列表示模型Ⅰ與模型Ⅱ的第一類錯誤率差值,第2列給出模型Ⅱ的第一類錯誤率低于模型Ⅰ的頻數,第3列給出了相應比率。第4列表示模型Ⅱ與模型Ⅰ的正確率差值,第5列給出模型Ⅱ的正確率高于模型Ⅰ的頻數,第6列給出了相應比率。表8顯示,在模型Ⅱ的第二類錯誤率低于模型Ⅰ的692次模擬中,模型Ⅱ的第一類錯誤率低于模型Ⅰ的頻數是424次,占比為61.27%。模型Ⅱ的正確率高于模型Ⅰ的頻數是618次,占比為89.31%。模型Ⅱ的第二類錯誤率優于模型Ⅰ的情況下,模型Ⅱ的第一類錯誤率和正確率往往高于模型Ⅰ,且正確率高的情況更多。

表8 模型Ⅱ的第二類錯誤率低于模型Ⅰ的情況(總頻數為692)

綜上所述,通過模型Ⅱ和模型Ⅰ的正確率、第一類錯誤率和第二類錯誤率比較顯示,模型Ⅱ的第一類錯誤率或第二類錯誤率較低,相應的正確率往往較高。模型Ⅱ的正確率高于模型Ⅰ的情況下,模型Ⅱ的第一類錯誤率和第二類錯誤率往往較低。

四、結論

舞弊識別是財務審計監督領域的重要問題?,F有文獻大多單獨使用Benford律、Logistic模型進行財務舞弊識別,少有研究將兩種方法組合到一個模型中用于舞弊識別。Benford律的局限在于無法從一組數據中識別出具體的舞弊樣本點,而Logistic模型參數估計容易受到解釋變量數據質量的影響,降低Logistic模型的正確率。有鑒于此,本文提出Benford律和Logistic模型相結合的財務舞弊識別新方法。首先,利用Benford律評估解釋變量的數據質量。然后,選擇沒有通過Benford律檢驗的財務指標,計算首位數字的觀測頻率,確定與理論頻率差異最大的首位數字。根據樣本數據首位數字與該首位數字是否相等,構造Benford因子作為新的解釋變量。最后,將Benford因子加入Logistic模型,進行舞弊識別。中國上市公司財務舞弊數據分析結果顯示,在Logistic中加入總量指標的Benford因子或比率指標的Benford因子都能夠提高正確率?;诳偭恐笜藰嬙斓腂enford因子對降低第二類錯誤率更有效。本文提出的新方法為舞弊識別提供了新思路,能夠更好滿足審計實務的需求。

猜你喜歡
錯誤率頻數財務指標
關于財務指標實際應用的思考
頻數與頻率:“統計學”的兩個重要指標
小學生分數計算高錯誤率成因及對策
探討醫院財務分析中財務指標體系的應用
正視錯誤,尋求策略
中考頻數分布直方圖題型展示
EVA業績評價體系應用分析
貝因美股份有限公司償債能力分析
解析小學高段學生英語單詞抄寫作業錯誤原因
學習制作頻數分布直方圖三部曲
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合