?

評估工業統計數據質量之方法探討

2021-12-02 09:18李東輝
商品與質量 2021年44期
關鍵詞:統計數據維度工業

李東輝

山東省臨沂市羅莊區統計局 山東臨沂 276000

統計數據的質量包括統計數據是否精準,是否出現大量的錯誤,統計數據是否是實際所需要的數據類型,對實際的業務是否具有參考價值。工業企業的發展和未來計劃離不開對于工業統計數據的分析,因此數據質量的好壞對于整個事業的發展都具有很重要的意義,數據質量的重要性不言而喻[1]。并且,數據收集是數據的源頭所在,數據質量的優劣,直接決定后續研究的質量,因此對于統計調查數據質量的評估顯得尤為重要,只有通過分析質量好的數據才能得出于實際發展所匹配的信息。

1 統計數據質量評估的概念

一個不嚴謹的定義是,將數據質量評估程序應用于數據集并最終獲取評價對象質量狀態。直白的說,就是依據一個相對完整的評估框架,按照一套確定的步驟和流程,從整體上考量某個或某些數據集對特定業務應用的滿足程度,能很好滿足業務應用的數據集我們稱其質量較好,反之則質量較差。

統計數據的質量評估也叫統計數據的預處理,就是通過各種方法對數據進行必要的篩查,審核以及排序等工作。目的是提高數據的質量,篩選一些質量過低的數據,為后續的分析工作減輕負擔,數據的質量評估主要分為三個處理步驟,即數據審核,數據篩選和數據排序[2]。

1.1 數據審核

通過設計調查等各種方法得到的原始數據。不可能做到準確無誤,也不能做到全部質量在線。因此需要對原始數據進行深人細致的數據審核工作,最大限度地剔除并修正數據差錯,提高統計數據的質量,這樣方可為后續統計分析奠定良好的數據基礎。

數據審核主要包括兩個方面內容:

(1)全面性審核。主要核對應調查的單位是否齊全,應調查的內容是否有遺漏。

(2)及時性審核。主要審核是否按規定的時間獲取相應數據資料,數據是否滿足時效性的要求。

數據審核中的準確性審核是最為主要的,費時費力,難度較大。

1.2 數據篩選

經過數據審核,對發現的錯誤數據可以采用相應方法進行補充、修正,但對于某些無法進行修補的數據,或者不符合調查分析要求的數據,則需要進行數據篩選。

數據篩涉包括兩方面的內容:

(1)將某些不符合要求的數據或有明顯錯誤的數據予以剔除。

(2)是根據匯總的需要將符合某種或某些條件的數據篩選出來,而將不符合特定條件的數據先予以剔除。

1.3 數據排序

數據排序使雜亂無序的數據呈現規律性的順序排列,不僅可以為后續的數據分析提供方便,而且在很多時候,排序本身就是進行統計分析的目的之一。

此外,統計數據的質量高低取決于統計數據的誤差大小。統計數據的誤差通常是指搜集到的統計數據與客觀現實之間的差距。研究人員在進行問題研究時,應了解存在數據誤差的可能性,因為采用錯誤的數據所得出的結論將比不使用數據更令人擔憂。

而統計數據都來源于樣本的調查,所以統計數據的誤差一般分為兩類,一類是抽樣誤差,一類是非抽樣誤差

(1)抽樣誤差。抽樣誤差是抽樣調查所特有的誤差,只有概率抽樣技術才有抽樣誤差,而且只要進行概率抽樣,就必然存在抽樣誤差,抽樣誤差是不可避免的,但是這種誤差可以計算和控制。比如選擇誤差小的抽樣方法、引人輔助變量構造復雜估計量、增大樣本容量等,都可以減小抽樣誤差。

(2)非抽樣誤差。非抽樣誤差,是指除抽樣的隨機性以外的其他各種原因引起的誤差,它在調查中普遍存在,在概率抽樣、非概率抽樣、其他的全面和非全面調查中,非抽樣誤差都有可能存在。

2 進行統計數據質量評估的原因

目前市面上很多的工業企業的數據分析師們都有一個通病,就是拿到一項工業統計數據后,就會立刻開始對統計數據進行統計分析,希望能夠快速及時的發現數據背后隱藏的企業運行信息和工業發展的相關知識。但是忙活了很久才發現并不能提煉出太多的有用信息,甚至很多統計數據是與工業發展狀況不符合的,因此浪費了大量的時間和精力。造成這一情況的一個重要因素就是在分析數據之前,忽視了對統計數據質量的評估。

為了得到的統計數據更加具有可分析性和可信度,對于數據的質量評估不可缺少,在質量評估的過程中,我們需要注意兩個質量評估原則。

2.1 并非所有的數據都是有質量,有價值的數據

在實際工業發展中,工業統計數據的分析一定都是為實際業務服務的,所以并不是所有的工業統計數據都是有價值的,也不是任何誤差小的統計數據都是有質量的數據。只有緊密圍繞業務需求統計出來的,對工業的發展有參考價值的數據才是有價值,質量高的數據。因此,在統計數據質量評估和篩查的時候要清楚的辨認相關的數據,不相關的數據,不論質量多高,對于工業發展本身確實毫無價值的話,也屬于質量低下的數據[3]。

2.2 數據質量的好壞直接影響最終的決策和結果

通常,對于工業統計數據的分析、挖掘的最終目的是希望可以通過數據發現數據背后隱藏的關于工業發展的知識和信息,從而對實際的業務或產品進行優化和改進。但是如果我們統計的數據本身的質量就十分參差不齊,甚至質量低下,那自然也很難能夠通過這樣質量低下的數據得出工業發展有用的結論,甚至還有可能得到錯誤的結論。所以,進行科學、客觀的數據質量評估是非常必要且十分重要的。

3 進行工業統計數據質量評估的方法

3.1 統計數據質量評估的框架

當前普遍的觀點認為,數據質量要素受行業領域、數據類型和應用目的等因素的影響極大,不存在面向所有領域和資源類型的普適性數據質量框架。但針對一個具體行業背景下的特定數據類型和業務目標,建立一組質量維度和指標體系是可行的。

對于目前我國的工業企業層面的數據分析應用,常見的數據質量分為以下八個維度:

(1)完整性。工業統計數據的完整性與數據庫的完整性整體概念并不相同,工業統計數據的完整性用以描述數據集合對于具體業務的目標的覆蓋程度,可以從文字和記錄兩個方面分析。

(2)可理解性??衫斫庑灾笜擞脕肀硎鰯祿欠衲芮逦姆磻獦I務邏輯,字段和取值的具體意義是否明確。

(3)一致性。一致性通常用來描述數據在不同維度的連貫性,包括數據集之間的橫向連貫性和時間維度的縱向連貫性。一致性并不意味著數值上的絕對相同,而是數據收集、處理的方法和標準的一致。

(4)可獲得性??色@得性用來描述實際業務需要的數據獲取的難易程度,包括采集、清理、轉化等多個環節。

(5)準確性。準確性主要反應數據集是否能夠精準無誤的反應真是業務情況,準確性是數據質量的重要組成部分。

(6)可靠性。反應數據集合是否值得信賴,包括數據采集、數據處理過程是否可靠等。

(7)相關性。是指數據集中包含的屬性是否能很好的描述業務目標,是否能清晰的解答業務問題。第一節我們說到,我們對數據質量的定義是看數據集是否能很好的滿足業務需求,相關性是數據質量的核心維度。相關性的常用指標主要就是數據字段相關度。

(8)時效性。時效性可以理解為時間維度的數據相關性,即業務需求的時間范圍和數據集表示的時間范圍之間的關聯程度。比如我們需要分析今年第一季度的工業發展概況,但是統計數據是去年第二季度的,這種情況就是極端的時效性差。

3.2 工業統計數據質量評估一般方法

質量評估方法,即采用何種方式對數據質量進行評估,如何評定和刻畫質量水平。數據質量評價方法主要分為定性和定量方法。

(1)定性法。定性法一般包括:

第三方評測法:主要是指將統計數據集合交由第三方的評測機構和組織,對數據的質量進行評估,第三方評測法的有點有三個,一是可以節省人力成本,第三方評估的技術正在朝著智能化方向發展,隨著云計算、大數據等新技術的更新,自動化評估體系正在逐步完善,這能節省大量的人力成本;二十可以讓第三方數據評估機構分擔相關的數據質量風險;三是可以得到專業評估機構出具的第三方數據質量評估報告和證明,使得數據質量更具有權威性[4]。

用戶反饋法:用戶反饋法在工業統計數據中用處不大,主要是針對一些第三產業和服務業等企業進行產品升級以及服務改造等作為參考的。

專家評議法:專家評議法相對于以上兩種更加具有權威性,專業人士對于數據質量的評議和評估使得數據的可參考性會大大提升,數據的質量也會提高。

(2)定量法.定量評價方法是指按照數量分析方法,從客觀量化角度對數據資源進行的優選與評價。

定量法一般包括:

統計分析法:統計分析法指通過對數據的規模,獲取途徑等客觀關系的分析研究,最終篩選出合適的數據集合并且將質量較差的數據剔除,借以達到對數據質量的有效評估,為后續數據分析工作提供高質量數據的一種評估方法

內容評估法:內容評估法主要就是對數據的內容質量進行評估,將于企業發展無關但是卻正確的數據篩選出來,留下真正意義上有參考價值的數據。

(3)綜合評價法。綜合方法將定性和定量兩種方法有機地集合起來,從兩個角度對數據資源質量進行評價。常見的綜合評價法包括:層次分析法、缺陷數據扣分法等。

4 工業統計數據質量評估的一般流程

4.1 需求分析

對具體業務數據的數據質量評估是以業務需求為中心進行的。數據資源不同于實體產品,具有用途個性化、多樣化、不穩定等特點。因此,必須首先了解具體業務針對特定數據資源的需求特征才能建立針對性的評估指標體系。

4.2 確定評價對象及范圍

確定當前評估工作應用的數據集的范圍和邊界,明確數據集在屬性、數量、時間等維度的具體界限。需要說明的是,評估對象既可以是數據項也可以是數據集,但一定是一個確定的靜態的集合。

4.3 選取質量維度及評估指標

數據質量維度是進行質量評估的具體質量反映,如正確性、準確性等。它是控制和評估數據質量的主要內容。因此,首先要依據具體業務需求選擇適當的數據質量維度和評估指標。另外,要選取可測、可用的質量維度作為評估指標準則項,在不同的數據類型和不同的數據生產階段,同一質量維度有不同的具體含義和內容,應該根據實際需要和生命階段確定質量維度。

4.4 確定質量測度及其評價方法

數據質量評估在確定其具體維度和指標對象后,應該根據每個評估對象的特點,確定其評估方法。對于不同的評價對象一般是存在不同的測度的,以及需要不同的實現方法支持,所以應該根據質量對象的特點確定其測度和實現方法。

4.5 質量評估

就是根據前面四步確定的質量對象、質量范圍、測量及其實現方法實現質量評測的活動過程。評估數據的質量應當由多個質量維度的評測來反映,單個數據質量測量是不能充分、客觀評價由某一數據質量范圍所限定的信息的質量狀況,也不能為數據集的所有可能的應用提供全面的參考,多個質量維度的組合能提供更加豐富的信息。

4.6 結果分析并報告

評估后要對結果進行分析:對評估的數據與結果進行對比分析,確定是否達到指標;對評估的方案的有效性進行分析,確認是不是合適等[5]。最后應將質量評價結果和數據質量評價過程匯總并報告。在完整的數據質量評價結果和報告中,應該包括全部上述內容。

5 結語

現如今,工業統計數據在數據處理的過程中已經稱為不可或缺的一個重要環節,評估工業統計數據質量的方法有很多種,具體要應用哪一種質量評估方法一方面取決于數據的多少,數據的類型以及數據的用處,另一方面取決于工業發展的階段和企業的類型。有效的數據質量評估可以幫助企業篩選出有用的數據,剔除質量低下的,相關性不大的數據,并且幫助相關部門確定質量高的數據,可以極大的減輕數據分析工作的負擔,提高數據分析的效率,節省大量的人力,物力和財力。

猜你喜歡
統計數據維度工業
創新視角下統計數據的提取與使用
理解“第三次理論飛躍”的三個維度
認識黨性的五個重要維度
淺論詩中“史”識的四個維度
國際統計數據
2017年居民消費統計數據資料
掌握4大工業元素,一秒變工業風!
統計數據
人生三維度
工業技術
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合