?

淺析大數據條件下質量管理中病態數據的管理研究

2016-12-23 16:06黃海敏劉琦李旭朱海林
科技創新導報 2016年23期
關鍵詞:質量管理大數據

黃海敏+劉琦+李旭+朱海林

摘 要:大數據條件下,正確完成數據的判別,明確病態性數據,是大數據質量管理的基礎和前提。首先,對大數據條件下質量管理中病態數據的定義與來源進行了闡述;然后,結合病態數據的產生過程,歸納總結了病態數據的主要特點;再次,結合質量管理的需求,分析了病態數據的管理需求;最后,基于統計方法,對病態數據的判別提出了對策建議。

關鍵詞:質量管理 病態數據 大數據 主流數據 判別

中圖分類號:Q213.9 文獻標識碼:A 文章編號:1674-098X(2016)08(b)-0091-04

1 引言

隨著計算機技術、信息技術、網絡技術、云技術等的發展,在質量管理領域,數據收集的類型和數量呈現出爆炸性的發展趨勢,大數據的特點愈發明顯。如購物網站的產品質量評價數據、體檢中心的健康檢測數據、4S店的車輛維護數據等。這些數據不僅數量大,而且體現出了總體性、壽命周期性、復雜性等大數據的特點[1]。但由于數據收集技術、數據提供者本身的問題等原因,使得收集到的一部分數據呈現出病態性的特點,如評價數據中非常類似的差評、好評數據的大量出現,健康監測、4S店產品維護數據中數值長期保持不變的數據、學生成績中非常低的成績數值大量出現等。病態數據的出現,使得對質量的評價會出現評價不準確、問題定位不精確等誤導性結果。為實現對質量的精確分析,有必要對質量管理中病態數據的概念進行闡述,分析其特點、產生的源頭,并研究病態數據的分析方法,從而實現對質量數據的精細化管理。

質量管理作為一個重要研究方向,國內外已經進行了長期的研究,出版了大量的專著,典型的如《Quality Control Handbook》、《The Management And Control of Quality》等。而作為當前研究的熱門領域,國內外對大數據也進行了大量的研究,出版了大量的論著,如《Big Data: A Revolution That Will Transform How We Live, Work and Think》、《Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data》、《醫療大數據》等。而對于大數據條件下質量管理中病態數據的管理研究,該方面的論述還比較少,現有的研究主要集中于論述數據質量研究的必要性、研究方法等。如Rao等[2]指出在大數據分析中,基于低質量數據進行分析,隱藏的后果可能是災難性和蔓延性的,并提出了從大數據背景分析數據質量的方法。Becker等[3]指出大數據分析中,數據質量是所有數據分析問題中極其重要的方面,并從數據的收集、描述、存儲等方面分析了不同因素對大數據質量的影響。Immonen等[4]則針對大數據框架下的社會媒體數據質量評估構建了評估的架構。國內,宗威等[5]梳理了大數據的基本特征,并從流程、技術和管理視角討論了大數據時代下企業保證數據質量的挑戰、重要性及應對措施。程平等[6]對數據的質量提出了完整性、及時性、可靠性等關鍵數據質量特征。黃冬梅等[7]對基于塊嵌套循環的大數據的數據質量檢驗方案進行了研究。在基于大數據的質量管理分析方面,Huang等[8]在對暫態電能的質量評價方法中,基于大數據的處理結構完成了樸素Bayes分類,在該結構中,將數據源擴展為電網監控數據、用戶數據和公共數據三種類型。具體到對病態數據的分析,當前的研究比較偏向于具體技術的分析,如Liu等[9]在對生物醫學圖像和疾病預測的多維數據分析中,設計了可對病態數據對象探測的信息處理算法。Joon-Hong等[10]則對短期供水需求分析與預測中,病態數據細化的置信區間方法和誤差百分比校正方法進行了論述。國內對于病態數據的研究主要集中在對病態數據處理的具體算法分析上,如王晶[11]對電力系統中異常數據的影響進行了闡述,并對多種電力系統異常數據檢測辨識方法的優缺點進行了對比分析。費歡等[12]采用K-Means算法思想,基于歐式距離進行數據的相似性分析,并實現異常數據的檢測。

從現有的研究情況以及大數據和質量管理的需求情況看,對大數據條件下的質量管理進行研究,已是質量管理的一個重要研究方向,但對于大數據中病態數據的研究,目前還處于初始的研究探索階段。因此,需要加強這方面的研究,對病態數據的定義、特點、來源、管理需求、判別技術等進行分析,為大數據條件下的質量管理提供準確的數據支撐。

2 病態數據的定義與主要來源

病態數據也稱為“不良數據”、“異常數據”,翻譯為Abnormal Data,是相對于總體的主導性數據或者正常數據而言的。在大數據管理中,質量管理中的病態數據是指:由于數據收集記錄錯誤、不良信息傳播、惡意評價、重復引用等原因,使得收集到的部分難以反映產品總體的實際質量狀況的數據。病態數據在統計分布上表現為:與主導性或真實性質量數據(稱為主流數據)的分布存在差異,總體的分布存在不連續、多峰、鋸齒等特點。

病態數據的來源主要包括如下類型:

(1)誤導性質量評價數據。指在質量分析與評價中,通過物質、精神等方面的手段誤導調查者,使得質量評價數據偏離實際質量的情況。該類數據包括購物網站對產品質量評價、服務窗口對服務質量評價方面。如某寶的部分產品在其包裝中附帶好評卡,該類卡片的出現,容易誤導消費者,使得收集到的部分質量數據難以反映質量評價的客觀性。而服務窗口的誤導性則體現在其評價標準的不全面,如某些服務窗口,其評價標準僅包括非常滿意、滿意、不滿意三個方面。

(2)惡意評價數據。指由于調查者本身的偏激、認識不全面等原因,在對質量評價中不能做出客觀評價的數據。該方面的數據不僅在購物網站上有相關表現,而且在日常生活中的表現也較為突出,如對服務窗口的評價,由于被服務者的一時激憤,對相關管理機構的不滿等,就可能在某些場合發布較為偏激的評價,甚至會進行一定程度的造謠、傳謠等。

(3)重復性收集數據。指由于數據記錄、抄襲等原因,造成的收集到的數據出現大量重復或者高度相似數據。該類數據如問卷調查中由于被調查者、調查者有意造假等在調查中抄襲已有數據,考試中題目泄露、抄襲等形成的數據,數據記錄設備間歇性故障造成數據重復記錄等。

(4)不作為數據。指在生產、服務、研究中由于相關人員的不努力、不作為等原因,從而使得在質量分析與評價中,收集到的難以表現真實質量狀況的數據。這方面,比較容易說明問題的是農產品的質量數據、醫療美容產品質量數據等。作為影響國計民生的日用產品,市場上缺乏監管或者監管不力,使得部分具有毒副作用以及功能缺失的產品進入人們的日常生活,這方面只要關注CCTV-13的《每周質量報告》,就能從一個側面看出產品的質量在某種程度上并不像廣告宣傳的那樣優質。造成這種問題在很大程度上是因為某些監管部門的不作為,從而導致質量檢驗方法與內容的缺失。

(5)片面宣傳數據。指生產方、銷售方在產品的宣傳中利用名人效應、專家效應等片面的擴大產品或服務的部分功能或質量效應,而有意屏蔽部分不良特性或短板質量問題,這類對產品或服務的片面宣傳或理解就稱為片面宣傳數據。

3 病態數據的主要特點

相對于大數據條件下正常的質量數據,病態數據主要表現有如下特點:

(1)非主流性。相對于產品正常的質量數據,病態數據是非主流的數據,無論其表現如何,病態數據都不能代表產品質量的真實水平,在生產、服務過程透明,監管部門質量報告數據透明的條件下,這類數據將會從數量上、表現上呈現出其非主流性,較為容易判斷分析。

(2)異總體性。從病態數據的定義與來源看,病態數據與主流質量數據反映的質量主題是有一定的差異的,這就使得兩方面的數據在總體分布形態會出現一定的差異,在統計分布形式上,若將所有的數據在同一坐標軸上表現,則質量數據會體現出多峰分布的特點。這種異總體性主要是由病態數據的非主流性造成的。

(3)易擴散性。由于名人效應、廣告效應、消費者的獵奇心理等,使得在某種程度上非主流的質量數據比一般的質量數據更容易擴散。易擴散性在某種程度上還可造成病態數據重復性和關鍵性的特點。

(4)關鍵性。指病態數據在某種程度上會誤導消費者、擾亂市場秩序、降低質量評價的準確性等,使得病態數據必須重點處理,以消除其不利影響。

(5)少量性。相對于產品正常的質量數據,尤其是大數據條件下的質量監控,病態數據在產品壽命周期中,僅是少數的一部分。相比生產過程的監測數據、大量消費者的評價數據等而言,病態數據是少量的。

(6)重復性。與主流質量數據不同,主流數據由于調查單位的獨立性和調查者的責任感,使得收集到的數據通常體現出隨機性的特點。而病態數據由于收集者或提供者的不作為,就可能使得部分質量數據出現重復性的特點。

上述僅對病態數據的一些顯性的特點進行分析。這些顯性特點的分析,有利于科技工作者歸納總結病態數據的判別方法,完成對病態數據的歸類與統計分析。

4 病態數據的管理需求

質量管理中病態數據的出現,會在很大程度上影響消費者對產品質量的評價,并在一定程度上造成民眾對某些產品質量信心的缺失,從而可能造成不可估量的影響,如消費對象的轉移、企業的倒閉,甚至是類似產業的崩潰(如典型的三鹿奶粉現象)等。因此,在大數據條件下,有必要加強質量數據的管理,減少甚至避免病態數據的出現。其管理需求主要包括:

(1)明確質量管理機構的主體地位。政府各級的質量技術監督局是產品質量的監督與管理機構,其工作態度和工作方法決定了產品質量的好壞。在質量管理中,明確質量管理機構的主體地位,賦予其質量管理方面的相關權力,有利于相關質量管理工作的開展。

(2)實施質量準入制度。是在明確質量管理機構主體地位的基礎上,嚴格要求進入市場的產品具備相關的具有權威性的質量標準和質量標志。該制度的執行可在較大程度上保證產品質量,而且準入制度和責任制的配合,可以抑制病態數據的產生和擴散。

(3)實施質量數據責任制。有責任才會有質量。責任制是對于數據的發布方、名人效應的代言方、廣告的發布者、質量標志的發布者等,在發布其數據的同時,必須承擔相應的責任,而且應出臺相關的法律,從而保證所發布的質量數據的真實性。

(4)加強質量管理的法制建設?!坝蟹梢?、有法必依”,強有力的法制是確保產品質量的有利保障。法制建設不僅包括質量管理相關法律條文的建設,而且包括相關法律落實執行的機構、設施建設,只有真正得到貫徹執行的法律才是有效的法律。

(5)加強質量教育。在此,質量教育是指針對全民進行相關的質量意識和質量判別教育,讓廣大消費者明確質量的重要性和產品質量的簡單判別方法。質量只有得到社會的廣泛關注,才能減少質量問題的產生,才能抑制病態數據的出現。

(6)加強質量的信息化。是在質量管理方面引入信息的回溯機制,通過信息技術(包括數據庫技術、二維碼技術等)將產品質量信息植入產品的關鍵醒目標志中,使得消費者可以快速、便捷地獲得產品質量的相關信息、責任者。質量信息化是大數據條件下質量數據管理的一個重要方向,也是保證產品質量的關鍵技術環節。

5 病態數據的判別技術

在大數據條件下,結合病態數據的來源和特點,可從如下方面完成病態數據的判別:

(1)基于統計分布的病態數據判別。與主流數據相比,病態數據在一定程度上表現出與主流數據之間的異總體性,因此,可通過對總體分布的簡單分析完成病態數據的判別。如若總體分布出現多峰的情況,則可在一定程度上說明數據中存在病態數據,而峰值之間的距離越遠說明病態數據的病態性越嚴重。一維數據基于統計分布的病態數據判別示意如圖1所示。

(2)基于相似性檢驗的病態數據判別。當數據中出現重復數據或者相似性非常強的評價數據時,需要通過相似性分析方法驗證數據之間的一致性。這方面,國內外對于研究論文的查重已有詳細標準與方法,可將其借鑒到這方面。

(3)基于聚類分析的病態數據判別。聚類分析是統計學的一個重要分支,該方法基于樣品之間的統計距離描述樣品之間的相似性。而對于病態數據分析而言,可知主流數據之間相似性強,而病態數據與主流數據之間相似性較弱,相反,病態數據之間有較強的相似性。通過聚類分析可將數據依據相似性分為不同的類型,從而較為容易的區分出病態數據。對于二維數據,在平面直角坐標軸上,可以較為容易的描述其散布特點,從而可以較為容易的區分數據的類型,其聚類分析的示意圖如圖2所示。

(4)基于判別分析的病態數據歸類。判別分析是統計學的一個重要研究領域,該方法基于已有的分類,然后基于統計距離完成樣品的歸類判別。在質量分析中,當質量數據難以進行病態性判別時,可事先結合國內外類似產品的質量信息完成數據的分類分析,然后基于判別分析方法對需要歸類的質量數據進行判別,完成病態數據的歸類。

6 結語

大數據條件下,病態數據的判別、修正、剔除等是一項長期而且復雜的數據管理工作,該文對質量數據中病態數據的定義、來源、特點和判別技術進行了初步的研究,該研究對于正確認識病態數據、科學處理病態數據具有一定的輔助決策作用。在該文研究的基礎上,需要進一步說明的是:

(1)病態數據是相對主流數據而言的,是質量數據中不可避免的數據類型。對質量數據中出現的病態數據要正確對待,正確分析其來源、特點,然后決定對其取舍或者修正。較為重要的是要通過一定的管理技術避免病態數據的出現,抑制其發生。

(2)對于病態數據的管理分析,該文僅給出了部分研究成果,隨著研究的深入和統計理論的發展,各應用單位可根據本身的特點,歸納總結實用的病態數據管理技術。

參考文獻

[1] Kenneth Cukier,Viktor Mayer-Sch?nberger,著.大數據時代:生活、工作與思維的大變革[M].周濤,盛楊燕,譯.浙江人民出版社,2012.

[2] Rao D.,Gudivada V.N.,Raghavan V.V.Data quality issues in big data[C]//IEEE International Conference on Big Data.Santa Clara:IEEE.2015.

[3] Becker D.,McMullen B.,King T.D.Big data,big data quality problem[C]//IEEE International Conference on Big Data.Santa Clara:IEEE.2015.

[4] Immonen A.,Paakkonen P.,Ovaska E.Evaluating the Quality of Social Media Data in Big Data Architecture[J].IEEE Access,2015,3(10):2028-2043.

[5] 宗威,吳鋒.大數據時代下數據質量的挑戰[J].西安交通大學學報:社會科學版,2013,33(5):38-43.

[6] 程平,孫凌云.大數據、云會計時代考慮數據質量特征的企業投資決策[J].會計之友,2015(12):134-140.

[7] 黃冬梅,陳括,王振華,等.基于塊嵌套循環的海洋大數據質量檢驗方案選擇算法[J].計算機工程與科學, 2013,35(10):51-57.

[8] Huang Zhiwei,Gao Tian,Zhang Huaving,et al.Transient power quality assessment based on big data analysis[C]//2014 China International Conference on Electricity Distribution (CICED).Shenzhen IEEE.2014.

[9] Liu Fei,Zhang Xi,Jia Yan.An efficient sampling algorithm for uncertain abnormal data detection in biomedical image processing and disease prediction[J].Biomedical Materials and Engineering,2015,26(s1):249-255.

[10] Joon-Hong Seok,Jeong-Jung Kim,Joon-Yong Lee,et al.Abnormal data refinement and error percentage correction methods for effective short-term hourly water demand forecasting[J].International Journal of Control,Automation and Systems,2014,12(1256):1245.

[11] 王晶.電力系統異常數據檢測辨識方法綜述[J].電力與能源,2015,36(6):813-817.

[12] 費歡,李光輝.基于K-means聚類的WSN異常數據檢測算法[J].計算機工程,2015,41(7):124-128.

猜你喜歡
質量管理大數據
淺談智能建筑電氣施工管理及質量控制
大數據環境下基于移動客戶端的傳統媒體轉型思路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合