李愛民
數據挖掘技術作為現代統計分析技術之一,在經歷統計中的應用具有很大的優勢,同時由于其自身特點,可以一定程度上提升數據深加工的效率。時代在發展,面對當前這個龐雜繁瑣的經濟統計體系,高效率的先進現代化處理手段的應用已經成為了一種趨勢,這些技術的應用會改善我國當前數據龐雜繁瑣難以“深加工”的現狀。筆者擬將對數據挖掘技術在經濟統計中的應用進行分析。
數學挖掘技術的相關介紹
數據挖掘技術的主要內容。所謂數據挖掘(Datammmg),又譯為資料探勘、數據采礦。它是數據庫知識發現(Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘技術的發展歷程。從20世紀70年代開始,平均的通訊量以每年幾倍的速度增長。一直到1995年,以Web技術為代表的信息發布系統,爆炸式地成長起來,成為目前Internet的主要應用。數據挖掘技術發展的第三個階段是EC(Electronic Commerce),即電子商務階段,IBM、HP和Sun等國際著名的信息技術廠商已經宣布1998年為電子商務年。隨著SaaS(Software as a servlce)軟件服務模式的出現,軟件紛紛登陸互聯網,延長了電子商務鏈條,形成了當下最新的“全程電子商務”概念模式。也因此形成了一門獨立的學科——數據挖掘與客戶關系管理碩士。
數據挖掘技術在經濟統計中應用的優勢
工作效率較高。數據挖掘技術在經濟統計中的應用是存在很大優勢的,由于其自身操作特點,工作效率會較其他技術來說會高出很多。數據挖掘技術作為一種數據深加工技術,其本身是具有很強的目的性的,在實踐活動的應用中,一般會有兩種表現形式,即對積累的經濟統計數據進行高效化處理以及對現有的經濟統計數據進行高效化分析,不論是哪一種,都深深地體現了數據挖掘技術在經濟統計應用中的高效性。
綜合應用性強。數據挖掘技術不同于其他現代數據處理手段,其并不是單一的數據處理技術,而是一個數據處理系統,所以在系統中可以完成操作者對數據的多種分析需求,具有很強的綜合應用性。隨著社會的發展,經濟管理部門對數據的需求量日漸龐大,但由于其所在部門中分工不同,對數據的處理需求也不盡相同。而數據挖掘技術則很好地適應了這一現狀,作為一個數據處理系統,數據挖掘技術剛好可以滿足不同部門的不同數據處理需求,具有很強的綜合應用性。
宏觀數據庫可作為數據挖掘技術應用的支持。數據挖掘技術的實現不同于其他的現代化數據處理技術,因為數據挖掘技術有宏觀數據庫作為支持,在實際應用中與其他現代數據處理技術相比具有很大的優勢。當前經濟管理體系的運轉對數據有著不同的需求,但是當前的數據采集手段仍然具有很大的局限性,這一問題嚴重影響著經濟管理部門做出的決策。而數據挖掘技術有宏觀數據庫作為支持,就能在很大程度上改善當前的數據收集現狀。
數據挖掘技術在經濟統計中的應用方法分析
預處理方法。雖然數據挖掘技術有宏觀數據庫作為支持,卻并不能完全代替數據收集系統的作用,數據挖掘技術仍然是基于數據采集系統的數據深加工手段,數據預處理是主要應用方法之一。數據預處理的主要內容包括——數據的不真實、不準確、不正確、不同經濟體系間數據差別較大等問題。只有將數據挖掘技術應用到預處理后的數據中,才能得到實際應用中所期望的處理結果,滿足不同經濟管理部門間的數據處理需求。
決策樹方法。在通過數據挖掘技術獲得所需的數據處理結果后,對數據的整合和分析就顯得尤為重要。分析數據的輸出作為數據處理的關鍵環節之一,對經濟管理部門做出的決策有著直接的影響。決策樹是常見的分析方法之一,首先需要利用訓練集建立并精簡出一棵決策樹,進而利用構建完畢的決策樹進行數據輸出的分類,同時還需要注意后續的“剪枝”環節。
集成化處理方法。集成化處理方法主要分為模式集成和冗余問題兩方面。由于當前的信息采集主要源于民間或者一線數據處理部門,在后期的數據應用過程中需要對數據和相應模式進行集成化處理,便于后期應用。同時對于處理好的數據也要進行冗余清除,以保證數據庫中的數據量保持在一個相對較低的水平。
本文首先對數據挖掘技術的主要內容和發展歷程進行了介紹,并分析了數據挖掘技術在經濟統計中應用的優勢,主要包括——工作效率較高、綜合應用性強、有宏觀數據庫作為數據挖掘技術應用的支持,并就幾種應用方法(預處理方法、決策樹方法、集成化處理方法)進行了分析。希望可以起到拋磚引玉的作用,在大數據時代中,為我國經濟統計方面的發展做出貢獻。
(作者單位:駐馬店農業學校)endprint