?

一種基于給定標準對數據進行正態修正的算法

2016-07-10 08:07楊毅宇
電子技術與軟件工程 2016年8期
關鍵詞:數據分布

楊毅宇

摘 要:在數據隨機采樣與統計的過程中,根據實際情況可能需要對數據分布進行正態化調整。本文研究的內容是在給定平均值和標準差的前提下,將樣本數據的分布修正為理想正態曲線的一種方法,此方法可適用于數據信息偏離正態分布的各種情況,比如土壤元素、年降水量等。

【關鍵詞】數據分布 給定標準 正態修正

1 引言

如果數據的產生過程受到獨立隨機因素的影響,那么數據的分布規律應當符合正態分布,然而在實際的測量與評價過程中,由于人為因素的影響,最終采集的數據可能偏離了正態分布,這時就需要對數據進行正態修正,以使其恢復本來的樣子。

以往采用的方法之一是先計算出數據的平均值和標準差,據此構造出正態分布函數,并按照事先定義的劃分規則,計算出各個劃分上期望達到的分布頻數,然后從較高劃分開始,將每個劃分的期望頻數a與實際頻數b對比,如果a大于b,則從下一個劃分中將最高值“拉”到本劃分中;如果a小于b,則將本劃分中的最高值“推”到上一個高劃分中,這兩種操作都一直進行到各個劃分達到期望頻數為止。這種方法在一般情況下,處理以后的數據結果可以很接近期望的正態曲線,但是“推”或“拉”的操作,都具有向較高劃分段躍進的趨勢。

本文介紹的修正方法根據給定的平均值和標準差構造出正態分布曲線,并計算各個劃分上的期望頻數,然后根據各個期望頻數值,從原始分布中按排名順序提出相應數值,并按原始分布比例映射到相應區間上。本文所討論的是進行正態修正的一種方法,可以應用在諸如土壤元素、年降水量等數據方面,在數據信息偏離了正態分布性,需要進行修正時,才是本文所討論的范疇。

2 基于給定標準進行正態修正的算法

2.1 計算正態分布下的期望頻數

設數據樣本為,即共有n個數值,且這些數值按照從高到低有序排列。以5為一個劃分,則0-100可分為20 個劃分,用表示每個劃分上的期望頻數。給定平均值μ和標準差σ,則可得到期望的正態分布曲線:

以此作為概率密度函數在各個數值段區間上求積分,再四舍五入取整,即可得到各個區間的期望頻數:

這一步需要注意的是,由于對各個劃分的計算結果進行了四舍五入,所以最后得到的總頻數可能會產生誤差。比如對20個樣本數據進行計算的實際結果為(1.5,2.6,6.2,5.8,2.4,1.5),四舍五入操作后變為(2,3,6,6,2,2),總和變為了21。對于這樣的情況,本文的處理方式為:如果期望頻數總和少于實際頻數總和,將被減少的誤差頻數加到第二高劃分上;如果期望頻數總和大于實際頻數總和,將被增加的誤差頻數從最低劃分減掉。

2.2 將原始數據按期望頻數映射到各個數值段

從最高劃分開始,依次分別從原始數據中取出個數據,構成各個待調整區間,對應的調整目標區間為,設原始數值為,調整后數值為,則可按照下式進行映射:

另外,為了避免調整后出現前一區間的最小值與后一區間的最大值相同的情況,可以設定一個邊界因子,在計算前進行如下操作:

這樣做相當于擴大了待調整數值的上下邊界,使得調整后的數值能夠全部落在區間邊界的內部。

比如,待調整的數值為(87,89,91,93),目標區間為[90,95],取邊界因子,則,,調整后的數值為(90.63,91.88,93.13,94.38)。

需要注意的是,當取出待調整數值的時候,有可能出現l-1,即待調整區間末端的數值與下一個數值相同的情況,這樣就需要將后面所有相同的數值也一并取到待調整區間中來,同時相應地調整這兩個涉及到的區間的期望頻數。

3 實驗結果分析

采用本文的修正算法,我們在Java開發環境下進行模擬運算,以某門課程的期末考試數據為樣本,樣本容量為51,其原始數據分布如表1所示。觀察直方圖可發現頻數的分布并沒有較好地符合正態分布特性。

我們設定平均值68.8,標準差7.3,對數據數據進行調整后,數據分布如表2所示。觀察直方圖可發現,不僅數據的頻數分布很好地滿足了正態分布的特征,且不及格率也控制在了合理水平以內。

本文提出了一種基于給定標準對非正態分布的數據進行正態修正的算法,以某門不符合正態分布特征的課程考試數據為例,根據給定的合理平均值和標準差,用本文中的算法對數據按劃分進行了調整,調整結果不僅沒有影響原先的排名順序,而且按比例保持了原始數據之間的距離,同時調整后的數據很好地符合了正態分布特性。

參考文獻

[1]鄭月鋒,形春波,黃德才,朱凌.修正數據為正態分布的一種新算法[J].統計與決策,2008,13(142).

[2]趙逸云,黃兆雄,唐智杰,趙軍平.一種簡單、可靠的數值正態化及標準化換算方法[J].云南大學學報,2004,26(163).

作者單位

大理大學教務處 云南省大理白族自治州 671000

猜你喜歡
數據分布
關注數據分布,把握統計量本質
關注數據分布,把握統計量本質
高職學生心理測評一級心理問題數據探析
改進的云存儲系統數據分布策略
自適應稀疏表示引導的無監督降維
數據分布特性對空調系統能耗預測的影響
無線電通信仿真的大數據分布管理
基于相對密度的加權一分類支持向量機
試論大數據之“大”
對數據分布特征測度的分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合