?

海洋環境監測數據集質量控制方法研究*

2015-03-27 15:58向先全路文海楊翼付瑞全
海洋開發與管理 2015年1期
關鍵詞:離群值域監測數據

向先全,路文海,2,楊翼,付瑞全

(1.國家海洋信息中心 天津 300171;2.中國海洋大學 青島 266100)

1 引言

海洋環境監測數據質量直接影響海洋環境管理決策的科學性,準確可靠的監測數據是海洋環境科學研究和海洋綜合管理的依據[1]。如何進行海洋環境監測數據集的質量控制,是海洋環境保護及海洋信息化持續健康發展的關鍵問題。

目前世界上先進的海洋環境觀測系統,如美國海軍和國家海洋與大氣管理局發起的永久的集成海洋觀測系統IOOS,歐盟資助的一項海洋信息標準化項目 MarineXML,以及現在正在全世界建立的ARGO計劃等,都有自身觀測及監測數據的質量控制模式和標準。但這些質控模式和標準是根據各自的觀測內容制訂的,有很強的針對性和限定性。在海洋環境監測質量保證與控制方面,美國環保署(USEPA)、歐盟環境委員會、加拿大漁業與海洋部(DFO)、日本海上保安廳(JCG)等發達國家及組織都對各自的海洋環境監測制定了相關的制度和規范[2-4]。

經過近年來國內海洋環境監測工作的大力推進,國內海洋環境監測制度及質量控制規范制定較多,如:國家海洋局“海洋監測規范第2部分:數據處理與分析質量控制”,國家環境保護部“全國近岸海域環境監測網質量保證和質量控制工作規定(試行)”。但這些監測質量控制及檢驗方法大多是針對實驗室內質量控制的研究,目前,海洋環境監測數據集質量控制尚未有一個系統化的檢驗方法[5]。

本研究以各監測機構上報的海洋環境監測數據為對象,有別于海洋環境監測實驗室內的質量控制,提出了監測數據的一系列質量控制方法。

2 監測數據集質量控制方法

海洋環境監測是為了獲取高質量可靠的監測數據,高質量的監測數據應具有準確性、精密性、代表性、完整性及可比性[6-7]。本研究從以下7個方面著重介紹了海洋環境監測數據集的質量控制方法。

2.1 站位基礎信息一致性檢驗方法

對于海洋環境監測數據的質量控制,首先要保證該條記錄的基礎信息的準確性。通過基礎信息一致性檢驗可解決監測數據記錄查重、基礎信息錯誤等問題。一條監測數據記錄的基礎信息主要包括:監測區域、站位編號、站位經緯度、監測日期等。一般而言,對于同一任務的監測要素,這4個信息點唯一確定一條監測數據記錄;另外,對于生物質量、生物多樣性監測等的海洋環境監測數據,由于每個站位中,每個物種都形成一條記錄,因此,對于含有生物種名信息的監測數據記錄,利用監測區域、站位編號、站位經緯度、監測日期和生物種類共5個信息點來確定該條記錄的唯一性。根據不同的監測任務以及監測要素的數據記錄特點,分以下3種情形對站位的基礎信息進行質控。

(1)站位編號、站位經緯度和監測日期。對于水質、沉積物等的海洋環境監測數據,存在4類問題:① 站位編號相同,經緯度不同;② 站位編號不同,經緯度相同;③ 監測日期相同,站位編號相同;④ 監測日期相同,經緯度相同。

(2)站位編號、站位經緯度、監測日期和物種。對于生物質量、生物多樣性監測等海洋環境監測數據,主要存在4類問題:⑤ 站位編號相同,經緯度不同;⑥ 站位編號不同,經緯度相同;⑦ 監測日期相同,站位編號相同,且物種相同;⑧ 監測日期相同,經緯度相同,且物種相同。

對于站位編號和經緯度不一致的4類情況——①、②、⑤、⑥,屬于位置精度問題。對于監測日期相同的4類情況——③、④、⑦、⑧,判斷兩條記錄的監測參數數值是否完全一致,若完全一致則認為是重復記錄,若不完全一致,可認為是平行樣記錄,但需進一步核實。

2.2 值域一致性檢驗方法

在海洋環境監測中,每個監測參數有其對應的經驗值域范圍,通過值域檢測規則檢驗該參數是否超出值域上下限。判斷監測參數的正常值域范圍可通過參考以下幾種方法進行檢驗。

2.2.1 根據監測參數的理化性質

如鹽度、水溫、p H、透明度、溶解氧濃度等。對于該類指標,其數據值域變化范圍差異不大,且有相關的理論依據作為指導。因此需根據各自參數指標的理化性質及中國近海分布規律給出各自的量級范圍。

2.2.2 參照最低檢出限及最大污染倍數檢驗

利用該監測參數在海洋環境監測中規定的監測方法、監測儀器等,確定該監測參數的最低檢出限,利用最低檢出限指導該參數值域的最小值。根據《GB17378.2海洋監測規范第2部分,數據處理與分析質量控制》中的規定:低于檢出限的測試結果,應報未檢出,但在區域性監測檢出率占樣品頻數的1/2以上(包括1/2)或不足1/2時,未檢出部分可分別取檢出限的1/2和1/4量參加統計運算。因此在進行量級檢驗中,可將值域下限取其檢出限的1/4。

另外,利用該監測參數最大污染等級的倍數,指導該監測參數值域的最大值。重金屬類及有毒污染指標,一般情況下在海水中含量較低,除部分陸源排污口、特殊海洋工程用海等附近海域,不應該出現劣四類污染,因此可將值域上限取其最大污染等級標準的濃度值;化學需氧量、活性磷酸鹽、溶解無機氮、總氮、石油類、硫化物等營養狀況及一般污染指標,在值域檢驗時,可將該部分監測指標量級范圍的閾值上限取最高污染等級的10倍。

2.2.3 參照歷史監測參數范圍檢驗

2.2.4 區域環境污染特征及相關資料文獻檢驗

利用區域環境污染特征以及相關資料文獻,分析特定監測區域內監測參數的污染特征,給出其值域范圍。超過該參數值域范圍的參數值作為可疑值,需聯系監測機構進行溝通解決。

2.3 邏輯一致性檢驗方法

某些監測參數間存在一定的邏輯關系,即監測參數與監測參數間存在某種相關關系,有些關系具有一定的規律性,可利用這些相關性和規律性,對監測參數的數據集進行質量控制。參數邏輯一致性檢驗主要有以下幾類方法。

(1)參數不同形態的關系檢驗。① 總氮(TN)是有機氮(TON)和無機氮(TIN)的總和,因此總氮含量應高于無機氮含量;② 總磷(TP)是水中正磷酸鹽、聚合磷酸鹽、可水解磷酸鹽及有機磷等的總和,因此,總磷含量應高于溶解態磷含量;③ 溶解態氮含量應高于溶解無機氮含量;④ 溶解態磷含量應高于活性磷酸鹽含量;⑤ 鉻的化合物常見價態有三價和六價,兩者可以相互轉化,因此總鉻含量大于六價鉻含量。

(2)同一物質在不同監測參數之間的關系檢驗。①由于一般水體有一部分有機物質不能在CODMn法中被氧化而可在CODCr法中被氧化,因此CODCr含量高于CODMn;② 在BOD5的測定條件下,許多有機物不能被微生物分解,但能為K2Cr2O7分解,因此CODCr含量高于BOD5;③大腸菌群和糞大腸菌群都是表征與糞便污染有關的細菌指數,大腸菌群數應高于糞大腸菌群數。

(3)不同參數內在聯系的檢驗。① 溶解氧在海水中的溶解度,隨溫度的升高而降低,隨鹽度的增加而減少;②p H值與總堿度相關,p H值越大,總堿度越??;③ 溶解氧含量正常的海水中,硝酸鹽含量一般應高于亞硝酸鹽含量。

在監測參數邏輯一致性檢驗中常見的問題主要是:無機氮、溶解態氮、總氮以及活性磷酸鹽、溶解態磷、總磷之間的關系錯誤。根據對這些監測參數的分析方法的研究發現,除了銨鹽由于實驗室環境污染容易對分析產生正偏差以外,其余參數在分析過程中還原過程和氧化過程的化學反應效率一般小于100%,也就是分析結果一般產生負偏差?;谶@個原理,根據國內外相關文獻的研究成果,在對這些有問題的數據進行處理時,遵循以下原則:① 溶解態氮或總氮含量低于溶解無機氮含量的,判斷為溶解態氮或總氮數據有誤;②溶解態磷或總磷含量低于活性磷酸鹽含量的,判斷為溶解態磷或總磷數據有誤;③ 總氮含量低于溶解態氮含量的,因這兩個要素僅僅是形態差別,分析原理完全一樣,無法判斷哪個要素數據有誤,則同時標注為“可疑”;④ 總磷含量低于溶解態磷含量的,因這兩個要素僅僅是形態差別,分析原理完全一樣,無法判斷哪個要素數據有誤,則同時標注為“可疑”;⑤ 亞硝酸鹽含量明顯高于硝酸鹽含量的,核實溶解氧、p H值等要素,并結合站位所在位置進行具體判別。

圍繞創新人才培養,學者和院校開展了一系列研究和實踐,取得了一系列成果。如劉紅梅的專著《創新培養研究》,以經濟管理類大學生為例,對創新培養的重要性,大學生創新培養的基本理論,影響大學生創新培養的因素,大學生創新培養環境的實證分析及提高大學生創新培養的措施等方面,作了大量的細致的分析和研究。同濟大學編寫的《大學生創新教育的研究與實踐》一書,從理念、建設和實踐等方面,對大學生的創新問題作了大量的研究和實踐,構建了完整的創新人才培養體系。以“挑戰杯”為代表的創新創業類比賽在課堂之外創建了創新培養的“第二課堂”,以賽促練,在一定程度上營造了大學校園創新的氛圍。

2.4 參數值時間分布檢驗方法

某些監測參數在不同監測時間上,存在一定的值域關系。監測參數隨時間序列變化關系比較復雜,需要專家經驗結合監測區域環境特征對歷年同一監測時段監測參數的濃度變化、年際參數濃度的均值變化、年內各監測月份濃度的變化趨勢做出定性判斷,從而判斷監測參數值的合理性。

2.5 參數值空間分布檢驗方法

海洋環境在空間上有較強的分布規律,一般認為,海洋環境近岸污染程度大于遠海。① 懸浮物的含量決定著海水的水色和透明度,大洋中懸浮物含量只有幾微克/L,粒度微小,水色深藍;近岸和河口海區的懸浮物含量達到100 mg/L左右,而且顆粒較粗,水色多呈淺藍、綠以至于黃;② 根據重金屬污染來源和遷移轉化的特點,一般認為重金屬污染物在海洋環境中的分布規律河口及沿岸水域高于外海。

有些調查要素,如沉積環境中的大部分污染要素,僅從數據上很難發現系統性的偏差,特別是偏差后的數據也屬于正常范圍內時。在這種情況下,可檢查要素的平面分布圖,當發現某一區塊要素含量明顯高于或低于周邊時,應追溯原始記錄進行核實,一般可能在結果計算、計量單位與數據匹配、數據轉移等過程發生錯誤。對同時間某一監測值在某海域空間分布上出現指標值突變的情形,可作為可疑數據。

2.6 離群點檢驗方法

正常的監測數據集應具有一定的分布規律。若發現部分數據與正常數據有顯著性差別的數據,此類數據稱為離群數據或異常值。出現此類離群點數據,可能是采樣、實驗室分析、填報等過程中因失誤產出的噪聲數據,亦可能是某些地區、時段內的真實數據[8-9]。離群點檢驗的目的是為了消除噪音或發現潛在的、有價值的海洋環境現象。對于檢測出的離群點可視為可疑數據,其處理方法:分析具體時間具體區域的海洋環境異常情況,聯系地方監測機構進行核實。

2.6.1 繪制散點圖法

散點圖是確定兩組數據屬性之間是否有聯系、模式或趨勢的最有效、最簡便的二維圖形方法。為構造散點圖,每個數據對可視為一個代數坐標對,畫在二維直角坐標系中。對于海洋環境監測參數數據而言,當兩條坐標軸均為監測參數時,可反映兩個監測參數之間是否存在某些相關關系;當其中一條坐標軸為時間或空間屬性時,可快速地反映該監測參數屬性的時間或空間分布規律。通過繪制監測參數數據的散點圖,還可直觀地查找監測參數的離群點數據。

2.6.2 全局離群點檢驗——探索性數據分析檢驗法

由于海洋環境監測參數的理化性質差異,且采樣的空間分布不均勻,時間分布零散,因此很難界定每個樣本是否為獨立樣本,且很難判斷具體到每個監測參數的數據集符合哪個數理統計分布,故不宜采用基于樣本獨立或正態分布假設的數理統計檢驗方法進行離群點檢驗。

探索性數據分析是在一組數據中尋求重要信息的過程,無須借助于先驗的理論或假設,直接探索隱藏在數據中的關系、模式和趨勢等。其特點是對數據來源的總體不作假設,并且假設檢驗也經常被排除在外。探索性數據分析技術中的箱形圖可以清晰地表示數據的分布特征。

2.6.3 空間局部離群點檢驗

空間離群點是與其空間鄰域中其他空間對象的非空間屬性值存在明顯差異的空間對象??臻g離群點挖掘是空間數據挖掘的一個重要分支,其目的是為了消除噪音或發現潛在的、有意義的知識。目前在交通控制、遙感圖像分析、氣象預報和人口統計數據分析等領域,已經有廣泛的應用。

空間離群點的挖掘首先出現在空間統計學中,主要方法可分為圖形檢測和定量檢測兩類。圖形檢測基于空間數據的可視化,在圖形中以醒目方式突出空間離群點,例如變差云圖,其優點是形象直觀,但只適合低緯數據[10-11]。定量檢測是一種精確檢測方法,通過數學計算將空間離群點與其他數據區分開來。根據海洋環境監測數據的空間特性,將海洋環境監測數據分為空間屬性和非空間屬性。監測站位經、緯度為監測數據的空間屬性,監測參數值為非空間屬性。

2.6.4 專家經驗檢驗

利用專家經驗對某些監測參數進行審核確認。如海洋大氣監測分干沉降和濕沉降,若地方

上報時未進行干濕比換算,則很難判斷該部分數據的異常,需結合專家經驗進行檢驗。

2.7 生物種名檢驗方法

對于海洋生物種名的填報,需區分學名和俗名。同時要保證生物種名的學名和中文名的對應。避免填報出現“地中海輻桿藻”和“地中海輻稈藻”“鈍頭盒形藻”和“鈍頭盒型藻”“斯氏小泉蟲戎”和“思氏小泉蟲戎”“光滑河藍蛤”和“光滑河籃蛤”“李氏(魚銜)”和“李氏魚銜”等同一物種填寫多個名稱的問題。通過對海洋生物種中文名和學名規范化命名及編碼,可解決此類問題,同時可解決其屬種的歸類問題。

3 結束語

目前,海洋環境監測數據質量控制尚未有一個系統化的檢驗方法,且絕大多數檢驗方法是針對實驗室內質量控制的研究。本研究從海洋環境監測數據管理的角度,以各監測機構上報的海洋環境監測數據為對象,研究了監測數據集的質量控制方法,包括站位基礎信息一致性檢驗、值域一致性檢驗、邏輯一致性檢驗、參數值時間分布檢驗、空間分布檢驗、離群點檢驗、生物種名檢驗等。這一質控方法體系的運行將會大大提高監測數據質量審查、控制的效率和水平,在我國海洋環境監測業務體系中發揮作用,為海洋環境保護信息化持續健康發展提供高質量的數據保障。

參考文獻

[1]國家海洋局《海洋監測質量保證手冊》委員會.海洋監測質量保證手冊[Z].北京:海洋出版社,2000.

[2]AGGARWAL C.Re-designing Distance Functions and Distance-based applications for high dimensional Data[J].SIGMOD Record Date,2001,30(1):13-18.

[3]ANGIULLI F,BASTA S,PIZZUTI C.Distance-based detection and prediction of outlier[J].IEEETrans.Knowledge and Data Eng,2006,2(18):145-160.

[4]YU Dantong,SHEIKHOLESLAMI G,ZHANG Aidong.Findout:finding outliers invery large datasets[J].Knowledge and Information Systems,2002,4(4):387-412.

[5]許自舟,宋德瑞,趙輝,等.海洋環境監測數據質量計算機控制方法研究[J].海洋環境科學,2009,28(3):320-323.

[6]陳上及,馬繼瑞.海洋數據處理分析方法及其應用[M].北京:海洋出版社,1991.

[7]曹家新.監測數據的審核及結果的分析與判斷[J].四川環境,2002,21(2):19-26.

[8]陸聲鏈.孤立點挖掘及其內涵知識發現的研究與應用[D].南寧:廣西大學,2005.

[9]魏藜,宮學慶,錢衛寧,等.高維空間中的離群點發現[J].軟件學報,2002,13(2):280-290.

[10]薛安榮.空間離群點挖掘技術的研究[D].鎮江:江蘇大學,2008.

[11]薛安榮,鞠時光,何偉華,等.局部離群點挖掘算法研究[J].計算機學報,2007,30(8):1455-1463.

猜你喜歡
離群值域監測數據
一種基于鄰域粒度熵的離群點檢測算法
函數的值域與最值
函數的值域與最值
GSM-R接口監測數據精確地理化方法及應用
值域求解——一個“少”字了得
一種相似度剪枝的離群點檢測算法
破解函數值域的十招
離群數據挖掘在發現房產銷售潛在客戶中的應用
GPS異常監測數據的關聯負選擇分步識別算法
基于小波函數對GNSS監測數據降噪的應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合