彭宇翔,劉 濤,文繼芬,李 皓,唐辟如,李懷志
(貴州省人工影響天氣辦公室,貴陽 550081)
目前,風云二號(G 星)衛星提供的云頂溫度、云頂高度、液水路徑、過冷層厚度、光學厚度、有效粒子半徑以及黑體亮溫等7 項衛星反演產品對于冰雹的監測預警業務作用巨大。
近年,部分學者利用衛星通道和反演產品進行了對流云及冰雹個例方面的研究。2004 年,安曉存等開展了云頂亮溫梯度特征分析,初步了解了云頂亮溫跟冰雹的變化關系;2014 年,孫玉穩等學者分析了1987年的5 次冰雹天氣冰雹和降水分布特征;2018 年,朝魯門依托了衛星遙感對冰雹災害的監測方法進行研究;2019 年,倪煜淮等利用了風云二號(D 星)逐小時亮溫分析對冰雹天氣過程進行分析;2020 年,劉小艷等對利用統計方法對貴州降雹個例風云二號(G 星)反演產品時間變化以及特征參數進行研究。而現階段還沒有相關學者基于Logistic 回歸模型,利用風云二號(G 星)衛星的反演產品開展降雹識別技術研究。風云二號(G 星)衛星的反演產品已經用于貴州冰雹天氣監測預警業務中,但針對風云二號(G 星)衛星反演產品是否對降雹事件具有實質性的指導作用,暫無深入研究。因此,本研究主要基于風云二號(G 星)衛星7 項反演產品,建立Logistic 回歸模型,檢驗風云二號(G 星)衛星的反演產品降雹事件的識別作用。
本文以風云二號(G 星)衛星的7 項反演產品作為輸入參數,建立Logistic 回歸降雹識別模型,利用檢驗集數據對模型降雹識別效果進行檢驗,驗證風云二號(G 星)衛星的反演產品對降雹識別的有效性。
風云二號(G 星)是風云2 號(03 批)衛星中的第2顆,2014 年升空,2015 年投入氣象觀測業務。
本研究收集了2020 年3—5 月的11 個冰雹日(共計136 組)的風云二號(G 星)衛星反演產品數據(分別包含了68 組降雹點和未降雹點數據),將每個降雹點降雹時刻前后15 min 內的反演產品作為該點的數據。同時,選取相應數量的未降雹點數據進行對比。該數據集被分為了訓練集跟檢驗集。訓練集為隨機選取的其中116 組數據,用于訓練模型(分別包括58 組降雹點與未降雹點數據),模型檢驗集為剩余20 組數據(分別包括10 組降雹點與未降雹點數據)。
Logistic 回歸模型是一種廣義的線性回歸分析模型,常用于數據挖掘、疾病自動診斷、經濟預測等領域。該模型常用來處理二分類問題。事實上冰雹的識別就是一種二分類問題,即:降雹與未降雹。將是否降雹作為因變量,并假設y=1 表示降雹,y=0 表示未降雹,這樣就將冰雹識別轉換成了“0-1 型”因變量的識別問題。要建立識別模型就需要對模型進行兩個方面的改進:第一,回歸函數應該改用限制在[0,1]區間內的連續曲線,常用的就是Logistic 回歸模型,模型的形式是f(x)=ex/(1+ex);第二,因變量yi本身只取0 或1 兩個離散值,因此可以用yi=1 的概率代替yi本身作為因變量。在冰雹識別Logistic 模型的建立中,用降雹的概率作為模型的因變量,Logistic 冰雹識別模型就可以表示為p(yi)=exp(a0+aijxij)/(1+exp(a0+aijxij)),其中xij為模型輸入變量,i為樣本量,j為自變量數量。這樣p(yi)的取值就被限制在[0,1]區間,p(yi)可理解為yi=1 的概率,當p(yi)∈[0,0.5)時,yi=0,即未降雹;當p(yi)∈[0.5,1]時,yi=1,即降雹?;谠摾碚?,可建立冰雹云識別Logistic 回歸模型,并對冰雹云進行識別。
利用訓練集完成Logistic 回歸模型建立(式(1))
式中:x1為云頂高度、x2為云頂溫度、x3為過冷層厚度、x4為光學厚度、x5為有效粒子半徑、x6為液水路徑、x7為黑體亮溫。
收集2020 年3—5 月11 個冰雹日中的136 組風云二號(G 星)反演數據。其中116 組用于建模,剩余20 組進行檢驗(檢驗結果見表1)。
表1 模型識別檢驗結果
表1 為Logistic 回歸模型冰雹識別的主要結果,包括隨機選取的10 個降雹點和10 個未降雹點,識別結果統計見表2。
表2 模型識別結果統計
識別結果顯示:所建Logistic 回歸模型冰雹識別準確率為85%,其中對10 個降雹點識別準確率為90%,對10 個未降雹點識別準確率為80%。在對冰雹天氣進行識別的業務中,通常會存在一定的漏報率和空報率,其中漏報是發生了降雹事件沒有成功識別,空報是沒發生降雹事件但識別出了降雹,因此,空報和漏報均是錯誤識別的現象,且都無法100%消除。但是,從防災減災的角度,為了減少冰雹等災害造成的損失和危害,對冰雹等災害的識別預警通常采取的是寧愿空報不漏報,為此對模型的漏報率和空報率進行分析(見圖1 和圖2)。
圖1 降雹事件識別準確率與漏報率
圖2 未降雹事件識別準確率與空報率
從圖1 和圖2 可知:Logistic 回歸冰雹識別模型對降雹事件識別準確率為90%,漏報率為10%,對未降雹事件的識別準確率為80%,空報率為20%。因此Logistic 回歸冰雹識別模型的空報率明顯高于漏報率,這也符合冰雹等災害識別業務中的“寧愿空報不漏報”的方式,因此該模型對冰雹識別預警工作有著非常重要的作用。
本文以風云二號(G 星)衛星的7 項反演產品建立Logistic 回歸模型,對貴州2020 年的降雹事件進行識別,這7 項反演產品包括:云頂溫度、云頂高度、液水路徑、過冷層厚度、光學厚度、有效粒子半徑以及黑體亮溫。數據集共136 組數據(包括降雹點和未降雹點數據各68 組)。隨機抽取116 組作為訓練集建立Logistic 回歸冰雹識別模型,利用剩余20 組數據作為模型檢驗集,驗證效果。結果表明,Logistic 回歸冰雹識別模型對降雹的識別準確率為85%(對檢驗集中的10 個降雹點識別準確率為90%,10 個未降雹點識別準確率為80%)。因此,衛星反演產品對降雹識別研究是十分有意義的。