?

尋找地震相關區域的詞頻共現分析方法

2014-09-15 00:53胡明生賈志娟吉曉宇
計算機工程與科學 2014年3期
關鍵詞:震區關聯度修正

胡明生,賈志娟,吉曉宇,洪 流

(1.鄭州師范學院軟件研究所,河南 鄭州 450044;2.華中科技大學系統工程研究所,湖北 武漢 430074)

尋找地震相關區域的詞頻共現分析方法

胡明生1,2,賈志娟1,吉曉宇1,洪 流2

(1.鄭州師范學院軟件研究所,河南 鄭州 450044;2.華中科技大學系統工程研究所,湖北 武漢 430074)

地震的地區相關性反映出一定地理位置上地震發生的規律性,尋找中國震區之間的相關性規律可以提前預測地震發生的區域。以中國歷史地震災害數據庫為平臺搭建共現分析模型,首先將地震區域以熟知地名進行劃分,在此基礎上改進原有Salton模型,提出一種基于修正Salton指數的共現分析方法,使用修正后的共現分析方法求解地震區域間的關聯度。實驗表明,該修正Salton模型能更準確地反映關聯度。

地震區域;詞頻共現;Salton指數;相關性

1 引言

在地震預報科學中,專家們經過長期的觀測研究和經驗積累發現,某些地區大范圍的地震活動往往同時趨于平靜,即一定區域上的地震活動有同步漲落現象。在一定距離的兩地區中,某些特定震級以上的顯著地震相伴發生的現象稱為地震的相關現象,也稱為地震的地區相關性[1]。

目前災害預測模型的研究主要集中在歷史災害相關度模型,而將所有時間、空間以及災種等因素都綜合起來的復雜網絡模型的研究就顯得異常艱難?,F有的災害預測模型包含神經網絡模型[2]、基于復雜網絡的時空災害模型[3]以及基于相關度的災害預測模型。

地震的地區相關性反映出一定地理位置上地震發生的規律性。因此,尋找中國震區之間的相關性規律可以提前預測地震發生的區域,這也是一種常用的地震預報方法[4]。傳統的震區相關性分析都是通過一定的自定義模型建立起一套適用于震區相關性模型的算法體系,研究過程繁瑣,表現方式不直接。使用共現分析對中國震區相關性進行研究,能夠使震區之間的相關性表現得一目了然,并且減少地震預測的工作量和周期。本文將中國的震區以省為單位進行劃分,然后以歷史地震災害數據庫為數據來源,建立歷史地震災害地區關聯度模型,通過使用兩種相對關聯度指數Jaccard指數和Salton指數的評估方法,實現中國震區間的關聯性鑒定,對地震災害區域的預測有很大的推進作用。

2 網絡關聯度模型

2.1 網絡模型的建立

首先,假設網絡中有N個對象,各個對象的名稱都是確定且唯一的,開始時并不知道任何信息,讓任意兩個對象之間都以虛線雙向鏈接,如圖1a所示。然后,通過查詢歷史上對象之間發生的聯系,或文獻總結,可以將確定構成有關聯的對象的邊變成實線,如圖1b所示。最后,將不可能同時發生關聯的對象之間的線去掉,無法確定的邊仍保留虛線的狀態,這時地震區域網絡就建立起來了,如圖1c所示。

Figure 1 Establishment of correlation degree network model圖1 關聯度網絡模型的建立

2.2 關聯度的計算

可以使用數學語言對網絡中各個節點之間的關聯度進行定義:

Figure 2 Correlation degree network model圖2 關聯度網絡模型

定義2 (節點的度)網絡中某節點的度,是該節點所關聯的所有邊的權值總和。度數為0的點稱為孤立點。也就是說網絡中沒有任何節點與該節點相關。

例如,圖2中節點A1的度為A1-B1,A1-B2,A1-C2,A1-C1的所有關聯度的總和,即節點A1的度為:

定義3 (關聯矩陣)一個具有v個頂點和e條邊的網G的關聯矩陣Av是v×v階矩陣,每個節點對應矩陣相應的行和列,即:

Av=[aij],1

其中,aij表示頂點vi與頂點vj之間的關聯度:

其中,en表示相應兩個節點的關聯度,所以en≤1恒成立。

例如,圖2網絡的關聯矩陣A7為:

A1B1B2C2D1A2C1

3 地震區域網絡關聯度分析

3.1 構造共現矩陣

本文的數據來源于中國九個朝代的地震記錄數據庫,該數據庫是目前歷史災害記錄數據庫中數據量最大的地震災害數據庫,分為九個朝代:明朝、南北朝、秦漢、清朝、宋朝、隋唐五代、魏晉、先秦、元朝,每部分都記錄相應的地震災害記錄,以及相關地震。主要以某次確定的地震事件為單位來記錄九個朝代的地震情況,記錄中包含地震時間、地震地點以及相關的已發生地震,主題包括具體的日期、地點、記錄內容[5]。

共現矩陣的構造方法:將45個地震區域關鍵詞兩兩作為中國九個朝代的地震記錄數據庫的“相與”檢索內容可以得到一個45×45的對稱方陣,截取方陣的一部分如表1所示。

Table 1 Co-occurrence matrix

3.2 相對關聯度計算

從共現矩陣反映的兩兩共現頻次,其實只是一種表象,因為共現次數同樣要受到兩個詞各自的頻次影響,因此,若要正確反映兩個震區之間地震事件的關聯性大小,就需要將共現矩陣轉化為相關系數矩陣,才能揭示地震區域間地震事件的關聯性結構分布[6]。

本文采用Jaccard指數和Salton指數評價地震區域間的共現率。Jaccard指數的計算公式為:

(1)

其中,Jij表示主題詞i和j的共現率,且0≤Jij≤1,cij表示主題詞i和j的共現頻次,ci表示主題詞i的頻次,cj表示主題詞j的頻次。

Salton指數的計算公式為:

(2)

其中,Sij表示主題詞i和j的共現率,且0≤Sij≤1,cij、ci、cj的含義與Jaccard指數相同。通過上述公式可以得到Salton指數矩陣,見表2,表中的數據是百分數??傮w上看,Salton指數也表征了45個地震區域間地震事件的關聯度。

Table 2 Matrix of Salton index

3.3 修正的Salton指數

本文選取Salton指數作為評價地震區域間關聯度的參數,但是通過Jaccard指數與Salton指數的比較可以看出Salton指數相對較大,因此需要對Salton指數進行修正,使用修正的Salton指數:

(3)

即:

(4)

其中,cSij是修正后的Salton指數,ΔSij是Salton指數的修正因子,Sij是修正前的Salton指數。經過修正后的Salton指數更準確地體現地震區域之間的關聯度,最終的Salton指數部分如表3所示。

Table 3 Matrix of improved Salton index

在相同Jaccard指數的條件下,對修正后的Salton指數散點與原始的Salton指數散點序列進行比較得到的結果如圖3所示。其中,Salton指數序列的值越小,Salton指數與Jaccard指數之間的差距就越小,在表征關聯度的準確性方面,Salton指數偏高而敏感,Jaccard指數偏低而穩定,圖中修正后的Salton指數明顯較原有的Salton指數偏低,能更準確地表征地震區域間的相關性。

Figure 3 Comparison between improved Salton index and orginal Salton index圖3 修正Salton指數與原始Salton指數的比較

3.4 仿真結果

Figure 4 Correlation degree network model of earthquake regions based on improved Salton index圖4 基于修正Salton指數的地震區域關聯度模型

Pajek是大型復雜網絡分析工具,是用于研究目前所存在的各種復雜非線性網絡的有力工具[7,8]。本文使用Pajek-2.05建立共現分析網絡節點模型,模型中的每一個節點代表一個地震區域關鍵詞,節點之間的向量標識出地震區域間關聯度,也就是修正的Salton指數,其中節點所代表的地震區域與實際的地理位置無關,最后得出的結果如圖4所示。

4 結束語

本文提出了一種基于相對關聯特征度的地震區域共現分析法,以九個朝代的地震災害數據庫為平臺,構建出以修正的Salton指數為參數的地震區域間關聯度評估模型,改善了共現分析中Salton指數過高的問題,使得Salton指數能更加接近真實關聯度。實驗結果表明,經過修正后的Salton指數與Jaccard指數的差距明顯縮小,使得使用Salton指數表示地震區域之間的關聯度的方法更加可靠,對地震災害的預測以及地理位置對地震的影響方面的研究有一定的推進作用。

[1] Wu Shao-chun, Wu Geng-feng, Wang Wei, et al. A time-sequence similarity matching algorithm for seismological relevant zones[J]. Journal of Software, 2006, 17(2):185-192.(in Chinese)

[2] Buzna L, Peters K, Ammoser H, et al. Efficient response to cascading disaster spreading[J]. Physical Review E, 2007,75(5):1-8.

[3] Lu Yun-zhong, Chen Zhang-li, Wang Bi-quan, et al. Seismology method of earthquake forecasting[M]. Beijing:Earthquake Press, 1985.(in Chinese).

[4] Lin Guo-liang, Wang Jian. Compilation of Chinese historical earthquake data by building up a database system based on seismic intensity points[J]. ACTA Seismologica SINICA, 34(1):118-124.(in Chinese)

[5] Qiu Jian-feng, Xie Juan, Li Wei, et al. Research on correlation and periodicity of moderate-strong earthquake[J]. Computer Engineering. 2011, 37(10):16-22.(in Chinese)

[6] Hu Ming-sheng, Jia Zhi-juan, Dong Xiang-ying, et al. SA-ANT:A historical epidemic classification method based on simulated annealing and ACO[J]. IJACT:International Journal of Advancements in Computing Technology, 2011, 3(11):47-54.

[7] Song Jun-qiang, Gong Xi-ping, Zhang Li-lun, et al. A block orthogonalization procedure for skinny matrices[J]. Computer Engineering & Science, 2010, 32(4):90-92.(in Chinese)

[8] Jia Zhi-juan,Hu Ming-sheng,Liu Si.Historical disaster classification method based on ant colony clustering[J].Journal of Computer Applications,2012,32(4):1030-1032.(in Chinese)

附中文參考文獻:

[1] 吳紹春, 吳耿峰, 王煒,等. 尋找地震相關地區的時間序列相似性匹配算法[J]. 軟件學報, 2006, 17(2):185-192.

[3] 陸遠忠,陳章立,王碧泉,等.地震預報的地震學方法[M].北京:地震出版社,1985.

[4] 林國良, 王健. 基于烈度點的中國歷史地震資料數據庫系統試編制[J]. 地震學報, 2012,34(1):118-124.

[5] 邱劍鋒, 謝娟, 李煒,等. 中強地震的相關性與周期性研究[J]. 計算機工程, 2011, 37(10):16-22.

[7] 宋軍強, 龔西平,張理論,等. 細長矩陣的塊正交化方法[J]. 計算機工程與科學, 2010, 32(4):90-92.

[8] 賈志娟,胡明生,劉思.基于蟻群聚類的歷史災害分級方法[J]. 計算機應用,2012,32(4):1030-1032.

HU Ming-sheng,born in 1973,PhD,associate professor,his research interest includes data mining.

A method of co-occurrence frequency analysis to find out correlations among earthquake areas

HU Ming-sheng1,2,JIA Zhi-juan1,JI Xiao-yu1,HONG Liu2
(1.Institute of Software,Zhengzhou Normal University,Zhengzhou 450044;2.Institute of Systems Engineering,Huazhong University of Science and Technology,Wuhan 430074,China)

Correlations among earthquake areas reflect the regularity of earthquakes happening in certain areas. Looking for correlations among earthquakes can forecast the earthquake areas before the disaster comes. Based on DCHED (Database of Chinese Historical Earthquake Disasters), co-occurrence analysis model is established. Firstly, earthquake areas are divided according to the well-known names. Secondly, the traditional Salton model is improved. And, based on the improved Salton index, a method of co-occurrence analysis is proposed in order to solve problems of correlations among earthquake areas. Finally, experiments are performed to prove that the improved Salton model can reflect correlations among earthquake areas more accurately.

earthquake areas;co-occurrence;Salton index;correlation

2012-08-30;

2013-01-14

國家自然科學基金資助項目(U1204703/G011202);河南省重點科技攻關項目(122102310004);鄭州市創新型科技人才隊伍建設工程(10LJRC190)

1007-130X(2014)03-0536-05

G254.9

A

10.3969/j.issn.1007-130X.2014.03.028

胡明生(1973-),男,河南信陽人,博士,副教授,研究方向為數據挖掘。E-mail:hero_jack@163.com

通信地址:450044 河南省鄭州市鄭州師范學院軟件研究所

Address:Institute of Software,Zhengzhou Normal University,Zhengzhou 450044,Henan,P.R.China

猜你喜歡
震區關聯度修正
流浪衛星
Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
修正這一天
合同解釋、合同補充與合同修正
軟件修正
蘆山震區大田壩崩塌發育特征及其防治措施
基于灰色關聯度的水質評價分析
基于灰關聯度的鋰電池組SOH評價方法研究
基于灰色關聯度的公交線網模糊評價
強震區軟弱地基上承式連拱橋設計總結
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合