?

自然鄰域支持下的空間同位模式挖掘方法

2019-02-13 05:50劉文凱劉啟亮蔡建南
測繪學報 2019年1期
關鍵詞:鄰域實例閾值

劉文凱,劉啟亮,蔡建南

1. 中南大學有色金屬成礦預測與地質環境監測教育部重點實驗室,湖南 長沙 410083; 2. 中南大學地理信息系,湖南 長沙 410083

現實世界中的地理現象經常表現為伴生關系,例如:生態領域中植被之間的共生關系(如濕地植物群落間生態位的重疊[1])、犯罪地理學中地理環境(或設施)與犯罪間的誘導關系(如酒精售賣點附近高犯罪率問題[2])以及城市規劃中不同類型興趣點之間在產業布局上的依賴關系(如學校與便利店的聚集關系[3])。此類頻繁發生在鄰近位置的事件集合通常被定義為空間同位模式(本文特指事件間均滿足互鄰近關系的團型同位模式[4])。發現空間同位模式對于深入理解空間要素間的交互關系具有重要意義,已經廣泛應用于生態學、犯罪學、城市規劃、交通運輸等諸多領域。

當前空間同位模式挖掘方法主要包含兩個步驟[5]:①構建空間要素實例的空間鄰域關系,生成候選空間同位模式實例;②計算候選空間同位模式的頻繁度(如參與指數[5]),并提取頻繁度超過給定閾值的空間同位模式及其分布區域。針對步驟①,當前研究主要采用基于距離的策略(給定距離閾值約束下,一個空間要素實例的鄰域定義為與其距離小于該閾值的其他空間要素實例的集合)構建鄰域關系,并采用實例連接的方法生成候選模式實例。為了提高候選模式實例生成的效率,一些改進實例連接的方法被相繼提出,如部分連接[6]、無連接[7]及基于密度的方法[8]等。針對步驟②,一些學者相繼針對同位模式頻繁度的度量、閾值定義及局部同位模式識別開展研究。例如,為了量化空間同位模式實例間距離對頻繁度度量的影響,文獻[3]在參與指數基礎上考慮距離衰減定義了加權參與指數;為了緩解參與指數閾值設定的困難,文獻[9]采取參與指數進行排序的方法選取N個最顯著的同位模式;文獻[10]假定所有同位模式參與指數服從正態分布,提出一種用迭代方法逐步挖掘相對顯著的空間同位模式來緩解距離閾值和參與指數設定的困難;文獻[11—12]借助統計檢驗的方法挖掘顯著同位模式,降低了參與指數閾值設定的主觀性。為了識別局部空間同位模式,一些基于區域劃分[13-15]與實例聚類分析[16-17]的方法被相繼提出。從空間同位模式的挖掘流程可以發現,空間要素實例的鄰域關系構建起到了基礎性的作用,尤其當空間要素的實例分布不均勻時,鄰域關系構建的準確性對挖掘結果具有直接影響:

(1) 錯誤的鄰域關系會影響實例生成的準確性(過多或過少的構建實例),進而影響空間同位模式頻繁度度量的準確性,最終導致關聯模式的誤報或遺漏。以圖1(a)為例,一個包含4類空間要素的示例數據集中包含多個密度不一的區域,數據集中預設了一個全局同位模式{A,B,C}和一個局部同位模式{A,B,C,D}(位于區域I)。如圖1(b)所示,當距離閾值過小時,低密度區域實例無法生成,導致參與指數偏小({A,B,C}無法發現);當距離閾值過大時,高密度區域生成過多錯誤實例,導致參與指數過高估計({A,B,C,D}錯誤識別為全局模式)。

(2) 當前局部同位模式提取大多采用對候選實例聚類的策略識別同位模式的分布區域[16],鄰域關系構建不準確也會造成局部關聯模式的誤報或遺漏。例如,采用文獻[16—17]方法發現圖1(a)中的局部關聯模式時,采用距離閾值過小時,低密度區域的實例無法生成,局部模式{A,B,C,D}無法發現或誤報。

為了提高空間要素實例鄰域關系構建的準確性,一些學者也開展了一些探索性的工作:

(1) 基于空間統計的方法,即利用某種空間統計的方法(如空間自相關)估計一個全局最優的距離閾值[9]。然而,該方法雖然避免了用戶對距離閾值的設定,但是全局統一的距離閾值無法在空間要素分布不均勻時建立正確的空間鄰域關系。采用文獻[9]中基于空間自相關方法對示例數據集估計的距離閾值為13.02,在此距離閾值下,區域I中的實例無法生成,計算模式{A,B,C}參與指數為0.4(低估),同位模式{A,B,C,D}參與指數為0(遺漏)。

(2) 基于k近鄰的空間鄰域關系構建策略,即一個空間要素實例的鄰域是與其最鄰近的k個其他類型空間要素實例的集合[10,13,18]。然而,k值的變化仍然對同位模式挖掘結果有較大影響,隨著k值增大,錯誤的實例增多(包含了噪聲點),導致參與指數被過高估計(圖1(c))。

(3) 基于鄰近圖的空間鄰域關系構建策略,即在所有要素實例構建的鄰近圖中(如Delaunay三角網),一個空間要素實例的鄰域是在鄰近圖中與其存在鄰近關系的其他空間要素實例集合[19-20]?;卩徑鼒D所構建的空間鄰域關系往往受限于所選鄰域圖的特性,例如,空間同位模式中要素實例間需要滿足互鄰近關系,而基于Delaunay三角網所構建的空間鄰域關系中互為鄰域的空間要素實例最多為3個,導致了無法挖掘長度超過3的同位模式[19]。此外,鄰近圖的邊界誤差也容易導致不同密度區域的實例存在錯誤的鄰域關系。

圖1 示例數據集Fig.1 Simulated data set

為了克服鄰域關系構建對空間同位模式挖掘準確性和完整性的影響,本文依據數據本身的分布特征自適應地構建空間要素實例間的鄰域關系(即自然鄰域),并在自然鄰域支持下自適應發現由整體到局部的空間同位模式,降低人為設置鄰域參數(如鄰域距離閾值、鄰居數目)與數據實際分布不符合而帶來的挖掘誤差。

1 研究策略

空間同位模式本質上來源于地理現象間自相關結構的互相誘導關系(induced spatial autocorrelation),即某個(些)空間要素的自相關結構是受到其他具有自相關結構要素的影響而產生[21]??臻g同位模式的挖掘結果可能有兩種形式[22]:①空間要素的空間自相關是由其他空間要素的自相關結構誘發的;②空間要素的空間自相關是由某些未知要素誘導產生的。本文對這兩種形式的同位模式不進行區分。采用頻繁度度量指標(如參與指數)探測同位模式時,隨機分布的空間要素之間或隨機分布與聚集分布要素之間的頻繁度也會較高,但是這類由于隨機分布要素導致的同位模式并沒有地理含義,通常被視為虛假的同位模式[12,23]?;谏鲜龇治?,在發現同位模式時首先需要排除隨機分布空間要素的干擾,本文采用最鄰近指數法[24]識別隨機分布的空間要素。

進而,僅針對呈現聚集分布的空間要素挖掘同位模式,分別針對每種候選同位模式建立鄰域關系。本文認為空間要素實例間自然的鄰近關系需要滿足3個基本條件:

(1) 距離鄰近性約束:隨著兩個空間要素實例間的距離增大,兩者之間關聯緊密性隨之降低。因此空間要素實例與其鄰域間距離應小于一定范圍。

(2) 密度一致性約束:在空間鄰域內空間要素實例的密度應盡量保持一致,密度的顯著變化預示鄰域關系的破壞。

(3) 關系緊密性約束:由社交網絡中好友關系的親密性度量可知,兩個關系緊密的空間鄰居需要互為鄰居且應包含公共鄰居。

基于上述分析,自然鄰域可以定義為依據空間要素局部分布特征(即距離鄰近性、密度一致性與關系緊密性)而構建的空間要素間的鄰近關系。自然鄰域旨在自適應地構建要素實例間的鄰近關系,避免在密度較稀疏區域同位模式實例構建的遺漏,以及在密度較高區域同位模式實例構建的冗余,且降低人為設置鄰域參數閾值對模式實例生成的干擾,保證同位模式實例生成的準確性。

針對每種候選同位模式,采用自然鄰域構建其模式實例,并采用頻繁度度量指標(如參與指數指標)對候選模式進行頻繁性度量。對于全局不頻繁的候選模式,可以進一步借助鄰近圖(如Delaunay三角網)描述其模式實例間的連通性,發現局部區域的同位模式。

基于上述研究策略,下面將對空間自然鄰域構建與同位模式分布區域自適應提取方法進行具體闡述。

2 空間自然鄰域構建

依據空間要素實例間自然鄰近關系評價的3條原則,本文首先提出了自然鄰域的構建方法。

2.1 基于Delaunay三角網的距離鄰近性約束估計

如上文所述,每一個空間要素實例存在一定的鄰域范圍,即鄰域上限距離,處于該距離范圍內的其他空間要素實例構成了當前空間要素實例的潛在鄰域。本文首先借助Delaunay三角網對鄰域距離上限進行估計。Delaunay三角網可以一定程度上反映要素實例間的鄰近關系,其中一些過長的邊(如圖2(a)所示,不同密度區域間的邊,如實例15和51;噪聲實例之間的邊,如實例5和90)通常預示著鄰近關系的破壞,借助邊長的統計規律識別的長邊閾值可以用于估計鄰域上限距離。給定包含n個空間要素實例的空間數據集SDB,DT表示依據n個空間要素實例的空間位置所構建的Delaunay三角網的邊長集合,針對任一的空間要素實例p,其鄰域上限距離估計值limitp表達如下

limitp=mean(DT)+SD(DT)

(1)

式中,mean(DT)表示邊長集合DT的均值;SD(DT)表示邊長集合DT的標準差。在鄰域上限距離約束下,進一步給出候選鄰域的定義:

定義1候選鄰域:針對每個空間要素的實例p,在其鄰域上限距離內的所有要素實例依據與p的距離大小升序排列,定義為p的候選鄰域集合,記為CN(p)。

圖2 距離鄰近性約束示例Fig.2 Spatial proximity constraint

要素實例p的候選鄰域表示了其空間鄰域的最大可能范圍,對候選鄰域內實例按照與p的距離進行排序可以對鄰近關系的緊密度進行度量,也決定了后續對候選鄰域集合進行篩選的先后次序,即先從與p距離近的要素實例進行搜索。下面以圖1中的示例數據為例,對候選鄰域的構建進行闡述。圖2(a)和(b)中分別展示了示例數據集與區域I構建的Delaunay三角網,鄰域上限距離如圖2(a)中圓所示。實例1(高密度區域)的候選鄰域集合為{25,8,12,2,27,9,26,13,28,4,11,29,14,10,3,62},實例7(低密度區域)的候選鄰域集合為{23,22,20,75,6,17,21,74,16,15,19},實例90(噪聲)的候選鄰域集合為{3,10,14,29,96,28,9,11,2}。

2.2 基于局部密度變異的密度一致性約束

在每個要素實例p的候選鄰域中進一步依據密度一致性原則進行篩選。p依次與其候選鄰域內要素實例CNi(p)連接,并統計落入以p和CNi(p)間距離為直徑的圓中的其他空間要素實例個數ni。若空間要素實例p與候選鄰域集合中實例處于同一密度區域時,則ni應該保持不變或者處于增加的狀態,當ni下降時,則可能預示了兩種情況[25]:

(1) 空間要素實例與其候選鄰域集合內實例處于不同的密度區域,如圖3(a)所示。以實例1和2為直徑的圓中包含3個實例,而以1和27為直徑的圓中包含2個實例,27表示了局部區域密度下降的位置,實例1與實例27處于不同的密度區域;

(2) 空間要素實例與其候選鄰域集合內實例處于同一密度區域但鄰域方向改變,如圖3(b)所示。以實例7和21為直徑的圓中包含2個實例,而以7和74為直徑的圓中包含1個實例,雖然圓中包含實例數目下降,但是實例7與實例74處于同一密度區域,實例21和74表示了實例7在不同方向的鄰域實體。

本文針對上面第1種情況,將位于局部區域密度下降位置的要素實例定義為密度斷點(如實例27為實例1的密度斷點)。為了識別密度一致的鄰域,在此基礎上給出密度鄰域和密度一致鄰域的定義:

定義2密度鄰域:針對每個空間要素的實例p,識別第1個密度斷點前的所有候選鄰域集合中的實例,這些實例構成p的密度鄰域,記為DN(p)。

定義3密度一致鄰域:針對每個空間要素的實例p,將其密度鄰域初始化為密度一致鄰域,遍歷p的斷點,若該斷點pbreak與p的密度鄰域有重疊(DN(pbreak)∩DN(p)≠Φ,則將該斷點與下一斷點之前的候選鄰域加入p的密度一致鄰域中,記為HN(p),否則停止遍歷。

以圖2(a)中實例7和圖2(b)中實例1為例對密度鄰域與密度一致鄰域構建進行闡述。以實例7與CN(7)中各個實例為直徑的圓中落入實例的數目依次為{0,0,0,0,1,1,2,1,2,2,2},密度斷點為{74},則DN(7)={23,22,20,75,6,17,21},實例7與實例74(DN(74)={75,76,77})密度鄰域存在重疊(兩者處于相同密度區域),得HN(7)={23,22,20,75,6,17,21,74,16,15,19}。以實例1與CN(1)中各個要素為直徑的圓中落入實例的數目依次為{0,1,2,3,2,4,4,5,5,7,8,9,8,11,11,1},密度斷點為{27,14,62},得DN(1)={25,8,12,2},由于實例1與實例27(DN(27)={26,13,4,28,11})密度鄰域不重疊(兩者處于不同的密度區域),得HN(1)={25,8,12,2}。

2.3 基于共享鄰近的關系緊密性約束

在密度一致鄰域內,進一步對要素實例間的關系緊密性進行約束。本文受到社交網絡(如微信)中好友關系的親密度評價的啟發對要素實例間的關系緊密度進行度量。在社交網絡中兩個關系緊密的用戶需要同時滿足兩個條件:①兩人互為好友;②兩人具有公共好友。據此,本文定義了判斷兩個要素實例間關系緊密性的兩個約束條件;

(1) 互鄰域約束條件:兩個要素實例同時包含在二者的密度擴展鄰域內;

(2) 共享鄰居約束條件:兩個要素實例的密度擴展鄰域有重疊。

在上述兩個約束條件的約束下,進一步給出自然鄰域的定義:

定義4自然鄰域:針對每個空間要素的實例p,遍歷其密度一致鄰域中的要素實例qi,若p與qi互為密度一致鄰域且擁有共同密度一致鄰域(p∈HN(qi),qi∈HN(p)且HN(p)∩HN(qi)≠Φ),則將qi加入p的自然鄰域中,記為NN(p),否則停止遍歷。

以圖2(a)中實例7、實例90和圖2(b)中實例1為例對自然鄰域的構建進行闡述??臻g要素實例1與HN(1)中要素均滿足互鄰域約束條件和共享鄰居約束條件,得NN(1)={25,8,12,2};實例7與實例74(HN(74)={75,76,77})不滿足互鄰域約束條件,得NN(7)={23,22,20,75,6,17,21};實例90與實例3(HN(90)={3,10,14,29},HN(3)={10,14,29,9,2})不滿足互鄰域約束條件,得NN(90)=Φ,即實例90為噪聲。

3 空間同位模式分布區域自適應提取

要素實例間的自然鄰域構建后,分別針對每種候選模式生成其實例,采用參與指數[5]對該模式的頻繁度進行度量:

空間同位模式參與指數:對于長度為k的候選空間同位模式C={f1,f2,…,fk},其參與指數定義如下

(2)

式中,|πfi(table_instance(C))|表示參與同位模式C的要素fi的實例數目;|instance(fi)|表示要素fi實例的數目。

若候選同位模式在整個研究區域內的參與指數大于給定閾值,則將該模式識別為全局同位模式?,F有研究認為有效的同位模式其參與指數一般應大于0.5,因此本文將參與指數閾值設為0.5(文獻[12])。若候選同位模式參與指數小于0.5(即在全局不顯著),進一步借助模式實例間Delaunay三角網的連通性對候選同位模式的局部分布區域進行探測:

(1) 針對候選同位模式中所有要素實例構建Delaunay三角網,三角網的邊可以區分為兩種類型:連接候選模式要素實例的邊EI(如圖4(a)所示)與連接候選模式實例之間邊Eo(如圖4(b)邊1所示)。從每個候選模式實例出發,若兩個候選模式實例間所有邊長均小于統計約束條件SC,則將兩個候選模式實例進行連通,直到每個候選模式實例均與滿足約束條件候選模式實例連通

SC=mean(Eo)+SD(Eo)

(3)

式中,mean(Eo)表示候選模式實例之間邊長平均值;SD(Eo)表示候選模式實例之間邊長的標準差。

(2) 在每個候選模式實例連通后構成的子圖中,借助Delaunay三角網中三角形邊長共享特性搜索候選同位模式的分布區域邊界。若Delaunay三角網中邊僅存在于一個唯一的三角形,則該邊被識別為邊界邊,通過連接具有公共頂點的邊界邊生成候選同位模式的分布區域邊界,如圖4(c)所示。

(3) 在每個候選模式分布區域內,若該候選模式的參與指數超過給定閾值且模式實例規模足夠多,則將該候選模式識別為一個局部的同位模式。候選模式的實例規模度量指數SI(C)定義如下

(4)

式中,|regional_instance(C)|表示C在相應局部區域中的實例個數;|global_instance(C)|表示C在整個研究區域中的實例個數。

圖4 同位模式分布區域提取Fig.4 Discovery of localities of co-location pattern

4 試驗分析

4.1 模擬試驗與比較

本文首先設計了一組模擬試驗對本文方法的有效性進行驗證,同時與當前3種空間同位模式RCMNG[16]、RCMKNN[13]和多層次方法[17]進行比較。本文方法需要設置參與指數閾值與實例規模度量指數閾值兩個參數。依據現有研究建議,本文將參與指數閾值設為0.5(文獻[12]),參考空間聚類領域對簇規模的閾值設定,本文將實例規模度量指數閾值設為0.02(文獻[26])。依據文獻[16]的試驗分析,RCMNG方法中局部參與指數閾值設為0.07,鄰域距離根據文獻[9]中的L函數進行估計;依據文獻[13]建議,RCMKNN方法中距離變化系數閾值設置為0.6,α參數設置為0.01;依據文獻[17]建議,多層次方法距離閾值也采用L函數估計。模擬數據生成步驟如下所示:

(1) 將整個研究區域(400×400)均勻地劃分為4個100×100的子區域,在每個區域隨機生成數目為nseed的種子點,如圖5(a)所示(為了方便說明,僅用一個區域說明模擬數據生成過程)。

(2) 每個區域內,以每個種子點為圓心,以半徑rseed畫圓,在每個圓內生成數目為ninstance的獨立分布的實例點并移除種子點,如圖5(b)所示。

(3) 以每個實例點為圓心,以給定半徑rinstance畫圓,在每個圓內隨機生成數目為nfeature的同位模式要素實例并移除實例點,如圖5(c)所示。

(4) 在整個研究區域內生成數目為nnoise的噪聲點(分布隨機且空間要素類型隨機),如圖5(d)所示。

由上述模擬數據產生過程可以發現,nseed控制同位模式在某個子區域分布區域的數目,rseed控制同位模式分布區域的大小,通過修改rseed和ninstance的值,可以控制不同分布區域要素實例的密度。模擬數據均包含一個全局同位模式(分布于4個區域)和一個局部同位模式(分布于區域2和區域3)。首先將nseed和ninstance固定(區域1:nseed=4,ninstance=10;區域2:nseed=2,ninstance=10;區域3:nseed=2,ninstance=10;區域4:nseed=5,ninstance=10)。進一步分別改變rseed、nfeature和nnoise探索要素實例密度變化、同位模式長度變化及噪聲數目變化對本文及對比方法影響。若挖掘結果區域和設定區域相交區域占挖掘結果區域和設定區域面積均大于50%以上時,本文認為挖掘結果是正確的。本文采用召回率和精確率作為評定算法挖掘結果的定量標準。

圖5 模擬數據生成Fig.5 Experimental setup of synthetic data sets

4.1.1 要素實例密度變化對挖掘結果的影響

為了評估要素實例密度變化對挖掘結果的影響,首先將nnoise(50)和nfeature(區域1和區域4:nfeature=2,區域2、3:nfeature=3)取值固定,進而4個區域的rseed隨機選擇10次(區域1和4的rseed取值范圍為10~30,區域2和3的rseed取值范圍為20~50)。本文方法與對比方法的試驗結果如圖6(a)—(c)所示。本文方法可以有效發現整體與局部的同位模式,而其他幾種方法的挖掘結果受要素實例密度變化的干擾較大:RCMNG方法計算的局部參與指數是基于局部子圖中要素實例個數與全局實例個數的比值,低密度區域或范圍較小的局部同位模式的要素實例數目相對較少,導致局部參與指數計算值普遍過小,容易出現遺漏;RCMKNN方法中當要素密度變化時,鄰居數目k估計的誤差極易導致模式實例生成的錯誤,進而造成挖掘結果經常出現誤判和漏判的情況;多層次方法采用全局統一的距離閾值(估計的距離為30~40,遠大于本文預設的閾值(2~5)),在生成候選模式實例時存在較多錯誤,故挖掘結果經常出現誤判。

4.1.2 空間同位模式長度對挖掘結果的影響

為了在要素實例分布不均勻的前提下評估同位模式長度對挖掘結果的影響,首先將nnoise(50)、rseed(區域1和2:rseed=25,區域3:rseed=40,區域4:rseed=20)和rinstance(區域1和2:rinstance=5,區域3:rinstance=8,區域4:rinstance=4)取值固定,進而改變nfeature的取值進行試驗。針對每個nfeature隨機生成10組數據(共生成50組隨機數據),挖掘結果定量評價指標取平均值。試驗結果如圖6(d)—(f)所示:本文方法的挖掘結果不受模式長度的影響,均可準確識別預設的同位模式;RCMKNN方法的挖掘結果質量在不同模式長度情況下波動較大,其主要原因在于鄰居數目k值的估計策略比較敏感;RCMNG與多層次方法的挖掘結果質量在不同模式長度情況下波動較小,但是RCMNG方法由于局部參與指數估計偏低導致的漏判問題以及多層次方法由于候選模式實例生成誤差導致的誤判問題總是存在。

4.1.3 噪聲數量對挖掘結果的影響

為了在要素實例分布不均勻的前提下評估噪聲數量對挖掘結果的影響,首先將nfeature(區域1和4:nfeature=2,區域2和3:nfeature=3)、rseed(區域1和2:rseed=25,區域3:rseed=40,區域4:rseed=20)、rinstance(區域1和2:rinstance=5,區域3:rinstance=8,區域4:rinstance=4)取值固定,進而改變nnoise的取值進行試驗。針對每個nnoise隨機生成10組數據(共生成50組隨機數據),挖掘結果定量評價指標取平均值。試驗結果如圖6(g)—(h)所示:本文方法對噪聲不敏感;RCMKNN方法對噪聲最為敏感,主要原因還是在于鄰居數目k值估計的不穩定;RCMNG方法和多層次方法在不同噪聲情況下的表現相對穩定,但是結果漏判與誤判問題依然存在。

圖6 模擬試驗對比Fig.6 Comparison of three methods

通過上述試驗可以發現:自然鄰域方法在不同密度、不同模式長度及噪聲數目情況下均可以可靠地構建空間要素實例間鄰近關系,從而保證了同位模式實例生成的準確性,進而可以有效避免同位模式挖掘結果的誤判與遺漏問題。

4.2 犯罪同位關聯模式挖掘

進一步采用本文方法挖掘犯罪事件、城市興趣點數據集中的空間同位模式。犯罪地理學研究表明,犯罪事件在空間上具有互相誘導關系而且受到城市地理環境的影響,發現犯罪事件間及犯罪與城市興趣點間的同位模式對于犯罪預防與犯罪管控具有重要價值[27]。本文以美國波特蘭市作為研究區域,收集了2014年1—3月傷害罪(740)、搶劫罪(188)和盜竊罪(7143)3種犯罪事件以及餐飲(食品、咖啡和餐館,共715條記錄)、娛樂設施(夜店和酒吧,共131條記錄)、車站(公交站點與車站,共1764條記錄)和購物場所(購物中心、商店、便利店和雜貨店,共715條記錄)4類興趣點。

本文方法挖掘結果共包含9個全局同位模式和36個局部同位模式,部分挖掘結果如表(1)所示。分析挖掘結果,可以發現:

(1) 犯罪與興趣點、不同犯罪類型之間均存在同位關系,充分說明了犯罪間的誘導關系與環境設施對犯罪事件的影響,可以為犯罪管控提供針對性指導意見。

(2) 某些同位模式在整個波特蘭市都是頻繁出現的(如{餐飲設施,傷害罪}、{娛樂設施,搶劫罪}和{餐飲設施,盜竊罪}),這表明這些模式是一種普遍模式,而某些同位模式僅發生在局部區域(如圖7所示局部同位模式),這表明同位模式分布具有異質性的特點,本文的挖掘結果可以為差異性犯罪防控提供參考。

以{娛樂設施,傷害罪}和{車站,傷害罪}兩個局部同位模式為例,對本文挖掘結果進行分析。傷害罪分布于整個研究區域且分布不均勻(篇幅所限未進行展示),在研究區域中部的市中心最集中,在研究區域西部最稀疏。娛樂設施興趣點主要分布在研究區域中部和東南部,車站主要分布在研究區域西部、中部和東部部分區域(篇幅所限未進行展示)。{娛樂設施,傷害罪}局部同位模式(如圖7(c)所示)主要是由于娛樂設施主要集中于市中心,酒吧、夜店等人員來源復雜、流動較大的興趣點誘發傷害性犯罪機率較大,未來應進一步加強管控;{車站,傷害罪}局部同位模式(如圖7(d)所示)主要出現在車站分布密集的市中心和東部部分區域,這說明人員流動和聚集是誘發傷害性犯罪的重要因素,但是該同位模式并沒有在車站最密集的西部區域出現,這間接說明西部區域的犯罪防控是比較有效的。

表1 興趣點與犯罪間的同位模式

5 結論與展望

本文提出了一種基于自然鄰域的空間同位模式自適應挖掘方法,從距離鄰近性、密度變化一致性、關系緊密性3個角度建??臻g數據的局部分布特征,能夠在空間要素實例分布不均情況下準確構建要素實例間鄰近關系(即自然鄰域),并借助要素實例Delaunay三角網的連通性自適應地發現局部的同位模式。通過模擬試驗與實例驗證發現:本文方法不需要人為設置參數構建要素實例間的鄰近關系;與當前幾種代表性方法比較,本文方法在要素實例分布不均勻的復雜情況下能更準確、穩定地發現全局與局部的同位模式,同時挖掘得到的犯罪與興趣點同位模式分布區域對于犯罪預防與管控具有一定的指導價值。

進一步研究工作將主要集中在3個方面:①本文方法的復雜度約為2O(n2)(創建自然鄰域和構建候選同位模式實例)+O(nlogn)(局部同位模式提取),為了適應在大規模數據集中的應用需求需要進一步研究自然鄰域的高效構建方法;②本文采用經驗閾值的策略設置參與指數閾值在實踐中可能存在一定偏差,未來需要進一步研究參與指數的自適應估計;③當前空間要素的記錄數據多具有時間屬性,需要進一步研究時空自然鄰域的構建方法。

猜你喜歡
鄰域實例閾值
基于混合變鄰域的自動化滴灌輪灌分組算法
稀疏圖平方圖的染色數上界
小波閾值去噪在深小孔鉆削聲發射信號處理中的應用
基于自適應閾值和連通域的隧道裂縫提取
基于鄰域競賽的多目標優化算法
比值遙感蝕變信息提取及閾值確定(插圖)
關于-型鄰域空間
室內表面平均氡析出率閾值探討
完形填空Ⅱ
完形填空Ⅰ
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合