?

出租車OD 序列聚類的城市功能區識別算法研究

2024-03-04 07:48高蘊靈李英冰欒夢杰李欣然
地理空間信息 2024年2期
關鍵詞:工作日功能區出租車

高蘊靈,李英冰*,何 陽,欒夢杰,李欣然

(1.武漢大學 測繪學院,湖北 武漢 430070;2.中鐵第一勘察設計研究院集團有限公司,陜西 西安 710043)

出租車上下車(OD)數據記錄了居民在城市不同區域的流動信息[1],常用于城市交通運行分析、居民出行行為分析[2-5]、城市土地利用識別[1,6]、城市功能區劃分[7]。規整路徑距離(warp path distance,WPD)是利用動態時間規整(dfynamic time warping,DTW)得到的2 條時間序列間的最優匹配路徑距離,能夠衡量OD序列間的相似度,被應用到城市功能區識別的研究中[7]。

本文以交通小區為研究單元,利用出租車OD數據構建各交通小區OD時間序列,通過添加窗口約束的動態時間規整算法(LDTW)來求解不同交通小區序列間的規整路徑距離,結合K中心聚類算法劃分城市功能區,識別在出租車不同流動模式下的城市功能區屬性。

1 研究方法

針對DTW 算法在進行高維序列運算中出現的時間復雜度高和病態對齊的現象,本文通過關鍵時間節點對齊來添加窗口約束,從而求解出租車OD 序列間的規整路徑距離,并用該距離作為K中心聚類算法的規則來進行城市功能區的劃分。由于城市的功能并不總是穩定的,城市區域在不同時段的活動性可能導致其社會功能發生階段性轉變[6],因此區分了出租車在工作日和非工作日不同的全局流動模式,并綜合建筑物分布情況來定量識別功能區屬性。最后對比谷歌地圖和衛星影像來檢驗算法在城市功能識別中的有效性(圖1)。

圖1 算法流程圖

1.1 基于LDTW-K-medoids的功能區劃分

DTW算法通過有界性、連續性、單調性這3個限制條件來實現全局最優匹配,但沒有兼顧序列的局部結構信息,在高維序列計算中容易導致對齊路徑長度過大,出現病態對齊現象[8]。添加窗口約束的動態時間規整算法規定了序列中的數據點參與對齊的次數以及與其對齊數據點的下標范圍,不僅有效減少了病態對齊的現象,還降低了時間成本[9]。因此,本文提出了一種適用于出租車OD 序列的LDTW 算法來求解不同交通小區序列間的規整路徑距離。

針對每個交通小區,區分工作日與非工作日,統計一定時間間隔t小時內各小區的上車乘客數(O)和下車乘客數(D),組合得到m個交通小區的4n維等時間間距OD序列:

式中,n=24/t,ODj為第j個交通小區的等時間間距OD 序列;和分別為第j個交通小區工作日第i個時間段的上車乘客數和下車乘客數;和分別為第j個交通小區非工作日第i個時間段的上車乘客數和下車乘客數。本文取t=1。

在原有限制條件的基礎上,添加如下的窗口約束來限制對齊路徑長度:

2)關鍵時間點(每天的6:00、12:00、18:00)需要對應,即對齊2 條序列的12個節點。

利用上述方法計算m個交通小區的OD 時間序列兩兩之間的規整路徑距離,最終得到m階規整路徑距離矩陣如式(2)。

聚類作為挖掘大規模時空數據的重要手段而被廣泛應用于城市功能分區中[10]。K 中心聚類是圍繞中心點的聚類算法之一,相比于常用的K均值算法,該算法的簇中心點是實際對象而不是均值,因此消除了對孤立點的敏感性。一般K中心聚類過程中用歐氏距離來衡量對象間的距離,但本文旨在通過比較不同小區OD 序列間的相似度來達到功能分區的目的,因此用規整路徑距離來代替歐氏距離進行計算。

聚類結果評價采用輪廓系數。輪廓系數能夠反映聚類結果的內聚度和分離度,越接近1 表示聚類效果越好[11],其計算公式為:

式中,x(i)為對象i到它所在類中其他對象的平均距離;y(i)為對象i到其他類中所有對象的平均距離。

1.2 不同流動模式下的功能屬性識別

出租車上下車事件在不同時段具有不同的分布規律[3],而居民出行的變化導致功能區功能也發生改變[12]。因此結合出租車不同時段的全局流動模式來討論功能區屬性變化。凈流量比是指在一定時期內,其他區域居民凈流入某一區域的比例,能夠反映出租車出行的全局流動模式[2]。其計算公式為式(4)。

式中, NFRij為第j個交通小區在時段i的凈流量比;Oi為時段i內的流入量;Di為時段i內的流出量; NFRij>0 為區域熱度增強, NFRij<0 為區域熱度降低。

城市中分布密集的建筑物體現了城市不同區域的功能性質,構造建筑物面積指數和富集指數能夠定量識別城市功能性質。建筑物面積指數反映了單元中主要分布的建筑物類別,建筑物富集指數反映了該建筑物類別在某單元中的聚集程度。功能區的功能由建筑物面積指數最大的2~3 個類別決定,建筑物富集指數用于對比不同功能區的功能差異。對于聚類得到的每個功能區單元,計算公式分別為:

式中,Fi,c為聚類單元c中建筑物類別i的面積指數;Ri,c為聚類單元c中建筑物類別i的富集指數;ni,c為聚類單元c中建筑物類別i的總面積;Nc為聚類單元c中所有建筑物的總面積;Ni為研究區域建筑物類別i的總面積;N為研究區域所有建筑物的總面積。

2 紐約市實例計算

以紐約市265 個交通小區為研究單元,將LDTW-K-medoids 算法應用于紐約市功能分區,利用工作日和非工作日約50萬條出租車上下客數據將交通小區劃分為5 類;結合建筑物分類數據和出租車不同時段的全局流動模式來識別功能區屬性。

2.1 研究區概況與數據來源

紐約市是美國第一大城市,位于美國紐約州東南部大西洋沿岸。紐約市作為典型發達城市,其城市功能發展完善,且具有豐富的開放數據,適合用于城市功能結構的研究。研究區包括紐約市的265 個交通小區,總面積為785.11 km2,包括布朗克斯區(Bronx)、布魯克林區(Brooklyn)、曼哈頓(Manhattan)、皇后區(Queens)、斯泰登島(Staten Island)5個行政區。

2.1.1 出租車OD數據

出租車OD 數據下載于紐約市出租車與豪華轎車委員會(Taxi & Limousine Commission,TLC)官方網站。對數據集進行預處理,包括數據清洗和興趣信息提取。數據清洗包括刪除上車時間晚于下車時間、行程距離小于零、乘客數量缺失等不合理的數據;興趣信息包括上下車時間、上下車交通小區編號、乘客數。

2.1.2 建筑物分類數據

建筑物分類數據下載于紐約城市規劃部(department of city planning ,DCP)官方網站。DCP 依據建筑物用途將建筑物分為11 個類別:獨棟或雙拼別墅、多戶無電梯住房、多戶電梯住房、商務辦公建筑、商住兩用建筑、工業制造建筑、廣場及戶外游憩、公共設施和機構、公共交通設施、停車設施、閑置地。

2.2 探索性數據分析

出租車區域交互模式如圖2a所示。出租車交互集中在布魯克林區、曼哈頓區、皇后區?;屎髤^和曼哈頓區之間頻繁的流動主要來源于肯尼迪國際機場和拉瓜迪亞機場。

圖2 出租車出行時空特征

出租車出行量年月分布如圖2b 所示。自2010 年以來的12 a 間,出租車出行量呈下降趨勢。2010—2015 年,出租車出行量年間變化較為穩定;2015 年后,受Uber打車加入市場的影響,出租車每年出行量逐漸減少;此外,2020年初受到新冠疫情的影響,出行量急劇下降,而后保持較低水平。

出租車出行量的周內日變化特征和日內時變化特征分別如圖2c和2d所示,統計范圍為2019年3月1日至2019年3月31日。在一周內,周四、周五的出行量較大,周日最少。而在1 d 天內,出行量在1:00~6:00持續下降,在7:00~9:00 快速增長,而后持續緩慢增長,在17:00 時略微下降,在18:00~20:00 出現高峰,夜間行程量仍然較多,到后半夜逐漸回落。

選取2019年3月7日(周四)和2019年3月10日(周日)2 d 共計506 652 條出行記錄,計算每天24 個時間段內各交通小區的凈流量比,可視化如圖3 所示,編號1表示0:00~1:00時段,編號2表示1:00~2:00時段,以此類推。紅色表示小區熱度增強,呈流入狀態;藍色表示小區熱度減弱,呈流出狀態。

圖3 出租車不同時段的全局流動模式

在同一時段內,非工作日交通小區的熱度往往比工作日更低。一些交通小區在工作日的7:00~9:00表現出明顯的高流出狀態,18:00~20:00表現出明顯的高流入狀態,而這一現象在非工作日表現不明顯。推測7:00~9:00為上班高峰期,18:00~20:00為下班高峰期。

2.3 城市功能識別

利用LDTW算法得到265個交通小區OD序列間的規整路徑距離矩陣,將其作為K 中心聚類的距離矩陣,可視化如圖4 所示。聚類數目為2、3、4、5、6、7、8、9 時,對應的輪廓系數分別為0.850、0.733、0.641、0.405、0.215、0.176、0.325、0.130。

圖4 OD序列間的規整路徑距離

隨著聚類數目的增大,輪廓系數呈降低趨勢;而聚類數目過少時,城市功能結構劃分不明確[7]。綜合考慮輪廓系數、聚類合理性以及建筑物分布情況,取k=5 時的聚類結果進行功能識別,可視化如圖5所示。

圖5 城市功能區劃分結果

5 個類別的面積占研究區面積的比例分別為5.58%、2.01%、9.11%、17.07%、66.23%,每個類別中不同用途的建筑物的面積指數和富集指數的計算結果如表1 所示。依據不同流動模式下的功能屬性識別方法進行分析,整體來看,紐約市城市功能結構表現為以曼哈頓為中心的商業-工作-居住-游憩的圈層結構,城市功能完善,交通發達,商業發展好,且生活服務、休閑娛樂等基本設施分布廣泛。

C0 是中心商務區和交通樞紐,該區域交通發達,人流量最大。在工作日,流入集中在上班高峰期,流出集中在下班高峰期,區域表現為工作功能;在非工作日,流入集中在上午10:00 時以后,流出集中在晚上10:00時以后,區域表現為商業功能。

C1是以居住為主、商業為輔的市中心居住區,位于市中心周圍,區域流量僅次于C0,少量分布有大學、醫院、博物館、教堂等建筑。區域中多戶電梯住房和商住兩用建筑的富集指數最高。在工作日,區域表現為居住功能;在非工作日,白天和夜間都有一定的流入,區域表現為商業功能。

C2是工作性質和居住性質的混合功能區,包含大量的工業制造建筑和停車設施。作為工作區和居住區的混合區,該區域熱度一直較高,白天略高于深夜,非工作日的熱度明顯低于工作日。

C3是以居住為主的功能區。區域內住房多為獨棟或雙拼別墅,混合少量的無電梯住房。區域還包含森林公園、體育館等戶外游憩地點。該區域在工作日上班高峰期有大量流出,下班高峰期大量流入,表現出明顯的居住區特性。

C4 是以游憩和居住為主的功能區,靠近城市邊緣。C4 和C3 有相似的人員流動特性,但C4 中與商業、工業相關建筑的富集指數都遠低于C3。區域內商用建筑和交通設施的富集指數最低,住房更偏向于獨棟或雙拼別墅。

3 結果分析與評價

為了檢驗算法應用于城市功能區識別的效果,結合谷歌地圖和衛星影像數據,將人工判別得到的城市功能作為真值,與算法識別結果進行比較,驗證研究得到的紐約市功能分區結果的準確性,對照示例如圖6所示。

圖6 識別結果對照示例

通過屬性信息查詢及目視解譯,建立混淆矩陣定量評價識別精度,混淆矩陣如表2所示。算法的總體精度為83.8%,識別精度高,其中部分C1被錯分到C0,原因可能是C0 和C1 都屬于城市高度發達地區,功能混合度高,人流量大。綜合考慮紐約市高度混合的用地現狀,算法有效識別了紐約市城市功能區。

表2 功能區識別混淆矩陣/%

4 結 語

本文利用出租車OD 數據和建筑分類數據,識別了紐約市的城市功能結構,并結合谷歌地圖和衛星影像數據,驗證了結果的準確性。文章的主要工作與創新為:

1)提出一種添加窗口約束的動態時間規整改進的K中心聚類算法來劃分城市功能區,并區分兩工作日和非工作日,識別了在出租車不同流動模式下的城市功能區主題。

2)將算法應用于紐約市,對50萬條出租車OD數據進行處理,發現了紐約市以曼哈頓為中心的商業-工作-居住-游憩的城市功能圈層結構,算法識別精度高達92.6%。

算法準確性受到原始交通小區劃分的影響,并且除了出租車以外,還有公交、地鐵等諸多交通工具承載了居民日常出行,后續研究可以考慮結合多源數據,細化交通小區地塊,進一步挖掘城市功能分布特征。

猜你喜歡
工作日功能區出租車
乘坐出租車
燒結混合機各功能區的研究與優化
關于休閑的量的問題的考察
憑什么
衡水市不同功能區土壤營養元素的比較
開往春天的深夜出租車
李書福炮轟出租車
水功能區納污能力計算及污染物總量控制
對《資本論》中工作日問題的哲學思考
鄭州局辦理業務全程提速
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合