?

公交一票制乘客精細化分類研究

2023-05-10 04:33區靜怡趙文婷
關鍵詞:乘車類別公交

李 軍,區靜怡,趙文婷

(中山大學 智能工程學院,廣東 廣州 510006)

0 引 言

隨著移動互聯網時代的多樣化發展,公交出行給乘客帶來了許多便利。大部分采取公交一票制的城市公交的付費方式不再拘泥于現金,而衍生出刷卡、NFC以及二維碼支付等多元化的支付方式。雖然支付方式不同,公交一票制下乘客在乘坐公交工具時仍只需要進行一次付費行為。公交一票制乘車體系僅記錄乘客的上車時間和站點信息,對乘車距離有差異的乘客均采用統一的收費原則。由于該體系缺乏乘客下車時空信息,難以體現不同乘客的完整出行特征,因而給公交一票制下的乘客分類帶來了挑戰。

目前乘客群體分類研究主要分為主觀分類和客觀分類2種基礎類型。不同的乘客伴隨著不同的社會經濟屬性,在主觀分類中,乘客的個人特征、家庭特征以及出行目的等均可作為分類的重要依據[1-3]通過構建特征矩陣得到體現。乘客信息一般可通過問卷調查獲得,但調查群體量大,且存在主觀性強的缺陷。同時,根據乘客刷卡的卡片類型,如學生卡、老年卡和普通卡等,存在預設乘客身份和行為特征的情況,易影響乘客分類客觀性。因此客觀分類可避免過強的主觀性分類,通過客觀因素建立乘客分類模型,如出行強度、時間規律性、空間規律性等。針對出行強度和時間規律性,采用工作日高峰時段出行頻率和時段等特征判斷乘客活動頻率與性質[4-5]。判斷乘客的空間規律性時,一般采用出行距離或任2個站點的地理相近性進行體現,研究認為后者可取1 000 m以內的值作為判斷值[6-7]。在選擇聚類方法上,有研究從時間劃分的角度使用K-means算法將乘客聚類成3類,在結合時間和空間的規律性上,可進行組合劃分,但類別數較少[8],或通過DBSCAN聚類算法[9]與數據挖掘結合對乘客的出行行為進行分類;此外也有研究使用Two-Step聚類算法[10]并將乘客分成5種類型;通過細化出行強度的定義和優化初始聚類中心,有研究使用混合類型的聚類算法[11]將乘客分為4類;其中,各聚類算法各有優劣,K-means算法是一種迭代求解的聚類分析算法,給定預定的分類數,逐步迭代直至最優,可使類別內的平方誤差最小,而類別間差距明顯。DBSCAN聚類算法優點在于不需要定義聚類個數,可識別任意形狀的聚類,對于密度差距較大的簇則難以處理[12];Two-Step聚類算法包括預聚類和聚類,其優點在于能同時處理分類變量和連續變量,使用更為客觀的BIC準則[13],自動選擇最佳簇數量。雖然上述聚類方法能在沒有先驗知識的情況下對研究對象進行分類,但仍存在單次聚類效果籠統的問題[11]。

上述以客觀因素分類的研究中,對乘客的空間規律性分析均建立在可獲取乘客上下車信息的情況,對于采用公交一票制的乘客分類適用性較低,且既有分類較為籠統,難以準確表示每一類別乘客的特征。已有研究可通過推斷下車站點的方式對下車信息進行補全,如出行鏈匹配法或站點吸引權法[14-16],但推斷方法對數據要求較高,乘客分類結果準確率受站點推斷結果的影響。綜上所述,針對公交運營所采用的一票制付費情況,筆者從乘客的上車時空信息考慮,推導其乘車強度、時間特性、空間特性及高峰特性,提出一種可應用于公交一票制分類方法,使用組合聚類的方法構建一個全群體乘客的精細化分類模型,采用廣州市公交乘客的刷卡數據對模型作實例分析,并驗證該分類模型的穩定性和有效性。公交乘客精細化分類模型可為公交服務運營優化、個性化公交服務和公交需求預測等帶來新的契機。

1 乘客分類模型構造

1.1 分類指標構建

考慮相關性、誤差以及公交一票制所記錄的上車信息數據,選取乘客在乘車強度、時間特性、空間特性以及高峰特性的表現對公交一票制乘客分類模型進行分析。

1.1.1 乘車強度

乘車強度反應了乘客對某種交通方式的依賴性,根據公交一票制出行特點,分別以日和周為單位,乘客k的乘車強度表征項由以下4個指標構成:① 日均乘車次數sk為乘客對公共交通的依賴程度;② 乘車周數wk為以周為單位周期性出行強度;③ 每周平均乘車天數Ak為乘客單位周期內的公交利用程度;④ 周乘車天數標準差ηk為指標Ak的穩定程度。

1.1.2 時間特性

由于公交一票制只有上車信息,因此圍繞上車時間來構建這一指標。針對現實中存在大量的單日單次乘車用戶的特點,筆者把全體乘客都具備的首次乘車行為作為重點的時間特性指標,而周期性的指標圍繞工作日和非工作日進行構建。乘客k的時間特性由以下指標進行刻畫:① 日均首次乘車時間Tk為乘客在統計周期內的首次乘車時間平均值;② 日首次乘車時間標準差σk為乘客首次乘車時間Tk的波動程度;③ 周工作日平均乘車天數Rk為乘客工作日的周期性公交利用程度;④ 周非工作日平均乘車天數Nk為乘客非工作日的周期性公交利用程度。

1.1.3 空間特性

公交站點是體現乘客乘坐公交的空間規律的重要指標,有研究表明乘客的首次和末次乘車站點有很大可能為居住地和活動目的地,且互為起點和終點[17-18]??紤]到一票制下的乘車行為無下車信息記錄,選取乘車日的首次乘車和末次乘車來揭示乘客蘊藏的乘車空間特性。此外由于乘客對公交線路的選擇不是唯一的,在出行端點區域內公交站點都有可能被選擇,乘客在出行端點鄰近區域的集中程度可以作為一項有效的分類指標,該指標值越高,表明其空間規律性越高。

我國對常規公交和軌道交通的站點服務區域分別是以500 m和800 m為半徑計算時,覆蓋率不得低于90%,因此可以設定相鄰站點之間距離ε是否小于500~1 000 m來判斷任意兩個站點是否可認為是乘客在乘車時可同時考慮的鄰近站點。假設乘客k在總研究周期范圍內的總乘車天數Dk大于1 d,分別計算其日首次和末次乘車站點鄰近指數。

(1)

(2)

1.1.4 高峰特性

工作日的公交出行人群存在大量通勤者,有著明顯的早晚高峰特征,而在非工作日內則較不明顯。乘客在工作日早晚高峰時段的乘車站點鄰近指數,可對乘客的通勤特征進行刻畫,乘客在所給定的高峰時段中乘車站點規律性越強,則其指標取值更高。在統計時段內有多次乘車行為的乘客k,分別計算早晚高峰指標公式如下。

(3)

(4)

分類模型中所用到的各特性下各特征指標的單位、類型以及取值范圍如表1。由于存在部分乘客在空間特性和高峰特性指標計算時需分類取值,因此對該部分乘客進行額外標定以作區分,故此類指標為組合型。

表1 公交一票制乘客分類指標

1.1.5 指標篩選

確定分類模型下的指標構建后,針對具體研究對象,部分指標可能存在較強的相關性,影響分類結果。筆者選擇斯皮爾曼相關性系數對指標進行計算篩選,其指標取值范圍為[-1,1]。在篩選過程中,對于相關性系數落在[-0.5,0.5]中的指標可認為相關性較弱,對于落在此區間外的指標對可認為相關性較高,應考慮予以剔除。

1.2 乘客分類

公交一票制下的乘客信息中蘊藏其分類特征,由于乘客類型多樣,隨機性強,一次分類難以精細化描述乘客特征,筆者采用多次分類的方法。

考慮到所選取的特征指標多樣,K-means聚類適用于數值型的變量,Two-Step聚類分析法適用于分類型和數值型的變量。其中Two-Step聚類的第1階段是預聚類,采用BIRCH算法中CF樹生長的思想,依次遍歷數據點,生成CF樹,同時預先聚集密集區域內的數據點形成小的子簇。第2階段則是聚類階段,以子簇為對象,利用凝聚法逐個合并距離最近的簇,直至達到期望的數量。期望的最佳簇數通常采用施瓦茲貝葉斯準則(BIC)進行初估,確定大致范圍;其次根據前后兩個最近簇距離的比值,精確定位最佳簇數。

首先,對乘客進行一次分類。由于乘客分類指標中除了連續型指標,還存在組合型指標,因此在Two-Step聚類時將此類指標視作分類型,得到若干個簇。在此次分類中并未體現乘客在組合型指標的表現,而其設立旨在對在此類指標下有表現的乘客予以描述。因此將首次聚類下的簇進行劃分,將組合型指標中空間特性分類和高峰特性均表現一致的簇稱為清晰簇{C1,…,Cx},反之則為非清晰簇{U1,…,Uy}。

其次,對乘客進行2次分類。為實現乘客的精細化分類,需對清晰簇和非清晰簇進行再次聚類。對清晰簇中每一個簇分別進行K-means聚類,對每一個簇均定義一個聚類特征組,且組合型指標的取值還原為[0,1],作為連續型指標分析。在聚類過程中,設置適當的聚類K值。如對簇C1進行聚類,選取聚類值K1,得到聚類結果{C1-1,…,C1-K1}。對所得到的非清晰簇視作一個簇,根據簇的特點調整相應的特征組,若此類簇仍存在分類型指標,則需進行再次Two-Step聚類。通過上述方法,可構建一個全群體乘客的精細化分類模型。聚類過程如圖1。

圖1 組合聚類下的公交一票制乘客分類流程

2 實例分析

選取廣州市公交一票制IC卡數據對本方法進行驗證,數據采集時間為2014年3月—2014年6月。

為排除乘車周期性的影響,選取每月其中一個自然周的刷卡記錄作為研究數據。乘客刷卡數據包括刷卡信息、乘客卡號、刷卡時間、線路編號及刷卡站點,公交運營和設施數據包括線路站點表及站點空間信息。

在分類指標計算中所需的乘客信息為卡號、刷卡時間、站點及其經緯度。所得用戶數為2 580 576名,所有刷卡記錄為51 558 503條。

2.1 指標篩選

站距判斷閾值ε設為1 000 m,為了拓寬早高峰和晚高峰時段,分別取06:00—10:00和17:00—21:00。采用斯皮爾曼相關性系數對各分類特征進行相關性分析,兩兩特征間的相關性系數如圖2。

圖2 兩兩特征間的斯皮爾曼相關性系數

由于存在多個特征指標冗余的情況,因此需要剔除乘車周數和每周平均乘車天數2個指標,剩余指標數用于聚類分析。

剔除重復指標后對乘客進行乘車統計,初步情況表明,4周內僅一次乘車的乘客占15.01%,無空間特性表現;約50%的用戶在高峰特征中的統計時段內僅有一次或無乘車行為。

2.2 聚類結果

首先,進行一次分類,采用Two-Step聚類法,將乘車強度和時間特性的特征作為連續型變量,將空間特性和高峰特性的特征作為分類型變量并加入目標變量選擇器中,選定對數似然距離進行測量,設置施瓦茲貝葉斯準則(BIC)作為聚類準則,得到的最優聚類數為5簇,聚類效果良好。對所得到的簇根據空間特性和高峰特性的表現進行劃分,其中簇1和簇5為清晰簇,簇2、簇3、簇4為非清晰簇。

其次,進行2次分類,按照簇順序依次進行精細化分類:對簇1進行K-means聚類,觀察簇特征后取對應聚類特征組,迭代45次后收斂,并分為4個類別,記作類別1~類別4。同時,將簇2~簇4視作原始數據并再次進行Two-Step聚類,選擇相應的連續型和分類型特征組,共得到3個類別,記作類別5~類別7。對簇5同樣進行K-means聚類,由于簇5在空間特性和高峰特性的分類型指標上無表現,因此取乘車強度和時間特性指標作為聚類特征組,10次迭代后實現收斂,并分為2個類別,記作類別8、類別9。綜上,本案例的乘客精細化分類可分為9個類別。根據各類別乘客的特征,表2分別給出了各類別乘客定義。結合組合聚類的分類結果,各類別乘客的數量及所占的比例如圖3。

表2 乘客分類特征

圖3 各類別乘客數及所占比例

2.3 類別分析

通過比對各不同類別的乘客在乘車強度和乘車時間、空間以及高峰特性上的分布特征,可以了解各分類下的乘車規律,各類別乘客特征均有明顯差異。

類別1~類別4的乘客,在乘車強度上表現具有更強的依賴性;類別5~類別7的乘客,其在空間特性和高峰特性上有不同的表現;類別8和類別9的乘客,在統計周期內僅有1 d有乘車行為。

其中類別1、類別3的乘客在空間特性和高峰特性上表現更好,表明這兩個類別的乘客在乘車站點的時間空間選擇上更相近,其中類別3表現更規律。類別2、類別4的乘客在首次乘車時間上有較低的穩定性,且類別2的首次乘車時間相對較晚。類別5~類別7的乘客表現為在所有統計的工作日早晚高峰中有1次以內的乘車行為,其中類別7為早晚高峰均無多于2次的乘車,且這3類乘客的日均首次乘車時間都在早上10點之后。類別8和乘車時間早于類別9,且這兩類別的乘客無明顯乘車強度、時間特性和空間特性,但在所有乘客中占15%。

圖4為各類別乘客在日均乘車次數、日均首次乘車時間、空間特性和高峰特性的表現。

圖4 不同類別乘客中的各分類特征分布情況

表3給出了不同類型乘客的聚類中心信息。

表3 乘客用戶聚類結果

2.4 案例小結

筆者使用公交一票制乘客精細化分類模型可將案例乘客分成9個類別。與其他分類方法相比,有以下特點,說明該分類模型對廣州市公交一票制下的乘客分類效果優良,有效性和穩定性較高。

1)應用一票制下的空間特性和高峰特性指標,僅利用上車信息實現有效刻畫廣州市乘客不同的乘車特性,而不需要計算乘客的出行距離、出行OD對等指標,避免了下車站點推斷準確率所引起的誤差。

2)對廣州市的公交乘客作出9種分類情況,與以往對廣州市的乘客分為3類或4類相比,分類更細致,更能全面表示現實乘客情況;對不同頻率出行乘客的出行特征作出了乘車強度、時間特性、空間特性和高峰特性等的細致描述,不僅限于將時間、空間規律性進行組合或通過出行頻率高低對乘客進行分類;更可有效刻畫城市乘客出行特征,如案例中廣州的早高峰時段相對較晚(08:00—11:00),且持續時間較長,另外乘客群體中極低頻乘客有一定占比。

3)聚類效果穩定。選取每一自然周內有乘車行為的乘客,并對每周內的乘客進行類別統計,如表4。各自然周內乘客分類情況相近,數據表明分類模型有較強的穩定性。

表4 各自然周內乘客分類占比情況

3 結 論

以使用公交一票制乘車用戶為研究對象,通過對刷卡數據的挖掘,提出了一種針對公交一票制乘客的精細化分類方法,該方法可以有效識別乘客的乘車特征。以選取乘客的乘車強度、時間特性、空間特性及高峰特性的特征指標,以組合聚類的方式實現對乘客的精準化分類。

區別于傳統的乘客分類研究,筆者所提出的分類方法存在以下幾點優勢:①不局限于乘客的付費方式,可應用于全類型的乘車付費方式;②針對使用一票制付費方式的公交乘車行為,與記錄上下車信息的公交分類不同,補充了關于公交一票制下的乘客分類研究;③針對無下車信息的研究背景,對單一乘客的多次上車站點信息提出空間指標和高峰指標的計算方法;④對公交一票制下的乘客作出精細化分類,對由清晰簇和非清晰簇分類下的高頻、中頻、低頻乘車用戶的特征作出細致化描述,對于高頻乘車用戶的特征作再分類,對乘客的分類更全面;⑤公交乘客精細化分類有助于公交運營者深入了解乘客出行特征,可用于公交服務質量提升、運營優化、公交需求預測、個性化公交服務等。

后續研究可考慮距離閾值選取和時段選擇對于分類效果的影響,同時基于數據拓展的基礎上,采用包含位置關系的多源數據,改進分類方法,使結果更符合全群體乘客的出行規律。

猜你喜歡
乘車類別公交
一元公交開進太行深處
這一次優步乘車,讓我感動了
等公交
乘車
服務類別
論類別股東會
中醫類別全科醫師培養模式的探討
聚合酶鏈式反應快速鑒別5種常見肉類別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合