?

基于游記大數據的華山景區游客行為模式研究

2018-07-14 06:26常雪松趙雅敏
中國園林 2018年3期
關鍵詞:華山游記目的地

邵 雋 常雪松 趙雅敏

1 研究背景

游客出行模式分析是景區和目的地規劃管理的重要基礎,在識別旅游者行為模式的基礎上,才能合理制定景區和目的地戰略、規劃旅游線路、推薦旅游產品、科學進行游客影響管理。社交媒體上旅游者主動發布的游記等數據的出現,為分析旅游活動和偏好提供了一種更有效的方法。鑒于目前低成本大數據分析在景區規劃和目的地規劃實踐尚顯不足,有些景區缺乏基于游客出游活動模式的規劃統籌。中國許多景區對游客信息和行為的調查統計較為粗放,缺少對旅游者行為的數據的積累,甚至有些知名景區仍缺少現有客源的客源地分布情況,這將嚴重制約景區的規劃管理。本研究以華山景區為研究對象,利用游客發布的游記大數據,對旅游者出行方式、目的地聯動以及滿意度評價進行挖掘分析,回答“景區內游客集中在哪里?游客從哪里來?還會去哪里?對景區是否滿意?”等問題,從而為景區和目的地規劃設計提供支持。

2 研究進展

2.1 游記大數據的特征

游記大數據既具有大數據的5V基本特征,即數據規模大(volume)、數據種類多(variety)、數據變化快(velocity)、數據真實性(veracity)、應用價值高(value)[1-2],同時又具有景區時空大數據的多源性、客觀性、動態性、現實性、精細性等特征[3]。此外,由于用戶自發生成游記內容,出于分享經驗、記錄生活日志等個人原因,在社交媒體上記錄、分享和發布游記,并主動分享在互聯網,這些數據可以免費獲得[4-5],因而游記大數據具有低成本特征。游記大數據包含文本、照片、視頻等多種形式的數據類型,許多游記還包含用戶或網站用地理、時間、文字描述和信息來標注的地理標簽數據[6],這些數據含有旅游者在周邊地區出行的行為信息和目的地資源信息[7-8],形成了游客數字足跡,可以用來挖掘旅游者在特定目的地區域的時空軌跡和出行模式[9-10]。此外,通過游記大數據可以隨時了解游客對景區資源及旅游產品的喜好程度,或對景區管理水平及服務質量的滿意程度[3]。

游記大數據出現之前,分析游客行為模式依賴的傳統方法比較有限,通常有:面對面訪談[11]、問卷調查[12-14]、政府或旅游組織發布的二手數據[11,15-16]、觀察法[14]、移動跟蹤設備[17-19]等。這些數據收集方法通常成本比較高、相對耗時,且獲取的樣本數量和信息量有限[6,20-21]。與傳統方法獲取的數據相比,游客大數據記錄了自然發生的游客實際行為,規模上相當可觀,使用上成本很低,且包含信息非常豐富。游記大數據來源于先進的中共享服務和移動技術支持的平臺[22-23]。游記中對目的地或景區的文字描述、地理位置、訪問時間、圖片等信息內容很多都可以由用戶控制[6,22]。

2.2 相關研究簡述

鑒于游記大數據具有上述特點,分析游記數據成為新興的研究領域。通過分析游記大數據,可以觀察、記錄和分析游客出行模式和行為[24],進一步識別地標[25],識別游客頻繁使用的線路和空間,為目的地規劃管理提供參考。目前旅游和景區規劃領域的游記大數據研究仍處于早期階段,主要集中在對游客出行模式和行為的研究以及旅游推薦系統的設計[6]。利用旅游者發布在社交媒體上的大數據對游客出行模式的研究有不同的尺度。在國際尺度,Hawelka等(2014)利用twitter數據挖掘國際游客出游模式[25],根據2012年記錄的近10億條推文,研究了不同國家的流動性狀況,考察了流動率、旋轉半徑、目的地的多樣性以及資金流入和流出的平衡等特征。在國家尺度,李棟和楊陽(2017)研究利用新浪微博的大數據對2014年黃金周出行進行了研究[26],其他研究多集中于城市尺度[4,17,20,27]和城市公園尺度[28-29],目前少有景區尺度的研究。由于Flickr上的游客發布的圖片為主的數據的結構化比較好,方便研究者獲取數據,目前城市尺度的研究集中于利用Flickr上的游客圖片數據和文本信息[4,27]。這些研究除發掘發現游客感興趣的旅游景點外,還對不同客源地游客的出游模式和行為進行了比較[20]。研究人員還利用帶地理標簽的照片大數據來分析游客的偏好和活動[4,30]。Guo等(2015)[31]采用緊湊模式挖掘和序列模式挖掘方法,從去哪兒網發布的結構化旅游博客中收集地理信息,用于分析某一特定領域的興趣、旅游活動和旅游使用服務,并進一步擴展了旅游領域地理標記研究中的數據采集技術。

本研究將在景區尺度對游記大數據進行挖掘分析,關注旅游者在景區內部和外部的移動模式,深入分析景區滿意度,并將研究結果用GIS軟件直觀圖示,為景區及所在目的地規劃管理部門了解客源市場特征提供幫助。

3 研究方法

本研究的研究問題是界定華山的客源市場,挖掘游客在華山景區內的出行模式和行為偏好,了解對華山的滿意度情況,以及游客在華山外的目的地聯動情況。

3.1 數據獲取

在螞蜂窩和攜程網游記攻略頻道,以“華山”為關鍵詞搜索游記文本素材。于2016年5月20日,通過火車頭網頁爬蟲工具對游記網頁內容進行抓取。除游記文本素材外,對相關游記中出游時間、花費、停留時間、關聯目的地、作者常住地等結構化標簽數據也進行了抓取。共抓取游記文本素材1 468篇(84.5萬余字)。其中,螞蜂窩網抓取768篇(58萬余字),攜程網抓取700篇(26.5萬余字)。

3.2 數據整理和清洗

首先,將數據進行結構化處理,按照游記標題、游記作者、游記正文等基本要素以及出游時間、出游花費、停留時間、作者常住地等游客行為信息導入EXCEL中,成為本地原始游記數據庫。其次,對數據進行內容清洗,刪除基本信息大量缺失的數據(221篇,6.6萬余字)、刪除按照正則表達式抽取出的游記網站模板數據(86篇,4.3萬余字)和廣告文本數據(81篇,2萬余字)。最后,刪除重復和空白內容(共0.8萬余字)、刪除過短(10個字符以下)或純符號等無意義內容(0.4萬余字),例如“我到了!”“這張照片好漂亮……”“寫在前面的話!”等。

經過整理篩選,共得到高質量華山游記素材1 080篇(70.4萬余字)。其中,螞蜂窩網游記549篇(43.9萬余字),攜程網游記531篇(26.5萬余字)。

3.3 文本分詞

對整理好的游記素材進行分詞。分詞原理是應用漢語詞典進行匹配分詞,即所謂機械分詞法,這種方法是將待分析的華山游記字符串與標準漢語機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功,并將其以前后空格形式進行切分。

利用ROST CM、NLPIR等工具和平臺進行分詞。首先,將“華山”“西峰”“絕壁”“日出”“棧道”“渭南”“雜肝泡”“香椿辣子”……等華山景區特有詞匯添加到自定義分詞詞匯表;其次,按照既定方法對文本素材分詞,完成后過濾掉各種副詞、虛詞等無意義詞匯,整理得到有效詞頻列表。

3.4 語義分析

語義分析技術主要包括語義網絡結構圖繪制和情感分析。

語義結構網絡圖的原理是將所有詞語相互關聯度的強弱關系進行拓撲圖展示。首先,將文本素材按照句號、問號、感嘆號、省略號等整句結束標點進行分行;其次,根據修正后的高頻詞表對文本素材的每一行進行特征詞提取和所有行特征詞的共現頻次統計,得到行特征詞共現矩陣;最后,利用Netdraw,Gephi等軟件將共現矩陣可視化,形成語義結構圖。

情感分析主要是對游記文本進行基于情感詞庫的情緒傾向性分析,分析對象是分詞和分行完成后的文本素材。首先,引入情感詞典作為情感分析的基本依據,引入常見中文否定詞庫作為反向情緒判斷的依據,引入常見中文副詞庫作為情感程度判斷的基礎。其次,將游記全文每一行的詞匯與情感詞庫中進行匹配,并根據中文語言習慣中的多重否定規則進行情緒最終傾向的判斷,根據副詞表達的不同情感程度判斷最后得分。最后,綜合所有判斷結果,給出游記每行的情感分析,正分為積極情緒,負分為消極情緒,零分屬于中性語句,沒有情感傾向。同時,得分絕對值越高,該情緒傾向程度越大。

4 分析結果

4.1 華山游客行為模式

華山游記大數據分析的高頻關鍵詞如表1所示,語義網絡圖如圖1所示??梢钥闯?,游客到訪和感興趣的景區內的地點主要是東南西北四峰,五峰中的吸引力較小的中峰未被列入。東峰與日出景觀關系最大。西峰與日落景觀關系最大、西峰體力消耗較大。北峰、西峰與索道關系較大。游客到訪的主要景點包括:玉泉院、金鎖關、蒼龍嶺等。游客在景區內的分布與華山景區內的自然條件、索道設計和旅游產品設計基本相符。

從圖1還可以看出,西安對華山旅游影響很大。兵馬俑、華清池、黃河(壺口瀑布)、西安市區等成為華山游客最常去的關聯景區。在出行的交通方式上,遠程游客主要通過飛機(西安/咸陽機場)以及火車到達華山。

對游客出游行為中的出游時間、花費、停留時間的分析結果分別如圖2~4所示。華山到訪游客的出游時間集中在4—10月份,與中國北方景區普遍存在的較強季節性有不同,華山旅游受季節的影響不是很顯著。華山游客人均花費主要集中在1 000~3 000元,高端旅游消費較少。到訪華山游客的停留時間主要為3~5d,但值得注意的是,結合游客目的地分析,游客還會到訪兵馬俑、華清池、黃河(壺口瀑布)、西安市區等其他目的地,因而在華山景區范圍內的停留時間并不長。華山景區應從供給側進行旅游產品升級,吸引游客增加停留時間,增加旅游消費,繼續發揮在渭南地區旅游中的龍頭作用。

4.2 華山游客客源地

圖1 華山游記語義網絡圖來

圖2 華山游客出行時間分布

圖3 華山游客出游人均花費

圖4 華山游客停留時間

對游記中作者常住城市進行統計,得出包含客源城市數量和占比(表2)。利用GIS軟件,得到圖5。華山游客以外省游客為主,按照人數由多到少可分為6個層級:北上廣一線城市群,鄭州、太原等周邊地區,成都、重慶等西南地區,武漢、長沙等華中地區,沈陽、大連等東北地區和其他地區。這表明,華山客源市場與空間距離、經濟水平、交通便捷程度密切相關,與華山的空間距離越近、經濟發展水平越高、交通越便捷,則客源市場份額越高。

4.3 華山游客關聯目的地

對整理好的游記數據中結構化的關聯目的地數據進行整理,同一游記中到過的關聯的目的地標記為同一行程內的節點,得到以華山為核心的周邊旅游節點列表(表3)。對華山與所有相關旅游節點進行關聯度強弱分析。利用GIS軟件將關聯度分析結果可視化(圖6)。單獨以華山作為目的地的游客為17.4%,占比較小。游客把華山與西安市區、秦始皇陵/兵馬俑、華清池、延安、壺口瀑布、黃帝陵、驪山等陜西省其他高等級資源作為共同目的地。游客還會將華山與洛陽市區、嵩山少林寺、龍門石窟;青海湖、嘉峪關等周邊省份高等級資源作為共同目的地。西安市區與華山成為游客捆綁游覽最多的目的地。

游客的多目的地選擇提示了華山景區與河南、青海、甘肅等周邊省份進行區域合作聯合營銷的可能性。此外,考慮到華山地處渭南,而渭南市域大部分地區卻在目的地聯動中未能出現,這說明華山確實對渭南其他地區存在“形象遮蔽”效應。華山管理部門繼續發揮華旅集團在渭南區域的發展平臺作用,全面整合華山、渭南等陜西東線乃至黃河金三角區域內旅游資源,帶動渭南區域旅游整體發展與提升。結合大數據分析顯示的客源地分布數據,針對不同客源市場,進行針對性的產品設計和區域宣傳。

4.4 游客滿意度

對游記數據進行情感分析(表4),其中游客積極評價共11 686條,占比56.60%;游客中性評價共6 126條,占比29.67%;游客消極評價共2 833條,占比13.72%。

表1 華山游記高頻關鍵詞

對游客不滿意評價數據進行的厚數據分析,將負面情緒中得分最低的前100條游記語料篩選出來,此為游客最不滿意的方面。逐條對每條游客最不滿意的評價進行內容分析,并按照“食住行游購娛”旅游要素以及旅游基礎建設和服務方面進行歸類分析。研究發現,游客對華山不滿意的方面集中于服務設施、景區擁堵、景區垃圾、自駕導航等方面(表5)。

5 結論與討論

本研究首次在景區微觀尺度上利用旅游者主動生成的游記大數據進行語義分析數據挖掘,并用GIS呈現研究結果,直觀展示了游記大數據對景區客源市場分析的有效性。游記大數據挖掘結果顯示:華山客源市場目前仍以華山登山觀光體驗為主,西安市區與華山成為游客捆綁游覽最多的目的地,除了西安市區外,兵馬俑、華清池、延安等景區均是與華山聯系緊密的景區,游客對景區設施服務和運營管理有許多不滿之處。景區主管部門和目的地政府應整合利用包含游記大數據在內的多種數據來源,實時獲取資源、環境、設施、人員等景區時空大數據,利用大數據中心及云計算平臺提供的實時數據分析,根據相關大數據分析其偏好與需求,匹配景區資源、環境、設施等教育科普內容與信息服務,從而實現大眾服務的智能精準化管理[3]。通過智能景區系統的規劃建設,職能部門應能夠實時監控景區內游客客流分布、交通狀況、服務設施使用狀況,及時采取分流疏導措施,保障游客旅游安全和秩序。結合輿情分析結果和設施使用狀況,升級服務和設施品質,合理規劃基礎設施的設置和容量,改善游客體驗,吸引游客進行正面的口碑傳播。

本論文尚有一些不足之處:1)由于社交媒體上數據來源網站的市場占有率和對主體旅游者的覆蓋度的限制,研究結果的代表性可能有偏;2)未區分自助游客和跟團游游客的出游模式異同;3)受研究時間限制,本研究尚未細分挖掘游客年齡層次等人口學統計學特征信息。本研究是對景區尺度的游記大數據的嘗試性研究,未來有待繼續開展的相關研究包括:1)對游記大數據中的圖片數據內容進行分析;2)對不同客源市場的旅游模式和出游進行偏好分析;3)開展基于游記大數據與傳統統計數據源的交叉驗證分析。

表2 華山游記作者客源地分布

表3 華山游記目的地占比情況

圖5 華山游記作者客源地分布(底圖引自必應地圖)

圖6 華山景區游客多目的地選擇

表4 華山游客滿意度高頻詞情緒分析結果

表5 華山游記游客不滿意評價表

猜你喜歡
華山游記目的地
Spatial correlation of irreversible displacement in oscillatory-sheared metallic glasses
戀愛中的城市
迷宮彎彎繞
詠華山
地心游記(十)只剩我一個人
華山論“劍”
尋夢環游記
尋夢環游記
動物可笑堂
超市游記
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合