?

基于多維數據分析的民航旅客價值計算*

2017-02-09 09:52曹衛東
計算機與數字工程 2017年1期
關鍵詞:數據模型數據源多維度

黨 悅 曹衛東 王 碩

(1.中國民航信息網絡股份有限公司 北京 100029) (2.中國民航大學天津市智能信號與圖像處理重點實驗室 天津 300300)

?

基于多維數據分析的民航旅客價值計算*

黨 悅1曹衛東2王 碩1

(1.中國民航信息網絡股份有限公司 北京 100029) (2.中國民航大學天津市智能信號與圖像處理重點實驗室 天津 300300)

高價值、高貢獻率的高端旅客對于航空公司提高盈利能力起到了重要作用,加強對高端旅客的洞察和細分能力,提升對旅客的營銷、服務和保障水平是民航業面臨的重要課題。論文結合國內民航旅客價值計算的實際案例,通過綜合運用數據抽取轉換加載技術(ETL)、聯機分析技術(OLAP)和多維度數據分析和建模技術,搭建了民航旅客價值建模和計算的系統架構,闡述了民航旅客數據處理和旅客價值模型構建的處理過程和旅客價值算法。實驗結果表明,確立多維旅客價值模型和算法,為篩選高端旅客,動態計算旅客價值提供了便捷可行的方法,對應用實踐具有重要的指導意義。

多維度數據分析; ETL; OLAP; 數據模型; 價值算法

Class Number TP301.6

1 引言

近十余年來,國內民航業呈現出蓬勃迅速發展,旅客運輸量保持年10%以上的增長速度。但是,民航業是一個高成本、高風險和低利潤的行業,受經濟形勢波動影響較大。經過多年研究發現,帕累托定律(又稱80/20法則)在民航業有比較明顯的體現。雖然旅客總量在不斷攀升,但是航空公司80%的收益來自占比25%左右的高端商務旅客和常旅客的貢獻。航空公司為了提高盈利能力,進而強化企業競爭力,已經對高端旅客高度重視,集中企業的各項資源,加強對高端旅客的洞察和細分能力,提升旅客的營銷、服務和保障水平。

中國民航信息集團,簡稱中國航信作為國內唯一的全球分銷系統服務提供商,攜手國內各大航空公司,于2011年正式啟動了新一代旅客服務信息系統建設,助力航空公司業務轉型。新一代旅客服務系統的一個重要模塊是旅客視圖。旅客視圖旨在整合和集成民航旅客服務系統中的各種數據,包括了旅客的訂票、偏好、出行、體驗、行為等,通過多維度數據分析技術,建立統一的旅客視圖,以此為基礎構建多維度旅客價值分析模型和價值算法,提升航空公司對旅客的觀察、分析和認知能力,輔助航空公司對于旅客的營銷和服務決策。

2 多維數據分析技術

對企業生產運營數據進行采集、清洗、整合、分析和應用的整個過程,稱為商業智能BI(Business Intelligence)。商業智能的目的,是使企業的各級決策者,以數據分析為基礎,獲得信息、知識和洞察力,輔助其做出對企業有利的決策。商業智能作為一個系統的解決方案,綜合了多種計算機技術和信息處理技術,主要包括:數據庫和數據倉庫技術(Data Warehousing)、數據抽取轉換加載技術(ETL-Extraction Transformation Loading)、聯機分析處理技術(OLAP-Online Analytical Process)、數據挖掘技術(Data Mining)等[1~3]。

2.1 數據處理技術

從多個相關數據源采集、解析、整合和集成數據會用到數據抽取轉換加載技術(ETL-Extraction Transformation Loading)。

數據抽取,兼容多平臺多應用的異構數據源,屏蔽各種數據源之間的差異,提供通用的數據訪問接口,從各數據源中提取數據,存儲到ETL系統的臨時存儲機制,為后續工作提供一個統一的數據視圖。

數據轉換,將抽取出的數據轉化為集成的、語義一致的數據,對重復數據進行排重處理,對缺失數據進行補齊處理,以確保數據的質量。另外,要對數據進行組織結構的定義,匹配數據倉庫中的多維數據結構。

數據加載,對于清洗完成的數據與數據倉庫中的數據結構進行關系映射,將數據加載到數據倉庫中的一張或多張報表中。同時,需要定義數據的加載規則,包括數據的加載頻率、加載順序、加載作業的啟動時間以及單次加載數據量等等。

日志系統,由于整個ETL數據處理過程步驟多,操作復雜,數據流動性強,所以在數據操作處理過程中,會記錄日志,通過日志對ETL的實施進行過程監測和控制,做到有據可查,最終提高ETL的數據處理質量[4~6]。

2.2 數據挖掘與聯機分析處理技術

經過ETL數據處理過程,來源于多種數據源的異構數據被存儲到數據倉庫中,使用數據挖掘技術(Data Mining),通過特定的規則庫,對入庫數據進行條件過濾和篩選,形成特定的應用標簽,可以進一步提煉數據的維度和指標,完善針對特定應用的數據模型[7]。

由于維度和指標在定義時都是相互獨立的,其間并無隱含的關聯信息,因此要利用聯機分析處理技術(OLAP-Online Analytical Process),對它們所屬的表進行關聯,關聯之后才能在它們之間進行查詢和分析。表關聯信息保存在表關聯定義表中。表關聯要保存如下一些信息:關聯的父表名稱、關聯的父表列名、關聯的子表名稱、關聯的子表列名。如果把表看作是有向圖中的節點,把關聯看作有向圖中的邊,則所有表的關聯關系構成了一個或多個有向圖[8]。

2.3 多維度數據建模

多維數據中的維度,是觀察事物的角度,是對事物進行分類的特定規則。同樣的數據從不同的維度進行觀察可能會得到完全不同的結果,嘗試從多維度觀察和劃分事物,有助于更加全面和清楚地認識事物的本質。每個維度都從不同方面體現所描述的事物特征,而每個維度又可按粒度的不同劃分成多個層次,稱為維度成員。維度通常用“樹”型數據結構存儲。多維分析中另一個重要的概念是數據指標,指標代表了數據中的可度量的屬性,通常用MAP數據結構存儲。

當以維度模型建立了數據模型后,便可以對多維數據進行分析和操作處理。常見的多維分析操作方法主要有五種:鉆取(上鉆和下鉆)、切片、切塊、旋轉。鉆取。鉆取是改變維度的層次,變換分析的粒度。鉆取包括上鉆和下鉆,上鉆是在某一維上將低層次的細節數據概括到高層次的匯總數據的過程,減少了分析的維數;下鉆則相反,它是將高層次的匯總數據進行細化,深入到低層次細節數據的過程,增加了分析的維數。切片和切塊是在多維分析中,如果在某一維度上限定了一個值,則稱為對原有分析的一個切片,如果對多個維度進行限定,每個維度限定為一組取值范圍,則稱為對原有分析的一個切塊。在多維分析中,維度都是按某一順序進行顯示,如果變換維度的順序和方向或交換兩個維度的位置,則稱為旋轉。

3 多維民航旅客價值數據模型與動態計算

3.1 民航旅客價值動態計算業務

根據旅客服務環節和業務應用的不同,民航旅客的數據信息分布運營、存儲在訂座系統、代理人系統、離港系統和航空公司的客戶管理系統中,還要整合來自政府系統、銀行系統的特殊旅客和關聯會員旅客信息以及來自航空聯盟數據庫系統的國際旅客信息。這些各不相同的民航旅客信息數據源,提供了數據接口格式、語義定義、數據文件格式和更新周期各不相同的民航旅客數據,在采集到這些數據源提供的數據后,首先要通過ETL數據處理過程,對這些異構數據進行解析和清洗,成為標準格式的XML數據,以旅客為單位組織各項屬性信息,通過多數據源的排重和補充處理過程,豐富和完善旅客記錄中的各項屬性字段,在數據倉庫建立一張或多張旅客信息數據表?;诙嗑S度數據分析的旅客價值建模和計算技術框架圖如圖1所示。

圖1 基于多維度數據分析的旅客價值建模和計算技術框架圖

對于經過ETL數據處理過程存入數據倉庫中的旅客數據,從靜態維度描述了旅客的部分屬性和信息,但是對于全方位地了解旅客的動態行為信息和價值信息,這些靜態數據的信息量是不充分的。因此,需要利用數據挖掘技術,通過建立數據篩選規則,對已有的靜態旅客數據進行篩選和挖掘,得到新的屬性信息,來豐富對旅客的觀察層次和描述維度,更加準確、全面、客觀和動態地展現旅客的行為和價值信息。

舉例來說,可以在來自于離港系統的靜態成行數據基礎上,建立服務體驗篩選方法庫,來觀察旅客在成行過程中的服務體驗經歷。例如,可以根據離港數據中旅客被動降艙的數據字段記錄,設定數據篩選的開始和截止日期,以及旅客等級等篩選條件,得到滿足篩選條件的旅客數據范圍,可以在這些旅客記錄上增加“被動降艙”屬性標簽。以此類推,通過服務體驗篩選方法庫的篩選,可以對旅客記錄增加“被動降艙”、“航班延誤”、“行李丟失”等屬性字段,這些旅客屬性的集合構成了觀察旅客“服務體驗”的維度。

3.2 民航旅客價值數據模型

通過建立數據挖掘的規則庫和數據篩選流程,對民航旅客靜態數據進行挖掘,豐富了民航旅客數據內容,增加了評價和描述民航旅客價值的信息維度,更加全面地建立了民航旅客價值的多維度數據模型。民航旅客價值數據模型是如圖2所示的樹型數據結構,有三個一級維度:靜態價值、挖掘價值和市場價值。

圖2 多維度民航旅客價值數據模型

靜態價值,側重于描述旅客本人的靜態信息,又稱為檔案信息。靜態價值包括兩個二級維度,旅客身份和服務偏好。旅客身份來自于多種數據源的數據清理和數據集成。服務偏好的來源有兩種,一是從服務接觸點渠道直接采集旅客的服務偏好意愿,另一種是從旅客的訂票和成行歷史數據中,根據偏好采集規則,提取的數據信息。

動態價值,重點在于描述旅客在乘機出行中的過程信息和旅客行為,是一種在動態過程捕捉和挖掘的旅客信息,這個維度又分為體驗價值和行為價值兩個二級維度。體驗價值,重點觀察旅客在出行過程中遇到的一些特定事件,例如航班延誤、被動降艙等。行為價值,重點把握旅客在設定的觀察期內,其行為呈現出的規律和特點,例如高頻退票、高頻NOSHOW等行為。

表1 多維度民航旅客價值數據模型內容

市場價值,是從市場貢獻度的角度來觀察旅客價值的維度,分為本航價值和市場價值兩個維度??剂勘竞絻r值的規則,是設定不同的比較觀察周期,從乘機次數、平均票價和收益貢獻等指標來比較旅客對于本航空公司價值的變化情況,從而動態地捕捉到旅客對本航的變化情況,得到例如優質高端、正在流失等屬性特征。市場價值的考量規則,是設定不同的比較觀察周期,把旅客對某一家航空公司的價值貢獻度與對全市場所有航空公司的價值貢獻度相比較,從全民航市場角度觀察旅客的價值。

如表1所示,在每一個二級維度下,又建立了一組描述該維度的三級數據指標。這些指標的取值規則各不相同。有的數據指標有多種取值,例如常旅客級別可以有白金卡、金卡、銀卡和普卡四種取值;座位偏好可以有靠窗、靠走道、靠前和靠后四種取值;餐食偏好可以根據機上供應種類,有十余種取值選擇。有的數據指標僅有“是”的顯性取值,例如動態價值和市場價值維度下的三級數據指標,如果旅客滿足篩選規則,則相應種類的旅客數據指標為“是”取值,如果沒有滿足篩選規則,則在該維度下沒有該旅客數據指標。

基于對民航旅客數據的分析、提取和整合的過程,得到了上述多層次、多維度的民航旅客價值數據模型。該模型為全面地了解和分析旅客,進一步把握和判斷旅客的價值,奠定了重要的基礎。

3.3 民航旅客動態價值計算

前面介紹的多維度民航旅客價值數據模型,為分析和判斷旅客價值提供了一套分析維度和指標的全集。在實際的民航業務管理和旅客服務應用實踐中,航空公司通常會選取自己重點關注的一組維度和指標,并對這些指標進行了數值化賦值,用于旅客價值計算。在維度和指標的選取和賦值過程中,可能會用到上鉆、下鉆、切片、切塊、旋轉等操作對數據進行處理[9],民航旅客動態價值計算流程如圖3所示。

圖3 民航旅客動態價值計算流程圖

對于航空公司根據某類旅客價值分析業務選取的多個維度和指標的集合,定義為G(Group),這個集合包含N個維度和指標R(Rule),既G={R1,R2,R3,…,Rn}。每一個價值維度或指標R(Rule)都對應一個價值數量V(Value),每個價值數量對應一個權值K,表示在總的價值中該類規則的比重。則按照如下的公式,對旅客價值進行計算:

把每一類維度和指標的價值數量,根據所占權重比例,加權求和(其中,各項權值的總和為100%),即可得到根據所選維度和指標計算的旅客價值。從上面的旅客價值計算公式可以看到,旅客價值計算的關鍵因素有三個:一是維度和指標集合,這決定了旅客價值計算模型的動態結構,明確了參與旅客價值評估和計算的指標范圍。二是維度和指標的數字化賦值,對于進行計算的維度和指標的賦值,需要進行標準化定義[10],以確保各項指標采用同一套數值系列來描述旅客的價值。三是維度和指標的權值,決定了每個維度在計算結果中所占比重,直接影響導數據計算的結果。

這里給出的是普適性的民航旅客價值計算規則和算法,航空公司可以根據特定的業務需求,選擇不同的旅客價值維度和指標的集合,針對特定的旅客群體進行價值評估和計算。

4 結語

民航旅客價值模型分析和價值計算,為民航運輸和服務企業對民航旅客群體進行細分,更全面地掌握旅客的全方位信息,制定各種營銷和服務政策維系高價值、高貢獻率的高端旅客,為旅客提供更周到的個性化服務提供了重要的數據基礎和決策依據。本文闡述了旅客細分和旅客價值計算,對于航空企業的收益管理和運輸服務以及中國民航新一代旅客服務信息系統建設中的重要意義。介紹了基于多種異構數據源進行數據處理和多維度數據建模所用到的關鍵技術,并結合中國民航旅客價值建模和計算的實際業務案例,搭建了民航旅客價值建模和計算的系統架構,詳細介紹了民航旅客數據處理、價值模型構建和旅客價值計算的處理過程,為基于多維度數據分析的民航旅客價值計算提供了可行的解決方案。

[1] 胡運發.數據與知識工程導論[M].北京:清華大學出版社,2003. HU Yunfa. Introduction of data and knowledge engineering[M]. Beijing: Tsinghua University Press,2003.

[2] 祁利剛.數據倉庫數據抽取轉換加載系統的研究[D].保定:華北電力大學,2007. QI Ligang. Research of data warehouse data extraction and transformation loading system[D]. Baoding: North China Electric Power University,2007.

[3] 姚志鵬.數據抽取、轉換、加載描述規范的研究與應用[D].青島:青島大學,2013. YAO Zhipeng. Data extraction, transformation, loading description specification research and application[D]. Qingdao: Qingdao University,2013.

[4] 張建興.中國郵政速遞數據倉庫系統ETL的設計與實現[D].北京:北京交通大學,2014. ZHANG Jianxing. Design and implementation of China post express delivery data warehouse system[D]. Beijing: Beijing Jiaotong University,2014.

[5] 楊勝利.ETL在期貨CRM數據中心中的應用研究[D].杭州:浙江工業大學,2012. YANG Shengli. ETL in the CRM data center of the futures market[D]. Hangzhou: Zhejiang University of Technology,2012.

[6] 劉豹.一種分布式ETL系統的設計與研究[D].北京:北京郵電大學,2014. LIU Bao. Design and research of a distributed ETL system[D]. Beijing: Beijing University of Posts and Telecommunications,2014.

[7] Paulraj Ponniah.數據倉庫基礎[M].段云峰,等譯.北京:電子工業出版社,2004. Paulraj Ponniah. Data warehouse based[M]. Duan Yunfeng, et al translated. Beijing: Electronic Industry Press,2004.

[8] Erik Thomsen.OLAP解決方案:創建多維信息系統[M].朱建秋,等譯.北京:電子工業出版社,2004. Erik Thomsen. OLAP solutions: building multidimensional information system[M]. Zhu Jianqiu, et al transalted. Beijing: Electronics Industry Press,2004.

[9] 劉慶偉.多維數據分析的實現及應用[EB/OL].中安網www.cps.com.cn工程方案,2009. Liu Qingwei. The realization and application of multidimensional data analysis[EB/OL]. www.cps.com.cn project of safety net,2009.

[10] 張波.一種民航旅客價值計算模型的研究[J].電腦知識與技術,2015,11(24):69-70. ZHANG Bo. Research on Civil Aviation Customer Value Calculation[J]. Computer Knowledge and Technology,2015,11(24):69-70.

Civil Aviation Customer Value Calculation Based on Multi-Dimension Data Analysis

DANG Yue1CAO Weidong2WANG Shuo1

(1. Travel Sky Technology Limited, Beijing 100029) (2. Tianjin Key Lab for Advanced Signal Processing, Civil Aviation University of China, Tianjin 300300)

The elite customers who have high-value and contribute more revenues to the airlines have much more importance to the airlines. Enhancing the ability of customer insight, analysis and promoting the ability of customer marketing and servicing are the significants subject of civil aviation industry. In this paper, the key technology of data extraction transformation loading , online analytical process and multi-dimension data analysis are introduced, after that, the overall architecture of the civil aviation customer value calculation based on multi-dimension data analysis is presented and the technological process of the customer data processing, the build-up of the customer value model and the customer value algorithm are elaborated. The experimental results indicates that setting up the multi-dimension customer value model and the customer value algorithm provides a convenient and feasible method for the recognition of high-value customers and for the dynamic calculation of customer value, has an important guiding significance for application.

multi-dimension data analysis, ETL, OLAP, data model, value algorithm

2016年7月12日,

2016年8月23日

民航局重大專項(編號:MHRD20150107);中國民航大學天津市智能信號與圖像處理重點實驗室開放基金(編號:2015ASP02)資助。

黨悅,女,碩士研究生,工程師,研究方向:中國民航旅客服務產品和服務系統,民航旅客細分和價值計算研究等。曹衛東,女,博士,副教授,研究方向:數據挖掘,智能信息處理。王碩,男,碩士研究生,研究方向:中國民航新一代旅客服務系統,全流程旅客服務指揮監控系統、離港系統產品、旅客自助服務產品及產品體系管理等。

TP301.6

10.3969/j.issn.1672-9722.2017.01.037

猜你喜歡
數據模型數據源多維度
空間角與距離的多維度解法
多維度助推幼兒德育工作的有效實施
多維度助推幼兒德育工作的有效實施
基于區塊鏈的微網綠電交易數據模型研究
基于Pro/E 的發射裝置設計數據快速轉化方法
一種面向傳感云的數據源質量評估框架
利用屬性集相關性與源誤差的多真值發現方法研究
多維度市南
經濟全球化對我國勞動收入份額影響機制研究——基于面板數據模型
數據有增加 圖表自適應
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合