?

基于互聯網數據的斗煙市場偏好性分析

2019-09-19 02:04楊永鋒彭桂新金一驍武云杰于建軍于建春
煙草科技 2019年8期
關鍵詞:原味烤煙香味

蘇 凱,付 博,楊永鋒,彭桂新,金一驍,武云杰,于建軍*,于建春*

1. 河南農業大學煙草學院,鄭州市金水區文化路95 號 450002

2. 河南中煙工業有限責任公司技術中心,鄭州經濟技術開發區第三大街8 號 450000

1 研究現狀

隨著互聯網的發展以及數據量的爆發式增長,大數據時代已經到來[1]。大數據中包含來自互聯網活動等不斷產生的無限量級別的數據資源以及市場調研數據資源[2],這些資源中所蘊含的巨量信息在產品設計中起到不可估量的作用[3-5]。大數據規模性、多樣性、高速性、價值性和真實性的特征決定了產品設計可基于大數據對顧客需求進行挖掘開發[6-8]。蔡波等[9]通過網絡評論爬蟲和在線問卷調查兩種方式獲取卷煙消費者的評價數據并進行分析,驗證了我國卷煙消費體驗感官評價指標的實用性和適用性。大數據蘊含的信息需要使用數據挖掘技術進行提取[10],如使用關聯規則算法挖掘卷煙配方單料煙的替換規則[11]等。關聯規則分析的目的是找出數據中各變量之間的關聯關系,在各種關聯規則算法中,Apriori 是最經典也是最常用的算法[12-14]。

近年來,隨著消費水平的提升及觀念的轉變,一部分消費者開始吸食斗煙。相關數據表明,國際煙草市場的斗煙銷量持續增長。在2000—2015年期間,美國斗煙總銷量增加了556.4%[15]。另據國家煙草專賣局經濟研究所公布的2017 年世界煙草發展報告[16]顯示,近5 年國際市場非卷煙類傳統煙草制品銷售額不斷增長、所占比例不斷提高,其中斗煙市場增長率居第三名。在國內煙草市場上,斗煙尚處于市場培育階段,近幾年各卷煙工業企業及中國煙草總公司鄭州煙草研究院均在進行相關技術研究[17-21],其中四川中煙工業有限責任公司已于2017 年推出“長城芭絲”斗煙產品。產品的設計要以消費者需求為導向[22]。目前,通過消費者評論數據分析商品質量及滿意度的研究越來越多[23-25]。但國內尚無基于互聯網數據或消費者評價數據對斗煙產品進行分析的相關研究。因此在本研究中使用Python 編程語言編寫網絡爬蟲程序,獲取國外主要斗煙產品信息及消費者評價數據并進行市場偏好性分析,以期為國內的斗煙產品開發提供參考。

2 數據采集

2.1 數據來源

斗煙產品信息及評價數據來源于TobaccoReviews.com(www.tobaccoreviews.com)。該網站包含554 個品牌的7 071款斗煙產品的信息及消費者評價數據。數據獲取時間為2018 年6 月29 日。

2.2 原始數據獲取

使用Python 編程語言編寫爬蟲代碼對Tobacco Reviews.com 網站的斗煙產品信息和評價數據進行提取,獲取斗煙產品基本信息及評價數據,包括:品牌、產品名稱、配方類型、配方組成、香味類型、評價數量及評分等。其中,評分區間為[1,4],分別對應“不推薦(Not recommended)”、“稍微推薦(Somewhat recommended)”、“推薦(Recommended)”、“強烈推薦(Highly recommended)”。

爬蟲程序使用Requests 庫請求網頁,獲得網頁源代碼;使用Beautiful Soup 庫對網頁源代碼進行解析,獲得解析內容,并通過Beautiful Soup 庫的節點選擇器及正則表達式庫進行數據提取,將提取后的數據保存至CSV 文件中。主要爬蟲過程如下:

(1)請求http://www.tobaccoreviews.com/browse鏈接,提取所有品牌信息,并獲取品牌詳情頁面鏈接;

(2)請求品牌詳情鏈接,獲取該品牌所有斗煙產品信息,并獲取各產品詳情頁面鏈接;

(3)請求各產品詳情頁面鏈接,獲取斗煙產品基本信息及消費者評價數據,并保存至CSV 文件中。

2.3 原始數據處理

通過網絡爬蟲共得到81 014 條斗煙產品評價數據,涵蓋554 個品牌的7 071 款產品。刪除評價數量小于等于3 條的產品數據,得到269 個品牌的2 845 款產品共76 555 條有效評價數據。評分離散變異系數低于0.4 的評價數據共68 291 條,占有效評價數據的89.21%。其中,平均得分≥3.0 分即消費者認為值得推薦的產品共有1 527 款。因此,在保證數據量的基礎上,選取評分離散變異系數<0.4 的數據進行品牌偏好性分析及關聯規則挖掘,選取產品平均得分≥3.0 分的產品進行香味類型、配方類型及配方組成市場偏好性分析。

2.4 軟件環境

本研究中使用Python 編程語言編寫網絡爬蟲及數據分析代碼,軟件環境為Python 3.6.4,IDE 為PyCharm,主 要 使 用 的 庫 有Beautiful Soup、Re、Requests、Numpy、Pandas、Matplotlib 及Seaborn。

3 數據分析

3.1 斗煙產品市場偏好性分析

3.1.1 斗煙品牌

評價數量一定程度上反應產品的市場占有率,分析評價數量排名前20 的斗煙產品(表1)可知,斗煙產品的市場占有率與生產廠商的知名度存在較大關系,登喜路(Dunhill)、斯堪的納維亞煙草公司(STG)等知名廠商的斗煙產品較受歡迎,但是個別產品的平均得分卻不高,平均得分<3.0的有8 款產品,分別是Prince Albert,Captain Black Regular (white),1792 Flake,University Flake,Royal Yacht,Erinmore Flake,Mixture:Scottish Blend 和1-Q。說明品牌效應在一定程度上影響市場的偏好性,但產品質量仍是市場偏好性最重要的影響因素。

表1 評價數量最多的前20 款斗煙產品的信息Tab.1 Information on the top 20 pipe tobacco brands with the largest number of comments

對各品牌所有斗煙產品的評論數量統計求和(表2),大型斗煙生產企業(如McClelland、Mac Baren、Cornell &Diehl 等)的產品數量及產品市場占有率均較高,并且斗煙產品的市場評價也較好。G. L. Pease品牌斗煙產品的平均得分最高,為3.23 分;Gawith,Hoggarth & Co.品牌的得分僅次于G. L. Pease,為3.16分;Samuel Gawith和Dunhill 品牌的得分相同,為3.14 分。

表2 評價數量排行前十的品牌信息Tab.2 Information on the top 10 brands with the largest number of comments

上述結果表明大型斗煙生產企業所生產的斗煙產品具有較強的市場競爭力。一方面大型企業能夠保證生產原料、加工工藝的穩定性,同時大型企業擁有更多、更優秀的配方設計師及產品調香師,能夠保證產品質量及其穩定性;另一方面,品牌效應對斗煙產品的銷售具有一定的影響。

3.1.2 斗煙香味類型

圖1 消費者推薦的斗煙產品中原味和調味型的比例Fig.1 Proportions of original flavor and flavored pipe tobacco products recommended by consumers

對消費者推薦的斗煙產品中原味及調味型進行統計(圖1)可知,原味(None)型斗煙產品所占比例較高,為63.13%。通過考察調味型斗煙產品香味類型發現,各品牌斗煙產品的香味各不相同,因此采用詞頻分析法,對調味型斗煙產品的香味類型進行分詞處理,匯總后統計各種香味出現的詞頻(表3)。由表3 可知,在調味型斗煙產品中,香 草(Vanilla)、朗 姆 酒(Rum)、可 可/巧 克 力(Cocoa/Chocolate)及柑橘(Citrus)香味型斗煙產品較多,均大于10%。

表3 消費者推薦的調味型斗煙產品中不同類型香味的使用情況(前十)Tab.3 Usage of different types of flavor in flavored pipe tobacco products recommended by consumers (top 10)

上述結果表明斗煙產品香味類型偏好性主要表現為原味型斗煙產品最受消費者歡迎;而調味型斗煙產品中,香草、朗姆酒、可可/巧克力及柑橘香味易被消費者接受。

3.1.3 斗煙配方類型

對消費者推薦的斗煙產品的配方類型進行分析(圖2)可知,芳香調味式(Aromatic)斗煙產品數量最多,占總數量的23.90%;英式(English)斗煙產品數量其次,占總數量的18.01%;第三為純烤煙式(Straight Virginia)斗煙產品,占總數量的11.26%。同時,烤煙+百里科煙草(Virginia+Perique)、白肋煙類型(Burley Based)及巴爾干式(Balkan)的斗煙產品數量也較多,所占比例均大于5%。

上述結果表明消費者最喜愛的斗煙產品配方類型為芳香調味式,而英式和純烤煙式斗煙產品的所占比例也較高。說明芳香調味式、英式和純烤煙類型的斗煙產品具有較高的市場認可度。

3.1.4 斗煙配方組成

在消費者推薦的1 527 款斗煙產品中,配方僅由一種類型原料組成的斗煙產品共有326 款,其中僅使用烤煙(Virginia)、黑板煙(Black Cavendish)、白肋煙(Burley)、板煙(Cavendish)的斗煙產品分別有225、38、30、10 款,配方中僅使用東方煙草/土耳其煙草(Oriental/Turkish)、拉塔基亞煙草(Latakia)、肯塔基煙草(Kentucky)、百里科煙草(Perique)、馬里蘭煙(Maryland)及雪茄煙(Cigar Leaf)的斗煙產品數量均少于10 款。使用詞頻分析法對斗煙產品配方組成進行分析,結果(表4)顯示,在產品配方中使用烤煙的斗煙最多,占85.27%,在配方中使用拉塔基亞煙草的斗煙數量僅低于烤煙,占36.87%。使用白肋煙及東方煙草/土耳其煙草的斗煙產品數量也較多,均超過30%。

圖2 消費者推薦的斗煙產品中不同類型配方產品比例Fig.2 Proportions of different types of formula products of pipe tobacco recommended by consumers

表4 消費者推薦的斗煙產品中不同類型煙葉原料的使用情況Tab.4 Usage of different types of tobacco leaves in pipe tobacco products recommended by consumers

上述結果表明,在產品配方中使用烤煙、拉塔基亞煙草、白肋煙及東方煙草/土耳其煙草等煙葉的斗煙數量較多,同時,配方中僅使用單一類型煙草的斗煙產品也有一定的市場份額??緹煙熑~含糖量較高,是斗煙原料中口感最為醇和的煙葉,因此在配方中最常使用。但受到煙葉特性的影響,烤煙煙葉燃燒時溫度較高,使用煙斗進行抽吸時會在口腔中產生灼燒感,一般在斗煙配方中不宜過多使用[26]。對于吸食斗煙的消費者來說,斗煙產品只是一種“原料”,消費者會根據自己的喜好調配出適合自己的斗煙絲,即可能會存在“二次配方”的現象。所以只使用一種類型煙草作為配方的斗煙產品,一方面可以滿足消費者對特定煙草吸食的需求,另一方面可以滿足消費者吸食斗煙時“二次配方”的需求。

3.2 配方原料及香味類型關聯分析

通過分析可知,斗煙產品品牌、香味類型、配方類型及配方組成均對斗煙產品的市場偏好性產生影響,因此為進一步研究斗煙產品配方組成、香味類型與產品平均得分之間的關聯關系,使用Python 編程語言編寫Apriori 算法,對斗煙產品數據進行分析。

3.2.1 基于Apriori 的配方原料及香味類型關聯規則挖掘算法

將斗煙產品原料組成及香味類型拆分,使用英文字母(A~M)替代產品原料組成,使用阿拉伯數字(11~67)替代香味類型,并使用羅馬數字(Ⅰ、Ⅱ、Ⅲ)替代評分數據,其中Ⅰ代表分數<2.0 分,Ⅱ代表分數≥2.0 且<3.0 分,Ⅲ代表分數≥3.0 分且≤4.0 分,表5 為替換后的產品信息。

使用Apriori 算法對斗煙產品的配方原料及香味類型關聯規則進行挖掘,主要步驟[13]如下:

第一步:找出所有的頻繁項集。

首先獲取1 項候選集C1,剔除小于最低支持度閾值的項集得到1 項頻繁集L1;通過L1自身連接產生2 項候選集C2,保留C2中滿足約束條件的項集得到2 項頻繁集……;依次循環,直至得到最大頻繁項集Lk。

第二步:由頻繁項集產生強關聯規則。

對于每個頻繁項集的所有非空子集(這些非空子集一定是頻繁項集),若滿足其置信度≥最小置信度閾值,則該規則為強關聯規則。

表5 使用英文字母、阿拉伯數字及羅馬數字替換后的產品信息Tab.5 Product information after replaced by English letters, Arabic numerals and Roman numerals

在關聯規則中,支持度為項集A、B 同時發生的概率,即:

置信度為項集A 發生時項集B 發生的概率,即:

其中,Support_count(A∪B)為包含項集(A∪B)的事務數,Total_count 為所有事務總個數,Support_count(A)為包含項集A 的事務數。

為了使挖掘的規則更好地體現配方組成及香味類型與評分之間的關系,在研究中以支持度閾值0.1、置信度閾值0.7 分析挖掘結果中為“Ⅲ”的規則。

3.2.2 關聯規則挖掘結果

關聯規則挖掘結果(表6)表明,滿足最低支持度及置信度的強關聯規則共有20 條。從支持度來說,配方中使用烤煙的斗煙、原味型斗煙及配方中使用烤煙的原味型斗煙得分為“Ⅲ”的支持度最高,分別為59.29%、43.90%、39.71%;從置信度來說,配方中使用百里科煙草和烤煙的原味型斗煙、配方中使用拉塔基亞煙草和東方煙草/土耳其煙草的原味型斗煙以及配方中使用拉塔基亞煙草、烤煙和東方煙草/土耳其煙草的原味型斗煙得分為“Ⅲ”的置信度最高,分別為81.56%、81.31%、81.30%。

表6 關聯規則算法對斗煙產品信息的挖掘結果統計①Tab.6 Statistics of mining results of pipe tobacco product information by association rule algorithm(%)

綜上所述,得分為“Ⅲ”即得分≥3.0 分且≤4.0分的斗煙產品,其配方中主要使用了百里科煙草、烤煙、拉塔基亞煙草、東方煙草/土耳其煙草、白肋煙等煙葉原料,其香味類型主要為原味。且在配方中使用百里科煙草和烤煙煙葉的原味型斗煙產品,其得分“Ⅲ”的置信度最大,為81.56%,即該組合得分大于等于3 分的概率最高,為81.56%。

因此,上述結果表明在配方中使用百里科煙草、烤煙、拉塔基亞煙草、東方煙草/土耳其煙草、白肋煙等原料的原味型斗煙產品受市場歡迎程度較高,其中最受消費者喜愛的組合為配方中使用烤煙和百里科煙草的原味型斗煙產品。主要原因可能是原味型斗煙產品中不添加香精香料,百里科煙草、拉塔基亞煙草、東方煙草/土耳其煙草等煙葉獨特的香氣可以使產品香氣更加豐富,提升產品吸食品質[26]。

4 結論

基于斗煙產品信息及網絡評價數據分析消費者對斗煙產品品牌、香味類型、配方類型及配方組成等方面偏好性,結果表明斗煙產品市場偏好性主要體現在:大型斗煙企業所生產的斗煙產品;原味型斗煙產品;配方類型為芳香調味式、英式、純烤煙式的斗煙產品;產品配方中使用烤煙、白肋煙、拉塔基亞煙草、百里科煙草和東方煙草/土耳其煙草等原料的斗煙產品,且配方中使用上述原料的原味型斗煙產品更受市場歡迎?;诨ヂ摼W數據的斗煙市場偏好性分析可為中國斗煙產品研發提供借鑒。

猜你喜歡
原味烤煙香味
神奇香味在哪里
原味天下:筑夢電商 服務“三農”
烤煙上炕機械研制
不同追肥對烤煙品質的影響
初中原味英語閱讀實踐探究
初中原味英語閱讀實踐探究
烤煙專用水溶根施肥技術介紹(二)
烤煙專用水溶根施肥技術介紹(一)
原味·秭歸端午
甜美的香味
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合