?

八卦大數據

2018-02-24 17:47
高中時代 2017年8期
關鍵詞:八卦關聯明星

“萬物皆可用大數據分析”,這些年來,數據的規模越來越大,各種大數據存儲平臺、分析平臺、數據處理工具、數據展現工具以及數據分析模型層出不窮。隨著各種大數據技術越來越成熟,好事的人們開始使用這項技術和相關的工具鏈去分析一些有趣的事,得出了很多頗為八卦的結論。

社交媒體007

大數據擅長把海量分布在不同時間不同地點的數據收集起來,通過各種模型化的處理,將數據之間的關聯和規律展現出來,從而挖掘出一些“不為人知”的結論,適合被挖掘的數據首推社交媒體數散落Facebook、Twitter、微博等大型社交媒體中的位置、時間、帳戶關聯和人物輿論傾向等信息,這些都是非常好的商業信息,也是非常有價值的“猛料”,“狗仔隊”們自然不會放過。

中山大學軟件學園的同學們就開發出這樣一款“網絡神算”應用。它可以不斷獲取多個社交媒體中目標帳戶的各種信息,嗯,再將這些數據集中后進行大數據分析,就能精準分析出任意微博用戶的喜好、密友等個人信息,“八卦材料”就這么輕輕松松地生成了。在這份材料中,可以有你的院系專業、專長愛好、同學密友、行為特點……不需要“內鬼”,不需要黑客,類似的“社交媒體007"就可以把目標人物的各個方面都調查得清清楚楚,讓每個在社交網絡上的人都透明起來。

事實上,這種技術早就在娛樂圈里流行起來。美國著名歌星瑪麗亞·凱利(Mariah·Carey)以形象多變出名,每次公開露面(或者出門被跟拍),她的著裝都會成為八卦小報的話題。光是事后八卦還不夠,她的歌(狗)迷(仔)們已經開始用大數據和計算機來預測她下一次公開亮相穿什么。在這個模型中,與瑪麗亞·凱利著裝有關的大數據被分為不同的場合特征,同時特征庫會考慮當天的天氣、出場的時間、當季流行的樣式和顏色等等,最終可以預測出她當天穿什么顏色衣服出場,是裙裝、褲裝還是晚禮服。

無獨有偶,國內也有人把過去27個月中近73億次瀏覽的中文社交媒體數據進行分析對比,考察當紅女星的熱度和粉絲評價。結果發現,范冰冰是大眾眼中不折不扣的話題女王和熱度冠軍。雖然也有像高圓圓和周迅這樣的女星能夠搏得絕大多數的人的喜愛,但是范冰冰的熱度是無人能及的。對范冰冰的評價往往是美艷和霸氣,即使一些負面評價出現,也為推高熱度做出了貢獻。有意思的是,該技術自動搜集的范冰冰相關的數據中,大部分來自于Twitter,這么說“冰冰棒”的影響力遠不止中國本土哦。

“3·15”大數據打假直指明星們的微博水軍,TFBOYS三位小偶像首先中槍,在“明星最敬業水軍榜”的前十名中榜上有名。在他們的微博中,95%以上的活躍度來自于不到5%的“水軍”粉絲。在數量驚人的轉發量和點贊量當中,很多都非常類似,不禁讓人懷疑這些“最敬業”的粉絲是不是都是網絡機器人。同樣的應用背景下,Facebook也在幾年前開始利用大數據技術,評價名人帳戶的真實性,意在發現那些“冒充”名人的家伙。

數據洪流兇猛

大數據和社交媒體配合,使用起來比論壇和小報的威力要大得多。不想被八卦“連累”的名人們自然也不會被動連接,他們與各自的經紀公司也操起了大數據的武器,把這個高大上的新技術當作自己個人品牌營銷的一部分。

這不,英國著名歌星“阿呆姐”的團隊就意識到來自粉絲的大數據的重要性。在她新專輯和演唱會門票的在線銷售中,“阿呆姐”的粉絲們不得不首先在官方網站上進行預登記《Pre-registration),同時填寫一份調查問卷。一周之內,他們就收集了來自于幾百萬粉絲的大數據。后續,她的團隊會根據粉絲的情況有針對性地展開營銷和包裝,相信“阿呆姐”有了大數據保駕,也會越來越火的。

美國著名多棲明星Lady Gaga也是較早“站隊”大數據的明星。在她強大的個人品牌背后有一名叫特洛伊·卡特(Troy Carter)的助手。他很早就認識到Facebook和Twitter上粉絲所傳達的海量數據具有非常巨大的商業價值。要知道,Lady Gaga可是有5100萬Facebook粉絲和3100萬Twitter粉絲,每個粉絲一些微小的碎片化的舉動匯聚在一起,都可以成為一條巨大的“數據洪流”?!翱炊@當中的趨勢就可以看清下一步做什么?!盠ady Gaga這些年的大紅大紫和大數據的貢獻是分不開的。

在今年,中國著名的新聞平臺也把其娛樂頻道的數據整合起來,發布了“娛樂行業大數據報告”,這在娛樂業眾明星當中取得了不小的反響。在其頒獎典禮上,眾多明星悉數出席,為大數據“捧場”。大數據可以更八卦,也可以讓明星們更有名。數據是中立的,分析是客觀的,大數據讓這一切不再“眾口難調”。

大數據也遭懟

看到大數據這么風光,也有人不樂意了,有一些“懟”大數據的人士開始從中挑剌,把大數據也放在八卦當中了。

有一個著名的“懟”大數據的笑話一直流傳著。一頭豬發現每天飼養員發給它的飼料不管在質量上還是數量上都有很大不同。這些會和天氣、每天的時間、節假日等等都有關系。豬圈的幾個飼養員所支持的黨派還不同,所以發下來的飼料的情況甚至和美國總統大選的進展也有一定的關聯。這是一頭有統計背景和IT技能的豬,它開始細心地收集這些相關的數據,并把數據放進自己的大數據模型中進行挖掘。經過三個月的努力,豬發現自己的飼料統計分析和預測模型已經足夠成熟了,可以準確地預測今后三天的飼料質量和數量。很遺憾,就在這個時候,豬被送進屠宰場了,一切都沒有意義了。這個例子告訴我們,大數據不是萬能的,尤其是在不同生命周期的應用中,是否使用和怎么使用大數據都有很大的差別。

還有人對大數據技術的關聯分析能力產生異議。有個叫泰勒·維根《Tvler Vigen)的人直接對準大數據的七寸,發布了一系列大數據關聯的例子,證明很多所謂的用大數據找關聯性都是無稽之談。有趣的是,很多看似“強相關”的數據完全是風馬牛不相及。比如說:在過去的十年間,全球用床單上吊自殺的人的數量與全球芝士的消費量呈現出幾乎相同的趨勢,這兩者之間真的有關聯么?火車與汽車相撞的死亡人數趨勢也和美國從挪威進口的原油趨勢相類似,不過我們很難從現實生活中在這兩者之間找到什么聯系。這么說,難道一直充當“八卦先鋒”的大數據自己也是個亦真亦假的“八卦”而已?

更有些好事者開始逐一驗證傳說中成功的大數據案例的真實性。

坊間流傳的一個著名大數據案例來自沃爾瑪:啤酒的銷量和嬰兒尿布的銷量是有關聯的。原因是,新生兒的爸爸們往往在采購嬰兒尿布的時候,也為自己采購啤酒。所以,沃爾瑪把啤酒和嬰兒尿布擺在一起,可以同時促進這兩個產品的銷售。有人因此跑到各大超級市場調查貨架的擺放情況,發現幾乎沒有一家超市把啤酒和嬰兒尿布放在一超。難道這個故事只是個傳說?

總的來說,不是大數據越來越八卦了,而是八卦的人們學會使用大數據了?!吧褚粯印钡拇髷祿膊辉偈悄莻€無所不能的利器,它自己也陷入爭議當中。不過,可以預見的是,隨著人類可以采集和駕馭的數據越來越多,分析和挖掘模型越來越成熟,還是會有更多的“八卦”涌現出來。無論這些結論是否合理,大數據“前進的步伐”已經停不下來了。endprint

猜你喜歡
八卦關聯明星
年輕的時候要少聽八卦
奇趣搭配
拼一拼
明星們愛用什么健身APP
智趣
扒一扒明星們的
誰是大明星
試論棋例裁決難點——無關聯①
王培生八卦散手(二)
小八卦
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合