?

淺議大數據時代的社會學研究

2019-12-18 02:59張琳
魅力中國 2019年42期
關鍵詞:社會學數據挖掘網民

張琳

(河北省科技工程學校,河北 保定 071000)

一、大數據與傳統數據的區別

(一)定義

維基百科對大數據給出的定義是:“大數據(Big Data 或MegaData)或巨量數據、海量數據,指的是所涉及的數據量規模大到無法通過人工在合理時間內達到截取、管理、處理并整理成為人類所能解讀的信息?!边@是從數量的級別 (PB或 ZB)來定義大數據的,主要講的是數據量巨大使得用常規的數據分析技術無法挖掘和處理。

(二)類型

傳統數據的類型以結構化為主,這是基于明確的研究目標而設置的標準化的數據收集規范。與此相對應,大數據的類型除了少量的結構化數據之外,大量以非結構化或半結構化的形式存在,包括網絡日志、音頻、視頻、圖片、地理位置信息等等,類型多樣的數據對數據處理能力提出了更高的要求。

(三)來源

傳統數據多數來源于抽樣調查或統計調查。而抽樣調查一般按照隨機原則,設計嚴格的抽樣程序來獲取樣本數據。國內外學術界有影響的問卷調查數據多數采用多階段、多層次與人口或勞動力規模成比例的概率抽樣方法 (PPS)以確定最終的抽樣單位,通常采用面訪的方式獲得樣本數據;而大數據是基于現代科技手段,采取實時監控、測量、存儲的方式及時獲得數據。例如,基于互聯網和現代智能技術所獲得的交通流量、醫療衛生健康、氣象水文、環境變化、社交娛樂互動、商業物流等方面的記錄,尤其是近年來基于互聯網的瀏覽、搜索引擎、上傳下載等行為產生的數據,成為大數據的主要代表。

(四)時效性

傳統數據的收集和清理的時間較長、處理速度較慢、時效性不強。多數傳統數據是靜態的截面數據,即使追蹤調查數據 (Panel Data)也至多是兩三年以后對同一期群的事后回溯性訪問;大數據的處理速度快,時效性高。大數據可以及時更新、及時變化、及時追蹤。這是大數據挖掘區別于傳統數據挖掘最顯著的一個特征。

二、大數據時代社會學的研究

在企業、政府和社會各界紛紛為大數據時代的到來而歡欣鼓舞之際,我們還更需要進行更為深入的理性思考。我們認為,在社會學方法論和研究方法上如何突破,仍然是亟待社會學家解決的首要問題。大數據挖掘技術和分析方法給社會學學科發展帶來難得的歷史機遇的同時,也給社會學研究帶來了嚴峻的挑戰。

(一)樣本偏差問題與傳統的社會學定量分析相比,大數據的樣本從數量上更接近于總體,但是這個總體是有偏差的、有局限性的。中國有 7.72億網民,而中國總人口 13.9億,那么通過互聯網抓取個人信息的方式來獲得的大數據依然無法涵蓋6.18億非網民。在實際的研究中,研究者往往僅依靠一個或幾個門戶網站的后臺數據作為分析資料,那么這種大數據僅是使用該網站用戶的數據,不能將分析結果推論到其他網民,更不能推論到全體國民。因此,社會學研究者應該明白,大數據中的總體是有局限、有偏差的總體,其他難以通過大數據方法抓取的個體并未作為研究對象包含在總體中。因此,對于研究結論的推論也只能在有限總體的范圍內才可能是有效的或可靠的;此外,互聯網網民的個人活躍度存在很大差異,其活動或痕跡被抓取的概率也不同,因此互聯網大數據的形成既不是抽樣,也遠非隨機,而是具有極大的偶然性

(二)重要變量的缺失問題雖然一些網站的后臺數據也能提供網民的性別、年齡、職業、收入、家庭結構、居住地、出生地等社會人口信息,但是這些自我填報沒有經過實名認證的信息存在著很大的水分甚至虛假成分?;ヂ摼W區別于現實世界的一個重要特征是其虛擬性。網絡世界網民身份具有不可靠性。作為社會學定量分析最關鍵的這些分類信息如果缺失或虛假的話,以此數據分析所得結論的可靠性就會大打折扣。

(三)相關關系解釋性不強的問題依據相關關系而非因果關系分析所獲得的結論在解釋性研究中的效度不強。如前所述,多數大數據的統計分析僅僅止步于相關關系。但是,社會學家很清楚,相關關系不一定是因果關系。熟悉統計學的學者都知道,當數據的樣本量達到一定程度以后 (更不用說大數據這樣的海量樣本),任何兩個根本不相關的變量之間都可能存在很顯著的相關性 (很可能是虛假相關),諸如美國沃爾瑪超市數據所揭示的季節性風暴到來時蛋撻與颶風用品銷售量的之間統計相關關系、西班牙大選投票數據所發現的天氣狀況不佳與保守黨得票率之間統計相關關系的虛假性。由于缺乏更多的控制變量可以應用,大數據的社會學統計分析目前基本上還沒有運用中高級統計模型的因果分析的成果。實際上,除了相關關系分析之外,多元回歸模型、中介模型、多層次對數模型、曲線模型等因果模型,在解釋性研究中發揮著關鍵的作用。如何運用因果模型進行大數據的社會分析還需要進一步的研究。

(四)各種大數據的整合還是一個難題雖然公共數據的開放與共享正在成為一種趨勢,互聯網門戶網站和互聯網公司所開放的數據還相當粗放和有限,多數開放數據是研究者利用爬蟲技術從網站上抓取的未經加工、篩選的原始數據,政府職能部門、公立機構 (如銀行和金融機構、通訊公司、醫療衛生機構)和非公立部門(如私營互聯網公司和大數據公司)、社會組織等掌握的數據的開放程度也非常低。在我國政府將大數據產業作為一種基礎性戰略資源重點支持的宏觀背景下,如果各部門都將自己擁有的壟斷性大數據作為“私有資源”的話,那么勢必會形成“數據孤島”現象。不僅會造成現有數據資源的浪費,而且還會造成同類數據挖掘和分析的重復投入。國內外關于大數據科學領域的應用目前主要集中于資料的收集和儲存方面,對于用什么方法分析這些海量數據,用什么理論解釋互聯網世界的社會秩序、社會規范、社會角色、社會結構、社會互動、社會分層與社會不平等這些社會學的經典問題,目前國內外還都處在同一起跑線上。因此,通過我國社會學家與其他社會科學家、自然科學工作者特別是計算機專家、統計學專家的協同創新和聯合攻關,有望提出具有獨創性和原創性的分析方法、研究范式、理論體系和國際標準,在全球范圍內領跑。

猜你喜歡
社會學數據挖掘網民
改進支持向量機在特征數據挖掘中的智能應用
基于OBE理念的非社會學專業“社會學概論”教學改革研究
第九屆全國科學社會學學術會議通知(第一輪)
中國社會學會農業社會學專業委員會成立
探討人工智能與數據挖掘發展趨勢
邊疆研究的社會學理路——兼論邊疆社會學學科建構之必要性
基于事故數據挖掘的AEB路口測試場景
軟件工程領域中的異常數據挖掘算法
突發公共事件中的網民心理與風險溝通
有感“網民節”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合