?

淺談大數據技術在招聘崗位分析中的應用

2021-06-03 04:55連壯
科學與信息化 2021年14期
關鍵詞:爬蟲海量集群

連壯

廈門城市職業學院 福建 廈門 361008

就業是民生之本,是人民改善生活的基本前提和基本途徑。政府工作報告指出,“做好高校畢業生、退役軍人、農民工等重點群體就業工作?!本蜆I是最大的民生,是“六穩”“六?!敝?。2021屆全國高校畢業生人數將達909萬人,再創歷史新高,加上往屆待就業畢業生和歸國留學生,實際需要就業人數預計超1000萬人。但大學生就業的結構性矛盾仍然存在,畢業生就業難和用人單位招工難現象并存,一方面高校畢業生就業期望值越來越高,另一方面相關用人單位難以招到合適的人才[1]。

大數據已成為IT界最炙手可熱的名詞,在全世界引領新一輪數據技術革命的浪潮。在各方面深刻影響著當今社會。大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能處理具有更強決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[2]。近年來互聯網數據呈現出爆炸式指數級的增長,招聘網站的崗位數據也不例外,大部分的用人單位都是通過互聯網招聘網站發布單位的招聘崗位需求。這些海量的招聘崗位信息要如何采集、存儲?如何處理計算處理?如何從繁多招聘崗位數據中統計分析并挖掘出有用的信息?如何對信息進行展示?解決這些問題不但有助于解決大學生等就業群體就業難的問題,而且也有助于就業群體高質量就業,有助于高校改進課程內容,培養出更多貼合社會需要的人才?;ヂ摼W上的招聘崗位信息多為非結構化的數據,筆者采用Hadoop為核心的大數據技術從大數據平臺構建、采集崗位信息、數據清洗及挖掘、大數據可視化展示等方面對上述問題進行應用研究。

1 構建Hadoop大數據平臺及招聘崗位信息的采集和存儲

Hadoop是一個開源軟件框架,可編寫和運行分布式應用,處理大規模數據。Hadoop 框架的核心是HDFS和Map Reduce。Ambari是基于Web的Apache Hadoop集群管理工具,提供對集群部署、監控和管理。同樣也支持對HDFS、Hadoop Map Reduce、Hive、Mahout、HBase、ZooKeeper、Oozie、Pig以及Sqoop等工具的創建和管理。它提供了一個查看集群工作狀態的控制面板,可以通過控制面板來瀏覽Hadoop應用程序的當前狀態以及遇到的錯誤[2]。筆者采用3臺CentOS7服務器通過Ambari構建Hadoop分布式集群,從而構建出大數據平臺。其中一臺服務器為master節點,另外兩臺服務器為slave節點,并且可以通過動態添加的方式擴展節點。Ambari的圖形界面也非常有助于平臺管理員去管理維護和監控Hadoop集群。如圖1所示。

圖1 Ambari部署、監控、管理Hadoop集群

互聯網上的招聘崗位信息眾多,筆者使用java編程語言,利用Web Magic開源靈活的Java爬蟲框架,快速開發出一個高效、易維護的爬蟲[3]。借助Web Magic 爬蟲框架從招聘網站采集就業崗位數據,配置爬蟲數據萃取表達式,對采集到的HTML內容提取出csv 格式,數據內容包括崗位、公司、月薪、福利、職位描述、職位要求等。對采集數據進行簡單的篩選,保留有價值的信息。HDFS是一個分布式的海量文件存儲管理系統,可以將超大文件分布式存儲在不同服務器節點上,筆者將采集的崗位數據信息存儲到Ambari大數據平臺的HDFS中。

2 崗位數據的處理、統計和挖掘

由于招聘網站上招聘信息編輯工作是由各個公司自主完成發布的,因此存在著數據信息的多樣性,即使在抓取環節過濾掉了大量的“垃圾”崗位信息,依然存在各種各樣的崗位名稱表述方式。因此采用Map Reduce計算框架,定制個性化的清洗規則(例如規范化崗位名稱等),高效地對大量崗位文本信息進行處理。Hadoop Map Reduce是一個軟件框架,程序員可以通過該框架將應用程序分布運行在不同的服務器節點上,并以可靠的、具有容錯能力的方式并行處理海量的崗位數據集。

Hive是Hadoop項目中一個重要的子項目,也是Apache項目基金會下的一個開源項目。Apache Hive將數據存儲在HDFS文件系統中,并在該文件系統中進行大數據分析。Hive是基于Map Reduce計算框架的,可以使程序員采用和SQL相似的操作,將類SQL語言轉換為Map Reduce任務進行運行,從而快速實現Map Reduce統計,不需要開發專門的Map Reduce應用[2]。通過Hive使用Java語句和類SQL語句可以對崗位的地點、發布時間、薪資待遇、學歷等進行處理并統計出相應的結果,這些結果可以給就業群體提供幫助,也可以給高校提供參考。Hive讓有數據庫基礎的開發者不需要了解底層的Map Reduce過程,就可以讀寫并統計大量的崗位數據。

通過上述對崗位數據統計后,還可以進一步地對數據進行挖掘,筆者采用K-means 文本聚類的方法來進行數據挖掘出不同崗位對應的技能,利用Mahout自帶的方法將文本信息轉換為<詞ID,詞頻>的向量形式[2],通過聚類的方式可以挖掘不同的崗位所需要的技能點和技能點對崗位的重要性程度的量化。通過學生的技能成績和崗位分析得到的技能權重進行相似度匹配,從而給不同的學生個性化推薦不同的崗位。

3 大數據可視化展示

在對崗位數據分析處理、統計挖掘之后,需要借助數據可視化工具將分析結果直觀地展現出來??梢赃x用電子表格(Excel)和ECharts來進行崗位數據的可視化展示。Excel 是微軟公司開發的辦公套裝軟件的組成部分,它可以對各種數據進行處理、統計分析和輔助決策操作,廣泛地應用于眾多領域,具有簡單易用的特點。ECharts是一個使用 JavaScript 實現的開源可視化庫,可以流暢地運行在PC和移動設備上,兼容當前絕大部分瀏覽器(IE8/9/10/11,Chrome,Firefox,Safari等)。底層依賴矢量圖形庫 ZRender,提供直觀,交互豐富,可高度個性化定制的數據可視化圖表[4]。ECharts 提供了常規的柱狀圖、折線圖、餅圖、散點圖及地理數據可視化的地圖等豐富的圖表,可以對崗位數據進行可視化操作。如圖2所示。

圖2 Echarts對崗位數據可視化展示

本文闡述了通過Ambari構建Hadoop大數據平臺、使用Web Magic采集招聘崗位數據,使用Hadoop的組件HDFS實現崗位招聘數據的海量存儲、Map Reduce實現海量招聘數據的計算處理、Hive實現類SQL語句對海量招聘崗位的統計、通過Mahout的聚類和相似度計算實現崗位數據的挖掘和個性推薦,使用ECharts對崗位數據進行可視化展示。全面說明了大數據技術在招聘崗位中應用,相信通過大數據技術可以在一定程度上幫助解決就業難的問題,從而讓大學生等群體實現高質量就業。

猜你喜歡
爬蟲海量集群
利用網絡爬蟲技術驗證房地產灰犀牛之說
一種傅里葉域海量數據高速譜聚類方法
基于Python的網絡爬蟲和反爬蟲技術研究
目前互聯網中的網絡爬蟲的原理和影響
海上小型無人機集群的反制裝備需求與應對之策研究
海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
培育世界級汽車產業集群
“海量+”:大學生品格提升的浸潤方——以高職藝術設計專業為例
一種無人機集群發射回收裝置的控制系統設計
大數據背景下校園輿情的爬蟲應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合