?

安徽氣象為農服務大數據平臺設計與應用

2020-08-17 13:59徐建鵬
計算機與現代化 2020年8期
關鍵詞:氣象農業用戶

徐建鵬,張 輝,伍 瓊,王 暉,汪 兵

(1.安徽省農村綜合經濟信息中心,安徽 合肥 230001; 2.天長市氣象局,安徽 滁州 239064)

0 引 言

氣象為農服務工作一直是氣象部門業務工作的重中之重,是氣象部門服務“鄉村振興戰略”的重要抓手。隨著傳統農業向現代化農業轉型發展,農業生產經營模式發生了變革,農業產業結構日趨多元,同時鄉村信息產業日趨完善,農業農村對氣象為農服務的需求發生了巨大的變化[1]。同時,氣象為農服務手段也由傳統的電視、報紙、手機短信息變為了以網絡為主,網站、手機App、微信、微博已經成為氣象為農服務的主要媒介,安徽省建立了“惠農氣象”“聚農e購”“愛上農家樂”3個服務平臺[2]。本文基于Hadoop架構、自然語言處理、相關度分析等大數據和人工智能相關技術,開發一種氣象為農服務大數據平臺,實現氣象、農業、工商等多源涉農數據的集成、氣象為農服務信息的精準化推薦以及服務效果評估,為安徽省氣象部門對新型農業經營主體開展精準性、針對性的信息服務提供重要技術支持。

1 平臺設計

1.1 平臺技術構架

平臺基于大數據的架構,按照統一資源匯集、統一數據治理、統一數據資源管控、統一數據共享服務以及統一的大數據開發應用支撐服務的一體化設計理念,全面接入氣象、農業、農機、組織、文化、林業、工商等部門的網站、手機APP、微信等服務媒介的多源異構涉農大數據資源,實現了涉農數據資源從采集、存儲交換、清洗融合、智慧分析、數據共享到可視化展示的全流程貫通[3]。本文平臺的系統邏輯架構如圖1所示。

圖1 系統邏輯架構

數據源層:對接安徽省氣象局氣象為農服務各大應用系統及設備,包括信息系統、網絡設備、傳感器、互聯網、手機APP等,接入安徽各涉農部門的數據資源,數據類型支持結構化、半結構化、非結構化數據。

數據采集層:建立強大的數據感知與獲取能力,通過JDBC/OGG、消息隊列、爬蟲、網絡接口、FTP、物聯網等各種數據采集技術,匯聚安徽省各類涉農數據資源。

數據存儲層:對原始數據進行數據清理、數據集成融合、數據規約與數據“轉換”等預處理,基于HDFS、DBMS、分布式消息隊列、內存數據庫等各種存儲技術,實現海量異種數據(結構化數據、半結構化數據、非結構化數據)的存儲。

分析挖掘層:提供完善的大數據分析挖掘功能,包括模型管理、統計分析工具、數據挖掘工具、預測分析工具、深度學習工具、語義引擎等。并且具備完善的數據分析與數據挖掘接口,能對接業界主流的數據分析與數據挖掘工具。

應用服務層:提供用戶畫像、服務預測、數據監控等精細化服務,開展信息服務、農氣產品、趨利避害、應用案例等的大數據可視化服務。

1.2 平臺開發語言及工具

根據本文平臺能力定位和業務需求,充分考慮不同業務場景對數據服務支撐的訴求,經過嚴格的測試與豐富的架構經驗,本文平臺采用Hadoop分布式文件存儲/處理系統結合內存數據庫和MPP數據形成混合式存儲架構[4],采用Flume NG對各類應用系統產生的用戶日志數據進行收集,采用Kafka分布式消息隊列中間件來解決數據收集的速度和數據處理速度不一致問題,并采用Storm對數據做實時處理,處理完成后用Redis+MySQL做數據的持久化,應用服務程序以Java語言編寫,主要開發工具為Android Studio。

1.3 平臺開發關鍵技術

1.3.1 多元異構數據資源集成

利用自動感知、網絡爬蟲、系統填報、數據交換、數據調度等多種采集技術,將農村相關數據資源按照數據格式、數據體量、數據種類、數據維度進行聚類、采集,根據不同的數據類型建立存儲模型:結構化數據主要存放于MPP數據庫中;原始非結構化數據存放于HDFS中,部分經過預處理解析所得的標簽數據存放在MPP數據庫中,并建立聯合索引,實現高速的查詢關聯[4]。

1.3.2 自然語言處理技術

將服務產品通過結巴分詞工具進行分詞,通過增補關聯變量、剔除噪聲數據、無關變量、無效樣本等方法對分詞結果進行清洗,使用TF-IDF模型公式(1)生成服務產品的關鍵詞指標[5]。

TFIDF=TF×IDF

(1)

其中,TF為服務內容內頻率,IDF為關鍵詞在所有文檔中出現的頻率的相反值。關鍵詞在某個服務中出現的頻率最大、在所有服務中出現的頻率越小,表明該關鍵詞對這個服務內容的特征標識作用越大。

通過整理和規范化數據等方法對分詞結果進行清洗處理,將區分正常詞庫和停用詞庫,形成服務內容的關鍵詞集合標識[6]。表1和表2分別為2條服務產品的關鍵詞指標TFIDF聚合。

表1 服務內容1關鍵詞指標集合表

表2 服務內容2關鍵詞指標集合表

1.3.3 用戶偏好服務產品推薦

2個服務內容的相似度通過重合的關鍵詞的TFIDF值來衡量,本文使用夾角余弦算法來計算服務內容關鍵詞的相似度,夾角越小,相似度越高,計算方式如公式(2)所示:

(2)

其中,A、B分別代表2個不同的服務產品,Ai和Bi分別代表向量A和向量B對于這個集合中各個關鍵詞的詞頻。

表1和表2的2個服務內容中有2個重合的關鍵詞:安徽、小麥,因此2條新聞的相關性由這2個關鍵詞決定,得到服務內容特征以后,還需要得到用戶特征才能對兩者進行匹配和推薦。用戶通過閱讀、點贊、評論、分享來表達自己對服務內容的喜愛,這樣的網絡行為數據[7]與用戶行為結合后,就能得到用戶的特征分。隨著用戶閱讀的服務數越來越多,該用戶的標簽也越來越多,并且越發精準。當得到服務內容的特征后,就能與用戶的關鍵詞列表作匹配[8],得出服務產品與用戶閱讀特征的匹配度,做出個性化服務產品推薦。

1.3.4 服務產品熱度值計算

利用百度熱點、今日頭條等建立互聯網熱詞庫,確認服務產品初始熱度,由于皖南、皖北的種植作物種類和氣候差異較大,因此對服務產品的關鍵詞庫的初始熱度做了關注度統計,計算方式如公式(3)所示,即欄目的關注度系數等于該欄目的閱讀用戶數除以各欄目的平均閱讀用戶數,根據實際情況,作一定的人工調整。

(3)

其中,m是農業信息欄目分類數,N(i)為服務產品i的閱讀用戶數。

隨著時間流逝,用戶對信息服務的熱度值會衰減,并且衰減趨勢越來越快,直至趨近于0。新聞i的熱度系數公式如下:

(4)

根據農業服務產品的特點,設定1個月的熱度衰減周期,用戶點擊、收藏、分享、評論等行為會提高熱度值,建立用戶行為提升熱度規則,最終計算服務產品熱度指數[9]。

1.3.5 涉農大數據可視化

集成Tableau和Pentaho作為數據展示與可視化工具,實現了餅狀圖、柱狀圖、折線圖、雷達圖、散點圖、樹圖等方式展示各類數據,集成GIS、三維場景的直觀表達,滿足不同用戶的應用展示需求[10]。提供系統SDK包及標準接口供第三方應用系統進行調用,實現了電腦、LED顯示屏等多終端的內容和規格自適應、樣式和風格預定義。

2 平臺功能實現

2.1 平臺主要模塊

氣象為農服務大數據服務平臺實現了安徽涉農數據資源的多源接入、統一匯聚、集中存儲、深度利用,對用戶需求及互聯網傳播進行分析,跟蹤評估服務產品網絡傳播效果,為網絡用戶提供精準化的信息推薦服務[11]。

2.2 平臺主要功能

1)建立涉農大數據資源池。

①通過部門聯動、數據共享等途徑,實現對全省22個農業氣象觀測站、85個土壤水分觀測站、64個農業物聯網監測信息,全省農業生產經營主體、農產品電商、病蟲害知識庫等101 TB的數據集中調度與管理,為氣象為農服務提供數據支撐。②匯集了冬小麥、玉米、大豆、一季稻等主糧作物,油菜、茶葉、酥梨等經濟作物,大棚蔬菜、設施草莓、河塘水產養殖等特色農業的“種(養)、管、收”3大關鍵農事活動,農用天氣預報、災害評估、產量預測、天氣指數保險4大類、10余種、20多個指標、指數和模型,為農業氣象服務產品制作提供技術支持[12]。

2)進行網絡用戶需求分析預測。

①對用戶網絡行為進行畫像[13],建立了農業行業、地理位置等4類用戶標簽24項指標,發現網絡用戶的聚類特征[14],刻畫出網絡用戶作物種類、種植區域、經濟產業等精準畫像[15]。②對服務產品進行自然語言解析[16],按照區域、作物、時效、類別4個維度20個分類標簽,對服務產品進行了分類。③建立網絡用戶需求模型,將用戶特征與各服務產品語義、信息獲取渠道關聯[17],根據用戶訪問平臺習慣,結合近期網絡關注熱點和天氣預測信息,智能生成符合用戶需求的服務內容[6]。

3)開展精準化的信息推薦服務。

開發網絡數據收集和服務產品推薦WebAPI/WebService數據接口,嵌入“惠農氣象”“聚農e購”“愛上農家樂”3個服務平臺,實時獲取用戶信息,并為用戶提供氣象服務、農業生產、市場行情、農業科技、涉農政策等綜合服務信息的精準化智能推薦服務。

4)進行網絡傳播效果分析評估。

①對通過服務產品的網絡用戶訪問情況按區域、行業進行統計分析,生成分類產品傳播熱度指數,直觀反映服務產品在互聯網受歡迎的程度和傳播范圍。②根據服務產品的語義生成近期關注熱度標簽,集合農業高影響天氣預報和病蟲害發生發展情況,開展服務重點預測,指導后續關鍵農時農事建議和決策服務產品制作[18]。

5)搭建氣象為農大數據展示系統。

氣象為農服務大數據展示系統主要模塊由用戶畫像、服務評估、數據監控、農氣產品、信息服務、趨利避害、應用案例7個功能模塊組成,如圖2所示。

圖2 平臺功能結構

氣象為農服務大數據服務平臺匯集安徽省各涉農部門、農業生產經營主體、農業生產環境以及管理的各類涉農數據資源,通過用戶行為分析建立用戶畫像[19],為安徽省農業企業、農民專業合作社、種養大戶等提供精細化、針對性的技術支撐、信息產品和信息服務[20]。圖3集中展示了平臺用戶畫像及其關聯的平臺信息服務產品。

圖3 平臺用戶精準畫像

平臺通過對服務產品的熱詞進行分析,生成了服務產品的熱度指數,開展各類氣象為農服務產品的服務效果評估,有效提高了服務產品的實用性。圖4集中展示了不同時間段和不同市縣的關注重點和服務熱點。

圖4 服務效果分析

圖5所示頁面實時監控展示各類農業氣象觀測數據,并對各類觀測數據進行分析統計,為農業業務人員開展科研和管理提供了便捷服務。

圖5 數據采集監控

通過搭建氣象為農服務大數據展示系統,在實現數據、服務的實時監控的基礎上,直觀全面地展示了安徽氣象為農服務效果和效益。

3 結束語

安徽氣象為農服務大數據服務平臺通過云計算、大數據、人工智能等新技術的深入應用[21],為安徽省氣象局為農服務3大平臺(惠農氣象、聚農e購與愛上農家樂)提供了數據支撐和技術支持[22],實現了對不同網絡群體個性化、智能化的信息推薦服務和網絡傳播效果評估,探索實現從“人找信息”到“信息找人”的轉變。本文平臺已在安徽氣象為農業務服務中應用,使得氣象為農服務、業務和管理全過程都充滿智慧,提升了安徽氣象為農服務能力,具有較好的行業知名度和社會影響力,受到各級領導、中央和地方媒體的廣泛關注。但本文平臺未深入使用大數據和人工智能相關技術,后續將進一步加深相關技術的研究與應用。

猜你喜歡
氣象農業用戶
國內農業
國內農業
國內農業
氣象樹
擦亮“國”字招牌 發揮農業領跑作用
《內蒙古氣象》征稿簡則
大國氣象
美麗的氣象奇觀
關注用戶
關注用戶
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合