?

數據挖掘技術在農業中的應用

2021-10-20 12:18李婭婭
湖北農機化 2021年18期
關鍵詞:數據挖掘數據庫農業

李婭婭

(武漢輕工大學,湖北 武漢430000)

農業是指利用動植物的生長發育規律,通過人工培育來獲得產品的產業。在過去的很多年里,我國耗費了大量的人力物力對農業中的各種數據進行了大規模全面調查,從而建立了農作物品種、土地等資源以及農作物環境等大量的數據庫,留下了大量的數據。但是,由于目前沒有合理且有效的數據管理工具,收集來的這些龐大數據已經遠遠超出人類的處理及計算能力,很多數據由于很少被訪問或應用,導致它們便成為了“死數據”。數據挖掘技術使數據庫應用技術由相對底層的階段進入到了一個更高層的階段。數據挖掘技術不僅能對數據庫中的歷史數據進行遍歷查詢,還能夠找出歷史數據之間的潛在聯系,從而實現促進信息傳遞的功能。

1 數據挖掘

數據挖掘(data mining)也叫數據庫中的知識發現(Knowledge discovery from database,KDD),是一種深層次的數據分析方法。是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。最早該技術是用來分析商業領域中客戶的信息數據,后來逐步廣泛應用于醫學、農業等領域。

1.1 數據挖掘的系統結構

數據挖掘系統的結構見圖1:

圖1 數據挖掘系統的結構

(1)第一層——信息庫:是一個或一組可以對數據進行數據、集成和選擇的信息庫。

(2)第二層——服務器:服務器根據用戶的請求,處理請求并從服務器中提取相關數據。

(3)第三層——知識庫:是一個領域內的規則集合,即知識。用于指導搜索或者評估結果的匹配度。

(4)第四層——數據挖掘引擎:數據挖掘引擎是數據挖掘系統中最基礎的部分,基本上是由一個功能模塊所組成。

(5)第五層——模式評估:一般來講模式評估模塊用于度量興趣度,它需要與數據挖掘模塊相交互。

(6)第六層——用戶界面:用戶操作界面,根據需要的操作提交相關的請求,獲取結果。

1.2 數據挖掘的功能

(1)行為和趨勢的自動預測。數據挖掘技術能夠在大型的數據庫中自動地尋找有預測性的信息,從而直接從數據本身出發迅速地得出相應結論,實現決策。

(2)數據總結:數據挖掘技術中的數據總結可來源于數據分析中的統計分析方法,不同于傳統的數據總結,數據挖掘的數據總結對數據進行濃縮,去除多余冗余的數據,還可以利用直方圖等統計學圖形對數據進行可視化。

(3)關聯分析。關聯分析的目的在于尋找數據庫中數據之間隱藏的相關性。關聯分析有兩種常用的技術:關聯規則和序列模式,關聯規則用于尋找在同一個事件里不同項之間的相關性,如推薦系統;而序列模式用于尋找事件中時間上的相關性,如股市預測。

(4)聚類。聚類功能目的在于將整個數據庫按特征劃分成不同樣的子集/群組,也稱為簇。劃分為簇之后,簇與簇之間的差別盡可能明顯,一個簇中的數據盡可能相同。例如,商業系統中按消費習慣和年齡等特征將用戶進行聚類處理,制定營銷策略。

數據挖掘還有許多其它的功能,如偏差檢測和概念描述等等,在一個數據挖掘系統中。這些功能并不是獨立出現的,一個完整的數據挖掘系統一般會包含以上幾種甚至所有功能,這些功能相互聯系,發揮強大的作用。

2 數據挖掘技術在農業方向的應用

2.1 現狀分析

對于數據挖掘技術的應用,許多國內外學者都取得了非常顯著的成功,其中國外學者對數據挖掘技術的研究起步較早。國外Yosef Masoudi-Sobhanzadeh;Ali Masoudi-Nejad使用基于關聯規則和離散算法的數據挖掘方法對抗高血壓藥物進行綜合重排,該項目可能會使一些失敗的藥物開發項目復活,并為治療2019冠狀病毒疾病(COVID-19)和橋本氏病(HT)等不同疾病提出合適的方案。同樣值得注意的是,應用有效的計算方法有助于產生更好的結果。Florian Barbi;Laurent Vallon;Carmen Guerrero-Galán等人利用數據挖掘和功能環境基因組學重新評估了真菌單糖轉運蛋白的系統發育和功能多樣性,他們的結果突出了環境基因組學的潛力,以找出關鍵真菌蛋白家族的功能多樣性,可以在生物技術的背景下進行探索。

對于農業上的應用,Journal of Physics:Conference Series等人利用Apriori算法對印度尼西亞一家出售農業必需品的商店里進行資料挖掘,因為印度尼西亞潛力巨大的農業部門在使用技術方面存在障礙,該研究最大限度地提高農產品的銷售利潤;Qiubo Li;Ru Xiao針對農產品的特殊性和現有農產品物流配送系統的不足,為了降低農產品電子商務物流配送的成本,提高客戶滿意度,探索將數據挖掘技術應用于人工智能領域,完成6G物聯網通信背景下數據挖掘技術在農業電子商務中的運用研究。R.Aarthi;D.Sivakumar研究了一種用于動態土壤質地預測的增強農業數據挖掘技術,土壤質地分類是獲得可持續農業管理的首要因素,因為質地分類間接影響土壤肥力管理。該技術解決了傳統的紋理分類方法在使用大數據集時比較復雜且耗時的問題。

與國外相比,國內對DMKD(數據挖掘和知識發現)的研究稍晚,沒有形成整體力量。河南中醫藥大學的王燦、劉茜茜等人運用現代信息技術挖掘中醫藥治療中風病的組方用藥規律,并探討高頻核心藥的運用思路和原理,為中風病的中醫藥治療提供更多的可行性方案。王曉蓉在基于大數據挖掘技術,指定了電力變壓器健康狀態差異預警規則策略,實踐證明,挖掘預警規則能夠較好地實現對電力變壓器運行狀態的預警。

在農業方面,龐鳳麗等人將蘑菇的顏色和紋理提取出來作為特征向量,利用BP神經網絡對蘑菇毒性進行預測識別,開發了一款基于Android的毒蘑菇輔助識別系統。李勇、陳鈺欣等人為解決水果滯銷問題,基于數據挖掘技術分析了水果滯銷的現狀和原因,給出了相應的解決對策。鐘亮、郭熙等人以江西省奉新縣北部的土壤為數據集,使用9種數學方法和5種機器學習方法對土壤光譜進行分析,為土壤質地的分類提供了有效的參考。湘潭大學的馬夢麗基于數據挖掘對農戶糧食的全要素生產率進行數學測算,并對影響因素進行了深入的研究,得到了幾項重要的研究結論。

由此可見,無論在國內或外,無論是各個行業,由于計算機技術的滲透,數據挖掘技術也隨之得到了廣泛的應用,而數據挖掘技術在農業各方面如水果、土壤、糧食、畜牧等都有十分重要的應用,這些應用對農業生產有重要的指導作用。

2.2 應用方向

2.2.1 數據挖掘在農業環境中的信息技術分析

前面提過,我國有大量的農業方面的數據庫,其中就包括了大量的農業環境數據。針對這些大數據,可以利用數據挖掘技術進行挖掘。如對其中的土壤環境背景數據和不同地方農村耕地習慣等數據進行挖掘,可以得到不同地方環境差異的影響因素;也可以根據土壤的環境質量狀況數據結合農作物生長條件,挖掘出造成農產品質量逐漸低下的環境因素,這可以從根本上為農業生產和農產品生長以及生產地的選擇提供更有效的指導;對農產品的施肥信息數據和農產品質量進行挖掘分析,可為農產品生產時的施肥操作提供有利的幫助。

2.2.2 數據挖掘在品種資源數據中的應用

目前,我國農作物資源數據庫中有大量的以水果、蔬菜、糧食等為主的180余種作物,37萬余份品種等信息,其中包括了700多個數據庫125多萬條信息。建立合理的資源庫或數據倉庫,使用數據挖掘技術從這些數據庫中挖掘更多的知識,對所有的種質資源進行聚類分析或其它數據挖掘操作,增強用戶對客觀的認識,直觀地看到數據中的隱藏知識,從而得以選育更高產、更優質且抗病的新品種。但是這些品種資源數據的獲取是一個棘手的問題。

2.2.3 數據挖掘技術在農業專家系統中的應用

由于數據挖掘技術的不斷交互性,一般需要領域專家的引導和干預。將數據挖掘技術與農業專家系統相結合,可以對農業生產過程中專家系統中的領域知識進行數據挖掘,這些領域知識對數據挖掘過程起輔助作用。對挖掘到的知識進行解釋和分析,可以直接應用到實際的系統中以及實際的生產活動中,為生產決策提供輔助?;蛘呖梢詫⑦@些知識提供給農業專家,為專家已有的知識體系進行修正。

2.2.4 數據挖掘技術在農業病蟲害管理中的應用

病蟲害是農業生產活動中極具破壞性的生物自然災害,農業病害蟲的動態監測、發生預測及預測以及病害蟲的風險評估等方面在農業生產管理中十分重要。病蟲害的發生和影響總是與一定的地理空間相關。病蟲害數據的分析存在諸多困難和挑戰。首先,病蟲害數據體量大、結構復雜、多層次且高維度,而且涉及時空屬性,不同時間和空間粒度的分析結果千差萬別。其次,數據中各屬性并非完全孤立,屬性間存在不同程度的聯系。若是利用傳統統計學方法對數據間的聯系進行分析呈現非常困難,所以要從中挖掘到有價值的信息就非常困難。因此,需要調查病蟲害發生的相關數據,并對這些數據進行詳細地分析和管理,以便對農業病蟲害的控制管理提供正確的引導。

3 應用趨勢及前景

3.1 數據多形式的挖掘

農業領域中存在大量半結構化、非結構化的數據形式,如文本、圖形、數學公式、圖像等,這些數據中隱藏了許多重要的知識,而目前的數據挖掘工具大多只能對文本型的結構化數據進行處理,少量學者對圖片型的數據進行數據挖掘處理進行研究?,F如今,對網站的數據挖掘和語音的數據挖掘都成為了熱點研究。數據的多樣性和多形式性在數據挖掘技術中的問題暫無全面有效的解決方法。這迫使對新的、全面的數據挖掘工具進行研究成為待解決的問題,研究者應當利用現有的大數據,充分發揮數據挖掘的能效。

3.2 數據的隱私性、可靠性和安全性

既然數據挖掘涉及到了大量的數據,這就意味著很有可能會存在大量的隱私數據,如商業系統中的客戶信息挖掘分析,就必然會對客戶的收入、住址等敏感信息進行處理;農業中有的數據也是相關部門的未公開文件,這除了隱私性問題還有一個真實性問題。另外,數據的來源也是一個問題,我們處理的數據一般都是來源于網絡,而網絡安全一直是一個棘手的問題。在我們的學習和工作中需要安全、合理并合法地對數據進行使用。

3.3 知識可視化表示與用戶的參與性

圖形可視化是指利用計算機技術對處理好的數據進行轉換,使得數據能夠以圖形的形式顯示出來,便于操作者直觀地觀察數據。所以,理解挖掘出的知識最有效的方式就是圖形可視化。目前,許多數據挖掘系統和數據挖掘工具都缺乏與用戶的交互,這讓數據的知識難以有效地被利用,挖掘效率大打折扣。因而,開發并利用有效的可視化工具也是數據挖掘過程一個重要的環節。

4 結論

數據挖掘技術應用廣泛且有巨大潛力,橫跨多個學科,涵蓋了統計學、數學、機器學習和數據庫等。農業生產領域中的數據挖掘是計算機技術與現代農業的產物。通過以上分析可以得出結論:數據挖掘技術在農業領域中的應用可以涉及多個層面,無論從深度和寬度,都可以達到意料之外的效果。但是由于數據挖掘技術本身的技術限制以及獲取有效數據的難度,發展和研究還是不夠充分。因此,隨著計算機科學技術和數據挖掘技術的深入實踐探索和研究,農業領域的計算機科學應用將會是一個研究新高潮,這對推動我國農業現代化的發展具有重要的作用。

猜你喜歡
數據挖掘數據庫農業
國內農業
國內農業
國內農業
改進支持向量機在特征數據挖掘中的智能應用
擦亮“國”字招牌 發揮農業領跑作用
探討人工智能與數據挖掘發展趨勢
基于事故數據挖掘的AEB路口測試場景
數據庫
軟件工程領域中的異常數據挖掘算法
數據庫
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合