?

基于數據挖掘技術在軟件項目風險管理決策系統的研究

2010-09-07 00:50宋承繼
中國新技術新產品 2010年2期
關鍵詞:項目風險數據挖掘決策

宋承繼

(陜西工業職業技術學院,陜西 咸陽 712000)

1 引言

數據挖掘技術作為一種產生于應用且面向應用的數據分析處理技術,可以快速、有效、深入的分析海量軟件項目風險信息,挖掘大量影響軟件項目風險決策數據中隱含的決策模式。數據挖掘技術挖掘項目管理風險決策系統的各種實時決策模型和綜合決策模型,可以用于項目風險的管理和控制,提高決策系統的風險評估水平。

2 SRMDS 的數據分析

2.1 風險數據的特點

軟件項目風險決策系統的數據來源廣泛、形式多樣,包括動態的項目風險因子和項目風險管理決策子系統的管理控制數據,以及靜態的項目風險評估數據等。軟件項目風險決策系統管理和控制的對象是項目風險因子,項目風險因子數據是按項目進度采樣得到的一系列數值型數據序列,是軟件項目風險決策系統中最重要的數據。

2.2 風險因子

風險因子是促使或引起風險事件發生的條件,以及風險事件發生時,致使損失增加、擴大的條件。風險因子是風險事件發生的潛在因素,是造成損失的間接和內在的原因(如圖1)。

風險因子通??梢苑殖蓪嵸|風險因子(Physical Hazard)、道德風險因子(Moral Hazard)和心理風險因子(Morale Hazard)三種。實質風險因子是指增加風險事件發生機會或擴大損失嚴重程度的物質條件,它是一種有形的風險因子。例如,缺乏合適的開發、測試環境對于項目進度的危害,關鍵技術不熟悉對于產生率降低等,都是實質性風險。道德風險因子實質與人的不正當社會行為相聯系的一種無形的風險因子。常表現為由于惡意行為或不良企圖,故意使風險事件發生或損失擴大。心理風險因子也是一種無形的風險因子,但與道德風險因子不同。它是由于人的主觀疏忽或過失,導致增加風險事件發生機會或擴大損失程度。

圖2 風險因子數據挖掘功能圖

3 SRMDS 的數據挖掘系統結構

3.1 系統模型

數據挖掘過程分為數據準備、模式發現、結果表達和解釋三個主要階段,圖2 給出了軟件項目風險管理決策系統數據挖掘的系統模型。

ETL 及數據預處理為項目風險信息的模式發現提供一個干凈、一致、集成、歸約(reduction)的數據集-風險信息數據倉庫。數據挖掘任務管理在數據挖掘算法集中選擇完成挖掘任務的算法,在風險信息數據倉庫中選擇挖掘算法應用的數據,執行相應的挖掘操作,將挖掘得到的模式保存到風險因子模型庫。模型分析管理是項目風險數據挖掘系統與其它項目風險決策系統的應用接口,并接收應用系統的反饋信息對風險因子模型庫的模式進行解釋與評價。

3.2 風險因子集成

軟件項目風險因子種類繁多,分布在各種智能決策應用系統中,具有異構、層次的特點,風險數據挖掘需要將各種風險因子數據從操作數據庫中抽取出來,經過清洗、轉換、裝載等一系列處理,集成到一個統一的本地項目風險決策信息數據倉庫。數據倉庫為數據挖掘提供有效的數據處理平臺,許多數據挖掘功能,如分類、關聯、聚類等,都可以與各種粒度的多維數據分析OLAP 操作集成,在多個抽象層上交互數據挖掘。

3.3 多層體系結構

風險因子挖掘系統的系統模型提供了一個多層的應用體系結構,將數據挖掘功能的實現分為應用層、分析邏輯層、算法工具層和數據層。應用層是用戶調用分析邏輯所設立的分析功能的入口,分析邏輯則表現了應用系統的分析能力。多層體系結構能夠在跨平臺、網絡環境下應用,應用系統可以根據需要采用靈活的方式,如 B/S、C/S 等。

在風險因子數據挖掘中,分析功能的抽取及響應、數據挖掘算法的選取、設計是一個難題,需要利用決策系統知識和數據挖掘技術的緊密結合。分析邏輯層將分析模型從實際分析需求中提取出來,完成一定的獨立分析功能,由一個或多個數據挖掘算法具體實現,每個分析模型都是獨立的功能單位。

算法工具層集中了項目風險流分析需要的算法及相關計算工具,如挖掘各種模型的數據挖掘算法、統計方法、相似性度量方法等,是各個獨立的算法工具的集合。在算法工具層,除了數據挖掘算法外,還應當由數據挖掘算法所需要的輔助工具,如對于聚類算法,相似性度量或距離函數是關系到聚類質量的核心問題,不同的相似性獨立或距離函數針對不同的數據或分析目標,在算法中可以根據需要來選擇配置。

4 挖掘模型

4.1 預測模型

風險預測包含多個層次:基礎數據層的項目風險數據的預測;基于特征屬性層的風險性質預測、風險事件及事件類型預測;基于狀態描述層的風險標識預測、進度預測和風險評估預測等。在軟件項目風險決策系統中,標識和預測風險因子的狀態可以對軟件項目進度進行有效的監控和管理,對于軟件項目的進度控制、資源分配、版本控制、人員培訓,風險回避等具有非常重要的意義。

4.2 分類模型

風險因子可以有不同的分類特征P,因此風險評估模型的建立也需選擇不同的相關屬性,刪除訓練過程中與分類任務不相關的屬性。不同的分類算法也會建立不同的風險因子評估模型,已有研究利用神經網絡的方法和模糊邏輯的方法建立了數據流數據的分類模型。模糊邏輯的方法可以得到一組容易理解的分類規則;而采用神經網絡方法進行訓練,得到的是一個優化的神經網絡模型,這個優化的神經網絡模型可以對新的數據進行分類,但其分類規則是不可理解的。

4.3 關聯模型

風險因子是和進度相關的,具有時空特性,空間數據是主要指人力資源變更、進度控制、需求變更等領域大量出現的與空間有關的數據,包含的空間信息有進度、拓撲結構等。對空間數據的關聯分析可能會得到“軟件開發人員的心理因素決定著軟件項目進度的60%”的規律。時空數據的數據挖掘模型包括時空元規則、時空范化、時空聚類和關聯、演化規則等,空間關聯規則是根據空間謂詞而不是根據項來定義的。風險因子時空規則的挖掘對軟件項目風險管理決策系統的預測具有重要的應用價值。

5 結束語

軟件項目風險管理的數據挖掘在大量的軟件項目信息中發現有價值的模式,以數據驅動的方式分析軟件項目風險的決策狀況,建立軟件項目風險決策系統的分析、評價及預測模型,用于軟件項目風險管理的實時實時監控,提供軟件項目風險管理決策支持信息,可以極大改善軟件項目實施的風險管理和控制水平。

[1]何文炯著.風險管理[M],北京:東北財經大學出版社,1999.

[2](加)JIAWEI HAN MICHELINE KAMBER著,范明,孟小峰,等譯.數據挖掘概念與技術[M].北京:機械工業出版社,2006.8.

[3](新西蘭)IAN H.WITTEN,EIBE FRANK 著,董琳,邱泉,于曉峰,等譯.數據挖掘實用機器學習技術[M].北京:機械工業出版社,2006.2.

猜你喜歡
項目風險數據挖掘決策
為可持續決策提供依據
決策為什么失誤了
基于并行計算的大數據挖掘在電網中的應用
基于概率分布的PPP項目風險承擔支出測算
一種基于Hadoop的大數據挖掘云服務及應用
聯鎖項目風險應對措施制定與實施
基于GPGPU的離散數據挖掘研究
代建項目風險管理
關于抗美援朝出兵決策的幾點認識
湘贛邊秋收起義的決策經過
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合