基于模糊C均值聚類的科研管理數據庫調度算法

2016-07-02 01:44陸興華李國恒余文權陳永聰

計算機與數字工程 2016年6期

關鍵詞：調度數據庫

陸興華　李國恒　余文權　陳永聰

(廣東工業大學華立學院　廣州　511325)

基于模糊C均值聚類的科研管理數據庫調度算法

陸興華李國恒余文權陳永聰

(廣東工業大學華立學院廣州511325)

摘要在科研管理系統設計中,需要對科研管理數據庫進行優化調度處理,提高數據庫中科研管理信息的訪問和調度能力。傳統方法采用K均值聚類算法進行數據庫的信息屬性聚類和調度,數據個體間的子空間配對容易使得數據訪問過程陷入局部最優解,數據庫調度性能不好。提出一種基于模糊C均值聚類的科研管理數據庫調度算法。首先構建了科研管理數據庫多層矢量自回歸空間,進行數據庫中訪問信息流的特征提取,采用模糊C均值聚類算法實現對數據庫的優化調度。仿真結果表明,采用該算法進行科研管理數據庫的數據信息聚類和調度,具有較好的特征峰值,數據的特征信息反映準確,提高數據庫訪問的信息定位能力,數據庫調度的準確性和收斂性較好。

關鍵詞模糊C均值聚類; 科研管理系統; 數據庫; 調度

Class NumberTP391.9

1引言

隨著信息處理技術的發展,人類進入大數據存儲和處理時代,通過構建數據庫進行數據調度和訪問,實現信息共享和利用。在高校的科研管理信息系統構建過程中,需要對科研管理數據進行數據優化存儲和屬性分析,結合云計算和云儲存技術實現數據的分類處理和聚類分析,研究科研信息管理系統的數據庫優化調度算法,提高數據庫中科研管理信息的訪問和調度能力,在科研管理信息的調度和數據分析中具有重要意義,相關的算法研究受到人們的極大重視[1]。

本文研究的科研管理信息系統的數據庫就是采用分布式數據庫構建方法,對這類分布式數據庫的數據信息訪問和調度建立在數據聚類分析的基礎上,傳統方法中,對數據庫的調度和數據聚類分析采用的是K均值聚類算法,在K均值聚類過程中,由于數據個體間的子空間配對容易導致數據訪問過程陷入局部最優解,數據庫調度性能不好[2～3]。對此,相關文獻進行了算法改進設計,其中,文獻[4]提出一種基于多層空間模糊減法聚類的數據庫優化訪問算法,采用圖模型的科研管理數據庫采樣方法,實現數據的屬性聚類,提高數據庫的調度能力,但是該算法具有計算開銷大,特征空間維數較高的問題;文獻[5]提出一種基于時頻特征提取的數據庫訪問算法,采用數據庫訪問指令信息流的屬性相關度時頻特征提取實現數據庫優化調度和訪問,提高數據調度和屬性特征分解能力,但該算法在進行多次迭代后容易出現系統發散,性能不好,針對上述問題,本文提出一種基于模糊C均值聚類的科研管理數據庫調度算法,首先構建了科研管理數據庫多層矢量自回歸空間,進行數據庫中訪問信息流的特征提取,采用模糊C均值聚類算法實現對數據庫的優化調度,仿真實驗進行了性能驗證,展示了本文算法在優化數據庫訪問性能,提高科研管理系統的數據分析能力方面的優越性。

2科研管理數據庫矢量空間構建和特征提取

2.1科研管理數據庫矢量空間構建

為了實現對科研管理系統的數據庫的訪問和調度能力,需要構建數據庫的矢量空間,在矢量空間中進行特征信息流分析,通過特征提取進行信號模型構建[6],以此為基礎進行數據聚類分析,實現數據庫調度,基于數據聚類的科研管理系統數據庫調度模型的基本實現流程如圖1所示。

圖1　數據庫調度設計流程

假設數據庫庫信息流屬性集為一個分布式數據庫屬性集合,首先對科研管理數據庫信息流進行多維相空間重建,把科研管理數據庫的數據信息流信息聚焦為時間序列A={a1,a2,…,an},B={b1,b2,…,bm}為數據庫屬性類別集,ai的科研管理信息的模糊聚類中心,表現為{c1,c2,…,ck}?？蒲泄芾頂祿煨畔⒘魍ㄟ^數據聚類進行屬性集分類,得到多層矢量空間的信息增益表達式為

(1)

(2)

Gain(A)=Info(B)-InfoA(B)

(3)

令ax屬性中的cv值為科研管理數據庫信息流的息增益,數據信息流矢量場映射到一個多維狀態空間中進行特征提取,得到多層矢量空間系統表示為:

Φ(z)=(h(z),h(φ1(z)),…,h(φ2d(z)))T

(4)

其中,數據庫訪問的時間序列{x(t0+iΔt)},i=0,1,…,N-1,在多層空間的狀態特征矩陣描述為

X=[x(t0),x(t0+Δt),…,x(t0+(K-1)Δt)]

(5)

------------------------------

式中,x(t)表示數據庫信息流傾斜因子,J是數據聚類簇的總數,m是相空間重構的維數。在上述重構的科研管理數據庫矢量空間中,進行信息特征提取實現數據聚類分析和數據庫調度。

2.2數據庫的訪問狀態信息特征提取

在上述構建的多維矢量空間中,進行數據庫的訪問狀態信息特征提取。數據庫的訪問狀態信息特征提取的流程分以下五個部分:

1) 考察科研管理數據庫信息流矢量x和xn+τ,選擇一個C值,確定數據訪問的聚類簇總數。若數據集為m,令Aj(L)作為多層空間模糊聚類中心,其中j=1,2,…,k,并特征空間中矢量軌跡的距離,采用歐式距離表示;

2) 在數據集中變尺度調整聚類中心矢量,兩個數據庫訪問時刻t和t+τ相互關聯的初始化簇中心F(xi,Aj(L)),i=1,2,…,m,j=1,2,…,k;

3) 使用關聯維特征提取方法得到剩余簇分配到的數據屬性的聚類密度特征,如滿足:

D(xi,Aj(L))=min{D(xi,Aj(L))}

(6)

那么xi∈ωk;

4) 使用散布查詢類別S(t)的平均值作為下一次數據聚類迭代的簇平均值:

(7)

5) 如果數據信息流x(t)的聚類中心的迭代平均值小于閾值,‖C(l)-C(l-1)‖<ξ,則中止程序,否則返回步驟2),令l=l+1,進行數據聚類中心搜索:

(8)

通過上述方法,完成數據庫的訪問狀態信息特征提取。

3模糊C均值聚類算法和數據庫調度算法改進設計

3.1模糊C均值聚類算法的提出

在上述特征空間重構和數據庫訪問信息的特征提取的基礎上,采用K均值聚類算法進行數據庫的信息屬性聚類和調度,數據個體間的子空間配對容易導致數據訪問過程陷入局部最優解,數據庫調度性能不好[7～10]。為了克服傳統方法的弊端,本文提出一種基于模糊C均值聚類的科研管理數據庫調度算法。首先進行模糊C均值聚類算法的描述,假設數據庫中存在有限數據集:

X={x1,x2,…,xn}?Rs

(9)

根據某個距離函數把數據庫訪問中的狀態信息數據集合分為C個類別,其中樣本xi,i=1,2,…,n的初始的聚類中心為

xi=(xi1,xi2,…,xis)T

(10)

當所有個體分配完畢,聚類數目中的屬性值X分為c類,其中1

V={vij|i=1,2,…,c;j=1,2,…,s}

(11)

其中Vi為數據庫訪問過程中的聚類中心的第i個矢量,確定聚類簇的總數,得到數據庫屬性的模糊劃分矩陣表示為

U={μik|i=1,2,…,c;k=1,2,…,n}

(12)

通過定義,對初始群體進行處理,得到數據屬性聚類目標函數為(定義聚類目標函數):

(13)

式中,m為交叉運算權重,(dik)2為數據集采樣樣本xk與Vi的特征空間分布概率密度函數,群體P(t)經過篩選:

(dik)2=‖xk-Vi‖2

(14)

且

(15)

結合模糊C均值聚類約束條件式,采用Lagrange定理,求得數據庫調度的模糊C均值聚類的聚類中心為

(16)

(17)

在聚類中心初始值已知的情況,設定代數,結合模糊度指標m,得到的適應度最優解作為最終的聚類解結果。

for(i in1∶2 000){x=runif(n,0,1); y=(sum(x)-n×0.5)/sqrt(n/12); A[i]=y}

3.2科研管理數據庫調度優化實現

根據上述模糊C均值聚類算法,進行科研管理數據看的優化調度設計,假設科研管理數據庫調度響應函數為

(18)

逐層挖大數據信息流的頻繁模式集,進行數據信息流的特征提取,設計數據庫調度傳輸算子hi(t),進行卷積,其中npi(t)為數據庫調度的干擾項,得到數據庫調度的尋優子集表示為

pri(t)=p(t)*hi(t)+npi(t)

(19)

式中,hi(t)表示p(t)在科研管理數據集查詢均勻遍歷特征,計算孤立點的隸屬度:

(20)

(21)

式中:

*hi(-t)+nsi(t)*npi(-t)

(22)

通過上述處理,設置為變異遺傳散布控制量,由此實現對科研管理數據庫的優化調度,算法實現過程如圖2所示。

圖2　基于模糊C均值聚類的科研管理數據庫調度實現流程

4仿真實驗與結果分析

為了測試本文算法在實現科研管理數據庫庫調度,提高數據庫訪問能力方面的性能,進行仿真實驗,實驗平臺計算機使用Intel i5-3230M 2.6GHz雙核CPU,采用Matlab仿真軟件進行數學編程,首先進行數據聚類參數的初始化設置。設定參量Gmax=30,D=12,c=3,NP=30,數據采樣樣本的個數為1024,科研管理數據庫采用分布式數據庫設計,數據采樣的周期為T=12s,數據聚類算法運行100次,采用多層矢量空間重構,對采樣的數據庫訪問信息狀態進行特征分解,獲得的3層8個特征量,得到數據庫調度的屬性特征分解結果如圖3所示。

圖3　數據庫調度的屬性特征分解結果

以上述特征分解結果為原始測試樣本集,進行模糊C均值聚類,實現數據庫的優化調度,采用Monte Carlo算法,進行10000次運算,得到數據集的聚類結果,為了對比算法性能,采用本文算法和傳統的K均值聚類算法進行對比,得到科研管理數據庫的數據聚類對比結果如圖4所示。

圖4　數據聚類性能對比

從圖可見,采用本文算法進行科研管理數據庫的數據聚類,具有較好的特征峰值,旁瓣干擾較少,數據的特征信息反映準確,展示了較好的數據分析和聚類能力,以此為基礎實現數據庫的信息調度,提高數據庫訪問的信息定位能力,以數據庫調度準確度為測試指標,得到本文算法和傳統算法下數據庫調度性能對比結果如圖5所示。

圖5　數據庫調度性能對比

從圖可見,采用本文算法進行數據庫調度的準確度較高,收斂性好,性能優越于傳統算法。

5結語

通過研究科研信息管理系統的數據庫優化調度算法,提高數據庫中科研管理信息的訪問和調度能力,本文提出一種基于模糊C均值聚類的科研管理數據庫調度算法,首先構建了科研管理數據庫多層矢量自回歸空間,進行數據庫中訪問信息流的特征提取,采用模糊C均值聚類算法實現對數據庫的優化調度,仿真實驗進行了性能驗證,展示了本文算法在優化數據庫訪問性能,提高科研管理系統的數據分析能力方面的優越性,本文方法將在科研管理系統的優化設計和數據庫優化訪問設計中具有較好的應用價值。

參考文獻

[1] 高志春,陳冠瑋,胡光波,等.傾斜因子K均值優化數據聚類及故障診斷研究[J].計算機與數字工程,2014,42(1):14-18.

GAO Zhichun, CHEN Guanwei, HU Guangbo, et al. Fault Diagnosis and Optimal Data Clustering Based on K-Means with Slope Factor[J]. Computer & Digital Engineering,2014,42(1):14-18.

[2] 張冬冬,李宏元.醫療設備計算機管理系統的設計與應用[J].電子設計工程,2015,(19):104-106.

ZHANG Dongdong, LI Hongyuan. Medical equipment design and application of computer management system[J]. SAMSON,2015,(19):104-106.

[3] 田剛,何克清,王健,等.面向領域標簽輔助的服務聚類方法[J].電子學報,2015,43(7):1266-1274.

TIAN Gang, HE Keqing, WANG Jian, et al. Domain-Oriented and Tag-Aided Web Service Clustering Method[J]. Chinese Journal of Electronics,2015,43(7):1266-1274.

[4] 吳濤,陳黎飛,郭躬德.優化子空間的高維聚類算法[J].計算機應用,2014,34(8):2279-2284.

WU Tao, CHEN Lifei, GUO Gongde. High-dimensional data clustering algorithm with subspace optimization[J]. Journal of Computer Applications,2014,34(8):2279-2284.

[5] 余曉東,雷英杰,岳韶華,等.基于粒子群優化的直覺模糊核聚類算法研究[J].通信學報,2015,(5):74-80.

YU Xiaodong, LEI Yingjie, YUE Shaohua, et al. Research on PSO-based intuitionistic fuzzy kernel clustering algorithm[J]. Journal of Communication,2015,(5):74-80.

[6] 張博,郝杰,馬剛,等.混合概率典型相關性分析[J].計算機研究與發展,2015,52(7):1463-1476.

ZHANG Bo, HAO Jie, MA Gang, et al. Mixture of Probabilistic Canonical Correlation Analysis[J]. Journal of Computer Research and Development,2015,52(7):1463-1476.

[7] 孫超,楊春曦,范莎,等.能量高效的無線傳感器網絡分布式分簇一致性濾波算法[J].信息與控制,2015,44(3):379-384.

SUN Chao, YANG Chunxi, FAN Sha, et al. Energy Efficient Distributed Clustering Consensus Filtering Algorithm for Wireless Sensor Networks[J]. Information and Control,2015,44(3):379-384.

[8] 文天柱,許愛強,程恭.基于改進ENN2聚類算法的多故障診斷方法[J].控制與決策,2015,30(6):1021-1026.

WEN Tianzhu, XU Aiqiang, CHNEG Gong. Multi-fault diagnosis method based on improved ENN2 clustering algorithm[J]. Control and Decision,2015,30(6):1021-1026.

[9] Kumar A, Pooja R, Singh G K. Design and performance of closed form method for cosine modulated filter bank using different windows functions[J]. International Journal of Speech Technology,2014,17(4):427-441.

[10] Rajapaksha N, Madanayake A, Bruton L T. 2D space- time wave-digital multi-fan filter banks for signals consistingof multiple plane waves[J]. Multidimensional Systems and Signal Processing,2014,25(1):17-39.

Management Database Scheduling Algorithm Based on Fuzzy C Means Clustering

LU XinghuaLI GuohengYU WenquanCHEN Yongcong

(Huali College, Guangdong University of Technology, Guangzhou511325)

AbstractIn the design of scientific research management system, it is necessary to optimize the management of scientific research management database to improve the access and scheduling ability of scientific research management information in the database. The traditional method uses K means clustering algorithm to carry out the information attribute clustering and scheduling of the database, and the sub space of the data is easy to make the data access process into local optimal solution, and the database scheduling performance is not good. A research management database scheduling algorithm based on fuzzy C means clustering is proposed. Firstly, the database of research management database is constructed, and the feature extraction of the information flow is extracted. The fuzzy C means clustering algorithm is adopted to optimize the database. Simulation results show that the data information clustering and scheduling of scientific research management database using the proposed algorithm has good characteristics, and the characteristics of data can reflect accurately, improve the information location ability of database access, and the accuracy and convergence of database scheduling is better.

Key Wordsfuzzy C means clustering, scientific research management system, database, scheduling

收稿日期:2015年12月10日,修回日期:2016年1月20日

基金項目:2015年度廣東大學生科技創新培育專項資金立項項目(編號:pdjh2015b0940);2012廣東省質量工程項目“獨立學院電子信息創新人才培養實驗區”(編號:粵教高函[2012]204號)資助。

作者簡介:陸興華,男,碩士,講師,研究方向:計算機控制算法、人工智能。李國恒,男,研究方向:人工智能。余文權,男,研究方向:通訊技術。陳永聰,男,實驗員,研究方向:計算機網絡技術。

中圖分類號TP391.9

DOI:10.3969/j.issn.1672-9722.2016.06.006