?

基于改進鄰域粗糙集的腫瘤特征基因選擇算法的研究

2017-06-19 19:31劉翠翠
無線互聯科技 2017年8期
關鍵詞:粗糙集特征選擇鄰域

劉翠翠

(長沙醫學院,湖南 長沙 410219)

基于改進鄰域粗糙集的腫瘤特征基因選擇算法的研究

劉翠翠

(長沙醫學院,湖南 長沙 410219)

針對當前腫瘤特征基因選擇算法準確率不高及工作效率較低的問題,文章對鄰域粗糙集進行改進來解決此類問題。文章首先對領域粗糙集的相關理論進行了分析;其次分析了粒子群算法,設計出改進的鄰域粗糙集腫瘤特征選擇算法;最后給出了改進算法的實現和仿真實驗,希望對于算法研究人員和醫務人員具有一定的積極意義。

鄰域粗糙集;算法;腫瘤特征

隨著科技的進步,在生物技術和生命科學的研究中,海量的模糊數據及大量的不確定性問題給研究工作帶來了指數級增長的復雜數據處理困難。當前,對人類健康和壽命的影響最大的疾病是腫瘤,如何盡早地對腫瘤進行分類和區別惡性腫瘤及良性腫瘤,可以對疾病的及早治療提供科學的依據,提高病人的存活率。在腫瘤基因的表達譜數據上具有低樣本、連續型、高維度和不完備的特征,當前的很多數據挖掘算法無法對基因數據進行準備的分類和預測,本文通過改進鄰域粗糙集來提高和簡化特征選擇過程,提高工作效率。

1 領域粗糙集相關理論

1.1 粗糙集

1982年,波蘭數學家Paw lak提出了粗糙集理論,其主要思想是將知識按照某種等價關系,按照上下近似的概念將知識劃分到不同的區域中。該理論是一種可以處理分析不確定知識和模糊數據的數學工具,可以從一些不一致的、不完整的、不精確的數據中找到隱含的規律和知識。

在粗糙集理論方面,需要掌握幾個基本的概念:

(1)等價類。假設一個信息系統K=(U,A,V,f),其中U為知識,即論域;A是屬性的非空有限集;V是信息函數,表示具體對象上的信息值,對于屬性子集P屬于A,則在論域中存在一個對象x,等價類滿足條件為:

(2)不可辨關系。假設S是U上的一個等價關系,P屬于S且不為空,則P中所有等價關系的交集為P上的不可辨關系,公式如下所示:

(3)知識約簡。知識約簡指的是在信息系統中,在知識庫中對其中不重要的及不相關的知識進行刪除,但知識庫的分類能力不變。

1.2 鄰域粗糙集

粗糙集只能夠對離散型的數據進行分析,但是在現實的知識體系里,數據基本上都是數據值型的,這使得數據必須進行離散化后才能夠進行處理分析,嚴重影響了算法的運行效率且可能造成數據的失真。在此基礎上,提出了領域粗糙集,數據無需進行離散化即可處理,大大提高了效率。

在粗糙集理論上,提出了鄰域近似空間、上下近似、鄰域不確定性、聯合鄰域熵等概念,有效地完善了鄰域粗糙集理論。

1.3 基因特征選擇

基因特征選擇的目的是在正常樣本和疾病樣本中,每個樣本中都存在大量的基因,而部分基因只存在少量的樣本中,在小樣本和大基因問題上找出差異的基因,對診斷腫瘤和分類是非常重要的。

基因特征的選擇首先是基因表達數據獲取,對數據進行預處理分析,其次選擇提取特征基因,建立分類模型,最后對分類的結果進行預測和評估。整個基因特征選擇的流程如圖1所示。

圖1 基因特征選擇流程

2 改進的鄰域粗糙集腫瘤特征選擇算法

2.1 粒子群算法

1995年,Kennedy和Eberhart提出了基于迭代的粒子群優化算法,該算法的最大優點是具有全局優化能力且便于實現。

粒子群算法的思想是:對一個d維的搜索空間中里有大量的以特定速度飛行粒子存在,每個粒子可以看作是沒有體積、沒有質量的點,每個粒子根據其他粒子的飛行經驗來調整個體的飛行軌跡,并不斷地向最優點靠攏。

在粒子群算法中,粒子是不斷向最優點靠攏的,其粒子對于飛行的位置和速度調整主要通過以下公式來實現:

其中locij表示粒子i在第j維空間中的位置,vij表示粒子i在第j維空間中飛行的速度,w表示慣性權值,c1和c2是加速因子,其值為正常數,r1和r2在[0,1]中的隨機數。

2.2 改進的鄰域粗糙集腫瘤特征選擇算法

鄰域粗糙集的思想是對屬性集中的每一個屬性都賦個值,即權重,對聚類相關性較強的屬性不斷增加其權重的值,去掉權值較小的屬性后,再次對余下的屬性進行權重分配,去掉較小值,這樣周而復始,使得在空間中噪聲的影響不斷減小,這樣分類的最終結果不斷接近最優。但是這種方法存在著一個問題,就是對樣本之間的特征沒有進行充分的考慮,使得分類的精度受到影響。

針對鄰域粗糙集算法的不足,本文結合粒子群算法對其進行改進,改進的鄰域粗糙集腫瘤特征選擇算法流程描述如下:

(1)給基因集中的每個元素賦予一個權重值w。

(2)對空間中樣本進行探索,找到N個最近命中樣本和N個最近命失樣本。

(3)計算任意的基因的權重,通過相同類別的最近鄰居,通過適應度函數Fit(g,xi,xj)找到不同基因之間的差異。

(4)找到屬性中權重最小值中的屬性的位置。

(5)從屬性集合中刪除最小值屬性。

(6)得到新的基因組集,查看得到的結果是否滿足條件,假如不滿足并轉到第(1)步,滿足則直接結束。

在改進的算法中,屬性是非常重要的,可以有效影響決策;另外,適應度函數可以有效評價粒子質量,適應度函數可以有效地讓質量好的粒子留下,進行排除差的粒子。

3 仿真實驗

為了更好地評價改進的鄰域粗糙集腫瘤特征選擇算法的優劣,本文對白血病、肺癌、結腸癌及前列腺癌4種常見的基因表達譜數據集進行分析,本文采用的樣本數據集描述如表1所示。

表1 實驗數據集

實驗所用的電腦采用聯想電腦(i5,3.2 GHz,8 GB內存),仿真軟件采用matlab2010,實驗結果如圖2所示。

圖2 實驗結果比較

通過實驗可以看出,改進的鄰域粗糙集在進行腫瘤特征基因上,其分類正確率高于傳統的粒子群算法,一定程度上改進了腫瘤特征基因分類的性能,提高了準確率。

4 結語

本文對粒子群算法和鄰域特征集進行了分析,并在其基礎上對兩種算法的優點進行了總結,設計出改進的鄰域特征集,在對腫瘤特征基因選擇上具有較好的準確性,提高了工作的效率。由于本文的篇幅所限,在算法的具體實現和實驗數據方面沒有給出全面的資料,不足之處,盡請見諒。

[1]張麗君,李舟軍.微陣列數據癌癥分類問題中的基因選擇[J].計算機研究與發展,2009(5):794-802.

[2]楊明.一種基于一致性準則的屬性約簡算法[J].計算機學報,2010(2):231-239.

[3]王明怡,吳平,王德林.基于相關性分析的基因選擇算法[J].浙江大學學報(工學版),2004(10):1289-1292.

[4]徐菲菲,苗奪謙,魏萊.基于模糊粗糙集的腫瘤分類特征基因選取[J].計算機科學,2009(3):196-200.

Study on the genetic selection algorithm of tumor characteristics based on improved neighborhood rough sets

Liu Cuicui
(Changsha Medical University, Changsha 410219, China)

Aim ing at the problem of high accuracy and low efficiency of the current tumor feature gene selection algorithm, this paper improves the neighborhood rough set to solve the problem. Firstly, the paper analyzes the relative theory of the field rough set, then analyzes the particle swarm optim ization algorithm, and designs the improved feature selection algorithm of the neighborhood rough set tumor. Finally, it gives out the implementation of the improved algorithm and the simulation experiment, hoping to have some positive significance for the arithmetic researcher and the medical staff.

neighborhood rough set; algorithm; tumor characteristics

劉翠翠(1983— ),女,湖南岳陽,碩士,講師;研究方向:生物信息學,計算機應用。

猜你喜歡
粗糙集特征選擇鄰域
稀疏圖平方圖的染色數上界
基于鄰域競賽的多目標優化算法
Kmeans 應用與特征選擇
多?;植诩再|的幾個充分條件
關于-型鄰域空間
雙論域粗糙集在故障診斷中的應用
聯合互信息水下目標特征選擇算法
兩個域上的覆蓋變精度粗糙集模型
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合