?

粒子群優化RBF神經網絡的DNA序列分類

2020-06-19 07:50孫倩趙昕
現代電子技術 2020年9期
關鍵詞:RBF神經網絡參數優化特征提取

孫倩 趙昕

摘? 要: 為提高徑向基神經網絡算法在DNA序列分類問題應用上的準確率和收斂速度,首先,以20種氨基酸的含量作為特征向量;其次,針對由于隨機選取徑向基神經網絡初始參數引起的收斂速度慢的問題,選擇粒子群算法優化神經網絡參數。應用真實的DNA序列對優化前后的兩種神經網絡算法進行比較,結果顯示,優化后算法在迭代12次左右誤差即穩定,分類結果正確率達到93.75%,遠高于未經優化的神經網絡70%的正確率。由實驗結果可知,在DNA序列分類問題中,粒子群優化徑向基神經網絡對提高收斂速度和正確率方面是有效的。

關鍵詞: DNA序列分類; PSO?RBF神經網絡; 特征提取; 分類模型建立; 參數優化; 分類效果對比

中圖分類號: TN911.1?34; TP183? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)09?0087?05

DNA sequence classification based on PSO?RBF neural network

SUN Qian1, ZHAO Xin1, 2

(1. College of Information and Technology, Jilin Agricultural University, Changchun 130118, China;

2. School of Mathematics and Big Data, Huizhou University, Huizhou 516007, China)

Abstract: In order to improve the accuracy and convergence speed of RBF (radial basis function) neural network algorithm in the application of DNA sequence classification, the contents of 20 kinds of amino acids are taken as the feature vectors of the DNA sequence; in view of the slow convergence speed caused by randomly?selected initial parameters of RBF neural network, the PSO (particle swarm optimization) is selected to optimize the RBF neural network parameters. The optimized neural network algorithm and the unoptimized neural network algorithm are contrasted by means of the real DNA sequences. The results show that the error of the optimized algorithm keeps stable after 12 iterations, and the classification accuracy reaches 93.75%, which is much higher than that (70%) of the unoptimized neural network algorithm. It is concluded from the experimental results that the PSO?RBF (particle swarm optimization radial basis function) neural network is effective in improving the convergence speed and accuracy of DNA sequence classification.

Keywords: DNA sequence classification; PSO?RBF neural network; feature extraction; classification model establishment; parameter optimization; classification effect contrast

0? 引? 言

DNA分類的主要思想是通過研究待分類DNA序列在堿基組成以及排列順序等方面與已知類別DNA序列的相似度來判斷該序列屬于哪一類。該研究的目的是預測未知DNA序列的類別,從而了解其特性,對判斷其是否屬于隱存物種、外來物種或者瀕危物種有重要意義。尤其是對細菌和病毒等種群,DNA序列分類技術得到了廣泛的應用[1]。目前,DNA序列分類的數學方法有很多,具有代表性的主要有隱馬爾可夫模型[2]、支持向量機[3]、神經網絡[4]等。文獻[5]首次將RBF神經網絡應用于DNA序列分類問題中,但其在特征提取方面采用了單堿基、雙堿基以及4D表示法相融合的方法,該方法運算復雜且只考慮了DNA序列的排列信息,忽視了其生物學意義。

人工神經網絡模型[6]在1943年被首次提出,之后迅速被應用于各個領域[7?8]。作為一種前饋型網絡,徑向基函數(RBF)神經網絡因其只有一個隱含層的簡單構造,較快的學習速度,不容易陷入局部最小化,具有良好的泛化能力等優點,在近些年來受到越來越多的關注[9?11]。而在處理實際問題時,RBF神經網絡各參數初始值的選取對性能有著較大影響,若初始值選取不當,可能使該網絡收斂速度較慢。粒子群優化(PSO)算法有著較強的全局收斂能力以及魯棒性,模型比較簡單,不涉及到復雜的遺傳問題。作為一種神經網絡訓練算法,PSO也體現出了很好的應用效果[12?13]。

針對DNA序列的RBF神經網絡分類問題,本文以氨基酸含量作為特征向量,并使用PSO優化RBF神經網絡。最后用GenBank中真實的DNA序列數據對優化前后兩種算法進行實驗,實驗結果表明,與優化前的RBF算法相比較,PSO?RBF算法在分類準確率和收斂速度兩個方面均有非常明顯的改善。

1? DNA序列分類模型建立

1.1? RBF神經網絡分類模型原理

RBF神經網絡是一個三層結構的網絡,如圖1所示。第一層為輸入層,顧名思義,該層用來接收數據的特征向量,每個單元代表一個特征,輸入數據的特征向量的維數即為該層單元個數。其次是隱含層,RBF神經網絡中第一層與第二層之間并不通過權值連接,而是直接到隱含層。在隱含層中,數據通過基函數將線性數據映射到非線性空間中。最后為輸出層,得到最終結果。第二層與第三層之間由權值連接,即這次映射是線性的。輸出層單元個數由具體問題分析,本文中最后輸出的分類結果是一個實數,因此,輸出層只有一個單元。由上述分析可知,若要構造一個RBF神經網絡,除了要確定網絡中各層節點數和權值,還要考慮隱含層中基函數的選取。本文選擇形式簡單,由具有良好解析性能的高斯函數作為徑向基函數,其基本形式為:

[φx-cj=exp-x-cjTx-cjδ2j] (1)

式中:[cj]為數據中心;[δj]為參數寬度。從式(1)可得,RBF神經網絡的訓練參數有三個,分別為:數據中心[cj]、數據寬度[δj]以及權值[ωj]。

一般情況下選取梯度下降法訓練RBF神經網絡以得到各參數最優值。具體算法步驟如下:

1) 設置神經網絡隱含層節點數[M],初始化數據中心[cj]、數據寬度[δj]以及權值[ωj]。誤差[E=12i=1pe2i]作為目標函數,則第[i]個樣本的誤差表示為:

[ei=di-FXi=di-j=1MωjGXi-cj] (2)

2) 用下列公式計算以及調整網絡中各隱含層單元到輸出層之間的權值:

[Δωj=-η?E?ωj=-ηj=1PeiGXi-cjωj+1=ωj-η?E?ωj] (3)

式中[P]為訓練樣本數。

3) 隱含層數據中心為:

[Δcj=-η?E?cj=ηωjδ2jj=1PeiGXi-cjXi-cjΔcj+1=Δcj-η?E?cj]? (4)

4) 隱含層數據中心的寬度為:

[Δδj=-η?E?δj=ηωjδ3jj=1PeiGXi-cjXi-cj2Δδj+1=Δδj-η?E?δj] (5)

5) 返回步驟2),當目標函數值達到誤差要求時停止。迭代結束后得到的初始化數據中心[cj]、數據寬度[δj]以及權值[ωj]即為該神經網絡的參數最優值。

1.2? 粒子群優化算法原理

粒子群優化算法[14]將群體中單個個體看作是空間中以一定速度運動著的粒子,通過不停地更新每個粒子的最佳位置以及種群里最優的粒子位置,對參數進行優化。實現步驟如下[15]:

1) 數據初始化,其中,包括種群規模以及粒子初始速度和位置。

2) 根據模型評估每個粒子的位置。

3) 對比每個粒子當前位置與之前最優位置[Pbest]。若當前位置優,則記錄下新位置,同時更新[Pbest]。

4) 將種群內最優的粒子位置記為[Gbest]。

5) 根據公式:

[vi+1=ωvi+c1r1Pid-xi+c2r2Pgd-xi] (6)

更新每個粒子的速度。[c1]和[c2]表示學習因子;[r1]和[r2]是[0,1]范圍內的兩個隨機數。

6) 根據公式:

[xi+1=xi+vi+1]? (7)

更新每個粒子的位置。

7) 重復步驟2)~步驟6)進行迭代,直到滿足條件為止。

1.3? PSO優化RBF神經網絡分類算法實現

1.3.1? 數據樣本選取

本文實驗樣本來源于GenBank,是由美國國家生物技術信息中心(NCBI)管理的DNA序列數據庫,其數據主要來源于專業工作人員的真實測序結果。共選取了兩類,在GenBank中的編號分別為ANFO01000063.1和NZ_COGN01000034.1,將這兩組數據分別標記為A類和B類。分別對A類和B類數據進行截取,每300個堿基長度為一組,共分為298組。將這298組DNA序列分成訓練樣本和測試樣本兩部分,具體分類情況如表1所示。

1.3.2? DNA序列特征提取

特征提取指的是把待識別對象通過一定的方法映射到新的特征空間里面,是特征的形成過程。DNA序列特征提取即將原始由A,C,G,T四個堿基構成的數據用數值化表示。一般情況下,DNA序列特征提取都是基于堿基含量和排列順序這兩個方面。根據生物學知識可知,在遺傳的過程中,DNA序列首先要轉錄成信使RNA,信使RNA上相鄰三個堿基的組成叫作密碼子。所以說,當DNA序列的堿基排列順序確定時,該序列所決定的密碼子的個數以及種類也都是確定的。DNA序列中三個堿基的排列組合共有64種,這64種密碼子決定了三個終止密碼子以及20種氨基酸。對照情況如表2所示。

本文將DNA序列中氨基酸含量作為DNA特征。首先,氨基酸由三個不同的堿基組成,其含量不僅可以體現堿基含量也可體現排列序列。其次,對于不同的生物來說,氨基酸的種類和含量都有明顯的不同,具有生物學意義。最后,DNA特征向量即為神經網絡的輸入,由于一共只有20種氨基酸,以其含量作為特征向量可以有效降低數據維度,簡化網絡機構。表3為部分數據示例(因為兩類DNA序列都僅含有以下4種氨基酸,因此,其他氨基酸含量不予列出)。

1.3.3? PSO優化RBF神經網絡過程

用PSO算法來優化RBF神經網絡的過程為:

1) 初始化粒子群和RBF神經網絡參數,確定粒子規模,將每個粒子的維度對應到神經網絡的每一個參數上,即數據中心、寬度系數和權值。通過“試選法”確定RBF神經網絡隱含層數目為3,設定群體規模為20,迭代次數為300。

2) 將RBF神經網絡目標函數,即誤差均方差設定為PSO適應度函數。

3) 將RBF連接權值的參數設置為向量,表示種群中的個體,并進行迭代,找到最優解。最后將算法結束后產生的最優解還原成網絡參數。

4) 對測試樣本進行分類。

PSO?RBF算法流程如圖2所示。

2? 結果分析

DNA序列分類問題中,將分類結果分別用0,1來表示,即神經網絡輸出期望為0或者1,實際輸出結果為一個實數,若輸出結果更接近0,則認為該DNA序列屬于A類別;反之,則認為該DNA序列屬于B類。輸出結果與期望輸出越接近,表明分類誤差越小,RBF神經網絡性能越好。

粒子群算法相關參數的設置也影響著其性能以及收斂速度,當參數設置過小時,網絡收斂速度慢,參數設置過大時,算法過于復雜且運算時間過長。本文通過多次實驗對比設置相關參數如下:總體規模數[m=20],總迭代次數[G=300],學習因子[c1=c2=2],權重[ω=0.1]。

圖3為PSO優化RBF神經網絡適應度曲線,從中可得,隨著迭代次數的增加,曲線開始變得越來越平穩,即收斂速度開始變慢。當迭代300次之后,適應度數值達到7.65。

為證明PSO?RBF算法在DNA序列分類應用中的優越性,本文將RBF神經網絡算法與PSO?RBF神經網絡算法在網絡訓練階段和測試樣本分類結果兩方面進行比較。

1) 在神經網絡訓練階段的對比

圖4表示RBF神經網絡和PSO?RBF神經網絡的訓練均方差曲線圖,從中可得,RBF神經網絡在迭代209次之后均方差穩定在[0.08,0.09]區間,而PSO?RBF神經網絡在迭代12次之后,均方差穩定在[0.07,0.08]區間。實驗結果說明,對比未經優化的RBF神經網絡算法,PSO?RBF算法收斂速度明顯更快。

圖5表示兩種算法分別對訓練樣本的輸出結果。從中可以看出,前130個訓練樣本期望輸出為0,而PSO?RBF算法實際輸出大部分都更加接近0,這種現象在后88個訓練樣本的實際輸出中體現的更加明顯。綜合兩類訓練樣本的實際輸出可知,與RBF神經網絡相比,PSO?RBF神經網絡實際輸出結果訓練誤差更小。

2) 對測試樣本分類結果的對比

為驗證兩種算法的分類效果,分別用訓練好的兩個網絡對剩余80個測試樣本進行分類。表4為RBF神經網絡算法和PSO?RBF算法對DNA序列測試樣本分類結果。從表4中可以看出,對同一批測試樣本分類,RBF神經網絡算法分類錯誤數目為24個,正確率僅為70%,PSO?RBF神經網絡算法分類錯誤數目為5個,正確率達到93.75%。實驗結果表明,在DNA序列分類問題上,PSO?RBF算法正確率明顯高于未經優化的RBF神經網絡。

3? 結? 語

針對徑向基神經網絡在DNA分類方法應用中出現的分類精度低、性能不穩定的問題,本文在以下兩方面進行了改進:在DNA特征提取方面,以氨基酸含量代替單雙堿基含量作為DNA序列特征;在提高RBF神經網絡收斂速度方面,選擇PSO算法對RBF神經網絡進行優化。為改進實驗效果,選擇了GenBank DNA序列庫中的真實數據作為實驗樣本對改進前后兩種算法進行對比。結果表明,與傳統RBF神經網絡相比,本文方法收斂速度更快、分類正確率更高。證明PSO算法優化RBF神經網絡對其性能的提高是有效的。當然,本文算法也有一定的局限性,當數據量過大時,PSO算法耗時較長,如何平衡運行時間與正確率之間的關系也是待研究的問題。

注:本文通訊作者為趙昕。

參考文獻

[1] 宋會銀,張琪,胡愈炘,等.球狀綠藻的隱性生物多樣性及其分類學進展[J].生物多樣性,2015,23(3):383?397.

[2] 郭彥明,陳黎飛,郭躬德.DNA序列的二階隱馬爾科夫模型分類[J].計算機系統應用,2015,24(9):22?28.

[3] 冼廣銘,曾碧卿,冼廣淋.最小二乘小波支持向量機的DNA序列分類方法[J].計算機工程與應用,2009,45(12):222?225.

[4] 敖麗敏,羅存金.基于神經網絡集成的DNA序列分類方法研究[J].計算機仿真,2012,29(6):171?175.

[5] 孫曉楠.基于RBF神經網絡的DNA序列分類方法[D].長春:吉林大學,2009.

[6] MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity [J]. The bulletin of mathematical biophysics, 1943, 5(4): 115?133.

[7] 于明,安夢濤,劉依.基于多特征與卷積神經網絡的人臉表情識別[J].科學技術與工程,2018,18(13):104?110.

[8] 夏思為,段書凱,王麗丹,等.基于憶阻神經網絡PID控制器設計[J].計算機學報,2013,36(12):2577?2586.

[9] 朱國俊,馮建軍,郭鵬程,等.基于徑向基神經網絡?遺傳算法的海流能水輪機葉片翼型優化[J].農業工程學報,2014,30(8):65?73.

[10] LUO S, LI S, FARID T. Chaos and nonlinear feedback control of the arch micro?electro?mechanical system [J]. Journal of systems science & complexity, 2018, 31(6): 1510?1524.

[11] ABDELATTI Marwan, YUAN Chengzhi, ZENG Wei, et al. Cooperative deterministic learning control for a group of homogeneous nonlinear uncertain robot manipulators [J]. Science China (Information sciences), 2018, 61(11): 63?81.

[12] 南敬昌,陸亞男,高明明.基于改進混合算法優化RBF網絡的濾波器建模[J].計算機工程與科學,2018,40(7):1329?1336.

[13] 袁艷,葉俊浩,蘇麗娟.基于改進的粒子群徑向基神經網絡的目標識別[J].計算機應用,2018,38(z1):6?8.

[14] 林玉嬌.基于改進粒子群的PID參數整定應用研究[D].南寧:廣西大學,2015.

[15] KEERTHI S S, LIN C J. Asymptotic behaviors of support vector machines with Gaussian kernel [J]. Neural computation, 2003, 15(7): 1667?1689.

猜你喜歡
RBF神經網絡參數優化特征提取
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
基于神經網絡的動力電池組焊接參數優化研究
無線Mesh網絡發展
基于RBF神經網絡的PID自校正控制研究
研究LTE與WCDMA系統間小區互操作與參數優化
基于磁流變技術的汽車發動機隔振系統的參數優化
基于RBF神經網絡的一回路核動力裝置典型故障診斷
RBF神經網絡在創業板新股定價問題上的研究
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合