?

近紅外高光譜成像技術用于轉基因大豆快速無損鑒別研究

2016-07-12 12:58王海龍楊向東郭東全鮑一丹
光譜學與光譜分析 2016年6期
關鍵詞:親本正確率轉基因

王海龍,楊向東,張 初,郭東全,鮑一丹*,何 勇, 劉 飛

1. 浙江大學生物系統工程與食品科學學院,浙江 杭州 310058 2. 吉林省農業科學院農業生物技術研究所,吉林 長春 130033

近紅外高光譜成像技術用于轉基因大豆快速無損鑒別研究

王海龍1,楊向東2,張 初1,郭東全2,鮑一丹1*,何 勇1, 劉 飛1

1. 浙江大學生物系統工程與食品科學學院,浙江 杭州 310058 2. 吉林省農業科學院農業生物技術研究所,吉林 長春 130033

以近紅外高光譜成像技術,結合化學計量學方法,研究了轉基因大豆的快速、無損檢測方法。實驗以3種不同非轉基因親本(HC6, JACK, TL1)及其轉基因大豆作為研究對象。采用高光譜成像系統采集874~1 734 nm波長范圍的256個波段范圍的高光譜圖像,提取大豆的光譜信息,剔除明顯噪聲部分后,采用Moving Average(MA)平滑預處理的941~1 646 nm范圍光譜數據進行分析。采用偏最小二乘判別分析算法(partial least squares-discriminant analysis, PLS-DA),對3種非轉基因親本大豆建立模型進行判別分析,其相應的建模集和預測集的判別正確率分別為97.50%和100%,100%和100%,96.25%和92.50%,結果表明,高光譜成像技術可用于非轉基因大豆的識別。對非轉基因親本及其轉基因大豆進行判別分析,基于全譜,3種的建模集和預測集的判別正確率分別為99.17%和99.17%,87.19%和81.25%,99.17%和98.33%; 以x-loading weights提取非轉基因親本及其轉基因大豆判別分析的特征波長并建立PLS-DA模型,3種的建模集和預測集的判別正確率分別為72.50%和80%,80.63%和79.38%,85%和85%,該結果表明非轉基因親本與轉基因品種的判別分析是可行的,特征波長的選擇也可用于非轉基因親本與轉基因品種的判別分析。研究表明采用近紅外高光譜成像技術對非轉基因大豆、非轉基因親本及其轉基因大豆進行鑒別是可行的,為轉基因大豆的快速無損準確鑒別提供了一種新方法。

近紅外高光譜成像; 轉基因大豆; PLS-DA;x-loading weights

引 言

由于糧食需求的增加,轉基因技術在作物種植中的應用更加快速增長[1]。從1996年開始商業化后,轉基因作物的種植面積一直持續增長。1.752億公頃,是2013年轉基因作物在全球范圍的種植面積,相比前一年的統計增長了3%,并且是最初商業化時種植面積(170萬公頃)的100多倍[2]。大豆是最主要的轉基因作物來源,大豆、玉米、棉花和油菜分別占全球轉基因作物面積的47%,32%,15%和5%[3]。轉基因作物的產量一般都遠高于非轉基因作物,大大增加了全球糧食產量,有利于減輕貧困和饑餓[2]。

轉基因在世界范圍內存在很大的爭議。中國是世界上最大的大豆進口國,盡管對轉基因作物的監管十分嚴格,常有轉基因大豆通過非法途徑進入中國銷售?;谵D基因大豆及其他轉基因作物存在的安全隱患和爭議等現實問題,研究轉基因與非轉基因的檢測和鑒別方法具有重要意義。

傳統的轉基因與非轉基因的檢測和鑒別方法,主要有蛋白質檢測方法包括酶聯免疫分析法(enzyme linked immunoassay,ELISA)、側向流動型免疫試紙條法(lateral flow strip)、核酸檢測方法[定性PCR法(qualitative PCR)、實時熒光PCR法(real-time fluorescent PCR)]、基因芯片檢測技術和高效液相色譜法等[4-5]。這些方法會一定程度的破壞蛋白質或基因片段,且費時費力,程序復雜,成本較高,非專業人員難以勝任,不適用于轉基因與非轉基因的實時在線快速檢測鑒別。

光譜與光譜成像技術具有快速、無損、準確等優良特點,近年來在農作物鑒別及品質分析的檢測中得到廣泛應用[6-8]。目前,國內外已對近紅外光譜技術在轉基因農作物的應用進行了研究[9-14],但近紅外光譜技術只能獲取檢測對象部分區域的光譜信息,缺少對檢測對象的空間信息的研究,預測集的信息相比建模集可能會存在較大差異。高光譜成像技術融合了圖像與光譜信息,能夠將研究對象的光譜信息與空間信息同時采集,對樣本的內外部信息可以更大范圍的獲取[15-16]。因此,在鑒別農產品品種和無損檢測其品質的研究中高光譜成像技術的應用越來越多[15, 17-19],但國內尚無采用近紅外高光譜成像技術對非轉基因親本及其轉基因大豆的品種鑒別的研究。

本實驗的主要目的是研究基于高光譜成像技術的轉基因大豆的快速、無損檢測與鑒別的方法。具體的目的為: (1)非轉基因大豆(親本)的品種鑒別研究; (2)非轉基因親本與其轉基因品種的品種鑒別研究。

1 實驗部分

1.1 樣本

試驗用的非轉基因親本大豆及其轉基因大豆均由吉林省農業科學院提供,有HC6,JACK和TL1等3種不同非轉基因親本大豆及其轉基因大豆共10個品種,在外觀上均無明顯差異。其中HC6大類下,3個品種包括有HC6(非轉基因親本)、2805(轉基因)和2387(轉基因); JACK大類下,4個品種包括有JACK(非轉基因親本)、1322(轉基因)、845(轉基因)和2660(轉基因); TL1大類下,3個品種包括有TL1(非轉基因親本)、411(轉基因)和695(轉基因)。試驗中選用的轉基因大豆與對照非轉基因大豆相比僅在目標性狀(抗病、抗蟲、高油酸)方面有顯著差異,在其他表型性狀方面則差異不顯著。

1.2 高光譜成像系統

實驗采用高光譜成像系統實現對轉基因大豆及其親本的光譜圖像采集。

系統主要包括: 成像光譜儀(N17E-QE, Spectral Imaging Ltd., Oulu, Finland),其光譜范圍為874~1 734 nm,在光譜范圍內共有256個波段,配有鏡頭(OLES22, Specim, Spectral Imaging Ltd., Oulu, Finland)。系統配有兩個150 W鹵鎢燈的Fiber-Lite DC950線光源(Dolan Jenner Industries Inc., USA),可驅動載有樣本的傳送帶的IRCP0076型電控移位平臺(Isuzu Optics Corp, 中國臺灣),用來控制系統運行的計算機以及中國臺灣五鈴光學公司提供的高光譜成像系統采集軟件。系統的光譜分辨率為5 nm,圖像分辨率為320×256像素點。

1.3 高光譜圖像采集及校正

采集高光譜圖像之前,先對系統進行校正,主要通過調節光強、圖像清晰度和圖像的失真來實現,而平臺移動速度、相機曝光時間和物距等參數是影響圖像清晰度和是否失真的主要因素。由于這些參數之間會彼此影響,為了使采集到的圖像達到不變形、不失真、更清晰等目的,需進行最優參數設置。多次嘗試后,分別設置參數為: 樣品到鏡頭邊緣的距離為18 cm,曝光時間為4 ms,平臺移動速度為18 mm·sec-1。

對采集到的光譜圖像處理之前進行校正,圖像校正公式如式(1)

(1)

式(1)中,R,Iraw,Iwhite和Idark分別為經校正后的圖像、原始采集的圖像、白板圖像、黑板圖像。從采集的大豆樣本高光譜圖像中選取單粒大豆為感興區域,感興區域內每一點都有一條光譜,計算感興區域內的所有像素點光譜的平均值則是該樣本的光譜,從而進行分析。

1.4 數據處理

1.4.1 判別分析方法

采用偏最小二乘判別分析(partial least squares-discriminant analysis, PLS-DA)進行判別分析。在光譜數據分析中,PLS算法[20]是用較多的一種回歸分析算法,新的變量組合(LVs)可以由光譜數據通過線性變換得到,一般前幾個LVs包含絕大多數信息,用于預測分析。PLS-DA以代表類別的整數值代替化學值進行回歸分析,根據得到的預測結果進行判別分析。為了對樣本的類別進行判定,也因為預測結果中預測值不是代表類別的整數而是實際數值,故需設定判別閾值。在本研究中,設定判別閾值為0.5,即當實際值與預測值的差的絕對值大于0.5時,則判別錯誤,反之則視為判別正確。

1.4.2x-loading weights選擇特征波長

通過特定方法挑選出的特征波長或波長區間,用少數帶有最多有用信息的波長代替全譜,將不相關或者非線性變量剔除,模型的計算量和復雜度都得到降低,從而使模型具有預測能力強、穩健性好的特點,同時可以為研發基于特征波長的儀器提供支持。

應用x-loading weights選擇特征波長。將PLS-DA用于建模分析,各波長對應的載荷系數(loading weights,LW)均可以從每個隱含變量(latent variable,LV)中得到,而該波長對所建模型預測性能的影響則可以通過載荷系數絕對值的大小來說明,因此特征波長的選取可以將某一隱含變量下各波長對應的載荷系數絕對值的大小作為依據[21]。

高光譜圖像分析采用分析軟件ENVI 4.7(ITT, Visual Information Solutions),采用Matlab R2012b(The Math Works, Natick, USA)及The Unscrambler X 10.1(CAMO AS, Oslo, Norway)做數據分析。

2 結果與討論

2.1 大豆的光譜特征曲線

實驗中采集的高光譜數據,波長范圍是874~1 734 nm,共有256個波段。由于光譜數據前端和后端在采集時均明顯受到噪聲的影響,研究時應去掉前端和后端中有明顯噪聲的部分,故采用了波段21到波段230共210個波段,即波長范圍在941~1 646 nm之間的光譜來分析。光譜預處理時用了7點移動平均平滑法[22](moving average,MA),圖1為其平均光譜圖。由圖1可知,大豆光譜曲線基本相似,無法將轉基因與非轉基因大豆從原始光譜直接區分開來。

圖1 MA預處理后大豆平均光譜圖

2.2 非轉基因親本大豆的判別分析

將所有非轉基因親本大豆進行類別賦值并通過Kennard-Stone算法[23]按照2∶1的比例將各個樣本劃分為建模集和預測集,分別包含80個與40個樣本。將親本HC6類別賦值為1,親本JACK賦值為2,親本TL1賦值為3。以該樣本劃分的數據為輸入,表1為基于PLS-DA模型的判別分析結果。

表1 非轉基因親本大豆的PLS-DA判別分析結果

由表1可知,對親本大豆HC6,JACK以及TL1的判別正確率均較高,建模集和預測集判別正確率均達到了90%以上,且JACK親本大豆建模集與預測集判別正確率均為100%,可能是因為JACK非轉基因親本大豆與其他兩類親本大豆之間光譜特性具有較大的差異。結果表明本實驗用不同非轉基因親本大豆之間能相互鑒別,即高光譜成像技術用于非轉基因大豆品種鑒別是可行的。

2.3 非轉基因親本大豆及其轉基因大豆的品種鑒別研究

對非轉基因親本大豆及其轉基因大豆品種進行鑒別研究,不同的非轉基因親本大豆及其轉基因大豆品種的賦值及樣本劃分如表2所示。

2.3.1 基于全波段光譜的PLS-DA判別模型

以經MA預處理后得到的全譜光譜數據作為輸入,建立PLS-DA的判別分析模型,其判別結果如圖2及表3所示。

由表3可知,HC6親本及其轉基因品種整體的建模集和預測集的判別效果非常好,建模集240個樣本,判斷對238個,判別正確率達到了99.17%,而預測集120個樣本,判斷對119個,判別正確率也達到了99.17%。JACK親本及其轉基因品種整體的建模集和預測集的判別正確率略低,分別為87.19%與81.25%。原因可能是JACK非轉基因親本及其轉基因品種之間差異較小。TL1親本及其轉基因品種整體的判別效果較好,建模集和預測集的判別正確率分別為99.17%以及98.33%。

表2 不同非轉基因親本及其轉基因大豆品種賦值與建模集和預測集樣本劃分

Table 2 Class value assignment and dataset split of different non-GMO parent and transgenic soybeans

品種類別賦值建模集預測集HC6238718040280528040HC638040JACK84518040132228040266038040JACK48040TL14111804069528040TL138040

圖2 基于全譜的不同非轉基因親本大豆及其轉基因大豆品種判別結果

Fig.2 Specific discriminant results of different non-GMO parent and transgenic soybeans on full spectra

表3 基于全譜的不同的非轉基因親本大豆及其轉基因大豆品種判別結果

Table 3 Total discriminant results of different non-GMO parent and transgenic soybeans based on full spectra

建模集預測集識別數判別正確率/%識別數判別正確率/%HC623899.1711999.17JACK27987.1913081.25TL123899.1711898.33

由圖2可知各品種的判別正確率均較高,而JACK親本的判別正確率較低,預測集判別正確率低于60%,可能是JACK非轉基因親本及其轉基因品種之間差異較小,共有特性較多所導致。從圖3也可以看出對親本的判別正確率并未高于對應的轉基因品種的判別正確率,原因可能是親本與其不同的轉基因品種之間各自共有的特性較多,導致無法正確判別。

綜上所述,基于全譜的HC6,JACK和TL1親本及其轉基因大豆的判別識別率都是比較高的,說明了以全譜光譜數據建立PLS-DA判別模型用于轉基因大豆與非轉基因大豆的品種識別是可行的。

2.3.2 基于x-loading weights的特征波長選擇

以全譜數據作為輸入而建立的PLS-DA模型,取得了比較好的結果。但大量的數據,會增加模型的復雜度,降低計算速度。同時,在全譜數據信息中,由于大量的冗余和共線性數據的存在,會影響模型的效果。

研究中基于x-loading weights進行特征波長的選擇,提取光譜中有效特征信息建立品種識別模型。因此,品種HC6選出的特征波長數為9(961,1 002,1 119,1 204,1 311,1 402,1 446,1 598,1 622 nm),品種JACK選出的特征波長數為11(999,1 113,1 156,1 197,1 234,1 291,1 342,1 399,1 446,1 480,1 554 nm),品種TL1選出的特征波長數為13(965,999,1 019,1 096,1 126,1 177,1 217,1 254,1 328,1 386,1 450,1 480,1 619 nm)。對不同樣本數據選擇的特征波長相近,并且選出來的部分特征波長完全相同。

圖3 基于特征波長不同的非轉基因親本大豆及其轉基因大豆品種判別結果

Fig.3 Specific discriminant results of different non-GMO parent and transgenic soybeans on sensitive wavelengths

2.3.3 基于特征波長的PLS-DA判別模型

為了驗證選出的特征波長對品種鑒別的效果,以選出的特征波長的光譜數據作為輸入,建立PLS-DA判別模型,其判別分析結果如圖3及表4。

表4 基于特征波長不同的非轉基因親本大豆及其轉基因大豆品種總體判別結果

Table 4 Total discriminant results of different non-GMO parent and transgenic soybeans based on sensitive wavelengths

建模集預測集識別數判別正確率/%識別數判別正確率/%HC617472.509680.00JACK25880.6312779.38TL120485.0010285.00

由表4可知,基于特征波長建立的PLS-DA模型中,HC6親本及其轉基因品種整體的建模集和預測集的判別正確率分別達到了72.50%和80%,JACK親本及其轉基因品種整體的建模集和預測集的判別正確率分別達到了80.63%和79.38%,TL1親本及其轉基因品種整體的建模集和預測集的判別正確率分別達到了85%和85%。由圖3可知,整體而言,盡管整體判別正確率低于基于全譜的模型,各非轉基因親本及其轉基因品種的均取得了較好的判別正確率,但需要進一步的提高。與圖2基于全譜的模型效果相似,親本大豆的判別正確率略低,可能是因為親本與其轉基因品種之間的共有特性較多。

3 結 論

基于近紅外高光譜成像技術,結合判別分析算法,對非轉基因大豆與轉基因大豆進行快速、無損檢測研究。分別研究了非轉基因親本大豆品種鑒別,轉基因大豆及其親本大豆的品種鑒別等。通過研究其光譜數據之間的差異,建立了鑒別分析模型,其中對非轉基因親本品種鑒別以及非轉基因親本及其轉基因品種的鑒別,取得了較好的判別正確率。同時通過提取特征波長進行重新建模,進一步對轉基因大豆與非轉基因大豆進行品種分類研究,也取得了比較好的效果。

本研究為轉基因與非轉基因大豆的快速、無損檢測,提供了理論依據和一個新的方法,為進一步開發轉基因大豆的便攜式快速識別檢測儀器與系統提供了方法依據。

[1] Alishahi A, Farahmand H, Prieto N, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2010, 75(1): 1.

[2] James C. Chinese Journal of Biomedical Engineering(中國生物工程雜志), 2014, 34(1): 1.

[3] James C. Chinese Journal of Biomedical Engineering(中國生物工程雜志), 2012, 32(1): 1.

[4] WANG Guang-yin, FAN Wen-xiu, CHEN Bi-hua, et al(王廣印, 范文秀, 陳碧華, 等). Food Science(食品科學), 2008, 29(10): 698.

[5] HE Yan, ZHENG Wen-jie, LIU Yuan, et al(賀 艷, 鄭文杰, 劉 垣, 等). Food Research and Development(食品研究與開發), 2009, 30(3): 170.

[6] Font R, del Río-Celestino M, de Haro-Bailón A. Industrial Crops and Products, 2006, 24(3): 307.

[7] Zhang X L, Liu F, He Y, et al. Sensors, 2012, 12(12): 17234.

[8] ZHANG Chu, LIU Fei, KONG Wen-wen, et al(張 初, 劉 飛, 孔汶汶, 等). Transactions of the Chinese Society of Agricultural Engineering(農業工程學報), 2013, 29(20): 270.

[9] Roussel S A, Hardy C L, Hurburgh C R, et al. Applied Spectroscopy, 2001, 55(10): 1425.

[10] Yamada T, Yeh T F, Chang H M, et al. Holzforschung, 2006, 60(1): 24.

[11] XIE Li-juan, YING Yi-bin(謝麗娟, 應義斌). Journal of Jiangsu University(江蘇大學學報·自然科學版), 2012, 33(5): 538.

[12] Hurgurgh C R, Heithoff C, Rippke G R. US Patent, 071993, 2000.

[13] Munck L, MΦller B, Jacobsen S. Journal of Cereal Science, 2004, 40: 213.

[14] Luna A S, da Silva A P, Pinho J S A, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2013, 100: 115.

[15] Kamruzzaman M, ElMasry G, Sun D W, et al. Innovative Food Science & Emerging Technologies, 2012, 16: 218.

[16] Huang M, Wan X, Zhang M, et al. Journal of Food Engineering, 2013, 116(1): 45.

[17] Kong W W, Zhang C, Liu F, et al. Sensors, 2013, 13(7): 8916.

[18] ZHANG Chu, LIU Fei, ZHANG Hai-liang, et al(張 初, 劉 飛, 章海亮, 等). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2014, 34(3): 746.

[19] Mahesh S, Manickavasagan A, Jayas D S, et al. Biosystems Engineering, 2008, 101(1): 50.

[20] Guo W L, Du Y P, Zhou Y C, et al. World Journal of Microbiology and Biotechnology, 2012, 28(3): 993.

[21] Liu F, He Y, Wang L. Analytica Chimica Acta, 2008, 615(1): 10.

[22] CHU Xiao-li, YUAN Hong-fu, LU Wan-zhen(褚小立, 袁洪福, 陸婉珍). Progress in Chemistry(化學進展), 2004, 16(4): 528.

[23] TANG Yu-lian, LIANG Yi, ZENG Fan-wei, et al(唐玉蓮, 梁 逸, 曾范偉, 等). Infrared(紅外), 2010,(1): 30.

*Corresponding author

(Received Mar. 28, 2015; accepted Jul. 19, 2015)

Fast Identification of Transgenic Soybean Varieties Based Near Infrared Hyperspectral Imaging Technology

WANG Hai-long1, YANG Xiang-dong2, ZHANG Chu1, GUO Dong-quan2, BAO Yi-dan1*, HE Yong1, LIU Fei1

1. College of Biosystems Engineering and Food Science, Zhejiang University, Hangzhou 310058, China 2. Agriculture Biotechnology Research Center, Jilin Academy of Agricultural Sciences, Changchun 130033, China

Near-infrared hyperspectral imaging technology combined with chemometrics was applied for rapid and non-invasive transgenic soybeans variety identification. Three different non-GMO parent soybeans(HC6, JACK, TL1)and their transgenic soybeans were chosen as the research object. The developed hyperspectral imaging system was used to acquire the hyperspectral images in the spectral range of 874~1 734 nm with 256 bands of soybeans, and the reflectance spectra were extracted from the region of interest (ROI) in the images. After eliminating the obvious noises, the moving average(MA)was applied as smooth pretreatment, and the wavelengths from 941~1 646 nm were used for later analysis. Partial least squares-discriminant analysis (PLS-DA)was employed as pattern recognition method to class the three different non-GMO parent soybeans. The classification accuracy of both the calibration set and the prediction set were 97.50% and 100% for the HC6, 100% and 100% for the JACK, 96.25% and 92.50% for the TL1, which indicated that hyperspectral imaging technology could identify the varieties of the non-GMO parent soybeans. Then PLS-DA was applied to classify non-GMO parent soybean and its transgenic soybean cultivars for building discriminant models. For the full spectra, the classification accuracy of both the calibration set and the prediction set were 99.17% and 99.17% for the HC6 and its transgenic soybean cultivars, 87.19% and 81.25% for the JACK and its transgenic soybean cultivars, 99.17% and 98.33% for the TL1 and its transgenic soybean cultivars, respectively. The sensitive wavelengths were selected byx-loading weights, and the classification accuracy of the calibration set and prediction set of PLS-DA models based on sensitive wavelengths were 72.50% and 80% for the HC6 and its transgenic soybean cultivars, 80.63% and 79.38% for the JACK and its transgenic soybean cultivars, 85% and 85% for the TL1 and its transgenic soybean cultivars, respectively. These results showed that the pattern recognition for non-GMO parent soybean and their transgenic soybeans was feasible, and the selected sensitive wavelengths could be used for the pattern recognition of non-GMO parent soybeans and transgenic soybeans. The overall results indicated that it was feasible to use near-infrared hyperspectral imaging technology for the pattern recognition of the non-GMO parent soybeans varieties, non-GMO parent soybean and its transgenic soybeans. This study also provided a new alternative for rapid and non-destructive accurate identification of transgenic soybean.

Near-infrared hyperspectral imaging; Transgenic soybean; PLS-DA;x-loading weights

2015-03-28,

2015-07-19

國家自然科學基金項目(31471417),國家(863)計劃項目(2012AA101903),國家轉基因生物新品種培育重大專項(2014ZX08004-004)和吉林省科技發展計劃項目(20150204011NY)資助

王海龍,1989年生,浙江大學生物系統工程與食品科學學院碩士研究生 e-mail: hl_wang@zju.edu.cn *通訊聯系人 e-mail: ydbao@zju.edu.cn

O433.4; S529

A

10.3964/j.issn.1000-0593(2016)06-1843-05

猜你喜歡
親本正確率轉基因
探秘轉基因
轉基因,你吃了嗎?
2010—2020年我國育成甘蔗新品種的親本分析
門診分診服務態度與正確率對護患關系的影響
橡膠樹魏克漢種質資源親子代生長遺傳規律分析
幾種蘋果砧木實生后代與親本性狀的相關性
生意
品管圈活動在提高介入手術安全核查正確率中的應用
生意
天然的轉基因天然的轉基因“工程師”及其對轉基因食品的意蘊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合