?

基于高效SNP芯片的小麥產量相關性狀全基因組關聯分析

2023-10-23 08:18劉麗華劉陽娜李宏博張明明屈平平趙昌平龐斌雙
麥類作物學報 2023年11期
關鍵詞:粒長表型染色體

劉麗華, 劉陽娜,周 悅,李宏博,張明明,屈平平,趙昌平,龐斌雙

(北京市農林科學院雜交小麥研究所,雜交小麥分子遺傳北京市重點實驗室,農業農村部農作物DNA指紋創新利用重點實驗室,北京 100097)

小麥是世界上重要的糧食作物之一,有約40%的人口以小麥為主糧(http://www.fao.org/)。隨著全球人口數量的增加、氣候災害的頻發、耕地資源的減少、水資源日益匱乏,全球糧食安全依然面臨挑戰[1],而提高小麥品種產量潛力是解決糧食安全的有效途徑。株高、穗長、小穗數、穗粒數、有效分蘗數、粒長、粒寬和千粒重與小麥產量顯著相關[2-5],挖掘此類性狀的關聯位點,有助于加快有利基因的聚合和利用,對小麥產量的遺傳改良具有重要的意義。

小麥的產量相關性狀是由多基因控制的數量性狀,受環境的影響較大。全基因組關聯分析(genome-wide association study, GWAS)和數量性狀位點(quantitative trait locus, QTL)定位的連鎖分析被認為是解析復雜數量性狀的兩種主要手段[6]。關聯分析以連鎖不平衡為基礎,把自然群體中個體的表型同基因型的多樣性結合起來分析,直接鑒定出與表型變異密切相關的具有特定功能的等位基因位點,較連鎖分析的QTL定位方法具有分辨率高、構建群體耗時短、能同時檢測多個等位基因、考慮更加復雜的遺傳背景等優點[7-8],更容易發現重要的數量性狀基因位點,挖掘出更多的功能基因,現已廣泛應用于小麥[9-10]、玉米[11]、水稻[12]、大豆[13]、花生[14]等農作物的數量性狀研究。

GWAS分析結果受標記密度的影響較大,標記密度越大,關聯結果越精確[15]。單核苷多態性(single nucleotide polymorphism, SNP)標記,在基因組中具有分布廣泛、遺傳穩定、密度高、可實現高通量檢測等優點,用于全基因組關聯分析,解析率高。隨著小麥基因組測序的發展,大量SNP標記被開發出來,各款SNP芯片和SNP高通量檢測平臺的問世,大力推進了基于SNP標記開展小麥產量相關性狀關聯分析的研究。Yerlan等[9]利用90K Illumina iSelect SNP芯片,篩選出3 245個有效SNP標記,對194份春小麥的12個農藝性狀進行GWAS分析,獲得12個至少在兩個環境下顯著關聯的位點。Lozada等[16]利用90K Illumina iSelect SNP芯片,篩選出5 715個SNP標記,對239份軟紅冬小麥的8個產量相關性狀進行GWAS分析,獲得5個與產量相關性狀的顯著關聯位點。Kumar等[17]利用35K Axiom SNP芯片,篩選出15 886個SNP標記,對205份小麥種質資源的產量相關性狀進行GWAS分析,獲得10個與產量顯著相關的SNP位點。張紅杰等[18]利用55K SNP芯片,對152份合成小麥的株高性狀進行關聯分析,共發現24個與株高顯著關聯的SNP位點。

以往報道中,用于關聯分析的有效SNP標記密度相對較低,且應用高密度SNP標記基于 GWAS 挖掘小麥產量相關基因的研究報道較少。本研究以248個中國北部冬麥區小麥育成品種為材料,利用自主開發的高質量高效小麥Affymetrix BAAFS Wheat 90K SNP芯片進行基因分型,獲得63 658個高質量SNP位點,開展株高、穗長、小穗數、穗粒數、有效分蘗數、粒長、粒寬和千粒重共8個產量相關性狀的GWAS分析,發掘小麥產量相關性狀穩定關聯的SNP位點,篩選相關候選基因,為相關基因克隆和分子標記輔助選擇提供理論依據。

1 材料與方法

1.1 試驗材料與表型鑒定

選取248個北部冬麥區小麥育成品種分別于2017、2018和2019年在北京市海淀試驗站種植。采用隨機區組設計,雙行區,2次重復,行長1.5 m,行距25 cm,每行30株,按當地常規方式進行田間管理。在小麥成熟收獲前,隨機抽取每份材料的10個單株(去掉每行兩端的植株),考察其株高(plant height, PH)、穗長(spike length, SL)、小穗數(spikelet number, SN)、穗粒數(kernel number per spike, KN)、有效分蘗數(effective tiller, ET)。待收獲脫粒自然晾干后,稱量千粒重(thousand-kernel weight, TKW),并測量粒長(kernel length, KL)和粒寬(kernel width, KW)。

1.2 表型數據分析

1.3 DNA提取和SNP基因分型

采用CTAB法[19]提取248個品種的DNA,并將其保存在TE中。DNA質量和濃度用紫外分光光度計和瓊脂糖凝膠電泳進行測定,要求DNA樣本濃度在50 ng·μL-1以上,OD260/280應在1.7~2.1之間,DNA的總量應大于2 μg。

利用北京市農林科學院雜交小麥研究所自主開發的Affymetrix BAAFS Wheat 90K SNP芯片,對248個品種的自然群體進行基因分型,檢測到覆蓋小麥全基因組的68 519個位點。對基因型進行質量控制,質量控制標準為:去除雜合率大于10%、缺失率大于10%、MAF小于0.05且無物理位置的位點,最終獲得63 658個高質量SNP位點用于本研究的關聯分析。

1.4 全基因組關聯分析與候選基因篩選

利用R語言(LEA)分析群體結構,PCA方法進行主成分分析;采用R語言的GAPIT軟件(http://www.zzlab.net/GAPIT/)進行親緣關系矩陣(Kinship)計算、親緣關系聚類熱力圖繪制、連鎖不平衡(linkage disequilibrium LD)分析;標記間的LD采用R2來衡量,計算整個基因組的LD值,繪制LD值和標記物理距離之間的散點圖,然后進行LD衰減曲線的擬合,并定義LD衰減的閾值為R2=0.1[20];將PCA和Kinship納入,利用GAPIT軟件的MLM模型,對株高、穗長、小穗數、穗粒數、有效分蘗數、粒長、粒寬和千粒重共8個性狀進行全基因組關聯定位,當標記的P≤0.000 01 時認為標記與性狀存在顯著關聯。將在2個及2個以上的環境中發現的位點視為穩定的位點。

針對多環境穩定顯著關聯SNP標記,參照中國春RefSeq V1.1基因注釋信息,獲取關聯標記最近的基因,在Ensembl數據庫(http://plants.ensembl.org/index.html)查找其基因功能。

2 結果與分析

2.1 表型數據分析

248個材料的8個性狀在不同環境中均表現出較大的變異范圍,說明目標性狀是受多基因控制的數量性狀。8個性狀的方差分析表明(表1),群體各性狀的基因型、環境以及基因型×環境互作中均達到顯著水平(P≤0.05),除穗長在環境中為顯著水平外,其他性狀表現為極顯著水平(P≤0.001)。各性狀的平均廣義遺傳力差別較大,范圍為0.562~0.891,所有性狀均適合遺傳分析。

表1 自然群體8個性狀方差分析Table 1 Significant analysis of eight traits in natural population between genotype and environment

對性狀間的相關性進行分析,大部分具有顯著正相關性或顯著負相關(表2)。株高與穗長呈極顯著正相關,與有效分蘗數、粒寬呈顯著正相關,與穗粒數呈顯著負相關;穗部性狀間,穗長分別與小穗數、穗粒數呈極顯著正相關,小穗數與穗粒數呈顯著正相關;但小穗數與千粒重呈極顯著負相關;千粒重與粒長、粒寬呈極顯著正相關,且相關系數分別為0.44和0.63。這說明產量相關性狀間存在協同或抑制作用。

表2 小麥產量性狀間的相關性分析Table2 Corelation analysis of yield-related traits in wheat

2.2 SNP標記分析

利用Affymetrix BAAFS Wheat 90K SNP芯片(包含84 661個SNP)分析248個樣品的基因型,獲得高質量多態性(PHR)標記68 519個,占比80.94%。進一步去除雜合率大于10%、缺失率大于10%、MAF值小于0.05、無物理位置的位點,剩余63 658個位點(占比75.19%)用于后續關聯分析。每條染色體的標記數量變化范圍為595個(4D)~5 982個(3B)(圖1),A、B和D染色體組分別占比39.48%、45.03%和13.92%。全基因組標記密度為0.28 Mb/SNP,A、B和D染色體組標記密度分別為0.21、0.19和0.44 Mb/SNP。

圖1 SNP位點在染色體及各亞基因組上的分布

2.3 群體結構和親緣關系分析

將63658個SNP標記均納入群體結構、主成分以及親緣關系分析。群體遺傳結構分析表明,當K=3時,ΔK 值最大,由圖2A可知,248個自然群體劃分為3個亞群。有部分樣品血緣比較復雜,說明自然群體間基因交流比較頻繁?;诨蛐偷?PCA 分析(圖2B)和親緣關系分析(圖2C)顯示整個群體可分為3個群組, 分類結果與 Structure 結果相似。圖2C結果顯示除了少數品種外,大部分品種同其他品種之間的親緣關系都并不太接近。

A:群體結構;B:主成分分析;C:親緣關系。

2.4 連鎖不平衡分析

將63 658個SNP標記均納入連鎖不平衡(LD)分析。從LD衰減圖(圖3)可以看出群體中的LD平均衰減距離為5 Mb,衰減速度較快,表明在群體進化過程中重組率較大,關聯分析時所需SNP密度更大,能獲得更小的候選區間,篩選時更容易。且LD衰減距離大于標記間的平均距離(0.28 Mb),說明標記對全基因組具有足夠的覆蓋度。

圖3 連鎖不平衡分析

2.5 全基因組關聯分析

將63 658個SNP標記用于關聯分析,共檢測到158個與株高、穗長、小穗數、穗粒數、有效分蘗數、粒長、粒寬、千粒重顯著關聯(P≤0.000 01)的SNPs,分布在除1A、2D、3D、6B外的其它17條染色體上,在單一環境下的關聯位點可解釋4.05%~10.24%的表型變異(表3),有154個位點平均貢獻率大于5%。其中45個SNPs在兩個或兩個以上環境中與性狀顯著關聯,分布于1B、1D、2A、3A、4B、4D、5A、5B和7D染色體上,涉及株高、穗長、穗粒數、有效分蘗數、粒長、粒寬和千粒重共7個性狀,解釋平均表型變異的3.60%~10.51%。

有14個與株高顯著關聯的SNPs,分別分布在1B、4D和7D染色體上。其中位于4D染色體上的7個位點(Affx-111184993、Affx-111486973、Affx-109390358、Affx-88736027、Affx-88431037、Affx-108864084和Affx-88477950)和位于7D染色體上的3個位點(Affx-111766144、Affx-110475941和Affx-110885974)在兩個以上環境中被檢測到,解釋3.60%~8.63%的表型變異,其中Affx-88477950對表型貢獻率最高。

有23個與穗長顯著關聯的位點,分別分布在1B、1D、3A、5B、5D、6A、6D和7D染色體上。其中10個位點至少在兩個環境中穩定表達, 如3A染色體上686.8 Mb處的6個標記(Affx-109542048、Affx-92104882、Affx-88470542、Affx-88776796、Affx-110357394和Affx-88480986)、5B(Affx-110744126)、7D(Affx-111294473)在三個以上環境同時被檢測到,解釋5.56%~8.42%的表型變異,其中Affx-111294473對表型貢獻率最高。

有6個與小穗數顯著關聯的位點,分別分布在2B、3B、7A和7D染色體上,但均在單個環境中檢測到,解釋4.79%~8.58%的表型變異,其中Affx-109291016對表型貢獻率最高。

有9個與穗粒數顯著關聯的位點, 分布在3A、3B、4A、4D和7D 染色體上。只有7D染色體上的Affx-111108657同時在三個以上環境中被檢測到,對表型貢獻率為6.06%~7.22%。

有47個與有效分蘗數顯著關聯的位點,分別分布在1B、5B和5D染色體上。其中位于1B染色體上的8個位點(Affx-109803920、Affx-111268269、Affx-111963063、Affx-110355319、Affx-109257091、Affx-111928763、Affx-111871302和Affx-109807825)同時在兩個相同的環境中被檢測到,物理位置為561.8~563.9 Mb,為同一基因座,解釋6.06%~8.73%的表型變異,其中位點Affx-109807825對表型貢獻率最高。

有11個與粒長顯著關聯的位點, 分別分布在2A、3A、4D、5A、5B和6D染色體上。其中位于2A染色體上的4個位點(Affx-88710623、Affx-110152685、Affx-109998980和Affx-110075012)和位于5B染色體上的2個位點(Affx-110374059和Affx-111349720)在兩個以上環境中被檢測到,解釋5.45%~6.62%的表型變異,其中Affx-110374059對表型貢獻率最高。2A染色體上,位于535.8~540.7 Mb的4個SNPs位點為同一個基因座;位于5B染色體上534.3 Mb處的2個SNPs位點為同一個基因座。

有24個與粒寬顯著關聯的位點,分別分布在2A、2B、4B、5A和7A染色體上。其中位于4B染色體上的6個位點(Affx-111258830、Affx-88421491、Affx-111007710、Affx-110710374、Affx-109181128和Affx-111875175)和位于5A染色體上的1個位點(Affx-109837870)在兩個以上環境中被檢測到,解釋6.47%~10.51%的表型變異,其中Affx-111007710、Affx-110710374和Affx-109181128的表型貢獻率最高。4B染色體上的6個位點位于36.0~37.2 Mb,為同一個基因座。

有24個與千粒重顯著關聯的位點,分別分布在3A、5D、7A和7B染色體上。其中位于3A染色體上的3個位點(Affx-111099384、Affx-110425849和Affx-109705103)同時在兩個相同的環境中被檢測到,解釋7.05%~7.69%的表型變異,其中Affx-111099384和Affx-110425849的表型貢獻率最高。

2.6 候選基因分析

共發現45個候選基因,其中有功能注釋的基因共41個(表4),位于基因內的標記有4個。已知功能基因包括:細胞分裂素生物合成(cytokinin biosynthetic process)、水解酶(hydrolase activity)、神經酰胺代謝(ceramide metabolic process)、氧化-還原過程(oxidation-reduction process)、蛋白質結合(protein binding)、氧化還原酶(oxidoreductase activity),作用于單個供體與氧分子結合(acting on single donors with incorporation of molecular oxygen)、 兩個氧原子結合(incorporation of two atoms of oxygen)、金屬離子結合(metal ion binding)、ATP結合(ATP binding)、磷酸磷脂酰肌醇激酶 (phosphatidylinositol phosphate kinase activity)、轉錄調控(regulation of transcription)、細胞核(nucleus)、 DNA結合轉錄因子(DNA-binding transcription factor activity)、碳水化合物代謝(carbohydrate metabolic process)、水解酶(hydrolase activity)、RNA結合(RNA binding)、蛋白激酶(protein kinase activity)、蛋白磷酸(protein phosphorylation)等。本研究鑒定的候選基因及其功能表明植物產量涉及多種機制和復雜的代謝調控網絡,然而,這些候選基因在小麥產量形成過程中的具體功能和機制還需要進一步研究。

表4 穩定表達位點最近的候選基因及其功能注釋Table 4 The nearest candidate genes at stable expression sites and functional annotations

3 討論

3.1 小麥產量性狀間的相關性分析

小麥產量性狀包括株高、穗長、小穗數、穗粒數、有效分蘗數、粒長、粒寬、千粒重等重要指標,研究性狀間的相互作用對產量的高低有重要作用。Gegas等[21]研究表明,粒長和粒寬對粒重有直接影響。Li等[22]和余曼麗等[23]研究發現千粒重與粒長、粒寬呈極顯著正相關,與本研究結果一致。除此之外,本研究還發現小穗數與穗粒數呈極顯著正相關,與Li等[22]和Li等[24]結果一致。說明六個相關性狀之間相互關聯、相互制約和相互協調的關系共同決定小麥產量高低。

3.2 小麥產量相關性狀的GWAS分析

本研究利用高效90K芯片對248個育成品種組成的自然群體進行關聯分析,共檢測到158個與8個產量性狀顯著關聯的SNP位點,其中45個位點至少在2個以上環境中穩定表達。有8個穩定關聯位點與以往的研究結果一致(表5),37個為新發現位點。

表5 小麥產量相關性狀的關聯位點與以往研究的比較Table 5 Comparison of the yield-related loci between the current study and previous studies

與株高穩定關聯的位點有10個,分布在4D和7D染色體上。Hu等[25]在4D染色體上檢測到4個株高相關位點,物理位置區間為16.9~19.3 Mb,Li等[22]發現了一個與株高相關聯的位點,物理位置區間為16.6~19.7 Mb,除此之外,在其它研究中,也發現了與株高相關的等位基因Rht-D1b[26],物理位置為18.78 Mb。本研究中位于4D染色體上的7個株高相關位點的物理位置區間為15.4~19.5 Mb,其中4個位點(Affx-88736027、Affx-88431037、Affx-108864084和Affx-88477950)位于上述他人研究結果的區間內,3個位點(Affx-111184993、Affx-111486973和Affx-109390358)在附近區域,說明在此區間內可能存在控制株高的位點。位于7D染色體上的3個位點(Affx-111766144、Affx-110475941和Affx-110885974)的物理位置區間為65.5~66.8 Mb,可能為新位點。

與穗長穩定關聯的位點有10個,分布在1B、1D、3A、5B和7D染色體上。在1B染色體上檢測到的Affx-109620845位點與Hu等[25]定位到的位點AX-95255966相距1.2 Mb。分別在1D、3A、5B和7D染色體上檢測到1、6、1和1個新位點,3A染色體上的6個位點位于同一基因座。

與穗粒數穩定關聯的位點有1個(Affx-111108657),位于7D染色體上,物理位置為585.5 Mb,可能為新位點。

與有效分蘗數穩定關聯的位點有8個(Affx4109803920、Affx-111268269、Affx-111963063、Affx-110355319、Affx-109257091、Affx-111928763、Affx-111871302和Affx-109807825),全部位于1B染色體上,物理位置為561.8~563.9 Mb,可判定為同一個基因座。

與粒長穩定關聯的位點有6個且都為新鑒定到的位點,分別位于2A和5B染色體上。位于2A上的4個位點(Affx-88710623、Affx-110152685、Affx-109998980和Affx-110075012)為同一個基因座;位于5B染色體上的2個位點(Affx-110374059和Affx-111349720)為同一個基因座。

與粒寬穩定關聯的位點有7個,分別位于4B和5A染色體上。位于4B染色體上的6個位點(Affx-111258830、Affx-88421491、Affx-111007710、Affx-110710374、Affx-109181128和Affx-111875175)為同一個基因座,為穩定新位點。位于5A染色體上的1個位點(Affx-109837870)為穩定的新位點。

與千粒重穩定關聯的位點有3個(Affx-111099384、Affx-110425849和Affx-109705103),全部位于3A染色體上,為穩定的新位點。

本研究在株高和穗長中定位到的穩定位點與以往研究發現的很多位點屬于同一個基因座,可對重要位點進一步開發SNP標記,為標記輔助育種提供可靠的位點。本研究同時定位到37個穩定新位點,分別是7D染色體上定位到的3個與株高相關位點;1D、3A、5B和7D染色體上定位到的9個穗長相關位點;7D染色體上定位到的1個與穗粒數相關位點;1B染色體上定位到8個與有效分蘗數相關的位點;2A和5B染色體上定位到的6個與粒長相關位點;4B和5A染色體上定位到的7個與粒寬相關位點;3A染色體上定位到的3個與千粒重相關位點。這些穩定的新位點與具有結合核酸、RNA、細胞質、蛋白質的基因以及具有催化活性和水解酶活性的基因關聯(表4)。新位點的表型貢獻率為3.60%~10.51%,有可能為主效位點,可在小麥產量育種中起到重要的作用,可優選這些關聯位點進行功能標記開發,為分子標記輔助育種提供有效信息。

猜你喜歡
粒長表型染色體
水稻粒長遺傳及其功能基因研究進展
多一條X染色體,壽命會更長
為什么男性要有一條X染色體?
建蘭、寒蘭花表型分析
能忍的人壽命長
秈稻粒長與稻米品質的相關性及其育種應用
日本晴/R1126水稻重組自交系群體粒形性狀QTL定位
GABABR2基因遺傳變異與肥胖及代謝相關表型的關系
慢性乙型肝炎患者HBV基因表型與血清學測定的臨床意義
再論高等植物染色體雜交
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合