?

大豆泛基因組研究進展

2024-03-22 06:54劉羽誠申妍婷田志喜
遺傳 2024年3期
關鍵詞:基因組研究變異基因組

劉羽誠,申妍婷,田志喜,2

優博專欄

大豆泛基因組研究進展

劉羽誠1,申妍婷1,田志喜1,2

1. 中國科學院遺傳與發育生物學研究所,種子創新重點實驗室,北京 100101 2. 中國科學院大學,北京 101408

人工馴化為農業發展提供了原始驅動力,也深刻地改變了許多動植物的遺傳背景。伴隨組學大數據理論和技術體系的發展,作物基因組研究已邁入泛基因組時代。借助泛基因組的研究思路,通過多基因組間的比較和整合,能夠評估物種遺傳信息上界和下界,認知物種的遺傳多樣性全貌。此外,將泛基因組與染色體大尺度結構變異、群體高通量測序及多層次組學數據相結合,可以進行更為深入的性狀-遺傳機制解析。大豆((L.) Merr.)是重要的糧油經濟作物,大豆產能關乎國家糧食安全。對大豆遺傳背景形成、重要農藝性狀關鍵位點的解析,是實現更高效的大豆育種改良的前提。本文首先對泛基因組學的核心問題進行了闡述,解釋了從頭組裝/比對組裝、迭代式組裝和圖基因組等泛基因組研究策略的演變歷程和各自特征;接著對作物泛基因組研究的熱點問題進行了概括,并且以大豆為例詳細闡釋了包括類群選擇、泛基因組構建、數據挖掘等方面在內的泛基因組研究的開展思路,著重說明染色體結構變異在大豆演化/馴化歷程中的貢獻及其在農藝性狀遺傳基礎挖掘上的價值;最后討論了圖泛基因組在數據整合、結構變異計算方面的應用前景。本文對作物泛基因組未來的發展趨勢進行了展望,以期為作物基因組學及數據科學研究提供參考。

大豆;泛基因組;結構變異;演化;馴化

近20年來基因組學經歷了爆發式的發展,如今已經成為生命科學領域研究的重要范疇?;蚪M承載著生命體的基本遺傳信息,一個高質量的基因組是展開深度遺傳學及分子功能研究的先決條件。然而,隨著基因組學理論體系的延展、測序技術的革新、數據維度和數據需求的不斷豐富,研究者對基因組本身的認知經歷了不斷的擴充與迭代。將單一的參考基因組作為特定物種或者類群基因組的“標準品”,其代表性和蘊含的生物多樣性始終是有限的。物種內、種系間的差異是解析種群演化和表型特征形成的關鍵,不能被忽視。針對這些問題,研究人員不斷探索新的研究方法與思路,這此過程中考慮多個代表性基因組比較與整合的泛基因組學(pan-genomics)框架得以建立,成為現今研究的熱點方向。

作物分子設計育種是解決國家糧食安全問題的重要手段,而高質量的作物基因組是遺傳學家、育種家認識改造作物的關鍵基礎。作物基因組演化存在諸多特征。一方面,植物基因組中基因組序列重復、基因組加倍、多倍化等事件更為頻繁,使得植物在染色體水平上積累了更多的結構差異[1];另一方面,作物馴化改良是一致性和多樣化兼有的過程,盡管品種/品系之間具備高度的可比性,但單個品種/品系的基因組并不能代表整個作物的遺傳背景。因此研究者認識到,使用單個基因組作為參考開展作物遺傳與功能基因組研究,很可能低估研究對象遺傳分化的程度并遺失諸多重要的遺傳變異[2,3]。以上特征表明作物是開展泛基因組研究的良好素材,而泛基因組也是深度解析作物基因組多樣性、挖掘農藝性狀相關位點的重要方法。作為傳統基因組形式的補充和擴展,泛基因組現今已成為作物基因組圖譜繪制和遺傳解析的常用手段[4,5]。

大豆()是我國重要的作物和經濟物資,由于需求的激增導致供給不足,國內大豆不得不大量依賴進口。改良種質,培育高產、穩產、高品質、適應不同農田環境的大豆,是提高大豆產量的關鍵。中國擁有最豐富的大豆遺傳資源以及多樣的栽植生態區系,采用泛基因組的研究方法,厘清大豆的遺傳變異,發掘新的或未被充分使用的遺傳位點,結合分子設計育種等手段,對于推進中國大豆品種的選優改良,具有重要意義。

1 泛基因組概述

1.1 泛基因組概念的發展

泛基因組(pan-genome)的詞綴“pan”來源于希臘語,意為“全”、“一切”。泛基因組通常意義上是指代一個物種/類群所有基因組,或代表性基因組的總和。在研究的早期,測序技術產出的數據質量有限,測序成本高昂,在許多真核生物中獲得單個高質量組裝基因組是十分困難的事情。因此,往往用單個或少數高完成度的基因組作為一個物種或是一個類群的代表或參考。而在一些原核生物中,由于基因組規模小,獲取基因組相對容易,研究人員通??梢垣@得同一個類群中多個個體的完整基因組,并且開展多基因組間的整體比對。這類工作最早由Tettelin等[6]于2005年在無乳鏈球菌()中開展,是泛基因組研究的雛形。

然而泛基因組的概念推廣到更復雜的動植物等真核生物類群并沒有那么迅速。首先,通常情況下真核生物基因組相比細菌要大得多,這意味著基因組測序的成本和后續組裝消耗的算力、時間資源都很巨大。其次,真核生物基因組更為復雜,多倍體、高重復序列、高雜合度等情況都會增加基因組組裝的難度[7~10]。并且由于基因組成分復雜,有大量非基因區序列、重復序列的存在,使得泛基因組組分評估及基因組差異的鑒定也不易進行[11]。近幾年,隨著測序技術的發展,測序成本下降,比較基因組學手段不斷完善,這些問題才逐漸得到解決。從原核生物到真核生物,泛基因組的范疇也從包含全體注釋基因擴展到包含所有基因組序列。而伴隨組學研究維度的開拓,泛組學概念的應用也從基因組層面延伸到如泛轉錄組、泛三維基因組等層面[12,13]。

1.2 泛基因組研究的核心問題

泛基因組研究的核心問題,是對物種/類群基因組完備性或者代表性遺傳信息的描述[14]。與群體遺傳學類似,泛基因組的研究對象并非單一個體。然而群體遺傳學層面的基因組研究側重于發掘變異位點及遺傳多態性,即個體間的異質性。而個體間的異質性和同質性,即共享與差異的基因組成分,均為泛基因組研究描述的內容。通過泛基因組研究,人們能了解一個物種/類群的完整基因組架構,并借此推斷構成這一物種/類群的核心遺傳信息(即基因組下界),以及物種/類群的遺傳分化程度(即基因組上界)。

此外,泛基因組研究涉及基因組間的比較和整合,其中對不同基因組間染色體結構變異(structural variation,SV)的挖掘和處理也成為研究的重要環節[15]。相較于單核苷酸多態性(single nucleotide polymorphism,SNP),結構變異的長度不定,變異類型更為復雜,處理難度也更高。同時,結構變異引起的基因組改變更為劇烈,更易引起物種間表型特征的多態性。這類變異在基因組學研究的早期,因為技術和成本的限制,很難作為重要的研究方向,而如今則成為泛基因組研究聚焦的重點之一。對于染色體結構變異的處理,也體現了泛基因組實踐策略的不同發展階段。

2 泛基因組實踐策略及研究實例

2.1 從頭組裝/比對組裝基因組

泛基因組構建需要對物種/類群的代表性個體進行仔細篩選,進行基因組測序。獲得數據后,最常規的策略是分別對每個個體進行基因組從頭組裝,將單獨組裝的基因組數據集作為泛基因組[16~18];或者將測序數據比對到一個高質量的參考基因組上,并將無法比對的數據分類出來單獨進行組裝,作為現有參考基因組的擴展集,形成“參考基因組+額外序列”,即“共有序列+染色體差異序列”的形式[19~21]。

這類方法在實踐層面上最為簡單,在泛基因組研究的早期有較多應用,但也存在諸多問題。單獨基因組形式的泛基因組通常包含過多冗余的數據量和數據維度。而“參考基因組+額外序列”的方式對于泛基因組的組織并不直觀有效。因此研究者需要探索更為高效合理的泛基因組數據組織形式。

2.2 迭代式泛基因組

迭代式基因組是一類經過實踐的參考基因組整合方法。該類方法從一個參考基因組(往往是高質量或已被廣泛認可的基因組)開始,依次將其他樣品的測序讀段比對到參考基因組上,并且直接修改當前參考基因組,在恰當的位置添入非冗余的染色體差異序列。參考基因組在這個過程中不斷被迭代升級,最終成為一個兼容多基因組狀態的線性基因組[2,22]。這類方法主要在甘藍中得以實踐,獲得了99 Mb的額外序列,并且繪制了多個體來源整合的染色體變異圖譜[22]。

迭代式泛基因組相較于從頭組裝的泛基因組整合度高,不引入額外序列,并且類似傳統的線性基因組,更易于理解。但實現過程中對于原有基因組的覆蓋將不可避免丟失許多單獨基因組狀態下的特征。因此,迭代式組裝盡管減少了信息的冗余,也同時存在大量的信息丟失[11]。

2.3 基于圖論的泛基因組

基因組學的快速發展對泛基因組提出了更全面的數據結構訴求。泛基因組除了提供個體間共享和特異序列信息的記錄存儲外,還承擔著數據的調用、檢索、可視化、比對等多種功能?;趫D論的基因組(即圖基因組)是滿足以上需求的有效形式。該方法首先選擇一個基因組作為本底,通過讀段比對或者染色體共線性比較的方式,獲得各個樣品相對于參考基因組的變異位置及變異內容。最后依照上述信息,采用圖論的方式將參考序列與變異序列以節點方式存儲,并且用邊代表他們的連接關系[2,4,11,23]。

盡管圖基因組并不像傳統線性基因組那樣直觀,但其最大程度壓縮了冗余信息,并且保留了有義信息。此外圖基因組可以靈活地進行數據組合與還原,保證了組學數據的可讀性。對于基因組較大,變異復雜的真核生物,圖基因組是更適合的方法,也成為現在的趨勢[24~28]。此外,圖基因組更兼容計算機的I/O形式,能夠更快、更有效地進行基于二代測序數據的比對和結構變異檢測。目前,圖基因組是泛基因組數據存儲、調用、展示等綜合性能最佳的形式,越來越多的基因組分析工具開始向該方向發展,如vg (Variation Graph toolkit)[26]、GraphTyper2[25]、Giraffe[29]、odgi (Optimized Dynamic Genome/Graph Implementation)[30]、pggb (PanGenome Graph Builder)[31]等。一些經典的工具,如HISAT2[32]也有此方面功能的拓展。圖基因組在泛基因組,尤其是植物泛基因組學領域,目前已經有了很多實踐,逐漸成為研究的主流方法。

2.4 作物泛基因組研究

2011年,Gan等[33]對擬南芥()自然群體材料的基因組比較是植物泛基因組研究的開端。該工作從頭組裝了18個擬南芥的單拷貝序列基因組,通過比較發現了相對參考基因組共有28.3 Mb非冗余變異序列,平均每個樣品4.5~7.6 Mb。此后泛基因組研究逐漸在植物中興起,并且在近10年間高速發展。目前許多植物,特別是作物都完成了從單一參考基因組到泛基因組的整合與跨越[20,22,34~39]。早期植物泛基因組多采用從頭組裝/比對組裝的策略進行構建,部分研究采用了迭代組裝方式(表1)。在近期的研究中,從頭組裝結合圖泛基因組已經成為主流的泛基因組研究策略(表1)。泛基因組研究在一定程度上揭示了作物物種內或近緣種間的基因組變異規模。對比一些研究結果可以得出,在不同植物類群的泛基因組中,核心基因家族占總基因家族數量的40%~70%,表明30%~60%的基因家族在物種內發生了獲得/丟失的變異[16,17,19~22,40,41]。

泛基因組是深度挖掘農藝性狀與基因組變異,尤其是染色體結構變異關聯性的有效手段。一方面,對于已知基因或位點,泛基因組能夠提供更新、更全面的變異認知。野生大豆()的泛基因組研究比較了大豆開花途徑基因的變異,發現、、、、、等基因在野生及栽培大豆基因組間均存在蛋白差異,并且在野生大豆中存在一個參考基因組WM82中沒有的亞型[17]。這些變異可能導致了野生和栽培大豆開花特征的分化。66份野生和栽培水稻的泛基因組研究充分挖掘了、等位點的多種單倍型,涉及SNP和Indel的多種組合,加深了對水稻品質、花期等復雜農藝性狀的理解[42]。谷子()泛基因組研究表明,種質間落粒性、籽粒大小差異與染色體結構變異相關。其中,在其他谷物中被平行選擇的基因,在谷子中也發生了一個855 bp的存在/缺失變異(presence and absence variation,PAV),造成基因的獲得/缺失,進而控制落粒性的變化[40]。這也體現出在谷物中功能的保守性和利用改造價值。另一方面,群體結構變異數據可以用作關聯分析,發揮和SNP相當或者互補的效力。Song等[43]在油菜()泛基因組研究中使用PAV數據進行種子重量的全基因組關聯分析(genome wide associated study,GWAS),其信號區間和使用SNP的計算結果重疊,而其中一個3.6 kb的PAV位于信號峰值。該變異為轉座元件(transposable element,TE)插入,統計NAM群體的表型發現該變異的存在/缺失和角果長度和種子重量都顯著相關。而該TE下游為基因,推測變異影響了該基因的表達,從而造成性狀的變化。谷子泛基因組研究中對千粒重、粒寬的SV-GWAS分析找到一個控制相關表型的基因及變異位點[40]。該基因啟動子區發生了366 bp的PAV。實驗表明,該序列變異導致基因表達量改變,相關過表達株系也表現出粒寬的顯著下降。水稻中對于產量的分析發現,使用結構變異進行GWAS分析能夠檢測到比SNP更為顯著的關聯位點,其中位于基因上游的一個1.4 kb序列存在/缺失與產量表型密切關聯[44]。

表1 植物泛基因組研究實例匯總

3 大豆泛基因組研究

3.1 大豆屬泛基因組組成

2014年野生大豆的泛基因組研究是植物中第一項明確泛基因組概念的工作[17]。然而其數據質量、全面性和挖掘深度都受到了時代和技術的制約。2020年一項包含大豆屬亞屬的野生、栽培大豆在內,26個大豆種質材料基因組、轉錄組及近3000份種質材料重測序的工作則更精準地描繪了大豆的遺傳變異圖譜,系統闡述了染色體結構變異在大豆演化/馴化中發揮的作用[39]。該研究從2898份來自世界大豆主要栽植區的種質資源中共檢測到約3千萬個單核苷酸變異位點。根據系統發育關系,挑選出26個代表性的種質,進行基因組從頭組裝和泛基因組構建。這26個種質按類群劃分包括野生、農家種、栽培品種,按用途劃分包括骨干親本及區域主栽品種等,從頭組裝基因組大小在992.3~1059.8 Mb之間,樣品序列錨定在染色體上的比率平均為99.0%,二代測序比對回自身基因組的比對率平均在99.4%?;蚪M重復序列注釋檢測到大豆基因組的平均重復序列比例為54.4%,蛋白編碼基因注釋表明大豆泛基因組樣品平均注釋基因數量為56,522,BUSCO檢驗平均達到95.6%。以上結果符合大豆基因組的基本特征,說明基因組組裝注釋質量達到高水平。

對26個大豆從頭組裝基因組,連同已經報道的ZH13的基因組進行基因家族聚類,所有基因被分入57,492個基因家族,這與之前野生大豆中報道的數量接近[17]。對不同品種數量構建的泛基因、核心基因家族數目的抽樣統計顯示,泛基因組的數量在25個樣品時到達了平臺期,意味著該研究的取樣對于大豆基因組已具有足夠的代表性。將基因家族按樣品出現的頻數作為劃分,得到大豆的核心基因家族(頻數為27) 20,623個,松弛核心基因家族(頻數為25、26) 8163個,非必需基因家族(頻數為2~24) 28,679個,私有基因家族(頻數為1) 27個。由此得出,大豆泛基因組中核心(及松弛核心)基因家族占總基因家族的50.1%,非必需及私有家族(可變家族)的數量占49.9%。該結果符合以往研究得出的植物中30%~ 60%的基因家族為可變家族的認知[16,17,19~22,40,41]。

3.2 大豆屬泛基因組變異

泛基因組包含的變異是否能反應物種群體水平的變異,是值得探討的問題。以ZH13基因組作為參考,結合26個泛基因組樣品和已報道的WM82及W05的基因組數據,在29個大豆基因組上檢測到14,604,953個SNP和12,716,823個Indel (≤50 bp)[39]。該數據與2898份重測序的變異數據進行比較,盡管SNP數量比2898份重測序要少,但是二者分布特征相似。以500 kb區間為窗口進行全基因組掃描,過濾2898份重測序中次等位基因頻率(minor allele frequency,MAF)<0.01的位點后,其與29個基因組中SNP數量的皮爾森相關性系數為0.553。此外π、d/d等群體遺傳學特征值在29個基因組與2898份重測序數據間同樣具有很高的相關性。這表明泛基因組對于變異的檢測具有群體水平的代表性。

大尺度結構變異(>50 bp)采用短序列測序方式往往很難鑒定。通過基因組比對的方式,以ZH13為參考在28個大豆基因組中檢測到共計776,399個結構變異,其中723,862個PAV、27,531個拷貝數變異(copy number variation,CNV)、21,886個易位事件、3120個倒位事件[39]。PAV的長度主要分布在1~2 kb,易位長度主要分布在10~30 kb,倒位長度主要分布在100~200 kb。CNV的變化倍數主要在2~3倍。泛基因組中檢測到的723,862個PAV共計4.71 Gb序列長度,平均每個樣品167.09 Mb,占基因組大小約16%。比較每個樣品的獲得與缺失序列長度之差,及其與ZH13基因組大小之差,發現二者具有很高的相關性,說明PAV是造成樣品間基因組大小差異的主要來源。在大豆中結構變異在基因組重復序列區域顯著富集,其中78.5%的PAV來自于DNA重復。對番茄()泛基因組研究發現84%的序列缺失與76%的序列插入變異與重復序列重合(>100 bp)[45]。對黍()的泛基因組研究發現PAV與TE的重合比例在70%左右[46]。這些結果暗示一些植物中序列重復事件可能是結構變異發生的重要驅動力,進而導致物種內基因組大小的波動。

3.3 大豆屬圖泛基因組構建

大豆是首個實踐了圖泛基因組構建的植物,為后續作物的泛基因組研究開拓了新思路(圖1A)。構建圖泛基因組,需要對結構變異數進行合并和過濾,一方面降低構建圖基因組的計算負擔,另一方面減少最終圖基因組的復雜度和假陽性。在29個大豆基因組中檢測到776,399個結構變異,根據位點和類型進行合并,非冗余結構變異總數隨樣品增加而增加,最終趨于穩定,得到共計124,222個非冗余結構變異位點[39]。與此同時,共有的結構變異最終收斂到130個。野生大豆相較于栽培大豆,私有結構變異所占的比例更大。

圖1 作物泛基因組研究策略及認知

A:圖泛基因組研究基本流程,包括群體測序篩選代表性樣品、結構變異分析、圖泛基因組構建、群體結構變異檢測等;B~E:泛基因組視角下的大豆農藝性狀、演化歷程遺傳機制認知,包括基因獲得/缺失與種皮亮度(B)、基因融合與基因多態性(C)、染色體重排與種皮顏色(D)、結構變異對基因表達調控與種質分布(E);F:異源多倍體大豆的冗余基因丟失與亞基因組偏好性。

此外,研究表明將結構變異中重復序列占總長度90%的條目過濾,是有效的數據壓縮、降低錯誤率的策略。Liu等[39]采用vg工具,以過濾后的結構變異數據為輸入,ZH13基因組為底盤基因組,構建可用于檢索和二代數據比對的大豆圖泛基因組索引文件。將2898個大豆樣品重測序數據比對到圖泛基因組上,共計檢測到55,402個結構變異。采用圖泛基因組檢測結構變異的精確率、召回率及F-score分別為0.94、0.75和0.83,表明圖泛基因組結合群體二代測序數據是作物中進行大規模結構變異檢測的可行方法。圖泛基因組流程檢測的結構變異N50為659/595 bp(缺失/插入),遠高于GATK流程的3/3 bp,說明圖泛基因組流程對于大尺度結構變異檢測具有很好的效力。相對于28個基因組中檢測到的變異,在約3000份群體水平找到3584個新的結構變異,占總變異數的6.5%,并且這些變異的出現頻率較低。野生大豆中檢測到的已有和新結構變異的數量均明顯高于農家種和栽培大豆。水稻中相似研究檢測到的新結構變異占總變異數的16.4%[34],但該研究的圖泛基因組構建僅針對栽培稻進行。這也側面反應出作物的野生種可能持有更豐富的變異類型,在作物泛基因組研究中加入野生類群可以很好地提升遺傳變異的覆蓋度。

3.4 泛基因組助力大豆演化/馴化遺傳基礎

GWAS分析是檢測與表型關聯的遺傳變異的有效手段,而群體水平檢測的結構變異同樣能夠輔助農藝性狀相關位點的挖掘(圖1B)。大豆種皮亮度是一個重要的性狀,以往研究報道其與一種大豆疏水性蛋白(HPS)的積累有關[47],但具體相關的基因仍未明確。Liu等[39]以圖泛基因組檢測的結構變異為基因型,對種皮亮度表型進行了GWAS分析,在15號染色體上定位到一個信號區間。其中一個10 kb的PAV包含了一個編碼HPS結構域的基因,并造成該基因在品種間的獲得/缺失。表型統計發現,存在該10 kb序列的樣品種皮光亮的比例更高,說明該PAV是控制大豆種皮亮度的遺傳位點之一。

位于基因區的結構變異可能造成基因開放閱讀框(open reading frame,ORF)的改變,進而導致功能的丟失或分化。其中結構變異造成的轉錄本通讀是一種較為特殊的情況,即由于序列丟失導致原本獨立轉錄的基因融合為一個轉錄本。轉錄本通讀引起的基因融合在基因進化過程中起到重要作用[48]。依賴大規模的泛基因組數據,不僅能確認已有報道的等位基因,也能鑒定包括融合基因在內的基因新結構(圖1C),例如大豆開花相關的主效基因[49]。自然狀態下,以復等位基因的形式存在[50]。26個從頭組裝基因組的注釋基因與ZH13的進行比較,可以找到一個從第3個內含子開始的13.3 kb缺失。該變異造成了其中一個基因()的完全丟失[39]。RNAseq數據顯示該變異除了導致的最后一個外顯子及的缺失外,還造成了和的轉錄本讀通。此外,該變異還造成了在缺失最后一個外顯子后獲得了一個額外的外顯子。PCR片段測序驗證了與的基因融合事件,以及外顯子改變事件是真實存在且相互獨立的。泛基因組挖掘并驗證了基因由結構變異產生的大量多態性,包括基因融合與ORF改變等,這可能是塑造大豆區域適應性分化的重要原因。

大豆的許多性狀控制遺傳位點,由于變異類型復雜、涉及基因多而難以被克隆[17,51~54]。大規模從頭組裝的基因組使得這類解析變得可能(圖1D)。大豆種皮顏色相關的位點是受馴化位點[54,55],使大豆種皮從黑色轉變為黃色。該位點為一系列異黃酮代謝途徑中查爾斯酮合成酶()基因組成的基因簇,存在同源依賴的基因沉默(homology dependent gene silencing,HDGS)機制,調控基因的表達[56~58]。Liu等[39]在29個大豆基因組中調查種皮顏色的表型以及位點,發現4個野生大豆和農家種SoyL02表現為黑色種皮,其余栽培大豆均為黃色種皮。位點及周邊的SNP構建系統發育樹發現黑或黃種皮的樣品各自聚類在一起。結構變異分析表明,相對于黑種皮類型基因組,一部分黃種皮樣品的基因組上存在一個約100 kb的倒位以及序列單元的重復,這與之前的報道相符[59]。然而另一部分樣品中,雖然這個約100 kb的倒位變異不存在,仍然表現出黃色種皮。盡管如此,其上有一段約23 kb的序列發生了重復,并且插入到其后的反向重復基因簇中,而這很可能導致了雙交換事件并造成周圍單元的假基因化。因此,位點周圍的染色體變異得到完整的解析,而調控機制有待于進一步探索。

基因表達可能受到基因附近調控區序列變異的影響,進而導致農藝性狀的變化。泛基因組結合轉錄組的研究策略能夠深入挖掘由染色體結構變異導致的表達量差異,從而定位農藝性狀的候選基因和變異(圖1E)。缺鐵萎黃是大豆在石灰土中種植時常見的病癥。Lin等[60]的研究已定位到若干與鐵離子利用效率相關的QTL位點,其中一個位于14號染色體。該QTL中存在一個注釋為鐵/鋅離子調控轉運蛋白的基因,其5′啟動子區在泛基因組中檢測到一個1.4 kb的PAV[39]。該PAV滿足轉座子DNA的序列特征[61],并且可以將26個大豆種質分成兩組:未發生序列缺失和發生序列缺失的類型。RNA-seq數據表明,后者相對前者具有更高的表達量。結合群體基因型數據和樣品信息記錄發現,1.4 kb序列缺失的樣品主要分布在緯度更高的種植區,而未發生序列缺失樣品分布在緯度較低的地理區域。中國不同地理區域的土壤pH不同,進而影響鐵離子濃度。因此,區域差異可能是造成遺傳分化的誘因。

3.5 多年生大豆泛基因組研究

大豆屬除了分布于東亞地區的一年生大豆(亞屬)之外,還有約30個分布于澳大利亞的多年生大豆物種(亞屬)。該類群雖然和栽培大豆分化較大,但是部分物種染色體數目與栽培大豆相同,可能是栽培大豆潛在的遺傳改良基因資源庫,具有研究價值。2022年,一項針對亞屬6個物種(5個二倍體和1個四倍體)的泛基因組研究系統地揭示了多年生大豆的基因組演化特征[62]。二倍體物種基因組大小為935.6~1373.8 Mb,平均大小1105 Mb左右,與亞屬大致接近,而基因組預測的蛋白質編碼基因有70%在一年生大豆中缺失。多年生大豆相對栽培大豆而言,整體基因組變異幅度較大,遺傳資源應用可能更側重于定向基因改造或替換而非遠源雜交。

以菜豆()為參考的比較基因組發現,多年生大豆相對于一年生大豆,基因組重排事件更少,染色體更為穩定。Zhuang等[62]研究計算了同源基因家族在一年生、多年生大豆中的Ka/Ks,發現52個家族在兩個亞屬中發生了凈化選擇;其中、等是與開花、植株發育相關的基因,在兩個亞屬內計算Ka/Ks值低,但是在亞屬間計算則有較高的Ka/Ks值,暗示這些基因可能參與了亞屬間生活史策略的分化。

物種多倍化后,往往會發生冗余基因的丟失,導致亞基因組的分化,這種分化通常具有偏好性[63,64]。Zhuang等[62]分別比較四倍體多年生大豆的兩套亞基因組(AtAtDtDt),發現多倍化前后兩套對應基因組間染色體序列重排少相對保守,而多倍化后的基因組上發生了不同程度的基因丟失;在中,Dt基因組上丟失了4019個基因,顯著多于At基因組上丟失的3242個基因;且相較于丟失的基因,保留的基因在原基因組上的表達量更高。這些跡象表明,A亞基因組相對于D亞基因組具有明顯的基因組優勢(圖1F)。

4 結語與展望

4.1 未來泛基因組發展

測序技術在過去的40年間飛速發展,積累了海量的數據,包括大規模群體測序和從頭組裝基因組。在此基礎上,泛基因組學應運而生,并且受到學界越來越多的重視[4,14,65~70],成為作物遺傳育種研究的“利器”[35,40,71]。水稻、玉米、大豆、番茄等作物中不斷有泛基因組研究涌現,這些結果或展示了不同研究類群框架下的基因組差異特征,或隨著研究技術的提升給出了更高質量的組學參考數據。泛基因組作為一種基于比較基因組的研究方式,研究對象的選擇尤為關鍵。應根據研究目的劃定適合的類群范圍,挑選代表性個體。泛基因組構建策略的選擇應根據樣品數量、測序成本以及最終期望呈現的數據結果綜合考慮。圖泛基因組作為當下泛基因組研究的前沿和熱點,整合構建圖泛基因組的算法和軟件逐漸多樣成熟,但這些算法軟件多針對人類泛基因組的研究開發。目前植物研究中主要的泛基因組構建策略多是通過三代測序獲得高質量的從頭組裝染色體水平基因組,再借由比較基因組分析結構變異構建圖泛基因組。而圖泛基因組本身并不依賴除底盤基因組外其他樣品的染色體水平基因組組裝,因此,三代測序直接檢測結構變異結合底盤基因組構建圖泛基因組的方法可能是更低成本及更便利的一種方式。此外,針對植物基因組特征,開發解決重復序列比例大、染色體結構變異復雜、基因組大小差異顯著的算法和軟件,將能夠有效提升植物圖泛基因組的精度和構建效率。

未來,對單一物種構建泛基因組或許不是最終的目標,目前已有許多探索正在朝此發展。地球生物基因組計劃(Earth BioGenome Project)旨在組裝所有已知真核生物的代表性基因組[72]。類似的還有萬種植物基因組計劃(The Plant 10000 Genomes Project)等,該項目計劃對所有有胚植物、綠藻、原生生物的主要支系的代表性基因組進行測序并展開特征化描述[73]。此外,泛組學概念并不局限于經典的基因組,泛三維基因組、泛轉錄組等多層次泛組學是今后值得嘗試的方向。

4.2 多維組學數據應用

大數據時代下,新的數據類型不斷涌現,其應用和處理場景也日趨復雜。泛基因組研究通常會在一個物種/類群內產生多套參考基因組數據。建立這些基因組間的關聯,高效地進行多基因組的聯合檢索和調用,是后基因組時代迫切的數據需求。圖泛基因組是對這類問題很好的回答,但也帶來了新的挑戰。首先圖基因組是與以往不同的數據形式,針對這類數據開發的數據庫和前端應用目前仍然有限。如何將這些數據高效地服務于更多研究者,是值得探索的方向。大豆多維組學數據庫SoyOmics對圖泛基因組的單倍型檢索和數據可視化提供了實踐參考[74]。此外,全景多維組學的發展,對于當下數據的提煉和整合能力有了更深的要求。通過多維組學數據的聯合應用,提升生物信息學分析結果的精度和可信度,從而提高作物遺傳解析效率,最終服務于分子設計育種[75]。在此過程中,針對多層次組學信號的聯合處理與評估,以及多層次組學數據網絡的構建,應該成為未來探索的重要方向。

在后基因組時代,泛基因組能夠起到對傳統基因組的補充和發展作用,其價值和必要性已被證實。在大豆中,泛基因組、變異組、轉錄組、表觀組、表型組等多維度數據已有充分的積累。未來的遺傳育種研究應當利用好這些多維組學數據,深度解析重要農藝性狀的遺傳網絡,為分子設計育種提供有力指導,這也是提升大豆產量、改善大豆品質的重要路徑。

[1] Clark JW, Donoghue PCJ. Whole-genome duplication and plant macroevolution, 2018, 23(10): 933–945.

[2] Danilevicz MF, Tay Fernandez CG, Marsh JI, Bayer PE, Edwards D. Plant pangenomics: approaches, applications and advancements, 2020, 54: 18–25.

[3] Saxena RK, Edwards D, Varshney RK. Structural variations in plant genomes, 2014, 13(4): 296–307.

[4] Golicz AA, Batley J, Edwards D. Towards plant pangenomics, 2016, 14(4): 1099–1105.

[5] Tao YF, Zhao XR, Mace E, Henry R, Jordan D. Exploring and exploiting pan-genomics for crop improvement, 2019, 12(2): 156–169.

[6] Tettelin H, Masignani V, Cieslewicz MJ, Donati C, Medini D, Ward NL, Angiuoli SV, Crabtree J, Jones AL, Durkin AS, Deboy RT, Davidsen TM, Mora M, Scarselli M, Margarit y Ros I, Peterson JD, Hauser CR, Sundaram JP, Nelson WC, Madupu R, Brinkac LM, Dodson RJ, Rosovitz MJ, Sullivan SA, Daugherty SC, Haft DH, Selengut J, Gwinn ML, Zhou LW, Zafar N, Khouri H, Radune D, Dimitrov G, Watkins K, O'Connor KJB, Smith S, Utterback TR, White O, Rubens CE, Grandi G, Madoff LC, Kasper DL, Telford JL, Wessels MR, Rappuoli R, Fraser CM. Genome analysis of multiple pathogenic isolates of: implications for the microbial “pan-genome”, 2005, 102(39): 13950–13955.

[7] Baker M.genome assembly: what every biologist should know, 2012, 9(4): 333–337.

[8] Edger PP, Poorten TJ, VanBuren R, Hardigan MA, Colle M, McKain MR, Smith RD, Teresi SJ, Nelson ADL, Wai CM, Alger EI, Bird KA, Yocca AE, Pumplin N, Ou SJ, Ben-Zvi G, Brodt A, Baruch K, Swale T, Shiue L, Acharya CB, Cole GS, Mower JP, Childs KL, Jiang N, Lyons E, Freeling M, Puzey JR, Knapp SJ. Origin and evolution of the octoploid strawberry genome, 2019, 51(3): 541–547.

[9] Huang SF, Kang MJ, Xu AL. HaploMerger2: rebuilding both haploid sub-assemblies from high-heterozygosity diploid genome assembly, 2017, 33(16): 2577–2579.

[10] Zhang JS, Zhang XT, Tang HB, Zhang Q, Hua XT, Ma XK, Zhu F, Jones T, Zhu XG, Bowers J, Wai CM, Zheng CF, Shi Y, Chen S, Xu XM, Yue JJ, Nelson DR, Huang LX, Li Z, Xu HM, Zhou D, Wang YJ, Hu WC, Lin JS, Deng YJ, Pandey N, Mancini M, Zerpa D, Nguyen JK, Wang LM, Yu L, Xin YH, Ge LF, Arro J, Han JO, Chakrabarty S, Pushko M, Zhang WP, Ma YH, Ma PP, Lv MJ, Chen FM, Zheng GY, Xu JS, Yang ZH, Deng F, Chen XQ, Liao ZY, Zhang XX, Lin ZC, Lin H, Yan HS, Kuang Z, Zhong WM, Liang PP, Wang GF, Yuan Y, Shi JX, Hou JX, Lin JX, Jin JJ, Cao PJ, Shen QC, Jiang Q, Zhou P, Ma YY, Zhang XD, Xu RR, Liu J, Zhou YM, Jia HF, Ma Q, Qi R, Zhang ZL, Fang JP, Fang HK, Song JJ, Wang MJ, Dong GR, Wang G, Chen Z, Ma T, Liu H, Dhungana SR, Huss SE, Yang XP, Sharma A, Trujillo JH, Martinez MC, Hudson M, Riascos JJ, Schuler M, Chen LQ, Braun DM, Li L, Yu QY, Wang JP, Wang K, Schatz MC, Heckerman D, Van Sluys MA, Souza GM, Moore PH, Sankoff D, VanBuren R, Paterson AH, Nagai C, Ming R. Allele-defined genome of the autopolyploid sugarcaneL, 2018, 50(11): 1565–1573.

[11] Sherman RM, Salzberg SL. Pan-genomics in the human genome era, 2020, 21(4): 243–254.

[12] Ni LB, Liu YC, Ma X, Liu TF, Yang XY, Wang Z, Liang QJ, Liu SL, Zhang M, Wang Z, Shen YT, Tian ZX. Pan-3D genome analysis reveals structural and functional differentiation of soybean genomes, 2023, 24(1): 12.

[13] Hirsch CN, Foerster JM, Johnson JM, Sekhon RS, Muttoni G, Vaillancourt B, Pe?agaricano F, Lindquist E, Pedraza MA, Barry K, de Leon N, Kaeppler SM, Buell CR. Insights into the maize pan-genome and pan-transcriptome, 2014, 26(1): 121–135.

[14] Vernikos G, Medini D, Riley DR, Tettelin H. Ten years of pan-genome analyses, 2015, 23: 148–154.

[15] De Coster W, Weissensteiner MH, Sedlazeck FJ. Towards population-scale long-read sequencing, 2021, 22(9): 572–587.

[16] Gordon SP, Contreras-Moreira B, Woods DP, Des Marais DL, Burgess D, Shu SQ, Stritt C, Roulin AC, Schackwitz W, Tyler L, Martin J, Lipzen A, Dochy N, Phillips J, Barry K, Geuten K, Budak H, Juenger TE, Amasino R, Caicedo AL, Goodstein D, Davidson P, Mur LAJ, Figueroa M, Freeling M, Catalan P, Vogel JP. Extensive gene content variation in thepan-genome correlates with population structure, 2017, 8(1): 2184.

[17] Li YH, Zhou GY, Ma JX, Jiang WK, Jin LG, Zhang ZH, Guo Y, Zhang JB, Sui Y, Zheng LT, Zhang SS, Zuo QY, Shi XH, Li YF, Zhang WK, Hu YY, Kong GY, Hong HL, Tan B, Song J, Liu ZX, Wang YS, Ruan H, Yeung CKL, Liu J, Wang HL, Zhang LJ, Guan RX, Wang KJ, Li WB, Chen SY, Chang RZ, Jiang Z, Jackson SA, Li RQ, Qiu LJ.assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits, 2014, 32(10): 1045–1052.

[18] Stein JC, Yu Y, Copetti D, Zwickl DJ, Zhang L, Zhang CJ, Chougule K, Gao DY, Iwata A, Goicoechea JL, Wei SR, Wang J, Liao Y, Wang MH, Jacquemin J, Becker C, Kudrna D, Zhang JW, Londono CEM, Song X, Lee S, Sanchez P, Zuccolo A, Ammiraju JSS, Talag J, Danowitz A, Rivera LF, Gschwend AR, Noutsos C, Wu CC, Kao SM, Zeng JW, Wei FJ, Zhao Q, Feng Q, El Baidouri M, Carpentier MC, Lasserre E, Cooke R, da Rosa Farias D, da Maia LC, Dos Santos RS, Nyberg KG, McNally KL, Mauleon R, Alexandrov N, Schmutz J, Flowers D, Fan CZ, Weigel D, Jena KK, Wicker T, Chen MS, Han B, Henry R, Hsing YC, Kurata N, de Oliveira AC, Panaud O, Jackson SA, Machado CA, Sanderson MJ, Long MY, Ware D, Wing RA. Genomes of 13 domesticated and wild rice relatives highlight genetic conservation, turnover and innovation across the genus, 2018, 50(2): 285–296.

[19] Gao L, Gonda I, Sun HH, Ma QY, Bao K, Tieman DM, Burzynski-Chang EA, Fish TL, Stromberg KA, Sacks GL, Thannhauser TW, Foolad MR, Diez MJ, Blanca J, Canizares J, Xu YM, van der Knaap E, Huang SW, Klee HJ, Giovannoni JJ, Fei ZQ. The tomato pan-genome uncovers new genes and a rare allele regulating fruit flavor, 2019, 51(6): 1044–1051.

[20] Hübner S, Bercovich N, Todesco M, Mandel JR, Odenheimer J, Ziegler E, Lee JS, Baute GJ, Owens GL, Grassa CJ, Ebert DP, Ostevik KL, Moyers BT, Yakimowski S, Masalia RR, Gao LX, ?ali? I, Bowers JE, Kane NC, Swanevelder DZH, Kubach T, Mu?os S, Langlade NB, Burke JM, Rieseberg LH. Sunflower pan-genome analysis shows that hybridization altered gene content and disease resistance, 2019, 5(1): 54–62.

[21] Wang WS, Mauleon R, Hu ZQ, Chebotarov D, Tai SS, Wu ZC, Li M, Zheng TQ, Fuentes RR, Zhang F, Mansueto L, Copetti D, Sanciangco M, Palis KC, Xu JL, Sun C, Fu BY, Zhang HL, Gao YM, Zhao XQ, Shen F, Cui X, Yu H, Li ZC, Chen ML, Detras J, Zhou YL, Zhang XY, Zhao Y, Kudrna D, Wang CC, Li R, Jia B, Lu JY, He XC, Dong ZT, Xu JB, Li YH, Wang M, Shi JX, Li J, Zhang DB, Lee S, Hu WS, Poliakov A, Dubchak I, Ulat VJ, Borja FN, Mendoza JR, Ali J, Li J, Gao Q, Niu YC, Yue Z, Naredo MEB, Talag J, Wang XQ, Li JJ, Fang XD, Yin Y, Glaszmann JC, Zhang JW, Li JY, Hamilton RS, Wing RA, Ruan J, Zhang GY, Wei CC, Alexandrov N, McNally KL, Li ZK, Leung H. Genomic variation in 3,010 diverse accessions of Asian cultivated rice, 2018, 557(7703): 43–49.

[22] Golicz AA, Bayer PE, Barker GC, Edger PP, Kim H, Martinez PA, Chan CKK, Severn-Ellis A, McCombie WR, Parkin IAP, Paterson AH, Pires JC, Sharpe AG, Tang HB, Teakle GR, Town CD, Batley J, Edwards D. The pangenome of an agronomically important crop plant, 2016, 7: 13390.

[23] Iqbal Z, Caccamo M, Turner I, Flicek P, McVean G.assembly and genotyping of variants using coloredgraphs, 2012, 44(2): 226–232.

[24] Audano PA, Sulovari A, Graves-Lindsay TA, Cantsilieris S, Sorensen M, Welch AE, Dougherty ML, Nelson BJ, Shah A, Dutcher SK, Warren WC, Magrini V, McGrath SD, Li YI, Wilson RK, Eichler EE. Characterizing the major structural variant alleles of the human genome, 2019, 176(3): 663–675.

[25] Eggertsson HP, Kristmundsdottir S, Beyter D, Jonsson H, Skuladottir A, Hardarson MT, Gudbjartsson DF, Stefansson K, Halldorsson BV, Melsted P. GraphTyper2 enables population-scale genotyping of structural variation using pangenome graphs, 2019, 10(1): 5402.

[26] Garrison E, Sirén J, Novak AM, Hickey G, Eizenga JM, Dawson ET, Jones W, Garg S, Markello C, Lin MF, Paten B, Durbin R. Variation graph toolkit improves read mapping by representing genetic variation in the reference, 2018, 36(9): 875–879.

[27] Marcus S, Lee H, Schatz MC. SplitMEM: a graphical algorithm for pan-genome analysis with suffix skips, 2014, 30(24): 3476–3483.

[28] Zhao YB, Jia XM, Yang JH, Ling YC, Zhang Z, Yu J, Wu JY, Xiao JF. PanGP: a tool for quickly analyzing bacterial pan-genome profile, 2014, 30(9): 1297–1299.

[29] Sirén J, Monlong J, Chang X, Novak AM, Eizenga JM, Markello C, Sibbesen JA, Hickey G, Chang PC, Carroll A, Gupta N, Gabriel S, Blackwell TW, Ratan A, Taylor KD, Rich SS, Rotter JI, Haussler D, Garrison E, Paten B. Pangenomics enables genotyping of known structural variants in 5202 diverse genomes, 2021, 374(6574): abg8871.

[30] Guarracino A, Heumos S, Nahnsen S, Prins P, Garrison E. ODGI: understanding pangenome graphs, 2022, 38(13): 3319–3326.

[31] Garrison E, Guarracino A, Heumos S, Villani F, Bao ZG, Tattini L, Hagmann J, Vorbrugg S, Marco-Sola S, Kubica C, Ashbrook DG, Thorell K, Rusholme-Pilcher RL, Liti G, Rudbeck E, Nahnsen S, Yang ZY, Moses MN, Nobrega FL, Wu Y, Chen H, de Ligt J, Sudmant PH, Soranzo N, Colonna V, Williams RW, Prins P. Building pangenome graphs, 2023.

[32] Kim D, Paggi JM, Park C, Bennett C, Salzberg SL. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype, 2019, 37(8): 907–915.

[33] Gan XC, Stegle O, Behr J, Steffen JG, Drewe P, Hildebrand KL, Lyngsoe R, Schultheiss SJ, Osborne EJ, Sreedharan VT, Kahles A, Bohnert R, Jean G, Derwent P, Kersey P, Belfield EJ, Harberd NP, Kemen E, Toomajian C, Kover PX, Clark RM, Ratsch G, Mott R. Multiple reference genomes and transcriptomes for, 2011, 477(7365): 419–423.

[34] Qin P, Lu HW, Du HL, Wang H, Chen WL, Chen Z, He Q, Ou SJ, Zhang HY, Li XZ, Li XX, Li Y, Liao Y, Gao Q, Tu B, Yuan H, Ma BT, Wang YP, Qian YW, Fan SJ, Li WT, Wang J, He M, Yin JJ, Li T, Jiang N, Chen XW, Liang CZ, Li SG. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations, 2021, 184(13): 3542–3558.

[35] Zhou Y, Zhang ZY, Bao ZG, Li HB, Lyu YQ, Zan YJ, Wu YY, Cheng L, Fang YH, Wu K, Zhang JZ, Lyu HJ, Lin T, Gao Q, Saha S, Mueller L, Fei ZJ, St?dler T, Xu SZ, Zhang ZW, Speed D, Huang SW. Graph pangenome captures missing heritability and empowers tomato breeding, 2022, 606(7914): 527–534.

[36] Huang Y, He JX, Xu YT, Zheng WK, Wang SH, Chen P, Zeng B, Yang SZ, Jiang XL, Liu ZS, Wang L, Wang X, Liu SJ, Lu ZH, Liu Z, Yu HW, Yue JQ, Gao JY, Zhou XY, Long CR, Zeng XL, Guo YJ, Zhang WF, Xie ZZ, Li CL, Ma ZC, Jiao WB, Zhang F, Larkin RM, Krueger RR, Smith MW, Ming R, Deng XX, Xu Q. Pangenome analysis provides insight into the evolution of the orange subfamily and a key gene for citric acid accumulation infruits, 2023, 55(11): 1964–1975.

[37] Jin SK, Han ZG, Hu Y, Si ZF, Dai F, He L, Cheng Y, Li YQ, Zhao T, Fang L, Zhang TZ. Structural variation (SV)-based pan-genome and GWAS reveal the impacts of SVs on the speciation and diversification of allotetraploid cottons, 2023, 16(4): 678–693.

[38] Li HB, Wang SH, Chai S, Yang ZQ, Zhang QQ, Xin HJ, Xu YC, Lin SG, Chen XX, Yao ZW, Yang QY, Fei ZJ, Huang SW, Zhang ZH. Graph-based pan-genome reveals structural and sequence variations related to agronomic traits and domestication in cucumber, 2022, 13(1): 682.

[39] Liu YC, Du HL, Li PC, Shen YT, Peng H, Liu SL, Zhou G-A, Zhang HK, Liu Z, Shi M, Huang XH, Li Y, Zhang M, Wang Z, Zhu BG, Han B, Liang CZ, Tian ZX. Pan-genome of wild and cultivated soybeans, 2020, 182(1): 162–176.

[40] He Q, Tang S, Zhi H, Chen JF, Zhang J, Liang HK, Alam O, Li HB, Zhang H, Xing LH, Li XK, Zhang W, Wang HL, Shi JP, Du HL, Wu HP, Wang LW, Yang P, Xing L, Yan HS, Song ZQ, Liu JR, Wang HG, Tian X, Qiao ZJ, Feng GJ, Guo RF, Zhu WJ, Ren YM, Hao HB, Li MZ, Zhang AY, Guo EH, Yan F, Li QQ, Liu YL, Tian BH, Zhao XQ, Jia RL, Feng BL, Zhang JW, Wei JH, Lai JS, Jia GQ, Purugganan M, Diao XM. A graph-based genome and pan-genome variation of the model plant, 2023, 55(7): 1232–1242.

[41] Chen S, Wang PJ, Kong WL, Chai K, Zhang SC, Yu JX, Wang YB, Jiang MW, Lei WL, Chen X, Wang WL, Gao YY, Qu SY, Wang F, Wang YH, Zhang Q, Gu MY, Fang KX, Ma CL, Sun WJ, Ye NX, Wu HL, Zhang XT. Gene mining and genomics-assisted breeding empowered by the pangenome of tea plant, 2023, 9(12): 1986–1999.

[42] Zhao Q, Feng Q, Lu HY, Li Y, Wang AH, Tian QL, Zhan QL, Lu YQ, Zhang L, Huang T, Wang YC, Fan DL, Zhao Y, Wang ZQ, Zhou CC, Chen JY, Zhu CR, Li WJ, Weng QJ, Xu Q, Wang ZX, Wei XH, Han B, Huang XH. Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice, 2018, 50(2): 278–284.

[43] Song JM, Guan ZL, Hu JL, Guo CC, Yang ZQ, Wang S, Liu DX, Wang B, Lu SP, Zhou R, Xie WZ, Cheng YF, Zhang YT, Liu KD, Yang QY, Chen LL, Guo L. Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of, 2020, 6(1): 34–45.

[44] Shang LG, Li XX, He HY, Yuan QL, Song YN, Wei ZR, Lin H, Hu M, Zhao FL, Zhang C, Li YH, Gao HS, Wang TY, Liu XP, Zhang H, Zhang Y, Cao SM, Yu XM, Zhang BT, Zhang Y, Tan YQ, Qin M, Ai C, Yang YX, Zhang B, Hu ZQ, Wang HR, Lv Y, Wang YX, Ma J, Wang Q, Lu HW, Wu Z, Liu SL, Sun ZY, Zhang HL, Guo LB, Li ZC, Zhou YF, Li JY, Zhu ZF, Xiong GS, Ruan J, Qian Q. A super pan-genomic landscape of rice, 2022, 32(10): 878–896.

[45] Alonge M, Wang XG, Benoit M, Soyk S, Pereira L, Zhang L, Suresh H, Ramakrishnan S, Maumus F, Ciren D, Levy Y, Harel TH, Shalev-Schlosser G, Amsellem Z, Razifard H, Caicedo AL, Tieman DM, Klee H, Kirsche M, Aganezov S, Ranallo-Benavidez TR, Lemmon ZH, Kim J, Robitaille G, Kramer M, Goodwin S, McCombie WR, Hutton S, Van Eck J, Gillis J, Eshed Y, Sedlazeck FJ, van der Knaap E, Schatz MC, Lippman ZB. Major impacts of widespread structural variation on gene expression and crop improvement in tomato, 2020, 182(1): 145–161.

[46] Chen JF, Liu Y, Liu MX, Guo WL, Wang YQ, He Q, Chen WY, Liao Y, Zhang W, Gao YZ, Dong KJ, Ren RY, Yang TY, Zhang LY, Qi MY, Li ZG, Zhao M, Wang HG, Wang JJ, Qiao ZJ, Li HQ, Jiang YM, Liu GQ, Song XQ, Deng YR, Li H, Yan F, Dong Y, Li QQ, Li T, Yang WY, Cui JH, Wang HR, Zhou YF, Zhang XM, Jia GQ, Lu P, Zhi H, Tang S, Diao XM. Pangenome analysis reveals genomic variations associated with domestication traits in broomcorn millet, 2023, 55(12): 2243–2254.

[47] Gijzen M, Weng CR, Kuflu K, Woodrow L, Yu KF, Poysa V. Soybean seed lustre phenotype and surface protein cosegregate and map to linkage group E, 2003, 46(4): 659–664.

[48] Jones CD, Begun DJ. Parallel evolution of chimeric fusion genes, 2005, 102(32): 11373–11378.

[49] Watanabe S, Hideshima R, Xia ZJ, Tsubokura Y, Sato S, Nakamoto Y, Yamanaka N, Takahashi R, Ishimoto M, Anai T, Tabata S, Harada K. Map-based cloning of the gene associated with the soybean maturity locus, 2009, 182(4): 1251–1262.

[50] Tsubokura Y, Watanabe S, Xia ZJ, Kanamori H, Yamagata H, Kaga A, Katayose Y, Abe J, Ishimoto M, Harada K. Natural variation in the genes responsible for maturity loci,,andin soybean, 2014, 113(3): 429–441.

[51] Lam HM, Xu X, Liu X, Chen WB, Yang GH, Wong FL, Li MW, He WM, Qin N, Wang B, Li J, Jian M, Wang J, Shao GH, Wang J, Sun SSM, Zhang GY. Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection, 2010, 42(12): 1053–1059.

[52] Lu SJ, Zhao XH, Hu YL, Liu SL, Nan HY, Li XM, Fang C, Cao D, Shi XY, Kong LP, Su T, Zhang FG, Li SC, Wang Z, Yuan XH, Cober ER, Weller JL, Liu BH, Hou XL, Tian ZX, Kong FJ. Natural variation at the soybeanlocus improves adaptation to the tropics and enhances yield, 2017, 49(5): 773–779.

[53] Torkamaneh D, Laroche J, Tardivel A, O'Donoughue L, Cober E, Rajcan I, Belzile F. Comprehensive description of genomewide nucleotide and structural variation in short-season soya bean, 2018, 16(3): 749–759.

[54] Zhou ZK, Jiang Y, Wang Z, Gou ZH, Lyu J, Li WY, Yu YJ, Shu LP, Zhao YJ, Ma YM, Fang C, Shen YT, Liu TF, Li CC, Li Q, Wu M, Wang M, Wu YS, Dong Y, Wan WT, Wang X, Ding ZL, Gao YD, Xiang H, Zhu BG, Lee SH, Wang W, Tian ZX. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean, 2015, 33(4): 408–414.

[55] Woodworth CM. Inheritance of cotyledon, seed-coat, hilum and pubescence colors in soy-beans, 1921, 6(6): 487–553.

[56] Tuteja JH, Clough SJ, Chan WC, Vodkin LO. Tissue- specific gene silencing mediated by a naturally occurring chalcone synthase gene cluster in, 2004, 16(4): 819–835.

[57] Tuteja JH, Zabala G, Varala K, Hudson M, Vodkin LO. Endogenous, tissue-specific short interfering RNAs silence the chalcone synthase gene family inseed coats, 2009, 21(10): 3063–3077.

[58] Wang CS, Todd JJ, Vodkin LO. Chalcone synthase mRNA and activity are reduced in yellow soybean seed coats with dominantalleles, 1994, 105(2): 739–748.

[59] Xie M, Chung CYL, Li MW, Wong FL, Wang X, Liu AL, Wang ZL, Leung AKY, Wong TH, Tong SW, Xiao ZX, Fan KJ, Ng MS, Qi XP, Yang LF, Deng TQ, He LJ, Chen L, Fu AS, Ding Q, He JX, Chung G, Isobe S, Tanabata T, Valliyodan B, Nguyen HT, Cannon SB, Foyer CH, Chan TF, Lam HM. A reference-grade wild soybean genome, 2019, 10(1): 1216.

[60] Lin S, Cianzio S, Shoemaker R. Mapping genetic loci for iron deficiency chlorosis in soybean, 1997, 3(3): 219–229.

[61] Wicker T, Sabot F, Hua-Van A, Bennetzen JL, Capy P, Chalhoub B, Flavell A, Leroy P, Morgante M, Panaud O, Paux E, SanMiguel P, Schulman AH. A unified classification system for eukaryotic transposable elements, 2007, 8(12): 973–982.

[62] Zhuang YB, Wang XT, Li XC, Hu JM, Fan LC, Landis JB, Cannon SB, Grimwood J, Schmutz J, Jackson SA, Doyle JJ, Zhang XS, Zhang DJ, Ma JX. Phylogenomics of the genussheds light on polyploid evolution and life-strategy transition, 2022, 8(3): 233–244.

[63] Wendel JF. The wondrous cycles of polyploidy in plants, 2015, 102(11): 1753–1756.

[64] Zhao MX, Zhang B, Lisch D, Ma JX. Patterns and consequences of subgenome differentiation provide insights into the nature of paleopolyploidy in plants, 2017, 29(12): 2974–2994.

[65] Ameur A. Goodbye reference, hello genome graphs, 2019, 37(8): 866–868.

[66] Bayer PE, Golicz AA, Scheben A, Batley J, Edwards D. Plant pan-genomes are the new reference, 2020, 6: 914–920.

[67] Lappalainen T, Scott AJ, Brandt M, Hall IM. Genomic analysis in the age of human genome sequencing, 2019, 177(1): 70–84.

[68] Huang XH, Huang SW, Han B, Li JY. The integrated genomics of crop domestication and breeding, 2022, 185(15): 2828–2839.

[69] Shi JP, Tian ZX, Lai JS, Huang XH. Plant pan-genomics and its applications, 2023, 16(1): 168–186.

[70] Lei L, Goltsman E, Goodstein D, Wu GA, Rokhsar DS, Vogel JP. Plant pan-genomics comes of age, 2021, 72: 411–435.

[71] Yu H, Lin T, Meng XB, Du HL, Zhang JK, Liu GF, Chen MJ, Jing YH, Kou LQ, Li XX, Gao Q, Liang Y, Liu XD, Fan ZL, Liang YT, Cheng ZK, Chen MS, Tian ZX, Wang YH, Chu CC, Zuo JR, Wan JM, Qian Q, Han B, Zuccolo A, Wing RA, Gao CX, Liang CZ, Li JY. A route todomestication of wild allotetraploid rice, 2021, 184(5): 1156–1170. e14.

[72] Lewin HA, Robinson GE, Kress WJ, Baker WJ, Coddington JA, Crandall KA, Durbin R, Edwards SV, Forest F, Gilbert MTP, Goldstein MM, Grigoriev IV, Hackett KJ, Haussler D, Jarvis ED, Johnson WE, Patrinos A, Richards S, Castilla-Rubio JC, van Sluys MA, Soltis PS, Xu X, Yang HM. Earth BioGenome Project: sequencing life for the future of life, 2018, 115(17): 4325–4333.

[73] Cheng S, Melkonian M, Smith SA, Brockington SF, Archibald JM, Delaux PM, Li F, Melkonian B, Mavrodiev EV, Sun WJ, Fu Y, Yang HM, Soltis DE, Graham SW, Soltis PS, Liu X, Xu X, Wong GKS. 10KP: a phylodiverse genome sequencing plan, 2018, 7(3): 1–9.

[74] Liu YC, Zhang Y, Liu XN, Shen YT, Tian DM, Yang XY, Liu SL, Ni LB, Zhang Z, Song SH, Tian ZX. SoyOmics: a deeply integrated database on soybean multi-omics, 2023, 16(5): 794–797.

[75] Han LQ, Zhong WS, Qian J, Jin ML, Tian P, Zhu WC, Zhang HW, Sun YH, Feng JW, Liu XG, Chen G, Farid B, Li RN, Xiong ZM, Tian ZH, Li J, Luo Z, Du DX, Chen SJ, Jin QX, Li JX, Li Z, Liang Y, Jin XM, Peng Y, Zheng C, Ye XN, Yin YJ, Chen H, Li WF, Chen LL, Li Q, Yan JB, Yang F, Li L. A multi-omics integrative network map of maize, 2023, 55(1): 144–153.

[76] Zhou P, Silverstein KAT, Ramaraj T, Guhlin J, Denny R, Liu JQ, Farmer AD, Steele KP, Stupar RM, Miller JR, Tiffin P, Mudge J, Young ND. Exploring structural variation and gene family architecture withassemblies of 15genomes, 2017, 18(1): 261.

[77] Ou LJ, Li D, Lv JH, Chen WC, Zhang ZQ, Li XF, Yang BZ, Zhou SD, Yang S, Li WG, Gao HZ, Zeng Q, Yu HY, Ouyang B, Li F, Liu F, Zheng JY, Liu YH, Wang J, Wang BB, Dai XZ, Ma YQ, Zou XX. Pan-genome of cultivated pepper () and its use in gene presence-absence variation analyses, 2018, 220(2): 360–363.

[78] Yu JY, Golicz AA, Lu K, Dossa K, Zhang YX, Chen JF, Wang LH, You J, Fan DD, Edwards D, Zhang XR. Insight into the evolution and functional characteristics of the pan-genome assembly from sesame landraces and modern cultivars, 2019, 17(5): 881–892.

[79] Jayakodi M, Padmarasu S, Haberer G, Bonthala VS, Gundlach H, Monat C, Lux T, Kamal N, Lang D, Himmelbach A, Ens J, Zhang XQ, Angessa TT, Zhou GF, Tan C, Hill C, Wang PH, Schreiber M, Boston LB, Plott C, Jenkins J, Guo Y, Fiebig A, Budak H, Xu DD, Zhang J, Wang CC, Grimwood J, Schmutz J, Guo GG, Zhang GP, Mochida K, Hirayama T, Sato K, Chalmers KJ, Langridge P, Waugh R, Pozniak CJ, Scholz U, Mayer KFX, Spannagl M, Li C, Mascher M, Stein N. The barley pan-genome reveals the hidden legacy of mutation breeding, 2020, 588(7837): 284–289.

[80] Varshney RK, Roorkiwal M, Sun S, Bajaj P, Chitikineni A, Thudi M, Singh NP, Du X, Upadhyaya HD, Khan AW, Wang Y, Garg V, Fan Gy, Cowling WA, Crossa J, Gentzbittel L, Voss-Fels KP, Valluri VK, Sinha P, Singh VK, Ben C, Rathore A, Punna R, Singh MK, Tar'an B, Bharadwaj C, Yasin M, Pithia MS, Singh S, Soren KR, Kudapa H, Jarquín D, Cubry P, Hickey LT, Dixit GP, Thuillet AC, Hamwieh A, Kumar S, Deokar AA, Chaturvedi SK, Francis A, Howard R, Chattopadhyay D, Edwards D, Lyons E, Vigouroux Y, Hayes BJ, von Wettberg E, Datta SK, Yang HM, Nguyen HT, Wang J, Siddique KHM, Mohapatra T, Bennetzen JL, Xu X, Liu X. A chickpea genetic variation map based on the sequencing of 3,366 genomes, 2021, 599(7886): 622–627.

[81] Li JY, Yuan DJ, Wang PC, Wang QQ, Sun ML, Liu ZP, Si H, Xu ZP, Ma YZ, Zhang BY, Pei LL, Tu LL, Zhu LF, Chen LL, Lindsey K, Zhang XL, Jin SX, Wang MJ. Cotton pan-genome retrieves the lost sequences and genes during domestication and selection, 2021, 22(1): 119.

[82] Tao YF, Luo H, Xu JB, Cruickshank A, Zhao XR, Teng F, Hathorn A, Wu XY, Liu YM, Shatte T, Jordan D, Jing HC, Mace E. Extensive variation within the pan-genome of cultivated and wild sorghum, 2021, 7(6): 766–773.

[83] Hufford MB, Seetharam AS, Woodhouse MR, Chougule KM, Ou SJ, Liu JN, Ricci WA, Guo TT, Olson A, Qiu YJ, Della Coletta R, Tittes S, Hudson AI, Marand AP, Wei SR, Lu ZY, Wang B, Tello-Ruiz MK, Piri RD, Wang N, Kim DW, Zeng YB, O'Connor CH, Li XR, Gilbert AM, Baggs E, Krasileva KV, Portwood JL, 2nd, Cannon EKS, Andorf CM, Manchanda N, Snodgrass SJ, Hufnagel DE, Jiang QH, Pedersen S, Syring ML, Kudrna DA, Llaca V, Fengler K, Schmitz RJ, Ross-Ibarra J, Yu JM, Gent JI, Hirsch CN, Ware D, Dawe RK.assembly, annotation, and comparative analysis of 26 diverse maize genomes, 2021, 373(6555): 655–662.

[84] Zhang XH, Liu TJ, Wang JL, Wang P, Qiu Y, Zhao W, Pang S, Li XM, Wang HP, Song JP, Zhang WL, Yang WL, Sun YY, Li XX. Pan-genome ofhighlights genetic variation and introgression among domesticated, wild, and weedy radishes, 2021, 14(12): 2032–2055.

[85] Li N, He Q, Wang J, Wang BK, Zhao JT, Huang SY, Yang T, Tang YP, Yang SB, Aisimutuola P, Xu RQ, Hu JH, Jia CP, Ma K, Li ZQ, Jiang FL, Gao J, Lan HY, Zhou YF, Zhang XY, Huang SW, Fei ZJ, Wang H, Li HB, Yu QH. Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species, 2023, 55(5): 852–860.

[86] Wang MJ, Li JY, Qi ZY, Long YX, Pei LL, Huang XH, Grover CE, Du XM, Xia CJ, Wang PC, Liu ZP, You JQ, Tian XH, Ma YZ, Wang RP, Chen XY, He X, Fang DD, Sun YQ, Tu LL, Jin SX, Zhu LF, Wendel JF, Zhang XL. Genomic innovation and regulatory rewiring during evolution of the cotton genus, 2022, 54(12): 1959–1971.

[87] Tang D, Jia YX, Zhang JZ, Li HB, Cheng L, Wang P, Bao ZG, Liu ZH, Feng SS, Zhu XJ, Li DW, Zhu GT, Wang HR, Zhou Y, Zhou YF, Bryan GJ, Buell CR, Zhang CZ, Huang SW. Genome evolution and diversity of wild and cultivated potatoes, 2022, 606(7914): 535–541.

[88] Wang BB, Hou M, Shi JP, Ku LX, Song W, Li CH, Ning Q, Li X, Li CY, Zhao BB, Zhang RY, Xu H, Bai ZJ, Xia ZC, Wang H, Kong DX, Wei HB, Jing YF, Dai ZY, Wang HHL, Zhu XY, Li CH, Sun X, Wang SS, Yao W, Hou GG, Qi Z, Dai H, Li XM, Zheng HK, Zhang ZX, Li Y, Wang TY, Jiang TJ, Wan ZM, Chen YH, Zhao JR, Lai JS, Wang HY.genome assembly and analyses of 12 founder inbred lines provide insights into maize heterosis, 2023, 55(2): 312–323.

Frontiers of soybean pan-genome studies

Yucheng Liu1, Yanting Shen1, Zhixi Tian1,2

Artificial domestication provided the original motivation to the blooming of agriculture, following with the dramatic change of the genetic background of crops and livestock. According to theory and technology upgradation that contributing to the omics, we appreciate using the pan-genome instead of single reference genome for crop study. By comparison and integration of multiple genomes under the guidance of pan-genome theory, we can estimate the genomic information range of a species, leading to a global understanding of its genetic diversity. Combining pan-genome with large size chromosomal structural variations, high throughput population resequencing, and multi-omics data, we can profoundly study the genetic basis behind species traits we focus on. Soybean is one of the most important commercial crops over the world. It is also essential to our food security. Dissecting the formation of genetic diversity and the causal loci of key agricultural traits of soybean will make the modern soybean breeding more efficiently. In this review, we summarize the core idea of pan-genome and clarified the characteristics of construction strategies of pan-genome such as/mapping assembly, iterative assembly and graph-based genome. Then we used the soybean pan-genome work as a case study to introduce the general way to study pan-genome. We highlighted the contribution of structural variation (SV) to the evolution/domestication of soybean and its value in understanding the genetic bases of agronomy traits. By those, we approved the value of graph-based pan-genome for data integration and SV calculation. Future research directions are also discussed for crop genomics and data science.

soybean; pan-genome; structural variation; evolution; domestication

2023-12-29;

2024-02-09;

2024-02-22

國家自然科學基金項目(編號:32201775,U22A20473)和中國科學院穩定支持青年團隊計劃(編號:YSBR-078)資助[Supported by the National Natural Science Foundation of China (Nos.32201775, U22A20473) and CAS Project for Young Scientists in Basic Research (No. YSBR-078)]

劉羽誠,副研究員,研究方向:大豆比較基因組學。E-mail: ychliu@genetics.ac.cn

田志喜,研究員,博士生導師,研究方向:大豆種質資源基因組演化與分子遺傳解析。E-mail: zxtian@genetics.ac.cn

10.16288/j.yczz.23-321

劉羽誠,2016—2020年就讀于中國科學院遺傳與發育生物學研究所,在田志喜課題組攻讀博士學位;2021—2023年在該課題組開展博士后工作;2023年至今任中國科學院遺傳與發育生物學研究所副研究員,從事大豆功能基因組學、比較基因組學、大數據挖掘與數據庫開發相關研究。博士期間,開展大豆泛基因組工作,完成26個大豆種質的高質量參考基因組,在植物中創造性實踐了圖泛基因組構建策略,系統闡釋了染色體結構變異在大豆演化/馴化過程中的作用,為后續泛基因組研究提供了經典的思路和范例。獲得“博士后創新人才計劃”、“中國科學院穩定支持青年團隊”項目資助;主持國家自然科學基金委青年科學基金項目。博士論文《大豆泛基因組研究》榮獲2023年中國科學院優秀博士生論文。

(責任編委: 孔凡江)

猜你喜歡
基因組研究變異基因組
CRISPR/Cas9技術在藥用植物功能基因組研究中的應用和展望
牛參考基因組中發現被忽視基因
棘皮動物線粒體基因組研究進展
變異危機
變異
變異的蚊子
我國農業基因組研究躍居世界前列
ENCODE計劃和功能基因組研究
基因組DNA甲基化及組蛋白甲基化
有趣的植物基因組
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合