logo

logo

産品服務

Sequencing services

  • 首頁動植物全基因組重測序

動植物全基因組重測序

     全基因組重測序是對已知基因組序列的物種進行DNA測序,并在此基礎上完成個體或群體分析。全基因組重測序通過序列比對,可以檢測到大量變異信息,包括單核苷酸多态性(SNP)、插入缺失(InDel)、結構變異(SV)和拷貝數變異(CNV)等。基于檢測到的變異能進一步研究動植物的物種特性、群體進化問題、定位目标性狀基因位點。

       随着測序成本降低和已知基因組序列物種的增多,全基因組重測序已經成為動植物分子育種、群體進化中最為迅速有效的方法之一。利用全基因組重測序技術有助于快速發現與動植物重要性狀相關的遺傳變異,應用于分子育種中,縮短育種周期。


産品優勢

· 技術簡單,穩定性好

· 檢測變異類型豐富:可以檢測SNP、InDel、SV和CNV等多種變異類型,并可用作分子标記。

· 高密度标記: 能夠檢測到全基因組範圍的SNP信息,同時可檢測低頻SNP。

· 發現新的變異:與芯片方法相比較,可以檢測到新的變異序列。

· 高性價比:與全基因組從頭測序相比,耗時更短,成本更低。

· 樣品起始量低:華大基因經過不斷的研發,樣本起始量不斷降低,最低可至pg級。

· 個性化分析:具有豐富個性化分析經驗,可根據項目需要選擇最适宜的分析軟件,隻為保障最精準結果。

· 數據精準:華大至今完成10萬+的動植物重測序樣本,嚴格質量控制流程保證結果準确度。

· 經驗豐富:動植物重測序領域挂名發表文章60餘篇,IF加和>600,其中一作或通訊作者文章40+,涵蓋變異檢測、遺傳圖譜構建&QTL定位、群體進化和GWAS等各研究領域。

· 項目方案支持:大項目參與方案設計,使項目赢在起跑線。

· 分析團隊實力雄厚:發表影響因子10分以上動植物研究文章的人員20+。

· 自主測序平台,成本可控:測序平台選擇多樣,可選擇BGI自主測序平台,成本可控。


信息分析内容



産品應用


群體研究案例—3K水稻重測序&泛基因組研究

       由中國農業科學院作物科學研究所牽頭,聯合IRRI、上海交大、華大基因、深圳農業基因組研究所、安徽農大等16家單位共同完成了“3000份亞洲栽培稻基因組研究” ,并于2018年4月發表在《Nature》上。研究針對水稻起源、分類和馴化規律進行了深入探讨,揭示了亞洲栽培稻的起源和群體基因組變異結構,剖析了水稻核心種質資源的基因組遺傳多樣性。

       3000份水稻(來自全球89個國家和地區)代表了全球78萬份水稻種質約95%多樣性的核心種質。通過全基因重測序,每個樣本平均測序深度14X,利用重測序數據共檢測到32M的高質量SNPs和InDels。對亞洲栽培稻群體的結構和分化進行了更為細緻和準确的描述和劃分,由傳統的5個群體增加到9個。研究着重分析了453個測序深度>20X品系的SVs,利用SVs構建的進化樹與SNP構建的進化樹類似。大量的SVs可能是不同程度雜種不育和XI與GJ雜種衰退的遺傳基礎。同時構建了亞洲栽培稻的泛基因組,包括12,770個(62.1%)核心(core)基因家族和9,050個(37.9%)分散式(distributed)基因家族。發現了1.2萬個全長新基因和數千個不完整的新基因。核心基因比較古老,大多數的新基因表現更年輕和長度偏短。


圖1  水稻泛基因組研究

a、基因家族PAVs;b、泛基因組和一個單獨的基因組的組成成份;c、基于500個随機篩選的水稻基因組模拟泛基因組和核心基因組;d、核心和分散式基因家族比例;e、兩個品系間基因家族平均數量差異;f、5733主要群組不平衡基因家族特性


群體進化案例—高粱進化,一個項目七篇文章

          華大和昆士蘭大學共同合作,利用44株高粱的重測序數據研究群體進化問題,從2013年到2017年間,在著名期刊發表了7篇文章。44株高粱,其中17株是改良種,18株是地方種,還有2株馴化種以及7株野生種,另外還有同屬的2個拟高粱(S. propinquum)。群體利用全基因組重測序技術獲得了基因型數據,數據平均有22X的深度。


圖2 44個高粱樣本情況

表1 高粱項目發表7篇論文彙總

發表時間

發表期刊

研究方向

文章名

影響因子

2013.8

Nature communications

利用全基因組SNP”研究高粱群體進化

Whole-genome sequencing reveals untapped genetic potential in Africa’s indigenous cereal crop sorghum

11.47

2014.9

BMC Plant Biology

利用抗病基因的SNP”研究高粱進化

The plasticity of NBS resistance genes in sorghum is driven by multiple evolutionary processes

3.813

2016.1

Biotechnology for Biofuels

構建SNP數據庫

SorGSD: a sorghum genome SNP Database

6.044

2016.5

Plant Biotechnology Journal

利用澱粉代謝途徑相關基因研究進化

Domestication and the storage starch biosynthesis pathway: Signatures of selection from a whole sorghum genome sequencing strategy

5.752

2016.12

Frontiers in Plant Science

利用氮代謝途徑相關基因研究進化

Whole Genome Sequencing Reveals Potential New Targets for Improving Nitrogen Uptake and Utilization in Sorghum bicolor

4.495

2017.7

Frontiers in Plant Science

利用高粱谷粒大小和重量基因研究進化

Whole-Genome Analysis of Candidate genes Associated with Seed Size and Weight in Sorghum bicolor Reveals Signatures of Artificial Selection and Insights into Parallel Domestication in Cereal Crops

4.495

2017.11

Molecular Breeding

高粱不同品系有關硝酸還原酶和谷氨酸合成酶的不同等位基因影響植物氮反應

The vegetative nitrogen response of sorghum lines containing
different alleles for nitrate reductase and glutamate synthase

2.246


變異檢測

         全基因組重測序數據與參考基因組比對,可以檢測某物種個體或群體的遺傳變異信息,包括單核苷酸多态性(SNP)、插入缺失(InDel)、結構變異(SV)、拷貝數變異(CNV)。變異信息是進行其他信息分析的基礎。


 圖1 各種變異在基因組上分布統計

從外到内依次為:染色體坐标、SNP密度分布、InDel密度分布、SV類型分布、CNV的拷貝數分布。


群體結構分析

       通過構建群體的系統進化樹(圖2a)、主成分分析(圖2b)和Structure分析(圖2c),研究樣本間的親緣關系和進化關系。進化樹是根據樣本間親緣關系的遠近,把各樣本安置在有分枝的樹狀的圖表上,簡明地表示生物的進化曆程和親緣關系。主成分分析(Principal Component Analysis,PCA),是将多個變量通過線性變換以選出較少個數重要變量的一種多元統計分析方法。群體結構研究的過程中通過将測序品系和SNP位點構成二維矩陣數據,經過PCA分析,計算出幾個主要的特征向量,并且将每一個品系在各特征向量上進行定位,也是研究群體品系間親緣關系的方法之一。Structure分析則是假設若幹個品系起源于K個截然不同(或差異較大)的祖先,分析每一個品系的遺傳成分中,所具有的每一個假想祖先成分的比例。三種分析方法的結果可以相互驗證。


圖2 群體結構分析( Nature genetics, 2010, 42(12): 1053-1059)。

a為進化樹;b為PCA分析;c為Structure分析,不同顔色代表不同的假想祖先;d為連鎖不平衡分析


連鎖不平衡分析

        連鎖不平衡(linkage disequilibrium,LD),指群體内不同座位等位基因之間的非随機關聯, 包括兩個标記間或兩個基因間或一個基因與一個标記座位間的非随機關聯,可以用r2計算兩個标記間的連鎖不平衡度。LD受重組、人工選擇、群體類型等的影響,不同的物種LD變化情況不同,一般情況下我們會統計LD值衰減到一半的距離(圖2d)。LD值會對信息分析中标記數目的選擇有指導意義,LD大的物種所需要的标記密度相對低。


選擇分析(條件:群體有明顯的亞群分化)

       選擇在物種的遺傳變異形成過程中有巨大的貢獻,其中搭便車效應會對種群水平的分化産生劇烈的影響,由于較強的選擇效應,使得一個突變位點相鄰DNA上的核苷酸之間的差異下降或消除(selective sweep)。通過分析大量的比較基因組學數據集和大量的SNP集,我們可以确定在野生種到栽培種/地方種的過程中,以及在不同的環境情況下,哪些區域的多态性發生了巨大的改變,檢測馴化或環境适應性相關的候選基因,而且受選擇的基因與進化相關的性狀也有關系。選擇性清除區域亞群内多态性降低,亞群間差異大,LD大。


圖3 選擇分析結果示例( BMC plant biology, 2015, 15(1): 81)

綠色區域代表栽培種馴化過程中受選擇區域


GWAS分析

        利用分布于全基因組水平的分子标記(例如SNP)通過一定的模型(如一般線性模型或混合線性模型)與表型進行關聯分析,檢測目标性狀相關基因位點。但是由于連鎖的存在,往往我們檢測到的标記并不是直接決定目标性狀的變異,如果進行基因克隆時還是要在一定的定位區間内完成。


圖4 GWAS結果示例(Nature genetics, 2010, 42(11): 961-967)。

Manhattan plot(圖4左)和QQ plot(圖4右)是查看GWAS定位結果和計算模型合理性的标配圖。Manhattan plot橫坐标是表示位置,縱坐标表示-lgP,在縱坐标上超過一定阈值的點被認為和表型關聯。QQ圖的意義在于基因型和性狀無關聯的情況下,各個标記P-value的觀察值和期望值是相等的(紅線),但是由于出現了基因型和性狀有關聯的情況,P-value往往會偏離y=x這條線。




表1 基因組 DNA樣品送樣建議

建庫類型

樣品類型

總量

濃度

完整性(膠圖)

純度

常規DNA小片段文庫

基因組DNA

≥1μg

c≥12.5ng/μL

主峰>20Kb

 

無蛋白,RNA/鹽離子等污染,樣本無色透明不粘稠

PCR free文庫

基因組DNA

≥10μg

c≥30ng/μL

表2 組織樣品判定标準

組織類型

常規DNA小片段文庫

PCR free文庫

新鮮培養細胞 (細胞數)

≥5×106cell

≥1×107cell

新鮮動物組織幹重

≥50mg

≥300mg

新鮮植物組織幹重

≥200mg

≥800mg

全血(哺乳動物)

≥1 mL

≥2 mL

全血(非哺乳動物)

≥0.5mL

≥1mL




Q1: 進行全基因組重測序數據推薦?

每個樣本推薦的數據量與樣本類型和要做的信息分析内容相關。例如關注個體樣本的SNP,對SNP的準确度和覆蓋度要求比較高,一般推薦測序深度>30X,對于稀有變異測序深度還要進一步提高;用于研究群體結構的樣本,測序深度推薦5X以上,随着測序成本的不斷下降,現在越來越多的項目測序深度在10X以上;純合樣本混樣檢測等位基因頻率,推薦平均每個樣本的測序深度在1X以上,混合樣本測序深度不低于30X;DH和RIL群體構建Bin Map,子代群體測序深度可以測序0.5X/樣本。

Q2: 樣本量選擇多大合适?

答:樣本量大小與樣本類型和研究目的相關。例如進行群體進化研究推薦30個樣本以上,因為從統計學上說30個以上才屬于大樣本;對于進行基因挖掘的項目來說,無論是利用自然群體進行GWAS分析或是用家系群體進行連鎖分析,都是群體越大越好,一般的情況下進行GWAS分析的樣本推薦300個樣本以上,對于家系群體推薦200個以上。

Q3: 連鎖圖譜構建适用于什麼樣的群體?

答:連鎖圖譜的構建适用于作圖群體,它是由性狀差異顯著的親本雜交衍生的群體。親本選擇的要求:要考慮親本間的遺傳多态性、目标性狀差異、親本的純合度和雜交後代的可育性。構建分離群體類型,根據遺傳穩定性可将分離群體分成兩大類:暫時性分離群體如F1、F2、BC等,永久性分離群體如RIL、DH等。

Q4: 現在我們重測序數據比對回參考基因組檢測SNP用的軟件是什麼?

答:現在常用的比對和call SNP的軟件包括SOAP+SOAPsnp和BWA+GATK,可以根據需求進行選擇。

Q4: 重測序reads與參考基因組比對率低,可能的原因是什麼?

答:重測序reads比對率低原因可能是:1)因為測序樣本與參考基因組親緣關系比較遠。因為動植物品種多樣,但是目前已完成基因組組裝的往往隻是其中的一個品種,同一個物種野生種與馴化種差異還是很大的;2)可能因為DNA不純,存在其他物種的污染;3)參考基因組序列組裝質量較差,引起比對率低;4)比對參數設置嚴格等。


深圳華大科技(總部)

電話:400-706-6615
郵箱:info@genomics.cn