logo

logo

産品服務

Sequencing services

  • 首頁人全基因組重測序

人全基因組重測序

        BGISEQ人全基因組重測序(WGS),采用擁有自主知識産權的測序儀和雲計算平台,為廣大科研工作者提供高準确度、最具性價比的基因組測序服務和一站式科研解決方案,支持大型隊列研究,助力精準醫學。


BGISEQ測序平台

        華大基因BGISEQ測序平台采用的是DNB(DNA Nanoball ,DNA納米球)[1]核心測序技術,獨特的線性擴增模式

        DNB技術是目前全球少有的能夠在溶液中完成模闆擴增的技術,能夠在擴增過程避免錯誤累積的發生,有效提高測序準确度。因為是基于滾環擴增,DNB技術不僅有效增加了待測DNA的拷貝數,大大增強了信号強度,且同一個模闆進行滾環複制,即使複制過程中引入單個堿基的複制錯誤,這個錯誤也不會像PCR那樣把這個信号放大。

        完成模版擴增後,DNB将轉載到Patterned Array(規則陣列)上。Patterned Array采用先進的納米矽半導體精密加工工藝,使用率高,單位測序成本更低。DNB是在溶液裡面提前擴增完成的,在loading過程中沒有聚合酶、引物和dNTP等PCR條件,所以華大自主測序平台從測序原理上有效的避免了大量duplicates的産生。

圖片 6

圖1  BGISEQ平台測序原理


給您選擇我們的八個理由


  • 穩定的産出高質量測序數據

        對随機挑選的1000+條lane BGISEQ平台 WGS數據質量值進行統計分析,下機Raw data Q20平均值為96.16%,Raw data Q30平均值為87.86%。

圖片 1

圖2  1000+條lane WGS序質量統計


  • 低duplicates獲更多有效數據和更高覆蓋度

        Duplicates低,用更少的數據量,得到更多的高準确和高覆蓋度的比對數據,可以發現更多變異位點,有助于挖掘疾病的低頻和罕見突變,獲取更加全面的基因組變異信息。

                                                表1  主流二代測序平台标準品duplicate比率、有效測序深度及覆蓋度比較

 Sample

   X 測序平台

   N測序平台

   BGISEQ平台

 Raw bases (Mb)

99998.92

100001.72

100236.61

 Clean bases (Mb)

96314.26

98955.15

99886.02

 Mapping rate (%)

99.61

98.68

99.47

 Unique rate (%)

87.18

86.41

93.31

 Duplicate rate (%)

9.65

10.15

3.02

 Mismatch rate (%)

0.8

0.51

0.48

 Average sequencing depth (X)

29.08

29.52

32.8

 Coverage (%)

99.06

99.06

99.1

 Coverage at least 4X (%)

98.57

98.43

98.62

 Coverage at least 10X (%)

97.77

97.2

97.67

 Coverage at least 20X (%)

91.8

89.45

92.97


  • 高精準度和敏感度的變異結果

        已發表文章結果顯示,BGISEQ-500自主平台與HiSeq 2500測序平台變異檢測的精準度(Precision)和敏感度(Sensitivity)相當[2]

表2  BGISEQ-500與HiSeq 2500變異精準度和敏感度比較[2]

SNP

BGISEQ-500

HiSeq 2500

Precision

99.78%

99.86%

Sensitivity

96.20%

96.60%


  • 罕見突變檢出率及與芯片分型的一緻率高

        BGISEQ平台變異結果與Illumina Human Omni基因分型芯片評估,結果表明罕見突變檢出率高,且檢出的罕見突變與芯片分型結果的一緻性高。

表3  BGISEQ平台 30X rare SNP detection rate

Genotyping chip

MAF

NO. of rare SNP

NO. of detection

NO. of concordance

檢出率

一緻率

OMNI

< 2%

7414

7142

7132

96.33%

99.86%

OMNI

< 1%

3151

3025

3018

96.00%

99.77%

OMNI

< 0.5%

1129

1075

1070

95.22%

99.53%


  • 無Index hopping擔憂

        BGISEQ測序儀利用獨特的DNA納米球(DNB)技術,僅使用單個index就實現了前所未有的0.0001%至0.0004%低樣本錯誤分配率。用水代替DNA,加入index,增加空白對照,DNB測序平台發生錯誤匹配的概率為36 million reads分之一,即0.0000028%[3]

index hopping

圖3  不同測序技術的index hopping比例

 

  • 滿足多種樣本類型的需求

        BGISEQ平台WGS數據來源樣本種類多樣,其中包含福爾馬林固定石蠟包埋( Formalin Fixed and Paraffin Embedded,FFPE)樣品、單細胞樣品、血液樣品、基因組DNA樣品、唾液樣品、常規冷凍保存的新鮮組織樣品等。常規基因組建庫測序成功率為99%,對于降解樣品如FFPE等,建庫測序成功率也在90%以上。

圖片 3

圖4   BGISEQ平台不同類型樣本交付成功率

 

  • BGISEQ PCR-free WGS是從建庫到測序真正的PCR-free

        PCR-free建庫 + DNB (DNA納米球)核心測序技術,全方位實現PCR-free,為您還原最真實的全基因組序列。PCR-free WGS 高質量InDel從75%提升到86%,而低質量InDel從12%降低到3%[4],PCR-free建庫方法可明顯提高InDel calling的精準度和敏感度。

pcrfree3

圖5  高質量、中等質量和低質量InDel在不同建庫方法的分布

  • 共發表文章106篇

        BGISEQ平台自2015年6月面世以來,截止2018年6月,共發表文章106篇,我們不止關心文章的數量,更關心文章的質量。 

圖片 5

圖6  BGISEQ平台發表文章示例

*上述分析結果由華大信息分析流程所得,分析結果不代表交付指标,最終解釋權歸深圳華大基因股份有限公司所有


參考文獻

[1]    Drmanac R, Sparks A B, Callow M J, et al. Human genome sequencing using unchained base reads on self-assembling DNA nanoarrays.[J]. Science, 2010, 327(5961):78-81.

[2]    Jie Huang, Xinming Liang, Yuankai Xuan, et al. A reference human genome dataset of the BGISEQ-500 sequencer. GigaScience, 2017.

[3]     Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137

[4]    Han F, Wu Y, Narzisi G, et al. Reducing INDEL calling errors in whole genome and exome sequencing data[J]. Genome Medicine,6,10(2014-10-28), 2014, 6(10):89.


案例1    BGISEQ-500 測序儀的參考人類基因組數據集[1]

A reference human genome dataset of the BGISEQ-500 sequencer

合作單位:華大基因、國家食品藥品監督管理總局(NIFDC)和國家食品藥品監督管理局湖北醫療器械質量監督檢驗中心

研究概要:與公開發布的HiSeq2500人全基因組重測序(WGS)數據分析比較,BGISEQ-500測序平台在比對與變異檢測方面與HiSeq2500表現出較高一緻性。

研究策略:

樣本:“瓶中基因組”聯盟發布的人類細胞系HG001(NA12878)

測序:BGISEQ-500 PE100、PE50;Illumina HiSeq2500 PE150

分析:采用相同分析、統計方法,對兩平台的數據質量、比對結果、變異檢測等進行比較

研究結果:

  • 兩個平台都具有較高的堿基質量分布和較相似的GC含量分布

        對原始FASTQ數據使用相同的條件進行數據過濾,從過濾後的數據顯示BGISEQ-500和HiSeq2500兩個平台都具有較高的堿基質量分布和較相似的GC含量分布。

圖片 7

圖1  數據質量比較(a.read1堿基質量分布;b. read2 堿基質量分布;c. PE50, PE100, HiSeq總體堿基質量分布;d. PE50, PE100, HiSeq GC含量分布。)


  • 兩個平台具有較高的比對率和相似的覆蓋度和錯配率

        研究人員還使用常規的BWA + GATK流程對BGISEQ-500 PE100、PE50以及HiSeq2500 PE150數據進行比對和變異檢測,與HiSeq2500平台相比,兩組數據都具有較高的比對率和相似的覆蓋度和錯配率,此外,兩個平台也展示出有較好的基因組覆蓋度。

表1   比對統計

Metrics

BGISEQ-500 PE50

BGISEQ-500 PE100

HiSeq2500 PE150

Clean reads

2,378,725,921

1,136,008,901

708,941,148

Clean bases (bp)

118,936,296,050

113,600,890,100

104,923,289,904

Mapping rate

97.87%

99.22%

99.05%

Unique rate

93.17%

96.47%

97.06%

Duplicate rate

6.26%

2.47%

1.52%

Mismatch rate

0.34%

0.58%

0.56%

Average sequencing depth

37.57

37.44

34.52

Coverage

99.28%

99.12%

99.06%

Coverage at least 4×

98.90%

98.69%

98.60%

Coverage at least 10×

97.97%

97.81%

97.83%

Coverage at least 20×

95.78%

96.06%

94.81%

 

  • 兩個平台SNP變異檢測具有相似的靈敏度,陽性檢出率,假陽性率和假陰性率

    在變異檢測方面, BGISEQ-500 PE100與HiSeq2500 PE150具有相似的靈敏度、陽性檢出率、假陽性率和假陰性率。

表2  變異評估統計

Variant type

Metrics

BGISEQ-500 PE50

BGISEQ-500 PE100

HiSeq2500 PE150

SNPs

True Positive

3,006,132

3,071,579

3,084,449

False Positive

15,203

6,907

4,318

False Negative

186,825

121,379

108,508

Precision

99.50%

99.78%

99.86%

Sensitivity

94.15%

96.20%

96.60%

FPR

0.00060%

0.00020%

0.00017%

FNR

5.85%

3.80%

3.40%

 

研究意義:

        從變異檢測結果看,BGISEQ-500平台數據與HiSeq2500平台相差不大,證明新測序儀可以用于各種科研與臨床應用。随着新技術的研發,BGISEQ-500的測序質量、速度以及通量仍有較大的提升空間,測序讀長、不同插入片段以及分析軟件的研發必将提升數據的整體表現。同時,BGISEQ-500測序儀可用于轉錄組、表觀基因組、宏基因組等測序。

 

案例2    BGISEQ-500和HiSeq X Ten全基因組測序鑒定生殖細胞和體細胞變異[2]

Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing

合作單位華大基因、西澳大利亞大學醫學和藥理學院、澳大利亞醫院呼吸科等。

研究概要:使用BGISEQ-500平台對三種惡性胸膜間皮瘤及其對照的正常樣本進行全基因組測序,并與Illumina HiSeq X Ten平台測序結果進行評估。兩平台數據均使用相同的分析流程,分别比較生殖細胞和體細胞單核苷酸變異(SNP)、小插入或缺失(InDel)。結果表明BGISEQ-500平台通過全基因組測序來鑒定腫瘤樣本的體細胞和生殖細胞突變是有潛力的可适用性的平台,這也是該平台首次公開可用的癌症基因組數據。

研究策略:

取材:三種惡性胸膜間皮瘤及其對照的正常樣本

測序:BGISEQ-500;Illumina HiSeq X Ten

分析:比較生殖細胞和體細胞單核苷酸變異(SNP)、小插入或缺失(InDel)

研究結果:

  • 生殖細胞突變:     

結果顯示BGISEQ-500平台和HiSeq X Ten平台識别SNP的能力與SNP分型芯片(Infinium Omni2.5–8, Illumina )是高度一緻的(> 99%)。在兩個測序平台中鑒定的生殖細胞SNV和indels也是高度一緻(分别為86%和81.5%)。

表3  SNP芯片數據分别與BGISEQ-500和HiSeq X Ten數據比較,生殖細胞突變基因型一緻性的百分比

圖片 8

        在3個樣本數據總10,686,962個生殖細胞SNV中, BGISEQ-500和HiSeq X Ten平台特有的SNV突變比例分别為0.36%和1.85%,699,321個生殖細胞indels中,BGISEQ-500和HiSeq X Ten平台特有的indels比例分别為0.19%和3.23%,具體比例如下圖表所示。

圖片 9

圖2  利用BGISEQ-500和HiSeq X Ten的數據,鑒定3個胸膜間皮瘤的生殖細胞突變

  • 體細胞突變:

        三名患者中總共10,890個體細胞SNV,大部分體細胞SNV(72%)在兩個平台中被識别,小部分為BGISEQ-500和HiSeq X Ten兩平台特有的(分别為14%,14%)。隻有38%的indels可以同時被兩個測序平台識别,BGISEQ-500和HiSeq X Ten分别特有的為38%和14%。和SNV分析相比,體細胞indels突變有較高的不一緻性,具體比例如圖所示。

圖片 10

圖3  利用BGISEQ-500和HiSeq X Ten的數據鑒定3個胸膜間皮瘤的體細胞突變

        共有156個體細胞突變(141個SNV和15個indels)位于基因編碼區。 其中,在兩個測序平台中共同鑒定出109個編碼突變(70%),包括已知的間皮瘤驅動基因BAP1,僅在 BGISEQ-500和HiSeq X Ten分别獨有的突變為20和27個。


  • 讨論與結論:

        使用BGISEQ-500和HiSeq X Ten測序平台對三個間皮瘤患者的癌症和對照的正常DNA進行了測序,結果顯示大部分突變均可以通過兩個測序平台進行鑒定。

        兩個平台分别特有一小部分變異的差異是由多重因素導緻的,一個關鍵因素是兩個平台(BGISEQ-500平台50bp和HiSeq X Ten平台150bp)之間讀長的差異,比對分析使用BWA-MEM,是基于Burrows-Wheeler Aligner算法開發的,此算法專門針對讀長大于70bp而設計。


研究意義:

        這篇文章的BGISEQ-500數據是平台進行的首次公開可用的癌症基因組測序。盡管BGISEQ-500平台是早期PE50的數據,但兩平台生殖細胞突變基因型與SNP芯片分型結果高度一緻(>99%),且在檢測生殖細胞和體細胞SNV和插入缺失的能力方面都表現出很高的一緻性。本篇文章的研究人員也對腫瘤樣本在BGISEQ-500平台上進行PE100測序,并與HiSeq X Ten平台進行比較,數據結果近期将發表高分文章(IF>25)。

 

案例3    基于DNB的測序平台可有效避免index hopping[3]

Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform

合作單位:華大基因、Complete Genomics Inc等

研究概要:

        使用三種主要的文庫制備方法研究了DNB測序平台的Index hopping問題。BGISEQ測序儀利用獨特的DNA納米球(DNB)技術,基于滾環複制(RCR)進行文庫擴增,這種線性擴增可以避免常規PCR帶來的錯誤累積。基于DNB的NGS應用僅使用單個index就實現了前所未有的0.0001%至0.0004%低樣本錯誤分配率。此外,用水代替DNA,加入index,增加空白對照,DNB測序平台發生錯誤匹配的概率為36 million reads分之一,即0.0000028%。

index hopping

圖4  不同測序技術的index hopping比例

研究結果:

  • DNA納米球技術的高index保真度

        BGISEQ平台将DNB加載到規則陣列(patterned arrays)上,并利用組合引物錨定測序技術(cPAS)進行測序。 獨特的DNB技術采用具有強鍊置換活性的Phi29聚合酶和能夠進行線性擴增的RCR工藝,每個擴增循環都以原始的單鍊環狀DNA文庫為模闆,保持每個拷貝子的獨立性(圖1a)。因此,即使出現寡核苷酸的index hopping等錯誤,也不會累積錯誤拷貝,正确的序列總是會在後面的DNA拷貝中複制,保證最高的擴增保真度。

index hopping2

圖5  Index hopping在不同的測序平台産生的機制

  • 信号外溢造成極少的index hopping

        Index污染可以通過實驗操作、PCR錯誤、測序錯誤、寡核苷酸合成錯誤引入。為了檢測BGISEQ平台極少index hopping的原因,我們首先找到那些出現錯配的DNB,調查其測序質量。平均而言,無index hopping的DNB與相鄰DNB共享相同index序列的概率為20.21%,存在index hopping的DNB共享相同index 的概率則為57.04%。該結果表明相鄰DNB的信号外溢造成了index hopping。而對于這種情況,index的測序質量通常偏低,我們可以通過Q30>60%來降低因此産生的index hopping。

  • PCR-free文庫index hopping污染率極低

        除了常規PCR文庫外,文中還對PCR-free文庫在BGISEQ平台的index hopping情況進行調查,未經過任何Q30過濾的99.9998%精度再次證實了DNB可以在很大程度上最小化index污染。與上面的常規PCR文庫類似,污染率平均約為0.0004%。

表4  PCR-free 文庫index污染比率

PCR-free2

研究意義:

1、  高的檢測準确度,保證體細胞低頻突變、HPV檢測等基因檢測的準确性;

2、  Single index避免了繁瑣的non-combinatorial dual index帶來的額外成本和勞動力浪費;

3、  避免大通量測序中樣本數據完整性的丢失。


參考文獻

[1]    Jie Huang, Xinming Liang, Yuankai Xuan, et al. A reference human genome dataset of the BGISEQ-500 sequencer. GigaScience, 2017.

[2]     Patch A M, Nones K, Kazakoff S H, et al. Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing.[J]. Plos One, 2018, 13(1):e0190264.

[3]     Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137


1、标準品數據展示

        測試樣本選用了“瓶中基因組(Genome in a Bottle)”的人類樣本NA12878,這是目前被世界上認為研究最透徹的二倍體人類基因組,并發布了高置信變異集,可作為一個重要工具來了解測序儀和檢測結果的表現。X測序平台的數據為I 公司官網下載的數據,并且,兩個平台的分析均嚴格采用了GATK Best Practices推薦的流程進行分析。


  • 高測序數據質量

        從堿基質量圖也可以直觀感受到,大部分(紅色)的堿基的質量值(Q值)都高于35。我們的測試數據有至少96%的堿基識别準确率為99%,至少85%的堿基識别準确率為99.9%。

Q20>96%,Q30>85%

圖片 11 

圖1   BGISEQ PE100測序數據堿基質量圖                     圖2  BGISEQ PE100測序的堿基分布圖

        測序質量值可衡量堿基未正确檢出的概率。測序技術,一種類phred算法[1][2]會為片段中的每個堿基分配一個質量分值,與最初因桑格測序實驗而開發的算法類似。

        一個給定堿基的測序質量分值Q定義為下面的等式: Q = -10log10(e) 其中,e為預計堿基檢出不正确的概率。如下所示,質量分值20表示錯誤率為1/100,相應的檢出精确度為99%。

表1  标測序質量分值與堿基檢出精确度的關系

圖片 12 


  • 高比對率和覆蓋度

        應用人的标準品NA12878,分别在BGISEQ和X測序兩個平台上測了100Gb數據和110Gb數據。從下表可以看出,即使BGISEQ測序平台上少測了10%的數據,整體表現仍然非常優秀。

表2  BGISEQ與X測序平台的數據對比

Platform

BGISEQ平台

X測序平台

Clean bases (Mb)

100,163

110,083

Mapping rate (%)

99.47 

96.52

Unique rate (%)

94.33

85.14

Duplicate rate (%)

1.77

11.76

Mismatch rate (%)

0.53

0.56

Average sequencing depth (X)

33.02

31.57

Coverage (%)

99.10

98.95

Coverage at least 4X (%)

98.62

98.43

Coverage at least 10X (%)

97.68

97.24

Coverage at least 20X (%)

93.09

91.45

Clean bases:過濾掉接頭,低質量和含N的reads後剩下的堿基數量;

Mapping rate:堿基比對率,比對到參考基因組的堿基數目除以clean data的堿基數目,如果測序樣本存在污染或者與參考基因組差異較大,比對率偏低會影響後續的信息分析;

Unique rate:比對到基因組上唯一位置的base比率,一條reads在相同數量的容錯時會有兩個或者兩個以上的位點都吻合,那麼,它的比對結果不唯一。對于某些下遊分析,需要去除比對多個位點的reads,隻保留唯一比對的reads;

Duplicate reads:重複的 reads 所占比例,為了保證後續變異分析的準确性,會去掉duplicate reads後進行下遊信息分析,相同數據量重複率越低,後續可用的數據量越多;

Mismatch rate:堿基的錯配率;

Average sequencing depth:有效平均深度(不計算duplication),比對到參考基因組的堿基數目除以基因組的大小;目前行業對外承諾的30X(90G)、40X(120G)等深度隻是測序量的簡單換算,并不是指有效深度。

Coverage at least 1X(4X、10X、20X):覆蓋率,指測序深度達到1X、4X、10X、20X以上的全基因組占比。


  • 高靈敏度和精準度

        高靈敏度(Sensitivity)和高精準度(Precision)意味着BGISEQ平台檢測發現變異的能力更強,并且結果中為真的突變的概率也高。BGISEQ平台與X測序平台SNP和InDel精準度和敏感度相當。

表3   BGISEQ平台與X測序平台變異精準度和敏感度比較

Sequencer

SNP

InDel

Total SNPs

PPV

Sensitivity

Total InDels

PPV

Sensitivity

BGISEQ

3482838

99.94%

96.21%

823627

97.62%

93.23%

X測序平台

3499428

99.89%

96.34%

656186

96.55%

90.32%  

Sensitivity:靈敏度,又叫真陽性率(TPR),計算公式:靈敏度=真陽性/(真陽性+假陰性)。是指實際為陽性的樣本中,判斷為陽性的比例。例如,真正突變中,被判斷為有突變的比例,它反映篩檢發現變異的能力,靈敏度越高,假陰性越低;

Precision:精準度,也叫陽性預測值(PPV),計算公式:精準度=真陽性/(真陽性+假陽性),指篩檢試驗檢出的全部陽性變異中,真正“變異”的例數(真陽性)所占的比例,反映篩檢變異結果陽性中為真的突變的可能性,精準度越高,假陽性越低。


  • 高變異結果一緻性

        兩個平台SNP,InDel檢測一緻率分别高達94.06%和86.74%,說明了結果的高一緻性。而對于那一小部分不一緻的結果進行分析,發現精準度更高。

圖片 13 

圖3  BGISEQ平台與X測序平台SNP一緻性對比           圖4  BGISEQ平台與X測序平台InDel一緻性對比

 

2、已交付商業樣本數據展示

        目前華大基因已成功交付上萬例高質量的BGISEQ平台 WGS數據,并得到了海内外業界高度認可。其中包括貝勒醫學院(Baylor College of Medicine)、華盛頓大學(University of Washington)、斯坦福大學(Stanford University)、麻省理工(Massachusetts Institute of Technology)等早期參與人類基因組計劃(Human Genome Project, HGP)的主要單位,以及牛津大學(University of Oxford)、梅奧診所(Mayo Clinic.)、康奈爾大學(Cornell University)、費城兒童醫院(CHOP)、德國癌症研究中心(German Cancer Research Center)、中南大學湘雅醫院、同濟醫院、清華大學等上百家全球知名科研單位參與平台測試。通過對不同樣本類型測試和不同測序平台比較,均獲得較高的數據質量結果。在這裡我們随機統計了去除樣本背景信息後的1,355個樣品下機數據,統計具體的質量表現。


  • 樣本類型适用廣泛

        BGISEQ平台 WGS數據來源樣本種類多樣,其中包含福爾馬林固定石蠟包埋( Formalin Fixed and Paraffin Embedde,FFPE)樣品、單細胞樣品、血液樣品、基因組DNA樣品、唾液樣品、常規冷凍保存的新鮮組織樣品等,不同樣本類型均有較高的交付成功率,基于BGISEQ平台交付的樣本中,常規基因組建庫測序成功率高達99%,對于降解樣品如FFPE等,建庫測序成功率也高達90%以上。

 圖片 3

圖5  BGISEQ平台 WGS不同類型樣品交付成功率

 

  • 單lane數據産量高

        對随機挑選的1,355條lane BGISEQ平台 WGS PE100數據進行統計,單lane平均産量高達140Gb Raw data。

圖片 24 

圖6  BGISEQ平台 WGS PE100單lane産量 

 

  • 數據利用率高

    随機統計了1,100條lane的BGISEQ平台 WGS PE100下機數據,利用率平均高達99%。

 圖片 25

圖7   Clean data比率

  

  • 測序數據質量優

        對随機挑選的1,355條lane BGISEQ平台 WGS數據質量值進行統計分析,下機Raw data Q20平均值為96.16%,Raw data Q30平均值為87.86%。

 圖片 1

圖8  堿基質量分布

 

  • GC含量穩定

        對該1,355條lane數據的GC含量進行統計分析,平均GC含量為41.69%, GC含量穩定,沒有偏向性。

 圖片 26

圖9  GC含量分布

*上述分析結果由華大信息分析流程所得,本結果不代表交付指标,最終解釋權歸深圳華大基因股份有限公司所有

 

        華大基因作為全球領先的基因組學研究中心及臨床解讀中心,推出的自主研發的BGISEQ平台 30X WGS測序在成本和技術上極大的促進了基因組學的快速發展,使基因組學真正的進入了百元基因組時代。BGISEQ平台見證了人類基因組計劃以來一個新時代的開啟,将推動以基因測序作為支撐的生命科學、生物産業甚至生命經濟蓬勃發展,以其低廉的成本、高質量、高通量的測序平台,真正實現人類基因組計劃以來科學家們的夢想和希望!


參考文獻:

[1]    Ewing B, Hillier L D, Wendl M C, et al. Ewing B, Hillier L, Wendl MC et al.Base-calling of automated sequencer traces using PHRED. I. Accuracy assessment. Genome Res 8:175-185[J]. Genome Research, 1998, 8(3):175-185.

[2]    Ewing B, Green P. Base-calling of automated sequencer traces using phred. II. Error probabilities[J]. Genome Research, 1998, 8(3):186-94.

[3]    Carrick D M, Mehaffey M G, Sachs M C, et al. Robustness of Next Generation Sequencing on Older Formalin-Fixed Paraffin-Embedded Tissue[J]. Plos One, 2015, 10(7):e0127353.


表1  DNA樣本送樣建議

樣本類型

總量

濃度

完整性(膠圖)

純度

Genomic DNA

≥1μg

≥12.5ng/μL

主峰>20Kb

無蛋白,RNA/鹽離子等污染,樣本無色透明不粘稠

 

表2   組織樣本送樣建議

組織類型

需求量

新鮮培養細胞 (細胞數)

≥5×106cell

新鮮動物組織幹重

≥50mg

新鮮植物組織幹重

≥200mg

全血(哺乳動物)

≥1 mL

全血(非哺乳動物)

≥0.5mL

菌體 (細胞數或幹重)

≥5×106cell or ≥200mg

FFPE

≥ 10 片,未染色,100 mm25 ~ 10μm厚度


Q1:BGISEQ-500人全基因組重測序的數據格式是否與Illumina平台的一緻?

是一緻的,所以信息分析流程都一樣。 

Q2:想對我們BGISEQ-500産出的數據先分析确定一下格式和數據質量,現在是否有測試過的數據可以提供?

BGISEQ-500 demo數據已經上傳至EBI,可以訪問并下載,鍊接如下:

RNA:http://ewzi2d2.caifu38273.cns0cg.caifu38273.cnwww.ebi.ac.uk/ena/data/view/PRJEB19428 

WGS:http://jqahy.caifu38273.cnncr0.caifu38273.cnwww.ebi.ac.uk/ena/data/view/PRJEB19427 

WES:http://a5emso.caifu38273.cn1rcu3f.caifu38273.cnwww.ebi.ac.uk/ena/data/view/PRJEB19426

Q3:華大内部數據庫PVFD和BGI-GaP是什麼?

 PVFD數據庫在千人基因組第一階段數據庫的基礎上,主要添加了東亞人群尤其是中國漢族人突變頻率數據,進一步豐富東亞人群(中國人)突變頻率數據。

BGI-GaP數據庫包括BGI内部數據庫在内的35個數據源的基因型-表型(突變-疾病)關系信息,主要是種族、地域、生活史、原始數據庫名稱、變異位點、變異類型、變異所在基因、疾病信息、已發表文章等信息,有助于發現特定疾病與遺傳因素、健康狀況、生活方式等的關系。注意:目前這兩個數據庫隻提供SNP數據,未來升級後會添加InDel數據。

Q4:如何實現基因組變異可視化?

基因組可視化軟件 IGV(Integrative Genomics Viewer)是高性能的基因組數據可視化工具,能夠幫助使用者同時合并分析不同類型的基因組數據,并能靈活放大基因組上的某個特定區域。IGV 軟件免費下載地址: http://ez9w8p0.caifu38273.cnlpokvrt.caifu38273.cnwww.broadinstitute.org/igv. IGV 可查看 SAM / BAM 比對文件和 VCF 變異檢測文件,下圖顯示的是 IGV 可視化窗口。

圖片 27

圖1   IGV可視化窗口示意圖

Q5:如何尋找候選變異?

尋找候選變異位點時,可利用變異注釋結果,關注非同義突變、剪接突變、移碼突變。1)去除千人基因組數據庫中 MAF >=1% 的變異2)去除 NHLBI-ESP6500 European American 群體數據庫中 MAF >=1% 的 變異 3)去除 NHLBI-ESP6500 African American 群數據庫中 MAF >=1%的變異4) 推 測 變 異 的 緻 病 性 。 利 用 SIFT/PolyPhen2/Mutation assessor/Condel/FATHMM 進行打分,預測某個變異和氨基酸置換是否影響蛋白 功 能 。 如 果 score<=0.05 或 PolyPhen2>=0.909 或 MA score>=1.9 或 Condel = deleterious 或 FATHMM=deleterious,就推測該變異可能是有害變異。

Q6:SNP 篩選所使用的數據庫有哪些,怎麼篩選?

數據庫: dbSNP 、 HapMap8、 1000 Genomes 一般情況下,我們都采用以下過濾标準: 1、質量值不低于 20; 2、覆蓋深度不低于 4; 3、兩個相鄰 snp 之間的距離不小于 5,如果樣本深度很高(>50X),可以提高過濾條件。

Q7:一般用什麼方法來驗證 call SNP 準确率?

華大炎黃計劃是用 Sanger 測序的方法和芯片分型兩種方法來驗證 SNP 的準确性的, 因為 Sanger 測序被認為是測序中的“金标準”。 

Q8:唾液采集的方法?

使用DNA Genotek公司的 Oragene•DISCOVER (OGR-500) (For Research) 或 Oragene•Dx (OGD-500) (For Diagnostics) collection kit.保存量及操作方法詳見産品說明書,按照說明書操作保存運輸樣品。

Q9:突變位點為有效位點時使用的 depth 阈值是多少?

GATK在call變異時SNP和InDel均要求depth大于等于4 。

Q10:數據中的 Duplicates 指什麼?如何定義?有何影響?

一般情況下,測序得到了兩對或兩對以上的pair end reads同時比對到參考序列上相同的起始和結束位置,我們定義這種序列為duplicates。

在數據分析過程中,為了确保變異分析的準确性,避免計算存儲資源的浪費,一般會通過生信的方法去掉Duplicate reads後再進行下遊信息分析。

但這麼做,至少會帶來以下2方面的問題:

1、 數據量浪費

越高的duplicates比例,為此而浪費的數據量就越大。按照illumina平台為例,普遍的duplicates比例大約在10%左右。也就是花了100G data的錢,有用的隻有90G左右。

2、 對于RNA-Seq,無法去除

對于RNA來說,因為難以區分是PCR duplicates還是RNA高表達形成的相同的模闆,則無法去除duplicates。從而影響轉錄組表達量的準确性,尤其是小和中等表達量的轉錄本的準确性。


深圳華大科技(總部)

電話:400-706-6615
郵箱:info@genomics.cn