logo

logo

産品服務

Sequencing services

  • 首頁目标區域測序

目标區域測序

      目标區域測序(Target Region Sequencing, TRS)是根據感興趣的基因組區域設計特異性探針,與基因組DNA進行液相雜交,将目标基因組區域的DNA片段進行富集後再利用第二代測序技術進行測序的研究策略。

實驗流程

圖1 技術流程

華大可提供以下兩種目标區域捕獲探針:Agilent SureSelect Target Enrichment System及NimbleGen SeqCap EZ Choice。

1、Agilent捕獲系統

      Agilent SureSelect Target Enrichment System液相捕獲,是基于120mer的RNA寡核苷酸探針或者叫“baits”。Baits上連接的生物素,可以被鍊黴親和素标記的磁珠吸附。打斷後的基因組片段,與baits進行雜交,捕獲目标片段。利用磁珠吸附出帶有baits的DNA片段後,進行磁珠洗脫、RNA探針降解,最終獲得目标區域DNA片段。

圖2

圖2 Agilent SureSelect捕獲流程

2、NimbleGen捕獲系統

      與Agilent的捕獲原理類似,NimbleGen采用DNA探針,以高密度探針著稱,因此價格也相對較高。如下圖所示,NimbleGen利用高密度的50-105mer的DNA探針來覆蓋目标區域。

圖3

圖3 NimbleGen探針設計示意圖


定制化芯片型号

芯片名稱

Reactions/kit

芯片大小

Agilent Sureselect XT Custom Kits

16, 96

1~499Kb,0.5~2.9Mb,3~5.9Mb,6Mb~11.9Mb,12Mb~24Mb

NimbleGen SeqCap EZ Choice Kits

12, 24, 48, 96, 384, 960

100kb-7Mb

NimbleGen SeqCap EZ Choice XL Kits

12, 24, 48, 96, 384, 960

7Mb-200Mb


标準信息分析

1. 去除接頭污染和低質量數據

2. 數據通過BWA與UCSC hg19數據庫進行比對

3. 數據産量統計分析、測序深度分析、覆蓋度均一性分析

4. SNP變異信息檢測(SAMtools、SOAPsnp、GATK)

5. SNP的RefGene注釋

6. SNP數據庫分析(與dbSNP、千人基因組數據、ESP外顯子組數據庫以及炎黃基因組(僅亞太地區)數據進行數據庫注釋分析)

7. 單樣品SNP保守性預測、緻病性分析(僅針對人類樣本,軟件:SIFT、Polyphen-2、Phylop、GERP scores、Mutation assessor、Condel、FATHMM)

8. SNP在各基因功能元件上的分布統計

9. InDel變異信息檢測(SAMtools、GATK)

10. InDel的RefGene注釋

11. InDel數據庫分析(與dbSNP 、千人基因組數據、ESP外顯子組數據庫、炎黃基因組(僅亞太地區)進行數據庫注釋分析)

12. InDel在各基因功能元件上的分布統計

注:SIFT、Polyphen-2、Phylop、GERP scores、Mutation assessor、Condel、FATHMM這幾個數據庫的分析僅針對人類樣本。


華大案例1:目标區域測序結合芯片分型發現皮膚色素沉着的遺傳結構

An Unexpectedly Complex Architecture for Skin Pigmentation in Africans (Cell. 2017)

案例描述: 人類中大約有15個基因與皮膚色素沉着直接相關,但廣泛調研發現皮膚色素相幹的基因比想象中的還要複雜,遺傳結構随緯度變化。樣品選取的非洲南部的KhoeSan人群(包括269個Khomani人群和172個Nama人群),他們的皮膚顔色比近赤道非洲人群更淺。文章采用目标區域測序對分型過的441個非洲南部KhoeSan人群及其定量表型進行分析。目标區域選擇了Khomani人群芯片GWAS結果中強相關的區域、之前報道的色素沉着的基因附近有關聯信号的區域、其他人群中報道的與色素沉着相關的區域,共計7.1Mb區域。

結論: 皮膚色素沉着具有高度遺傳性,但已知相關位點隻能解釋一小部分的表型。相較于歐亞人種的淺色皮膚,非洲人種的皮膚色素沉着相關基因更多更複雜。利用芯片GWAS和目标區域測序,研究人員發現了一些新的與色素沉着相關的位點,也驗證了一些傳統的位點。

案例圖1

圖1 與色素沉着相關的基因的遺傳分歧

遺傳分歧用FST衡量,以20kb為移動窗口,步長5kb統計FST分布。(A)代表KhoeSan和歐洲人群的遺傳分歧;(B)代表KhoeSan和西非(Bantu)人群的遺傳分歧;(C,D)代表經典色素沉着相關基因SLC24A5和OCA2的FST,點代表SNPs,實線代表LOESS拟合曲線,95%的置信區間,虛線代表不同人群比較的FST。


華大案例2:利用目标區域測序在新的胃癌病人群體中驗證分子分型及預後意義

Distinct subtypes of gastric cancer defined by molecular characterization include novel mutational signatures with prognostic capability(Cancer Research. 2016)

案例描述:胃癌亞型非常多,二代測序雖然發現了許多新的胃癌driver基因,但運用到臨床分子分型和預後的非常少。本文整合之前的544例胃癌基因組數據和臨床表型,分析胃癌的突變特征及其與預後的關系。并利用目标區域測序,在新的胃癌隊列中進行驗證。

結論

1、544例胃癌數據整合分析:按照突變負荷将胃癌病人劃分為常規類型(占比86.6%)和高突變類型(占比13.2%),并在常規類型中鑒定到31個顯著突變基因(SMGs)。

2、常規類型胃癌分子分型:根據31個SMGs,将常規胃癌類型進一步分為兩種亞型,兩種亞型具有不同的突變特征及預後(圖8)。并利用目标區域測序,在一個新的cohort中驗證了亞型分類及其預後。

案例圖2

圖2 常規類型胃癌的突變頻譜及分子亞型的預後意義

(A)SMGs的突變頻譜,基于31個SMGs将胃癌分為C1和C2兩種亞型,星号代表每種亞型中更傾向的突變;(B)C1和C2亞型的Kaplan-Meier生存曲線;(C)單變量和(D)多變量的Cox回歸分析,變量包括年齡、性别、TNM分期、Lauren分型(腸型和彌漫型)、隊列(Cohort)和分子分型。

3、分析單個基因的預測效果:挑選突變頻率>5%的9個SMGs與生存期的關系,結果發現在彌漫型胃癌中發現CDH1突變與生存期短有關。


華大案例3:目标區域測序挖掘罕見的兒童ET病人的分子特征

Distinct molecular abnormalities underlie unique clinical features of essential thrombocythemia in children(Leukemia. 2016)

案例描述:ET(原發性血小闆增多症)是在兒童中發病率很低,比成人發生率低約100倍。因此,臨床上對兒童ET的診斷和病理分析還不是很清晰。目前隻發現JAK2 V617F、MPL、CALR突變與兒童ET發病有關,成人ET中常用的biomarker大部分都不能用來鑒定兒童ET。因此,本文利用目标區域測序,選取髓系血液病相關的55個基因作為目标區域,對25例患兒進行檢測,平均測序深度349X,并結合Sanger測序分析JAK2 46/1的單體型,全面分析兒童ET的分子特征。

結論:兒童和成人ET的分子特征不同,兒童ET的特征更為複雜。本研究樣本中JAK2 V617F為最高頻的體細胞突變,其次為ASXL1。

案例圖3

圖3 兒童ET病人中體細胞突變頻率

(a)每個突變基因檢測到的病人數目和突變頻率。(b)25例樣本中檢測的突變個數占比。(c)同一個體中體細胞突變共發生情況展示。


表1 數據情況統計

Samples Initial bases on target Total effective reads Total effective bases (Mb) Effective sequences on target (Mb) Capture specificity (%) Mapping rate on genome (%) Duplicate rate on genome (%) Mismatch rate in target region (%) Average sequencing depth on target Fraction of target covered >= 1x (%) Fraction of target covered >= 4x (%) Fraction of target covered >= 10x (%) Fraction of target covered >= 20x (%)
test1 3,674,752 12,884,275 1,841.78 1,156.03 62.77 99.2 24.18 1.6 314.59 99.79 99.54 99.06 98.33
test2 3,674,752 16,533,366 2,363.90 1,469.07 62.15 99.22 26.45 1.58 399.77 99.81 99.59 99.18 98.57

結果展示圖1

圖1 在目标區域上的單堿基測序深度分布

X 軸表示測序深度,Y 軸表示具有對應測序深度的目标區域的比例。

結果展示圖2

圖2  在目标區域上的累計測序深度分布

X 軸表示測序深度,Y 軸表示達到對應測序深度及其以上深度的目标區域的比例。


 表1 送樣建議和級别判斷

樣品類型

總量

濃度

完整性(膠圖)

純度

基因組 DNA

常規

≥1ug

≥12.5ng/uL

主峰>20Kb

無蛋白,RNA/鹽離子等污染,樣本無色透明不粘稠

微量

≥200ng

≥2.5ng/uL

無降解或輕微降解

若建庫采用Agilent SureSelect QXT試劑盒,則要求DNA總量≥50ng,濃度≥25ng/μL

FFPE DNA

常規

≥1ug

≥12.5ng/uL

主峰>500bp

無蛋白,RNA/鹽離子等污染,樣本無色透明不粘稠

微量

≥200ng

≥2.5ng/uL

主峰>500bp

-


Q1:捕獲平台,一般推薦幾雜?

多雜基數:或叫雜交數,即一套探針同時做幾個樣品,例如二雜一,指的是2個樣品用一套探針和捕獲試劑。

多雜基數與芯片設計的覆蓋度、樣品數、樣品質量、目标區域大小等相關;多雜對捕獲均一性、重複序列比例、覆蓋度等指标評估可能有影響,需要綜合考慮各種因素後作出評定。根據華大經驗,Agilent捕獲平台的多雜基數建議8雜以下,NimbleGen建議12雜以下。

特殊樣品不建議雜交數太多,比如FFPE或ctDNA樣品建議2雜1。

Q2:多雜一有何劣勢?

多雜可以節約試劑成本,但雜交數目越多,可能會導緻每個樣品的數據産出不均,片段重複率升高等問題,因此不是雜交越多越好,要綜合考慮項目情況、每個包裝的rxn數目。

Q3:芯片的訂貨周期一般是多長?

一般為2個月左右。

Q4:目标區域捕獲 kit 的保質期是從申請訂購開始還是從到貨之後計算,多久?

保質期從到貨開始計算為1年。

Q5:捕獲效率有哪些困素影響?

捕獲效率影響因素有樣本本身的質量、區域複雜度(重複序列區、高GC)、探針設計不佳等。由于捕獲效率未知,我們無法承諾有效深度;可以根據經驗捕獲效率做個預估的數據量,人的樣品一般按照40%-50%的捕獲效率預估,越小區域的捕獲效率通常也越低。

預估公式:raw data=目标區域*測序深度/捕獲效率/0.9(clean和raw data的比率)

eg.假設目标區域大小500kb,期望測序深度500X,按照40%捕獲效率預估,那推薦數據量raw data=500kb*500/0.4/0.9=0.7Gb

Q6:目标區域評估需要提供哪些信息?

客戶隻需提供要捕獲的物種名稱,參考的基因組版本和目标區域所在的染色體号、起點位置、終點位置。該區域位置選擇需要根據研究目的選擇合适的區域如基因的exons,upstream,downstream或者連續的一段區域等。

Q7:目标區域有什麼要求?

可以是連續的DNA片段,也可以是分布在同一染色體不同區域或不同染色體上的片段。長度不定,原則上沒有限制。但太小(幾十K以下)且樣本量很少時,建議散樣測序;太大且目标區域都位于外顯子情況下,成本很高,建議做外顯子測序。難點區域:複雜區域,如重複序列較多,GC含量過高或過低,n區等存在探針設計困難。

Q8:目标區域樣本數量有要求嗎?

理論上對樣本數量沒有要求,但是芯片都存在起訂量,比如Agilent最低起訂量是16個反應,往往采取多雜一的方式節省成本,因此如果樣品量太少,平均到每個樣品的芯片成本會很高,有可能比直接做重測序還高,所以建議樣本量大一些。

Q9:捕獲效率一般預估多少?

目标區域定制化的捕獲效率一般按照40%預估,但在植物捕獲方面,捕獲效率較差;區域小(幾kb-幾十kb)的區域捕獲效率也會較低。

Q10:目标區域為何不承諾測序深度?

目标區域隻承諾raw data,不承諾測序深度。因為目标區域屬于定制化,由于不同區域的捕獲效率不定(受GC含量、重複序列的影響),因此無法準确預估測序深度與數據量的對應關系。

深圳華大科技(總部)

電話:400-706-6615
郵箱:info@genomics.cn