一種基因組混樣測序文庫的制備方法
【技術領域】
[0001] 本發(fā)明設及分子生物學中高通量測序技術的領域。更具體設及一種基因組混樣測 序文庫的制備方法,它適用于所有真核生物各種樣本的重測序或者簡化測序,尤其適用于 小基因多樣本數(shù)的重測序或者大基因群體的簡化測序。
【背景技術】
[0002] 二代測序技術是目前現(xiàn)高通量測序研究中最常用的技術。DNA測序技術經過30多 年的發(fā)展已經取得重大進展,W高通量為特點的第二代測序技術已經逐步成熟并且商業(yè) 化。早期的測序技術主要依賴第一代測序,一代測序從傳統(tǒng)的化學降解法、雙脫氧鏈終止法 W及在它們的基礎上發(fā)展來的各種DNA測序技術統(tǒng)稱為第一代DNA測序技術,其中Sanger法 因操作簡便,對單個序列檢測較快且準確率較高,目前仍得到廣泛的應用。第一代測序技術 在分子生物學研究中發(fā)揮過重要的作用,如人類基因組計劃化uman Genome ProjectJGP) 主要基于第一代DNA測序技術完成。但隨著人類基因組計劃W及其他模式生物的測序工作 的完成,我們進入了后基因組時代即功能基因組時代,傳統(tǒng)的一代測序方法已經不能滿足 深度測序和重測序等大規(guī)?;蚪M高通量測序的需求,因此,人類發(fā)展出來第二代測序技 術。
[0003] 第二代測序技術主要包括羅氏454公司的GS FLX測序平臺、ABI公司的SOLiD測序 平臺和Illumina公司的Solexa Genome Analyzer測序平臺W及Solexa的升級版Hiseq測序 平臺等。第二代測序技術最顯著的特征是高通量,一次能對幾十萬到幾百萬條DNA分子序列 進行測序,使得對一個物種的轉錄組測序或基因組深度測序變得方便易行。第二代測序技 術的主要原理是先將的基因組DNA進行片段化,在兩側加上各自特異的接頭,隨后用不同的 方法產生幾百萬個空間固定的PCR克隆陣列,然后進行引物雜交和酶延伸反應,對每個延伸 反應所滲入的巧光標記進行成像檢測就可獲取測序數(shù)據。454測序的特點是單次讀長長大, 但單次反應的數(shù)據量低。SOLiD測序讀長為50bp,單次反應的數(shù)據量50G,特點是高通量和高 準確度,但成本較高。而11 lumina公司的Solexa測序讀長為雙端讀長2 X 50bp,單次反應的 數(shù)據量20G,測序成本較低,性價比高。Solexa的升級版化seq和桌面式測序儀MiseqW及 Nextseq經過近幾年的一系列版本的發(fā)展,測序通量一致在不斷提高,其中化seq從早期 HiseqlOOO和Hiseq2000已經發(fā)展到目前的Hiseq2500和Hisq3000/4000等,Hiseq測序平臺 單次反應可W產生的數(shù)據量由300-600G已提升到1.5Tb,雙端讀長也有50bp提升到了 150bp,極大的提升了測序通量,同時降低了測序價格,使得1000美金測一個人類基因組成 為了可能。
[0004] 隨著測序技術的發(fā)展,測序儀的通量也會隨之上升,測序價格也相應降低,大規(guī)模 多樣本數(shù)的基因重測序也已實現(xiàn)。但對于一些小基因組,例如真菌基因組大小約2.5~ 81.15Mb和細胞器基因組如葉綠體基因組大小為120K~217K等,當測序樣本數(shù)較多時,測序 數(shù)據量若小于2G時,若對單個文庫建單獨建庫測序,單個樣本文庫的構建成本將超過其測 序成本。本發(fā)明專利基于Illumina公司第二代測序平臺,設計了含有新的標簽(Barcode)序 列的接頭和含索引(Index)序列的PCR引物,結合化w化gland BioLabs(肥B)公司的建庫試 劑,并對建庫流程進行改進和優(yōu)化,設計了 一種對多個樣本同時構建的混合建庫方法,節(jié)約 了建庫成本,同時也提高了建庫效率。
【發(fā)明內容】
[0005] 本發(fā)明的目的在于提供了一種基因組混樣測序文庫的制備方法,我們將設計了多 對含有標簽(Barcode)序列的接頭和含索引(Index)序列的PCR引物對每種打斷后的DNA片 段進行標記混樣和文庫構建,運種方式節(jié)約了建庫試劑,提高了建庫的效率。此外,本發(fā)明 專利設計兼容Illumina二代測序儀特異的接頭連接后為雙端標簽(Barcode),增強了接頭 互補堿基數(shù),提高了連接效率,可對樣品進行精確標記。本發(fā)明普遍適于常規(guī)分子生物學實 驗室進行各種樣本的重測序或者簡化測序,尤其適用于小基因多樣本數(shù)的重測序或者大基 因群體的簡化測序。
[0006] 為了實現(xiàn)上述的目的,本發(fā)明采用W下技術方案:
[0007] 上述種基因組混樣測序文庫的制備方法的具體流程為:利用超聲破碎的方法,分 別對每種基因組DNA進行打斷,打斷后的片段進行磁珠純化,將設計特異的引物制備成接頭 (含標簽序列)對上述純化產物進行連接;分別將連接后的產物進行純化和濃度測定,然后 依據所測的每種樣本的數(shù)據量進行混樣;混樣后的產物進行片段篩選,回收篩選后的片段 利用含索引(Index)序列的引物進行PCR擴增;對PCR產物進行純化,純化后的產物即為上機 文庫,然后對文庫濃度和片段范圍進行檢測;最終將檢測合格后的文庫利用Illumina公司 的二代測序儀進行上機測序。
[0008] 1、一種基因組混樣測序文庫的制備方法,其流程示意圖如圖1所示,具體包括W下 步驟:
[0009] (1)對需要混樣測序樣品的基因組DNA進行超聲打斷,打斷的插入片段為35化P。
[0010] (2)對超聲打斷的片段進行純化,利用肥B末端修復試劑對純化產物進行末端修 復。
[0011] (3)對末端修復產物進行純化,利用特異的含不同標簽(Barcode)接頭序列分別對 純化產物進行連接反應,連接試劑采用肥B快速連接試劑。
[0012] 接頭的序列如下:
[0013] P5-P7-F(5'-3'):ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNN*T
[0014] P5-P7-R(5 '-3 '):/5I%os/YYYYYAGATCGGAAGAGCACACGTCTGAACTCCAGTC
[001引其中,設計的P5-P7-R引物中的五堿基序列ΥΥΥΥΥ與P5-P7-巧I物中的五堿基序列 NNW^N反向互補,其中ΝΝΝΓ^Ν代表標簽序列,主要用于標記混樣各個樣本,標簽序列見下表1。 此外,/5Phos/代表5 '端起始堿基為憐酸基團(-ΡΗ3)修飾,*代表硫代憐酸醋化修飾。
[0016] (4)對上述連接產物進行純化,對后續(xù)需要混樣的純化產物逐一進行濃度測定。
[0017] (5)參照上述純化產物的濃度和總量,依據所測樣本的測序量對純化產物進行混 合,混合后進行片段篩選。片段篩選采用瓊脂糖電泳和切膠回收的方法。
[001引(6)利用含索引(Index)序列的PCR引物對上述的回收片段進行PCR擴增,PCR產物 利用1.6倍體積的磁珠純化兩次,純化后的產物即為測序文庫。
[0019] PCR引物序列為:
[0020] F(5 '-3 '):AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATC,
[0021] R巧 ' -3 '): CMGCAGMGAOGGCATAOGAGATNNNNNNGTGACTGGAGTTCAGAOGTGTGCTCTTCCGATC。
[0022] 其中,PCR引物R序列中的NNNN順代表索引(Index)序列,索引用于標記不同的混樣 文庫,不同混樣文庫選用不同的索弓1( Index)引物。本發(fā)明總共設計了 12種不同索引 (Index)接頭引物,索引(Index)信息見表1。
[0023] (7)純化PCR產物進行純化回收即可得到測序文庫。
[0024] (8)對上述測序文庫進行濃度和片段大小范圍檢測。將文庫濃度將檢測合格后的 文庫利用Π 1皿ina公司的二代測序儀進行高通量測序。
[0025] 優(yōu)選的,如步驟(1)中,打斷范圍為插入片段350bp,可選用超聲打斷儀Covaris M220,占空因數(shù)(Duty factor 20%),峰值功率(Peak incident power,50W),循環(huán)破碎系 數(shù)(CyC1 es per burSt,200),持續(xù)時間65秒,工作溫度20度rC)。不同的樣品的基因組DNA 的起始量相同,起始量為100~50化g之間,打斷體系為50化。
[0026] 優(yōu)選的,如步驟(2)中,采用肥B修復試劑,體系為修復試劑0.75μ1,10倍濃度(10 X )的修復緩沖液化L,片段DNA溶液17.2化L,總體系為20化。修復條件為20度°C,60分鐘 (min) ;65°C,30min;4°C,終止化old)。
[0027] 優(yōu)選的,如步驟(3)中,設計了不同標簽(Barcode)的特異接頭引物(共10種,表1), 采用肥B連接反應試劑,體系為10 X T4DNA連接酶緩沖液化L,加 A連連接液3.75化,接頭(濃 度為15μΜ) 1化,連接增強液0.25化,修復DNA溶液1如L,總體系25化。連接條件為20°