專利名稱::從頭檢測(cè)核酸中的序列的方法通過片段化進(jìn)行的導(dǎo)向測(cè)序的制作方法相關(guān)申請(qǐng)本申請(qǐng)根據(jù)35U.S.C.§119(e)要求下列申請(qǐng)的權(quán)益,即2004年4月9日提交的美國(guó)臨時(shí)申請(qǐng)No.60/563,283和2004年4月26日提交的美國(guó)臨時(shí)申請(qǐng)No.60/565,284,這些申請(qǐng)的內(nèi)容被完整引入本文作為參考。發(fā)明領(lǐng)域本發(fā)明涉及基于特定片段大小測(cè)定靶核酸的核酸序列的方法。
背景技術(shù):
:現(xiàn)有若干涉及可理想地快速并準(zhǔn)確檢測(cè)靶核酸內(nèi)一個(gè)或多個(gè)已知序列的存在的申請(qǐng)。該檢測(cè)典型地通過雜交陣列、PCR或小范圍桑格DNA測(cè)序法而得以實(shí)現(xiàn)。但所有這些方法均要求指定是哪些序列將被檢測(cè)(雜交陣列)或者先驗(yàn)知道靶內(nèi)的引物序列(PCR,桑格DNA測(cè)序法)。桑格測(cè)序反應(yīng)和相關(guān)方法通常利用電泳或質(zhì)譜法進(jìn)行分析。在核酸測(cè)序方面,與電泳法相比,基質(zhì)輔助激光解吸電離飛行時(shí)間質(zhì)譜(MALDI-TOFMS)具有兩個(gè)主要優(yōu)勢(shì)高速和高分辨率(Nordhoffetal.2000;Kosteretal.1996)。MALDI-TOF質(zhì)譜法在該方面的主要優(yōu)勢(shì)是其高度狹窄的讀值長(zhǎng)度(15-40個(gè)堿基),而電泳的常規(guī)讀值長(zhǎng)度為幾百個(gè)堿基。新近研發(fā)的用于診斷性DNA再測(cè)序的質(zhì)譜法采用了將長(zhǎng)度通常為幾百個(gè)堿基的靶DNA序列控制片段化為許多短于15個(gè)堿基的較小且非重疊的寡核苷酸的方法(Elsoetal.2002;Rodietal.2002)。這些片段的質(zhì)譜可被認(rèn)為是指紋圖譜。當(dāng)與已知參比序列的計(jì)算圖譜比較時(shí),這些質(zhì)譜可提供與靶序列有關(guān)的有用信息。這些方法是通過采用化學(xué)(vonWintzingerodeetal.2002)或酶促方式(Hartmeretal.2003)實(shí)現(xiàn)片段化,且對(duì)單核苷酸具有特異性(例如,在每個(gè)dA殘基后裂解)。單核苷酸特異性片段化方法在生成足夠短到可通過質(zhì)譜法分析的寡核苷酸的過程中是無效的,且典型地破壞了靶DNA內(nèi)的許多序列信息(Zabeauetal.2000)。這是因?yàn)樵诘湫土呀夥磻?yīng)中,大約40%-50%的靶DNA被減小為含有4個(gè)核苷酸或更短的片段,這些片段太小以至于無法利用MALDI-TOF設(shè)備對(duì)其信息化。對(duì)二核苷酸序列具有特異性的裂解技術(shù)已有所進(jìn)展,可克服單核苷酸特異性片段化的局限性(Stanton,Jr.etal.2003)。特異性二核苷酸裂解反應(yīng)被認(rèn)為可生成平均為16個(gè)堿基長(zhǎng)度的片段,該長(zhǎng)度為MALDI-TOFMS分析的理想片段長(zhǎng)度。這些方法利用了化學(xué)修飾的核苷酸類似物(Wolfeetal.2003)或通過特殊聚合酶進(jìn)行模板導(dǎo)向的二核苷酸三磷酸整合(Kless2001)。不過,所有這些裂解方法共有一個(gè)基本局限性無法確定僅已知長(zhǎng)度或分子量的片段內(nèi)的堿基順序。這足以說明現(xiàn)有的片段化方法僅適用于已知參比序列從而可預(yù)先計(jì)算可能的片段質(zhì)量的情況(Bocker2003)。研發(fā)可無需預(yù)知序列信息便可測(cè)定核酸序列的方法是有用的。發(fā)明概述我們發(fā)現(xiàn)了可無需預(yù)知模板核酸內(nèi)存在的核酸序列信息便可測(cè)定該模板核酸的核酸序列的方法。該方法基于關(guān)于片段質(zhì)量、任意一種核苷酸或其組合的質(zhì)量、核苷酸切割物(酶或化學(xué)切割物)的序列特異性的組合信息測(cè)定核酸片段的序列。該方法允許從頭檢測(cè)靶核酸內(nèi)的序列,而無需預(yù)知任何序列信息。該方法被稱為通過片段化進(jìn)行的部分測(cè)序(PSBF),即通過將靶序列片段化為質(zhì)量或長(zhǎng)度與已知序列獨(dú)特相關(guān)的寡或多核苷酸而實(shí)現(xiàn)目的。這些序列的身份僅通過所用的特異性片段化方法測(cè)定,并總是不依賴于靶序列。PSBF可通過應(yīng)用電泳、質(zhì)譜或其它可被用于區(qū)分被切核酸序列片段大小的任意方法而得以實(shí)現(xiàn)。本發(fā)明方法適用于所有要求測(cè)定模板核酸的序列信息以助于分析的應(yīng)用。這些應(yīng)用包括突變檢測(cè),篩選諸如腫瘤樣品的生物樣品的核酸變異,鑒定任意生物樣品材料中的病原體和/或病原體株,測(cè)定不同物種、品種或株等之間的序列差異。本方法尤其有用的應(yīng)用包括任意靶模板中的核苷酸重復(fù)序列的測(cè)序。這些重復(fù)序列包括采用傳統(tǒng)桑格測(cè)序法或核苷酸陣列測(cè)序法通常難以分辨的單核苷酸重復(fù)序列或二或三核苷酸重復(fù)序列。因此,本發(fā)明方法與其它測(cè)序法聯(lián)合將尤其適用于分辨低組成復(fù)雜度的核酸區(qū)域。本發(fā)明方法還允許掃描大核酸區(qū)域,包括部分甚至整個(gè)染色體的特定序列。當(dāng)測(cè)定大核酸片段的序列時(shí),優(yōu)選用常見切割物限制待分析片段的數(shù)量。例如,可采用單核苷酸切割物消化包括染色體在內(nèi)的模板核酸中的其它所有序列,且僅保留樣品中含有dATPs的核酸片段。將對(duì)片段的質(zhì)量分析與dATP的質(zhì)量信息以及這些序列僅含幾段腺苷酸序列的事實(shí)相結(jié)合,可實(shí)現(xiàn)對(duì)富含腺苷酸的片段的掃描。此外,如果利用質(zhì)譜工具進(jìn)行片段質(zhì)量分析,可根據(jù)峰的表面積估計(jì)具有相同數(shù)量的重復(fù)序列的片段的數(shù)量。這類掃描在例如,基于聚腺苷酸尾部的存在而測(cè)定特定染色體或染色體區(qū)域內(nèi)基因的大致數(shù)量方面有應(yīng)用。在一種實(shí)施方案中,本發(fā)明提供了一種測(cè)序方法,包括獲得單鏈或雙鏈的核酸模板的步驟。接著,通過利用合適的聚合酶和根據(jù)序列特異反應(yīng)性和分子量選擇的核苷酸生成靶模板的轉(zhuǎn)錄物。該轉(zhuǎn)錄用引物可為隨機(jī)核苷酸引物或序列特異性引物。對(duì)無需預(yù)知序列的序列信息的方法而言,引物優(yōu)選隨機(jī)引物。轉(zhuǎn)錄物是以序列特異性方式通過酶促或化學(xué)裂解法被裂解。裂解應(yīng)完全并在一個(gè)反應(yīng)中僅生成非重疊片段。具有復(fù)雜特異性的裂解反應(yīng)可能需要多重反應(yīng)。這種多重反應(yīng)可同時(shí)或順序進(jìn)行。在接下來的步驟中,根據(jù)長(zhǎng)度或質(zhì)量,優(yōu)選地根據(jù)質(zhì)量分析該裂解反應(yīng)產(chǎn)物。不過,也可采用長(zhǎng)度分析,尤其是當(dāng)已知所獲片段僅由單核苷酸重復(fù)序列構(gòu)成時(shí)。接著,結(jié)合利用片段的質(zhì)量/長(zhǎng)度以及核酸切割物的裂解特異性,可計(jì)算裂解所生成所有可能片段的分子量和序列(片段身份作圖)。該作圖僅取決于裂解反應(yīng)和選用的核苷酸,完全與靶序列無關(guān)。最后,將質(zhì)量與片段身份作圖做比較,以確定靶核酸序列中存在的至少一個(gè)子序列。在另一種實(shí)施方案中,本發(fā)明提供了一種獲得重疊片段以完整測(cè)定靶核酸序列的方法。在該實(shí)施方案中,進(jìn)行了若干次平行轉(zhuǎn)錄、消化、片段質(zhì)量分析,獲得了至少2、5、10、15、20、50、100直到至少1000個(gè)不同的片段組,優(yōu)選地覆蓋了全部或大部分的靶序列,并在測(cè)定上述子序列的序列后基于重疊片段編譯靶的序列。該方法優(yōu)選較不頻繁切割的多核苷酸切割物(multicutter),以獲得相對(duì)較長(zhǎng)的子片段,從而實(shí)現(xiàn)對(duì)重疊片段的鑒定。在一種實(shí)施方案中,本發(fā)明提供了一種掃描大模板,諸如完整或部分染色體以鑒別目標(biāo)區(qū)域的方法。這種目標(biāo)區(qū)域包括但不限于,例如聚腺苷酸區(qū),通過鑒別聚腺苷酸尾部可估計(jì)染色體或部分染色體中的基因數(shù)量。在用于檢測(cè)單核苷酸重復(fù)序列的方法中,優(yōu)選采用單核苷酸切割物。在另一種實(shí)施方案中,本發(fā)明提供了一種掃描大核酸模板以檢出特異性、低復(fù)雜度的核苷酸重復(fù)序列,即一、二、三等核酸重復(fù)序列的方法。在該實(shí)施方案中,核苷酸切割物具有二、三等核苷酸重復(fù)序列特異性。在一種實(shí)施方案中,本發(fā)明提供了一種測(cè)定序列中的核苷酸重復(fù)序列數(shù)量的方法。具有相同序列的片段的數(shù)量可根據(jù)質(zhì)譜峰的表面積測(cè)定。附圖簡(jiǎn)述圖1所示為通過本發(fā)明的片段化法進(jìn)行靶測(cè)序中涉及的步驟一覽圖。第1步涉及獲得用于部分靶測(cè)序的靶核酸。該核酸可能為單或雙鏈,無需預(yù)知與該靶核酸有關(guān)的序列信息。第2步,利用合適的聚合酶和根據(jù)序列特異反應(yīng)性和分子量選擇的核苷酸生成靶核酸的轉(zhuǎn)錄物。第3步,通過酶促或化學(xué)方法或兩種方法的組合,也可采用光裂解法以序列特異性方式裂解轉(zhuǎn)錄物。裂解應(yīng)完全并僅生成非重疊的寡核苷酸片段。具有復(fù)雜特異性的裂解可能要求多重反應(yīng),可同時(shí)或順序進(jìn)行。第4步,分析裂解反應(yīng)的產(chǎn)物,例如,通過質(zhì)譜法測(cè)定片段的分子量。也可獲得峰值量化信息,但并非必須。這種量化可顯示靶核酸序列中存在多少任意特定序列。第5步,利用核苷酸質(zhì)量和裂解特異性(即進(jìn)行片段身份作圖)分析第3步所獲所有可能片段的分子量和序列。該作圖僅取決于裂解反應(yīng)和所選用的核苷酸,并完全與靶序列無關(guān)。將第4步觀察的質(zhì)量與片段身份作圖進(jìn)行比較,以確定靶核酸中存在何種子序列。圖2所示為利用本發(fā)明方法第1-5步的一個(gè)實(shí)例,采用了多核苷酸切割物16/15[inv(A.A)]、修飾核苷酸和如StantonJr.etal(2003,USPat.No.6610492)所述的裂解反應(yīng)。星號(hào)(*)所示為摻入修飾核苷酸的位置,倒三角形()所示為裂解發(fā)生的位置。第1步所示為采用多核苷酸切割物16/15[inv(A.A)]獲得用于部分靶測(cè)序的靶核酸。第2步,利用修飾核苷酸dATP、5-OH-dCTP、7-脫氮-7-硝基-dGTP、5-OH-dUTP和合適的聚合酶對(duì)該靶核0酸進(jìn)行PCR擴(kuò)增。第3步,利用KMnO4和3-吡咯烷醇(僅裂解正向鏈)裂解PCR產(chǎn)物。第4步,通過例如,質(zhì)譜法分析裂解產(chǎn)物。第5步,將觀察的質(zhì)量與針對(duì)16/15[inv(A.A)]的片段身份作圖進(jìn)行比較,鑒別靶核酸中存在的所有序列片段。圖3所示為采用多核苷酸切割物4/3[B.]和脫氧和核糖核苷酸實(shí)施第1-5步的實(shí)例。星號(hào)(*)所示為摻入核糖核苷酸的位置,倒三角形()所示為裂解發(fā)生的位置。第1步,采用多核苷酸切割物4/3[B.]獲得用于部分測(cè)序的靶核酸。第2步,利用核苷酸dATP、rCTP、rGTP、rTTP和合適的聚合酶生成轉(zhuǎn)錄物。第3步,利用堿性或非特異性RNA酶裂解轉(zhuǎn)錄物。第4步,通過例如質(zhì)譜法分析裂解產(chǎn)物。第5步,將觀察到的質(zhì)量與針對(duì)4/3[B.]的片段身份作圖進(jìn)行比較。圖4所示為可與核苷酸一起應(yīng)用以克服USPat.No.6,566,059所述方法的缺陷的結(jié)構(gòu)。該方法采用rNTPs和5’-氨基-2’,5’-雙脫氧核糖核苷酸(nNTPs),且如上所述,由兩個(gè)相同核苷酸組成的二核苷酸不能被裂解。圖5所示為采用多核苷酸切割物16/9[B.H],StantonJr.etal(2003,USPat.No.6566059)所述的修飾核苷酸以及本文所述的修飾核苷酸實(shí)施第1-5步的實(shí)例。星號(hào)(*)所示為具有2’-OH基團(tuán)的核苷酸的位置,(n)所示為具有5’-NH基團(tuán)的核苷酸的位置,倒三角形()所示為裂解發(fā)生的位置。第1步,采用多核苷酸切割物16/9[B.H]獲得測(cè)序所用的靶DNA。第2步,利用核苷酸nATP、nrCTP、rGTP、nrTTP和合適的聚合酶生成轉(zhuǎn)錄物。第3步,進(jìn)行聚合酶介導(dǎo)的轉(zhuǎn)錄物裂解。第4步,利用質(zhì)譜法分析裂解產(chǎn)物,第5步,再次將觀察到的質(zhì)量與針對(duì)16/9[B.H]的片段身份作圖進(jìn)行比較。圖6所示為可根據(jù)本發(fā)明方法應(yīng)用的二核苷酸三磷酸5’ppp-dNdN(左)和5’PPP-rNrN(右)的結(jié)構(gòu)。附表簡(jiǎn)述表1所示為核苷酸縮寫。表2所示為與類屬核苷酸的變換。表3A所示為與單堿基裂解型多核苷酸切割物對(duì)應(yīng)的統(tǒng)計(jì)值,表3B所示為利用單堿基切割物所獲在每一L值的所有可能片段。表4A所示為與一種多核苷酸切割物變化對(duì)應(yīng)的統(tǒng)計(jì)值,該變化保留了被裂解核苷酸的同聚區(qū),表4B所示為L(zhǎng)=5時(shí)的可能片段。表5A所示為與利用在由兩個(gè)不同堿基構(gòu)成的特定二核苷酸處裂解的方法,即16/1[A.C],所獲裂解產(chǎn)物對(duì)應(yīng)的統(tǒng)計(jì)值,表5B所示為利用該方法所獲與L=5對(duì)應(yīng)的所有可能片段。表6所示為片段身份作圖的類型。表7A所示為與多核苷酸切割物16/15[inv(A.A)]對(duì)應(yīng)的統(tǒng)計(jì)值,表7B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表8A所示為與多核苷酸切割物4/3[B.]或16/12[B.N.]對(duì)應(yīng)的統(tǒng)計(jì)值,表8B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表9A所示為與多核苷酸切割物16/9[C.MV.KT.T]對(duì)應(yīng)的統(tǒng)計(jì)值,表9B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表10A所示為與多核苷酸切割物16/14[inv(A.CC.A)]對(duì)應(yīng)的統(tǒng)計(jì)值,表10B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表11A所示為與多核苷酸切割物16/13[inv(A.CC.GG.A)]對(duì)應(yīng)的統(tǒng)計(jì)值,表11B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表12A所示為與多核苷酸切割物16/12[inv(A.CC.GG.TT.A)]對(duì)應(yīng)的統(tǒng)計(jì)值,表12B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表13A所示為與多核苷酸切割物16/11[inv(A.TK.M)]24對(duì)應(yīng)的統(tǒng)計(jì)值,表13B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表14A所示為與多核苷酸切割物16/13[C.AM.KK.N)]對(duì)應(yīng)的統(tǒng)計(jì)表,表14B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表15A所示為與多核苷酸切割物16/9[B.V]對(duì)應(yīng)的統(tǒng)計(jì)值,表15B所示為利用相同多核苷酸切割物所獲與L=4-8對(duì)應(yīng)的片段。表16A所示為與多核苷酸切割物16/6[C.AG.MT.V)]對(duì)應(yīng)的統(tǒng)計(jì)值,表16B所示為利用相同多核苷酸切割物所獲與L=4-6對(duì)應(yīng)的片段。表17所示為核苷酸結(jié)構(gòu)和分子量。表18所示為被用于實(shí)施多核苷酸切割物家族16/15[inv(α.α)4]的核苷酸。表19A和19B所示為與表18所列家族中各多重切割物對(duì)應(yīng)的嚴(yán)格片段身份作圖。表20所示為被用于實(shí)施多核苷酸切割物家族4/3[inv(α.)]4的核苷酸。表21所示為與家族4/3[α.β.γ.]中各多重切割物對(duì)應(yīng)的片段身份作圖。表22所示為被用于實(shí)施多核苷酸切割物家族16/9[inv(α.ηη.β)]的核苷酸。表23所示為與多核苷酸切割物16/9[B.V]對(duì)應(yīng)的片段身份作圖(nATP、nrCTP、nrGTP、rTTP)。表24A和24B所示為與多核苷酸切割物16/9[B.H]對(duì)應(yīng)的片段身份作圖(nATP、nrCTP、nrGTP、rTTP)。表25所示為利用多核苷酸切割物家族4/3[inv(α.)]4對(duì)分支桿菌16SrDNA的鑒別。發(fā)明詳述本文所提供的是利用諸如質(zhì)譜和凝膠電泳的技術(shù),基于分子量對(duì)核酸測(cè)序和檢測(cè)的方法。我們發(fā)現(xiàn)了無需預(yù)知與模板核酸內(nèi)存在的核酸序列相關(guān)的信息,便可測(cè)定該模板核酸的核酸序列的方法。該方法基于關(guān)于片段質(zhì)量、任意一種核苷酸及其組合的質(zhì)量、核苷酸切割物(酶或化學(xué)切割物)的序列特異性的組合信息,以確定核酸片段的序列。該方法允許從頭檢測(cè)靶核酸的序列,而無需預(yù)知任何序列信息。該方法被稱為通過片段化進(jìn)行的部分測(cè)序(PSBF),即通過將靶核酸片段化為質(zhì)量或長(zhǎng)度與已知序列獨(dú)特相關(guān)的寡或多核苷酸而實(shí)現(xiàn)目的。這些序列的身份僅通過所用的特異性片段化方法便可確定,且總是不依賴于與靶序列。PSBF可通過采用電泳、質(zhì)譜或其它可被用于區(qū)分被切割核酸序列片段的大小的任意方法而得以實(shí)施。本發(fā)明方法在所有要求確定模板核酸的序列信息以進(jìn)行分析的應(yīng)用中均有用。這些應(yīng)用包括突變檢測(cè),篩選諸如腫瘤樣品的生物樣品的核酸變異,鑒別任意生物樣品材料中的病原體和/或病原體株,測(cè)定不同物種、品種或株等之間的序列差異。本發(fā)明方法尤其有用的應(yīng)用包括測(cè)定任意靶模板中的核苷酸重復(fù)序列。這種重復(fù)序列包括采用傳統(tǒng)桑格測(cè)序法或核苷酸陣列測(cè)序法通常難以分辨的單核苷酸重復(fù)序列或二或三核苷酸重復(fù)序列。因此,本發(fā)明方法與其它測(cè)序方法聯(lián)合將尤其適用于分辨低組分復(fù)雜度的核酸區(qū)域。本發(fā)明方法可與其它測(cè)序法聯(lián)合以補(bǔ)充通常無法單獨(dú)在靶序列中確定單核苷酸重復(fù)序列數(shù)量的傳統(tǒng)測(cè)序法,諸如桑格測(cè)序法。本發(fā)明方法還允許掃描大核酸區(qū)域,包括部分甚至整個(gè)染色體,以檢出特定序列。當(dāng)測(cè)定大核酸片段的序列時(shí),優(yōu)選使用常見切割物以限制待分析片段的數(shù)量。例如,可采用單核苷酸切割物消化包括染色體在內(nèi)的模板核酸中的其它所有序列,并僅保留樣品中含有dATPs的核酸片段。例如,將對(duì)片段的質(zhì)量分析與dATP的質(zhì)量信息以及這些序列僅含幾段腺苷酸序列的事實(shí)相結(jié)合,可實(shí)現(xiàn)對(duì)富含腺苷酸的片段的掃描。該方法可被用于鑒別人們所探尋的具有任意類型的序列模式的片段。此外,如果利用質(zhì)譜工具進(jìn)行片段質(zhì)量分析,可根據(jù)峰的表面積估計(jì)具有相同數(shù)量的重復(fù)序列的片段的數(shù)量。這類掃描在例如,基于聚腺苷酸尾部的存在而測(cè)定特定染色體或染色體區(qū)域內(nèi)基因的大致數(shù)量方面有應(yīng)用。相應(yīng)地,在一種實(shí)施方案中,本發(fā)明提供了一種測(cè)序方法,包括獲得單鏈或雙鏈的核酸模板的步驟。該核酸可通過任意已知的標(biāo)準(zhǔn)核酸分離和純化技術(shù)而得以分離和/或純化。此處所用術(shù)語“核酸”指諸如脫氧核糖核酸(DNA)和核糖核酸(RNA)的多核苷酸。該術(shù)語也應(yīng)被理解為包括由核苷酸類似物、單(有義或反義)和雙鏈多核苷酸形成的RNA或DNA的等同物、衍生物、變體和類似物。脫氧核糖核苷酸包括脫氧腺苷、脫氧胞苷、脫氧鳥苷和脫氧胸苷。對(duì)RNA而言,尿嘧啶堿基為尿苷。接著,通過利用合適的聚合酶和根據(jù)序列特異反應(yīng)性和分子量所選擇的核苷酸生成靶模板的轉(zhuǎn)錄物。有用的聚合酶包括DNA聚合酶,即利用DNA模板復(fù)制DNA的酶;逆轉(zhuǎn)錄酶,即利用RNA模板合成DNA的酶;以及可由模板DNA合成RNA的RNA聚合酶,包括真核RNA聚合酶I、II和III,它們均包括兩個(gè)大的亞單位和12-15個(gè)較小的亞單位。RNA聚合酶II天然參與所有蛋白質(zhì)基因和大部分snRNA基因的轉(zhuǎn)錄,因而是本發(fā)明方法優(yōu)選的RNA聚合酶。可選地,可采用天然位于核仁內(nèi),可轉(zhuǎn)錄除5SrRNA以外的rRNA基因的RNA聚合酶I。在本發(fā)明的某些應(yīng)用中,也可采用位于核仁外,可轉(zhuǎn)錄5SrRNA、tRNA、U6snRNA和某些小RNA基因的RNA聚合酶III。DNA聚合酶和逆轉(zhuǎn)錄酶是優(yōu)選的。例如,也可采用諸如T3和T7的聚合酶。本領(lǐng)域技術(shù)人員可從多個(gè)商業(yè)渠道獲得上述所有聚合酶?;谀0搴捅粨饺牒铣傻霓D(zhuǎn)錄物內(nèi)的核苷酸的性質(zhì)選擇聚合酶是熟練技術(shù)人員的常規(guī)訓(xùn)練。本發(fā)明方法中的有用的“核苷酸”包括,但不限于天然存在的單、二和三磷酸核苷脫氧腺苷單、二和三磷酸;脫氧鳥苷單、二和三磷酸;脫氧胸苷單、二和三磷酸;和脫氧胞苷單、二和三磷酸(在本文中分別指dA、dG、dT和dC或A、G、T和C)。諸如nATP、nrCTP、rGTP、nrTTP、二核苷酸三磷酸5’ppp-dNdN和5’ppp-rNrN、rCTP、rTTP5-OH-dCTP、7-脫氮-7-硝基-dGTP、5-OH-dUTP的修飾核苷酸也有用。核苷酸還包括,但不限于修飾核苷酸和諸如脫氮嘌呤核苷酸的核苷酸類似物,例如7-脫氮-脫氧鳥苷(7-脫氮-dG)和7-脫氮-脫氧腺苷(7-脫氮-dA)單、二-和三磷酸、次-脫氧胸苷(次-dT)單、二和三磷酸,甲基化核苷酸,例如5-甲基脫氧胞苷三磷酸,13C/15N標(biāo)記的核苷酸和脫氧肌苷單、二和三磷酸,以及腺苷、胞苷、鳥苷、肌苷和尿苷的5’-氨基-2’,5’-雙脫氧類似物。7-脫氮-7-硝基-dATP、7-脫氮-7-硝基-dGTP、5-羥基-dCTP和5-羥基-dUTP或其它已提高化學(xué)反應(yīng)性但仍能夠形成標(biāo)準(zhǔn)沃森-克里克堿基配對(duì)的修飾核苷酸也是有用的(參見例如Wolfeetal.PNAS9911073-11078)。本領(lǐng)域技術(shù)人員應(yīng)熟知修飾核苷酸和核苷酸類似物是可通過利用官能性和附著位置的多種組合獲得的。用于轉(zhuǎn)錄的引物可為隨機(jī)核苷酸引物或序列特異性引物。對(duì)無需預(yù)知序列的序列信息的方法而言,引物優(yōu)選隨機(jī)引物。本文所用“引物”指適用于雜交、鏈延伸、擴(kuò)增和測(cè)序的寡核苷酸。同樣,探針為用于雜交的引物。該引物指具有足夠低的質(zhì)量的核酸,典型地大約5-200個(gè)核苷酸,通常為大約70個(gè)核苷酸或少于70個(gè)核苷酸,以及大小足以被方便地應(yīng)用在擴(kuò)增方法和本文所提供的檢測(cè)和測(cè)序方法中的核酸。這些引物包括,但不限于用于核酸檢測(cè)和測(cè)序的引物,該引物要求具有充分?jǐn)?shù)量的核苷酸以形成穩(wěn)定的雙鏈體,典型地大約為6-30個(gè)核苷酸,大約10-25個(gè)核苷酸和/或大約12-20個(gè)核苷酸。因此,對(duì)本文所述目的而言,引物為具有任意合適長(zhǎng)度的核苷酸序列,典型地含有大約6-70個(gè)核苷酸,且根據(jù)該引物的序列和應(yīng)用,所含核苷酸數(shù)目的整數(shù)為諸如12-70個(gè)核苷酸,或者例如14-22個(gè)核苷酸。所述轉(zhuǎn)錄物是以序列特異性方式通過酶促或化學(xué)裂解法被裂解的。在一種實(shí)施方案中,可采用光裂解法(Saueretal.,NAR31e63,pp.1-102003)。根據(jù)本發(fā)明方法的有用酶促切割物包括,但不限于本領(lǐng)域技術(shù)人員熟知的被廣泛應(yīng)用的限制酶和RNA酶T1。根據(jù)本發(fā)明方法的有用化學(xué)切割物包括,但不限于高錳酸鉀(KMnO4)、3-吡咯烷醇和四氧化鋨(OsO4)。裂解應(yīng)完全并在一個(gè)反應(yīng)中僅生成非重疊片段。具有復(fù)雜特異性的裂解反應(yīng)可能需要多重反應(yīng)。這種多重反應(yīng)可同時(shí)或順序進(jìn)行。在接下來的步驟中,根據(jù)長(zhǎng)度或質(zhì)量,優(yōu)選地根據(jù)質(zhì)量分析裂解反應(yīng)產(chǎn)物。不過,也可采用長(zhǎng)度分析,尤其是當(dāng)已知所獲片段僅由單核苷酸重復(fù)序列組成時(shí)。接著,結(jié)合利用片段的質(zhì)量/長(zhǎng)度以及核酸切割物的裂解特異性,可計(jì)算裂解生成的所有可能片段的分子量和序列(片段身份作圖)。該作圖僅取決于裂解反應(yīng)和所用的核苷酸,完全與靶序列無關(guān)。最后,將質(zhì)量與片段身份作圖做比較,以確定靶核酸序列中存在的至少一個(gè)子序列。在另一種實(shí)施方案中,本發(fā)明提供了一種獲得重疊片段以完整測(cè)定靶核酸序列的方法。在該實(shí)施方案中,進(jìn)行了若干次平行轉(zhuǎn)錄、消化、片段質(zhì)量分析,獲得了至少2、5、10、15、20、50、100直到至少1000個(gè)不同的片段組,優(yōu)選地覆蓋了全部或大部分的靶序列,并在測(cè)定上述子序列的序列后基于重疊片段編譯靶的序列。該方法優(yōu)選較不頻繁切割的多核苷酸切割物,以獲得相對(duì)較長(zhǎng)的子片段,從而得以鑒定重疊片段。在另一種實(shí)施方案中,本發(fā)明提供了一種掃描大核酸模板以鑒別具有特異性、低復(fù)雜度的核苷酸重復(fù)序列,即一、二、三等核酸重復(fù)序列的方法。在該實(shí)施方案中,核苷酸切割物具有二、三等核苷酸重復(fù)序列特異性。在一種實(shí)施方案中,本發(fā)明提供了一種測(cè)定序列中的核苷酸重復(fù)序列數(shù)量的方法。具有相同序列的片段的數(shù)量可根據(jù)質(zhì)譜峰的表面積測(cè)定。根據(jù)本發(fā)明的通過片段化進(jìn)行的部分測(cè)序(PSBF)是一種利用分組多核苷酸切割物將靶核酸裂解為非重疊片段,并接著提供各片段的完整堿基序列(身份)的方法。與僅提供裂解所生成片段的相對(duì)大小或最多提供片段分子量的其它所有片段化方法形成鮮明對(duì)比。PSBF是從頭測(cè)序法-無需預(yù)知與靶有關(guān)的信息。每個(gè)PSBF反應(yīng)生成已知固定的片段集合,即裂解所獲得的可能片段的總集合。該固定的片段集合各成員的堿基序列和分子量完全并獨(dú)特地取決于PSBF反應(yīng)所采用的特異性多核苷酸切割物,且與靶的序列無關(guān)。由PSBF實(shí)驗(yàn)所獲的數(shù)據(jù)將顯示裂解反應(yīng)期間生成了上述片段集合中的那些成員,以及哪些未被生成。由于已知所有片段的堿基序列,PSBF有效提供了靶內(nèi)存在的一組子序列。片段身份作圖(FIM)是一種在堿基序列和特定質(zhì)量已知的片段之間建立一對(duì)一的對(duì)應(yīng)關(guān)系的方法。通常情況下,僅根據(jù)片段的分子量是不可能確定其堿基序列的(Bocker2003)。在PSBF反應(yīng)條件下,片段的分子量可被用于確定其堿基序列,以及在完整靶內(nèi)該片段的周圍堿基的身份。片段身份作圖是通過應(yīng)用分組多核苷酸切割物與一組具有合適質(zhì)量的核苷酸的組合而得以建立的。通常采用下述條件(I)可通過特定分組多核苷酸切割物裂解生成的每一可能片段應(yīng)具有獨(dú)特的堿基組成。對(duì)由四種不同核苷酸組成的核酸而言,這意味著在任意特定長(zhǎng)度L條件下,可能片段的數(shù)量不超過(L+1)(L+2)(L+3)/6。(II)采用特定的核苷酸組時(shí),每一可能的堿基組成均應(yīng)具有獨(dú)特的分子量。對(duì)符合該標(biāo)準(zhǔn)的核苷酸質(zhì)量的選擇方法的討論詳見例如Cantor&Siddiqi(2003,USPat.No.6660229)。簡(jiǎn)言之,由于在DNA內(nèi),在本文中分別被稱為C、T、A和G的四種天然存在的核苷酸堿基dC、dT、dA和dG各自具有不同的分子量Mc=289.2、MT=304.2、MA=313.2和MG=329.2,其中Mc、MT、MA和MG分別為核苷酸堿基脫氧胞苷、胸苷、脫氧腺苷和脫氧鳥苷的平均道爾頓分子量,讀出單質(zhì)譜中的完整序列是可能的。StantonJr.etal.(2003,USPatNo.6610492)描述了對(duì)不同堿基組成的寡核苷酸賦以獨(dú)特質(zhì)量的可選方法。所有片段身份作圖均完全取決于對(duì)多核苷酸切割物和核苷酸的選擇,且完全與靶序列無關(guān)。現(xiàn)有三種類型的片段身份作圖嚴(yán)格、不嚴(yán)格和受限的。對(duì)嚴(yán)格作圖而言,條件(I)對(duì)所有長(zhǎng)度的所有片段均成立,條件(II)對(duì)直到無窮大的所有質(zhì)量成立。對(duì)不嚴(yán)格作圖而言,條件(I)僅在某些預(yù)定片段長(zhǎng)度條件下成立,而條件(II)則對(duì)直到無窮大的所有質(zhì)量均成立。對(duì)受限作圖而言,條件(I)對(duì)所有長(zhǎng)度的所有片段均成立,但條件(II)僅在某一預(yù)定質(zhì)量范圍內(nèi)成立。總結(jié)參見表6。通常,嚴(yán)格作圖檢測(cè)靶內(nèi)的同聚子序列,不嚴(yán)格作圖檢測(cè)靶內(nèi)的串聯(lián)重復(fù)序列,受限作圖檢測(cè)單調(diào)(monotonic)子序列。為確定特定多核苷酸切割物是否符合條件(I)并可被用于建立片段身份作圖,采用了下述算法在L>1的每一個(gè)片段長(zhǎng)度條件下第1步建立長(zhǎng)度為L(zhǎng)的所有4L個(gè)可能片段的組SL;第2步除去SL中所有被候選多核苷酸切割物裂解至少一次的片段;第3步除去SL中所有不具有相符的5’和3’末端的片段;第4步確定SL內(nèi)剩余片段表示的不同堿基組成的數(shù)量;第5步如果SL內(nèi)的片段數(shù)量等于第4步計(jì)算的堿基組成的數(shù)量,則該多核苷酸切割物符合條件(I),并可能被用于建立長(zhǎng)度為L(zhǎng)的片段的片段身份作圖。通常,對(duì)在實(shí)驗(yàn)中有用的多核苷酸切割物而言,其必須符合條件(I),且一個(gè)或多個(gè)片段長(zhǎng)度L>3。如果候選多核苷酸切割物符合條件(I),則采用下述算法以確定其是否符合條件(II)并可利用特定核苷酸組形成片段身份作圖。第1步建立S總,即之前計(jì)算的所有SL的組;第2步利用特定核苷酸的質(zhì)量計(jì)算S總中各片段的分子量;第3步確定S總中哪些片段具有獨(dú)特分子量。為便于討論,如果S總中沒有其它片段與某一片段的質(zhì)量差值小于1道爾頓,則該片段具有獨(dú)特分子量;第4步如果L>3時(shí)有至少一個(gè)片段具有獨(dú)特分子量,則多核苷酸切割物和核苷酸的特定組合可建立片段身份作圖。目前,可用于在短序列,諸如三或二核苷酸水平特異性裂解核酸的實(shí)驗(yàn)方法很少(Wolfeetal.2003)。而本發(fā)明方法可被應(yīng)用于任意現(xiàn)有或新的序列特異性切割物。本文中,符號(hào)MA、MC、MG和MT分別表示核苷酸A、C、G和T的分子量。符號(hào)Mα、Mβ、Mγ和Mδ分別表示核苷酸α、β、γ和δ的分子量。符號(hào)Mfrag表示寡核苷酸片段的總分子量,而符號(hào)Mterm表示位于片段3’和5’末端的任意化學(xué)基團(tuán),諸如-OH和磷酸基的組合分子量。被用于表示片段中特定堿基數(shù)量的所有下標(biāo)變量(i、k、v、w、x、z)可僅假定為正整數(shù)值。嚴(yán)格片段身份作圖簡(jiǎn)單同聚子序列最簡(jiǎn)單的PSBF反應(yīng)利用了屬于16/15[inv(α.α)]4家族的一部分的多核苷酸切割物16/15[inv(A.A)](也被記為16/15[A.BB.N])。該多核苷酸切割物僅有效提取靶的同聚區(qū),生成的平均片段長(zhǎng)度為1.067個(gè)堿基。統(tǒng)計(jì)值如表7a所示。該裂解破壞了約99%的靶,并可在L>1的每一長(zhǎng)度L條件下準(zhǔn)確生成一個(gè)具有5’-(A)L-3’形式的片段。該多核苷酸切割物預(yù)期可每千堿基靶僅生成2.94個(gè)可檢測(cè)片段,片段間的間距為336個(gè)堿基。與L=4-8對(duì)應(yīng)的片段如表7b所示。通過檢查,可清楚無論核苷酸A(或α)的質(zhì)量為多少,各可能片段A2、A3、A4.....AL均具有獨(dú)特的分子量,由Mterm+L(MA)表示。應(yīng)當(dāng)注意,任意特定片段AL實(shí)際上表示在靶內(nèi)某處發(fā)現(xiàn)的一個(gè)序列5’-B(A)LB-3’。因此,片段AAA不是片段AAAA的一部分或等同于AAAA,因?yàn)檫@些片段來源于靶內(nèi)的序列BAAAB和BAAAAB。質(zhì)譜法已被調(diào)整并用于測(cè)序和檢測(cè)核酸分子(參見例如U.S.Pat.Nos.6,194,144;6,225,450;5,691,141;5,547,835;6,238,871;5,605,798;6,043,031;6,197,498;6,235,478;6,221,601;6,221,605)。具體而言,業(yè)已采用可實(shí)現(xiàn)大分子,即質(zhì)量遠(yuǎn)超過300kDa的大分子的完整離子化、檢測(cè)并確定其準(zhǔn)確質(zhì)量的基質(zhì)輔助激光解吸/電離(MALDI)和電噴射離子化(ESI),以測(cè)定核酸分子的序列。在對(duì)高分子量分子的質(zhì)譜分析中,進(jìn)一步的改進(jìn)是具有基質(zhì)輔助激光解吸電離(MALDI)功能的飛行時(shí)間質(zhì)譜(TOF-MS)的發(fā)展。該方法包括將樣品置入含有特定分子的基質(zhì)內(nèi),該分子可通過以解吸樣品的頻率吸收能量,從而輔助解吸過程。飛行時(shí)間分析利用了可作為準(zhǔn)確的分子質(zhì)量指示劑的不同離子種類的行進(jìn)時(shí)間或飛行時(shí)間。本文所述的質(zhì)譜法包括本領(lǐng)域技術(shù)人員已知的任意一種合適的質(zhì)譜形式。這些形式包括,但不限于基質(zhì)輔助激光解吸/電離、飛行時(shí)間(MALDI-TOF)、電霧化(ES)、IR-MALDI(參見,例如已公開的國(guó)際PCT申請(qǐng)No.99/57318和U.S.Pat.No.5,118,937)、離子回旋共振(ICR)、傅里葉變換及這些形式的組合。MALDI、特定UV和IR在優(yōu)選形式當(dāng)中。對(duì)MALDI-TOF質(zhì)譜法的進(jìn)一步詳述參見Jurinkeetal.,MolecularBiotechnology,Vol.26,pp.147-163,2004。本文所述質(zhì)譜指通過質(zhì)譜法分析生物聚合物或其片段而獲得的繪圖或數(shù)字編碼形式的數(shù)據(jù)表現(xiàn)。本文所述與質(zhì)譜或質(zhì)譜分析有關(guān)的模式指信號(hào)的特征分布和數(shù)量(諸如其峰或數(shù)字表示)。本文所述質(zhì)譜及其分析情況中的信號(hào)指輸出數(shù)據(jù),即具有特定質(zhì)量的分子的數(shù)目或相對(duì)數(shù)目。信號(hào)包括“峰”及其數(shù)字表示。本文所述“生物樣品”指獲得自或衍生自生物材料,諸如,但不限于諸如血液、尿、腦脊髓液和滑液的體液,組織和器官、植物、食品、土壤中所含的有機(jī)材料等等?!把苌浴敝笜悠房杀患庸?,諸如通過純化或分離和/或擴(kuò)增核酸分子而獲得的樣品。命名和大體框架所述實(shí)例描述了利用片段化方法對(duì)單或二核苷酸具有特異性的PSBF,不過,PSBF反應(yīng)也對(duì)靶內(nèi)較長(zhǎng)子序列具有特異性。這些裂解通??蓭椭绢I(lǐng)域技術(shù)人員根據(jù)本說明書提供的非限制性實(shí)例并利用所述原理實(shí)現(xiàn)本發(fā)明方法。單核苷酸裂解最簡(jiǎn)單的可能裂解是于單堿基水平進(jìn)行切割的裂解,諸如切割靶內(nèi)每一個(gè)A的5’。我們用特定時(shí)間段表示該裂解[.A],該時(shí)間段顯示的是發(fā)生在特定堿基5’的裂解。在該表示法中,符號(hào)[A.]表示靶內(nèi)每一個(gè)A3’的裂解。完全除去或破壞堿基(例如尿嘧啶DNA糖基化酶)的反應(yīng)被表示為[.U.],并被認(rèn)為等同于在特定核苷酸的3’和5’兩者的裂解?;旌狭呀?,諸如同時(shí)在每一個(gè)A和每一個(gè)G3’切割,可被表示為4/2[A.G.]或4/2[R],該表示法采用了核苷酸簡(jiǎn)并的標(biāo)準(zhǔn)代碼,如表1所示。通常,我們將混合裂解稱為分組多核苷酸切割物(GMCs或簡(jiǎn)稱為“多核苷酸切割物”)。符號(hào)中的下標(biāo)分?jǐn)?shù)的分子指可能的單核苷酸總數(shù),分母指組復(fù)雜度,即包括該多核苷酸切割物的各個(gè)裂解的數(shù)目。該分?jǐn)?shù)也指出了裂解隨機(jī)序列的平均片段長(zhǎng)度,即對(duì)[R.]而言4/2=2.00個(gè)堿基。在該表示法中,上述裂解[A.]被認(rèn)為是復(fù)雜度為1的分類多核苷酸切割物,可被記為4/1[A.],盡管其并非混合裂解。有時(shí)候,以未被裂解的核苷酸與被裂解核苷酸的比表示多核苷酸切割物更容易些。表示法4/3[inv(.T)]表示裂解發(fā)生在除T以外的每一個(gè)核苷酸的5’。這等同于4/3[.A.C.G]或4/3[.V]。應(yīng)當(dāng)注意的是該前綴分?jǐn)?shù)的分母必須總等于包括所述多核苷酸切割物在內(nèi)的特異性裂解的數(shù)目。多核苷酸裂解二核苷酸裂解,諸如在每一個(gè)AC的A的3’切割,被表示為16/1[A.C],“16”為可能的二核苷酸的總數(shù)。對(duì)普通核酸而言,該前綴分?jǐn)?shù)的分子為4L,其中L為被裂解序列的長(zhǎng)度。因此,從在三核苷酸TTA5’的切割被記為64/1[.TTA]。將特定長(zhǎng)度的特異性裂解表示為較長(zhǎng)長(zhǎng)度的多核苷酸切割物總是可能的。例如,4/1[G.]等同于16/4[G.N]、64/16[NG.N]和64/16[G.NN]。多核苷酸切割物可能由對(duì)靶內(nèi)不同長(zhǎng)度的序列具有特異性的裂解反應(yīng)構(gòu)成。在這些情況中,較短長(zhǎng)度的裂解被記為在組內(nèi)最長(zhǎng)裂解長(zhǎng)度進(jìn)行的混合裂解。例如,于[.A]和[T.G]處裂解的分組多核苷酸切割物被記為16/5[N.AT.G]。當(dāng)采用上述前綴分?jǐn)?shù)表示法時(shí),在識(shí)別序列內(nèi)切割多次的任意裂解應(yīng)被表達(dá)為較長(zhǎng)長(zhǎng)度的多核苷酸切割物,即在識(shí)別序列內(nèi)的相同位置切割一次。例如,[.A.]被記為16/7[A.NN.A]。指出未被裂解的多核苷酸序列的表示法遵循針對(duì)上述單核苷酸描述的相同模式。例如,在除CT和AG以外的所有二核苷酸3’的裂解被記為16/14[inv(CT.AG.)],并等同于16/14[AH.CV.KN.]。應(yīng)當(dāng)注意的是,在該表示法中,16/14[inv(A.GG.A)]不等同于16/12[inv(R.R)]。后者等同于16/12[inv(A.AA.GG.AG.G)]。采用特定多核苷酸切割物裂解生成的片段應(yīng)在其5’和3’末端具有“符合”該多核苷酸切割物的序列特異性的堿基。例如,多核苷酸切割物[A.G]生成了具有5’末端G和3’末端A的片段。由多核苷酸切割物[inv(A.)]生成的片段將具有5’末端A和3’末端B。具有較長(zhǎng)序列特異性的多核苷酸切割物也遵循該模式。例如,[GT.A.C.V]生成了在5’末端具有V和在3’末端具有二核苷酸序列GT的片段。在本說明書中,術(shù)語“片段”指采用多核苷酸切割物裂解生成的具有3’和5’相符末端的寡核苷酸。廣義核苷酸變換根據(jù)下式計(jì)算不同分組多核苷酸切割物的總數(shù),即與任意裂解序列長(zhǎng)度L對(duì)應(yīng)的TGMCTGMC=2(4L)-1對(duì)單核苷酸而言,有15種多核苷酸切割物,對(duì)二核苷酸而言,有65535種多核苷酸切割物,對(duì)三核苷酸而言則有約1.84×1019種多核苷酸切割物。討論每一種可能的二核苷酸或三核苷酸多核苷酸切割物是不現(xiàn)實(shí)的,因此我們采用了裂解家族等同物(“cf-等同物”)這個(gè)概念。例如,考慮16/1[A.A]。該多核苷酸切割物所屬家族包括其它“重復(fù)”二核苷酸裂解16/1[C.C]、16/1[G.G]和16/1[T.T]。同樣,16/1[A.C]是另一個(gè)家族的成員,該家族包括十一種由兩個(gè)不同堿基構(gòu)成的其它二核苷酸。特定多核苷酸切割物家族的成員在裂解隨機(jī)序列方面具有相同的統(tǒng)計(jì)學(xué)特性,盡管它們的堿基特異性不同。本討論的其余部分將主要集中于二核苷酸多核苷酸切割物,但上述概括對(duì)所有長(zhǎng)度的多核苷酸切割物均有效。我們?nèi)缦滦问交痗f-等同物的概念符號(hào)αβγδ被用于指示包括四種不同核苷酸的類屬核苷酸組。對(duì)所用核苷酸少于四種的情況而言,α總是第一種核苷酸,β總是第二種核苷酸,γ總是第三種核苷酸。因此,在分離考慮的序列AGGAG、TCCTC和ATTAT,可被記為αββαβ,因?yàn)樗鼈兙鶅H由兩種核苷酸構(gòu)成。在本說明書中,我們固有假定總有四種核苷酸具有下列排列α=A、β=C、γ=G和δ=T。對(duì)一個(gè)含有四種類屬核苷酸的組而言,另外二十三種可能的排列如表2所示??紤]多核苷酸切割物16/4[A.CC.AG.TT.G]。為找到它的cf-等同物,我們首先以類屬核苷酸的形式表示該多核苷酸切割物,可獲得16/4[α.ββ.αγ.δδ.γ]接著替代24種變換的每一個(gè)的特定符號(hào),并放棄重復(fù)符號(hào)??色@得該多核苷酸切割物家族的另兩個(gè)成員16/4[A.GC.TG.AT.C]和16/4[A.TC.GG.CT.A]。該方法被用于尋找所有類屬多核苷酸切割物家族的成員。某些裂解家族,諸如16/4[α.αβ.βγ.γδ.δ]僅具有一個(gè)成員16/4[A.AC.CG.GT.T]。其它家族,諸如類屬多核苷酸切割物16/2[α.ββ.γ]最多可能包括二十四個(gè)成員。我們采用符號(hào)16/2[α.ββ.γ]24指出指定家族內(nèi)不同多核苷酸切割物的數(shù)目。當(dāng)被分組到cf-等同物中時(shí),65535種可能的二核苷酸多核苷酸切割物僅代表3043個(gè)家族,包括無關(guān)緊要的多核苷酸切割物16/16[N.N]1(或4/4[N.]1)。對(duì)本說明書的其它部分而言,利用特定核苷酸ACGT書寫的所有序列或裂解也可被認(rèn)為是利用αβγδ的類屬表示法。這也適用于利用核苷酸簡(jiǎn)并的標(biāo)準(zhǔn)縮寫書寫的序列或裂解。我們采用符號(hào)η表示四種類屬核苷酸αβγδ中的任意一種(與表示普通核苷酸的N類似)。因此,16/2[A.CC.A]表示多核苷酸切割物家族16/2[α.ββ.α]6中的所有成員,16/4[A.MT.K]表示多核苷酸切割物家族16/4[α.αα.βδ.γδ.δ]12中的所有成員。該表示法與16/4[A.MT.K]12可互換,二者被認(rèn)為等同。早先非重疊片段化方法的分析為證明為何早先描述的片段化技術(shù)無法從頭測(cè)序,我們分析了這些方法的三種不同裂解家族代表的特性。數(shù)據(jù)是通過模擬由隨機(jī)序列的大約108個(gè)堿基構(gòu)成的單靶序列的裂解獲得的。針對(duì)每一個(gè)多核苷酸切割物家族,我們計(jì)算了下列統(tǒng)計(jì)值(i)核苷酸中的片段長(zhǎng)度L。通常我們僅顯示了含有24個(gè)核苷酸或更小的片段的數(shù)據(jù),因?yàn)檫@些片段是最適合MALDI-TOF質(zhì)譜法的片段。(ii)每一長(zhǎng)度L條件下可能的不同片段的總數(shù)目。根據(jù)定義,當(dāng)且僅當(dāng)兩個(gè)片段具有不同堿基序列時(shí),這兩個(gè)片段不同。該值反映了長(zhǎng)度為L(zhǎng)的片段的混合物的復(fù)雜度。(iii)由每一長(zhǎng)度L條件下的可能片段表示的不同堿基組成的總數(shù)。根據(jù)定義,具有相同堿基組成的兩個(gè)不同片段一定具有相同的分子量。具有不同堿基組成的兩個(gè)片段也可能具有相同的分子量,這取決于存在的特定核苷酸的質(zhì)量。堿基組成的數(shù)目表示了長(zhǎng)度為L(zhǎng)的片段可具有的不同質(zhì)量的數(shù)目上限。(iv)每一長(zhǎng)度L條件下的平均片段數(shù),應(yīng)以每千堿基靶的形式出現(xiàn),其中靶由隨機(jī)序列構(gòu)成。該統(tǒng)計(jì)值提供了一個(gè)量度,即隨著靶序列的長(zhǎng)度增加,由任意特定長(zhǎng)度的片段可獲得多少有用的信息。我們采用術(shù)語“可檢測(cè)片段”以指示長(zhǎng)度超過三個(gè)核苷酸的預(yù)期片段的平均總數(shù)。(v)長(zhǎng)度為L(zhǎng)或更長(zhǎng)的片段之間沿著完整靶序列的平均距離,以堿基為單位。該統(tǒng)計(jì)值提供了一個(gè)量度,即比任意指定長(zhǎng)度長(zhǎng)的片段沿靶序列的分布有多分散。我們采用術(shù)語“片段間間距”以指示比三個(gè)核苷酸長(zhǎng)的片段之間的平均間距。(vi)被長(zhǎng)度為L(zhǎng)的片段覆蓋的靶堿基所占的百分比比例。(vii)被長(zhǎng)度為L(zhǎng)或更長(zhǎng)的片段覆蓋的靶堿基所占的累加百分比比例。該量度指出的是靶有多大比例的部分被長(zhǎng)度超過任意指定長(zhǎng)度的片段所取樣。(viii)長(zhǎng)度為L(zhǎng)的片段總數(shù)所占的百分比比例。單堿基裂解我們檢驗(yàn)的第一個(gè)多核苷酸切割物家族,即4/1[A.]或16/4[A.N],被認(rèn)為是單堿基裂解(Zabeauetal.2000;Shchepinovetal.2001;Rodietal.2002),生成的平均片段長(zhǎng)度為4.00個(gè)堿基。該家族的cf-等同物代表為4/1[α.]4或16/4[α.η]4。與該多核苷酸切割物對(duì)應(yīng)的統(tǒng)計(jì)值如表3a所示。MALDI核酸分析法可利用的質(zhì)量范圍約為1100Da-10kDa,在長(zhǎng)度上與含有4-30個(gè)堿基的片段對(duì)應(yīng)(Stanssensetal.2004)。因此該裂解家族在生成單、二和三核苷酸過程中破壞了約26%的靶。對(duì)具有隨機(jī)堿基序列的靶而言,我們預(yù)期將每千堿基生成大約105個(gè)可檢測(cè)片段,片段間間距為2.48個(gè)堿基。單堿基裂解可在每一長(zhǎng)度L條件下生成3(L-1)個(gè)可能片段,但僅具有L(L+1)/2個(gè)可能的組成(和可能的片段質(zhì)量)。這是該類型的裂解不能被用于從頭測(cè)序的原因----因?yàn)橛刑嗟木哂邢嗤肿恿康牟煌???缮傻拈L(zhǎng)度為L(zhǎng)的可能片段被表示為5’-(B)(L-1)A-3’。下表3b顯示了在L=5條件下生成的所有可能片段。大寫字母書寫的堿基表示實(shí)際片段,小寫字母書寫的堿基表示該片段在完整靶序列中的前后序列(相鄰堿基),句點(diǎn)指出的是裂解發(fā)生的位置。所有序列均以5’到3’的方向書寫。單堿基裂解的基本局限是其完全破壞了靶內(nèi)出現(xiàn)被裂解核苷酸率高的區(qū)域,諸如同聚和低復(fù)雜度區(qū)域。所生成的近乎58%的片段根本未提供序列信息,且總共25%的片段為單核苷酸。在用于檢測(cè)單核苷酸重復(fù)序列的方法中,優(yōu)選采用單核苷酸切割物。例如,單核苷酸切割物適用于掃描大模板,諸如完整或部分染色體,以鑒別目標(biāo)區(qū)域的方法。這種目標(biāo)區(qū)域包括,但不限于例如,聚腺苷酸區(qū)域。鑒別這些區(qū)域有助于通過鑒別聚腺苷酸尾部估計(jì)染色體或其部分內(nèi)的基因數(shù)量。對(duì)由多個(gè)連續(xù)A-核苷酸構(gòu)成的片段的數(shù)量分析可通過,例如計(jì)算質(zhì)譜峰的表面積并與由一個(gè)這樣的聚腺苷酸重復(fù)序列所形成質(zhì)譜峰的大小進(jìn)行比較而得以實(shí)現(xiàn)。當(dāng)然,腺苷酸在不同聚腺苷酸尾部的數(shù)量是變化的,且基因總數(shù)是根據(jù)所有不同聚腺苷酸片段在質(zhì)譜中的峰大小而確定的數(shù)量的總和。不嚴(yán)格的二核苷酸裂解Zabeauetal.(2000)描述了單堿基裂解的一種變化,即保留被裂解核苷酸的同聚區(qū)域。該多核苷酸切割物為16/3[A.B],是16/3[α.βα.γα.δ]4家族的一部分。其生成的片段的平均長(zhǎng)度為5.33個(gè)堿基。統(tǒng)計(jì)值如表4a所示。該多核苷酸切割物不能生成單核苷酸---在任意長(zhǎng)度L條件下的可能片段的數(shù)量約為單堿基裂解所生成任意長(zhǎng)度L的可能片段數(shù)量的1.5倍??赡艿慕M成數(shù)量為(L(L+1)(L+2)/6-1)。這在其它方面非常類似單堿基裂解??稍陂L(zhǎng)度L>1條件下生成的可能片段為5’-(B)i(A)k-3’,其中(i+k)=L,0<i<L,且0<k<L。該多核苷酸切割物預(yù)期可每千堿基靶生成117個(gè)可檢測(cè)片段,片段間間距為1.50個(gè)堿基。平均片段長(zhǎng)度和總靶覆蓋范圍的微小增加導(dǎo)致任意指定L條件下片段復(fù)雜度的大幅提高。L=5時(shí)的所有可能片段如下表4b所示。二核苷酸裂解StantonJr.etal.(2003,USPat.No.6566059)描述了一種在由兩種不同堿基構(gòu)成的特定二核苷酸處裂解的方法,16/1[A.C]。該裂解生成的平均片段長(zhǎng)度為16.00個(gè)堿基,屬于16/3[α.β]12家族的一部分。統(tǒng)計(jì)值參見表5a。就長(zhǎng)于3個(gè)堿基的片段的靶覆蓋程度而言,二核苷酸裂解遠(yuǎn)比單堿基裂解優(yōu)越。該裂解僅破壞了大約2%的靶,且僅有12.5%的生成片段為二或三核苷酸。可能片段的數(shù)量大致與(3.73)L成比例,而可能的組成的數(shù)目為L(zhǎng)(L2-1)/6。該多核苷酸切割物預(yù)期可每千堿基靶生成54.7個(gè)可檢測(cè)片段,片段間間距僅為0.36個(gè)堿基。該裂解所生成的任意特定長(zhǎng)度L的片段是5’-C(N)(L-2)A-3’的子集。L=5時(shí)的所有可能片段如表5b所示。二核苷酸裂解的一個(gè)有趣特性是,對(duì)短于七個(gè)堿基的片段而言,所生成的可能片段少于單堿基裂解所生成的可能片段。這是因?yàn)閷?duì)該裂解而言,所有片段的5’和3’末端堿基均是確定的。單標(biāo)記的同聚子序列相關(guān)的多核苷酸切割物4/3[B.]或16/12[B.N](也記為4/3[inv(A.)])從靶中提取出單標(biāo)記的同聚子序列(同聚區(qū)外加一個(gè)附加堿基)。該多核苷酸切割物屬于4/3[inv(α.)]4家族的一部分,所產(chǎn)生的平均片段長(zhǎng)度為1.333個(gè)堿基。統(tǒng)計(jì)值如表8a所示。該多核苷酸切割物破壞了約95%的靶,并可在L>1的每一長(zhǎng)度L條件下準(zhǔn)確生成三個(gè)形式為5’-(A)(L-1)B-3’的片段。該裂解預(yù)期可每千堿基靶生成11.7個(gè)可檢測(cè)片段,片段間間距為81個(gè)堿基。與L=4-8對(duì)應(yīng)的片段如表8b所示。每一長(zhǎng)度L條件下的可能片段的分子量可根據(jù)Mterm+(L-1)(MA)+Mlast計(jì)算,其中Mlast等于片段3’末端堿基(MC、MG或MT)的質(zhì)量。對(duì)該多核苷酸切割物而言,為獲得片段身份作圖,每一可能片段必須具有獨(dú)特分子量。只要核苷酸C、G和T(或β、γ或δ)的質(zhì)量不同,該條件是成立的。從形式上表述,MC≠M(fèi)G、MC≠M(fèi)T并且MG≠M(fèi)T(或者M(jìn)β≠M(fèi)γ、Mβ≠M(fèi)δ并且Mγ≠M(fèi)δ)。應(yīng)當(dāng)注意的是,末端核苷酸C、G或T中的任意一個(gè)可具有與A相同的分子量,且該片段身份作圖將仍然有效。多重標(biāo)記的同聚子序列利用了可一次性將靶裂解為二核苷酸序列的多核苷酸切割物的嚴(yán)格片段身份作圖可在L>2的每一長(zhǎng)度條件下生成最多8個(gè)不同的片段。通常,這些多核苷酸切割物從靶內(nèi)提取出了多重標(biāo)記的同聚子序列(同聚區(qū)外加最多三個(gè)附加的周圍堿基)。這個(gè)類型的多核苷酸切割物的一個(gè)實(shí)例是16/9[C.MV.KT.T],屬于16/9[α.γβ.ηγ.γη.δ]24家族的一部分,可生成的平均片段長(zhǎng)度為1.78個(gè)堿基。統(tǒng)計(jì)值參見表9a。該多核苷酸切割物破壞了約90%的靶,并可在L>2的每一長(zhǎng)度條件下準(zhǔn)確生成8個(gè)片段,為5’-DR(A)(L-3)M-3’的子集。該裂解預(yù)期將每千堿基靶生成23.5個(gè)可檢測(cè)片段,片段間間距為38.3個(gè)堿基。與L=4-8對(duì)應(yīng)的片段如表9b所示。如果核苷酸A、C、G和T的質(zhì)量均彼此不同,該多核苷酸切割物可生成片段身份作圖。不嚴(yán)格的片段身份作圖二核苷酸重復(fù)序列不嚴(yán)格的片段身份作圖的一個(gè)實(shí)例可參考利用16/14[inv(α.ββ.α)]6家族的一個(gè)成員,即多核苷酸切割物16/14[inv(A.CC.A)](也被記為16/14[A.DC.BK.N)])進(jìn)行的PSBF反應(yīng)。該多核苷酸切割物將二核苷酸重復(fù)序列從靶中提取出來,所生成的平均片段長(zhǎng)度為1.143個(gè)堿基。統(tǒng)計(jì)值如表10a所示。該裂解破壞約97%的靶,并可在L>1的每一長(zhǎng)度條件下準(zhǔn)確生成2個(gè)片段。L為偶數(shù)時(shí),所生成片段的形式為5’-(AC)(L/2)-3’和5’-(CA)(L/2)-3’,L為奇數(shù)時(shí),則為5’-C(AC)((L-1)/2)-3’和5’-A(CA)((L-1)/2)-3’。該多核苷酸切割物預(yù)期可每千堿基靶生成5.85個(gè)可檢測(cè)片段,片段間間距為166個(gè)堿基。與L=4-8對(duì)應(yīng)的片段如表10b所示。該多核苷酸切割物從靶內(nèi)提取出了二核苷酸AC(或αβ)的重復(fù)序列的兩個(gè)可讀框。各長(zhǎng)度L條件下的片段的質(zhì)量根據(jù)下式計(jì)算L為偶數(shù)時(shí),Mfrag=Mterm+(L/2)(MA+MC),L為奇數(shù)時(shí),Mfrag=Mterm+((L-1)/2)(MA+MC)+Modd,其中Modd等于MA或MC。如果核苷酸A和C(α和β)具有不同質(zhì)量(MA≠M(fèi)C或Mα≠M(fèi)β),該多核苷酸切割物可在所有奇數(shù)片段長(zhǎng)度L條件下建立片段身份作圖。三核苷酸重復(fù)序列可從靶內(nèi)提取出三核苷酸重復(fù)序列的多核苷酸切割物的一個(gè)實(shí)例為16/13[inv(A.CC.GG.A)](也記作16/13[A.DC.HG.BT.N]),是16/13[inv(α.ββ.γγ.α)]8家族的成員。該多核苷酸切割物生成的平均片段長(zhǎng)度為1.231個(gè)堿基。統(tǒng)計(jì)值如表11a所示。該裂解破壞了約96%的靶,并在L>1的每一長(zhǎng)度條件下準(zhǔn)確生成3個(gè)片段。該多核苷酸切割物預(yù)期可每千堿基生成8.78個(gè)可檢測(cè)片段,片段間間距為109.6個(gè)堿基。與L=4-8對(duì)應(yīng)的片段如表11b所示。該多核苷酸切割物從靶內(nèi)提取出三核苷酸ACG(或αβγ)的重復(fù)序列的全部三個(gè)可讀框。各長(zhǎng)度L條件下的片段質(zhì)量根據(jù)下式計(jì)算對(duì)于L=3、6、9、12...,Mfrag=Mterm+(L/3)(MACG),對(duì)于L=4、7、10、13...,Mfrag=Mterm+((L-1)/3)(MACG)+Mx,對(duì)于L=5、8、11、14...,Mfrag=Mterm+((L+1)/3)(MACG)-Mx,其中MACG=(MA+MC+MG),MX等于MA、MC或MG之一如果核苷酸A、C和G(α、β和γ)的質(zhì)量均不相同(MA≠M(fèi)C、MC≠M(fèi)G且MG≠M(fèi)A),該多核苷酸切割物可在片段長(zhǎng)度L=4、5、7、8、10、11...條件下建立片段身份作圖。四核苷酸重復(fù)序列可由靶內(nèi)提取四核苷酸重復(fù)序列的多核苷酸切割物的一個(gè)實(shí)例是16/12[inv(α.ββ.γγ.δδ.α)]6家族的一個(gè)成員,即16/12[inv(A.CC.GG.TT.A)](也被記作16/12[A.DC.HG.VT.B)])。該多核苷酸切割物生成的平均片段長(zhǎng)度為1.333個(gè)堿基。統(tǒng)計(jì)值如表12a所示。該裂解破壞了約95%的靶,并可在每一長(zhǎng)度L條件下準(zhǔn)確生成4個(gè)片段。該多核苷酸切割物預(yù)期可每千堿基生成11.7個(gè)可檢測(cè)片段,片段間間距為81個(gè)堿基。與L=4-8對(duì)應(yīng)的片段如表12b所示。該多核苷酸切割物從靶內(nèi)提取出了四核苷酸ACGT(或αβγδ)的重復(fù)序列的全部四個(gè)可讀框。L>3的每一長(zhǎng)度條件下的片段的質(zhì)量根據(jù)下式計(jì)算對(duì)于L=4、8、12、16...,Mfrag=Mterm+(L/4)(MACGT),對(duì)于L=5、9、13、17...,Mfrag=Mterm+((L-1)/4)(MACGT)+MX,對(duì)于L=6、10、14、18...,Mfrag=Mterm+((L-2)/4)(MACGT)+MZ,對(duì)于L=7、11、15、19...,Mfrag=Mterm+((L+1)/4)(MACGT)-MX其中MACGT=(MA+MC+MG+MT),MX等于MA、MC、MG或MT之一,MZ等于(MA+MC)、(MC+MG)、(MG+MT)或(MT+MA)之一。如果核苷酸A、C、G和T的質(zhì)量均不相同,該多核苷酸切割物可在片段長(zhǎng)度L=5、6、7、9、10、11、13、14、15...時(shí)建立片段身份作圖。標(biāo)記的二核苷酸重復(fù)序列迄今,上述所有不嚴(yán)格片段身份作圖均可在L>2的每一長(zhǎng)度條件下生成恒定數(shù)量的可能片段,但可能的組成的數(shù)目是變化的??稍诿恳婚L(zhǎng)度L條件下生成不同數(shù)量的片段但組成數(shù)目恒定的多核苷酸切割物的一個(gè)實(shí)例是16/11[inv(A.TK.M)]24(也記作16/11[M.VB.K]24)。該多核苷酸切割物從靶內(nèi)提取出標(biāo)記的二核苷酸重復(fù)序列(該重復(fù)序列區(qū)域外加2個(gè)周圍堿基),生成的平均片段長(zhǎng)度為1.455個(gè)堿基。統(tǒng)計(jì)值如表13a所示。該裂解破壞了約93%的靶,并在L為奇數(shù)條件下準(zhǔn)確生成4個(gè)片段,L為偶數(shù)條件下準(zhǔn)確生成5個(gè)片段。該多核苷酸切割物預(yù)期可每千堿基靶生成15.6個(gè)可檢測(cè)片段,片段間間距為59.8個(gè)堿基。與L=4-8對(duì)應(yīng)的片段如表13b所示。該多核苷酸切割物從靶內(nèi)提取出二核苷酸AT(或αδ)的重復(fù)序列的兩個(gè)可讀框,以及1或2個(gè)附加核苷酸C或G(β或γ)。在L>3的每一長(zhǎng)度條件下,片段的質(zhì)量根據(jù)下式計(jì)算L為奇數(shù)時(shí),Mfrag=Mterm+((L-1/2)(MAT)+MX,和L為偶數(shù)時(shí),Mfrag=Mterm+((L/2)-1)(MAT)+MZ,其中MAT=(MA+MT),MX等于MA、MC、MG或MT之一,MZ等于(MA+MT)、(MG+MA)、(MG+MC)或(MT+MC)之一。如果核苷酸A、C、G和T的質(zhì)量均不相同,該多核苷酸切割物可在所有奇數(shù)片段長(zhǎng)度L條件下建立片段身份作圖。受限片段身份作圖所有受限片段身份作圖均可從靶內(nèi)提取單調(diào)子序列。我們將長(zhǎng)度為L(zhǎng)的單調(diào)片段定義為具有下列形式的堿基序列5’-(α)v(β)w(γ)x(δ)z-3’,其中(v+w+x+z)=L,0≤v≤L、0≤w≤L、0≤x≤L和0≤z≤L。根據(jù)觀察,長(zhǎng)度為L(zhǎng)的各不同單調(diào)片段均具有獨(dú)特的堿基組成。任意單調(diào)片段的質(zhì)量根據(jù)下式計(jì)算Mfrag=Mterm+vMα+wMβ+xMγ+zMδ。受限片段身份作圖僅在某一預(yù)先定義的質(zhì)量范圍內(nèi)有效。該范圍的下限為最小可檢測(cè)片段的質(zhì)量,在MALDI設(shè)備內(nèi)約為1100Da。通常,該質(zhì)量范圍的大概上限可通過尋找某一最低質(zhì)量而得以確定,在該最低質(zhì)量條件下,任意兩個(gè)不同片段之間的質(zhì)量差在1Da以內(nèi)。在該上限之上,作圖是不嚴(yán)格的,且預(yù)知的某些質(zhì)量將與兩個(gè)或以上的不同片段對(duì)應(yīng)。由兩個(gè)不同核苷酸構(gòu)成的單調(diào)子序列可提取最簡(jiǎn)單類型的單調(diào)序列,即那些僅由兩個(gè)不同核苷酸構(gòu)成的序列的多核苷酸切割物的一個(gè)實(shí)例是16/13[inv(A.AA.CC.C)](也記作16/13[C.AM.KK.N]),是16/13[inv(α.αα.ββ.β)]12家族的成員。該多核苷酸切割物生成的平均片段長(zhǎng)度為1.231個(gè)堿基。統(tǒng)計(jì)值如表14a所示。該裂解破壞了約94%的靶,并可在L>1的每一長(zhǎng)度條件下準(zhǔn)確生成(L+1)個(gè)片段。該多核苷酸切割物預(yù)期可每千堿基靶生成13.7個(gè)可檢測(cè)片段,片段間間距為68.8個(gè)堿基。所生成片段具有下述形式5’-(A)i(C)k-3’,其中(i+k)=L,0≤i<L,且0≤k<L與L=4-8對(duì)應(yīng)的片段如表14b所示。片段質(zhì)量根據(jù)下式計(jì)算Mfrag=Mterm+iMA+kMC,其中(i+k)=L,0≤i<L,且0≤k<L。如果核苷酸A和C(α+β)具有不同的質(zhì)量(MA≠M(fèi)C或Mα≠M(fèi)β),該多核苷酸切割物可建立受限片段身份作圖。由三個(gè)不同核苷酸構(gòu)成的單調(diào)子序列可提取由三個(gè)不同核苷酸構(gòu)成的單調(diào)序列的多核苷酸切割物的一個(gè)實(shí)例為16/9[B.V](也記作16/9[inv(A.NN.T)],屬于16/9[inv(α.ηη.β)]12家族的成員。該多核苷酸切割物生成的平均片段長(zhǎng)度為1.778個(gè)堿基。統(tǒng)計(jì)值如表15a所示。該裂解破壞了約84%的靶,并在每一長(zhǎng)度L條件下準(zhǔn)確生成(3L-1)個(gè)片段。該多核苷酸切割物預(yù)期可每千堿基靶生成35.2個(gè)可檢測(cè)片段,片段間間距為24個(gè)堿基。所生成片段具有的形式如下5’-(A)i(C)w(G)x(T)k-3’,其中(i+k+w+x)=L,(w+x)≤1、0≤i<L、0≤k<L、0≤w<1、0≤x<1。與L=4-8對(duì)應(yīng)的片段如表15b所示。片段質(zhì)量根據(jù)下式計(jì)算Mfrag=Mterm+iMA+kMT+wMC+xMG,其中(i+k+w+x)=L,(w+x)≤1、0≤i<L、0≤k<L、0≤w<1、0≤x<1。如果核苷酸A、C、G和T的質(zhì)量均不同,該多核苷酸切割物可建立受限片段身份作圖。由四個(gè)核苷酸構(gòu)成的單調(diào)序列可提取由全部四個(gè)不同核苷酸構(gòu)成的單調(diào)序列的多核苷酸切割物的一個(gè)實(shí)例是16/6[C.AG.MT.V],屬于16/6[β.αγ.αδ.αγ.βδ.βδ.γ]24家族。該多核苷酸切割物生成的平均片段長(zhǎng)度為2.667個(gè)堿基。統(tǒng)計(jì)值如表16a所示。該裂解僅破壞了約62%的靶,并可在每一長(zhǎng)度L條件下準(zhǔn)確生成((L+1)(L+2)(L+3)/6-2)個(gè)片段(兩個(gè)“缺失”片段為5’-(A)L-3’和5’-(T)L-3’)。該多核苷酸切割物預(yù)期可每千堿基靶生成82個(gè)可檢測(cè)片段,片段間間距為7.52個(gè)堿基。所生成片段具有如下形式5’-(A)v(C)w(G)x(T)z-3’,其中(v+w+x+z)=L,0≤v<L、0≤w<L、0≤x<L和0≤z<L。任意片段的質(zhì)量根據(jù)下式計(jì)算Mfrag=Mterm+vMA+wMC+xMG+zMT與L=4-6對(duì)應(yīng)的片段如表16b所示。如果核苷酸A、C、G和T的質(zhì)量均不同,該多核苷酸切割物可建立受限片段身份作圖。通過片段化進(jìn)行的部分測(cè)序(PSBF)與現(xiàn)有非重疊片段化(NOF)方法之間至少存在三個(gè)關(guān)鍵差異1)PSBF提供了靶內(nèi)存在的特定子序列相關(guān)信息,而NOF方法提供的是片段的分子量或最多提供到堿基組成。PSBF即使在其無法將一個(gè)獨(dú)特序列賦以觀測(cè)片段質(zhì)量數(shù)值時(shí)也可提供有用信息。2)PSBF裂解反應(yīng)產(chǎn)物的質(zhì)譜圖可被明確解釋,而無需了解靶或參比序列的序列?,F(xiàn)有所有NOF測(cè)序法則視下述情況而定,即已知參比序列,從而可以預(yù)先計(jì)算可能片段的質(zhì)量。3)在靶長(zhǎng)度相同的情況下,PBSF生成的可檢測(cè)片段遠(yuǎn)少于NOF方法,且片段間間距典型地比NOF方法大10-100倍。通常,本發(fā)明的PSBF方法適用于NOF方法目前所被應(yīng)用到的所有情況。本發(fā)明的PSBF方法尤其適用于指紋識(shí)別長(zhǎng)靶序列,因?yàn)槠渖傻目蓹z測(cè)片段的數(shù)量少。PSBF也可與用于峰值定量的技術(shù)聯(lián)合應(yīng)用,以確定特定子序列的相對(duì)拷貝數(shù)量(Buetowetal.2001;Bansaletal.2002;Mohikeetal.2002)。特定非限制性應(yīng)用實(shí)例的特定優(yōu)勢(shì)如下所述??焖偌?xì)菌和病毒鑒定NOF方法已被應(yīng)用于已知和未知細(xì)菌樣品的基因型鑒定和分類中(vonWintzingerodeetal.2002,Lefmannetal.2004)。這些方法局限于對(duì)已經(jīng)過從靶細(xì)菌PCR擴(kuò)增的短信號(hào)區(qū)域(<2kb)的分析。因此,本發(fā)明的一個(gè)實(shí)施方案提供了可作為高效方法對(duì)已知和未知細(xì)菌樣品進(jìn)行基因型鑒定和分類的PSBF。該方法允許對(duì)較大信號(hào)區(qū)域(至少在5-100kb范圍內(nèi))取樣。如采用具有高度破壞性的多核苷酸切割物(可破壞>98%的靶的那些多核苷酸切割物),則可在單次反應(yīng)中對(duì)完整細(xì)菌或病毒基因組取樣。由于PSBF不要求參比靶序列,完全未表征的靶可被分析并與其它各已知樣品相互比較,而這是目前采用NOF方法無法做到的。對(duì)串聯(lián)重復(fù)序列區(qū)域的發(fā)現(xiàn)和評(píng)分PSBF在從頭和診斷性情況中快速評(píng)分或發(fā)現(xiàn)串聯(lián)重復(fù)序列的方面也是有用的方法。在該應(yīng)用中,PSBF比NOF方法優(yōu)越的一個(gè)主要原因是PSBF可一次性地從靶內(nèi)提取所有的重復(fù)序列區(qū)域,即使周圍區(qū)域的序列未知。SNP發(fā)現(xiàn)和檢測(cè)PSBF也有助于在下述情況下的SNP檢測(cè)或發(fā)現(xiàn),即目標(biāo)SNP出現(xiàn)在靶的一個(gè)子序列內(nèi),可通過PSBF反應(yīng)檢出。與出于相同目的而采用的NOF方法相比,PSBF通常在每次片段化反應(yīng)中從靶內(nèi)取樣的部分較小。不過,由于不要求參比序列,PSBF可被用于發(fā)現(xiàn)在未被完全表征的相關(guān)序列集合中的序列變異。實(shí)施例事實(shí)上,現(xiàn)有所有片段化方法均采用完全化學(xué)或酶促法裂解含有修飾核苷酸的靶的核酸轉(zhuǎn)錄物。該轉(zhuǎn)錄物是利用可摻入所述修飾核苷酸的模板依賴性RNA或DNA聚合酶生成的。通常應(yīng)用到特異性引物(具有適合RNA聚合酶的啟動(dòng)子序列)。通常,實(shí)施通過片段化進(jìn)行部分測(cè)序的方法完全取決于本文所論述的類似技術(shù)。這種實(shí)施方法的通常形式如圖1所示。為簡(jiǎn)化裂解反應(yīng)產(chǎn)物的質(zhì)譜圖,被用于生成轉(zhuǎn)錄物的任意寡核苷酸引物(隨機(jī)或特異性的)應(yīng)被除去或經(jīng)過設(shè)計(jì),使它們被裂解反應(yīng)完全破壞。另外,所有片段均應(yīng)具有相同的5’末端以及相同的3’末端(但5’末端可能與3’末端不同)。下述實(shí)例所用的核苷酸及核苷酸類似物的結(jié)構(gòu)和分子量如表17所示。實(shí)施例1多核苷酸切割物家族16/15[inv(α.α)]4可通過采用StantonJr.etal(2003,USPat.No.6610492)所述的修飾核苷酸和化學(xué)裂解反應(yīng)而得以實(shí)現(xiàn)。各特異性多核苷酸切割物適用的核苷酸如表18所示。修飾核苷酸在PCR擴(kuò)增靶序列期間被摻入,并通過化學(xué)方式被KMnO4和3-吡咯烷醇裂解。該裂解反應(yīng)完全破壞了上述修飾核苷酸,并生成了同時(shí)具有5’和3’磷酸基團(tuán)的片段(Wolfeetal.2002)。與該多核苷酸切割物家族各成員對(duì)應(yīng)的嚴(yán)格片段身份作圖如表19A和19B所示。由于該多核苷酸切割物家族可在任意特定長(zhǎng)度L條件下僅生成一個(gè)可能片段,可通過利用單堿基分辨電泳分析裂解反應(yīng)產(chǎn)物。利用多核苷酸切割物16/15[inv(A.A)]對(duì)樣品靶序列進(jìn)行的部分測(cè)序如圖2所示。在該實(shí)例中,PCR擴(kuò)增生成了雙鏈產(chǎn)物,其中一條鏈在進(jìn)行裂解反應(yīng)之前被除去。該裂解反應(yīng)也完全破壞了引物。實(shí)施例2特異性多核苷酸切割物4/3[inv(A.)]或4/3[B.]可通過聯(lián)合RNA酶T1(在rG3’裂解)和RNA酶A(在rC和rU3’裂解)裂解靶序列的RNA轉(zhuǎn)錄物而容易地實(shí)現(xiàn)。rC與rU之間1道爾頓的質(zhì)量差異非常難以分辨,可通過在轉(zhuǎn)錄反應(yīng)期間將5Me-rCTP替代為rCTP或?qū)?Me-rUTP替代為rUTP而將其修正。RNA酶裂解反應(yīng)應(yīng)在下述條件下進(jìn)行,最小化2’,3’環(huán)磷酸基團(tuán)的生成,以有利于3’磷酸的生成(Hartmeretal.2003;Krebsetal.2003)。實(shí)施例34/3[inv(α.)]4家族的所有多核苷酸切割物(也記作4/3[α.β.γ]4)均可通過下述方法而得以實(shí)現(xiàn),即采用合適的核苷酸三磷酸生成靶的核酸轉(zhuǎn)錄物,接著用堿性或非特異性RNA酶進(jìn)行完全裂解。被用于實(shí)現(xiàn)各特異性多核苷酸切割物的核苷酸如表20所示。用堿進(jìn)行的裂解將生成具有5’-OH基團(tuán)和2’,3’-環(huán)磷酸基團(tuán)的片段。這些磷酸基團(tuán)可利用堿性磷酸酶通過酶促方法被除去。與該多核苷酸切割物家族各成員對(duì)應(yīng)的嚴(yán)格片段身份作圖如表21所示。利用多核苷酸切割物4/3[inv(A.)](也記作4/3[B.])進(jìn)行部分測(cè)序的樣品靶序列如圖3所示。在該實(shí)例中,所有末端磷酸基團(tuán)均已被堿性磷酸酶除去。該裂解反應(yīng)完全破壞了引物。由二核苷酸-特異性裂解構(gòu)成的多核苷酸切割物實(shí)施例4多核苷酸切割物家族16/9[inv(α.ηη.β)]12可采用StantonJr.etal.所描述的特異性二核苷酸裂解的增強(qiáng)方法(2003,USPat.No.6566059)而得以實(shí)現(xiàn)。該方法采用rNTPs和5’-氨基-2’,5’-二脫氧核糖核苷酸(nNTPs)。如上所述,由兩個(gè)相同核苷酸構(gòu)成的二核苷酸不能被裂解。該缺陷可通過利用具有圖4所示結(jié)構(gòu)之一的核苷酸而得以解決。我們將第一種結(jié)構(gòu)稱為nrNTP,第二種稱為SrNTP。為實(shí)現(xiàn)該家族的多核苷酸切割物,三種核苷酸必須都具有2’-OH基團(tuán),而由三種核苷酸組成的另一個(gè)不同的組則必須均具有5’氨基。與各多核苷酸切割物對(duì)應(yīng)采用的核苷酸如表22所示。在由聚合酶介導(dǎo)裂解所有相鄰的2’-OH和氨基磷酸酯基團(tuán)后,所有片段保留2’,3’環(huán)磷酸基團(tuán)。多核苷酸切割物16/9[B.V]生成了如表23所示不嚴(yán)格的片段身份作圖。不屬于該片段身份作圖的質(zhì)量如黑體所示,而不能被明確檢出的片段則如斜體所示。多核苷酸切割物16/9[B.H]生成了如表24A和24B所示受限的片段身份作圖。該受限片段身份作圖的上限為3425Da。在該質(zhì)量范圍之上,作圖是不嚴(yán)格的。利用多核苷酸切割物16/9[B.H]部分測(cè)序的樣品靶序列如圖5所示。該裂解反應(yīng)完全破壞了引物。實(shí)施例5Kless(2001,WO01/16366)描述了一種可接受二核苷酸三磷酸的改良型模板導(dǎo)向聚合酶。為了在合成期間利用聚合酶摻入二核苷酸三磷酸,其必須與模板形成兩個(gè)正確的堿基對(duì)。多核苷酸切割物家族64/59[K.NA.D.NC.B.N]12可能通過采用具有圖6所示結(jié)構(gòu)的二核苷酸三磷酸而得以實(shí)現(xiàn)。靶的轉(zhuǎn)錄物是利用核苷酸rCTP、rGTP、rTTP以及二核苷酸三磷酸5’ppp-dAdC、5’ppp-rArA、5’ppp-rArG和5’ppp-rArT而得以生成。該轉(zhuǎn)錄物接著被堿完全裂解,生成了具有如下形式的片段5’-(AC)kA-3’5’-(AC)kC-3’5’-(AC)kG-3’5’-(AC)kT-3’,其中k=1、2、3....該多核苷酸切割物從靶內(nèi)有效提取出二核苷酸AC的所有串聯(lián)重復(fù)序列的一個(gè)可讀框,連同該重復(fù)序列的3’末端核苷酸。實(shí)施例6通過PSBF進(jìn)行的指紋法模擬和細(xì)菌鑒定Lefmannetal.(2004)描述了通過對(duì)16S核糖體RNA基因(rDNA)中的一個(gè)約500bp區(qū)域進(jìn)行單堿基裂解,以鑒定細(xì)菌的基因型的方法。通過質(zhì)譜法檢測(cè)的片段質(zhì)量與根據(jù)參比序列計(jì)算而得的理論圖譜比較時(shí),可提供足夠的足以準(zhǔn)確鑒定12種分支桿菌菌株中的每一種的信息。我們通過采用實(shí)施例3所述的多核苷酸切割物家族4/3[inv(α.)]4執(zhí)行PSBF,模擬了這12種菌株的指紋圖譜并對(duì)它們進(jìn)行了鑒定。下表25顯示了利用多核苷酸切割物家族4/3[inv(α.)]4成員生成的分別來源于12種分支桿菌菌株的16SrDNA區(qū)域的正向鏈的片段。所有菌株共有的片段如小寫字母所示,對(duì)菌株鑒定有用的片段如大寫字母所示,所有序列均以5’-3’方向書寫。如表21所示,表25所列各片段均具有獨(dú)特且可檢測(cè)的分子量。多核苷酸切割物4/3[inv(T.)]提供了最大數(shù)量的有用片段,但不能被單獨(dú)用于鑒別各菌株。不過,當(dāng)其與多核苷酸切割物4/3[inv(G.)]聯(lián)合應(yīng)用時(shí),便可明確鑒別各菌株。與Lefmann等人所描述的方法相比,解釋片段數(shù)據(jù)時(shí)不要求參比序列。采用PSBF法進(jìn)行的指紋識(shí)別也提供了有用的序列信息,例如,在12個(gè)16SrDNA序列中,只有蟾分支桿菌具有子序列5’-VTTTTTTG-3’和5’-HGGGGC-3’,只有結(jié)核分支桿菌具有子序列5’-BAAAAG-3’,只有隱藏分支桿菌具有子序列5’-VTTTTTG-3’。只有戈登分支桿菌缺乏子序列5’-DCCCT-3’。其它分支桿菌菌株也生成與表25所示信息一致的指紋圖譜是可能的,在該情況下,PSBF可能被用于分析rDNA區(qū)域的反向鏈,獲得共計(jì)8個(gè)不同的片段組。參考文獻(xiàn)本說明書全文引用的全部參考文獻(xiàn)均被完整引入作為參考。USPat.No.6,660,229B2WO01/16366(PCT/IL00/00515)USPat.No.6,566,059B1USPat.No.6,582,923B2USPat.No.6,610,492B1Zabeau,M.andStanssens,P.(2000)DiagnosticSequencingbyaCombinationofSpecificCleavageandMassSpectrometry.InternationalPCTApplicationWO00/66771(PCT/EP00/03904).BansalA.,vandenBoomD.,KammererS.,HonischC.,AdamG.,CantorC.R.,KleynP.,andBraunA.(2002).AssociationtestingbyDNApoolinganeffectiveinitialscreen.ProcNatlAcadSciUSA9916871-4.BockerS.(2003).SNPandmutationdiscoveryusingbase-specificcleavageandMALDI-TOFmassspectrometry.Bioinformatics19Suppl1144-153.BuetowK.H.,EdmonsonM.,MacDonaldR.,CliffordR.,YipP.,KelleyJ.,LittleD.P.,StrausbergR.,KoesterH.,CantorC.R.,andBraunA.(2001).High-throughputdevelopmentandcharacterizationofagenomewidecollectionofgene-basedsinglenucleotidepolymorphismmarkersbychip-basedmatrix-assistedlaserdesorption/ionizationtime-of-flightmassspectrometry.ProcNatlAcadSciUSA98581-4.DingC.,andCantorC.R.(2003).Ahigh-throughputgeneexpressionanalysistechniqueusingcompetitivePCRandmatrix-assistedlaserdesorptionionizationtime-of-flightMS.ProcNatlAcadSciUSA1003059-64.DingC.,andCantorC.R.(2003).Directmolecularhaplotypingoflong-rangegenomicDNAwithM1-PCR.ProcNatlAcadSciUSA1007449-53.DingC.,andCantorC.R.(2004).Quantitativeanalysisofnucleicacids-thelastfewyearsofprogress.JBiochemMolBiol371-10.ElsoC.,TooheyB.,ReidG.E.,PoetterK.,SimpsonR.J.,andFooteS.J.(2002).Mutationdetectionusingmassspectrometricseparationoftinyoligonucleotidefragments.GenomeRes121428-33.FuD.J.,BroudeN.E.,KosterH.,SmithC.L.,andCantorC.R.(1996).EfficientpreparationofshortDNAsequenceladderspotentiallysuitableforMALDI-TOFDNAsequencing.GenetAnal12137-42.HartmerR.,StormN.,BoeckerS.,RodiC.P.,HillenkampF.,JurinkeC.,andvandenBoomD.(2003).RNaseT1mediatedbase-specificcleavageandMALDI-TOFMSforhigh-throughputcomparativesequenceanalysis.NucleicAcidsRes31e47.JurinkeC.,vandenBoomD.,CantorC.R.,andKosterH.(2001).AutomatedgenotypingusingtheDNAMassArraytechnology.MethodsMolBiol170103-16.JurinkeC.,vandenBoomD.,CantorC.R.,andKosterH.(2002).AutomatedgenotypingusingtheDNAMassArraytechnology.MethodsMolBiol187179-92.JurinkeC.,vandenBoomD.,CantorC.R.,andKosterH.(2002).TheuseofMassARRAYtechnologyforhighthroughputgenotyping.AdvBiochemEngBiotechnol7757-74.JurinkeC.,vandenBoomD.,JacobA.,TangK.,WorlR.,andKosterH.(1996).Analysisofligasechainreactionproductsviamatrix-assistedlaserdesorption/ionizationtime-of-flight-massspectrometry.AnalBiochem237174-81.KosterH.,TangK.,F(xiàn)uD.J.,BraunA.,vandenBoomD.,SmithC.L.,CotterR.J.,andCantorC.R.(1996).AstrategyforrapidandefficientDNAsequencingbymassspectrometry.NatBiotechnol141123-8.LefmannM.,HonischC.,BockerS.,StormN.,vonWintzingerodeF.,SchlotelburgC.,MoterA.,vandenBoomD.,andGobelU.B.(2004).Novelmassspectrometry-basedtoolforgenotypicidentificationofmycobacteria.JClinMicrobiol42339-46.LiY.,TangK.,LittleD.P.,KosterH.,HunterR.L.,andMclverR.T.,Jr.(1996).High-resolutionMALDIFouriertransformmassspectrometryofoligonucleotides.AnalChem682090-6.NordhoffE.,LuebbertC.,ThieleG.,HeiserV.,andLehrachH.(2000).RapiddeterminationofshortDNAsequencesbytheuseofMALDI-MS.NucleicAcidsRes28E86.RodiC.P.,Darnhofer-PatelB.,StanssensP.,ZabeauM.,andvandenBoomD.(2002).AstrategyfortherapiddiscoveryofdiseasemarkersusingtheMassARRAYsystem.BiotechniquesSuppl62-6,68-9.ShchepinovM.S.,DenissenkoM.F.,SmylieK.J.,WorlR.J.,LeppinA.L.,CantorC.R.,andRodiC.P.(2001).Matrix-inducedfragmentationofP3’-N5’phosphoramidate-containingDNAhigh-throughputMALDI-TOFanalysisofgenomicsequencepolymorphisms.NucleicAcidsRes293864-72.SiegertC.W.,JacobA.,andKosterH.(1996).Matrix-assistedlaserdesorption/ionizationtime-of-flightmassspectrometryforthedetectionofpolymerasechainreactionproductscontaining7-deazapurinemoieties.AnalBiochem24355-65.SmylieK.J.,CantorC.R.,andDenissenkoM.F.(2004).AnalysisofsequencevariationsinseveralhumangenesusingphosphoramiditebondDNAfragmentationandchip-basedMALDI-TOF.GenomeRes14134-41.StanssensP.,ZabeauM.,MeerssemanG.,RemesG.,GansemansY.,StormN.,HartmerR.,HonischC.,RodiC.P.,BockerS.,andvandenBoomD.(2004).High-throughputMALDI-TOFdiscoveryofgenomicsequencepolymorphisms.GenomeRes14126-33.vonWintzingerodeF.,BockerS.,SchlotelburgC.,ChiuN.H.,StormN.,JurinkeC.,CantorC.R.,GobelU.B.,andvandenBoomD.(2002).Base-specificfragmentationofamplified16SrRNAgenesanalyzedbymassspectrometryatoolforrapidbacterialidentification.ProcNatlAcadSciUSA997039-44.WolfeJ.L.,KawateT.,BelenkyA.,andStantonV.,Jr.(2002).Synthesisandpolymeraseincorporationof5’amino-2’,5’-dideoxy-5’-N-triphosphatenucleotides.NucleicAcidsRes303739-47.WolfeJ.L.,KawateT.,SarracinoD.A.,ZillmannM.,OlsonJ.,StantonV.P.,Jr.,andVerdineG.L.(2002).Agenotypingstrategybasedonincorporationandcleavageofchemicallymodifiednucleotides.ProcNatlAcadSciUSA9911073-8.WolfeJ.L.,WangB.H.,KawateT.,andStantonV.P.,Jr.(2003).Sequence-specificdinucleotidecleavagepromotedbysynergisticinteractionsbetweenneighboringmodifiednucleotidesinDNA.JAmChemSoc12510500-1.表1表24/1[A.]或16/4[A.N]表3A片段長(zhǎng)度5個(gè)堿基表3B16/3[A.B]表4A片段長(zhǎng)度5個(gè)堿基表4B16/1[A.C]表5A片段長(zhǎng)度5個(gè)堿基表5B表616/15[inv(A.A)]或16/15[A.BB.N]表7A片段長(zhǎng)度(以堿基為單位)表7B4/3[B.]或16/12[B.N]表8A片段長(zhǎng)度(以堿基為單位)表8B16/9[C.MV.KT.T]表9A片段長(zhǎng)度(以堿基為單位)表9B16/14[inv(A.CC.A)]或16/14[A.DC.BK.N]表10A片段長(zhǎng)度(以堿基為單位)表10B16/13[inv(A.CC.GG.A)]或16/13[A.DC.HG.BT.N]表11A片段長(zhǎng)度(以堿基為單位)表11B16/12[inv(A.CC.GG.TT.A)]或16/12[A.DC.HG.VT.B]表12A片段長(zhǎng)度(以堿基為單位)表12B16/11[inv(A.TK.M)]或16/11[M.VB.K]表13A片段長(zhǎng)度(以堿基為單位)表13B16/13[inv(A.AA.CC.C)]或16/13[C.AM.KK.N]表14A片段長(zhǎng)度(以堿基為單位)表14B16/9[B.v]表15A片段長(zhǎng)度(以堿基為單位)表15B16/6[C.AG.MT.V]表16A片段長(zhǎng)度(以堿基為單位)表16B表17表18表19A表19B表20與多核苷酸切割物家族4/3[α.β.γ.]各成員對(duì)應(yīng)的片段身份作圖表21表22與多核苷酸切割物16/9[B.V](nATP,nrCTP,nrGTP,rTTP)對(duì)應(yīng)的片段身份作圖表23與多核苷酸切割物16/9[B.H](nATP,nrCTP,rGTP,nrTTP)對(duì)應(yīng)的片段身份作圖表24A與多核苷酸切割物16/9[B.H](nATP,nrCTP,rGTP,nrTTP)對(duì)應(yīng)的片段身份作圖表24B表2權(quán)利要求1.一種確定模板核酸的靶序列的方法,包括下列步驟a)利用聚合酶和根據(jù)序列特異反應(yīng)性和分子量選擇的核苷酸以及寡核苷酸引物生成分離的模板核酸的轉(zhuǎn)錄物;b)采用選自酶切割物、化學(xué)切割物及二者的組合的切割物進(jìn)行裂解反應(yīng),以序列特異性方式將轉(zhuǎn)錄物完全裂解為片段;c)分析裂解反應(yīng)產(chǎn)物,以確定片段的分子量;d)利用核苷酸質(zhì)量和切割物的裂解特異性完成片段身份作圖,以計(jì)算步驟b)裂解反應(yīng)所生成的所有可能片段的分子量和序列;并e)對(duì)步驟c)所觀察到的質(zhì)量與步驟d)的片段身份作圖進(jìn)行比較,其中該比較可實(shí)現(xiàn)對(duì)樣品中存在的所有靶序列的確定。2.權(quán)利要求1的方法,其中步驟a-e采用不同的切割物至少進(jìn)行了2次,從而實(shí)現(xiàn)重疊片段的生成,并編譯這些重疊片段以生成至少一個(gè)較大的子序列。3.權(quán)利要求2的方法,其中所述較大的子序列為模板的完整序列。4.權(quán)利要求1-4中任意一項(xiàng)的方法,其中引物具有序列特異性。5.權(quán)利要求1-4中任意一項(xiàng)的方法,其中引物具有隨機(jī)序列。6.權(quán)利要求1-5中任意一項(xiàng)的方法,其中分子量是利用質(zhì)譜法確定的。7.權(quán)利要求6的方法,其中質(zhì)譜法為基質(zhì)輔助激光解吸/電離飛行時(shí)間質(zhì)譜法。8.一種確定核酸樣品中的基因數(shù)量的方法,包括下述步驟,即通過權(quán)利要求6的方法鑒別核酸樣品內(nèi)的任意聚腺苷酸尾部,其中消化是利用可破壞該樣品內(nèi)除了含有聚腺苷酸的片段以外的其它所有核苷酸的單核苷酸切割物而得以實(shí)現(xiàn)的,進(jìn)一步通過分析由質(zhì)譜法獲得的峰的大小,以分析含有聚腺苷酸的片段的數(shù)量,其中峰的大小指示含有聚腺苷酸尾部的片段的數(shù)量。9.一種鑒定生物樣品中已知核酸序列的量的方法,包括下述步驟,即選擇該已知核酸序列中的獨(dú)特序列,選擇能夠消化含有已知核酸序列的核酸樣品的核酸切割物,利用隨機(jī)引物轉(zhuǎn)錄該核酸樣品,用序列特異性切割物消化轉(zhuǎn)錄物,以獲得片段,采用質(zhì)譜法分析這些片段的分子量,并通過比較從被消化樣品獲得的峰的大小與從含有已知序列的樣品獲得的峰的大小,確定樣品中片段的數(shù)量,其中該比較可實(shí)現(xiàn)對(duì)生物樣品內(nèi)已知核酸序列的量的鑒定。全文摘要本發(fā)明提供了測(cè)定模板核酸的核酸序列的方法,該方法無需預(yù)知模板核酸中存在的核酸序列。該方法基于關(guān)于片段質(zhì)量、任意一種核苷酸及其組合的質(zhì)量、核苷酸切割物(酶或化學(xué)切割物)的序列特異性的組合信息確定核酸片段的序列。該方法允許從頭檢測(cè)靶核酸內(nèi)的序列,而無需預(yù)知任何序列信息。該方法被稱為通過片段化進(jìn)行的部分測(cè)序(PSBF),即通過將靶序列片段化為質(zhì)量或長(zhǎng)度與已知序列獨(dú)特相關(guān)的寡或多核苷酸而實(shí)現(xiàn)目的。這些序列的身份僅通過所用的特異性片段化方法測(cè)定,并總是不依賴于靶序列。PSBF可通過應(yīng)用電泳、質(zhì)譜或其它可被用于區(qū)分被切核酸序列片段大小的任意方法實(shí)現(xiàn)。文檔編號(hào)C12Q1/68GK1977053SQ20058001874公開日2007年6月6日申請(qǐng)日期2005年4月8日優(yōu)先權(quán)日2004年4月9日發(fā)明者C·R·坎托爾,F·A·西迪奇申請(qǐng)人:波士頓大學(xué)信托人