日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

檢測拷貝數(shù)變異的方法和裝置的制作方法

文檔序號:6356324閱讀:550來源:國知局
專利名稱:檢測拷貝數(shù)變異的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及基因工程技術(shù)領(lǐng)域,特別地,涉及一種檢測拷貝數(shù)變異的方法和裝置。
背景技術(shù)
拷貝數(shù)變異(Copy Number Variations, CNVs)是指與基因組參考序列相比,基因組中長度大于等于1000堿基(Ikb)且以不同拷貝數(shù)存在的DNA片段,其形式包括插入、缺失、擴增,及其相互組合衍生出的復(fù)雜變異。Redon等根據(jù)拷貝數(shù)變異的遺傳和組成形式將拷貝數(shù)變異分為5類(a)缺失;(b)擴增;(c)同一位點并發(fā)的缺失與擴增;(d)多等位基因位點(multiple alleles) ; (e)復(fù)雜難以描述的位點。通常,擴增比缺失更為常見,且覆蓋更大的范圍。具體來說,拷貝數(shù)變化可以通過破壞基因編碼蛋白的活性部分、改變基因的表達、或者破壞基因組控制基因活性的調(diào)節(jié)區(qū)域等影響基因的活性。尋找拷貝數(shù)變異有助于在有遺傳可能性的區(qū)域里尋找關(guān)鍵基因。
目前已實現(xiàn)檢測拷貝數(shù)變異的方法主要有基于大插入片段的比較基因組雜交、代表性寡核苷酸微陣列分析、基于長的等溫寡核苷酸探針的比較基因組雜交和單核苷酸多態(tài)(Single Nucleotide Polymorphism, SNP)芯片等。其中,SNP芯片是目前通量最高、使用范圍最廣的全基因組拷貝數(shù)變異分析平臺。但是,由于當(dāng)前的SNP芯片探針在基因組分布不均衡,很多片段重復(fù)(Segment Duplications, SDs)和復(fù)雜拷貝數(shù)變異區(qū)域設(shè)計SNP探針較困難,所以當(dāng)前的各種拷貝數(shù)變異全基因組掃描技術(shù)平臺仍然具有一定的局限性,對于更小的拷貝數(shù)變異檢出效力有限,同時實驗費用較高等。

發(fā)明內(nèi)容
本發(fā)明要解決的一個技術(shù)問題是提供一種檢測拷貝數(shù)變異的方法和裝置,能夠在高通量測序數(shù)據(jù)背景下檢測目標(biāo)樣本與對照樣本間發(fā)生拷貝數(shù)變異的區(qū)域。根據(jù)本發(fā)明的一方面,提出了一種檢測拷貝數(shù)變異的方法,包括在對每個樣本進行高通量測序后,對測序所得的每個樣本序列分別進行過濾,以去除掉不合格的序列和接頭序列,其中,樣本包括目標(biāo)樣本和對照樣本;將過濾后的每個樣本序列分別比對到參考基因組序列,對比對后的每個樣本序列分別進行篩選以得到唯一比對的樣本序列,確定每個唯一比對的樣本序列相對于參考基因組序列的位置信息,并對位置信息進行排序;根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值;根據(jù)初始變點閾值確定唯一比對的目標(biāo)樣本序列與唯一比對的對照樣本序列間的目標(biāo)樣本拷貝數(shù)變異變點初始集;根據(jù)候選變點閾值通過迭代法合并目標(biāo)樣本拷貝數(shù)變異變點初始集,以得到目標(biāo)樣本拷貝數(shù)變異候選區(qū)域;根據(jù)設(shè)定的拷貝數(shù)比率閾值從目標(biāo)樣本拷貝數(shù)變異候選區(qū)域中過濾出目標(biāo)樣本的拷貝數(shù)變異區(qū)域。根據(jù)本發(fā)明方法的一個實施例,根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值的步驟包括將唯一比對的對照樣本序列隨機分為兩部分,并確保分割后的第一對照樣本序列和第二對照樣本序列均包含全部的基因組信息;根據(jù)設(shè)定的變點初始集參數(shù)確定第一對照樣本序列和第二對照樣本序列間的對照樣本拷貝數(shù)變異變點初始集,將對照樣本拷貝數(shù)變異變點初始集中最小拷貝數(shù)比率差異對應(yīng)的P值設(shè)置為初始變點閾值,并去除第一對照樣本序列和第二對照樣本序列中未被對照樣本拷貝數(shù)變異變點初始集選中的位點信息;根據(jù)設(shè)定的變點集參數(shù)通過迭代法合并對照樣本拷貝數(shù)變異變點初始集,并將合并后的對照樣本拷貝數(shù)變異變點集中最小拷貝數(shù)比率差異對應(yīng)的P值設(shè)置為候選變點閾值。根據(jù)本發(fā)明方法的另一實施例,根據(jù)初始變點閾值確定唯一比對的目標(biāo)樣本序列與唯一比對的對照樣本序列間的目標(biāo)樣本拷貝數(shù)變異變點初始集的步驟包括將唯一比對的目標(biāo)樣本序列和唯一比對的對照樣本序列比對到參考基因組序列,根據(jù)唯一比對的對照樣本序列確定與參考基因組比對上的起始位點集;根據(jù)設(shè)定的窗長滑動計算起始位點集中每個位點的拷貝數(shù)比率差異對應(yīng)的P值;在起始位點集中選取拷貝數(shù)比率差異對應(yīng)的P值小于初始變點閾值的位點,將所選出的位點構(gòu)成的集合作為目標(biāo)樣本拷貝數(shù)變異變點初始集,并去除唯一比對的對照樣本序列和唯一比對的目標(biāo)樣本序列中未被選取的位點信息。根據(jù)本發(fā)明方法的又一實施例,根據(jù)候選變點閾值通過迭代法合并目標(biāo)樣本拷貝 數(shù)變異變點初始集,以得到目標(biāo)樣本拷貝數(shù)變異候選區(qū)域的步驟包括在目標(biāo)樣本拷貝數(shù)變異變點初始集中,以各變點間區(qū)域為窗口計算唯一比對的目標(biāo)樣本與唯一比對的對照樣本間的拷貝數(shù)比率差異對應(yīng)的P值;將目標(biāo)樣本拷貝數(shù)變異變點初始集中每個變點對應(yīng)的P值進行排序,去除P值最大的變點信息,重新計算所去除的P值最大的變點的左右兩個變點對應(yīng)的P值,再去除目標(biāo)樣本拷貝數(shù)變異變點初始集中所剩變點中P值最大的變點信息,直至所剩變點中對應(yīng)的最大P值小于候選變點閾值或不存在變點。根據(jù)本發(fā)明方法的再一實施例,根據(jù)設(shè)定的變點初始集參數(shù)確定第一對照樣本序列和第二對照樣本序列間的對照樣本拷貝數(shù)變異變點初始集的步驟包括將第一對照樣本序列和第二對照樣本序列比對到參考基因組序列,根據(jù)第一對照樣本序列或第二對照樣本序列確定與參考基因組比對上的起始位點集;根據(jù)設(shè)定的窗長滑動計算起始位點集中每個位點對應(yīng)的P值;對起始位點集中每個位點對應(yīng)的P值按從小到大的順序排序;根據(jù)設(shè)定的變點初始集參數(shù)按照P值從小到大的順序選取位點,每選取一個位點,將所選取位點的左右窗口中的所有位點對應(yīng)的P值設(shè)置為1,并將選取的位點作為對照樣本拷貝數(shù)變異變點初始集中的變點元素。根據(jù)本發(fā)明方法的再一實施例,根據(jù)設(shè)定的變點集參數(shù)通過迭代法合并對照樣本拷貝數(shù)變異變點初始集的步驟包括在對照樣本拷貝數(shù)變異變點初始集中,以各變點間區(qū)域為窗口計算第一對照樣本與第二對照樣本間的拷貝數(shù)比率差異對應(yīng)的P值;將對照樣本拷貝數(shù)變異變點初始集中每個變點對應(yīng)的P值進行排序,去除P值最大的變點信息,重新計算所去除的P值最大的變點的左右兩個變點對應(yīng)的P值,再去除對照樣本拷貝數(shù)變異變點初始集中所剩變點中P值最大的變點信息,直至對照樣本拷貝數(shù)變異變點初始集中所剩變點個數(shù)滿足設(shè)定的變點集參數(shù)。根據(jù)本發(fā)明的另一方面,還提出了一種檢測拷貝數(shù)變異的裝置,包括序列過濾模塊,用于對測序所得的每個樣本序列分別進行過濾,以去除掉不合格的序列和接頭序列,其中,樣本包括目標(biāo)樣本和對照樣本;序列比對模塊,與序列過濾模塊相連,用于將過濾后的每個樣本序列分別比對到參考基因組序列,對比對后的每個樣本序列分別進行篩選以得到唯一比對的樣本序列,確定每個唯一比對的樣本序列相對于參考基因組序列的位置信息,并對位置信息進行排序;閾值確定模塊,與序列比對模塊相連,用于根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值;目標(biāo)樣本變點初始集確定模塊,與序列比對模塊和閾值確定模塊相連,用于根據(jù)初始變點閾值確定唯一比對的目標(biāo)樣本序列與唯一比對的對照樣本序列間的目標(biāo)樣本拷貝數(shù)變異變點初始集;目標(biāo)樣本變點集確定模塊,與目標(biāo)樣本變點初始集確定模塊和閾值確定模塊相連,用于根據(jù)候選變點閾值通過迭代法合并目標(biāo)樣本拷貝數(shù)變異變點初始集,以得到目標(biāo)樣本拷貝數(shù)變異候選區(qū)域;拷貝數(shù)變異確定模塊,與目標(biāo)樣本變點集確定模塊相連,用于根據(jù)設(shè)定的拷貝數(shù)比率閾值從目標(biāo)樣本拷貝數(shù)變異候選區(qū)域中過濾出目標(biāo)樣本的拷貝數(shù)變異區(qū)域。根據(jù)本發(fā)明裝置的一個實施例,閾值確定模塊包括序列分割單元,用于將唯一比對的對照樣本序列隨機分為兩部分,并確保分割后的第一對照樣本序列和第二對照樣本序列均包含全部的基因組信息;初始變點閾值確定單元,與序列分割單元相連,用于根據(jù)設(shè)定的變點初始集參數(shù)確定第一對照樣本序列和第二對照樣本序列間的對照樣本拷貝數(shù)變異變點初始集,將對照樣本拷貝數(shù)變異變點初始集中最小拷貝數(shù)比率差異對應(yīng)的P值設(shè)置為初始變點閾值,并去除第一對照樣本序列和第二對照樣本序列中未被對照樣本拷貝數(shù)變異 變點初始集選中的位點信息;候選變點閾值確定單元,與初始變點閾值確定單元相連,用于根據(jù)設(shè)定的變點集參數(shù)通過迭代法合并對照樣本拷貝數(shù)變異變點初始集,并將合并后的對照樣本拷貝數(shù)變異變點集中最小拷貝數(shù)比率差異對應(yīng)的P值設(shè)置為候選變點閾值。根據(jù)本發(fā)明裝置的另一實施例,目標(biāo)樣本變點初始集確定模塊包括起始位點集確定單元,用于將唯一比對的目標(biāo)樣本序列和唯一比對的對照樣本序列比對到參考基因組序列,根據(jù)唯一比對的對照樣本序列確定與參考基因組比對上的起始位點集;第一拷貝數(shù)比率差異計算單元,與起始位點集確定單元相連,用于根據(jù)設(shè)定的窗長滑動計算起始位點集中每個位點的拷貝數(shù)比率差異對應(yīng)的P值;目標(biāo)樣本拷貝數(shù)變異變點初始集確定單元,與第一拷貝數(shù)比率差異計算單元相連,用于在起始位點集中選取拷貝數(shù)比率差異對應(yīng)的P值小于初始變點閾值的位點,將所選出的位點構(gòu)成的集合作為目標(biāo)樣本拷貝數(shù)變異變點初始集,并去除唯一比對的對照樣本序列和唯一比對的目標(biāo)樣本序列中未被選取的位點信息。根據(jù)本發(fā)明裝置的又一實施例,目標(biāo)樣本變點集確定模塊包括第二拷貝數(shù)比率差異計算單元,用于在目標(biāo)樣本拷貝數(shù)變異變點初始集中,以各變點間區(qū)域為窗口計算唯一比對的目標(biāo)樣本與唯一比對的對照樣本間的拷貝數(shù)比率差異對應(yīng)的P值;變點迭代單元,與第二拷貝數(shù)比率差異計算單元相連,用于將目標(biāo)樣本拷貝數(shù)變異變點初始集中每個變點對應(yīng)的P值進行排序,去除P值最大的變點信息,重新計算所去除的P值最大的變點的左右兩個變點對應(yīng)的P值,再去除目標(biāo)樣本拷貝數(shù)變異變點初始集中所剩變點中P值最大的變點信息,直至所剩變點中對應(yīng)的最大P值小于候選變點閾值和不存在變點。本發(fā)明提供的檢測拷貝數(shù)變異的方法和裝置,使用可變窗口計算變點,能夠更精確地找到拷貝數(shù)變異的邊界。簡單地增加測序深度即可提高檢測靈敏度,得到更加準(zhǔn)確的拷貝數(shù)變異邊界,同時能夠檢測到更小的拷貝數(shù)變異。


此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分。在附圖中圖I是本發(fā)明檢測拷貝數(shù)變異的方法的一個實施例的流程示意圖。圖2是本發(fā)明實施例中對照樣本NI和N2與參考基因組比對后的結(jié)果不意圖。圖3是本發(fā)明實施例中的滑動窗示意圖。圖4是本發(fā)明實施例中b點的計算示意圖。圖5是本發(fā)明實施例初始變點集的選取與合并過程示意圖。圖6是本發(fā)明實施例初始變點集的合并過程示意圖。圖7是本發(fā)明實施例提供的基于二元分割算法的拷貝數(shù)變異檢測流程示意圖。 圖8示出了圖7實施例檢測出的22號染色體局部拷貝數(shù)發(fā)生變異的區(qū)域示意圖。圖9是本發(fā)明檢測拷貝數(shù)變異的裝置的一個實施例的結(jié)構(gòu)示意圖。圖10是本發(fā)明檢測拷貝數(shù)變異的裝置的另一實施例的結(jié)構(gòu)示意圖。圖11是本發(fā)明檢測拷貝數(shù)變異的裝置的又一實施例的結(jié)構(gòu)示意圖。圖12是本發(fā)明檢測拷貝數(shù)變異的裝置的再一實施例的結(jié)構(gòu)示意圖。
具體實施例方式下面參照附圖對本發(fā)明進行更全面的描述,其中說明本發(fā)明的示例性實施例。本發(fā)明的示例性實施例及其說明用于解釋本發(fā)明,但并不構(gòu)成對本發(fā)明的不當(dāng)限定。以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應(yīng)用或使用的任何限制。隨著大規(guī)模并行測序技術(shù)成本的降低,使用計算機模擬方法與微陣列雜交技術(shù)相t匕,能夠簡單地增加測序深度即可提高檢測敏感度,以便于檢測更小拷貝數(shù)的變異;另外,在某些基因組上,使用計算機模擬方法的深度測序技術(shù)可以彌補樣本不純的缺陷;此外,雙端加標(biāo)簽的測序片段可以檢測到結(jié)構(gòu)重排信息。本發(fā)明的目的是提供檢測拷貝數(shù)變異的方法和裝置,旨在高通量測序數(shù)據(jù)背景下,通過生物信息學(xué)方法檢測目標(biāo)樣本與對照樣本間發(fā)生拷貝數(shù)變異的區(qū)域,以備后續(xù)分析。本發(fā)明基于全基因組標(biāo)準(zhǔn),針對各染色體檢測拷貝數(shù)變異區(qū)域。目前所有拷貝數(shù)變異檢測都只能檢測缺失和擴增,本發(fā)明也只針對拷貝數(shù)變異的這兩種類型,檢測的原理為如果染色體某一區(qū)域發(fā)生了拷貝數(shù)變異,則高通量測序時該區(qū)域的序列片段分布將發(fā)生變化,即,拷貝數(shù)缺失-序列密度將變小,拷貝數(shù)擴增-序列密度將變大。在本發(fā)明中,檢測拷貝數(shù)變異就是尋找這些發(fā)生變化的區(qū)域邊界,可以將此邊界定義為變點(即,某個堿基的位置),該變點左右的序列片段的拷貝數(shù)比率存在極大差異,再以拷貝數(shù)比率為標(biāo)準(zhǔn)從變點間區(qū)域(即,變點與變點之間的區(qū)域,此處操作是將基因組分段,找出侯選區(qū)域)篩選出最終的拷貝數(shù)變異區(qū)域。圖I是本發(fā)明檢測拷貝數(shù)變異的方法的一個實施例的流程示意圖。如圖I所示,該實施例可以包括以下步驟S102,在對每個樣本進行高通量測序后,對測序所得的每個樣本序列分別進行過濾,以去除掉不合格的序列和接頭序列,其中,樣本包括目標(biāo)樣本(即,變異組織)和對照樣本(即,正常組織);
具體地,對高通量測序后的樣本序列進行過濾,去除不合格的序列及接頭序列,其中,不合格序列可以為下列情況中的至少一種測序質(zhì)量低于某一閾值的堿基個數(shù)超過整條序列堿基個數(shù)的一定比例(例如,50% )和序列中測序結(jié)果不確定的堿基(例如,Illumina GA測序結(jié)果中的N)個數(shù)超過整條序列堿基個數(shù)的一定比例(例如,10%)。其中,高通量測序技術(shù)可以為Illumina GA或者HiSeq測序技術(shù),也可以為現(xiàn)有的其他高通量測序技術(shù),低質(zhì)量閾值可以由具體測序技術(shù)和測序環(huán)境確定。S104,將過濾后的每個樣本序列分別比對到參考基因組序列,對比對后的每個樣本序列分別進行篩選以得到唯一比對的樣本序列,確定每個唯一比對的樣本序列相對于參考基因組序列的位置信息,并對位置信息進行排序;具體地(I)首先可以通過任何一種短序列映射程序(例如,短寡核苷酸分析包(Short Oligonucleotide Analysis Package, SOAP))將過濾得到的每個樣本序列(即,由多個測序片段數(shù)據(jù)構(gòu)成的序列)分別比對到參考基因組序列(例如,人類基因組參考序列)得到每個樣本序列在參考基因組上的位置情況;(2)然后,對比對結(jié)果進行一系列的篩 選,例如,去除比對到多個位置的序列(因為這個序列已無法準(zhǔn)確唯一的提供比對位置信息)、去除重復(fù)出現(xiàn)的序列(因為這些序列可能是由于前期實驗引入的誤差,如由測序錯誤引起,為使檢測結(jié)果更加精準(zhǔn),故去除),以得到唯一比對的序列結(jié)果;(3)最后,選取對照樣本N、目標(biāo)樣本T以及對照樣本的子集NI和N2 (將N隨機分為近似均等的兩部分NI和N2 (N = N1+N2),并確保分割后的NI和N2均包含全部的基因組信息)的序列相對于參考基因組序列的比對位置信息,并將位置信息從小到大排序以提高后續(xù)處理的效率,其中,比對位置信息可以按染色體、堿基位置大小進行排序。S106,根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值,并將這兩個閾值作為計算目標(biāo)樣本和對照樣本間變異邊界的標(biāo)準(zhǔn),這樣不僅可以降低噪音、減小測序誤差對拷貝數(shù)變異檢測的影響,而且還可以通過設(shè)定這兩個閾值控制檢測拷貝數(shù)變異的標(biāo)準(zhǔn)。S108,根據(jù)初始變點閾值確定唯一比對的目標(biāo)樣本序列與唯一比對的對照樣本序列間的目標(biāo)樣本拷貝數(shù)變異變點初始集。S110,根據(jù)候選變點閾值通過迭代法合并目標(biāo)樣本拷貝數(shù)變異變點初始集,以得到目標(biāo)樣本拷貝數(shù)變異候選區(qū)域。S112,根據(jù)設(shè)定的拷貝數(shù)比率閾值從目標(biāo)樣本拷貝數(shù)變異候選區(qū)域中過濾出目標(biāo)樣本的拷貝數(shù)變異區(qū)域;舉例說明,以目標(biāo)樣本拷貝數(shù)變異候選區(qū)域(即,變點間區(qū)域)的拷貝數(shù)比率為過濾標(biāo)準(zhǔn),過濾出最終的目標(biāo)樣本拷貝數(shù)變異區(qū)域嚴(yán)格的過濾標(biāo)準(zhǔn),例如,拷貝數(shù)比率大于I. 5為擴增,拷貝數(shù)比率小于0. 5為缺失;寬松的過濾標(biāo)準(zhǔn)例如,拷貝數(shù)比率大于I. 3為擴增,拷貝數(shù)比率小于0. 7為缺失,同時還將小于1000堿基對長度的序列片段過濾掉。該實施例基于全基因組標(biāo)準(zhǔn)化,針對各條染色體尋找拷貝數(shù)變異,能夠更加凸顯各染色體的局部特征,為后續(xù)基因關(guān)聯(lián)分析提供支持。在本發(fā)明方法的另一實施例中,根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值的步驟可以包括步驟一,將唯一比對的對照樣本序列隨機分為兩部分,并確保分割后的第一對照樣本序列和第二對照樣本序列均包含全部的基因組信息。步驟二,根據(jù)設(shè)定的變點初始集參數(shù)確定第一對照樣本序列和第二對照樣本序列間的對照樣本拷貝數(shù)變異變點初始集;具體可以包括(I)將第一對照樣本序列和第二對照樣本序列比對到參考基因組序列,根據(jù)第一對照樣本序列或第二對照樣本序列確定與參考基因組比對上的起始位點集,如圖2所示,分別示出了 NI和N2均能比對上的第3條染色體的第200號堿基,以及NI比對上的第700號堿基,由于在N2上不一定能夠找到這個700號堿基,所以經(jīng)計算選取最接近700號堿基的一點,記錄下每個樣本序列的起始位點的位置信息,這個起始位點即為b點;(2)根據(jù)設(shè)定的窗長滑動計算起始位點集中每個位點的拷貝數(shù)比率差異對應(yīng)的P值,其中,拷貝數(shù)比率R的計算方法如下

權(quán)利要求
1.一種檢測拷貝數(shù)變異的方法,其特征在于,包括 在對每個樣本進行高通量測序后,對測序所得的每個樣本序列分別進行過濾,以去除掉不合格的序列和接頭序列,其中,樣本包括目標(biāo)樣本和對照樣本; 將過濾后的每個樣本序列分別比對到參考基因組序列,對比對后的每個樣本序列分別進行篩選以得到唯一比對的樣本序列,確定每個唯一比對的樣本序列相對于所述參考基因組序列的位置信息,并對位置信息進行排序; 根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值; 根據(jù)所述初始變點閾值確定唯一比對的目標(biāo)樣本序列與唯一比對的對照樣本序列間的目標(biāo)樣本拷貝數(shù)變異變點初始集; 根據(jù)所述候選變點閾值通過迭代法合并所述目標(biāo)樣本拷貝數(shù)變異變點初始集,以得到目標(biāo)樣本拷貝數(shù)變異候選區(qū)域; 根據(jù)設(shè)定的拷貝數(shù)比率閾值從所述目標(biāo)樣本拷貝數(shù)變異候選區(qū)域中過濾出目標(biāo)樣本的拷貝數(shù)變異區(qū)域。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值的步驟包括 將唯一比對的對照樣本序列隨機分為兩部分,并確保分割后的第一對照樣本序列和第二對照樣本序列均包含全部的基因組信息; 根據(jù)設(shè)定的變點初始集參數(shù)確定第一對照樣本序列和第二對照樣本序列間的對照樣本拷貝數(shù)變異變點初始集,將所述對照樣本拷貝數(shù)變異變點初始集中最小拷貝數(shù)比率差異對應(yīng)的P值設(shè)置為所述初始變點閾值,并去除所述第一對照樣本序列和所述第二對照樣本序列中未被所述對照樣本拷貝數(shù)變異變點初始集選中的位點信息; 根據(jù)設(shè)定的變點集參數(shù)通過迭代法合并所述對照樣本拷貝數(shù)變異變點初始集,并將合并后的對照樣本拷貝數(shù)變異變點集中最小拷貝數(shù)比率差異對應(yīng)的P值設(shè)置為所述候選變點閾值。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)所述初始變點閾值確定唯一比對的目標(biāo)樣本序列與唯一比對的對照樣本序列間的目標(biāo)樣本拷貝數(shù)變異變點初始集的步驟包括 將唯一比對的目標(biāo)樣本序列和唯一比對的對照樣本序列比對到所述參考基因組序列,根據(jù)唯一比對的對照樣本序列確定與所述參考基因組比對上的起始位點集; 根據(jù)設(shè)定的窗長滑動計算所述起始位點集中每個位點的拷貝數(shù)比率差異對應(yīng)的P值;在所述起始位點集中,選取拷貝數(shù)比率差異對應(yīng)的P值小于所述初始變點閾值的位點,將所選出的位點構(gòu)成的集合作為所述目標(biāo)樣本拷貝數(shù)變異變點初始集,并去除所述唯一比對的對照樣本序列和所述唯一比對的目標(biāo)樣本序列中未被選取的位點信息。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)所述候選變點閾值通過迭代法合并所述目標(biāo)樣本拷貝數(shù)變異變點初始集,以得到目標(biāo)樣本拷貝數(shù)變異候選區(qū)域的步驟包括 在所述目標(biāo)樣本拷貝數(shù)變異變點初始集中,以各變點間區(qū)域為窗口計算所述唯一比對的目標(biāo)樣本與唯一比對的對照樣本間的拷貝數(shù)比率差異對應(yīng)的P值; 將所述目標(biāo)樣本拷貝數(shù)變異變點初始集中每個變點對應(yīng)的P值進行排序,去除P值最大的變點信息,重新計算所去除的P值最大的變點的左右兩個變點對應(yīng)的P值,再去除所述目標(biāo)樣本拷貝數(shù)變異變點初始集中所剩變點中P值最大的變點信息,直至所剩變點中對應(yīng)的最大P值小于所述候選變點閾值或不存在變點。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)設(shè)定的變點初始集參數(shù)確定第一對照樣本序列和第二對照樣本序列間的對照樣本拷貝數(shù)變異變點初始集的步驟包括 將第一對照樣本序列和第二對照樣本序列比對到所述參考基因組序列,根據(jù)第一對照樣本序列或第二對照樣本序列確定與所述參考基因組比對上的起始位點集; 根據(jù)設(shè)定的窗長滑動計算所述起始位點集中每個位點對應(yīng)的P值; 對所述起始位點集中每個位點對應(yīng)的P值按從小到大的順序排序; 根據(jù)設(shè)定的變點初始集參數(shù)按照P值從小到大的順序選取位點,每選取一個位點,將所選取位點的左右窗口中的所有位點對應(yīng)的P值設(shè)置為1,并將選取的位點作為所述對照樣本拷貝數(shù)變異變點初始集中的變點元素。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)設(shè)定的變點集參數(shù)通過迭代法合并所述對照樣本拷貝數(shù)變異變點初始集的步驟包括 在所述對照樣本拷貝數(shù)變異變點初始集中,以各變點間區(qū)域為窗口計算所述第一對照樣本與第二對照樣本間的拷貝數(shù)比率差異對應(yīng)的P值; 將所述對照樣本拷貝數(shù)變異變點初始集中每個變點對應(yīng)的P值進行排序,去除P值最大的變點信息,重新計算所去除的P值最大的變點的左右兩個變點對應(yīng)的P值,再去除所述對照樣本拷貝數(shù)變異變點初始集中所剩變點中P值最大的變點信息,直至所述對照樣本拷貝數(shù)變異變點初始集中所剩變點個數(shù)滿足設(shè)定的變點集參數(shù)。
7.—種檢測拷貝數(shù)變異的裝置,其特征在于,包括 序列過濾模塊,用于對測序所得的每個樣本序列分別進行過濾,以去除掉不合格的序列和接頭序列,其中,樣本包括目標(biāo)樣本和對照樣本; 序列比對模塊,與所述序列過濾模塊相連,用于將過濾后的每個樣本序列分別比對到參考基因組序列,對比對后的每個樣本序列分別進行篩選以得到唯一比對的樣本序列,確定每個唯一比對的樣本序列相對于所述參考基因組序列的位置信息,并對位置信息進行排序; 閾值確定模塊,與所述序列比對模塊相連,用于根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值; 目標(biāo)樣本變點初始集確定模塊,與所述序列比對模塊和閾值確定模塊相連,用于根據(jù)所述初始變點閾值確定唯一比對的目標(biāo)樣本序列與唯一比對的對照樣本序列間的目標(biāo)樣本拷貝數(shù)變異變點初始集; 目標(biāo)樣本變點集確定模塊,與所述目標(biāo)樣本變點初始集確定模塊和閾值確定模塊相連,用于根據(jù)所述候選變點閾值通過迭代法合并所述目標(biāo)樣本拷貝數(shù)變異變點初始集,以得到目標(biāo)樣本拷貝數(shù)變異候選區(qū)域; 拷貝數(shù)變異確定模塊,與所述目標(biāo)樣本變點集確定模塊相連,用于根據(jù)設(shè)定的拷貝數(shù)比率閾值從所述目標(biāo)樣本拷貝數(shù)變異候選區(qū)域中過濾出目標(biāo)樣本的拷貝數(shù)變異區(qū)域。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述閾值確定模塊包括 序列分割單元,用于將唯一比對的對照樣本序列隨機分為兩部分,并確保分割后的第一對照樣本序列和第二對照樣本序列均包含全部的基因組信息;初始變點閾值確定單元,與所述序列分割單元相連,用于根據(jù)設(shè)定的變點初始集參數(shù)確定第一對照樣本序列和第二對照樣本序列間的對照樣本拷貝數(shù)變異變點初始集,將所述對照樣本拷貝數(shù)變異變點初始集中最小拷貝數(shù)比率差異對應(yīng)的P值設(shè)置為所述初始變點閾值,并去除所述第一對照樣本序列和所述第二對照樣本序列中未被所述對照樣本拷貝數(shù)變異變點初始集選中的位點信息; 候選變點閾值確定單元,與所述初始變點閾值確定單元相連,用于根據(jù)設(shè)定的變點集參數(shù)通過迭代法合并所述對照樣本拷貝數(shù)變異變點初始集,并將合并后的對照樣本拷貝數(shù)變異變點集中最小拷貝數(shù)比率差異對應(yīng)的P值設(shè)置為所述候選變點閾值。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述目標(biāo)樣本變點初始集確定模塊包括 起始位點集確定單元,用于將唯一比對的目標(biāo)樣本序列和唯一比對的對照樣本序列比對到所述參考基因組序列,根據(jù)唯一比對的對照樣本序列確定與所述參考基因組比對上的起始位點集; 第一拷貝數(shù)比率差異計算單元,與所述起始位點集確定單元相連,用于根據(jù)設(shè)定的窗長滑動計算所述起始位點集中每個位點的拷貝數(shù)比率差異對應(yīng)的P值; 目標(biāo)樣本拷貝數(shù)變異變點初始集確定單元,與所述第一拷貝數(shù)比率差異計算單元相連,用于在所述起始位點集中選取拷貝數(shù)比率差異對應(yīng)的P值小于所述初始變點閾值的位點,將所選出的位點構(gòu)成的集合作為所述目標(biāo)樣本拷貝數(shù)變異變點初始集,并去除所述唯一比對的對照樣本序列和所述唯一比對的目標(biāo)樣本序列中未被選取的位點信息。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述目標(biāo)樣本變點集確定模塊包括 第二拷貝數(shù)比率差異計算單元,用于在所述目標(biāo)樣本拷貝數(shù)變異變點初始集中,以各變點間區(qū)域為窗口計算所述唯一比對的目標(biāo)樣本與唯一比對的對照樣本間的拷貝數(shù)比率差異對應(yīng)的P值; 變點迭代單元,與所述第二拷貝數(shù)比率差異計算單元相連,用于將所述目標(biāo)樣本拷貝數(shù)變異變點初始集中每個變點對應(yīng)的P值進行排序,去除P值最大的變點信息,重新計算所去除的P值最大的變點的左右兩個變點對應(yīng)的P值,再去除所述目標(biāo)樣本拷貝數(shù)變異變點初始集中所剩變點中P值最大的變點信息,直至所剩變點中對應(yīng)的最大P值小于所述候選變點閾值或不存在變點。
全文摘要
本發(fā)明公開了一種檢測拷貝數(shù)變異的方法和裝置。其中,該方法包括對測序后的每個樣本序列分別進行過濾;將過濾后的每個樣本序列分別比對到參考基因組序列,對比對后的序列進行篩選,確定每個唯一比對的樣本序列的位置信息;根據(jù)唯一比對的對照樣本序列確定初始變點閾值和候選變點閾值;根據(jù)初始變點閾值確定目標(biāo)樣本拷貝數(shù)變異變點初始集;根據(jù)候選變點閾值合并目標(biāo)樣本拷貝數(shù)變異變點初始集以得到目標(biāo)樣本拷貝數(shù)變異候選區(qū)域;根據(jù)設(shè)定的拷貝數(shù)比率閾值從目標(biāo)樣本拷貝數(shù)變異候選區(qū)域中過濾出目標(biāo)樣本的拷貝數(shù)變異區(qū)域。本發(fā)明能夠通過簡單地增加測序深度提高檢測靈敏度,得到更加準(zhǔn)確的拷貝數(shù)變異邊界,同時能夠檢測到更小的拷貝數(shù)變異。
文檔編號G06F19/22GK102682224SQ20111006540
公開日2012年9月19日 申請日期2011年3月18日 優(yōu)先權(quán)日2011年3月18日
發(fā)明者李林, 李祥春, 高志博 申請人:深圳華大基因科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1