English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > 第二代高通量測序技術(shù)使用的DNA裝配工具

第二代高通量測序技術(shù)使用的DNA裝配工具

瀏覽次數(shù):11784 發(fā)布日期:2010-8-16  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)

     第二代高通量測序儀實(shí)現(xiàn)了較廉價(jià)和快速的DNA測序方法,但是它們有一個(gè)共同的缺點(diǎn)即讀出序列(reads)太短,大約在幾十個(gè)bp到幾百個(gè)bp。與生物的染色體長度相比,這樣長度的reads給下一步的裝配工作帶來麻煩?此品N類繁多的生物界其實(shí)只使用4種核苷酸,分別為A,T,G,C。這意味著DNA序列中會(huì)有數(shù)量極為龐大的片段存在重復(fù)的序列。

     因此裝配過程中有時(shí)很難判斷短reads在原序列中的位置,reads A可以放到C,D,E等多個(gè)位點(diǎn)上,reads B看似可以放在D,G,H等位點(diǎn)上。這類的工作靠手工無法完成,需要使用計(jì)算機(jī)按照一定的規(guī)則和要求來裝配reads。
     下面介紹一些非設(shè)備生產(chǎn)廠商提供的裝配軟件和特點(diǎn)。
 
1.  軟件名:Cross_match,作者:Phil Green, Brent Ewing and David Gordon
     網(wǎng)址:
 
     CROSS_MATCH用于蛋白質(zhì)和核酸的序列對(duì)照,使用Smith-Waterman-Gotoh算法。通過對(duì)遞歸關(guān)系的改進(jìn)提高了運(yùn)行效率。適用于1. 按照參照序列為reads排序。2. 比較由不同的方法得到的重疊群(contig)。3. 比較完成裝配后重疊群和粘粒(cosmid)的序列。
 
2.  軟件名:Exonerate ,作者:Guy S. Slater and Ewan Birney
     網(wǎng)址:
    
     采用啟發(fā)式漸進(jìn)算法完成排序運(yùn)算,避免了遍歷耗時(shí)長的缺點(diǎn),同時(shí)也解決了啟發(fā)漸進(jìn)算法難以執(zhí)行的問題。
 
3.  軟件名:MAQ,作者:Heng Li
     網(wǎng)址:
 
     MAQ依照參照序列對(duì)reads快速裝配,推斷出包括SNPs、插入、刪除在內(nèi)的各種變體。在排序階段,首先按照最低的錯(cuò)配值(mismatch score)搜索無空隙的排列。為提高速度MAQ只采用在前28bp中最多存在2個(gè)錯(cuò)配的reads。
     MAQ在設(shè)計(jì)時(shí)就考慮處理人類DNA序列的需要,對(duì)硬件要求低筆記本電腦就可以輕松運(yùn)行。為了便于查看結(jié)果,MAQ同時(shí)提供一個(gè)基于OpenGL的瀏覽工具M(jìn)AQview。
 
4.  軟件名:Mosaik,作者:Michael Strömberg and Gabor Marth
     網(wǎng)址:
 
     MOSAIK能夠讀取范圍較廣的reads從幾十bp到上百bp,按照Smith-Waterman算法,依據(jù)模板產(chǎn)生有空隙的排列。另外,MOSAIK支持多線程運(yùn)行,最多可有8個(gè)CPU?梢匀嬷С3大主流測序儀Roche 454, Illumina, AB SOLiD,試驗(yàn)性地支持Helicos。
 
5.  軟件名:BWA,作者:Li H. and Durbin R
     網(wǎng)址:
 
     Burrows-Wheeler Aligner (BWA)允許采用較長的參考序列,而排列相對(duì)較短的核苷酸序列。BWA執(zhí)行2種算法BWA-Short和BWA-SW。BWA-Short適用于短于200bp的reads,后者適用于大約100kbp的長度。兩者均能排列出有空隙的序列,雖然BWA-SW也能工作于較短的reads,但是它的敏感度較低,反之亦然。
 
     DNA裝配工具種類繁多,以上介紹了幾種比較典型的。此外還有RMAP,SHRiMP,SOAP,SSAHA2,SXOligoSearch等等,限于文章的篇幅這里就不一一介紹了。
     那么如何選擇一種適合自己需要的軟件呢?涉及到以下幾種因素。
1.  系統(tǒng)運(yùn)行時(shí)間,圖一是幾種軟件對(duì)不同長度reads排序的時(shí)間消耗。

圖一 By Bala et al

2.  系統(tǒng)硬件的要求,下圖是軟件消耗內(nèi)存大小的比較。

圖二 (By Bala et al)
 
3.   準(zhǔn)確度上的差異,比較結(jié)果見下圖。

圖三 (By Bala et al)
 
4.   是否能從事查找SNPs、SV等方面的工作。
5.   Solexa,454,SOLiD測序結(jié)果的輸出格式并不相同,注意有所區(qū)別。很少有一款軟件可以支持所有格式的。
 
     reads的裝配還牽涉到另一個(gè)至今未妥善解決的問題。我們把基因組的長序列打斷(shortgun method),因?yàn)椴恢勒麠l基因組序列是如何排列、如何區(qū)分來自不同染色體的reads。同時(shí)現(xiàn)有的技術(shù)又不允許一次測完整條基因組序列。必須按照一定的算法,使用計(jì)算機(jī)高速計(jì)算的能力把這些短序列組裝起來還原成原來的序列(de novo assembly)。
     因?yàn)闆]有參照序列,很可能組裝后的序列與原序列大相徑庭。一種稱作為paired-end的序列測序方法給出具有固定間距的reads。如下:
It is a very long human genome, so much longer than E.Coli’s.
It i*****ery *****huma*****ome,*****uch *****r th*****Coli***
     一個(gè)聰明的辦法,卻沒解決所有的難題。因?yàn)榛蚪M中含有大量的重復(fù)序列(repeats),多態(tài)性變異(Polymorphism),測序錯(cuò)誤(Sequencing error),一條序列存在很多可能的路(圖論),或者回環(huán)等。見下圖。

針對(duì)這些問題,已取得較滿意結(jié)果的部分軟件如下:
1.    軟件名Edena,作者:David Hernandez et al
       網(wǎng)址:
 
2.    軟件名SHARCGS,作者:Juliane Dohm et al.
       網(wǎng)址:
 
3.    軟件名SSAKE,作者:René Warren et al.
       網(wǎng)址:
 
4.    軟件名VCAKE,作者:William Jeck
       網(wǎng)址:
 
5.    軟件名Velvet,作者:Daniel Zerbino and Ewan Birney
       網(wǎng)址:
 
      目前看來能最終解決組裝問題的希望寄托在第三代高通量單分子測序技術(shù)的問世上,提高每個(gè)reads的長度才是王道。在生命探索的征途上,科學(xué)家們?nèi)沃囟肋h(yuǎn)。

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com