2014年6月10日,中科院藥用植物研究所(IMPLAD)劉昶團(tuán)隊(duì)在《PLOS ONE》雜志上發(fā)表了利用
PacBio測序技術(shù)揭示丹參(Salvia miltiorrhiza)葉綠體DNA修飾之間復(fù)雜相互作用的相關(guān)文章,該文章報(bào)道了丹參葉綠體中編碼及非編碼RNA的表達(dá)情況。這也是國內(nèi)PacBio第三代測序用戶在國際性雜志發(fā)表的第一篇文章。
丹參是最廣泛使用的藥用植物之一。作為基于葉綠體基因工程手段開發(fā)使丹參活性成分過表達(dá)方法的第一步,該研究團(tuán)隊(duì)從基因組,轉(zhuǎn)錄組,和堿基修飾三方面對丹參葉綠體進(jìn)行了分析。先從新鮮葉片中提取總基因組DNA和RNA,然后進(jìn)行鏈特異性RNA測序和PacBio公司的單分子實(shí)時(shí)(Single-Molecule Real-Time, SMRT)測序分析。
實(shí)驗(yàn)先是將RNA測序得到的reads mapping到基因組,使該研究小組確定了80個(gè)蛋白質(zhì)編碼基因的相對表達(dá)水平。此外,還明確了19個(gè)多順反子轉(zhuǎn)錄單元和136個(gè)假定反義和基因間非編碼RNA(ncRNA)基因。將蛋白編碼基因的轉(zhuǎn)錄本(cRNA)豐度與重疊反義非編碼RNA(asRNA)相比較表明,asRNA的存在與cRNA的豐度增加有關(guān)(P<0.05)。使用SMRT Portal軟件預(yù)測到了2687個(gè)潛在的DNA修飾位點(diǎn)和2個(gè)潛在的DNA修飾基序。兩個(gè)基序包括TATA盒樣基序(CPGDMM1, ''TATANNNATNA''),以及一個(gè)未知的基序(CPGDMM2, ''WNYANTGAW'')。
研究采用二代和三代DNA測序技術(shù)并用,使在基因組層面研究非編碼RNA和DNA修飾成為可能。然而,原來關(guān)于反義RNA和DNA修飾研究在實(shí)驗(yàn)上具有相當(dāng)大的困難。首先,大多數(shù)asRNA轉(zhuǎn)錄本表達(dá)水平顯著偏低,因而難以用經(jīng)典技術(shù)如Northern Blot和原位雜交進(jìn)行驗(yàn)證。第二,正義和反義轉(zhuǎn)錄本之間錯(cuò)綜復(fù)雜的關(guān)系意味著實(shí)驗(yàn)擾動(dòng)會不可避免地干擾其他轉(zhuǎn)錄本的表達(dá)。因此,通過knocking-in和knocking-out技術(shù)確定轉(zhuǎn)錄本的生物學(xué)功能是復(fù)雜的。第三,雖然SMRT技術(shù)已被證明能夠檢測到潛在的DNA修飾,但驗(yàn)證這些修飾仍然是個(gè)挑戰(zhàn)性的任務(wù)。第四,葉綠體asRNA和DNA修飾的存在和功能的驗(yàn)證是更加困難的。
綜上所述,本研究所描述的一些發(fā)現(xiàn)從目前的技術(shù)上來講是有巨大進(jìn)步的。然而,本研究提出的數(shù)據(jù)已經(jīng)證實(shí)了由asRNA和DNA修飾引起的基因表達(dá)調(diào)控的復(fù)雜性。
二,三代基因測序組裝算法和軟件研發(fā)獲突破
“第三代測序技術(shù)”的研發(fā)已有近十年時(shí)間,商業(yè)化的第三代測序儀上市也有三年。但目前測序市場仍為二代測序技術(shù)所壟斷(我國頂級科研機(jī)構(gòu)和商業(yè)公司所擁有的三代測序儀可能僅有數(shù)十臺)。三代測序技術(shù)產(chǎn)生的讀段更長,測序成本更低,其取代二代技術(shù)是測序技術(shù)發(fā)展的必然趨勢。然而由于三代測序技術(shù)錯(cuò)誤率高,現(xiàn)有的組裝軟件多是對第二代測序數(shù)據(jù)組裝軟件的“修補(bǔ)”而并沒有充分考慮到三代測序技術(shù)的數(shù)據(jù)特征。事實(shí)上,基因組裝算法問題被廣泛認(rèn)為是計(jì)算生物學(xué)和生物信息學(xué)領(lǐng)域最復(fù)雜的計(jì)算難題之一,也是目前阻礙基因測序產(chǎn)業(yè)從二代技術(shù)升級到三代技術(shù)最大的技術(shù)障礙。
最近,美國馬里蘭大學(xué) Chengxi Ye, James A. Yorke, Aleksey Zimin 等與中國科學(xué)院昆明動(dòng)物研究所遺傳資源與進(jìn)化國家重點(diǎn)實(shí)驗(yàn)室馬占山研究員在這一領(lǐng)域的合作研發(fā)取得新突破。該研究團(tuán)隊(duì)在一篇題為DBG2OLC: Efficient Assembly of Large Genomes Using the Compressed Overlap Graph 的文章中引入了一種新的針對三代測序技術(shù)的基因組裝算法,并開發(fā)出一款軟件(DBG2OLC)。另外作者(Ye et al. 2011, 2012)于2011年發(fā)布的SparseAssembler曾經(jīng)比當(dāng)時(shí)主流的基因組裝軟件節(jié)省90%的內(nèi)存空間,而其計(jì)算時(shí)間和組裝質(zhì)量卻毫不遜色。著名的SOAPdenovo的升級版,也是目前最廣泛應(yīng)用的基因組裝軟件SOAPdenovo2即采用了SparseAssembler算法。
多組測序數(shù)據(jù)的測試表明:與目前用于三代測序最優(yōu)秀的一些基因組裝軟件(例如PacBio2CA, HGAP, ECTools)相比,DBG2OLC在計(jì)算時(shí)間和內(nèi)存空間的消耗通常僅為其它算法的1/10。理論上,DBG2OLC 在時(shí)間和空間的使用上相對其它同類軟件可減少達(dá)1000倍。例如組裝關(guān)鍵步驟之一的“兩兩比對”計(jì)算,采用一組由 PacBio提供的人類基因組數(shù)據(jù),DBG2OLC 使用一臺普通PC僅用了6小時(shí)完成。而同樣計(jì)算,Pacific Biosciences所報(bào)道的時(shí)間為 405000 CPU小時(shí),而且是在Google的計(jì)算集群上完成。因此,DBG2OLC 算法基本解決了目前三代測序技術(shù)所面臨的計(jì)算技術(shù)挑戰(zhàn),從而為推進(jìn)基因測序技術(shù)的產(chǎn)業(yè)升級奠定了良好的技術(shù)基礎(chǔ)。
三,PacBio RS II 測序系統(tǒng)原理
PacBio RS測序儀系統(tǒng)能夠?qū)蝹(gè)DNA(脫氧核糖核酸)分子進(jìn)行測序,而目前市場上的主流測序儀只能對分子群體進(jìn)行平均測序。單分子測序能對DNA中罕見的序列變異進(jìn)行分析,也不需要在測序之前對DNA樣本進(jìn)行放大,因?yàn)榉糯筮^程可能引發(fā)錯(cuò)誤,導(dǎo)致對某個(gè)DNA序列檢測失敗。其工作原理是用一種聚合酶將DNA的復(fù)制限制在一個(gè)微小的間隙中,給各種堿基加上熒光示蹤標(biāo)記,當(dāng)堿基合成DNA鏈時(shí),這些熒光標(biāo)記就會發(fā)出不同顏色的閃光,根據(jù)閃光顏色就可識別出不同的堿基。
四,PacBio RS II 測序系統(tǒng)特點(diǎn)
1、測序讀長長:平均測序讀長能達(dá)到3,000至5,000堿基,最長的序列能達(dá)到20,000堿基;
2、準(zhǔn)確率高:對基因組組裝和基因組變異檢測,可以最多達(dá)到99.999%的準(zhǔn)確率;選用特殊測序模式,測序準(zhǔn)確率可以在達(dá)到單個(gè)分子99%準(zhǔn)確率的條件下,讀長超過經(jīng)典的Sanger測序法;
3、極度的敏感性:可以檢測頻率在0.1%的 minor variants;
4、直接檢測廣泛的堿基修飾:除了5-methylcytosine修飾以外, 還可以檢測N6-methyladenine, N4-methylcytosine, DNA氧化損傷 以及其它堿基的修飾.
5、GC偏向性(GC bias)小:在極端高GC和極端低GC區(qū)域,可以輕松測定,從而保證序列的均勻覆蓋度;
6、無PCR擴(kuò)增偏向性:樣本不需要進(jìn)行PCR擴(kuò)增,避免了覆蓋度不均一和PCR artifacts.