English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁(yè) > 技術(shù)文章 > 全基因組DNA甲基化測(cè)序數(shù)據(jù)工作流程分析和性能評(píng)估之分析軟件比較

全基因組DNA甲基化測(cè)序數(shù)據(jù)工作流程分析和性能評(píng)估之分析軟件比較

瀏覽次數(shù):389 發(fā)布日期:2024-7-17  來(lái)源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
DNA甲基化與轉(zhuǎn)錄調(diào)控、基因組印記、干細(xì)胞分化、胚胎發(fā)育和炎癥等過(guò)程有關(guān)。DNA甲基化異常可能揭示疾病狀態(tài),包括癌癥和神經(jīng)系統(tǒng)疾病。因此,人類(lèi)基因組中5-甲基胞嘧啶(5mC)分布和位點(diǎn)是一個(gè)重要的研究方向。全基因組重亞硫酸鹽測(cè)序(Whole-genome bisulfite sequencing, WGBS)是一種用于分析DNA甲基化的高通量方法,本文綜述了WGBS的關(guān)鍵步驟,總結(jié)了可用且最新的分析工具,比較了比對(duì)算法,并分享了數(shù)據(jù)處理的示例代碼,為科研人員的DNA甲基化研究提供參考。
 

標(biāo)題:Analysis and Performance Assessment of the Whole Genome Bisulfite Sequencing Data Workflow: Currently Available Tools and a Practical Guide to Advance DNA Methylation Studies
期刊:《small methods》
時(shí)間:2022年3月
影響因子:10.7
 
WGBS文庫(kù)制備
廣泛使用的亞硫酸鹽轉(zhuǎn)化文庫(kù)構(gòu)建方法:Accel-NGS Methyl-Seq(Accel)、TruSeq DNA Methylation(TruSeq)和SPlinted ligation adapter tagging(SPLAT)。

 
圖1:WGBS的亞硫酸鹽轉(zhuǎn)后文庫(kù)制備方法。
 
WGBS分析流程
在處理原始測(cè)序數(shù)據(jù)時(shí),生物信息學(xué)分析流程的可重復(fù)性和一致性至關(guān)重要。由于WGBS數(shù)據(jù)通常很龐大,因此需要大量的計(jì)算資源、內(nèi)存和存儲(chǔ)空間。這就要求分析流程不僅要穩(wěn)定,還要高效地使用內(nèi)存和時(shí)間。

 
圖2:WGBS數(shù)據(jù)處理和分析流程概述和原則。
 
a)質(zhì)量評(píng)估:預(yù)比對(duì)質(zhì)控(QC)以進(jìn)行測(cè)序質(zhì)量評(píng)估、接頭檢測(cè)和序列偏倚。然后對(duì)原始數(shù)據(jù)reads進(jìn)行質(zhì)量過(guò)濾和接頭修剪。
b)數(shù)據(jù)比對(duì):處理后的數(shù)據(jù)使用專(zhuān)門(mén)設(shè)計(jì)的軟件與參考基因組進(jìn)行比對(duì),生成標(biāo)準(zhǔn)的SAM/BAM格式結(jié)果。比對(duì)軟件會(huì)考慮到胞嘧啶和胸腺嘧啶的不匹配分布變化,并進(jìn)行相應(yīng)的調(diào)整。
c)比對(duì)后的質(zhì)量評(píng)估:可以通過(guò)一些比對(duì)軟件或使用外部軟件如Samtools或Qualimap來(lái)獲得比對(duì)后的質(zhì)控結(jié)果。甲基化偏差(M-bias)圖表示reads中每個(gè)位點(diǎn)的平均甲基化水平,應(yīng)該是恒定的。如果不是,則需要在甲基化calling中修剪偏倚reads。
d)甲基化calling:甲基化calling過(guò)程會(huì)在參考基因組中迭代,為胞嘧啶背景(CpG、CHG和CHH)生成原始甲基化要求。在某些情況下,比對(duì)軟件的選擇可能會(huì)影響甲基化分析結(jié)果。最終的甲基化calling報(bào)告會(huì)列出每個(gè)位點(diǎn)的甲基化百分比和覆蓋率。
e)甲基化calling結(jié)果的注釋和分析:甲基化calling結(jié)果可以進(jìn)行注釋或進(jìn)行差異甲基化區(qū)域(DMR)分析,并可以通過(guò)多種方法(如BedGraph)進(jìn)行可視化。處理大量數(shù)據(jù),如人類(lèi)基因組,可能需要降維以提高速度并避免內(nèi)存“耗盡”。
 
(1)質(zhì)量評(píng)估(Quality Assessment)
預(yù)比對(duì)質(zhì)量評(píng)估確保了原始數(shù)據(jù)的正確輸入并提高了可比對(duì)性。多維度評(píng)估審查了低質(zhì)量reads、接頭序列、污染序列和重復(fù)reads。合成測(cè)序(增加測(cè)序的堿基數(shù)量)會(huì)降低質(zhì)量,尤其是Illumina平臺(tái)。在測(cè)序過(guò)程中,DNA簇中的單個(gè)分子可能無(wú)法成功合成。錯(cuò)誤合成的分子聚類(lèi)會(huì)導(dǎo)致motif calling錯(cuò)誤,這些錯(cuò)誤與片段長(zhǎng)強(qiáng)正相關(guān)。文庫(kù)構(gòu)建中長(zhǎng)片段比例越高,可能會(huì)導(dǎo)致更多的calling錯(cuò)誤、較低的Phred得分和更高的不匹配率,特別是對(duì)于成對(duì)末端對(duì)齊。建議保留質(zhì)量分?jǐn)?shù)≥30的堿基,這表示對(duì)motif calling準(zhǔn)確性99.9%。DNA測(cè)序反應(yīng)讀長(zhǎng)通常比DNA片段長(zhǎng),片段兩端的接頭序列可能被錯(cuò)誤地測(cè)序,這會(huì)引入構(gòu)成性的甲基化C,并在隨后的甲基化calling中引起偏差,因此建議提前檢查并修剪接頭。數(shù)據(jù)可能被污染,包括在文庫(kù)制備步驟中添加引物和載體序列,以及為校準(zhǔn)測(cè)序反應(yīng)中的序列質(zhì)量而添加的Phi X噬菌體DNA。過(guò)度表示的污染物通常呈現(xiàn)顯著高于核基因組的reads深度,導(dǎo)致在比對(duì)過(guò)程中失敗。當(dāng)同一DNA片段被雙重計(jì)數(shù)時(shí),可能會(huì)發(fā)生重復(fù)reads(兩個(gè)具有相同基因位點(diǎn)的reads)。

長(zhǎng)插入片段可能會(huì)從更高比例的高質(zhì)量reads、較少接頭污染和更高有效reads深度(增加基因組覆蓋效率)中受益。TruSeq文庫(kù)制備需要特別注意重復(fù)reads,其PCR擴(kuò)增cycles數(shù)量大約是Accel的兩倍(10-12 cycles對(duì)比6-9 cycles)。

建議使用FastQC對(duì)原始FASTQ文件在修剪前后進(jìn)行質(zhì)量評(píng)估。QC結(jié)果包括一個(gè).HTML格式的摘要和包含質(zhì)量圖表的.zip文件夾。檢測(cè)每個(gè)樣本的總reads數(shù)、每個(gè)堿基的序列質(zhì)量和接頭檢測(cè)圖,以確保良好的質(zhì)量比對(duì)和比對(duì)reads數(shù)量。在亞硫酸鹽轉(zhuǎn)化過(guò)程中觀察到GC比率和內(nèi)容分布的偏倚,修剪后的FastQC報(bào)告作為雙重保障,確保在修剪后(去除接頭)每個(gè)樣本的總reads數(shù)保持不變,并確保隨機(jī)引物引起的堿基序列變化。
 
(2)reads修剪(Trimming)
使用FastQC對(duì)原始FASTQ文件進(jìn)行質(zhì)量評(píng)估后,可以利用Trim Galore軟件(具有簡(jiǎn)化的命令行和參數(shù),能夠自動(dòng)識(shí)別技術(shù)序列)和Trimmomatic軟件對(duì)低質(zhì)量reads、接頭序列、污染序列、重復(fù)序列進(jìn)行去除。這一步驟稱之為修剪(Trimming)。WGBS數(shù)據(jù)修剪主要有兩個(gè)方面:質(zhì)量修剪和接頭去除。質(zhì)量修剪側(cè)重于原始reads端的質(zhì)量下降,以及序列組成的頭部和尾部偏差。修剪方法包括剪除低于特定質(zhì)量閾值的區(qū)域(Phred默認(rèn)分?jǐn)?shù)為20,表示1/100的堿基可能是錯(cuò)誤的),或者從reads開(kāi)始和結(jié)束修剪自定數(shù)量堿基。對(duì)于非亞硫酸鹽測(cè)序的接頭去除,依賴于“過(guò)度表示的序列”和“每條序列的GC含量”。由于CG含量在WGBS數(shù)據(jù)中不適用,過(guò)度表示的序列作為接頭污染的指標(biāo),在Trim Galore中通常被檢測(cè)到。修剪參數(shù)的其他考慮因素是文庫(kù)方向和輸入reads的成對(duì)/單端特性。Trim Galore對(duì)文庫(kù)的默認(rèn)設(shè)置具有方向性,在Trim Galore中應(yīng)指定成對(duì)末端的特性,以保持成對(duì)reads,以便進(jìn)一步比對(duì)。兩個(gè)文件的reads數(shù)不匹配和reads名稱不一致會(huì)觸發(fā)警告。
 
(3)比對(duì)(Alignment)
WGBS的原理是對(duì)未甲基化的胞嘧啶(Cs)通過(guò)亞硫酸鹽處理轉(zhuǎn)化為胸腺嘧啶(Ts),同時(shí)保留甲基化的Cs。理想情況下,當(dāng)reads序列比對(duì)到參考基因組時(shí),可以識(shí)別未甲基化的Cs。然而亞硫酸鹽轉(zhuǎn)化帶來(lái)數(shù)據(jù)比對(duì)兩大計(jì)算挑戰(zhàn):C-T比對(duì)不匹配序列復(fù)雜性降低。C-T比對(duì)不匹配指的是在測(cè)序reads中,T可能與參考基因組中的C比對(duì),反之則不然。序列復(fù)雜性降低使得難以區(qū)分轉(zhuǎn)化后的Ts與系統(tǒng)錯(cuò)誤,夸大了比對(duì)不準(zhǔn)確。

為了解決這種變化帶來(lái)的reads與參考基因組不匹配的問(wèn)題,有兩種主要的比對(duì)策略:三字符策略通配符策略。三字符策略通過(guò)將參考基因組和序列reads中的所有Cs轉(zhuǎn)換為T(mén)s,將基于四字符的基因組簡(jiǎn)化為基于三字符的基因組。之后使用標(biāo)準(zhǔn)的比對(duì)工具處理reads序列,如Bowtie1或Bowtie2、BWA mem和GEM3,主要采用Burrows-Wheeler變換(BWT)回溯算法。而通配符策略用基因組中的Cs轉(zhuǎn)換為Ys,這可以與reads序列中的Cs和Ts進(jìn)行匹配。在選擇比對(duì)工具時(shí),比對(duì)的準(zhǔn)確性和計(jì)算時(shí)間是主要的考慮因素。Bock(2012)建議,通配符比對(duì)策略實(shí)現(xiàn)了更高的基因組覆蓋率,但增加了高甲基化水平評(píng)估偏差的可能,而三字符策略則相反。通配符比對(duì)軟件在BS轉(zhuǎn)化reads中保留Cs,并將序列復(fù)雜性提高到確保與參考基因組唯一比對(duì)水平,而三字符比對(duì)軟件在BS轉(zhuǎn)化reads中去除Cs,降低序列復(fù)雜性,增加了模糊比對(duì)位點(diǎn)的機(jī)會(huì)。但覆蓋差異和M偏差僅在基因組中的高相似區(qū)域中表現(xiàn)出來(lái),因此在如人類(lèi)基因組的長(zhǎng)序列reads比對(duì)不太相關(guān)。因此在比對(duì)軟件選擇中優(yōu)先考慮計(jì)算速度和內(nèi)存消耗。研究表明如Bismark和BWA-METH等三字符比對(duì)軟件在運(yùn)行時(shí)間和峰值內(nèi)存使用方面優(yōu)于如BRAT_BW、BSMAP和GSnap的通配符比對(duì)軟件。

在眾多比對(duì)軟件中,BitMapperBS和FMtree相對(duì)更節(jié)省時(shí)間,但與Bismark、BWA-METH和gemBS比對(duì)軟件相比,在1,000,000 bp成對(duì)末端模擬數(shù)據(jù)read上,并沒(méi)有觀察到6-7倍的計(jì)算時(shí)間減少。對(duì)于處理大型哺乳動(dòng)物測(cè)序項(xiàng)目的人來(lái)說(shuō),從大約24小時(shí)減少到7-8小時(shí)可能是有說(shuō)服力的,盡管在追求速度時(shí)可能會(huì)犧牲比對(duì)質(zhì)量。BitMapperBS可能無(wú)法保證在有多個(gè)不匹配的情況下獲得最高質(zhì)量比對(duì),因此作者更為推薦Bismark、BWA-METH、gemBS,這幾款軟件能節(jié)省約1/3的運(yùn)行時(shí)間且能良好的平衡運(yùn)行時(shí)間與比對(duì)質(zhì)量之間的關(guān)系。

用于亞硫酸鹽處理reads比對(duì)算法在運(yùn)行時(shí)間和比對(duì)質(zhì)量上的差異會(huì)影響下游的甲基化calling。在Accel-NGS MethylSeq、SPLAT和TruSeq等WGBS框架以及TrueMethyl和EMSeq的氧化亞硫酸鹽測(cè)序中,對(duì)廣泛應(yīng)用的比對(duì)軟件Bismark、BitMapperBS、BWA-METH和gemBS進(jìn)行評(píng)估。通過(guò)使用Seqtk的相同數(shù)據(jù)檢測(cè)的五種文庫(kù)制備方法,從樣本數(shù)據(jù)中減去1,000,000 bp成對(duì)末端reads,比較其運(yùn)行速度。比較結(jié)果顯示,BitMapperBS具有最高的對(duì)齊速度,平均每秒約550-650 reads(表1)。Bismark、BWA-METH和gemBS顯示出相同的比對(duì)速度(約每秒200-300reads0;而B(niǎo)ismark最不穩(wěn)定。

 

表1:WGBS比對(duì)軟件在速度上的比較。
 
四個(gè)比對(duì)工具在甲基化calling后的比對(duì)質(zhì)量顯示,BWA-METH和gemBS有最高的唯一比對(duì)率和最少的未比對(duì)reads(圖3A)。在每個(gè)染色體的平均CpG覆蓋度≤×10時(shí)存在微小差異,在≥×20覆蓋度時(shí),BWA-METH比其他方法有略好的覆蓋度(圖3B)。DNA片段兩端未甲基化的Cs數(shù)量對(duì)于從比對(duì)結(jié)果中獲得合格的DNA甲基化calling至關(guān)重要。使用M-bias圖對(duì)每個(gè)流程比對(duì)結(jié)果的影響規(guī)模非常相似,盡管在不同文庫(kù)之間存在較大差異(圖3C)。使用比對(duì)軟件在基因組上calling的CpGs一致性顯示,在每個(gè)注釋區(qū)域和轉(zhuǎn)錄起始位點(diǎn)(TSSs)周?chē)钠骄谆缴巷@示出可比的基因組富集分布(圖3D-E)。與此同時(shí),甲基化extraction水平不受比對(duì)軟件選擇的影響,因?yàn)锽ismark與其他三種比對(duì)軟件相比,甲基化calling相關(guān)性只略降低(圖4)。

 
圖3:四種比對(duì)算法的比對(duì)質(zhì)量比較。
 
圖4:所有 CpG 位點(diǎn)的全基因組甲基化水平的相關(guān)性矩陣
 
(4)比對(duì)質(zhì)量評(píng)估(Alignment quality control)
比對(duì)后的QC在WGBS中至關(guān)重要,WGBS的內(nèi)在混雜變量會(huì)使甲基化估計(jì)偏向于過(guò)高或過(guò)低的估計(jì),主要通過(guò)M-bias圖來(lái)檢測(cè)。在亞硫酸鹽處理過(guò)程中可能會(huì)發(fā)生部分(不完全)甲基化,此時(shí)可以觀察到C和T的peaks值,這通常會(huì)導(dǎo)致檢測(cè)過(guò)高。高于98.5%的比率可以確保沒(méi)有偏差?梢栽谒斜尘爸校–pG、CHG和CHH)向甲基化樣本中添加帶有未甲基化C的Spike序列,然后計(jì)數(shù)未甲基化C和T數(shù)量,并計(jì)算添加序列的轉(zhuǎn)化率。

同時(shí),由于估計(jì)過(guò)低導(dǎo)致的偏差會(huì)捕獲到假陰性的甲基化位點(diǎn)。例如,通過(guò)酶介導(dǎo)的碎片化雙鏈DNA末端修復(fù)會(huì)在片段兩端引入未甲基化的C,從而導(dǎo)致人為的甲基化水平低估。這在M-bias圖中反映為問(wèn)題兩端的平均甲基化水平急劇下降,這應(yīng)在提取甲基化之前予以丟棄。亞硫酸鹽介導(dǎo)的降解是WGBS中偏差的主要來(lái)源,因?yàn)榻到夥请S機(jī),發(fā)生在未甲基化的胞嘧啶上,這些胞嘧啶從文庫(kù)中舍棄。這導(dǎo)致許多隨后的序列偏差和整體甲基化的高估。
 
(5)甲基化信息提。∕ethylation extraction)
在經(jīng)過(guò)BitMapperBS、BWA-METH、Bismark和GemBS等比對(duì)軟件進(jìn)行比對(duì)后,推薦利用MethylDackel進(jìn)行甲基化信息提取。例如用MethylDackel對(duì)BitMapperBS比對(duì)后的甲基化信息提取。甲基化評(píng)估通過(guò)比較測(cè)序reads和參考基因組進(jìn)行,如果在參考基因組中某個(gè)位點(diǎn)顯示為C,在上述位點(diǎn)注意到C時(shí),就分配100%的甲基化,當(dāng)指示為T(mén)時(shí),則分配0%的甲基化。計(jì)算加權(quán)平均值,并在計(jì)算該位點(diǎn)的C和T數(shù)量后,將其指定為最終的甲基化水平。如10/10 Cs顯示完全胞嘧啶甲基化,6/10 Cs顯示部分甲基化(60%),0/10 Cs代表未甲基化胞嘧啶。在提取之前,對(duì)兩個(gè)鏈中每個(gè)位點(diǎn)的平均甲基化水平進(jìn)行M-bias分析,以識(shí)別提取reads時(shí)的基本技術(shù)偏差作為修剪參考。從理論上講,reads應(yīng)該是恒定的,但每對(duì)中的第一和第二reads通常在5'和3'端有偏倚。reads中的人為噪聲會(huì)在提取過(guò)程中引發(fā)錯(cuò)誤的甲基化calling。MethylDackel在頂部和底部線條上給出了修剪建議,這些建議可以作為后續(xù)提取的參數(shù)。MethylDackel通過(guò)比對(duì)得到的BAM文件生成bedGraph文件,記錄甲基化與未甲基化位點(diǎn)信息,這些可以用來(lái)進(jìn)行數(shù)據(jù)過(guò)濾和進(jìn)一步數(shù)據(jù)分析。
 
數(shù)據(jù)歸一化與統(tǒng)計(jì)分析
(1)CpG甲基化
文庫(kù)制備方法會(huì)顯著影響每個(gè)CpG位點(diǎn)的平均覆蓋度。與甲基化芯片數(shù)據(jù)不同,測(cè)序數(shù)據(jù)沒(méi)有標(biāo)準(zhǔn)化的歸一化方法。但數(shù)據(jù)歸一化對(duì)下游差異甲基化檢測(cè)至關(guān)重要。降采樣(Downsampling)通過(guò)減少reads序列數(shù)量,使其與相似序列數(shù)據(jù)相匹配,從而實(shí)現(xiàn)歸一化。比對(duì)產(chǎn)生的BAM文件和甲基化提取產(chǎn)生的bedGraph文件都可以降采樣。在比對(duì)階段降采樣可能在時(shí)間和內(nèi)存上要求很高,而在提取階段降采樣則需要較少的時(shí)間和內(nèi)存,同時(shí)保證了相似的甲基化calling數(shù)量、檢測(cè)到的CpG位點(diǎn)、reads數(shù)分布和平均覆蓋度的準(zhǔn)確性。因此,在進(jìn)行進(jìn)一步的數(shù)據(jù)比較之前,建議先對(duì)bedGraph文件進(jìn)行降采樣,特別是對(duì)于差異甲基化區(qū)域(DMRs)的檢測(cè)。
 
(2)DMR
DMR(差異甲基化區(qū)域)檢測(cè)是核心甲基化分析之一,涉及對(duì)多個(gè)樣本中的基因組區(qū)域進(jìn)行分析。最常見(jiàn)的應(yīng)用是在癌癥和正常樣本之間尋找可能作為生物標(biāo)志物或揭示疾病生物學(xué)的異常甲基化區(qū)域;贒MR統(tǒng)計(jì)分析方法因軟件而異,以下是一些主要方法。

BSmooth:使用局部似然平滑方法(local likelihood smoothing approach)來(lái)鑒定樣本特異性甲基化信息中的DMR。應(yīng)用Welch's t-test(Student's t-test變體)比較多個(gè)樣本。DMR是具有觀察到的P值高于預(yù)定義β值的CpG位點(diǎn)。然而預(yù)定義閾值可能導(dǎo)致II類(lèi)錯(cuò)誤(假陰性),從而影響結(jié)果。

BiSeq:通過(guò)納入錯(cuò)誤發(fā)現(xiàn)率和β二項(xiàng)分布模型來(lái)解決這一問(wèn)題,充分考慮到生物學(xué)重復(fù)。然后通過(guò)triangular kernel模型調(diào)整分層過(guò)程引起的顯著變化,計(jì)算目標(biāo)區(qū)域的統(tǒng)計(jì)顯著性。P值被歸一化、轉(zhuǎn)換為z分?jǐn)?shù)、平均值進(jìn)行比較。

MethylSig:類(lèi)似于BiSeq,應(yīng)用β二項(xiàng)分布模型來(lái)考慮reads覆蓋度和生物學(xué)意義。

Metilene:結(jié)合了二項(xiàng)分割和多變量Kolmogorov-Smirnov擬合優(yōu)度檢驗(yàn)(K-S 檢驗(yàn))。這種非參數(shù)方法使用逐步分割基因組區(qū)域,被穩(wěn)步地最小化到CpG數(shù)量少于預(yù)定義下限的區(qū)域,或在統(tǒng)計(jì)顯著性上沒(méi)有改善的區(qū)域。這種方法對(duì)累積樣本分布的差異性更敏感。

methylKit:對(duì)單樣本情況使用Fisher's精確檢驗(yàn),對(duì)多重復(fù)樣本使用基于logistical回歸的統(tǒng)計(jì)方法計(jì)算組間差異。

Defiant:是一個(gè)獨(dú)立的程序,使用加權(quán)Welch擴(kuò)展鑒定DMR。對(duì)于只有一個(gè)重復(fù)的兩個(gè)樣本,使用Fisher's精確檢驗(yàn),對(duì)于有多個(gè)重復(fù)的樣本,使用Welch's t-test,基于覆蓋度對(duì)無(wú)偏樣本方差進(jìn)行加權(quán)。

Benjamini-Hochberg:應(yīng)用于調(diào)整DMR鑒定中多重t檢驗(yàn)的P值。數(shù)據(jù)分布本質(zhì)上是二項(xiàng)的,因?yàn)榇蠖鄶?shù)甲基化分布要么是完全甲基化的,要么是完全未甲基化的,表明二項(xiàng)分布模型性能優(yōu)于其他模型。

由于reads覆蓋度變化和人口統(tǒng)計(jì)參數(shù)(如性別、年齡和種族)的共變異對(duì)DMR檢測(cè)有強(qiáng)相關(guān),因此數(shù)據(jù)的歸一化轉(zhuǎn)換和協(xié)變量調(diào)整至關(guān)重要。
 
案例研究
WGBS 數(shù)據(jù)的計(jì)算分析具有挑戰(zhàn)性,包括分析 FASTQ 讀長(zhǎng)、甲基化估計(jì)、位點(diǎn)注釋、DMR 檢測(cè)和可視化。以下為WGBS數(shù)據(jù)分析的綜合案例研究。

(1)分析工具

(2)數(shù)據(jù)分析
① Pre-alignment

 
圖5:FASTQ 文件元素
 
使用以下代碼檢測(cè) R1 (WGBS_R1.fastq) 和 R2 (WGBS_R2.fastq) 讀取的原始 FASTQ 質(zhì)量:

 
結(jié)果包括一個(gè).html格式的摘要和一個(gè)帶有質(zhì)量數(shù)字的.zip文件夾。MultiQC 將具有多個(gè) FastQC 結(jié)果的樣品合并到一份.html報(bào)告中。
圖6:FastQC的質(zhì)控報(bào)告
 
 
 
② reads修剪

③ 比對(duì)和甲基化calling
Bismark:

BitMapperBS:

DMR的注釋和分析

易小結(jié):
DNA甲基化和其他表觀基因組分析的動(dòng)態(tài)標(biāo)記與不同人類(lèi)疾病的診斷和預(yù)后相關(guān)聯(lián)。對(duì)甲基化結(jié)果的深刻且低偏倚解釋是下游生物學(xué)機(jī)制研究的核心。本綜述討論了分析WGBS數(shù)據(jù)的計(jì)算方法,并介紹了使用現(xiàn)有工具從原始reads檢測(cè)DMR所需的基本QC分析步驟。此外,還提出了甲基化文庫(kù)制備和數(shù)據(jù)處理中固有的潛在混雜因素及其對(duì)策。希望潛在用戶能夠理解WGBS的基本概念,從而加速人類(lèi)疾病的發(fā)現(xiàn)。

參考文獻(xiàn):
1、Gong T, Borgard H, Zhang Z, Chen S, Gao Z, Deng Y. Analysis and Performance Assessment of the Whole Genome Bisulfite Sequencing Data Workflow: Currently Available Tools and a Practical Guide to Advance DNA Methylation Studies. Small Methods. 2022 Mar;6(3):e2101251. doi: 10.1002/smtd.202101251. PubMed PMID: 35064762.
來(lái)源:深圳市易基因科技有限公司
聯(lián)系電話:0755-28317900
E-mail:wuhuanhuan@e-gene.cn

標(biāo)簽: DNA甲基化
用戶名: 密碼: 匿名 快速注冊(cè) 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com