當(dāng)前位置 > 首頁(yè) > 技術(shù)文章 > 全基因組DNA甲基化測(cè)序數(shù)據(jù)工作流程分析和性能評(píng)估之分析軟件比較

選型 | 市場(chǎng) | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

全基因組DNA甲基化測(cè)序數(shù)據(jù)工作流程分析和性能評(píng)估之分析軟件比較

瀏覽次數(shù)：389　發(fā)布日期：2024-7-17　來(lái)源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

DNA甲基化與轉(zhuǎn)錄調(diào)控、基因組印記、干細(xì)胞分化、胚胎發(fā)育和炎癥等過(guò)程有關(guān)。DNA甲基化異常可能揭示疾病狀態(tài)，包括癌癥和神經(jīng)系統(tǒng)疾病。因此，人類(lèi)基因組中5-甲基胞嘧啶（5mC）分布和位點(diǎn)是一個(gè)重要的研究方向。全基因組重亞硫酸鹽測(cè)序(Whole-genome bisulfite sequencing, WGBS)是一種用于分析DNA甲基化的高通量方法，本文綜述了WGBS的關(guān)鍵步驟，總結(jié)了可用且最新的分析工具，比較了比對(duì)算法，并分享了數(shù)據(jù)處理的示例代碼，為科研人員的DNA甲基化研究提供參考。

標(biāo)題：Analysis and Performance Assessment of the Whole Genome Bisulfite Sequencing Data Workflow: Currently Available Tools and a Practical Guide to Advance DNA Methylation Studies
期刊：《small methods》
時(shí)間：2022年3月
影響因子：10.7

WGBS文庫(kù)制備
廣泛使用的亞硫酸鹽轉(zhuǎn)化文庫(kù)構(gòu)建方法：Accel-NGS Methyl-Seq（Accel）、TruSeq DNA Methylation（TruSeq）和SPlinted ligation adapter tagging（SPLAT）。

圖1：WGBS的亞硫酸鹽轉(zhuǎn)后文庫(kù)制備方法。

WGBS分析流程
在處理原始測(cè)序數(shù)據(jù)時(shí)，生物信息學(xué)分析流程的可重復(fù)性和一致性至關(guān)重要。由于WGBS數(shù)據(jù)通常很龐大，因此需要大量的計(jì)算資源、內(nèi)存和存儲(chǔ)空間。這就要求分析流程不僅要穩(wěn)定，還要高效地使用內(nèi)存和時(shí)間。

圖2：WGBS數(shù)據(jù)處理和分析流程概述和原則。

a）質(zhì)量評(píng)估：預(yù)比對(duì)質(zhì)控(QC)以進(jìn)行測(cè)序質(zhì)量評(píng)估、接頭檢測(cè)和序列偏倚。然后對(duì)原始數(shù)據(jù)reads進(jìn)行質(zhì)量過(guò)濾和接頭修剪。
b）數(shù)據(jù)比對(duì)：處理后的數(shù)據(jù)使用專(zhuān)門(mén)設(shè)計(jì)的軟件與參考基因組進(jìn)行比對(duì)，生成標(biāo)準(zhǔn)的SAM/BAM格式結(jié)果。比對(duì)軟件會(huì)考慮到胞嘧啶和胸腺嘧啶的不匹配分布變化，并進(jìn)行相應(yīng)的調(diào)整。
c）比對(duì)后的質(zhì)量評(píng)估：可以通過(guò)一些比對(duì)軟件或使用外部軟件如Samtools或Qualimap來(lái)獲得比對(duì)后的質(zhì)控結(jié)果。甲基化偏差(M-bias)圖表示reads中每個(gè)位點(diǎn)的平均甲基化水平，應(yīng)該是恒定的。如果不是，則需要在甲基化calling中修剪偏倚reads。
d）甲基化calling：甲基化calling過(guò)程會(huì)在參考基因組中迭代，為胞嘧啶背景(CpG、CHG和CHH)生成原始甲基化要求。在某些情況下，比對(duì)軟件的選擇可能會(huì)影響甲基化分析結(jié)果。最終的甲基化calling報(bào)告會(huì)列出每個(gè)位點(diǎn)的甲基化百分比和覆蓋率。
e）甲基化calling結(jié)果的注釋和分析：甲基化calling結(jié)果可以進(jìn)行注釋或進(jìn)行差異甲基化區(qū)域(DMR)分析，并可以通過(guò)多種方法（如BedGraph）進(jìn)行可視化。處理大量數(shù)據(jù)，如人類(lèi)基因組，可能需要降維以提高速度并避免內(nèi)存“耗盡”。

（1）質(zhì)量評(píng)估（Quality Assessment）
預(yù)比對(duì)質(zhì)量評(píng)估確保了原始數(shù)據(jù)的正確輸入并提高了可比對(duì)性。多維度評(píng)估審查了低質(zhì)量reads、接頭序列、污染序列和重復(fù)reads。合成測(cè)序（增加測(cè)序的堿基數(shù)量）會(huì)降低質(zhì)量，尤其是Illumina平臺(tái)。在測(cè)序過(guò)程中，DNA簇中的單個(gè)分子可能無(wú)法成功合成。錯(cuò)誤合成的分子聚類(lèi)會(huì)導(dǎo)致motif calling錯(cuò)誤，這些錯(cuò)誤與片段長(zhǎng)強(qiáng)正相關(guān)。文庫(kù)構(gòu)建中長(zhǎng)片段比例越高，可能會(huì)導(dǎo)致更多的calling錯(cuò)誤、較低的Phred得分和更高的不匹配率，特別是對(duì)于成對(duì)末端對(duì)齊。建議保留質(zhì)量分?jǐn)?shù)≥30的堿基，這表示對(duì)motif calling準(zhǔn)確性99.9%。DNA測(cè)序反應(yīng)讀長(zhǎng)通常比DNA片段長(zhǎng)，片段兩端的接頭序列可能被錯(cuò)誤地測(cè)序，這會(huì)引入構(gòu)成性的甲基化C，并在隨后的甲基化calling中引起偏差，因此建議提前檢查并修剪接頭。數(shù)據(jù)可能被污染，包括在文庫(kù)制備步驟中添加引物和載體序列，以及為校準(zhǔn)測(cè)序反應(yīng)中的序列質(zhì)量而添加的Phi X噬菌體DNA。過(guò)度表示的污染物通常呈現(xiàn)顯著高于核基因組的reads深度，導(dǎo)致在比對(duì)過(guò)程中失敗。當(dāng)同一DNA片段被雙重計(jì)數(shù)時(shí)，可能會(huì)發(fā)生重復(fù)reads（兩個(gè)具有相同基因位點(diǎn)的reads）。

長(zhǎng)插入片段可能會(huì)從更高比例的高質(zhì)量reads、較少接頭污染和更高有效reads深度（增加基因組覆蓋效率）中受益。TruSeq文庫(kù)制備需要特別注意重復(fù)reads，其PCR擴(kuò)增cycles數(shù)量大約是Accel的兩倍（10-12 cycles對(duì)比6-9 cycles）。

建議使用FastQC對(duì)原始FASTQ文件在修剪前后進(jìn)行質(zhì)量評(píng)估。QC結(jié)果包括一個(gè).HTML格式的摘要和包含質(zhì)量圖表的.zip文件夾。檢測(cè)每個(gè)樣本的總reads數(shù)、每個(gè)堿基的序列質(zhì)量和接頭檢測(cè)圖，以確保良好的質(zhì)量比對(duì)和比對(duì)reads數(shù)量。在亞硫酸鹽轉(zhuǎn)化過(guò)程中觀察到GC比率和內(nèi)容分布的偏倚，修剪后的FastQC報(bào)告作為雙重保障，確保在修剪后（去除接頭）每個(gè)樣本的總reads數(shù)保持不變，并確保隨機(jī)引物引起的堿基序列變化。

（2）reads修剪（Trimming）
使用FastQC對(duì)原始FASTQ文件進(jìn)行質(zhì)量評(píng)估后，可以利用Trim Galore軟件（具有簡(jiǎn)化的命令行和參數(shù)，能夠自動(dòng)識(shí)別技術(shù)序列）和Trimmomatic軟件對(duì)低質(zhì)量reads、接頭序列、污染序列、重復(fù)序列進(jìn)行去除。這一步驟稱之為修剪(Trimming)。WGBS數(shù)據(jù)修剪主要有兩個(gè)方面：質(zhì)量修剪和接頭去除。質(zhì)量修剪側(cè)重于原始reads端的質(zhì)量下降，以及序列組成的頭部和尾部偏差。修剪方法包括剪除低于特定質(zhì)量閾值的區(qū)域（Phred默認(rèn)分?jǐn)?shù)為20，表示1/100的堿基可能是錯(cuò)誤的），或者從reads開(kāi)始和結(jié)束修剪自定數(shù)量堿基。對(duì)于非亞硫酸鹽測(cè)序的接頭去除，依賴于“過(guò)度表示的序列”和“每條序列的GC含量”。由于CG含量在WGBS數(shù)據(jù)中不適用，過(guò)度表示的序列作為接頭污染的指標(biāo)，在Trim Galore中通常被檢測(cè)到。修剪參數(shù)的其他考慮因素是文庫(kù)方向和輸入reads的成對(duì)/單端特性。Trim Galore對(duì)文庫(kù)的默認(rèn)設(shè)置具有方向性，在Trim Galore中應(yīng)指定成對(duì)末端的特性，以保持成對(duì)reads，以便進(jìn)一步比對(duì)。兩個(gè)文件的reads數(shù)不匹配和reads名稱不一致會(huì)觸發(fā)警告。

（3）比對(duì)（Alignment）
WGBS的原理是對(duì)未甲基化的胞嘧啶(Cs)通過(guò)亞硫酸鹽處理轉(zhuǎn)化為胸腺嘧啶(Ts)，同時(shí)保留甲基化的Cs。理想情況下，當(dāng)reads序列比對(duì)到參考基因組時(shí)，可以識(shí)別未甲基化的Cs。然而亞硫酸鹽轉(zhuǎn)化帶來(lái)數(shù)據(jù)比對(duì)兩大計(jì)算挑戰(zhàn)：C-T比對(duì)不匹配和序列復(fù)雜性降低。C-T比對(duì)不匹配指的是在測(cè)序reads中，T可能與參考基因組中的C比對(duì)，反之則不然。序列復(fù)雜性降低使得難以區(qū)分轉(zhuǎn)化后的Ts與系統(tǒng)錯(cuò)誤，夸大了比對(duì)不準(zhǔn)確。

為了解決這種變化帶來(lái)的reads與參考基因組不匹配的問(wèn)題，有兩種主要的比對(duì)策略：三字符策略和通配符策略。三字符策略通過(guò)將參考基因組和序列reads中的所有Cs轉(zhuǎn)換為T(mén)s，將基于四字符的基因組簡(jiǎn)化為基于三字符的基因組。之后使用標(biāo)準(zhǔn)的比對(duì)工具處理reads序列，如Bowtie1或Bowtie2、BWA mem和GEM3，主要采用Burrows-Wheeler變換(BWT)回溯算法。而通配符策略用基因組中的Cs轉(zhuǎn)換為Ys，這可以與reads序列中的Cs和Ts進(jìn)行匹配。在選擇比對(duì)工具時(shí)，比對(duì)的準(zhǔn)確性和計(jì)算時(shí)間是主要的考慮因素。Bock(2012)建議，通配符比對(duì)策略實(shí)現(xiàn)了更高的基因組覆蓋率，但增加了高甲基化水平評(píng)估偏差的可能，而三字符策略則相反。通配符比對(duì)軟件在BS轉(zhuǎn)化reads中保留Cs，并將序列復(fù)雜性提高到確保與參考基因組唯一比對(duì)水平，而三字符比對(duì)軟件在BS轉(zhuǎn)化reads中去除Cs，降低序列復(fù)雜性，增加了模糊比對(duì)位點(diǎn)的機(jī)會(huì)。但覆蓋差異和M偏差僅在基因組中的高相似區(qū)域中表現(xiàn)出來(lái)，因此在如人類(lèi)基因組的長(zhǎng)序列reads比對(duì)不太相關(guān)。因此在比對(duì)軟件選擇中優(yōu)先考慮計(jì)算速度和內(nèi)存消耗。研究表明如Bismark和BWA-METH等三字符比對(duì)軟件在運(yùn)行時(shí)間和峰值內(nèi)存使用方面優(yōu)于如BRAT_BW、BSMAP和GSnap的通配符比對(duì)軟件。

在眾多比對(duì)軟件中，BitMapperBS和FMtree相對(duì)更節(jié)省時(shí)間，但與Bismark、BWA-METH和gemBS比對(duì)軟件相比，在1,000,000 bp成對(duì)末端模擬數(shù)據(jù)read上，并沒(méi)有觀察到6-7倍的計(jì)算時(shí)間減少。對(duì)于處理大型哺乳動(dòng)物測(cè)序項(xiàng)目的人來(lái)說(shuō)，從大約24小時(shí)減少到7-8小時(shí)可能是有說(shuō)服力的，盡管在追求速度時(shí)可能會(huì)犧牲比對(duì)質(zhì)量。BitMapperBS可能無(wú)法保證在有多個(gè)不匹配的情況下獲得最高質(zhì)量比對(duì)，因此作者更為推薦Bismark、BWA-METH、gemBS，這幾款軟件能節(jié)省約1/3的運(yùn)行時(shí)間且能良好的平衡運(yùn)行時(shí)間與比對(duì)質(zhì)量之間的關(guān)系。

用于亞硫酸鹽處理reads比對(duì)算法在運(yùn)行時(shí)間和比對(duì)質(zhì)量上的差異會(huì)影響下游的甲基化calling。在Accel-NGS MethylSeq、SPLAT和TruSeq等WGBS框架以及TrueMethyl和EMSeq的氧化亞硫酸鹽測(cè)序中，對(duì)廣泛應(yīng)用的比對(duì)軟件Bismark、BitMapperBS、BWA-METH和gemBS進(jìn)行評(píng)估。通過(guò)使用Seqtk的相同數(shù)據(jù)檢測(cè)的五種文庫(kù)制備方法，從樣本數(shù)據(jù)中減去1,000,000 bp成對(duì)末端reads，比較其運(yùn)行速度。比較結(jié)果顯示，BitMapperBS具有最高的對(duì)齊速度，平均每秒約550-650 reads（表1）。Bismark、BWA-METH和gemBS顯示出相同的比對(duì)速度（約每秒200-300reads0；而B(niǎo)ismark最不穩(wěn)定。

表1：WGBS比對(duì)軟件在速度上的比較。

四個(gè)比對(duì)工具在甲基化calling后的比對(duì)質(zhì)量顯示，BWA-METH和gemBS有最高的唯一比對(duì)率和最少的未比對(duì)reads（圖3A）。在每個(gè)染色體的平均CpG覆蓋度≤×10時(shí)存在微小差異，在≥×20覆蓋度時(shí)，BWA-METH比其他方法有略好的覆蓋度（圖3B）。DNA片段兩端未甲基化的Cs數(shù)量對(duì)于從比對(duì)結(jié)果中獲得合格的DNA甲基化calling至關(guān)重要。使用M-bias圖對(duì)每個(gè)流程比對(duì)結(jié)果的影響規(guī)模非常相似，盡管在不同文庫(kù)之間存在較大差異（圖3C）。使用比對(duì)軟件在基因組上calling的CpGs一致性顯示，在每個(gè)注釋區(qū)域和轉(zhuǎn)錄起始位點(diǎn)(TSSs)周?chē)钠骄谆缴巷@示出可比的基因組富集分布（圖3D-E）。與此同時(shí)，甲基化extraction水平不受比對(duì)軟件選擇的影響，因?yàn)锽ismark與其他三種比對(duì)軟件相比，甲基化calling相關(guān)性只略降低（圖4）。

圖3：四種比對(duì)算法的比對(duì)質(zhì)量比較。

圖4：所有 CpG 位點(diǎn)的全基因組甲基化水平的相關(guān)性矩陣

（4）比對(duì)質(zhì)量評(píng)估（Alignment quality control）
比對(duì)后的QC在WGBS中至關(guān)重要，WGBS的內(nèi)在混雜變量會(huì)使甲基化估計(jì)偏向于過(guò)高或過(guò)低的估計(jì)，主要通過(guò)M-bias圖來(lái)檢測(cè)。在亞硫酸鹽處理過(guò)程中可能會(huì)發(fā)生部分（不完全）甲基化，此時(shí)可以觀察到C和T的peaks值，這通常會(huì)導(dǎo)致檢測(cè)過(guò)高。高于98.5%的比率可以確保沒(méi)有偏差�？梢栽谒斜尘爸校–pG、CHG和CHH）向甲基化樣本中添加帶有未甲基化C的Spike序列，然后計(jì)數(shù)未甲基化C和T數(shù)量，并計(jì)算添加序列的轉(zhuǎn)化率。

同時(shí)，由于估計(jì)過(guò)低導(dǎo)致的偏差會(huì)捕獲到假陰性的甲基化位點(diǎn)。例如，通過(guò)酶介導(dǎo)的碎片化雙鏈DNA末端修復(fù)會(huì)在片段兩端引入未甲基化的C，從而導(dǎo)致人為的甲基化水平低估。這在M-bias圖中反映為問(wèn)題兩端的平均甲基化水平急劇下降，這應(yīng)在提取甲基化之前予以丟棄。亞硫酸鹽介導(dǎo)的降解是WGBS中偏差的主要來(lái)源，因?yàn)榻到夥请S機(jī)，發(fā)生在未甲基化的胞嘧啶上，這些胞嘧啶從文庫(kù)中舍棄。這導(dǎo)致許多隨后的序列偏差和整體甲基化的高估。

（5）甲基化信息提�。∕ethylation extraction）
在經(jīng)過(guò)BitMapperBS、BWA-METH、Bismark和GemBS等比對(duì)軟件進(jìn)行比對(duì)后，推薦利用MethylDackel進(jìn)行甲基化信息提取。例如用MethylDackel對(duì)BitMapperBS比對(duì)后的甲基化信息提取。甲基化評(píng)估通過(guò)比較測(cè)序reads和參考基因組進(jìn)行，如果在參考基因組中某個(gè)位點(diǎn)顯示為C，在上述位點(diǎn)注意到C時(shí)，就分配100%的甲基化，當(dāng)指示為T(mén)時(shí)，則分配0%的甲基化。計(jì)算加權(quán)平均值，并在計(jì)算該位點(diǎn)的C和T數(shù)量后，將其指定為最終的甲基化水平。如10/10 Cs顯示完全胞嘧啶甲基化，6/10 Cs顯示部分甲基化（60%），0/10 Cs代表未甲基化胞嘧啶。在提取之前，對(duì)兩個(gè)鏈中每個(gè)位點(diǎn)的平均甲基化水平進(jìn)行M-bias分析，以識(shí)別提取reads時(shí)的基本技術(shù)偏差作為修剪參考。從理論上講，reads應(yīng)該是恒定的，但每對(duì)中的第一和第二reads通常在5'和3'端有偏倚。reads中的人為噪聲會(huì)在提取過(guò)程中引發(fā)錯(cuò)誤的甲基化calling。MethylDackel在頂部和底部線條上給出了修剪建議，這些建議可以作為后續(xù)提取的參數(shù)。MethylDackel通過(guò)比對(duì)得到的BAM文件生成bedGraph文件，記錄甲基化與未甲基化位點(diǎn)信息，這些可以用來(lái)進(jìn)行數(shù)據(jù)過(guò)濾和進(jìn)一步數(shù)據(jù)分析。

數(shù)據(jù)歸一化與統(tǒng)計(jì)分析
（1）CpG甲基化
文庫(kù)制備方法會(huì)顯著影響每個(gè)CpG位點(diǎn)的平均覆蓋度。與甲基化芯片數(shù)據(jù)不同，測(cè)序數(shù)據(jù)沒(méi)有標(biāo)準(zhǔn)化的歸一化方法。但數(shù)據(jù)歸一化對(duì)下游差異甲基化檢測(cè)至關(guān)重要。降采樣(Downsampling)通過(guò)減少reads序列數(shù)量，使其與相似序列數(shù)據(jù)相匹配，從而實(shí)現(xiàn)歸一化。比對(duì)產(chǎn)生的BAM文件和甲基化提取產(chǎn)生的bedGraph文件都可以降采樣。在比對(duì)階段降采樣可能在時(shí)間和內(nèi)存上要求很高，而在提取階段降采樣則需要較少的時(shí)間和內(nèi)存，同時(shí)保證了相似的甲基化calling數(shù)量、檢測(cè)到的CpG位點(diǎn)、reads數(shù)分布和平均覆蓋度的準(zhǔn)確性。因此，在進(jìn)行進(jìn)一步的數(shù)據(jù)比較之前，建議先對(duì)bedGraph文件進(jìn)行降采樣，特別是對(duì)于差異甲基化區(qū)域（DMRs）的檢測(cè)。

（2）DMR
DMR（差異甲基化區(qū)域）檢測(cè)是核心甲基化分析之一，涉及對(duì)多個(gè)樣本中的基因組區(qū)域進(jìn)行分析。最常見(jiàn)的應(yīng)用是在癌癥和正常樣本之間尋找可能作為生物標(biāo)志物或揭示疾病生物學(xué)的異常甲基化區(qū)域�；贒MR統(tǒng)計(jì)分析方法因軟件而異，以下是一些主要方法。

BSmooth：使用局部似然平滑方法（local likelihood smoothing approach）來(lái)鑒定樣本特異性甲基化信息中的DMR。應(yīng)用Welch's t-test（Student's t-test變體）比較多個(gè)樣本。DMR是具有觀察到的P值高于預(yù)定義β值的CpG位點(diǎn)。然而預(yù)定義閾值可能導(dǎo)致II類(lèi)錯(cuò)誤（假陰性），從而影響結(jié)果。

BiSeq：通過(guò)納入錯(cuò)誤發(fā)現(xiàn)率和β二項(xiàng)分布模型來(lái)解決這一問(wèn)題，充分考慮到生物學(xué)重復(fù)。然后通過(guò)triangular kernel模型調(diào)整分層過(guò)程引起的顯著變化，計(jì)算目標(biāo)區(qū)域的統(tǒng)計(jì)顯著性。P值被歸一化、轉(zhuǎn)換為z分?jǐn)?shù)、平均值進(jìn)行比較。

MethylSig：類(lèi)似于BiSeq，應(yīng)用β二項(xiàng)分布模型來(lái)考慮reads覆蓋度和生物學(xué)意義。

Metilene：結(jié)合了二項(xiàng)分割和多變量Kolmogorov-Smirnov擬合優(yōu)度檢驗(yàn)(K-S 檢驗(yàn))。這種非參數(shù)方法使用逐步分割基因組區(qū)域，被穩(wěn)步地最小化到CpG數(shù)量少于預(yù)定義下限的區(qū)域，或在統(tǒng)計(jì)顯著性上沒(méi)有改善的區(qū)域。這種方法對(duì)累積樣本分布的差異性更敏感。

methylKit：對(duì)單樣本情況使用Fisher's精確檢驗(yàn)，對(duì)多重復(fù)樣本使用基于logistical回歸的統(tǒng)計(jì)方法計(jì)算組間差異。

Defiant：是一個(gè)獨(dú)立的程序，使用加權(quán)Welch擴(kuò)展鑒定DMR。對(duì)于只有一個(gè)重復(fù)的兩個(gè)樣本，使用Fisher's精確檢驗(yàn)，對(duì)于有多個(gè)重復(fù)的樣本，使用Welch's t-test，基于覆蓋度對(duì)無(wú)偏樣本方差進(jìn)行加權(quán)。

Benjamini-Hochberg：應(yīng)用于調(diào)整DMR鑒定中多重t檢驗(yàn)的P值。數(shù)據(jù)分布本質(zhì)上是二項(xiàng)的，因?yàn)榇蠖鄶?shù)甲基化分布要么是完全甲基化的，要么是完全未甲基化的，表明二項(xiàng)分布模型性能優(yōu)于其他模型。

由于reads覆蓋度變化和人口統(tǒng)計(jì)參數(shù)（如性別、年齡和種族）的共變異對(duì)DMR檢測(cè)有強(qiáng)相關(guān)，因此數(shù)據(jù)的歸一化轉(zhuǎn)換和協(xié)變量調(diào)整至關(guān)重要。

案例研究
WGBS 數(shù)據(jù)的計(jì)算分析具有挑戰(zhàn)性，包括分析 FASTQ 讀長(zhǎng)、甲基化估計(jì)、位點(diǎn)注釋、DMR 檢測(cè)和可視化。以下為WGBS數(shù)據(jù)分析的綜合案例研究。

（1）分析工具

（2）數(shù)據(jù)分析
① Pre-alignment

圖5：FASTQ 文件元素

使用以下代碼檢測(cè) R1 （WGBS_R1.fastq）和 R2 （WGBS_R2.fastq）讀取的原始 FASTQ 質(zhì)量：

結(jié)果包括一個(gè).html格式的摘要和一個(gè)帶有質(zhì)量數(shù)字的.zip文件夾。MultiQC 將具有多個(gè) FastQC 結(jié)果的樣品合并到一份.html報(bào)告中。

圖6：FastQC的質(zhì)控報(bào)告

② reads修剪

③ 比對(duì)和甲基化calling
Bismark：

BitMapperBS:

DMR的注釋和分析

易小結(jié)：
DNA甲基化和其他表觀基因組分析的動(dòng)態(tài)標(biāo)記與不同人類(lèi)疾病的診斷和預(yù)后相關(guān)聯(lián)。對(duì)甲基化結(jié)果的深刻且低偏倚解釋是下游生物學(xué)機(jī)制研究的核心。本綜述討論了分析WGBS數(shù)據(jù)的計(jì)算方法，并介紹了使用現(xiàn)有工具從原始reads檢測(cè)DMR所需的基本QC分析步驟。此外，還提出了甲基化文庫(kù)制備和數(shù)據(jù)處理中固有的潛在混雜因素及其對(duì)策。希望潛在用戶能夠理解WGBS的基本概念，從而加速人類(lèi)疾病的發(fā)現(xiàn)。

參考文獻(xiàn)：
1、Gong T, Borgard H, Zhang Z, Chen S, Gao Z, Deng Y. Analysis and Performance Assessment of the Whole Genome Bisulfite Sequencing Data Workflow: Currently Available Tools and a Practical Guide to Advance DNA Methylation Studies. Small Methods. 2022 Mar;6(3):e2101251. doi: 10.1002/smtd.202101251. PubMed PMID: 35064762.

索取資料

來(lái)源：深圳市易基因科技有限公司
聯(lián)系電話：0755-28317900
E-mail：wuhuanhuan@e-gene.cn

【點(diǎn)擊可查看深圳市易基因科技有限公司相關(guān)服務(wù)】

標(biāo)簽： DNA甲基化

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類(lèi)新聞】【相關(guān)服務(wù)】【關(guān)閉窗口】

本類(lèi)文章

本類(lèi)新聞