ChIP-seq(染色質(zhì)免疫沉淀測(cè)序)實(shí)驗(yàn)指南和實(shí)踐(ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia),由ENCODE(Encyclopedia of DNA Elements)和modENCODE(Model Organism ENCODE)聯(lián)盟研究人員撰寫。文章發(fā)表在《Genome Research》期刊上,從ChIP概述、ChIP-seq實(shí)驗(yàn)設(shè)計(jì)注意事項(xiàng)、數(shù)據(jù)評(píng)估及數(shù)據(jù)報(bào)告指南四個(gè)方面對(duì)ChIP-seq進(jìn)行了相關(guān)介紹,旨在提供一個(gè)標(biāo)準(zhǔn)化框架,以確保ChIP-seq實(shí)驗(yàn)的質(zhì)量和數(shù)據(jù)的可靠性。小編分享其中的ChIP-seq概述、ChIP-seq實(shí)驗(yàn)設(shè)計(jì)指南和實(shí)驗(yàn)設(shè)計(jì)注意事項(xiàng)。
ChIP概述:
全基因組ChIP實(shí)驗(yàn)的目標(biāo)是定位整個(gè)基因組中具有最大信噪比和完整性目標(biāo)蛋白的結(jié)合位點(diǎn)。ChIP-seq的基本流程如圖1A所示。用化學(xué)試劑處理細(xì)胞或組織,使蛋白質(zhì)與DNA共價(jià)交聯(lián)。然后是通過細(xì)胞破碎和超聲處理,或是酶解(某些情況),將染色質(zhì)剪至100-300bp大小。再通過靶向該因子的特異性抗體純化目標(biāo)蛋白(轉(zhuǎn)錄因子、組蛋白修飾、RNA聚合酶等)及其結(jié)合DNA,相對(duì)于起始染色質(zhì)進(jìn)行富集。另外,也可以生成表達(dá)表位標(biāo)記因子的細(xì)胞系,并通過表位標(biāo)簽免疫沉淀融合蛋白。
免疫富集后,交聯(lián)被逆轉(zhuǎn),富集的DNA被純化并制備用于分析。在ChIP-chip中,DNA與差異標(biāo)記的參考DNA一起被熒光標(biāo)記并與DNA微陣列雜交。在ChIP-seq中,通過高通量DNA測(cè)序分析,在所有設(shè)計(jì)中,實(shí)驗(yàn)樣品中的ChIP信號(hào)將與從適當(dāng)?shù)膶?duì)照染色質(zhì)或?qū)φ彰庖叱恋碇苽涞念愃铺幚淼膮⒖紭悠愤M(jìn)行比較來確定假定富集的基因組區(qū)域。
不同的蛋白質(zhì)類別與基因組具有不同的互作模式,需要不同的分析方法:
1. 點(diǎn)源因子(Point-source factors)和某些染色質(zhì)修飾定位于特定位置,產(chǎn)生高定位的ChIP-seq信號(hào)。這一類包括大多數(shù)序列特異性轉(zhuǎn)錄因子、它們的輔助因子、以及在一些情況下與轉(zhuǎn)錄起始位點(diǎn)或增強(qiáng)子相關(guān)的組蛋白標(biāo)記。這些構(gòu)成了ENCODE和modENCODE項(xiàng)目的大部分內(nèi)容。
2. 廣源因子(Broad-source factors)與大的基因組區(qū)域相關(guān)。例如,某些染色標(biāo)記(H3K9me3、H3K36me3等)以及與轉(zhuǎn)錄延伸或抑制相關(guān)的染色質(zhì)蛋白(例如ZNF217)。
3. 混合源因子(Mixed-source factors)可以在基因組某些位點(diǎn)以點(diǎn)源方式結(jié)合,但在其他位置形成更廣泛結(jié)合域,如RNA聚合酶II以及一些染色質(zhì)修飾蛋白(SUZ12)以這種方式表現(xiàn)。
圖1:ChIP-seq工作流程和抗體表征程序概述
A. 特定ENCODE指南的步驟用紅色表示。其他步驟存在標(biāo)準(zhǔn)ENCODE協(xié)議,應(yīng)針對(duì)每種新的細(xì)胞系/組織類型或超聲進(jìn)行驗(yàn)證和優(yōu)化。(*)常用但可選的步驟。
B. 表征新抗體或抗體批次的流程圖。
C. 使用抗體表征檢測(cè)的流程圖。
ChIP 實(shí)驗(yàn)設(shè)計(jì)指南
(1)測(cè)序和文庫(kù)復(fù)雜性
對(duì)于每個(gè)哺乳動(dòng)物基因組的ChIP-seq點(diǎn)源庫(kù),ENCODE的目標(biāo)是在每次重復(fù)中獲得≥10M唯一比對(duì)reads,以及目標(biāo)NRF(非冗余分?jǐn)?shù))≥0.8。modENCODE點(diǎn)源因子的相應(yīng)目標(biāo)是每次重復(fù)獲得≥2M唯一比對(duì)reads,≥0.8 NRF。果蠅中的廣源ChIP-seq,modENCODE目標(biāo)reads是≥5M,哺乳動(dòng)物廣源組蛋白標(biāo)記的ENCODE臨時(shí)目標(biāo)在NRF≥0.8時(shí)的唯一比對(duì)reads≥20M。
(2)對(duì)照文庫(kù)
ENCODE為每種細(xì)胞類型、組織或胚胎集合生成并測(cè)序一個(gè)對(duì)照ChIP庫(kù),并將文庫(kù)測(cè)序至合適深度(至少等于且優(yōu)選大于測(cè)序最深的實(shí)驗(yàn)文庫(kù))。如果成本限制允許,應(yīng)該從每個(gè)染色質(zhì)制備和超聲處理批次中制備對(duì)照文庫(kù)。重要的是,如果培養(yǎng)條件、處理、染色質(zhì)剪切方案或儀器有明顯差異,則需要進(jìn)行新的對(duì)照實(shí)驗(yàn)。
(3)可重復(fù)性
實(shí)驗(yàn)至少設(shè)置兩個(gè)生物學(xué)重復(fù)以確?芍貜(fù)性。為了使ENCODE數(shù)據(jù)通過提交標(biāo)準(zhǔn),使用IDR方法通過分析確定一致性,如果未達(dá)到標(biāo)準(zhǔn),則需要進(jìn)行第三次重復(fù)。通過IDR確定用于后續(xù)分析的高度可重復(fù)peak的截止值(通常使用1%的閾值)。
本ChIP實(shí)驗(yàn)設(shè)計(jì)指南確保了ChIP-seq實(shí)驗(yàn)?zāi)軌虍a(chǎn)生高質(zhì)量、可重復(fù)的數(shù)據(jù),這對(duì)于后續(xù)的分析和生物學(xué)發(fā)現(xiàn)至關(guān)重要。通過遵循這些標(biāo)準(zhǔn),研究人員可以提高實(shí)驗(yàn)的準(zhǔn)確性和可靠性,從而為科學(xué)界提供有價(jià)值的數(shù)據(jù)資源。
ChIP-seq實(shí)驗(yàn)設(shè)計(jì)注意事項(xiàng):
(1)抗體和免疫共沉淀特異性:
ChIP實(shí)驗(yàn)的質(zhì)量取決于抗體的特異性和親和沉淀步驟中實(shí)現(xiàn)的富集程度。人類細(xì)胞和果蠅胚胎中的大多數(shù)ENCODE/modENCODE ChIP實(shí)驗(yàn)用抗個(gè)體因子和組蛋白修飾抗體進(jìn)行。
抗體缺陷主要有兩種類型:(1)對(duì)預(yù)期靶點(diǎn)的反應(yīng)性差,和/或(2)與其他DNA相關(guān)蛋白的交叉反應(yīng)性。為此制定了一套工作標(biāo)準(zhǔn)和報(bào)告指南,旨在提供試劑識(shí)別目標(biāo)抗原的置信度,并且與其他染色體蛋白的交叉反應(yīng)最小。用于測(cè)量抗體特異性和敏感性的廣泛可用的方法范圍從半定量到定性,每種方法都可能存在噪聲和解釋問題。因此強(qiáng)調(diào)報(bào)告抗體表征數(shù)據(jù),以便對(duì)ChIP數(shù)據(jù)或試劑本身做出明智的判斷。當(dāng)然也可能使用不嚴(yán)格遵守這些指南的試劑進(jìn)行成功實(shí)驗(yàn)。例如,在免疫印跡分析中檢測(cè)到的交叉反應(yīng)蛋白可能不會(huì)干擾ChIP,因?yàn)樵摰鞍撞桓街谌旧|(zhì)。不同類型的二次測(cè)試可以幫助提供關(guān)于初始評(píng)估失敗的抗體可接受性的信心。
兩個(gè)測(cè)試(初次測(cè)試和二次測(cè)試)用于表征每個(gè)單克隆抗體或不同批次的相同多克隆抗體。初次和二次測(cè)試的順序受執(zhí)行每個(gè)測(cè)試所需工作量的影響,初次試驗(yàn)更容易對(duì)大量抗體進(jìn)行。轉(zhuǎn)錄因子抗體與組蛋白修飾抗體的測(cè)試有所不同。典型的工作流程見圖2B和圖2C。通過和未通過這些測(cè)試的抗體示例如圖2A所示。
聯(lián)盟還包括五個(gè)標(biāo)準(zhǔn)之一作為二次測(cè)試表征:(1)通過突變或RNAi“敲低”因子,(2)使用靶向蛋白質(zhì)上多個(gè)表位或靶向同一復(fù)合物不同成員抗體的獨(dú)立ChIP實(shí)驗(yàn),(3)使用帶有表位標(biāo)記的構(gòu)建體進(jìn)行免疫沉淀,(4)親和富集,然后進(jìn)行質(zhì)譜分析,或(5)結(jié)合位點(diǎn)基序(motif)分析。motif富集是最容易進(jìn)行的檢測(cè),但需要有關(guān)蛋白質(zhì)結(jié)合序列的預(yù)先存在的信息,并假設(shè)motif在給定的細(xì)胞來源中被感興趣的因子唯一識(shí)別。具有第二抗體或靶向表位標(biāo)記的構(gòu)建體的ChIP和與ChIP結(jié)合的siRNA實(shí)驗(yàn)提供了獨(dú)立的證據(jù),表明靶位點(diǎn)受目標(biāo)因子結(jié)合。質(zhì)譜法對(duì)于在免疫印跡上觀察到多個(gè)或意外條帶并且懷疑存在剪接同種型,翻譯后修飾或降解的情況特別有用。此外,它可以精確識(shí)別潛在的ChIP信號(hào)替代源,通常具有新穎的生物學(xué)意義,可以通過額外的ChIP實(shí)驗(yàn)進(jìn)行測(cè)試。由于進(jìn)行這些檢測(cè)需要大量精力和費(fèi)用,聯(lián)盟標(biāo)準(zhǔn)僅要求進(jìn)行一次二次測(cè)試。約20%(227個(gè)中的44個(gè))的測(cè)試市售抗轉(zhuǎn)錄因子抗體符合這些表征指南,并且在ChIP-seq分析中也起作用。
迄今為止,55%的聯(lián)盟抗體已提交質(zhì)譜數(shù)據(jù),28%使用第二抗體、表位標(biāo)簽或已知復(fù)合物的替代成員的ChIP數(shù)據(jù),10%使用來自motif分析的數(shù)據(jù),7%使用siRNA敲低數(shù)據(jù)。
驗(yàn)證組蛋白修飾抗體涉及多個(gè)問題:(1)對(duì)其他細(xì)胞核/染色質(zhì)蛋白的特異性,(2)對(duì)未修飾的組蛋白和非靶修飾的組蛋白殘基(例如H3K9me與H3K27me)的特異性,(3)對(duì)同一殘基(例如H3K9me1,H3K9me2和H3K9me3)的單甲基化,二甲基化和三甲基化的特異性,以及(4)批次間變異。對(duì)于所有聯(lián)盟組蛋白檢測(cè),設(shè)定了應(yīng)用免疫印跡分析和以下二級(jí)標(biāo)準(zhǔn)之一的標(biāo)準(zhǔn):肽結(jié)合試驗(yàn)(dot blots)、質(zhì)譜分析、含有相關(guān)組蛋白修飾酶或突變體組蛋白敲低細(xì)胞系中的免疫反應(yīng)性分析或基因組注釋富集。
圖2 來自抗體鑒定分析的代表性結(jié)果
(2)使用表位標(biāo)記結(jié)構(gòu)物的免疫共沉淀:
鑒于在獲得適合ChIP抗體方面存在挑戰(zhàn),一個(gè)有吸引力的替代方法是用外源性表位標(biāo)記該因子,并用對(duì)該標(biāo)記特異性表征良好的單克隆試劑進(jìn)行免疫沉淀。表位標(biāo)記通過使用可用于許多不同因子的高度特異性試劑來解決抗體變異和與多基因家族不同成員的交叉反應(yīng)問題。然而,這引入了對(duì)表達(dá)水平以及標(biāo)記是否會(huì)改變因子活性的擔(dān)憂。
(3)重復(fù)、測(cè)序深度、文庫(kù)復(fù)雜性和位點(diǎn)發(fā)現(xiàn):
來自獨(dú)立細(xì)胞培養(yǎng)物、胚胎庫(kù)或組織樣本的生物重復(fù)實(shí)驗(yàn)用于評(píng)估可重復(fù)性。初始 RNA 聚合酶 II ChIP-seq 實(shí)驗(yàn)表明,兩個(gè)以上的重復(fù)沒有顯著改善位點(diǎn)發(fā)現(xiàn)。因此ENCODE聯(lián)盟設(shè)置了標(biāo)準(zhǔn),即所有ChIP檢測(cè)都將在兩個(gè)獨(dú)立的生物重復(fù)上進(jìn)行。不可重復(fù)發(fā)現(xiàn)率(IDR)分析方法現(xiàn)在被用于評(píng)估重復(fù)一致性和設(shè)置閾值。
對(duì)于典型的點(diǎn)源DNA結(jié)合因子,ChIP-seq鑒定出的陽性位點(diǎn)數(shù)量通常會(huì)隨著測(cè)序reads數(shù)量而增加。因?yàn)镃hIP信號(hào)強(qiáng)度的連續(xù)統(tǒng)一體,而不是一組界限分明且離散的陽性位點(diǎn)。由于更多reads提供了更高的統(tǒng)計(jì)能力,因此可以在更大的數(shù)據(jù)集中更有信心地檢測(cè)到較弱的位點(diǎn)。圖3顯示了對(duì)11個(gè)人類ENCODE ChIP-seq數(shù)據(jù)集的peak calling分析,這些數(shù)據(jù)集獲得了深度序列數(shù)據(jù)(3000~1億比對(duì)讀長(zhǎng))。對(duì)于結(jié)合位點(diǎn)很少的因子,觀察到reads數(shù)明顯飽和,但對(duì)于所有其他因子,reads數(shù)繼續(xù)以不同的速率增加,包括使用100M比對(duì)reads calling>150000 peaks的情況。對(duì)peaks信號(hào)分析表明,該信號(hào)在較大的測(cè)序深度下始終保持平穩(wěn)。目前將20M比對(duì)reads作為點(diǎn)源轉(zhuǎn)錄因子的所有ENCODE ChIP實(shí)驗(yàn)的最低值,通常中位數(shù)富集5~13倍;在20M reads鑒定出的新peaks富集程度約為最強(qiáng)peaks富集程度的20%(圖3C)。且通過測(cè)序到更深深度可以發(fā)現(xiàn)許多新peaks,其富集值為3~7倍。這些區(qū)域中的許多可能對(duì)應(yīng)于低親和力位點(diǎn)和/或開放染色質(zhì)區(qū)域,這些區(qū)域與TF的特異性結(jié)合較少。
圖3:測(cè)序深度決定peaks數(shù)
(A) 11個(gè)ENCODE ChIP-seq數(shù)據(jù)集,使用Peak-seq(0.01%FDR截止值)calling的peaks數(shù)。
(B) peaks calling和唯一比對(duì)reads數(shù)之間的關(guān)系,為11個(gè)ChIP-seq數(shù)據(jù)集calling peaks數(shù)。插圖為HepG2細(xì)胞的MAFK數(shù)據(jù)集的peaks數(shù)據(jù),該數(shù)據(jù)集是目前測(cè)序最深的ENCODE ChIP-seq數(shù)據(jù)集(由于相對(duì)于其他數(shù)據(jù)集的reads明顯較大,因此單獨(dú)顯示)。數(shù)據(jù)集由細(xì)胞系和轉(zhuǎn)錄因子(例如細(xì)胞系HepG2,轉(zhuǎn)錄因子MAFK)表示。
(C) 隨著測(cè)序深度的增加,新calling peaks值的富集倍數(shù)變化。每增加2.5M唯一比對(duì)reads,計(jì)算新calling peaks與IgG對(duì)照數(shù)據(jù)集(在相同測(cè)序深度下測(cè)序)相比的中位數(shù)富集倍數(shù),并將其繪制成圖表。
ChIP信號(hào)強(qiáng)度與生物調(diào)節(jié)活性的關(guān)系是當(dāng)前積極研究的領(lǐng)域。已知增強(qiáng)子的生物活性在文獻(xiàn)中被定義,并且與ChIP-seq信號(hào)強(qiáng)度相比,其分布相當(dāng)廣泛。一些高活性轉(zhuǎn)錄增強(qiáng)子可重復(fù)地顯示適度的ChIP信號(hào)(圖4B)。這意味著不能先驗(yàn)地為ChIP peaks數(shù)或ChIP信號(hào)強(qiáng)度設(shè)置特定的目標(biāo)閾值,以確保包含所有功能位點(diǎn)。因此,一個(gè)實(shí)際的目標(biāo)是通過在合理的經(jīng)費(fèi)限制內(nèi),通過優(yōu)化免疫沉淀和深度測(cè)序來最大限度地發(fā)現(xiàn)位點(diǎn)。對(duì)于哺乳動(dòng)物細(xì)胞中的點(diǎn)源因子,ENCODE對(duì)每個(gè)生物學(xué)重復(fù)至少產(chǎn)生10M唯一比對(duì)reads(每個(gè)因子至少提供20M唯一比對(duì)reads);蠕蟲和蒼蠅的每個(gè)重復(fù)至少產(chǎn)生2M唯一比對(duì)reads。對(duì)于廣泛的富集區(qū)域,目前正在研究適當(dāng)數(shù)量的唯一比對(duì)reads,但目前哺乳動(dòng)物細(xì)胞的大多數(shù)實(shí)驗(yàn),每個(gè)重復(fù)至少產(chǎn)生20M唯一比對(duì)reads,蠕蟲和蒼蠅每個(gè)重復(fù)至少產(chǎn)生5M唯一比對(duì)reads。
圖4:評(píng)估ChIP-seq實(shí)驗(yàn)質(zhì)量的標(biāo)準(zhǔn)
(A) 文庫(kù)的復(fù)雜性。表示比對(duì)到正(紅色)或負(fù)鏈(藍(lán)色)的單個(gè)read。
(B) 功能性調(diào)控元件與ChIP-seq信號(hào)強(qiáng)度的分布。在分化的小鼠肌細(xì)胞中,針對(duì)肌細(xì)胞生成素(肌肉分化的主要調(diào)節(jié)劑)進(jìn)行ChIP-seq。雖然許多廣泛表征的肌肉調(diào)節(jié)元件表現(xiàn)出強(qiáng)烈的肌生成素結(jié)合,但大量已知的功能位點(diǎn)處于結(jié)合強(qiáng)度連續(xù)體的低端。
(C) calling的peaks數(shù)量與ChIP富集的關(guān)系。除了特殊情況外,成功的實(shí)驗(yàn)可以為大多數(shù)TF鑒定出數(shù)千到數(shù)萬個(gè)peaks,數(shù)百或低數(shù)千的數(shù)字表示失敗。使用具有默認(rèn)閾值的MACS calling peaks。
(D) 生成交叉相關(guān)圖。通過將reads按照比對(duì)到的鏈方向移動(dòng)增減堿基對(duì),并計(jì)算了每條鏈的每個(gè)位置reads數(shù)向量之間的Pearson相關(guān)性。reads覆蓋以wigglegram圖表示。
(E) 在ChIP實(shí)驗(yàn)中通常觀察到兩個(gè)交叉相關(guān)peaks,一個(gè)對(duì)應(yīng)于讀長(zhǎng)(“phantom”peaks),另一個(gè)對(duì)應(yīng)于文庫(kù)的平均片段長(zhǎng)度。
(F) 對(duì)于1052個(gè)人ChIP-seq實(shí)驗(yàn),calling區(qū)域內(nèi)的reads數(shù)與相對(duì)交叉相關(guān)系數(shù)之間的相關(guān)性。
(G) 兩個(gè)peaks的絕對(duì)高度和相對(duì)高度是ChIP-seq實(shí)驗(yàn)成功的有用決定因素。高質(zhì)量IP的特征是ChIP peaks遠(yuǎn)高于“phantom”peaks,而在失敗的實(shí)驗(yàn)中通常很小或沒有這樣的峰。這個(gè)指標(biāo)有助于判斷實(shí)驗(yàn)中抗體對(duì)目標(biāo)蛋白的富集效果。
位點(diǎn)發(fā)現(xiàn)和可重復(fù)性也受到ChIP-seq測(cè)序文庫(kù)復(fù)雜性的影響(圖4A)。將文庫(kù)復(fù)雜性定義為非冗余DNA片段的比例。隨著文庫(kù)測(cè)序深度的增加,最終達(dá)到了一個(gè)點(diǎn),復(fù)雜性將耗盡,相同的PCR擴(kuò)增DNA片段將被重復(fù)測(cè)序。當(dāng)在IP期間分離出非常少量的DNA或由于文庫(kù)構(gòu)建問題時(shí),文庫(kù)復(fù)雜性可能會(huì)降低。
一個(gè)有用的復(fù)雜性度量是數(shù)據(jù)集中非冗余比對(duì) reads比例(非冗余比例或NRF),將其定義為基因組中唯一可比對(duì)reads比對(duì)到的位點(diǎn)與唯一可比對(duì)reads總數(shù)之間的比率,類似于冗余度量。NRF隨著測(cè)序深度的增加而降低,對(duì)于點(diǎn)源TF,目標(biāo)在10M唯一比對(duì)reads的NRF≥0.8。隨著測(cè)序技術(shù)改進(jìn)和每條泳道的reads達(dá)到100M將成為可能,即使來自點(diǎn)源因子庫(kù)的復(fù)雜文庫(kù)也可能在比必要的深度更大的深度進(jìn)行測(cè)序。為了最大化每次DNA測(cè)序運(yùn)行可以獲得的信息并防止過度測(cè)序,可以使用條形碼和合并策略。
(4)對(duì)照樣品(Control sample):
適當(dāng)?shù)膶?duì)照數(shù)據(jù)集對(duì)于d任何ChIP-seq實(shí)驗(yàn)的分析都至關(guān)重要,因?yàn)槌曁幚磉^程中的DNA斷裂不均勻。例如開放染色質(zhì)的某些區(qū)域優(yōu)先在超聲處理的樣品中表示,還有一些平臺(tái)特定的測(cè)序效率偏差會(huì)導(dǎo)致不均勻性。有兩種產(chǎn)生對(duì)照DNA樣本的基本方法減輕了這些問題對(duì)結(jié)合位點(diǎn)鑒定的影響:(1)從與免疫沉淀DNA相同條件下交聯(lián)和片段化的細(xì)胞中分離DNA (“Input” DNA);(2)使用與不相關(guān)的非核抗原(“IgG”對(duì)照)反應(yīng)的對(duì)照抗體進(jìn)行“模擬”ChIP反應(yīng)。對(duì)于這兩種類型的對(duì)照,編碼組序列的深度至少等于且優(yōu)選大于ChIP樣本的深度。雖然IgG對(duì)照比“Input”對(duì)照更接近于模擬ChIP實(shí)驗(yàn),但重要的是,IgG對(duì)照免疫沉淀可恢復(fù)足夠的DNA,以建立一個(gè)與實(shí)驗(yàn)樣品具有足夠高復(fù)雜性的文庫(kù);否則,使用該對(duì)照進(jìn)行的結(jié)合位點(diǎn)識(shí)別可能會(huì)有很大偏差。
無論使用何種類型的對(duì)照,ENCODE和modENCODE組都會(huì)對(duì)每個(gè)細(xì)胞系,發(fā)育階段和不同的培養(yǎng)條件/處理進(jìn)行單獨(dú)的對(duì)照實(shí)驗(yàn),因?yàn)橛绊懭旧|(zhì)制備的倍性、基因型和表觀遺傳特征存在已知和未知的差異。為了作為有效的對(duì)照,使用相同的協(xié)議來構(gòu)建ChIP和對(duì)照測(cè)序文庫(kù)(即與PCR擴(kuò)增次數(shù)、片段大小等相同)。已經(jīng)觀察到具有特別強(qiáng)的超聲波偏差的對(duì)照文庫(kù),它們可能會(huì)對(duì)peaks calling產(chǎn)生不利影響。ENCODE/modENCODE組還盡可能為每批超聲處理的樣品生成單獨(dú)的對(duì)照,以控制可能的超聲處理變化。
(5)Peak calling:
將reads比對(duì)到基因組后,使用peaks calling軟件來鑒定ChIP富集區(qū)域。SPP、PeakSeq和MACs這些算法的結(jié)果output通常按絕對(duì)信號(hào)(reads數(shù))或通過計(jì)算的富集顯著性(P值和錯(cuò)誤發(fā)現(xiàn)率)對(duì)區(qū)域進(jìn)行排序。因?yàn)镃hIP信號(hào)強(qiáng)度是一個(gè)連續(xù)體,弱位點(diǎn)多于強(qiáng)位點(diǎn)(圖4B),最終peaks列表的組成在很大程度上取決于特定的參數(shù)設(shè)置和使用的算法以及實(shí)驗(yàn)本身的質(zhì)量。閾值太寬松會(huì)導(dǎo)致每次重復(fù)假陽性比例很高,但后續(xù)分析可以從最終聯(lián)合peaks確定中去除假陽性。不同的peak calling算法依賴于不同的統(tǒng)計(jì)模型來計(jì)算P-values和錯(cuò)誤發(fā)現(xiàn)率(FDR),這意味著來自不同軟件包的顯著性不能直接比較。當(dāng)使用標(biāo)準(zhǔn)的peak calling閾值時(shí),成功的實(shí)驗(yàn)通常會(huì)為哺乳動(dòng)物基因組中的大多數(shù)TF識(shí)別數(shù)千到數(shù)萬個(gè)peaks。在所有情況下,在peak calling中使用適當(dāng)?shù)膶?duì)照實(shí)驗(yàn)都很重要。
將離散的富集區(qū)域稱為廣源因子或混合源因子更具挑戰(zhàn)性,并且處于發(fā)展的早期階段。識(shí)別這些區(qū)域的方法正在出現(xiàn)(如ZINBA、MACS2、MACS的更新版本),專門用于處理混合信號(hào)類型。
參考文獻(xiàn):
Landt SG, Marinov GK, Kundaje A, Kheradpour P, Pauli F, Batzoglou S, Bernstein BE, Bickel P, Brown JB, Cayting P, Chen Y, DeSalvo G, Epstein C, Fisher-Aylor KI, Euskirchen G, Gerstein M, Gertz J, Hartemink AJ, Hoffman MM, Iyer VR, Jung YL, Karmakar S, Kellis M, Kharchenko PV, Li Q, Liu T, Liu XS, Ma L, Milosavljevic A, Myers RM, Park PJ, Pazin MJ, Perry MD, Raha D, Reddy TE, Rozowsky J, Shoresh N, Sidow A, Slattery M, Stamatoyannopoulos JA, Tolstorukov MY, White KP, Xi S, Farnham PJ, Lieb JD, Wold BJ, Snyder M. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia. Genome Res. 2012 Sep;22(9):1813-31.