當(dāng)前位置 > 首頁 > 技術(shù)文章 > 染色質(zhì)免疫共沉淀測序(ChIP-seq）的數(shù)據(jù)挖掘思路

選型 | 市場 | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

染色質(zhì)免疫共沉淀測序(ChIP-seq）的數(shù)據(jù)挖掘思路

瀏覽次數(shù)：928　發(fā)布日期：2023-3-27　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

CHIP-seq研究的數(shù)據(jù)挖掘思路主要分為3步：

1. 整體把握CHIP-seq圖譜特征：peak/reads在基因組上的分布、peak在元件上的富集、peak在基因元件上的分布、peak的motif分析、peak距離TSS位點(diǎn)的距離分析、peak修飾基因的功能分析
2. 篩選具體差異peak和基因：差異 peak鑒定、非時序數(shù)據(jù)的分析策略、時序數(shù)據(jù)的分析策略、差異peak關(guān)聯(lián)基因的功能分析、差異peak關(guān)聯(lián)基因的PPI分析、感興趣目標(biāo)區(qū)域的可視化展示
3. CHIP-seq&轉(zhuǎn)錄組學(xué)關(guān)聯(lián)分析：Meta genes整體關(guān)聯(lián)、peak關(guān)聯(lián)基因與DEG對應(yīng)關(guān)聯(lián)、目標(biāo)區(qū)域和靶基因的篩選

后期視情況是否需要下游實(shí)驗(yàn)設(shè)計(jì)驗(yàn)證TF結(jié)合/組蛋白修飾的目標(biāo)區(qū)域和候選靶基因。

1、圖譜分析
（1）peak/reads在基因組上的分布
l Peak的分布就是蛋白與DNA互作圖譜。
l 不同蛋白對DNA的結(jié)合可以按照峰的寬窄和分布特征分為：

· narrow peak：即發(fā)生在DNA上特定的短序列，結(jié)合的區(qū)域很短。
· broad peak：這種類型的peak在DNA上呈彌散的連續(xù)的分布，峰型較寬。

l 一般來說，轉(zhuǎn)錄因子的峰型都是narrow peak；而對于組蛋白修飾，有的峰型為 narrow peak，有的為broad peak。

· 可以通過調(diào)整參數(shù)或使用不同的軟件分別鑒定narrow peak及broad peak。

（2）信號的富集程度分析——覆蓋度累積曲線
對樣本比對結(jié)果reads累積情況進(jìn)行展示。一定長度窗口(bin)上reads數(shù)進(jìn)行計(jì)數(shù)，然后排序，再依次累加畫圖。input (能測到90 DNA片段)在基因組理論上是均勻分布，隨著測序深度增加趨近于直線，實(shí)驗(yàn)組在排序越高的窗口處reads累積速度越快，說明這些區(qū)域富集的越特異。
narrow peak ：富集程度高；broad peak：富集程度低。

· 富集程度低不代表失敗，如broad peak。
· 但是如果是轉(zhuǎn)錄因子，富集程度低則需要謹(jǐn)慎對待。

（3）peak/reads的基因元件富集分析

· reference-point(relative to a point): 計(jì)算某個點(diǎn)的信號豐度
· scale-regions(over a set of regions): 把所有基因組區(qū)段縮放至同樣大小，然后計(jì)算其信號豐度。

基于信號富集的靶基因集分類鑒定（基于聚類算法）

（4）peak/reads的基因元件分布分析

（5）peak/reads與TSS的相對距離分布
轉(zhuǎn)錄因子、組蛋白修飾往往具有重要的轉(zhuǎn)錄調(diào)控功能，而TSS附近是主要的轉(zhuǎn)錄調(diào)控區(qū)域，因此判斷peak與TSS的位置關(guān)系有重要的意義。

（6）降維分析
將基因組分為等長窗口（bins），計(jì)算各樣本各窗口內(nèi)的Reads覆蓋情況并進(jìn)行標(biāo)準(zhǔn)化�；诖藬�(shù)據(jù)進(jìn)行相關(guān)性、聚類和PCA分析。

（7）motif分析
Motif為一段有特征的DNA短序列，主要為轉(zhuǎn)錄因子的識別位點(diǎn)，不同的motif對應(yīng)不同的轉(zhuǎn)錄因子。

· 根據(jù)motif可以推測結(jié)合的轉(zhuǎn)錄因子。
· 已知轉(zhuǎn)錄因子則分析該轉(zhuǎn)錄因子識別的序列特征。

（8）peak的基因注釋和功能分析

· ORA
· GSEA: 可以按照peak信號強(qiáng)度排序

2、差異peak分析
（1）非時間序列數(shù)據(jù)：

（2）時間序列數(shù)據(jù)：

（3）差異peak關(guān)聯(lián)基因的PPI分析

（4）感興趣基因的差異peak展示

3、組學(xué)關(guān)聯(lián)分析：CHIP-seq&轉(zhuǎn)錄組學(xué)
（1）Meta genes整體關(guān)聯(lián)

距離TSS位點(diǎn)不同距離的peak注釋到的基因的表達(dá)水平分析
不同表達(dá)水平的基因，peak的數(shù)量分布對比

轉(zhuǎn)錄水平倍數(shù)變化 vs. peak倍數(shù)變化

（2）差異peak基因-DEG對應(yīng)關(guān)聯(lián)：篩選關(guān)鍵目的基因

peak關(guān)聯(lián)基因與差異表達(dá)基因的重疊分析。
peak關(guān)聯(lián)基因可以是peak注釋到啟動子區(qū)，TSS±10kb區(qū)的基因，也可以來自已知公共數(shù)據(jù)庫的注釋，如Human Enhancer Disease Database (HEDD)。
九象限圖法

索取資料

來源：深圳市易基因科技有限公司
聯(lián)系電話：0755-28317900
E-mail：wuhuanhuan@e-gene.cn

【點(diǎn)擊可查看深圳市易基因科技有限公司相關(guān)服務(wù)】

標(biāo)簽： ChIP-seq

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)服務(wù)】【關(guān)閉窗口】

本類文章

本類新聞