多組學(表觀組+轉錄組+微生物組)關聯(lián)分析及組學分子實驗驗證方法
瀏覽次數:982 發(fā)布日期:2023-5-16
來源:本站 僅供參考,謝絕轉載,否則責任自負
生物過程具有復雜性和整體性,單組學數據難以系統(tǒng)全面解析復雜生理過程的分子調控機制。而多組學(Multi-omics)聯(lián)合分析可同時實現從“因”和“果”兩個層面研究生物學問題,并對其相關性進行驗證。高通量技術的發(fā)展,通過對多組學數據整合分析,已成為科學家探索生命機制的新方向。
多組學研究是探究生物系統(tǒng)中多種物質之間互作的方法,包括基因組學、表觀基因組學、轉錄組學、蛋白質組學、代謝組學、微生物組學等,這些物質共同影響生命系統(tǒng)的表型、性狀等。
什么是多組學關聯(lián)分析?
關聯(lián)分析是一種實用的分析技術,就是發(fā)現存在于大量數據集中的關聯(lián)性或相關性,從而描述一個事物中某些屬性同時變化的規(guī)律和模式。
需要特別注意的是:相關 ≠ 因果;相關 ≠ 必然
因果關系的論證一般需要嚴密的分子實驗。
圖示:分子的相互作用,產生關聯(lián)
組學技術及其關聯(lián)性
不同組學
① 表觀組(差異表觀分子特征):甲基化、組蛋白修飾、開放染色質區(qū)、lncRNA、circleRNA、miRNA... ...
② 轉錄組(差異基因表達):mRNA
③ 蛋白組(差異蛋白):蛋白質
④ 代謝組(差異代謝物):代謝物
⑤ 微生物組(差異菌群):菌群結構
多組學關聯(lián)的意義:串聯(lián)證據,互相驗證,從不同的角度合力探索和解釋生物學問題
判斷組學之間是否可以進行關聯(lián):是否有關聯(lián)的生物學理論基礎。
如:
• 啟動子區(qū)甲基化會抑制基因的表達。
• 基因主體甲基化與基因表達正相關。
• 開放染色質狀態(tài)與基因表達有關。
• 蛋白質是mRNA翻譯的產物。
• miRNA可與mRNA相互作用影響其表達和翻譯
關聯(lián)分析的主要套路
基于參考文獻和數據庫:項目異質性強,Case by Case 模式
基于代謝通路等已知數據庫:高度依賴已知代謝網絡解讀深度,無法探索未知
基于統(tǒng)計學:數據最樸質的結構特征解析,可以獲取未知信息,甚至可以為拓展新的知識體系提供幫助
圖示:實際應用中往往三管齊下
易基因主要表觀組學技術分類
- DNA甲基化/羥甲基化位點/區(qū)域
- RNA甲基化位點/區(qū)域
- 轉錄因子結合區(qū)、組蛋白結合區(qū)
- DNase超敏位點、開放染色質區(qū)
圖示:易基因組學技術研究內容
多組學關聯(lián)分析方法
(1) 直接關聯(lián)
一個基因的功能元件甲基化情況影響該基因的表達。
• 重疊分析
• Pearson/Spearman 相關性分析
(2)模型關聯(lián)
基于基因轉錄、蛋白質、代謝物等之間的上下游相互作用聯(lián)系。
• 多元線性模型(multiple linear model)
(3)網絡關聯(lián)
基于分子功能和通路的富集性。
• WGCNA module correlation
• EMDN algorithm
• SNF algorithm
多組學關聯(lián)分析方法圖例
(1)直接關聯(lián)
① 重疊分析
特點:簡單粗暴,也適用于樣本量少的情況。
分析結果:韋恩圖。
圖例:WGBS + total RNA-seq,含DMR的差異表達基因、差異miRNA靶向的差異表達基因、差異siRNA靶向的差異表達基因三者之間的重疊關系分析
關聯(lián)理論基礎:DNA甲基化、miRNA和siRNA協(xié)同作用調控基因表達。
② 皮爾森/斯皮爾曼相關性分析
特點:準確計算相關性程度(R值),及其顯著性(p值)。
分析結果:散點圖(+擬合線)、相關性熱圖
圖例:血液組織RRBS+RNA-seq,DMR的甲基化水平與差異表達的表達水平之間的皮爾森關聯(lián)分析。
關聯(lián)理論基礎:DNA甲基化可直接調控基因表達。
圖例:腸道宏基因組+宏病毒組,健康與炎癥性腸。║C)組分別計算噬菌體與細菌豐度之間的皮爾森相關性并發(fā)現差異。
關聯(lián)理論基礎:噬菌體可侵染細菌進而影響腸道菌群的結構。
圖例:胚胎scRNA-seq+蛋白質組,兩連續(xù)發(fā)育階段之間的RNA和表蛋白質表達的相關性分析。
關聯(lián)理論基礎:RNA轉錄和蛋白質翻譯具有上下游關系。
圖例:腸道宏基因組+代謝組,不同管理狀態(tài)下川金絲猴腸道中短鏈脂肪酸與腸道菌群的皮爾森相關性分析。
關聯(lián)理論基礎:腸道中有多類菌群可直接產生短鏈脂肪酸這類益生物質。
(2)模型關聯(lián)
回歸分析(regression analysis)是確定兩組或兩組以上變量間關系的統(tǒng)計方法;貧w分析按照變量的數量分為一元回歸和多元回歸。兩個變量使用一元回歸,兩個以上變量使用多元回歸。
多元線性回歸模型(multiple linear model)
特點:基于基因表達、蛋白質、代謝物等之間的直接和間接相互作用聯(lián)系。
分析結果:關聯(lián)網絡圖
圖例:腸道菌群16S+血液代謝組+肝臟轉錄組,通過多元線性模型關聯(lián)分析,篩選出若干優(yōu)秀模型,組建低劑量抗生素飼喂促進仔豬快速生長的多組學調控網絡。
關聯(lián)理論基礎:腸道菌群可通過產生代謝物進入血液,運輸至肝臟影響肝臟細胞的基因表達。
(3)網絡關聯(lián)
細胞內所有大分子相互作用的集合,稱為相互作用組(Interactome),是大多數基因型與表型關系的基礎,可以用來指導解釋組學技術檢測到的變化如何干擾整個機體。
機體的分子響應和變化具有功能富集性、通路富集性。因此不同組學檢測數據也具有相似的功能富集性和變化規(guī)律。
網絡關聯(lián)算法正是基于這些生物學理論基礎。
- 基于WGCNA的共變關聯(lián)網絡分析(WGCNA module correlation)
- 基于表觀模塊的差異網絡分析(EMDN algorithm)
- 相似性網絡融合分析(SNF algorithm)
分析結果:關聯(lián)網絡圖
- ①基于WGCNA的共變關聯(lián)網絡分析
- 利用組間差異基因鑒定共甲基化和共表達模塊。
- 模塊-模塊相關性、模塊表型相關性可以有效識別具有功能富集性的多組學變化模塊。
圖例:血液組織RRBS + RNA-seq,基因的差異甲基化模式與基因表達模式的共變關聯(lián)網絡分析。
- 前期直接關聯(lián)得到的基因很少;
- 改變策略,采用基于WGCNA的共變關聯(lián)網絡分析,得到的共甲基化和共表達基因均富集于自噬相關通路。
關聯(lián)理論基礎:基因組DNA的甲基化與基因表達變化具有功能富集性。
圖例:腸道宏基因組+代謝組,不同管理狀態(tài)下川金絲猴糞便代謝物與腸道菌群基于WGCNA的共變關聯(lián)網絡分析。
- 鑒定了2對強正相關的物種和代謝物的共變化模塊。
- 圈養(yǎng)條件的代表性模塊中發(fā)現了潛在致病菌和相關代謝物。
關聯(lián)理論基礎:腸道菌群可響應環(huán)境變化改變腸道微環(huán)境中相關的代謝產物的濃度。
- 基于表觀模塊的差異網絡分析(EMDN algorithm)
- 利用組間差異基因鑒定共甲基化(共表達)模塊。
- 差異共甲基化(差異共表達)網絡篩選。
- 從多個差異共變網絡中篩選共同網絡。
圖例:基于表觀模塊的差異網絡分析(EMDN algorithm)
- 相似性網絡融合分析 (SNF algorithm)
圖例:
- SNF算法(圖1d)使用了一種基于信息傳遞理論的非線性算法,該方法迭代更新每個網絡,使其與其他網絡更加相似。經過幾次迭代之后,SNF收斂到單個網絡中。
- 算法的優(yōu)點是,弱相似性(低權重的邊)消失,有助于降低噪聲,而在一個或多個網絡中存在的強相似性(高權重的邊)被添加到其他網絡中。
圖例:融合網絡三個cluster內部的連接性、緊密性和cluster之間相對較少的邊界,說明該算法可以更清晰地顯示多形性成膠質細胞瘤(GBM)患者的分型情況。
從關聯(lián)走向因果:組學分子實驗驗證
基因表達相關的組學:
甲基化組學:
宏基因組(腸道菌群):
以上是關于多組學分析方法及組學分子實驗驗證的解析。
參考文獻:
Yan H, Bombarely A, Xu B, et al.Autopolyploidization in switchgrass alters phenotype and flowering time viaepigenetic and tranion regulation[J]. Journal of experimental botany,2019
Zhang, D., Hu, Q., … Gao, F. (2019). Epigenetic and transcriptional signatures of ex situ conserved golden snub-nosed monkeys (Rhinopithecus roxellana). Biological Conservation, 237, 175–184.
Zuo, T., Lu, X. J., Zhang, Y. (2019). Gut mucosal virome alterations in ulcerative colitis. Gut, 68(7), 1169–1179.
Gao, Y., Liu, X.. (2017). Protein Expression Landscape of Mouse Embryos during Pre-implantation Development. Cell Reports, 21(13), 3957–3969.
Evaluating the influence of conservation activities on the gut microecosystem of Rhinopithecus roxellana based on establishment of a gut microbiome gene catalog. Unpublished.
Inter-correlated gut microbiota and SCFAs changes upon antibiotics exposure links with rapid body-mass gain in weaned piglet model. The Journal of nutritional biochemistry,2019, 74: 108246.
Multiple network algorithm for epigenetic modules via the integration of genome-wide DNA methylation and gene expression data. BMC Bioinformatics , 2017,18(1), 1–13.
Similarity network fusion for aggregating data types on a genomic scale. Nature Methods , 2014,11(3), 333–337.
Di Nanni, N., Bersanelli, M.(2020). Network Diffusion Promotes the Integrative Analysis of Multiple Omics. Frontiers in Genetics,11(February), 1–12.