單細(xì)胞數(shù)據(jù)結(jié)果提供了不同細(xì)胞類(lèi)型之間的差異表達(dá)基因,這些基因參與的生物學(xué)通路決定了不同細(xì)胞類(lèi)型的生物功能。因此,針對(duì)不同細(xì)胞類(lèi)型的特有基因進(jìn)行富集分析,可以更好的了解每種細(xì)胞類(lèi)型參與的獨(dú)特生物學(xué)功能,揭示和理解生物學(xué)過(guò)程中的關(guān)鍵分子機(jī)制。富集分析工具有GO、KEGG、GSEA和GSVA等,其中GSEA和GSVA是單細(xì)胞文章中常見(jiàn)的富集分析工具。
GSEA富集分析需要預(yù)先進(jìn)行樣本之間的組間對(duì)比分析,通常用于Case/Control的實(shí)驗(yàn)設(shè)計(jì),可以獲取某個(gè)通路的基因集在實(shí)驗(yàn)組和對(duì)照組中的上調(diào)或下調(diào)趨勢(shì)。單細(xì)胞GSEA富集分析可以對(duì)不同比較組之間相同的細(xì)胞類(lèi)型進(jìn)行分析,也可以對(duì)不同的細(xì)胞類(lèi)型進(jìn)行分析。百篇文獻(xiàn)中出現(xiàn)了15次結(jié)果,結(jié)果圖如下。
這是GSEA分析中經(jīng)典結(jié)果圖的變形,X軸是實(shí)驗(yàn)中的所有基因,每個(gè)黑條是該基因集中的基因,我們可以知道基因在排序列表中的位置。如果基因集位于預(yù)先排列的基因列表的頂部,則通過(guò)某種度量計(jì)算出富集分?jǐn)?shù)(Enrichment Score,ES),ES為正。如果基因集位于預(yù)先排列的基因列表的底部,則ES為負(fù)。
復(fù)現(xiàn)結(jié)果如下:
第一部分:最頂部的折線(xiàn)為某條通路的基因Enrichment Score的折線(xiàn)圖?v軸為對(duì)應(yīng)的Running ES, 在折線(xiàn)圖中有個(gè)峰值,該峰值就是這個(gè)基因集的Enrichemnt Score,峰值之前的基因就是該基因集下的核心基因。橫軸代表此基因集下的每個(gè)基因,對(duì)應(yīng)第二部分類(lèi)似條形碼的豎線(xiàn)。
第二部分:類(lèi)似條形碼的部分,為Hits,每條豎線(xiàn)對(duì)應(yīng)該基因集下的一個(gè)基因。
第三部分:為所有基因的rank值分布圖,縱坐標(biāo)為ranked list metric,即該基因排序量的值,可理解為“公式化處理后的foldchange值”。
我們可以根據(jù)項(xiàng)目需要選擇展示這三個(gè)部分結(jié)果,或者我們分別展示單個(gè)樣本富集結(jié)果,示例結(jié)果如下:
在GSEA分析后除了經(jīng)典結(jié)果圖的展示,我們還可以用氣泡圖的方法展示geneset被激活還是抑制。上、下調(diào)的 GO term /pathway分開(kāi)展示:
除此之外,我們還可以繪制山巒圖,展示每個(gè)geneset的基因logFC分布。
基因集變異分析(Gene Set Variation Analysis, GSVA),是一種非參數(shù)并且無(wú)監(jiān)督的分析方法。對(duì)每個(gè)樣本或單個(gè)細(xì)胞按基因的表達(dá)量進(jìn)行單獨(dú)排序,然后將富集分?jǐn)?shù)的值做標(biāo)準(zhǔn)化。通過(guò)將基因表達(dá)矩陣數(shù)據(jù)轉(zhuǎn)換為基因集表達(dá)矩陣數(shù)據(jù),從而對(duì)每個(gè)樣本/細(xì)胞群的通路富集進(jìn)行分析。分析流程如下,左側(cè)輸入基因表達(dá)矩陣和基因集數(shù)據(jù)庫(kù),中間是GSVA算法原理,右側(cè)是輸出的基因集變異分?jǐn)?shù)矩陣;蚣儺惙?jǐn)?shù)可以理解為基因集內(nèi)所有基因的綜合表達(dá)值。
文獻(xiàn)中經(jīng)常出現(xiàn)的展示結(jié)果如下:
復(fù)現(xiàn)結(jié)果如下:
縱坐標(biāo)為cluster,橫坐標(biāo)為通路名稱(chēng)。紅色代表著這個(gè)通路在該細(xì)胞類(lèi)型中激活,藍(lán)色代表著這個(gè)通路在該細(xì)胞類(lèi)型中是抑制的。
我們還可以在GSVA分析的結(jié)果上,進(jìn)行差異比較分析,展示形式是差異基因集柱狀圖。兩個(gè)cluster/cell type/group中具有顯著差異通路的富集程度;矩形越長(zhǎng)代表富集程度越大;GSVA score值大于0代表上調(diào)的通路,小于0代表下調(diào)的通路。
GSEA和GSVA都是基于對(duì)基因的某一個(gè)值的排序來(lái)進(jìn)行富集分析。而GSEA主要是用case和control之間的差異倍數(shù)或信噪比來(lái)進(jìn)行排序,GSVA則不需要做對(duì)比,而是對(duì)每個(gè)樣本或單個(gè)細(xì)胞按基因的表達(dá)量進(jìn)行單獨(dú)排序,然后將富集分?jǐn)?shù)的值做個(gè)標(biāo)準(zhǔn)化。
以上是我這次關(guān)于單細(xì)胞轉(zhuǎn)錄組中富集分析方法的分享。