單細(xì)胞數(shù)據(jù)降維可視化最新工具UMAP的介紹

瀏覽次數(shù)：45151　發(fā)布日期：2019-7-19　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

高通量單細(xì)胞組學(xué)數(shù)據(jù)的一個顯著性特點就是數(shù)據(jù)量大，一次能反映的細(xì)胞數(shù)量多。因此，通過降維和可視化去展示細(xì)胞數(shù)據(jù)特征是一個非常重要的工作。翻開各類發(fā)表的單細(xì)胞組學(xué)文章，不管是CNS的還是其他，幾乎所有的結(jié)果中，映入眼簾的第一張圖片通常是數(shù)據(jù)結(jié)果的降維圖形化展示。

圖1 PBMC細(xì)胞單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)展示圖

實現(xiàn)高維數(shù)據(jù)可視化的理論基礎(chǔ)是基于降維算法。降維算法一般分為兩類：那些尋求在數(shù)據(jù)中保存距離結(jié)構(gòu)的，以及傾向于保存局部距離而不是全局距離的。PCA[1]、MDS[2]等算法屬于前者，t-SNE[3,4]、diffusion maps[5]等算法都屬于后者。

對高維單細(xì)胞數(shù)據(jù)的可視化展示，以t-SNE為代表的非線性降維技術(shù)，由于其能夠避免集群表示的過度擁擠，在重疊區(qū)域上能表示出不同的集群而被廣泛運用。然而，任何技術(shù)方法都不是完美的，t-SNE也一樣，它的局限性體現(xiàn)在丟失大規(guī)模信息(集群間關(guān)系)、計算時間較慢以及無法有效地表示非常大的數(shù)據(jù)集[6]等方面。

那么，有沒有其它方法能在一定程度上克服這些弱點呢？

UMAP就是這樣一個能解決這些問題的降維和可視化的工具。

統(tǒng)一流形逼近與投影(UMAP，Uniform Manifold Approximation and Projection)是一種新的降維流形學(xué)習(xí)技術(shù)。UMAP是建立在黎曼幾何和代數(shù)拓?fù)淅碚摽蚣苌系�。UMAP是一種非常有效的可視化和可伸縮降維算法。在可視化質(zhì)量方面，UMAP算法與t-SNE具有競爭優(yōu)勢，但是它保留了更多全局結(jié)構(gòu)、具有優(yōu)越的運行性能、更好的可擴(kuò)展性。此外，UMAP對嵌入維數(shù)沒有計算限制，這使得它可以作為機(jī)器學(xué)習(xí)的通用維數(shù)約簡技術(shù)。

從上述定義可以看到，UMAP對于單細(xì)胞這類大數(shù)據(jù)、高維數(shù)據(jù)來說，是一個正中下懷的好工具。那么，在真實數(shù)據(jù)運用中，這種優(yōu)勢能體現(xiàn)出來嗎？以下我們通過實際數(shù)據(jù)對比進(jìn)行展示。

1.小數(shù)據(jù)集中，t-SNE和UMAP差別不是很大

我們分別以個和個單細(xì)胞的轉(zhuǎn)錄組數(shù)據(jù)為基礎(chǔ)，分別通過和進(jìn)行降維可視化展示，得到如下圖：

圖2 200和500個細(xì)胞的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的t-SNE和UMAP降維分群圖

可以看到，在小數(shù)據(jù)集下，兩者對細(xì)胞集群的展示上，效果比較類似，基本能把不同類型的細(xì)胞群進(jìn)行區(qū)分。所以，當(dāng)數(shù)據(jù)集比較小的情景下，已能足夠展示不同群體細(xì)胞特征。

2.大數(shù)據(jù)集中，UMAP優(yōu)勢明顯（30多萬個細(xì)胞的降維可視化分析）

我們同時在一個數(shù)據(jù)集上運行、和，該數(shù)據(jù)集涵蓋了來自個不同的富含和自然殺傷細(xì)胞的人體組織的個樣本，共含有萬多個細(xì)胞。

圖3 PCA，t-SNE和UMPA的降維展示圖

通過數(shù)據(jù)降維和可視化展示可以看出，PCA分群效果最差，UMAP和t-SNE都成功將與相似細(xì)胞群相對應(yīng)的簇聚集在一起。但是與t-SNE相比，UMAP還提供了有用的和直觀的特性、保留了更多的全局結(jié)構(gòu)，特別是細(xì)胞子集的連續(xù)性。

接下來，我們對上述數(shù)據(jù)分別用細(xì)胞類型和組織來源類型進(jìn)行著色展示：

(1).細(xì)胞類型著色

圖4 根據(jù)細(xì)胞類型的細(xì)胞著色圖

(2).組織類型著色

圖5 根據(jù)組織來源的細(xì)胞著色圖

通過在和圖上對來源組織進(jìn)行顏色編碼，我們發(fā)現(xiàn)比更經(jīng)常地根據(jù)來源組織分離細(xì)胞群；相反，根據(jù)細(xì)胞在每個主要集群中的起源對細(xì)胞進(jìn)行排序，大致是從臍帶血和外周血單個核細(xì)胞到肝臟和脾臟，以及一端的扁桃體到另一端的皮膚、腸道和肺。

當(dāng)我們對特定T細(xì)胞標(biāo)志性marker進(jìn)行繪圖，我們觀察到UMAP能夠概括T細(xì)胞內(nèi)每個主要集群的分化階段，從UMAP投影上的駐留記憶T細(xì)胞標(biāo)志物CD69和CD103、記憶T細(xì)胞標(biāo)記CD45RO和幼稚T細(xì)胞標(biāo)記CCR7的表達(dá)水平可見。相比之下，雖然t-SNE在群集中確定了類似的連續(xù)性，但它們沿共同軸沒有明顯的結(jié)構(gòu)。

由此可見，在大數(shù)據(jù)降維和可視化方面優(yōu)勢突出。

圖6 Marker基因的細(xì)胞標(biāo)記圖

隨著研究成本的降低和深入，單細(xì)胞研究的細(xì)胞數(shù)量和數(shù)據(jù)信息肯定會往上走，未來單細(xì)胞組學(xué)數(shù)據(jù)將會從現(xiàn)有千萬的基礎(chǔ)上增加到個數(shù)量級。因此，在這種發(fā)展趨勢下，的發(fā)展空間會更大更廣。

參考文獻(xiàn)：

[1] Harold Hotelling. Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417, 1933.
[2] J. B. Kruskal. Multidimensional scaling by optimizing goodness of fit to anonmetric hypothesis. Psychometrika, 29(1):1–27, Mar 1964.
[3] Laurens van der Maaten and Geo‚rey Hinton. Visualizing data using t-sne.Journal of machine learning research, 9(Nov):2579–2605, 2008.
[4] Laurens van der Maaten. Accelerating t-sne using tree-based algorithms. Journal of machine learning research, 15(1):3221–3245, 2014.
[5] Ronald R Coifman and Stephane Lafon. Diffusion maps. Applied and computational harmonic analysis, 21(1):5–30, 2006.
[6]. Van Der Maaten, L. & Hinton, G. Visualizing high-dimensional data using t-SNE.journal of machine learning research. J. Mach. Learn. Res. 9, 26 (2008).
[7]. McInnes, L. & Healy, J. UMAP: uniform manifold approximation and projection for dimension reduction. Preprint at https://arxiv.org/abs/1802.03426 (2018).

索取資料

來源：上海生物芯片有限公司
聯(lián)系電話：400-100-2131
E-mail：marketing@shbiochip.com

【點擊可查看上海生物芯片有限公司相關(guān)服務(wù)】

標(biāo)簽：單細(xì)胞、UMAP

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)服務(wù)】【關(guān)閉窗口】

本類文章

本類新聞