單細(xì)胞數(shù)據(jù)降維可視化最新工具UMAP的介紹
瀏覽次數(shù):45151 發(fā)布日期:2019-7-19
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
高通量單細(xì)胞組學(xué)數(shù)據(jù)的一個顯著性特點就是數(shù)據(jù)量大,一次能反映的細(xì)胞數(shù)量多。因此,通過降維和可視化去展示細(xì)胞數(shù)據(jù)特征是一個非常重要的工作。翻開各類發(fā)表的單細(xì)胞組學(xué)文章,不管是CNS的還是其他,幾乎所有的結(jié)果中,映入眼簾的第一張圖片通常是數(shù)據(jù)結(jié)果的降維圖形化展示。
圖1 PBMC細(xì)胞單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)展示圖
實現(xiàn)高維數(shù)據(jù)可視化的理論基礎(chǔ)是基于降維算法。降維算法一般分為兩類:那些尋求在數(shù)據(jù)中保存距離結(jié)構(gòu)的,以及傾向于保存局部距離而不是全局距離的。PCA[1]、MDS[2]等算法屬于前者,t-SNE[3,4]、diffusion maps[5]等算法都屬于后者。
對高維單細(xì)胞數(shù)據(jù)的可視化展示,以t-SNE為代表的非線性降維技術(shù),由于其能夠避免集群表示的過度擁擠,在重疊區(qū)域上能表示出不同的集群而被廣泛運用。然而,任何技術(shù)方法都不是完美的,t-SNE也一樣,它的局限性體現(xiàn)在丟失大規(guī)模信息(集群間關(guān)系)、計算時間較慢以及無法有效地表示非常大的數(shù)據(jù)集[6]等方面。
那么,有沒有其它方法能在一定程度上克服這些弱點呢?
UMAP就是這樣一個能解決這些問題的降維和可視化的工具。
統(tǒng)一流形逼近與投影(UMAP,Uniform Manifold Approximation and Projection)是一種新的降維流形學(xué)習(xí)技術(shù)。UMAP是建立在黎曼幾何和代數(shù)拓?fù)淅碚摽蚣苌系。UMAP是一種非常有效的可視化和可伸縮降維算法。在可視化質(zhì)量方面,UMAP算法與t-SNE具有競爭優(yōu)勢,但是它保留了更多全局結(jié)構(gòu)、具有優(yōu)越的運行性能、更好的可擴(kuò)展性。此外,UMAP對嵌入維數(shù)沒有計算限制,這使得它可以作為機(jī)器學(xué)習(xí)的通用維數(shù)約簡技術(shù)。
從上述定義可以看到,UMAP對于單細(xì)胞這類大數(shù)據(jù)、高維數(shù)據(jù)來說,是一個正中下懷的好工具。那么,在真實數(shù)據(jù)運用中,這種優(yōu)勢能體現(xiàn)出來嗎?以下我們通過實際數(shù)據(jù)對比進(jìn)行展示。
1.小數(shù)據(jù)集中,t-SNE和UMAP差別不是很大
我們分別以個和個單細(xì)胞的轉(zhuǎn)錄組數(shù)據(jù)為基礎(chǔ),分別通過和進(jìn)行降維可視化展示,得到如下圖:
圖2 200和500個細(xì)胞的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的t-SNE和UMAP降維分群圖
可以看到,在小數(shù)據(jù)集下,兩者對細(xì)胞集群的展示上,效果比較類似,基本能把不同類型的細(xì)胞群進(jìn)行區(qū)分。所以,當(dāng)數(shù)據(jù)集比較小的情景下,已能足夠展示不同群體細(xì)胞特征。
2.大數(shù)據(jù)集中,UMAP優(yōu)勢明顯(30多萬個細(xì)胞的降維可視化分析)
我們同時在一個數(shù)據(jù)集上運行、和,該數(shù)據(jù)集涵蓋了來自個不同的富含和自然殺傷細(xì)胞的人體組織的個樣本,共含有萬多個細(xì)胞。
圖3 PCA,t-SNE和UMPA的降維展示圖
通過數(shù)據(jù)降維和可視化展示可以看出,PCA分群效果最差,UMAP和t-SNE都成功將與相似細(xì)胞群相對應(yīng)的簇聚集在一起。但是與t-SNE相比,UMAP還提供了有用的和直觀的特性、保留了更多的全局結(jié)構(gòu),特別是細(xì)胞子集的連續(xù)性。
接下來,我們對上述數(shù)據(jù)分別用細(xì)胞類型和組織來源類型進(jìn)行著色展示:
(1).細(xì)胞類型著色
圖4 根據(jù)細(xì)胞類型的細(xì)胞著色圖
(2).組織類型著色
圖5 根據(jù)組織來源的細(xì)胞著色圖
通過在和圖上對來源組織進(jìn)行顏色編碼,我們發(fā)現(xiàn)比更經(jīng)常地根據(jù)來源組織分離細(xì)胞群;相反,根據(jù)細(xì)胞在每個主要集群中的起源對細(xì)胞進(jìn)行排序,大致是從臍帶血和外周血單個核細(xì)胞到肝臟和脾臟,以及一端的扁桃體到另一端的皮膚、腸道和肺。
當(dāng)我們對特定T細(xì)胞標(biāo)志性marker進(jìn)行繪圖,我們觀察到UMAP能夠概括T細(xì)胞內(nèi)每個主要集群的分化階段,從UMAP投影上的駐留記憶T細(xì)胞標(biāo)志物CD69和CD103、記憶T細(xì)胞標(biāo)記CD45RO和幼稚T細(xì)胞標(biāo)記CCR7的表達(dá)水平可見。相比之下,雖然t-SNE在群集中確定了類似的連續(xù)性,但它們沿共同軸沒有明顯的結(jié)構(gòu)。
由此可見,在大數(shù)據(jù)降維和可視化方面優(yōu)勢突出。
圖6 Marker基因的細(xì)胞標(biāo)記圖
隨著研究成本的降低和深入,單細(xì)胞研究的細(xì)胞數(shù)量和數(shù)據(jù)信息肯定會往上走,未來單細(xì)胞組學(xué)數(shù)據(jù)將會從現(xiàn)有千萬的基礎(chǔ)上增加到個數(shù)量級。因此,在這種發(fā)展趨勢下,的發(fā)展空間會更大更廣。
參考文獻(xiàn):
[1] Harold Hotelling. Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417, 1933.
[2] J. B. Kruskal. Multidimensional scaling by optimizing goodness of fit to anonmetric hypothesis. Psychometrika, 29(1):1–27, Mar 1964.
[3] Laurens van der Maaten and Geo‚rey Hinton. Visualizing data using t-sne.Journal of machine learning research, 9(Nov):2579–2605, 2008.
[4] Laurens van der Maaten. Accelerating t-sne using tree-based algorithms. Journal of machine learning research, 15(1):3221–3245, 2014.
[5] Ronald R Coifman and Stephane Lafon. Diffusion maps. Applied and computational harmonic analysis, 21(1):5–30, 2006.
[6]. Van Der Maaten, L. & Hinton, G. Visualizing high-dimensional data using t-SNE.journal of machine learning research. J. Mach. Learn. Res. 9, 26 (2008).
[7]. McInnes, L. & Healy, J. UMAP: uniform manifold approximation and projection for dimension reduction. Preprint at https://arxiv.org/abs/1802.03426 (2018).