English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > 流形學(xué)習(xí)在單細(xì)胞組學(xué)數(shù)據(jù)分析中的運(yùn)用

流形學(xué)習(xí)在單細(xì)胞組學(xué)數(shù)據(jù)分析中的運(yùn)用

瀏覽次數(shù):5229 發(fā)布日期:2019-7-19  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
以10x Genomics為代表的單細(xì)胞組學(xué)檢測(cè)技術(shù)的發(fā)展,為我們從細(xì)胞層面去理解生命體的發(fā)育過程,疾病發(fā)生和發(fā)展過程提供了重要的手段。以單細(xì)胞轉(zhuǎn)錄組(scRNA-Seq)為例,我們可以發(fā)現(xiàn),單細(xì)胞組學(xué)數(shù)據(jù)具有橫向細(xì)胞數(shù)量巨大,縱向數(shù)據(jù)分布稀疏的特點(diǎn)。因此,針對(duì)單細(xì)胞數(shù)據(jù),從分析的角度提出了巨大的挑戰(zhàn)。在這個(gè)過程中,流形學(xué)習(xí)的發(fā)展,為單細(xì)胞數(shù)據(jù)的降維和可視化提供一種解決方案。

以下,我們通過Q&A形式來分享流形學(xué)習(xí)在單細(xì)胞數(shù)據(jù)分析中的運(yùn)用。

1.什么是流形學(xué)習(xí)?

流形學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種,2000年以后被認(rèn)為屬于非線性降維的一個(gè)分支。流形學(xué)習(xí)的本質(zhì)是用低維度數(shù)據(jù)分布去解釋高維度數(shù)據(jù),也可以把它理解成尋找一個(gè)高維數(shù)據(jù)空間到低維數(shù)據(jù)空間的映射。非線性降維技術(shù)(廣義上“非線性降維技術(shù)”≈“流形學(xué)習(xí)”,狹義上后者是前者子集)。流形學(xué)習(xí)在單細(xì)胞數(shù)據(jù)中的作用就是為了解決使高維的數(shù)據(jù)進(jìn)行合理降維的過程。

2.流形學(xué)習(xí)的分類有哪些?

流形學(xué)習(xí)從算法分類的角度分為線性流形學(xué)習(xí)算法和非線性流形學(xué)習(xí)算法,線性方法是對(duì)非線性方法的線性擴(kuò)展,比如我們熟悉的主成分分析(Principal component analysis,PCA),多維尺度變換(Multidimensional scaling,MDS)等就屬于線性算法,t-SNE[1]方法就屬于非線性算法。

不同方法衍生出的算法見上圖
3.流形學(xué)習(xí)有哪些經(jīng)典算法?

流形學(xué)習(xí)中,最基本的降維原理是找到一個(gè)映射從流形到歐式距離,經(jīng)典的算法主要有ISOMAP, LLE和LE三種:

a)  Isomap等距映射:Isomap試圖通過保持任意兩點(diǎn)之間的測(cè)地線距離來保持流形的全局幾何結(jié)構(gòu)。

b) 局部線性嵌入(Locally Linear Embedding ,LLE):也是非常重要的降維方法 ,LLE從局部來進(jìn)行分析。

上圖中LLE首先假設(shè)數(shù)據(jù)在較小的局部是線性的,也就是說,某一個(gè)數(shù)據(jù)可以由它鄰域中的幾個(gè)樣本來線性表示,LLE 分析方法的出發(fā)點(diǎn)便是“流形在局部可以近似等價(jià)于歐氏空間”。

c) 拉普拉斯特征映射(Laplacian eigenmaps,LE):基于圖譜理論,希望保持流形的近鄰關(guān)系,將原始空間中相近的點(diǎn)映射成目標(biāo)空間中相近的點(diǎn),通過構(gòu)建近鄰圖、計(jì)算每條邊的權(quán)重(不相連的邊權(quán)重為0)、求解特征向量方程來達(dá)到降維、聚類的結(jié)果。


4.為什么在單細(xì)胞分群展示時(shí)不用PCA?

Principal Component Analysis(PCA) 采用線性投影的方法進(jìn)行降維,它的目的是使得數(shù)據(jù)在給定的方向上投影得到最大的方差,PCA 是到目前為止應(yīng)用最為廣泛的一個(gè)降維算法,在機(jī)器學(xué)習(xí)本身的眾多場(chǎng)景中也通常被用作數(shù)據(jù)預(yù)處理的首要方法,當(dāng)流形是一個(gè)線性流形時(shí),PCA 得到的結(jié)果是最優(yōu)的。然而單細(xì)胞數(shù)據(jù)基本上是高維、非線性的并且稀疏的matrix數(shù)據(jù)結(jié)構(gòu),所以PCA只能作為數(shù)據(jù)預(yù)處理的一種方式,而基于流形學(xué)習(xí)的非線性降維方法,結(jié)果都會(huì)明顯優(yōu)于PCA,每一個(gè)算法都是從不同角度去看問題,所以必須有針對(duì)性地選擇算法來分析單細(xì)胞的數(shù)據(jù)。



5.流形學(xué)習(xí)用在單細(xì)胞數(shù)據(jù)分析的理論基礎(chǔ)是什么?

由于scRNA-seq數(shù)據(jù)的噪聲和復(fù)雜性,許多降維方法都不能有效地在二維或三維空間中捕獲足夠的信息,從而無法實(shí)現(xiàn)可視化。在這種情況下,流形學(xué)習(xí)框架對(duì)于降維和數(shù)據(jù)可視化都很有用。

流形假設(shè)中將單細(xì)胞RNA-seq實(shí)驗(yàn)中的觀測(cè)結(jié)果建模為從細(xì)胞狀態(tài)的光滑流形中采樣。通過將流形學(xué)習(xí)方法應(yīng)用于多個(gè)細(xì)胞間的基因表達(dá)矩陣,學(xué)習(xí)數(shù)據(jù)的潛在鄰域結(jié)構(gòu),恢復(fù)數(shù)據(jù)的潛在低維表示;然后通過應(yīng)用一個(gè)核函數(shù)(核函數(shù)的作用就是隱含著一個(gè)從低維空間到高維空間的映射,而這個(gè)映射可以把低維空間中線性不可分的兩類點(diǎn)變成線性可分的),核函數(shù)可以測(cè)量保留密切相關(guān)的細(xì)胞之間的相關(guān)距離、沿流形的主要變化軸計(jì)算擬時(shí)間,例如可以構(gòu)建、呈現(xiàn)發(fā)育過程中分化的進(jìn)程,進(jìn)而利用數(shù)據(jù)的流形表示進(jìn)行降維和可視化[2]。




6.流形圖和流形學(xué)習(xí)之間是什么關(guān)系?

流形學(xué)習(xí)實(shí)現(xiàn)了對(duì)單細(xì)胞數(shù)據(jù)的降維和可視化過程,沿著流形變化軸,我們可以構(gòu)建細(xì)胞變化過程。因此,擬時(shí)間序列分析所采用的降維算法其原理也是基于流形學(xué)習(xí)。我們常用來進(jìn)行擬時(shí)間序列分析的Monocle 2就是基于圖模型來推測(cè)細(xì)胞的變化過程。流形圖是一種二維密度估計(jì)的等值線。舉個(gè)例子:在地理課上我們經(jīng)常會(huì)看到等高線:即地面上海拔高度相同的各點(diǎn)的連線。二維密度估計(jì)的等值線是一個(gè)和等高線差不多的利器,在原始圖中添加類似等高線(二維密度估計(jì)的等值線)的表示,用以標(biāo)記密集程度,也是間接計(jì)算距離的一種算法思想。

目前的流形學(xué)習(xí)基本上都是基于圖模型,下圖為擬時(shí)序分析的軌跡圖,雖然都是樹枝樣的分支,流形背景顯示出每個(gè)類別中的分支路線的獨(dú)有性,類似于不同的群山山脈特點(diǎn)。通過流形學(xué)習(xí)得到的擬時(shí)序軌跡圖,再加上流形背景,這樣不僅能夠可視化單細(xì)胞的軌跡路線,也能從另外一個(gè)維度來展現(xiàn)同個(gè)流形空間上細(xì)胞的關(guān)系,整個(gè)過程就是高維映射到低維,然后又mapping回高維來展示,使結(jié)果的呈現(xiàn)更加多元化、立體化和更加能準(zhǔn)確地回溯細(xì)胞的整個(gè)軌跡。


以上是有關(guān)于流行學(xué)習(xí)在單細(xì)胞組學(xué)數(shù)據(jù)用的運(yùn)用原理和運(yùn)用方向,對(duì)于具體的運(yùn)用環(huán)境,需要根據(jù)自身的數(shù)據(jù)特點(diǎn)選擇最合適的方法。當(dāng)然,現(xiàn)有的一些單細(xì)胞數(shù)據(jù)分析包里面已經(jīng)很好地嵌入了相應(yīng)的算法公式,我們只要進(jìn)行合理的利用,就可以對(duì)數(shù)據(jù)進(jìn)行最優(yōu)篩選和展示。
 

參考文獻(xiàn):

1. Donaldson, J. (2016). T-Distributed Stochastic Neighbor Embedding for R (t-SNE). R package version 0, 1–3

2. Moon, K.R., et al., Manifold learning-based methods for analyzing single-cell RNA-sequencing data. Current Opinion in Systems Biology, 2018. 7: p. 36-46.

來源:上海生物芯片有限公司
聯(lián)系電話:400-100-2131
E-mail:marketing@shbiochip.com

用戶名: 密碼: 匿名 快速注冊(cè) 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com