English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > clustree算法助力單細(xì)胞聚類結(jié)果更有生物學(xué)意義

clustree算法助力單細(xì)胞聚類結(jié)果更有生物學(xué)意義

瀏覽次數(shù):692 發(fā)布日期:2023-3-15  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)

聚類算法廣泛用于分析大型數(shù)據(jù)集,以將具有相似屬性的個(gè)體聚類在一起。這在單細(xì)胞測序結(jié)果分析中尤為關(guān)鍵。合適的細(xì)胞聚類分群結(jié)果有助于細(xì)胞類型鑒定等下游數(shù)據(jù)分析工作。然而,聚類的算法多種多樣,且算法中參數(shù)的改變都會(huì)影響最終的細(xì)胞分群結(jié)果。因此,在細(xì)胞聚類分析時(shí)需要方法幫助研究者找到具有生物學(xué)意義的聚類分群結(jié)果。這里介紹一種名為“clustree”的算法,以樹狀圖形式展示不同聚類分辨率對細(xì)胞聚類分群的影響,并能顯示細(xì)胞的移動(dòng)軌跡,從而指導(dǎo)研究者們確定合適的分辨率參數(shù),獲得有生物學(xué)意義的細(xì)胞分群結(jié)果。

 

01

單細(xì)胞轉(zhuǎn)錄組clustree結(jié)果解讀

單細(xì)胞轉(zhuǎn)錄組測序可以幫助研究者獲得組織或體液中單個(gè)細(xì)胞的基因表達(dá)模式。而聚類算法可以將細(xì)胞按照表達(dá)模式的相似性進(jìn)行聚類分群,不同細(xì)胞群之間的基因表達(dá)差異可以用于推斷細(xì)胞的身份和功能。然而,通常情況下研究者并不知道細(xì)胞類型的數(shù)量,若分辨率較低,會(huì)導(dǎo)致一個(gè)細(xì)胞群中包含多種細(xì)胞類型,而分辨率過高又會(huì)導(dǎo)致過分群的情況出現(xiàn)。因此,決定使用哪種分辨率參數(shù)是單細(xì)胞轉(zhuǎn)錄組整個(gè)分析流程的關(guān)鍵。

用10x Genomics公司提供的PBMC單細(xì)胞轉(zhuǎn)錄組測序結(jié)果(包含2700個(gè)外周血單核細(xì)胞,包含一系列免疫細(xì)胞類型)進(jìn)行Seurat分析,并用clustree展示分辨率從0到5的聚類樹結(jié)果,如圖1A所示。在聚類樹結(jié)果中,每行代表在某個(gè)分辨率下的細(xì)胞聚類結(jié)果,而分辨率大小則用每個(gè)點(diǎn)的顏色表示。點(diǎn)的大小代表該cluster包含的細(xì)胞數(shù)目,細(xì)胞越多點(diǎn)越大。當(dāng)分辨率增加時(shí),細(xì)胞會(huì)按照箭頭方向移動(dòng)到新的cluster里,箭頭的顏色代表沿箭頭移動(dòng)的細(xì)胞數(shù)目,通過圖注可知箭頭越接近黃色,則說明箭頭包含的細(xì)胞數(shù)越多。此外,箭頭具有不同的透明度,代表箭頭中的細(xì)胞數(shù)與其指向cluster里細(xì)胞數(shù)的比值。比值越大,說明這個(gè)箭頭對其指向cluster的重要性更高,箭頭的透明度越小。而比值越小,說明這個(gè)箭頭對其指向cluster的重要性更低,箭頭的透明度越大,同時(shí)可以設(shè)置比值的閾值,隱藏低于閾值的箭頭。

Fig.1 2700個(gè)PBMC細(xì)胞單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集的聚類樹

(A)分辨率從0-1的Seurat聚類結(jié)果,0.1時(shí)得到4個(gè)主要分支,0.4時(shí)分支繼續(xù)分裂。(B)分辨率從0到5,分辨率為5時(shí)看到很多透明箭頭,說明此時(shí)的cluster結(jié)果不穩(wěn)定。

 

02

1. 如何利用clustree結(jié)果選擇合適的分辨率

通常情況下,為了決定合適的聚類分辨率,可使用以下兩種策略:1.選擇透明箭頭出現(xiàn)較少的分辨率聚類結(jié)果

聚類算法得到的cluster數(shù)目隨分辨率增加而增多,但當(dāng)?shù)玫降腸luster數(shù)目多于單細(xì)胞轉(zhuǎn)錄組結(jié)果實(shí)際存在的聚類數(shù)時(shí),新的cluster會(huì)從已有的cluster中形成,許多cluster會(huì)在不同的分支中切換,出現(xiàn)較多的透明箭頭,不穩(wěn)定的cluster也可能出現(xiàn)后消失。通過查看哪些cluster是穩(wěn)定的以及出現(xiàn)透明箭頭的區(qū)域,我們可以推斷出聚類樹的哪些區(qū)域可能是真實(shí)的cluster或者是過度分群造成的。如圖1B所示,當(dāng)算法被迫產(chǎn)生比該數(shù)據(jù)集中可能真正存在的更多的cluster時(shí),隨著過度聚類的發(fā)生,可以看到更多的透明箭頭和由多個(gè)上一層cluster形成的新cluster。這些區(qū)域是不穩(wěn)定的,且這些新生成的cluster不太可能代表數(shù)據(jù)集中的真實(shí)cluster。

2. 基于marker基因表達(dá)選擇有生物學(xué)意義的分辨率聚類結(jié)果

基于先驗(yàn)知識(shí)可選用已知的marker基因來識(shí)別特定cluster的細(xì)胞類型,將基因表達(dá)信息疊加到聚類樹上,獲得新的聚類樹,可指示何時(shí)形成包含純細(xì)胞群的cluster。如圖2所示,該聚類樹是在圖1A結(jié)果基礎(chǔ)上增加marker基因的表達(dá)信息。CD19是B細(xì)胞的marker基因,在最右側(cè)的分支中高表達(dá)。CD14是單核細(xì)胞的marker之一,其表達(dá)隨著分辨率增大在某一個(gè)分支中高表達(dá),暗示這條分支的cluster可能是這種細(xì)胞的純?nèi)后w。CD3D是T細(xì)胞的marker,在最左側(cè)的分支中都有表達(dá),當(dāng)分辨率增加到0.7時(shí)出現(xiàn)兩條細(xì)分支,且這兩條分支中CCR7的表達(dá)存在明顯差異,從而將記憶T細(xì)胞和初始T細(xì)胞區(qū)分開。通過添加已知的細(xì)胞類型marker基因,可以確定這些cluster是否具有生物學(xué)意義。

 

Fig.2 2700個(gè)PBMC細(xì)胞單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集的聚類樹,增添已知marker基因表達(dá)信息

(A)CD19,識(shí)別B細(xì)胞;(B)CD14,顯示單核細(xì)胞;(C)CD3D,T細(xì)胞marker基因;(D)CCR7,區(qū)分記憶和初始T細(xì)胞。

 

03

結(jié)語

單細(xì)胞轉(zhuǎn)錄組測序結(jié)果通常數(shù)據(jù)龐大且存在背景噪音,包含未知數(shù)量的細(xì)胞類型和聚類數(shù)。因此,clustree算法在指導(dǎo)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集聚類分群時(shí)的重要性不言而喻。該算法以聚類樹的方式提供了包含多種信息的可視化結(jié)果,可以有效地評估cluster可靠性并鑒定其類型,為單細(xì)胞轉(zhuǎn)錄組的下游分析奠定基礎(chǔ)。

參考文獻(xiàn):Zappia, Luke, and Alicia Oshlack.“Clustering trees: a visualization for evaluating clusterings at multiple resolutions.”GigaSciencevol. 7,7 (2018): giy083.

來源:上海生物芯片有限公司
聯(lián)系電話:400-100-2131
E-mail:marketing@shbiochip.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com