主成分分析在生命科學(xué)研究中的應(yīng)用

瀏覽次數(shù)：10247　發(fā)布日期：2009-2-4　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

主成分分析常常用于基因組全序列表達(dá)研究，但是，到底什么是主成分分析？如何將這種方法用于對高維度數(shù)據(jù)的分析中呢？

       生命科學(xué)研究中采用的一些測定方法，對每個(gè)樣品所采集的數(shù)據(jù)的變量要多于所測定的樣品數(shù)。例如，DNA芯片及質(zhì)譜儀可以對上百個(gè)樣品中數(shù)以千計(jì)的mRNAs或蛋白質(zhì)水平進(jìn)行測定。諸如此類的高維度測定使得樣品的分析結(jié)果很難清晰便捷地進(jìn)行判斷，也限制了對數(shù)據(jù)進(jìn)行簡單分析的應(yīng)用。

       主成分分析（Principal component analysis, PCA）是一種數(shù)學(xué)算法，它可以在減少數(shù)據(jù)維度的同時(shí)，保留數(shù)據(jù)集中絕大多數(shù)的變量[1]。PCA通過對主成分進(jìn)行辨別，找出一個(gè)方向，并沿此方向分布的數(shù)據(jù)為最大值，從而減少數(shù)據(jù)維度。通過采用這樣的主成分，便可以只選用若干變量而不是上千的變量來對一種樣品進(jìn)行分析了。這樣，就可以將樣品有關(guān)變量繪制成圖，使得樣品間的相似性和相異之處一目了然，對不同樣品是否可以歸為一組，也一清二楚。

       Saal等人 [2] 曾使用基因芯片對105個(gè)乳腺腫瘤樣品中的27,648個(gè)基因表達(dá)情況進(jìn)行了檢測。本文將采用這組基因表達(dá)數(shù)據(jù)集表明PCA如何只用很少的變量就能完成對樣品的分析，包括基因的表達(dá)水平、基因表達(dá)模式等。所需實(shí)驗(yàn)數(shù)據(jù)來自Gene Expression Omnibus database（accession no.GSE5325）。

a 每一點(diǎn)代表一個(gè)乳腺癌樣品中兩個(gè)基因的表達(dá)水平（在a-c, e中雌激素受體陽性ER+的樣品顯示為紅色，黑色代表陰性ER—）。

b PCA分析了兩個(gè)主成分PC1和PC2，沿著這兩個(gè)主成分?jǐn)?shù)據(jù)有最大的分散。

c 樣品數(shù)據(jù)只用一維顯示，將ER+、ER—和所有樣品的數(shù)據(jù)都分別記入第一個(gè)主成分PC1中。

d 當(dāng)PCA用于分析樣品所有8534個(gè)基因的表達(dá)水平時(shí)，主成分的變量情況。

e PCA二維圖，用前兩個(gè)主成分?jǐn)?shù)據(jù)形成的散點(diǎn)圖，兩個(gè)基因采用其權(quán)重系數(shù)作為主成分 (綠點(diǎn)所示)。所示標(biāo)度適用于樣品；該標(biāo)度需除以950，才得到基因所對應(yīng)的標(biāo)度。

f 圖e中的樣品數(shù)據(jù)依ERBB2的情況繪制的圖（藍(lán)色、ERBB2＋、棕色、ERBB2—、綠色、情況未知）。

主成分

       盡管要深入理解PCA的算法需要具備線性代數(shù)的知識，但是，其基本原理卻可以通過簡單的幾何圖形進(jìn)行解釋。為了更加簡單明了的弄清個(gè)中原理，不妨假設(shè)在這一實(shí)驗(yàn)中，采用的基因芯片只對兩個(gè)基因GATA3和XBP1的表達(dá)水平進(jìn)行檢測。這樣可以簡化根據(jù)乳腺癌樣品表達(dá)譜進(jìn)行作圖的過程，因?yàn)樗话藘山M數(shù)據(jù)（圖.1a）。我們將乳腺癌樣品按照雌激素受體陽性或陰性進(jìn)行分類，本文已選擇了兩個(gè)基因，其表達(dá)水平與雌激素受體水平相關(guān)[3]。

       在PCA中，鑒別出新的變量即主成分——原始變量的線性組合。這項(xiàng)二維基因表達(dá)譜研究中所采用的兩個(gè)主成分見圖.1b�？梢院芮宄目闯�，沿第一個(gè)主成分方向，分布的是樣品最大變量；沿第二個(gè)主成分的方向分布的是與第一個(gè)主成分無相關(guān)的最大變量。

       如果數(shù)據(jù)已經(jīng)過標(biāo)準(zhǔn)化，那么每個(gè)基因的數(shù)據(jù)都應(yīng)該集中在0平均表達(dá)水平，主成分是代表標(biāo)準(zhǔn)化后的基因表達(dá)數(shù)據(jù)協(xié)方差的特征向量，并根據(jù)它們包含變量信息的多少而被排序。每個(gè)主成分都可被理解為一個(gè)向量，且它們之間互不相關(guān)，每個(gè)主成分都盡可能的包含了樣品變量的最大差異。這里，用于研究的基因數(shù)據(jù)在進(jìn)行PCA前都被進(jìn)行了標(biāo)準(zhǔn)化，圖.1b中的第一個(gè)主成分PC1=0.83×GATA3 + 0.56×XBP1。主成分很好的體現(xiàn)了每個(gè)樣品數(shù)據(jù)本身的特征，有時(shí)就是指特征向量。和PCA相關(guān)的方法包括獨(dú)立成分分析，該方法是用來確認(rèn)成分之間統(tǒng)計(jì)學(xué)上互相獨(dú)立，而不僅僅是非相關(guān)的方法。

減維與圖像化

       我們可以通過把每個(gè)變量都集中到第一主成分中的方法從而把上面的二維分析簡化成一維分析（圖.1c）。這種一維的分析方法同樣保留了樣品間激素受體的差異性。將數(shù)據(jù)轉(zhuǎn)變成主成分也可以看成是另一種基因表達(dá)譜，因此這種標(biāo)準(zhǔn)化后的主成分有時(shí)也被稱作特征基因。因此，對于每個(gè)很好代表了樣品信息的主成分，PCA都展示了一個(gè)基因表達(dá)譜。而且，由于數(shù)據(jù)都是標(biāo)準(zhǔn)化后的，所以樣品都是0平均表達(dá)，特征基因也就是樣品協(xié)方差的特征向量。

       剛才，我們用兩個(gè)基因的數(shù)據(jù)演示了PCA是如何工作的，但如何分析數(shù)千個(gè)基因的數(shù)據(jù)呢？讓我們看看用PCA對105個(gè)樣品表達(dá)量的研究吧。這105個(gè)樣品是用有8534個(gè)探針的基因芯片進(jìn)行分析的。為了讓我們對數(shù)據(jù)的維度有個(gè)概念，我們從每個(gè)主成分中所有基因共有變量的比例開始（圖.1d）。注意，盡管前面的幾個(gè)主成分比后面的幾個(gè)主成分有更多的變量，但是第一個(gè)和第二個(gè)主成分只含有22%的原始變量，所以還需要63個(gè)主成分來囊括其它約90%的原始變量。另一方面，只需104個(gè)主成分就可以包含所有的原始變量了，這比起8534個(gè)原始變量來說，要少得多。當(dāng)變量的數(shù)目比樣品的數(shù)目多時(shí)，PCA可以在不損失信息量的情況下將樣品的維度最大程度地減少至樣品數(shù)。

       為了檢測包含在前兩個(gè)主成分中的變量是否攜帶乳腺癌樣品相關(guān)的信息，每一個(gè)樣品的數(shù)據(jù)都被計(jì)入這兩個(gè)主成分了（圖.1e）。結(jié)果我們將所有基因的數(shù)目這一維度減少到二維，但仍然保留了足以區(qū)分雌激素受體陽性樣品和雌激素受體陰性樣品的信息。我們已經(jīng)知道雌激素受體對乳腺癌細(xì)胞的基因表達(dá)有很大的影響[3]，但PCA分析并沒有得到兩個(gè)分離的結(jié)果（圖.1e），這表明用PCA來發(fā)現(xiàn)未知的基因是很困難的。除此之外，用基因表達(dá)譜可根據(jù)是否攜帶有ERBB2基因的拷貝，來對乳腺癌進(jìn)行分類，但只用前兩個(gè)主成分進(jìn)行分析時(shí)不能包含該信息（圖.1f）。這提醒我們PCA是用來分析最大變量的，而不是對樣品進(jìn)行分類的。同樣需要注意的是高通量技術(shù)得來的數(shù)據(jù)之間的差異可能是由于系統(tǒng)性試驗(yàn)誤差導(dǎo)致的[5-7]，而由此得到的主成分和誤差相關(guān)。

由于主成分針對每個(gè)基因都具有相應(yīng)的權(quán)重系數(shù)，因此我們就可以用權(quán)重來直觀地對PCA圖中每個(gè)基因進(jìn)行讀圖[8]。大部分基因都分布在我們上述的二維圖線兩側(cè)，但最大權(quán)重基因的主成分會超出各自的范圍[9]。二維圖提供了一個(gè)方法，即用和基因情況相對應(yīng)的PCA得到的樣品數(shù)據(jù)情況來判斷某些樣品中基因群的表達(dá)情況。圖.1e是以兩個(gè)基因?yàn)槔鞯姆治觥?BR>

計(jì)算生物學(xué)中的應(yīng)用

       PCA的一項(xiàng)明顯的用處是研究高維度的數(shù)據(jù)集，就象以上提到的那樣。通常，我們使用三維圖象來做研究，樣品數(shù)據(jù)要不就被計(jì)入主成分，象上面例子中的那樣，要不根據(jù)它們和主成分的相關(guān)性直接繪在圖上[10]。因?yàn)樵诙S或三維圖像化的過程中很多信息不可避免的會被丟失掉，所以在圖像化數(shù)據(jù)的過程中系統(tǒng)地嘗試幾種主成分的組合就顯得非常重要了。因?yàn)橹鞒煞珠g互不相關(guān)，所以它們也就代表了樣品數(shù)據(jù)的不同方面。這也意味著在對樣品數(shù)據(jù)進(jìn)行聚類或分類時(shí)，PCA可以作為一個(gè)非常有用的初步處理工具。然而決定在后續(xù)的分析中采用多少主成分，哪些主成分是一個(gè)很大的困難，這種困難體現(xiàn)在幾個(gè)方面[1]。例如，可以使用一個(gè)與目標(biāo)表型[9]相關(guān)的主成分或使用足夠多的主成分來囊括數(shù)據(jù)中幾乎所有的變量[11]。PCA的結(jié)果非常依賴于對數(shù)據(jù)的預(yù)處理和所選擇的變量。因此，檢查PCA的圖也可以發(fā)現(xiàn)一些信息，這些信息表明了對數(shù)據(jù)的預(yù)處理的方式的不同和所選擇的變量的不同。

       PCA經(jīng)常被用來進(jìn)行數(shù)據(jù)的奇異值分解（singular value decomposition, SVD）。樣品樣的特征陣列和基因樣的特征基因譜都可以同時(shí)經(jīng)由SVD分析獲得[10,12]。很多超出了減維、分類和聚類的應(yīng)用都利用由SVD而產(chǎn)生的基因表達(dá)圖譜的全球表型。應(yīng)用還包括辨別出試驗(yàn)誤差，并過濾掉這些誤差[6]、估計(jì)丟失的數(shù)據(jù)、相關(guān)基因及其表達(dá)譜、調(diào)節(jié)子的活性，并可以幫助發(fā)現(xiàn)細(xì)胞表型的動(dòng)態(tài)結(jié)構(gòu)[7,10,12]。隨著技術(shù)的飛速發(fā)展，產(chǎn)生了高維度的分子生物學(xué)數(shù)據(jù)，這將在未來的幾年內(nèi)，給PCA帶來更多可能的應(yīng)用。

原文檢索：www.nature.com

參考文獻(xiàn)：
[1]Jolliffe, I.T. Principal Component Analysis (Springer, New York, 2002).
[2]Saal, L.H. et al. Proc. Natl. Acad. Sci. USA 104, 7564-7569(2007).
[3]Perou, C.M. et al. Nature 406, 747-752(2000).
[4]Common, P. Signal Process. 36, 287-314(1994).
[5]Coombes, K.R. et al. Nat. Biotechnol. 23, 291-292(2005).
[6]Nielsen, T.O. et al. Lancet 359, 1301-1307(2002).
[7]Li, C.M. & Klevecz, R.R. Proc. Natl. Acad. Sci. USA 103, 16254-16259(2006).
[8]Gabriel, K.R. Biometrika 58, 453-467(1971).
[9]Landgrebe, J. Wurst, W. & Weizi, G. Genome Biol. 3, RESEARCH0019(2002).
[10]Alter, O., Brown, P.O. & Botstein, D. Proc. Natl. Acad. Sci. USA 97, 10101-10106(2000).
[11]Khan, J. et al. Nat. Med. 7, 673-679(2001).
[12]Holter, N.S. et al. Proc. Natl. Acad. Sci. USA 97, 8409-8414(2000).

小詞典：
主成分分析（principal component analysis）
將多個(gè)變量通過線性變換以選出較少個(gè)重要變量的一種多元統(tǒng)計(jì)分析方法，又稱主分量分析。在實(shí)際課題中，為了全面分析問題，往往提出很多與此有關(guān)的變量（或因素），因?yàn)槊總€(gè)變量都在不同程度上反映這個(gè)課題的某些信息。但是，在用統(tǒng)計(jì)分析方法研究這個(gè)多變量的課題時(shí)，變量個(gè)數(shù)太多就會增加課題的復(fù)雜性。人們自然希望變量個(gè)數(shù)較少而得到的信息較多。在很多情形，變量之間是有一定的相關(guān)關(guān)系的，當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí)，可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量，建立盡可能少的新變量，使得這些新變量是兩兩不相關(guān)的，而且這些新變量在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機(jī)變量引入的，爾后H.霍特林將此方法推廣到隨機(jī)向量的情形。信息的大小通常用離差平方和或方差來衡量。

來源：上海伯豪生物技術(shù)有限公司
聯(lián)系電話：021-58955370
E-mail：market@shbio.com

【點(diǎn)擊可查看上海伯豪生物技術(shù)有限公司相關(guān)產(chǎn)品】

標(biāo)簽：主成分分析在生命科學(xué)研究中的應(yīng)用

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞