English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術(shù)文章 > 數(shù)據(jù)分析介紹(I) 主成份分析法

數(shù)據(jù)分析介紹(I) 主成份分析法

瀏覽次數(shù):3212 發(fā)布日期:2013-5-8  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負

      華聯(lián)于 2012 年 7 月~ 9 月的科技專題中,介紹芯片實驗設(shè)計時,概略介紹了一些常用的數(shù)據(jù)分析方法,有許多客戶及好學(xué)的讀者紛紛來信,希望我們另辟單元,仔細教學(xué)這些對他們很有幫助的分析軟件;數(shù)據(jù)分析素來是華聯(lián)的強項之一,我們很樂意也很興奮地開辟這個新單元 - 數(shù)據(jù)分析教學(xué),本期以主成份分析法 (Principal Component Analysis,PCA)作為起頭,并搭配影片教學(xué),讓大家學(xué)習(xí)事半功倍。
     
      在微陣列數(shù)據(jù) (Microarray data) 分析中,主成份分析法 (PCA) 是一種常用于簡化數(shù)據(jù)集 (Data set)、觀察樣本或基因群之間相關(guān)性的技術(shù)。微陣列數(shù)據(jù)通常是上萬筆基因、數(shù)十個樣本所組成的一個數(shù)據(jù)矩陣,利用主成份分析可以減少數(shù)據(jù)的維數(shù) (Dimension),同時保留數(shù)據(jù)對變異數(shù)貢獻最大的特征,藉以觀察樣本或基因群的主要差異。主要原理是經(jīng)由保留低階主成分,并忽略高階主成分。通常低階成分較能夠保留住數(shù)據(jù)的最重要成分。但是由于主成份分析依賴所給予的數(shù)據(jù),所以數(shù)據(jù)的準確性(或者我們也可以說實驗的準確與否)對分析結(jié)果影響很大。
      主成份分析法由卡爾.皮爾遜于1901年創(chuàng)建,用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對共變異數(shù)矩陣(這邊可以想成微陣列數(shù)據(jù)矩陣)進行特征分解3,以得出數(shù)據(jù)的主成份(即特征向量, Eigenvector) 與它們的權(quán)值(或稱特征值, Eigenvalue) 。特征向量的長度在該線性變換下縮放的比例我們稱之為其特征值,前面提到,將影響樣本變異數(shù)貢獻最大的特征向量放于第一維度,第二貢獻度的放于第二維度,藉此可得到樣本于平面坐標之間的關(guān)系圖,如圖一。

      這邊我們用顏色來區(qū)分不同樣本,微陣列實驗常以技術(shù)性重復(fù)來增加統(tǒng)計上的意義,圖中技術(shù)性重復(fù)以同一顏色來表示。一般來說,技術(shù)性重復(fù)的實驗因為來自同一管制備的RNA,所以理論上相關(guān)性應(yīng)該很高;但由于樣本取得、實驗過程、數(shù)據(jù)取得以及分析方式都可能造成誤差,所以實際上的結(jié)果會有變異性。圖中可見到技術(shù)性重復(fù)的結(jié)果很接近,但是標示黑色、紫色的樣本和紅色、綠色樣本間”特征差異性”比較大。我們也可以利用前三組貢獻最大的特征向量畫成3 度空間分布圖(如圖二),能進一步了解樣本于空間中分布的情形;從圖中可以發(fā)現(xiàn),當我們轉(zhuǎn)了一個角度,標示紅色和綠色的樣本在空間坐標中還是有段距離;代表其特征值還是有差異性。
       數(shù)據(jù)對應(yīng)的特征值如表一,我們可以觀察到這邊將主成份 (Principal Components) 分成PC1~PC7共七等份,全部加成起來代表了所有樣本的特征信息,以百分比 (%Var)表示的話,總共100%;用白話一點的方式來說,前三個主成份(維度)就可以取得這些樣本約略 84%的特征信息,足以用其代表的特征值來區(qū)分樣本之間的差異性。所以當實驗完成、取得微陣列數(shù)據(jù)后,常常第一件事就是做主成份分析或叢集式分群分析(HierarchicalClustering),觀察樣本間的技術(shù)性或生物性重復(fù)做的好不好、實驗組和對照組之間的差異大不大,以及是否可以觀察到樣本間的特征差異性等等。這樣的分析可以做為一種質(zhì)量控管(Quality Control)的依據(jù),決定是否繼續(xù)分析或是重新作實驗的重要參考指標。

      之后的分析工作,主成份分析也扮演了重要角色。特別當我們找出一些基因群、足以分別代表其生物調(diào)節(jié)功能、代謝作用或藥物調(diào)控的變化指標,也可以將這些基因作主成份分析,如圖三。這邊我們特定挑選了一些有顯著差異表現(xiàn)的基因來試作,經(jīng)過主成份分析后被分成了五群,每個顏色代表一特定基因群,而每個基因群在研究中可能扮演了重要的調(diào)控機制。

小結(jié)
      本期介紹的主成份分析為芯片數(shù)據(jù)分析的第一關(guān),將芯片數(shù)萬點的信息簡化成幾個低維度的分析數(shù)據(jù),以歸納出彼此的群落分布,藉以比對各自的近似關(guān)系;觀察樣本間的技術(shù)性或生物性重復(fù)做的好不好、可不可信,進而決定是否繼續(xù)接下來的進階分析。
      華聯(lián)將在未來幾期的科技專題中介紹更多的數(shù)據(jù)分析方法,包含叢集式分群分析(Hierarchical Clustering)、基因功能分類 (Gene Ontology)、訊息傳遞路徑分析 (Pathways analysis)...等等,若有分析上的疑惑也歡迎隨時與我們連絡(luò)喲!。  

來源:華聯(lián)生物科技股份有限公司
聯(lián)系電話:免費服務(wù)電話: 400-6400-860
E-mail:cninfo@phalanxbiotech.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com