English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > 生物信息學(xué)在基因芯片數(shù)據(jù)功能分析中的應(yīng)用

生物信息學(xué)在基因芯片數(shù)據(jù)功能分析中的應(yīng)用

瀏覽次數(shù):7290 發(fā)布日期:2009-4-29  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
      隨著人類基因組計(jì)劃(Human Genome Project)即全部核苷酸測(cè)序的即將完成,人類基因組研究的重心逐漸進(jìn)入后基因組時(shí)代(Postgenome Era),向基因的功能及基因的多樣性傾斜。通過對(duì)個(gè)體在不同生長發(fā)育階段或不同生理狀態(tài)下大量基因表達(dá)的平行分析,研究相應(yīng)基因在生物體內(nèi)的功能,闡明不同層次多基因協(xié)同作用的機(jī)理,進(jìn)而在人類重大疾病如癌癥、心血管疾病的發(fā)病機(jī)理、診斷治療、藥物開發(fā)等方面的研究發(fā)揮巨大的作用。它將大大推動(dòng)人類結(jié)構(gòu)基因組及功能基因組的各項(xiàng)基因組研究計(jì)劃。生物信息學(xué)在基因組學(xué)中發(fā)揮著重大的作用, 而另一項(xiàng)嶄新的技術(shù)——基因芯片已經(jīng)成為大規(guī)模探索和提取生物分子信息的強(qiáng)有力手段,將在后基因組研究中發(fā)揮突出的作用。基因芯片與生物信息學(xué)是相輔相成的,基因芯片技術(shù)本身是為了解決如何快速獲得龐大遺傳信息而發(fā)展起來的,可以為生物信息學(xué)研究提供必需的數(shù)據(jù)庫,同時(shí)基因芯片的數(shù)據(jù)分析也極大地依賴于生物信息學(xué),因此兩者的結(jié)合給分子生物學(xué)研究提供了一條快捷通道。
本文介紹了幾種常用的基因功能分析方法和工具:
一、GO分類法
      最先出現(xiàn)的芯片數(shù)據(jù)基因功能分析法是GO分類法。Gene Ontology(GO,即基因本體論)數(shù)據(jù)庫是一個(gè)較大的公開的生物分類學(xué)網(wǎng)絡(luò)資源的一部分,它包含38675 個(gè)Entrez Gene注釋基因中的17348個(gè),并把它們的功能分為三類:分子功能,生物學(xué)過程和細(xì)胞組分。在每一個(gè)分類中,都提供一個(gè)描述功能信息的分級(jí)結(jié)構(gòu)。這樣,GO中每一個(gè)分類術(shù)語都以一種被稱為定向非循環(huán)圖表(DAGs)的結(jié)構(gòu)組織起來。研究者可以通過GO分類號(hào)和各種GO數(shù)據(jù)庫相關(guān)分析工具將分類與具體基因聯(lián)系起來,從而對(duì)這個(gè)基因的功能進(jìn)行描述。在芯片的數(shù)據(jù)分析中,研究者可以找出哪些變化基因?qū)儆谝粋(gè)共同的GO功能分支,并用統(tǒng)計(jì)學(xué)方法檢定結(jié)果是否具有統(tǒng)計(jì)學(xué)意義,從而得出變化基因主要參與了哪些生物功能。
EASE(Expressing Analysis Systematic Explorer)是比較早的用于芯片功能分析的網(wǎng)絡(luò)平臺(tái)。由美國國立衛(wèi)生研究院(NIH)的研究人員開發(fā)。研究者可以用多種不同的格式將芯片中得到的基因?qū)隕ASE 進(jìn)行分析,EASE會(huì)找出這一系列的基因都存在于哪些GO分類中。其最主要特點(diǎn)是提供了一些統(tǒng)計(jì)學(xué)選項(xiàng)以判斷得到的GO分類是否符合統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)。EASE能進(jìn)行的統(tǒng)計(jì)學(xué)檢驗(yàn)主要包括Fisher 精確概率檢驗(yàn),或是對(duì)Fisher精確概率檢驗(yàn)進(jìn)行了修飾的EASE 得分(EASE score)。
      由于進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)的GO分類的數(shù)量很多,所以EASE采取了一系列方法對(duì)“多重檢驗(yàn)”的結(jié)果進(jìn)行校正。這些方法包括弗朗尼校正法(Bonferroni),本杰明假陽性率法(Benjamini falsediscovery rate)和靴帶法(bootstraping)。同年出現(xiàn)的基于GO分類的芯片基因功能分析平臺(tái)還有底特律韋恩大學(xué)開發(fā)的Onto-Express。2002年,挪威大學(xué)和烏普薩拉大學(xué)聯(lián)合推出的Rosetta 系統(tǒng)將GO分類與基因表達(dá)數(shù)據(jù)相聯(lián)系,引入了“最小決定法則”(minimal decision rules)的概念。它的基本思想是在對(duì)多張芯片結(jié)果進(jìn)行聚類分析之后,與表達(dá)模式不相近的基因相比,相近的基因更有可能參與相同的生物學(xué)功能的實(shí)現(xiàn)。比較著名的基于GO分類法的芯片數(shù)據(jù)分析網(wǎng)絡(luò)平臺(tái)還有七十多個(gè),表1列舉了其中的一部分。
 
Name
Internet Site
Onto-Tools
http://vortex.cs.wayne.edu/projects.htm
ROSETTA
http://rosetta.lcb.uu.se/general/
GOToolBox
http://burgundy.cmmt.ubc.ca/GOToolBox/
GOstat
http://gostat.wehi.edu.au/
GFINDer
http://www.medinfopoli.polimi.it/GFINDer/
FatiGO
http://www.fatigo.org/
EASE
http://david.abcc.ncifcrf.gov/ease/ease.jsp
1 GO 分類法進(jìn)行芯片功能分析的網(wǎng)絡(luò)平臺(tái)
二、通路分析法
      通路分析是現(xiàn)在經(jīng)常被使用的芯片數(shù)據(jù)基因功能分析法。與GO分類法(應(yīng)用單個(gè)基因的GO分類信息)不同,通路分析法利用的資源是許多已經(jīng)研究清楚的基因之間的相互作用,即生物學(xué)通路。研究者可以把表達(dá)發(fā)生變化的基因列表導(dǎo)入通路分析軟件中,進(jìn)而得到變化的基因都存在于哪些已知通路中,并通過統(tǒng)計(jì)學(xué)方法計(jì)算哪些通路與基因表達(dá)的變化最為相關(guān),F(xiàn)在已經(jīng)有豐富的數(shù)據(jù)庫資源幫助研究人員了解及檢索生物學(xué)通路,對(duì)芯片的結(jié)果進(jìn)行分析。主要的生物學(xué)通路數(shù)據(jù)庫有以下兩個(gè):① KEGG 數(shù)據(jù)庫:迄今為止,KEGG數(shù)據(jù)庫(Kyoto encyclopedia of genes and genomes)是向公眾開放的最為著名的生物學(xué)通路方面的資源網(wǎng)站。在這個(gè)網(wǎng)站中,每一種生物學(xué)通路都有專門的圖示說明。② BioCarta 數(shù)據(jù)庫:BioCarta 是一家生物技術(shù)公司,它在其公共網(wǎng)站上提供了用于繪制生物學(xué)通路的模板。研究者可以把符合標(biāo)準(zhǔn)的生物學(xué)通路提供給BioCarta數(shù)據(jù)庫。BioCarta數(shù)據(jù)庫不會(huì)檢驗(yàn)這些生物學(xué)通路的質(zhì)量,因此其中的資源質(zhì)量參差不齊,并且有許多相互重復(fù)。然而BioCarta數(shù)據(jù)庫數(shù)據(jù)量巨大,且不同于KEGG數(shù)據(jù)庫,包含了大量代謝通路之外的生物學(xué)通路,所以也得到廣泛的應(yīng)用。
      最先出現(xiàn)的通路分析軟件之一是GenMAPP(gene microarray pathway profiler)。它可以免費(fèi)使用,其最新版本為Gen-MAPP2。在這個(gè)軟件中,使用者可以用幾種靈活的文件格式輸入自己的表達(dá)譜數(shù)據(jù),GenMAPP的基因數(shù)據(jù)庫包含許多從常用的資源中得到的物種特異性的基因注釋和識(shí)別符(ID)。這些ID可以將使用者輸入的基因與不同的生物學(xué)通路的基因聯(lián)系起來。這些生物學(xué)通路存在于GenMAPP 的MAPP文件中。MAPP文件需要時(shí)常下載更新。它包含有許多KEGG生物學(xué)通路,一些GenMAPP自己的生物學(xué)通路和許多GO分類的MAPP 文件,全部操作簡單明了。而且依靠其自帶的MAPPBuilder和MAPPFinder 兩個(gè)軟件,使用者可以自己繪制生物學(xué)通路和對(duì)MAPP 文件進(jìn)行檢索。由于使用者可以自己繪制生物學(xué)通路保存為MAPP 格式,這個(gè)文件很小易于在網(wǎng)絡(luò)上傳播,所以GenMAPP數(shù)據(jù)庫更有利于研究者之間的及時(shí)交流。由于上述特點(diǎn),GenMAPP數(shù)據(jù)庫及軟件仍是現(xiàn)今免費(fèi)平臺(tái)里應(yīng)用比較廣泛的。2004年推出的Pathway Miner也是應(yīng)用較為廣泛的免費(fèi)通路分析網(wǎng)絡(luò)平臺(tái),由美國亞利桑那大學(xué)癌癥中心建立維護(hù),其最突出的特點(diǎn)就是信息全面,操作簡便。使用者可以在這個(gè)網(wǎng)站中獲得單個(gè)基因的序列、功能注釋,以及有關(guān)它們編碼的蛋白結(jié)構(gòu)功能,組織分布,OMIM等信息。對(duì)于通路分析部分,使用者給出基因列表及他們的表達(dá)變化值,網(wǎng)站可以根據(jù)三大公用的通路數(shù)據(jù)庫:KEGG、GenMAPP 和BioCarta,生成變化基因參與的通路,并用fisher 精確概率檢驗(yàn)。PathwayMiner自動(dòng)把得到的通路分成兩大類:代謝通路和細(xì)胞調(diào)節(jié)通路。方便使用者根據(jù)不同的研究目的選擇需要查看的結(jié)果。在2006年國內(nèi)也開發(fā)了用于通路分析的網(wǎng)絡(luò)平臺(tái),即KOBAS(KO-Based Annotation System),其基于KEGG數(shù)據(jù)庫建立,由北京大學(xué)生命科學(xué)院開發(fā)和維護(hù)。其特點(diǎn)是可直接采用基因或蛋白質(zhì)的序列錄入基因,并對(duì)錄入的基因列表進(jìn)行KO 注釋。對(duì)于結(jié)果的可靠性檢驗(yàn)提供了四種統(tǒng)計(jì)方法。使用者可以在網(wǎng)站進(jìn)行注冊(cè),網(wǎng)站會(huì)為使用者保存輸入的數(shù)據(jù),方便日后直接調(diào)用。最近推出的軟件Eu.Gene 整合了來自KEGG,Gen-MAPP 以及Reactome 的通路數(shù)據(jù),并采用fisher 精確概率檢驗(yàn)及基因集富集分析(Gene Set Enrichment Analysis, GSEA)來檢驗(yàn)結(jié)果是否具有統(tǒng)計(jì)學(xué)意義。表2 列舉了部分通路分析的網(wǎng)絡(luò)平臺(tái)及它們的網(wǎng)址。
 
Name
Internet Site
GenMAPP
http://www.genmapp.org/
PathwayMiner
http:///pathway.html
KOBAS
http://kobas.cbi.pku.edu.cn
GEPAT
http://gepat.bioapps.biozentrum.uni-wuerzburg.de/GEPAT/index.faces
VitaPad
http://bioinformatics.med.yale.edu/group
KEGGanim
http://biit.cs.ut.ee/kegganim/
WholePathwayScope
http://www.abcc.ncifcrf.gov/wps/wps_index.php
VisANT 3.0
http://visant.bu.edu/
Eu.Gene
http://www.ducciocavalieri.org/bio/Eugene.htm
表二 通路分析網(wǎng)絡(luò)平臺(tái)
三、基因調(diào)控網(wǎng)絡(luò)分析
      通路分析法是芯片功能分析的有力工具之一,其與GO分類法的主要區(qū)別也正是它的弱點(diǎn)。在生物反應(yīng)的過程中,發(fā)生表達(dá)變化的基因通常不只局限在一個(gè)通路中,而是存在于由許多調(diào)控因子和通路參與的復(fù)雜調(diào)控網(wǎng)絡(luò)中。生物調(diào)控網(wǎng)絡(luò)十分復(fù)雜,并沒有現(xiàn)成的文獻(xiàn)和數(shù)據(jù)庫供參考。而且,把芯片中發(fā)生表達(dá)變化的基因放在生物調(diào)控網(wǎng)絡(luò)的水平來看,它們通常在多個(gè)通路中都有分布,而每個(gè)通路只包含幾個(gè)發(fā)生表達(dá)變化的基因。這就解釋了為什么有些通路只有部分基因表達(dá)發(fā)生變化,而且表達(dá)變化的趨勢(shì)在整個(gè)通路水平上不一定是一致的。
      進(jìn)行生物調(diào)控網(wǎng)絡(luò)的研究需要更多的數(shù)據(jù)庫及分析工具的支持。比如需要關(guān)于基因組調(diào)控序列(啟動(dòng)子和增強(qiáng)子)的信息,現(xiàn)在已經(jīng)有許多關(guān)于轉(zhuǎn)錄因子結(jié)合位點(diǎn)(transcription factor binding site, TFBS)的數(shù)據(jù)庫可以滿足這個(gè)要求,如TRANSFAC及JASPAR。而且芯片檢測(cè)的基因變化應(yīng)該深入到轉(zhuǎn)錄本水平,因?yàn)椴煌霓D(zhuǎn)錄本的轉(zhuǎn)錄可能是由不同的啟動(dòng)子啟動(dòng)的。外顯子連接芯片(exon junction microarray)將基因組中外顯子與外顯子之間的連接序列做成36nt 的探針點(diǎn)到芯片上,與樣本mRNA 進(jìn)行雜交后可檢測(cè)出樣本中多外顯子基因pre-mRNA 的剪接狀況。
      轉(zhuǎn)錄調(diào)節(jié)控制基因表達(dá),調(diào)控不同組織中的細(xì)胞在各種生理?xiàng)l件及外界刺激下的反應(yīng)。不同于原核細(xì)胞,真核細(xì)胞的轉(zhuǎn)錄調(diào)節(jié)涉及大量轉(zhuǎn)錄因子的相互作用,而且基因組調(diào)控序列不只位于啟動(dòng)子,還包括內(nèi)含子及許多基因下游序列。所以真正了解真核細(xì)胞的基因調(diào)控網(wǎng)絡(luò)是一項(xiàng)非常艱巨的工作。用基因調(diào)控網(wǎng)絡(luò)來分析基因芯片數(shù)據(jù)還需要更多信息及技術(shù)的支持。

用戶名: 密碼: 匿名 快速注冊(cè) 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com