近期任務(wù)
由于未來幾年蛋白質(zhì)和核酸的測序數(shù)據(jù)將以指數(shù)方式增加,近期生物信息學(xué)將在以下幾方面迅速發(fā)展:
大規(guī)模基因組測序中的信息分析
大規(guī)模測序是基因組研究的最基本任務(wù),它的每一個環(huán)節(jié)都與信息分析緊密相關(guān)。目前,從測序儀的光密度采樣與分析、堿基讀出、載體標(biāo)識與去除、拼接與組裝、填補序列間隙,到重復(fù)序列標(biāo)識、讀框預(yù)測和基因標(biāo)注的每一步都是緊密依賴基因組信息學(xué)的軟件和數(shù)據(jù)庫的。特別是拼接和填補序列間隙更需要把實驗設(shè)討和信息分析時刻聯(lián)系在一起.拼接與組裝中的難點是處理重復(fù)序列,這在含有約30%重復(fù)序列的人類基因組中顯得尤其突出。
新基因和新SNPs(單核苷酸多態(tài)性)的發(fā)現(xiàn)與鑒定
人類基因組的工作草圖即將完成,因此發(fā)現(xiàn)新基因就成了當(dāng)務(wù)之急。使用基因組信息學(xué)的方法通過超大規(guī)模計算是發(fā)現(xiàn)新基因的重要手段,可以說大部分新基因是靠理論方法預(yù)測出來的。比如啤酒酵母完整基因組(約1300萬bp)所包含的6千多個基因,大約60%是通過信息分析得到的。
當(dāng)人類基因找到之后,自然要解決的問題是:不同人種間基因有什么差別;正常人和病人基因又有什么差別!边@就是通常所說的SNPs(單核苷酸多態(tài)性)。構(gòu)建SNPs及其相關(guān)數(shù)據(jù)庫是基因組研究走向應(yīng)用的重要步驟。1998年國際已開展了以EST為主發(fā)現(xiàn)新Spps的研究。在我國開展中華民族SNPs研究也是至關(guān)重要的。
完整基因組的比較研究
現(xiàn)在,生物信息學(xué)家不僅有大量的序列和基因而且有越來越多的完整基因組。有了這些資料人們就能對若干重大生物學(xué)問題進行分析,比如:研究生命是從哪里起源的?生命是如何進化的?遺傳密碼是如何起源的?估計最小獨立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?比如,鼠和人的基因組大小相似,都含有約三十億堿基對,基因的數(shù)目也類似?墒鞘蠛腿瞬町惔_如此之大,這是為什么?同樣,有的科學(xué)家估計不同人種間
基因組的差別僅為0.1%;人猿間差別約為I%。但他們表型間的差異十分顯著。因此其表型差異不僅應(yīng)從基因、DNA序列找原因,也應(yīng)考慮到整個研究組、考慮染色體組織上的差異。總之,這些例子說明由完整基因組研究所導(dǎo)致的比較基因組學(xué)必將為基因組研究開辟新的領(lǐng)域。
大規(guī);蚬δ鼙磉_譜的分析 字串4
隨著人類基因組測序逐漸接。近完成、一些學(xué)者就提出如下的問題:即使我們已經(jīng)獲得了人的完整基因圖譜,那我們對人的生命活動能說明到什么程度呢?于是他們提出了一系列由上述數(shù)據(jù)所不能說明的問題,例如:基因表達的產(chǎn)物是否出現(xiàn)與何時出現(xiàn);基因表達產(chǎn)物的濃度是多少;是否存在翻譯后的修飾過程,若存在是如何修飾的;基因敲出(knock-out)或基因過度表達的影響是什么;多基因的表現(xiàn)型如何,等。概括這些問題,其實質(zhì)應(yīng)該是:我們雖然知道了基因,知道了核酸序列,但我們不知道它們是如何發(fā)揮功能的,或者說它們是如何按照特定的時間、空間進行基因表達的,表達量有多少。
為了得到基因表達的功能譜,國際上在核酸和蛋白質(zhì)兩個層次上都發(fā)展了新技術(shù)。這就是在核酸層次上的DNA芯片技術(shù)和在蛋白質(zhì)層次上的二維凝膠電泳和測序質(zhì)譜技術(shù),也稱蛋白質(zhì)組技術(shù)。
生物大分子的結(jié)構(gòu)模擬與藥物設(shè)計
隨著人類基因組計劃的執(zhí)行,估計幾年之內(nèi)就可找到人類的8萬到10萬個基因,也就是發(fā)現(xiàn)它們的一級序列。然而要了解他們的功能、要找到這些蛋白質(zhì)功能的分子基礎(chǔ),必須進一步知道它們的三維結(jié)構(gòu)。與此同時,要設(shè)計藥物也需要了解相應(yīng)的蛋白質(zhì)受體的三維結(jié)構(gòu)。這是擺在科學(xué)家面前的緊迫任務(wù)。
生物信息學(xué)的遠期任務(wù)是讀懂人類基因組,發(fā)現(xiàn)人類遺傳語言的根本規(guī)律。從而闡u若干生物學(xué)中的重大自然哲學(xué)問題,像生命的起源與進化等。這一研究的關(guān)鍵和核心是了解非編碼區(qū)。 字串5
非編碼區(qū)信息結(jié)構(gòu)分析
近年來完整基因組的研究表明,在細菌這樣的微生物中非編碼區(qū)只占整個基因組序列的10%到 20%。而高等生物和人的基因組中非編碼區(qū)都占到基因組序列的絕大部分。從生物進化的觀點看來,隨著生物體功能的完善和復(fù)雜化非編碼區(qū)序列明顯增加的趨勢表明:這部分序列必定具有重要的生物功能。普遍的認識是,它們與基因在四維時空的表達調(diào)控有關(guān)。因此尋找這些區(qū)域的編碼特征以及信息調(diào)節(jié)與表達規(guī)律是未來相當(dāng)長時間內(nèi)的熱點課題。
對人類基因組來說,迄今為止,人們真正掌握規(guī)律的只有DNA上的編碼蛋白質(zhì)的區(qū)域(基因),很多資料說u這部分序列只占基因組的3%到5%,也就是說,人類基因組中多達 95%到97%是非編碼區(qū)。如何深人了解這些非編碼區(qū)序列的功能是當(dāng)前科學(xué)家們面臨的一個真正的挑戰(zhàn)。
遺傳密碼起源和生物進化的研究
自 1859年Darwin的物種起源發(fā)表以來,進化論成為對人類自然科學(xué)和自然哲學(xué)發(fā)展的最重大貢獻之一。進化論研究的核心是描述生物進化的歷史(系統(tǒng)進化樹)和探索進化過程的機制。自本世紀中葉以來,隨著分子生物學(xué)的不斷發(fā)展,進化論的研究也進入了分子水平。當(dāng)前分子進化的研究已是進化論研究的重要手段,并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論方法。近年來,隨著序列數(shù)據(jù)的大量增加,對序列差異和進化關(guān)系的爭論也越來越激烈。不少的研究結(jié)果并不支持分子鐘的假設(shè)。因為基于某一種分子序列所重構(gòu)出的進化樹,只能反映這種序列的系統(tǒng)發(fā)育關(guān)系,并不一定能代表物種之間真正的進化關(guān)系,即可能存在著基因樹與物種樹之間的差異。同時,對垂直進化和水平演化之間關(guān)系的討論正逐漸引起人們的重視。當(dāng)前的資料給了我們。一個更為復(fù)雜也更為豐滿的進化模式,它啟示我們要徹底了解進化的規(guī)律必須使用整個基因組的信息。相應(yīng)地必須發(fā)展新的理論方法。 總之,當(dāng)前是生物信息學(xué)研究的一個有活力的新時代。不少科學(xué)家還說它是人類基因組研究的收獲時代,它不僅將賦予人們各種基礎(chǔ)研究的重要成果,也會帶來巨大的經(jīng)濟效益和社會效益。在未來的幾年中DNA序列數(shù)據(jù)將以意想不到的速度增長,這是一個難得的機會,我國應(yīng)盡早利用這些數(shù)據(jù)就可能走在國際科學(xué)界的最前沿