English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術(shù)文章 > 生命科學國外重要數(shù)據(jù)庫

生命科學國外重要數(shù)據(jù)庫

瀏覽次數(shù):6121 發(fā)布日期:2009-2-4  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責任自負
EMBL數(shù)據(jù)庫結(jié)構(gòu)
EMBL數(shù)據(jù)庫的基本單位也是序列條目,包括核甘酸堿基排列順序和注釋兩部分。序列條目由字段組成,每個字段由標識字起始,后面為該字段的具體說明。有些字段又分若干次子字段,以次標識字或特性表說明符開始,最后以雙斜杠“//”作本序列條目結(jié)束標記。
條目的關(guān)鍵字包括ID(序列名稱),DE(序列簡單說明),AC(序列編號),SV(序列版本號),KW(與序列相關(guān)的關(guān)鍵詞),OS(序列來源的物種名),OC(序列來源的物種學名和分類學位置),RN(相關(guān)文獻編號或遞交序列的注冊信息),RA(相關(guān)文獻作者或遞交序列的作者),RT(相關(guān)文獻題目),RL(相關(guān)文獻雜志名或遞交序列的作者單位),RX(相關(guān)文獻 Mediline引文代碼),RC(相關(guān)文獻注釋),RP(相關(guān)文獻其他注釋),CC(關(guān)于序列的注釋信息),DR(相關(guān)數(shù)據(jù)庫交叉引用號),F(xiàn)H(序列特征表起始),F(xiàn)T(序列特征表子項),SQ(堿基種類統(tǒng)計數(shù))。

GenBank數(shù)據(jù)庫結(jié)構(gòu)
完整的GenBank數(shù)據(jù)庫包括序列文件,索引文件以及其它有關(guān)文件。索引文件是根據(jù)數(shù)據(jù)庫中作者、參考文獻等建立的,用于數(shù)據(jù)庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質(zhì)序列數(shù)據(jù)庫,其數(shù)據(jù)格式為FastA。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核苷酸堿基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計算機網(wǎng)絡(luò)提供該數(shù)據(jù)庫文件。下面,我們介紹序列文件的結(jié)構(gòu)。
GenBank序列文件由單個的序列條目組成。序列條目由字段組成,每個字段由關(guān)鍵字起始,后面為該字段的具體說明。有些字段又分若干次子字段,以次關(guān)鍵字或特性表說明符開始。每個序列條目以雙斜杠“//”作結(jié)束標記。序列條目的格式非常重要,關(guān)鍵字從第一列開始,次關(guān)鍵字從第三列開始,特性表說明符從第五列開始。每個字段可以占一行,也可以占若干行。若一行中寫不下時,繼續(xù)行以空格開始。
序列條目的關(guān)鍵字包括LOCUS (代碼),DEFINITION (說明),ACCESSION (編號),NID符(核酸標識),KEYWORDS (關(guān)鍵詞),SOURCE (數(shù)據(jù)來源),REFERENCE (文獻),F(xiàn)EATURES (特性表),BASE COUNT (堿基組成)及ORIGIN (堿基排列順序)。先版的核酸序列數(shù)據(jù)庫將引入新的關(guān)鍵詞SV (序列版本號),用“編號.版本號”表示,并取代關(guān)鍵詞NID。
LOCUS (代碼):是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環(huán)氧化酶cyclooxygenase。該字段還包括其它相關(guān)內(nèi)容,如序列長度、類型、種屬來源以及錄入日期等。說明字段是有關(guān)這一序列的簡單描述,如本例為人環(huán)氧化酶-2的mRNA全序列。
ACCESSION (編號):具有唯一性和永久性,如本例中代碼M90100用來表示上述人環(huán)氧化酶-2的mRNA序列,在文獻中引用這個序列時,應(yīng)該以此編號為準。
KEYWORDS (關(guān)鍵詞)字段:由該序列的提交者提供,包括該序列的基因產(chǎn)物以及其它相關(guān)信息,如本例中環(huán)氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。
SOURCE (數(shù)據(jù)來源)字段:說明該序列是從什么生物體、什么組織得到的,如本例中人臍帶血(umbilical vein)。次關(guān)鍵字ORGANISM (種屬)指出該生物體的分類學地位,如本例人、真核生物等等(詳見圖4.1)。
REFERENCE (文獻)字段:說明該序列中的相關(guān)文獻,包括AUTHORS (作者),TITLE (題目)及JOURNAL (雜志名)等,以次關(guān)鍵詞列出。該字段中還列出醫(yī)學文獻摘要數(shù)據(jù)庫MEDLINE的代碼。該代碼實際上是個超文本鏈接,點擊它可以直接調(diào)用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,并給出該序列中的哪一部分與文獻有關(guān)。
FEATURES (特性表):具有特定的格式,用來詳細描述序列特性。特性表中帶有‘/db-xref/’標志的字符可以連接到其它數(shù)據(jù)庫,如本例中的分類數(shù)據(jù)庫(taxon 9606),以及蛋白質(zhì)序列數(shù)據(jù)庫(PID:g181254)。序列中各部分的位置都在表中標明,5’非編碼區(qū)(1-97),編碼區(qū)(98-1912),3’非編碼區(qū)(1913-3387),多聚腺苷酸重復(fù)區(qū)域(3367-3374),等等。翻譯所得信號肽以及最終蛋白質(zhì)產(chǎn)物也都有所說明。當然,這個例子只是特性表的部分注釋信息,但已經(jīng)足以說明其詳細程度。
接下來是堿基含量字段,給出序列中的堿組成,如本例中1010個A,712個C,633個G,1032個T。ORIGIN行是序列的引導行,接下來便是堿基序列,以雙斜杠行“//”結(jié)束。
 
其它常用核酸序列數(shù)據(jù)庫
dbEST數(shù)據(jù)庫專門收集EST數(shù)據(jù),該數(shù)據(jù)庫有自己的格式,包括識別符、代碼、序列數(shù)據(jù)以及dbEST的注釋摘要,也按DNA的種類分成了若干子數(shù)據(jù)庫。1998年5月8日版的dbEST共包括1.6ⅹ106條EST。其中有1百萬條人的EST,30萬條小鼠和大鼠的EST。

GSDB是基因組序列數(shù)據(jù)庫(Genome Sequence Data Base),由美國新墨西哥州Santa Fe的國家基因組資源中心創(chuàng)建。GSDB收集、管理并且發(fā)布完整的DNA序列及其相關(guān)信息,以滿足基因組測序中心需要。該數(shù)據(jù)庫采用服務(wù)器-客戶機關(guān)系數(shù)據(jù)庫模式,大規(guī)模測序機構(gòu)可以通過計算機網(wǎng)絡(luò)向服務(wù)器提交數(shù)據(jù),并在發(fā)送之前對數(shù)據(jù)進行檢查,以確保數(shù)據(jù)的質(zhì)量。 
GSDB數(shù)據(jù)庫中條目的格式與GenBank中的基本一致,主要區(qū)別是GSDB數(shù)據(jù)庫中增加了GSDBID識別符。
GSDB數(shù)據(jù)庫可以通過萬維網(wǎng)查詢,也可以使用服務(wù)器-客戶機關(guān)系數(shù)據(jù)庫方式查詢。無論用哪種方法,熟悉數(shù)據(jù)庫結(jié)構(gòu)化查詢語言SQL,對更好地使用GSDB數(shù)據(jù)庫會有所幫助。  
人類基因組計劃的首要任務(wù)是對人類基因組進行全序列測定,整個基因組估計有30億個堿基對,其中大約3%可以編碼蛋白質(zhì),其余部分的生物學功能還不清楚。轉(zhuǎn)錄圖譜可以把基因組中能夠編碼蛋白質(zhì)的部分集中起來,因此是一種重要的數(shù)據(jù)資源。   
UniGene試圖通過計算機程序?qū)eneBank中的序列數(shù)據(jù)進行適當處理,剔除冗余部分,將同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的轉(zhuǎn)錄圖譜。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章將要介紹的HGI數(shù)據(jù)庫只包括人的基因。該數(shù)據(jù)庫的標題行(TITLE)給出基因的名稱和簡單說明,表達部位行(EXPRESS)指出該基因在什么組織中表達以及在基因圖譜中的位置等。此外,列出該基因在核酸序列數(shù)據(jù)庫GenBank或EMBL和蛋白質(zhì)序列數(shù)據(jù)庫SWISS-PROT中的編號的超文本鏈接。
UniGene中部分條目包括已知基因序列,而有些條目則僅有新測得的EST序列片段。這就意味著,這些EST序列所對應(yīng)的基因尚未搞清,可以用來發(fā)現(xiàn)新基因。在描繪基因圖譜及大規(guī);虮磉_分析等研究中,UniGene也可以幫助實驗設(shè)計者選擇試劑。
UniGene可以通過NCBI或SRS系統(tǒng)訪問。
來源:上海伯豪生物技術(shù)有限公司
聯(lián)系電話:021-58955370
E-mail:market@shbio.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com