蛋白質(zhì)組學(xué)基礎(chǔ):常用蛋白參考數(shù)據(jù)庫的介紹及選擇
瀏覽次數(shù):297 發(fā)布日期:2024-11-5
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
蛋白質(zhì)組學(xué)是通過蛋白質(zhì)鑒定和定量對(duì)生物系統(tǒng)中的蛋白質(zhì)結(jié)構(gòu)和功能進(jìn)行大規(guī)模研究的科學(xué)。質(zhì)譜法在過去幾十年作為綜合蛋白質(zhì)組分析的主要工具而被廣泛應(yīng)用,Shot gun/Bottom up是鑒定多肽和蛋白質(zhì)的主流方法,蛋白質(zhì)首先被水解成肽段,然后通過質(zhì)譜法檢測帶電母離子和碎片離子,記錄成譜圖數(shù)據(jù),再借助數(shù)據(jù)分析軟件進(jìn)行譜圖解析,根據(jù)肽段的解析結(jié)果和參考數(shù)據(jù)庫,推斷蛋白組鑒定結(jié)果[1]。因此,如何選擇序列參考數(shù)據(jù)庫將直接影響輸出的結(jié)果。
本期推送主要為大家介紹在常規(guī)蛋白質(zhì)組學(xué)數(shù)據(jù)分析中最常用的兩大數(shù)據(jù)庫:Uniprot和NCBI數(shù)據(jù)庫,以及如何將已下載的數(shù)據(jù)庫文件導(dǎo)入PEAKS®軟件以進(jìn)行搜庫。歡迎大家轉(zhuǎn)發(fā)和收藏!
數(shù)據(jù)庫介紹
1. Uniprot數(shù)據(jù)庫
Uniprot數(shù)據(jù)庫是一個(gè)全面的蛋白質(zhì)資源數(shù)據(jù)庫,為科研工作者提供了豐富的蛋白質(zhì)序列和功能信息。該數(shù)據(jù)庫由歐洲生物信息學(xué)研究所、瑞士和美國蛋白質(zhì)信息中心等機(jī)構(gòu)共同維護(hù),是一個(gè)非營利性的項(xiàng)目,旨在推動(dòng)蛋白質(zhì)組學(xué)領(lǐng)域的研究發(fā)展。數(shù)據(jù)庫整合了多個(gè)來源的蛋白質(zhì)信息,包括Swiss-Prot、TrEMBL和PIR等,形成了一個(gè)龐大而統(tǒng)一的蛋白質(zhì)知識(shí)體系。Swiss-Prot包含了經(jīng)人工注釋和驗(yàn)證的蛋白質(zhì)序列,質(zhì)量較高,一般分類為“Reviewed”;而TrEMBL中的蛋白是由EMBL-Bank、GenBank 和 DDBJ中的編碼序列翻譯而來的,因此一般標(biāo)注為“Unreviewed”。這些數(shù)據(jù)庫涵蓋了從細(xì)菌到人類等多個(gè)物種的蛋白氨基酸序列、基因名稱、物種來源等基本信息,為不同領(lǐng)域的研究者提供了寶貴資源。此外,還整合了蛋白質(zhì)的功能注釋、結(jié)構(gòu)信息、翻譯后修飾、相互作用網(wǎng)絡(luò)等內(nèi)容,這些功能信息有助于研究者深入理解蛋白質(zhì)在生物體中的角色和作用機(jī)制。
Uniprot數(shù)據(jù)庫還提供了強(qiáng)大的搜索和瀏覽功能,用戶可以通過關(guān)鍵詞、序列比對(duì)等方式快速定位到感興趣的蛋白質(zhì)。在Uniprot網(wǎng)站檢索目標(biāo)蛋白列表時(shí),推薦優(yōu)先通過Taxonomy分類進(jìn)行篩選,Proteome分類下的蛋白是來源于完整基因組測序的注釋結(jié)果,既包含Swiss-Pro,也包含TrEMBLE的蛋白。
2. NCBI數(shù)據(jù)庫
NCBI(National Center for Biotechnology Information)數(shù)據(jù)庫是全球最大的生物信息數(shù)據(jù)庫之一,由美國國立衛(wèi)生研究院(NIH)下屬的美國國家醫(yī)學(xué)圖書館(NLM)建立和維護(hù)。蛋白參考序列(RefSeq)只是NCBI數(shù)據(jù)庫組成的一部分,還包括基因序列數(shù)據(jù)庫(GenBank)、生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(PubMed)、基因數(shù)據(jù)庫(Gene)、結(jié)構(gòu)數(shù)據(jù)庫(Structure)、表型和基因型數(shù)據(jù)庫(dbGaP)等。
RefSeq 類似于 UniProtKB 的中“Proteome”的分類列表,是基于基因組注釋結(jié)果展示檢索結(jié)果的的。隨著基因組和RNA測序等其他支持?jǐn)?shù)據(jù)的更新,RefSeq也會(huì)隨之更新注釋,每個(gè)注釋版本都會(huì)有一個(gè)注釋報(bào)告,其中包含有關(guān)底層基因組、新基因組注釋、使用的其他信息以及有關(guān)更新內(nèi)容的各種統(tǒng)計(jì)數(shù)據(jù)。RefSeq 的蛋白質(zhì)序列是以每個(gè)物種為單位匯總的,不能像UniProt中那樣,通過Taxonomy分類樹逐級(jí)下載對(duì)應(yīng)的單個(gè)fasta文件。如需下載特定物種的fasta數(shù)據(jù)庫,可直接檢索具體的taxonomy ID。NCBI下載的FASTA冗余度較高,用戶需要使用其他工具進(jìn)一步合并和去除冗余條目。
如何選擇合適的數(shù)據(jù)庫
由于NCBI的參考蛋白信息以基因組注釋為主,檢索結(jié)果的冗余度較高,一般推薦優(yōu)先使用Uniprot來檢索目標(biāo)物種的參考蛋白序列,并且,要根據(jù)實(shí)驗(yàn)條件和樣本選擇最合適的FASTA數(shù)據(jù)庫。數(shù)據(jù)庫過大,會(huì)導(dǎo)致搜索空間變大,無關(guān)蛋白過多會(huì)使得假陽性過高,從而影響“正確”蛋白的鑒定結(jié)果。數(shù)據(jù)庫過小,則可能因?yàn)榈鞍讛?shù)過少而導(dǎo)致假陰性變高,譜圖中本來采集到的蛋白因?yàn)椴辉跀?shù)據(jù)庫里面而被漏掉。
對(duì)于人、小鼠等常見物種,由于實(shí)驗(yàn)數(shù)據(jù)豐富,被人工校驗(yàn)和注釋的蛋白數(shù)足夠多,因此一般直接在Swiss-Prot下載Reviewed protein fasta即可,但對(duì)于非常見物種來說,unreviewed proteins居多,甚至稀有物種本身連基因組注釋的信息都極少,此時(shí),可以考慮Taxonomy上一級(jí)的參考序列,根據(jù)種屬同源性進(jìn)行搜索[2]。
FASTA文件下載步驟及導(dǎo)入PEAKS®
01 Uniprot數(shù)據(jù)庫下載
02 NCBI數(shù)據(jù)庫下載
03將FASTA導(dǎo)入PEAKS®
> PEAKS Studio
> PEAKS Online
注意:對(duì)于NCBI下載的fasta數(shù)據(jù)庫,需要先手動(dòng)配置對(duì)應(yīng)的taxonomy文件(prot.accession2taxid.gz),配置方法見下圖(PEAKS Online直接將該文件copy至安裝目錄“\peaks-online\taxonomy”路徑下即可)。該文件可從NCBI官網(wǎng)下載,也可聯(lián)系我們獲取網(wǎng)盤下載鏈接。
我們將持續(xù)更新蛋白質(zhì)組學(xué)相關(guān)基礎(chǔ)知識(shí),感興趣的您敬請(qǐng)持續(xù)關(guān)注哦!
若您想深入了解PEAKS軟件相關(guān)功能和應(yīng)用,歡迎點(diǎn)擊下方聯(lián)系方式提交您的咨詢信息!
參考文獻(xiàn)
1.Yuming Jiang, Jesse G. Meyer et al. Comprehensive Overview of Bottom-Up Proteomics using Mass Spectrometry. ACS Meas. Sci. Au 2024, 4, 4, 338–417.
2.UniProt. https://www.uniprot.org/help/sequence_origin (accessed 2024-05-07).
-掃碼關(guān)注-
www.bioinfor.com (EN)
www.deepproteomics.cn(CN)
作為生物信息學(xué)的領(lǐng)軍企業(yè),BSI專注于蛋白質(zhì)組學(xué)和生物藥領(lǐng)域,通過機(jī)器學(xué)習(xí)和先進(jìn)算法提供世界領(lǐng)先的質(zhì)譜數(shù)據(jù)分析軟件和蛋白質(zhì)組學(xué)服務(wù)解決方案,以推進(jìn)生物學(xué)研究和藥物發(fā)現(xiàn)。我們通過基于AI的計(jì)算方案,為您提供對(duì)蛋白質(zhì)組學(xué)、基因組學(xué)和醫(yī)學(xué)的卓越洞見。旗下著名的PEAKS®️系列軟件在全世界擁有數(shù)千家學(xué)術(shù)和工業(yè)用戶,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️ 免疫肽組發(fā)現(xiàn)服務(wù)和抗體綜合表征服務(wù)等。
聯(lián)系方式:021-60919891;sales-china@bioinfor.com