English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > PEAKS在質(zhì)譜數(shù)據(jù)鑒定多肽錯(cuò)誤發(fā)現(xiàn)率FDR評(píng)估的應(yīng)用

PEAKS在質(zhì)譜數(shù)據(jù)鑒定多肽錯(cuò)誤發(fā)現(xiàn)率FDR評(píng)估的應(yīng)用

瀏覽次數(shù):1065 發(fā)布日期:2023-8-4  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
概覽
從質(zhì)譜數(shù)據(jù)中鑒定多肽通過軟件實(shí)現(xiàn)自動(dòng)化。然而,就像科學(xué)實(shí)驗(yàn)需要使用對(duì)照進(jìn)行一樣,軟件的多肽鑒定結(jié)果也需要經(jīng)過統(tǒng)計(jì)驗(yàn)證以避免假陽性。對(duì)于當(dāng)今的肽鑒定,最被廣泛接受的結(jié)果驗(yàn)證方法是錯(cuò)誤發(fā)現(xiàn)率(FDR)。這篇文章解釋了什么是FDR;它是如何實(shí)際運(yùn)算的;以及使用FDR控制中的一些常見錯(cuò)誤。

每個(gè)肽鑒定軟件的核心功能都是對(duì)肽和MS/MS譜的匹配質(zhì)量的評(píng)估。對(duì)于數(shù)據(jù)中的每張MS/MS譜圖,軟件都會(huì)搜索蛋白質(zhì)數(shù)據(jù)庫,以找到最高肽譜匹配分?jǐn)?shù)的肽。譜圖與得分最高的肽之間的匹配通常稱為肽-譜匹配(peptide-spectrum match,PSM)。
一系列原因可能導(dǎo)致PSM錯(cuò)誤,其中包括:
01.低質(zhì)量的譜圖;
02.肽不在數(shù)據(jù)庫當(dāng)中
03.打分體系不夠完善。為了控制結(jié)果質(zhì)量,PSM按其得分來排序。通過選擇合適的分?jǐn)?shù)閾值,可以得到滿足高于閾值條件質(zhì)量的PSMs(圖1)。錯(cuò)誤發(fā)現(xiàn)率FDR指的是錯(cuò)誤的PSMs和在閾值之上的PSMs總數(shù)的比率。
圖1:軟件使用評(píng)分功能來區(qū)分鑒定結(jié)果的真假。FDR是誤報(bào)高于用戶指定的分?jǐn)?shù)閾值的部分。

 
通過調(diào)整閾值,結(jié)果的準(zhǔn)確度(FDR) 可以與靈敏度(鑒定到的數(shù)量)進(jìn)行轉(zhuǎn)化。軟件不同,其評(píng)分體系不同,可能具有顯著不同的權(quán)衡效率,如圖 2中的FDR曲線所示。
圖2:不同肽鑒定軟件的性能可以通過其FDR曲線進(jìn)行比較。在同一FDR閾值下,表現(xiàn)最好的應(yīng)該是能夠鑒定到最多的PSM(數(shù)據(jù)來自圖[1])。



用Target-Decoy方法來估算FDR
在實(shí)踐當(dāng)中,很難分辨哪個(gè)PSM是錯(cuò)誤的—否則這些錯(cuò)誤的PSMs可以被算法刪除以實(shí)現(xiàn)零錯(cuò)誤率。 因此,Target-Decoy方法[1]在實(shí)踐中被廣泛用于估算FDR。在這個(gè)方法當(dāng)中,軟件會(huì)在相同大小的target數(shù)據(jù)庫和decoy數(shù)據(jù)庫進(jìn)行搜索。 如果Decoy庫建的是足夠準(zhǔn)確的,那么軟件鑒定出的錯(cuò)誤應(yīng)當(dāng)在目標(biāo)庫和誘餌庫當(dāng)中均勻分布。由于所有的decoy中得到的鑒定都應(yīng)當(dāng)是錯(cuò)誤的,F(xiàn)DR 可以通過 FDR = (# Decoy hit) / (# target hit)來估計(jì)。
圖3:使用正確構(gòu)建的decoy庫,錯(cuò)誤匹配將均勻分布在target和decoy上。因此,decoy hit數(shù)量可用于估計(jì)FDR。

Target-Decoy方法使用的常見誤區(qū)
如果使用得當(dāng),Target-Decoy方法在統(tǒng)計(jì)學(xué)上是估算FDR的合理方法。不過,這種方法的誤用很常見,并且會(huì)導(dǎo)致對(duì)結(jié)果質(zhì)量的過高評(píng)估。在這里,我們簡要總結(jié)一些常見的錯(cuò)誤。需要強(qiáng)調(diào)的是,前面講到的“相同大小”和“均勻分布”是正確使用Target-Decoy方法的前提條件。我們即將看到,大多數(shù)Target-Decoy方法的使用錯(cuò)誤都是由于違反了這些先決條件。


01錯(cuò)誤1
使用方法Target-Decoy來驗(yàn)證搜索軟件中的多輪搜索方法。
為了加快搜索速度,多輪搜索算法通常在第一輪從大型數(shù)據(jù)庫中選擇一個(gè)蛋白質(zhì)的候選列表,然后在第二輪的蛋白質(zhì)候選列表(而不是整個(gè)數(shù)據(jù)庫)中鑒定到更多的PSM。然而,這種方法使用Target-Decoy法將無效:在第一輪中選擇的目標(biāo)蛋白多于Decoy蛋白數(shù)目;因此,在第二輪中,target和decoy的大小不同(圖4)。
圖4:第一輪中保留了更多的target蛋白。因此,在target蛋白庫中將鑒定到更多的隨機(jī)錯(cuò)誤。所以說,Decoy hit次數(shù)不能再被用于估算錯(cuò)誤匹配數(shù)。

02錯(cuò)誤 2
使用Target-Decoy方法時(shí),通過蛋白鑒定信息,來反饋給搜索軟件中的肽譜匹配進(jìn)行獎(jiǎng)勵(lì)性加分。
一個(gè)蛋白的PSM越多,代表這個(gè)蛋白的置信度就越高。因此,許多軟件工具會(huì)給來自高置信度蛋白的肽加分。盡管這樣做可以提高搜索的靈敏度,卻讓Target-Decoy方法變得不準(zhǔn)確:會(huì)出現(xiàn)更多具有高分的Target蛋白的匹配;因此,因高分帶來的錯(cuò)誤的target蛋白匹配將會(huì)比decoy錯(cuò)配獲得的蛋白更多。錯(cuò)誤匹配將不會(huì)均勻分布。

03錯(cuò)誤 3
通過應(yīng)用Target-Decoy方法時(shí),用重新訓(xùn)練出的模型來進(jìn)行對(duì)結(jié)果的重排。
這種結(jié)果重排的策略最近被越來越廣泛的使用,因?yàn)樗梢蕴岣咚阉鞯撵`敏度。然而,這也會(huì)令Target-Decoy方法變得不準(zhǔn)確:一個(gè)較為粗放的重新學(xué)習(xí)算法會(huì)用到過多的參數(shù),使得數(shù)據(jù)出現(xiàn)過度擬合并消除decoy hit(但并不是target庫中的錯(cuò)配)。因此,這種策略僅適用于當(dāng)重新訓(xùn)練算法的設(shè)計(jì)考慮了過擬合問題,并且數(shù)據(jù)集非常大的情況。

Decoy-Fusion方法有一個(gè)簡單的改進(jìn)可以避免前兩個(gè)常見錯(cuò)誤——PEAKS DB的論文[1]提出了一種decoy- fusion的方法。decoy- fusion方法不是將target和decoy數(shù)據(jù)庫連接在一起,而是將同一蛋白質(zhì)的target序列和decoy序列連接在一起,作為“fusion”序列(圖5)。這個(gè)簡單的更改會(huì)產(chǎn)生一些有意義的不同。對(duì)于兩輪搜索問題,第二輪的target和decoy長度仍然相同。對(duì)于蛋白質(zhì)獎(jiǎng)勵(lì)性得分問題,相同數(shù)量的給分將同樣的應(yīng)用于同一融合序列的target和 decoy部分。 因此,“相同大小”和“均勻分布”的先決條件被重新創(chuàng)建;FDR值能夠被重新準(zhǔn)確的估算。PEAKS軟件的內(nèi)置結(jié)果驗(yàn)證正是使用的這種decoy- fusion方法。

圖5:decoy- fusion方法將target和decoy序列“融合”在一起。因此,即便使用兩輪搜索算法,target序列和decoy序列也保證具有相同的長度。


參考文獻(xiàn)
  • Zhang J, Xin L, Shan B, Chen W, Xie M, Yuen D, Zhang W, Zhang Z, Lajoie G.A., Ma B, PEAKS DB: De Novo Sequencing Assisted Database Search for Sensitive and Accurate Peptide Identification. Mol. Cell. Proteomics. 11, M111.010587 (2012).  
  • Xin, L., Qiao, R., Chen, X. et al. A streamlined platform for analyzing tera-scale DDA and DIA mass spectrometry data enables highly sensitive immunopeptidomics. Nat Commun 13, 3108 (2022). doi:10.1038/s41467-022-30867-7


(點(diǎn)擊圖片即可查看活動(dòng)詳情)

如果您想深入了解更多關(guān)于PEAKS 軟件更多內(nèi)容,歡迎掃描下方二維碼關(guān)注我們!
來源:百蓁生物科技(上海)有限公司
聯(lián)系電話:021-60919881
E-mail:sales-china@bioinfor.com

用戶名: 密碼: 匿名 快速注冊(cè) 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com