背景介紹
主要組織相容性復(fù)合體(MHC)II類分子,也被稱為人類白細(xì)胞抗原(HLA)II類分子,在特異性抗原呈遞細(xì)胞表面表達(dá),通過向CD4+T細(xì)胞呈遞抗原肽,在免疫系統(tǒng)功能中起關(guān)鍵作用[1,2]。從結(jié)構(gòu)上看,這些分子是由三個(gè)不同的基因座(HLA-DR, HLA-DP, HLA-DQ)編碼的,并由α鏈和β鏈組成的異源二聚體,是人類基因組中多態(tài)性最高的基因之一[3]。這些多態(tài)性大多聚集在由α和β鏈形成的肽結(jié)合區(qū)域周圍,從而產(chǎn)生廣泛的肽結(jié)合特異性。HLA研究中,模擬免疫反應(yīng)激活的過程,就要經(jīng)過蛋白酶體對抗原(蛋白)的剪切預(yù)測、肽段轉(zhuǎn)運(yùn)、肽段和MHC-I結(jié)合親和力預(yù)測以及T細(xì)胞識別預(yù)測等幾個(gè)重要步驟。準(zhǔn)確預(yù)測人類白細(xì)胞抗原(HLA)II類分子的抗原呈遞對于合理開發(fā)針對CD4+T細(xì)胞活化的免疫療法和疫苗至關(guān)重要。
2023年11月24日,Science Advances(IF=13.6)發(fā)表了NetMHCIIpan的最新算法文章“Accurate prediction of HLA class II antigen presentation across all loci using tailored data acquisition and refined machine learning”。作者將覆蓋所有三個(gè)基因座的大規(guī)模高質(zhì)量免疫肽組學(xué)數(shù)據(jù)集整合到NetMHCIIpan機(jī)器學(xué)習(xí)框架中,并應(yīng)用最新版本的NNAlign_MA方法,將正向與反向的肽結(jié)合模式(正向結(jié)合從N端到C端,反向?yàn)镃端到N端方向結(jié)合)預(yù)測納入方法訓(xùn)練模型,從而縮小DR和DQ/DP之間的差距。利用這種方法,研究了HLA-DR、HLA-DQ和HLA-DP的預(yù)測性能,以及反向結(jié)合模式的預(yù)測如何影響基序解卷積,擴(kuò)大了HLA覆蓋范圍。最終,NetMHCIIpan-4.3在所有HLA II類同種異型抗原中實(shí)現(xiàn)了高精度和分子覆蓋率。其中,免疫肽組學(xué)質(zhì)譜數(shù)據(jù)的分析使用PEAKS Studio 11完成。
使用到的免疫肽組學(xué)數(shù)據(jù)集概覽
作者整合了在NetMHCIIpan-4.2模型訓(xùn)練中使用到的免疫肽組學(xué)數(shù)據(jù)集,從圖1A可以看出大多數(shù)訓(xùn)練集的數(shù)據(jù)來自于MA(multi-allelic)組學(xué)數(shù)據(jù)。圖1B顯示了每個(gè)基因座的SA(single-allelic)和MA數(shù)據(jù)集數(shù)量,表明Balen_DP[4-6]數(shù)據(jù)的引入使得HLA-DP具有與HLA-DR相似數(shù)量的SA數(shù)據(jù)集,HLA-DQ的SA數(shù)據(jù)較少。圖1C和D展示了兩個(gè)樣本在HLA基序解卷積中分配給DR、DP和DQ的肽的比例,其中一個(gè)樣本使用傳統(tǒng)的兩步免疫沉淀方案處理(即先后使用泛DR抗體和泛II類抗體處理),第二個(gè)樣本使用單獨(dú)的DR、DQ和DP位點(diǎn)特異性抗體處理。圖1C顯示泛II類抗體的DP和DQ特異性較差,導(dǎo)致這兩個(gè)位點(diǎn)的肽產(chǎn)量非常低。相反,圖1D展示了應(yīng)用三種位點(diǎn)特異性抗體產(chǎn)生的高特異肽。
圖1 數(shù)據(jù)集概覽
DP數(shù)據(jù)和反向結(jié)合模式對于預(yù)測性能的影響
基于上述數(shù)據(jù)集,大幅提高了DP和DQ肽的產(chǎn)量,然后使用NNAlign_MA框架訓(xùn)練HLA抗原呈遞的預(yù)測模型[7]。在模型訓(xùn)練之前,對質(zhì)譜數(shù)據(jù)進(jìn)行預(yù)處理,并用隨機(jī)生成的天然陰性對照肽進(jìn)行富集。同時(shí)預(yù)測結(jié)合核心偏移和肽配體的正向與反向結(jié)合。然后,訓(xùn)練了三個(gè)初始預(yù)測模型來評估Balen_DP數(shù)據(jù)的影響:一個(gè)不包含Balen數(shù)據(jù)和沒有反向肽結(jié)合(wo_Balen_DP),一個(gè)包含Balen數(shù)據(jù)和沒有反向肽結(jié)合(w_Balen_DP),一個(gè)包含Balen數(shù)據(jù)和使用反向肽結(jié)合 (w_inversion)。最后,使用每個(gè)分子和每個(gè)樣品的交叉驗(yàn)證對這些方法進(jìn)行評估。
通過AUC(area under ROC curve)、AUC0.1(FDR為10%時(shí)的area under ROC curve)和PPV(positive predictive value)三個(gè)指標(biāo)來評估預(yù)測性能。圖2A表明Balen_DP數(shù)據(jù)中包含的信息對該方法學(xué)習(xí)其他基因座的特異性的影響有限,而對DP的預(yù)測都有顯著的性能提高。圖2B進(jìn)一步表明,包含肽反向結(jié)合的模型也會顯著改善DP的預(yù)測性能。并且,在所有注釋的163604個(gè)DP肽中,有78%(127190條)的DP肽是三個(gè)模型共同注釋到(圖2C),表明這些方法模型對DP配體的高度識別。
圖2 HLA-DP預(yù)測性能評估
反轉(zhuǎn)結(jié)合基序
圖3A顯示了反向肽在HLA分子中不同位點(diǎn)的百分比分布。由此,發(fā)現(xiàn)肽反轉(zhuǎn)幾乎只發(fā)生在HLA-DP上。當(dāng)觀察每個(gè)DP分子的反轉(zhuǎn)百分比時(shí)(圖3B),看到含有5%以上肽反轉(zhuǎn)的分子都具有DPA1*02:01或DPA1*02:02的α鏈。此外,小于5%肽反轉(zhuǎn)的分子都具有相同的DPA1*01:03 α鏈。這表明,HLA-DP α鏈?zhǔn)欠聪螂慕Y(jié)合模式的主要決定因素。這些觀察結(jié)果與近期的一些研究趨勢一致,但作者的方法比先前研究更多地預(yù)測到了DPB1*03:01反向肽。另外,圖3C展示了經(jīng)過和沒有經(jīng)過反轉(zhuǎn)訓(xùn)練模型的DPA1*02:02-DPB1*05:01和DPA1*02:02-DPB1*19:01的基序,對于沒有反轉(zhuǎn)的方法,識別出的基序是圍繞中心位置鏡像分布的,K和R同時(shí)存在于P1和P9。相反,對于反轉(zhuǎn)訓(xùn)練的模型,由于考慮了雙重結(jié)合模式,使得基序更加清晰,K和R偏好僅在P1處存在。進(jìn)一步證明了納入反向肽的模型后對DP基序解卷積的改善。
圖3肽反轉(zhuǎn)模型使得DP基序解卷積更準(zhǔn)確
解卷積結(jié)果與預(yù)測基序的關(guān)聯(lián)度
接下來,作者研究了Balen_DP數(shù)據(jù)中的19個(gè)HLA-DP分子,通過比較解卷積獲得的結(jié)合基序與基于隨機(jī)天然肽的預(yù)測基序之間的相關(guān)性,評估該訓(xùn)練模型對MS數(shù)據(jù)中結(jié)合基序的學(xué)習(xí)能力。圖4A展示了DPA1*02:01-DPB1*01:01的數(shù)據(jù),在不同的訓(xùn)練模型中得出的解卷積基序總體上一致。但是從預(yù)測的結(jié)果上看,不使用Balen_DP數(shù)據(jù)的模型無法完全學(xué)習(xí)正確的基序。此外,反轉(zhuǎn)方法無論是在預(yù)測,還是解卷積到的基序,一致性都很高,可以將“K”定位在P1而不是P9。
然后,基于Balen_DP數(shù)據(jù)中所有樣本的交叉驗(yàn)證預(yù)測和上述得分最高的隨機(jī)天然肽,為Balen_DP數(shù)據(jù)中的每個(gè)分子構(gòu)建了位置特異性頻率矩陣(PSFMs)。這個(gè)KLD度量可以解釋為兩個(gè)分子結(jié)合基序之間的“距離”,其中較低的值表明更多相似的基序。分析結(jié)果如圖4B所示,包含反轉(zhuǎn)方法的模型KLD值顯著低于未包含反轉(zhuǎn)的方法。另外觀察到,在大多數(shù)情況下,具有相同β鏈的分子對具有相似的基序,這表明β鏈?zhǔn)荄P分子的主要特異性定義元件。
圖4 觀察到的和預(yù)測到的基序之間的對應(yīng)關(guān)系
HLA-DP分子覆蓋率
經(jīng)過前面的工作,基本驗(yàn)證了該方法對HLA II類抗原較好的預(yù)測能力,接下來作者又對HLA-DP分子的覆蓋范圍做了探究。通過考慮在不超過0.05的距離內(nèi)發(fā)現(xiàn)的DP分子參考集與肽覆蓋分子的比例來估計(jì)功能覆蓋范圍,從分析中發(fā)現(xiàn)包含Balen_DP數(shù)據(jù)的模型功能性DP覆蓋率顯著增加。接下來,使用反轉(zhuǎn)的方法,基于MHCCluster方法構(gòu)建了一個(gè)DP特異性樹[8]。簡而言之,基于偽序列,167個(gè)流行的DP分子被減少到95個(gè)具有獨(dú)特特異性的分子[9]。然后,根據(jù)大量隨機(jī)天然肽的預(yù)測分?jǐn)?shù)之間的相關(guān)性估計(jì)分子之間的距離,得到如圖5所示的樹。從特異性樹中觀察到該模型具有不同DP特異性的廣泛覆蓋范圍,大多數(shù)分支至少具有一個(gè)肽覆蓋分子(具有至少50個(gè)可信肽注釋的分子)。然而,一些分支機(jī)構(gòu)被覆蓋率較低。其中一個(gè)分支包括DPA1*02:01DPB1*04:01,該分支的基序沒有通過前面描述的預(yù)測方法正確學(xué)習(xí)。該分子存在于訓(xùn)練數(shù)據(jù)中的7個(gè)樣本中,均為異雜合子。在所有這些樣本中,該分子被分配的DP注釋少于5%,導(dǎo)致有效肽計(jì)數(shù)為0。這種肽注釋的缺乏可能是生物學(xué)上的原因,也可能是由于缺乏高質(zhì)量的分子數(shù)據(jù)而導(dǎo)致該方法沒有充分學(xué)習(xí)到分子的特異性。
在上述分析的基礎(chǔ)上,利用DP特異性免疫沉淀法從表達(dá)DPA1*01:03 - DPB1 *16:01、DPA1*02:01-DPB1*04:01和DPA1*02:02 - dDPB1 *02:02的DP純合子細(xì)胞系中獲得免疫肽組學(xué)質(zhì)譜數(shù)據(jù)。FDR小于1的肽段數(shù)分別為2423、1797和2428。在去除翻譯后修飾和冗余肽后,每個(gè)樣本中獨(dú)特的12- 21-mer肽的數(shù)量分別減少到1550,1259和1502,然后使用反轉(zhuǎn)重新訓(xùn)練的方法,以評估它們對DP基序解卷積和分子覆蓋的影響。
結(jié)果顯示,重新訓(xùn)練的方法能夠從每個(gè)單獨(dú)的數(shù)據(jù)集中注釋678(53.8%)、715(47.6%)和1062(68.5%)個(gè)百分位等級小于20的多肽,分別指向DPA1*02:01-DPB1*04:01、DPA1*02:02-DPB1*02:02和DPA1*01:03-DPB1*16:01,其基序如圖6A所示。剩余的多肽是主要分配給HLA-DR和HLA-DQ共流出肽段。據(jù)預(yù)測,DPA1*02:02- DPB1 *02:02的反轉(zhuǎn)結(jié)合肽比例很高(25.3%),而反轉(zhuǎn)肽在P4位點(diǎn)對組氨酸有偏好(圖6B)。此外,比較了DP注釋肽的長度分布,證實(shí)了15-mer肽的正態(tài)分布,這與大多數(shù)HLA I類(包括其他DP分子)的長度偏好一致(圖6C)。將包含和不包含這些數(shù)據(jù)集的模型進(jìn)行比較,正如預(yù)期,具有肽覆蓋的DP分子數(shù)增加了(24到27),使得167個(gè)DP分子的覆蓋范圍擴(kuò)大到131個(gè)(早期模型的167個(gè)分子覆蓋116個(gè)),人群覆蓋率擴(kuò)大到96%,如圖6D所示。
圖5 HLA-DP特異性分布樹
圖6 整合額外DP數(shù)據(jù)集后的分子覆蓋率
預(yù)測方法模型的其他性能測試
01
使用包括多肽編碼在內(nèi)的反轉(zhuǎn)模型對該方法進(jìn)行了重新訓(xùn)練,觀察到在所有三個(gè)HLA-II基因座 (DR、DP和DQ)中性能顯著提高, HLA-DQ改善最多(AUC、AUC 0.1和PPV分別增加3.5、9.4和5.8個(gè)百分點(diǎn),見圖S9)。
圖S9 多肽編碼模型重訓(xùn)練
02
使用上述方法模型進(jìn)一步分析對HLA-DR和HLA-DQ的預(yù)測能力。通過繪制每對分子(即DRB1與DRB3, DRB1與DRB4, DRB1與DRB5)的DR肽注釋分?jǐn)?shù)在每個(gè)數(shù)據(jù)集中的分布,發(fā)現(xiàn)在含有DRB1和DRB5的樣品中,DRB5總體上具有較高的肽貢獻(xiàn)(見圖S10A)。另一方面,DRB4的貢獻(xiàn)最低,而DRB3的貢獻(xiàn)不太一致,說明DRB3基因具有更多的多態(tài)性。這些結(jié)果與Kaabinejadian等人[10]的發(fā)現(xiàn)非常吻合,再次說明了在基序解卷積過程中包含完整HLA-DR分型以準(zhǔn)確表征DR配體的重要性。此外,分析了DQ雜合數(shù)據(jù)集的基序解卷積以及HLA-DQ和β鏈配對在形成免疫肽丘中的作用。如圖S10B所示,反式組合在所有DQ-雜合數(shù)據(jù)集中的貢獻(xiàn)始終較低,DQ-MA數(shù)據(jù)集中發(fā)現(xiàn)的順式變異的貢獻(xiàn)明顯高于反式變異。然而,我們觀察到DQ-SA數(shù)據(jù)集中存在的順式變異比DQ-MA數(shù)據(jù)集中存在的順式變異的總體貢獻(xiàn)更高,表明對這些分子的潛在偏好。
圖S10
03
構(gòu)建了一個(gè)結(jié)合HLA- DR、HLA- DP和HLA- DQ分子的特異性樹以評估整個(gè)HLA II類特異性覆蓋;趥涡蛄兄g的相似性,得到53個(gè)具有獨(dú)特特異性的DR分子,40個(gè)DP分子和24個(gè)DQ分子。然后,使用MHCCluster方法構(gòu)建這些分子的總體特異性樹。其結(jié)果如圖7所示?傮w來看,每個(gè)位點(diǎn)上的分子被分在一組,形成定義明確的簇。也有少數(shù)例外,DRB4*01:01單獨(dú)定位在DQ分支附近,DPA1*01:03-DPB1*271:01與一組DR分子聚集在一起。后者很可能是由于這個(gè)DP分子在肽覆蓋和偽序列距離方面都沒有被目前的方法覆蓋。
圖7 HLA- DR、HLA- DP和HLA- DQ分子的特異性樹
04
作為對NetMHCIIpan-4.3的最終驗(yàn)證,對其在CD4+表位鑒定中的性能進(jìn)行了基準(zhǔn)測試。結(jié)果如圖8所示,NetMHCIIpan-4.3顯著優(yōu)于MixMHC2pred-2.0和NetMHCIIpan-4.2 。
圖8 CD4+表位基準(zhǔn)測試
總結(jié)
經(jīng)過對多重?cái)?shù)據(jù)多種模型的優(yōu)化與驗(yàn)證,最終將該預(yù)測模型整合形成NetMHCIIpan-4.3工具,有效地縮小了HLA- DP/HLA- DQ和HLA- DR之間的性能差距,從而增強(qiáng)了所有三個(gè)HLA II類位點(diǎn)的基序特征。借助NetMHCIIpan-4.3,HLA II類分子的特異性難題可以得到解決,有望拓寬我們對所有HLA II類在感染性和自身免疫性疾病中啟動(dòng)細(xì)胞免疫的分子作用機(jī)制,而不僅僅是HLA- DR。
若您想深入了解PEAKS軟件在免疫肽組分析中的應(yīng)用,歡迎點(diǎn)擊“閱讀原文”提交您的咨詢信息!
參考文獻(xiàn)
[1] S. Tsai, P. Santamaria, MHC class II polymorphisms, autoreactive T-cells, and autoimmunity. Front. Immunol. 4, 321 (2013).
[2] M. T. Arango, C. Perricone, S. Kivity, E. Cipriano, F. Ceccarelli, G. Valesini, Y. Shoenfeld, HLA-DRB1 the notorious gene in the mosaic of autoimmunity. Immunol. Res. 65, 82–98 (2017).
[3] M. Van Lith, R. M. McEwen-Smith, A. M. Benham, HLA-DP, HLA-DQ, and HLA-DR have different requirements for invariant chain and HLA-DM. J. Biol. Chem. 285, 40800–40808 (2010).
[4] P. van Balen, M. G. D. Kester, W. De Klerk, P. Crivello, E. Arrieta-Bolaños, A. H. De Ru,I. Jedema, Y. Mohammed, M. H. M. Heemskerk, K. Fleischhauer, P. A. Van Veelen,
J. H. F. Falkenburg, Immunopeptidome analysis of HLA-DPB1 allelic variants reveals new functional hierarchies. J. Immunol. 204, 3273–3282 (2020).
[5] S. Klobuch, J. J. Lim, P. van Balen, M. G. D. Kester, W. de Klerk, A. H. de Ru, C. R. Pothast, I. Jedema, J. W. Drijfhout, J. Rossjohn, H. H. Reid, P. A. van Veelen, J. H. F. Falkenburg, M. H. M. Heemskerk, Human T cells recognize HLA-DP–bound peptides in two orientations. Proc. Natl. Acad. Sci. U.S.A. 119, e2214331119 (2022).
[6] A. Laghmouchi, M. G. D. Kester, C. Hoogstraten, L. Hageman, W. de Klerk, W. Huisman, E. A. S. Koster, A. H. de Ru, P. van Balen, S. Klobuch, P. A. van Veelen, J. H. F. Falkenburg, I. Jedema, Promiscuity of peptides presented in HLA-DP molecules from different immunogenicity groups is associated with T-cell cross-reactivity. Front. Immunol. 13, 831822 (2022).
[7] B. Alvarez, B. Reynisson, C. Barra, S. Buus, N. Ternette, T. Connelley, M. Andreatta, M. Nielsen, NNAlign_MA; MHC peptidome deconvolution for accurate MHC binding motif characterization and improved T-cell epitope predictions. Mol. Cell. Proteomics 18, 2459–2477 (2019).
[8] M. C. F. Thomsen, C. Lundegaard, S. Buus, O. Lund, M. Nielsen, MHCcluster, a method for functional clustering of MHC molecules. Immunogenetics 65, 655–665 (2013).
[9] E. Karosiene, M. Rasmussen, T. Blicher, O. Lund, S. Buus, M. Nielsen, NetMHCIIpan-3.0, a common pan-specific MHC classII prediction method including all three human MHC class II isotypes, HLA-DR, HLA-DP and HLA-DQ. Immunogenetics 65, 711–724 (2013).
[10] S. Kaabinejadian, C. Barra, B. Alvarez, H. Yari, W. H. Hildebrand, M. Nielsen, Accurate MHC motif deconvolution of immunopeptidomics data reveals a significant contribution of
DRB3, 4 and 5 to the Total DR Immunopeptidome. Front. Immunol. 13, 835454 (2022).