當前位置 > 首頁 > 技術文章 > AlphaFold2在蛋白質三維結構研究中的應用

AlphaFold2在蛋白質三維結構研究中的應用

瀏覽次數(shù)：1575　發(fā)布日期：2021-10-8　來源：MedChemExpress

天下苦“蛋白質三維結構”久矣

天然蛋白質具有特定的三維空間立體結構。一生二，二生三，三生空間結構，構成蛋白質肽鏈的氨基酸線性序列 (一級結構) 包含了形成復雜三維結構所需要的全部信息。理論來說，已知蛋白質氨基酸序列組成，就能輕松獲得蛋白質三維結構，但現(xiàn)實遠沒有那么簡單。目前已知氨基酸序列的蛋白質分子約有 2.1 億個，但截至今天 RCSB PDB (www.rcsb.org) 上收錄的被實驗解析的蛋白質三維結構僅有 18,1295 個，不到蛋白質總數(shù)的 0.1%。究其根本，通過 X 射線衍射、核磁共振或冷凍電鏡等方法獲得蛋白質三維結構，哪個不耗時費力、需要大量資金投入？另，計算機預測蛋白質結構有諸多限制，SWISS-MODEL 要求序列同源性 > 30%，I-TASSER 要求序列能穿到現(xiàn)有結構，ROBETTA 要求氨基酸序列 < 200。天下苦“蛋白質三維結構”久矣！直到 AlphaFold2 橫空出世。

圖 1. 蛋白的一、二、三、四級結構

AlphaFold2 橫空出世

2020 年末，AlphaFold2 (DeepMind 公司開發(fā)的 AI 程序) 在 CASP14 (第 14 屆蛋白質結構預測比賽) 中將蛋白結構預測準確性從 40 分拔高到 92.4 分，實現(xiàn)了原子精度或者接近原子精度的結構預測，震驚生物界。

2021 年 7 月 16 日，DeepMind 團隊在 Nature 上公布了 AlphaFold2 的源代碼。僅一周后，DeepMind 團隊再發(fā) Nature，公布 AlphaFold 數(shù)據集，再次引爆科研圈！AlphaFold 數(shù)據集覆蓋幾乎整個人類蛋白質組 (98.5% 的所有人類蛋白)，還包括大腸桿菌、果蠅、小鼠等 20 個科研常用生物的蛋白質組數(shù)據，蛋白質結構總數(shù)超過 35 萬個！而且，數(shù)據集中 58% 的預測結構達到可信水平，其中更有 35.7% 達到高信度！

圖 2. Alphafold 數(shù)據集網站
(免費開放網址：alphafold.ebi.ac.uk)

深究 AlphaFold2 計算模型發(fā)現(xiàn)，AlphaFold2 沒有借鑒 AlphaFold 使用的神經網絡類似 ResNet 的殘差卷積網絡，而是采用最近 AI 研究中興起的 Transformer 架構，其中與文本類似的數(shù)據結構為氨基酸序列，通過多序列比對，把蛋白質的結構和生物信息整合到了深度學習算法中。從模型圖中可知，AlphaFold2 與 AlphaFold 不同，并沒有采用往常簡化了的原子間距或者接觸圖，而是直接訓練蛋白質結構的原子坐標，并使用機器學習方法，對幾乎所有的蛋白質都預測出了正確的拓撲學的結構。統(tǒng)計 AlphaFold2 預測的結構發(fā)現(xiàn)：大約 2/3 的蛋白質預測精度達到了結構生物學實驗的測量精度。

圖 3. AlphaFold2 計算蛋白三維結構模型圖

ZINC20 新增數(shù)十億分子

AlphaFold2 給藥物研發(fā)帶來的革命性變化不言而喻：AlphaFold2 能低成本預測疾病相關的蛋白質結構，進而通過藥物重定位、虛擬篩選等方法尋找這些疾病的潛在藥物。而化合物數(shù)據庫作為虛擬篩選的重要工具，同樣決定了小分子藥物研發(fā)的速度和質量。

ZINC 是一個匯總了化合物相關信息的公開數(shù)據庫，是支持 2D、3D 化合物分子形式下載以及可進行快速分子查找、類似物搜索的服務網站，其分子量已經目前增長到近 20 億，其中可購買的 13 億化合物來自于 150 個公司共 310 個產品目錄。盡管全球庫存化合物的數(shù)量 (現(xiàn)在約為 1400 萬) 每年僅增長百分之幾，但按需定制化合物數(shù)量幾乎呈指數(shù)增長，目前按需定制化合物的需求量已經增長至數(shù)百億個分子，數(shù)年后將達到千億級。ZINC20 (zinc20.docking.org) 新增百億個按需定制化合物 (暫未添加到 ZINC 庫中)，這些化合物在骨架和分子多樣性上都明顯優(yōu)于物理篩選數(shù)據庫。

圖 4. 按需定制化合物增長需求量 (NPMI 分析)

VirtualFlow, 5 小時虛擬篩選 10 億分子

一方面，蛋白結構井噴式被解析，合成方法學高速發(fā)展，化合物數(shù)據庫幾何級數(shù)增長，虛擬篩選成為眾多藥物化學工作者手中的利器。另一方面，云平臺、AI 算法大放異彩。一個 CPU 上篩選 10 億種化合物，每個配體的平均對接時間為 15 秒，全部篩完大概需要 475 年，而 VirtualFlow 平臺調用 16 萬個 CPU 對接 10 億個分子僅耗時約 15 小時。更高的命中率，更快的計算速度，更強的迭代能力，虛擬篩選在藥物研發(fā)進程中從未掉隊。

MCE 擁有專業(yè)的虛擬篩選團隊、高性能的計算機服務器、高度標準的數(shù)據隱私管理，可提供專業(yè)的分子對接、虛擬篩選服務。更有 40 余種高通量化合物庫，涵蓋 600 萬有現(xiàn)貨、可重復供應、結構多樣、具有類藥性的化合物，任您挑選。最終項目報告包含背景調研、流程概述、結果分析，更有符合文章發(fā)表要求的 2D/3D 分子對接圖。

MCE 一站式藥物篩選平臺，虛擬篩選、化合物活性篩選、基于離子通道的化合物篩選，“快，不止一步”！

相關產品

MCE Bioactive Compound Library
MCE 活性化合物數(shù)據庫，含有 11,000+ 已知高活性的化合物集合，結構多樣，是老藥新用、新適應癥篩選的有效工具。國內現(xiàn)貨供應。

MCE Fragment Library
基于 RO3 原則精選 14,000+ 片段化合物，用于 FBDD。國內現(xiàn)貨供應。

HTS Compound Library
包含 2,115,979 種具有獨特結構和性質的化合物，數(shù)量大，結構多樣性豐富。

Advanced Library
包含 493,968 種類先導化合物，化合物的多官能團和類先導化合物的特性使 Advanced 庫成為先導化合物發(fā)現(xiàn)的有效工具。

Premium Library
46,441 種最具最佳分子特性 (高 Fsp3、低 logP 和 MW ) 的化合物集合，精選庫。

Discovery Diversity Set 10
Enamine Discovery Diversity Sets (DDS) 專注于新型化合物結構式，適合新型化合物的隨機篩選。DDS 庫含有共 60,800 個新型化合物。Discovery Diversity Set 10 由高度特異且不重復的 10,560 個化合物組成。

Discovery Diversity Set 50
Enamine Discovery Diversity Sets (DDS) 專注于新型化合物結構式，適合新型化合物的隨機篩選。Discovery Diversity Set 50 是 Discovery Diversity Set 10 的補充，由 50,240 個化合物組成。

Chemspace Lead-Like Compound Library
來源于 Chemspace，包含 981,244 個類先導化合物，結構多樣，適用于高通量篩選。

Chemspace Scaffold derived set
Chemspace 骨架庫，精心選擇 3,373 個骨架，每個骨架 3 個化合物，在骨架基礎上添加官能團，增加化合物空間結構覆蓋率。

Chinese National Compound Library
國家化合物樣品庫有近 140 萬個化合物，具有結構多樣化、存儲專業(yè)化、管理集中化、信息系統(tǒng)化和質控標準化等特點。

Life Chemicals 50K Diversity Library
Life Chemicals 50K Diversity Library 是一個相當大的高度多樣化的化合物庫，由 50,240 個類先導物化合物組成。

Life Chemicals HTS Compound Collection
來源于 Life Chemicals，包含 494,471 個化合物，多樣性豐富，適用于高通量篩選。

Maybridge Screening Collection
來源于 Maybridge，包含 53,000 種高度多樣的類先導化合物，是藥物篩選的有效工具。

Specs HTS Compounds Library
來源于 Specs，包含 210,070 種化合物，多樣性豐富，適用于高通量篩選。

MCE 的所有產品僅用作科學研究或藥證申報，我們不為任何個人用途提供產品和服務。

注：
1、每個庫中的分子數(shù)量實時變動，以上分子數(shù)量僅供參考，以官網實時數(shù)據為準。
2、更多數(shù)據庫詳見 MCE 官網。

參考文獻

1. Callaway E. DeepMind's AI for protein structure is coming to the masses[J]. Nature, 2021.
2. Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11.
3. Baek M, Dimaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network[J]. Science.
4. JIrwin J J, Tang K G, Young J, et al. ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery [J]. Journal of Chemical Information and Modeling, 2020, 60, 12, 6065–6073.
5. Gorgulla C, Boeszoermenyi A, Wang ZF, et al. An open-source drug discovery platform enables ultra-large virtual screens. Nature. 2020; 580(7805):663-668.

索取資料

來源：上海皓元生物醫(yī)藥科技有限公司
聯(lián)系電話：021-58955995
E-mail：sales@medchemexpress.cn

【點擊可查看上海皓元生物醫(yī)藥科技有限公司相關產品】

標簽：蛋白質 ZINC20 AlphaFold2 藥篩高通量

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關產品】【關閉窗口】

本類文章

本類新聞