English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > AlphaFold2在蛋白質(zhì)三維結(jié)構(gòu)研究中的應(yīng)用

AlphaFold2在蛋白質(zhì)三維結(jié)構(gòu)研究中的應(yīng)用

瀏覽次數(shù):1577 發(fā)布日期:2021-10-8  來源:MedChemExpress
 
天下苦“蛋白質(zhì)三維結(jié)構(gòu)”久矣

天然蛋白質(zhì)具有特定的三維空間立體結(jié)構(gòu)。一生二,二生三,三生空間結(jié)構(gòu),構(gòu)成蛋白質(zhì)肽鏈的氨基酸線性序列 (一級結(jié)構(gòu)) 包含了形成復(fù)雜三維結(jié)構(gòu)所需要的全部信息。理論來說,已知蛋白質(zhì)氨基酸序列組成,就能輕松獲得蛋白質(zhì)三維結(jié)構(gòu),但現(xiàn)實(shí)遠(yuǎn)沒有那么簡單。目前已知氨基酸序列的蛋白質(zhì)分子約有 2.1 億個,但截至今天 RCSB PDB  (www.rcsb.org) 上收錄的被實(shí)驗(yàn)解析的蛋白質(zhì)三維結(jié)構(gòu)僅有 18,1295 個,不到蛋白質(zhì)總數(shù)的 0.1%。究其根本,通過 X 射線衍射、核磁共振或冷凍電鏡等方法獲得蛋白質(zhì)三維結(jié)構(gòu),哪個不耗時費(fèi)力、需要大量資金投入?另,計(jì)算機(jī)預(yù)測蛋白質(zhì)結(jié)構(gòu)有諸多限制,SWISS-MODEL 要求序列同源性 > 30%,I-TASSER 要求序列能穿到現(xiàn)有結(jié)構(gòu),ROBETTA 要求氨基酸序列 < 200。天下苦“蛋白質(zhì)三維結(jié)構(gòu)”久矣!直到 AlphaFold2 橫空出世。

圖 1. 蛋白的一、二、三、四級結(jié)構(gòu)
 
AlphaFold2 橫空出世
2020 年末,AlphaFold2 (DeepMind 公司開發(fā)的 AI 程序) 在 CASP14 (第 14 屆蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽) 中將蛋白結(jié)構(gòu)預(yù)測準(zhǔn)確性從 40 分拔高到 92.4 分,實(shí)現(xiàn)了原子精度或者接近原子精度的結(jié)構(gòu)預(yù)測,震驚生物界。

2021 年 7 月 16 日,DeepMind 團(tuán)隊(duì)在 Nature 上公布了 AlphaFold2 的源代碼。僅一周后,DeepMind 團(tuán)隊(duì)再發(fā) Nature,公布 AlphaFold 數(shù)據(jù)集,再次引爆科研圈!AlphaFold 數(shù)據(jù)集覆蓋幾乎整個人類蛋白質(zhì)組 (98.5% 的所有人類蛋白),還包括大腸桿菌、果蠅、小鼠等 20 個科研常用生物的蛋白質(zhì)組數(shù)據(jù),蛋白質(zhì)結(jié)構(gòu)總數(shù)超過 35 萬個!而且,數(shù)據(jù)集中 58% 的預(yù)測結(jié)構(gòu)達(dá)到可信水平,其中更有 35.7% 達(dá)到高信度!

圖 2. Alphafold 數(shù)據(jù)集網(wǎng)站
(免費(fèi)開放網(wǎng)址:alphafold.ebi.ac.uk)

深究 AlphaFold2 計(jì)算模型發(fā)現(xiàn),AlphaFold2 沒有借鑒 AlphaFold 使用的神經(jīng)網(wǎng)絡(luò)類似 ResNet 的殘差卷積網(wǎng)絡(luò),而是采用最近 AI 研究中興起的 Transformer 架構(gòu),其中與文本類似的數(shù)據(jù)結(jié)構(gòu)為氨基酸序列,通過多序列比對,把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中。從模型圖中可知,AlphaFold2 與 AlphaFold 不同,并沒有采用往常簡化了的原子間距或者接觸圖,而是直接訓(xùn)練蛋白質(zhì)結(jié)構(gòu)的原子坐標(biāo),并使用機(jī)器學(xué)習(xí)方法,對幾乎所有的蛋白質(zhì)都預(yù)測出了正確的拓?fù)鋵W(xué)的結(jié)構(gòu)。統(tǒng)計(jì) AlphaFold2 預(yù)測的結(jié)構(gòu)發(fā)現(xiàn):大約 2/3 的蛋白質(zhì)預(yù)測精度達(dá)到了結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)的測量精度。

圖 3. AlphaFold2 計(jì)算蛋白三維結(jié)構(gòu)模型圖
 
ZINC20 新增數(shù)十億分子
AlphaFold2 給藥物研發(fā)帶來的革命性變化不言而喻:AlphaFold2 能低成本預(yù)測疾病相關(guān)的蛋白質(zhì)結(jié)構(gòu),進(jìn)而通過藥物重定位、虛擬篩選等方法尋找這些疾病的潛在藥物。而化合物數(shù)據(jù)庫作為虛擬篩選的重要工具,同樣決定了小分子藥物研發(fā)的速度和質(zhì)量。

ZINC 是一個匯總了化合物相關(guān)信息的公開數(shù)據(jù)庫,是支持 2D、3D 化合物分子形式下載以及可進(jìn)行快速分子查找、類似物搜索的服務(wù)網(wǎng)站,其分子量已經(jīng)目前增長到近 20 億,其中可購買的 13 億化合物來自于 150 個公司共 310 個產(chǎn)品目錄。盡管全球庫存化合物的數(shù)量 (現(xiàn)在約為 1400 萬) 每年僅增長百分之幾,但按需定制化合物數(shù)量幾乎呈指數(shù)增長,目前按需定制化合物的需求量已經(jīng)增長至數(shù)百億個分子,數(shù)年后將達(dá)到千億級。ZINC20 (zinc20.docking.org) 新增百億個按需定制化合物 (暫未添加到 ZINC 庫中),這些化合物在骨架和分子多樣性上都明顯優(yōu)于物理篩選數(shù)據(jù)庫。

圖 4. 按需定制化合物增長需求量 (NPMI 分析)

VirtualFlow, 5 小時虛擬篩選 10 億分子
一方面,蛋白結(jié)構(gòu)井噴式被解析,合成方法學(xué)高速發(fā)展,化合物數(shù)據(jù)庫幾何級數(shù)增長,虛擬篩選成為眾多藥物化學(xué)工作者手中的利器。另一方面,云平臺、AI 算法大放異彩。一個 CPU 上篩選 10 億種化合物,每個配體的平均對接時間為 15 秒,全部篩完大概需要 475 年,而 VirtualFlow 平臺調(diào)用 16 萬個 CPU 對接 10 億個分子僅耗時約 15 小時。更高的命中率,更快的計(jì)算速度,更強(qiáng)的迭代能力,虛擬篩選在藥物研發(fā)進(jìn)程中從未掉隊(duì)。

MCE 擁有專業(yè)的虛擬篩選團(tuán)隊(duì)、高性能的計(jì)算機(jī)服務(wù)器、高度標(biāo)準(zhǔn)的數(shù)據(jù)隱私管理,可提供專業(yè)的分子對接、虛擬篩選服務(wù)。更有 40 余種高通量化合物庫,涵蓋 600 萬有現(xiàn)貨、可重復(fù)供應(yīng)、結(jié)構(gòu)多樣、具有類藥性的化合物,任您挑選。最終項(xiàng)目報(bào)告包含背景調(diào)研、流程概述、結(jié)果分析,更有符合文章發(fā)表要求的 2D/3D 分子對接圖。

MCE 一站式藥物篩選平臺,虛擬篩選、化合物活性篩選、基于離子通道的化合物篩選,“快,不止一步”!
相關(guān)產(chǎn)品
MCE Bioactive Compound Library
MCE 活性化合物數(shù)據(jù)庫,含有 11,000+ 已知高活性的化合物集合,結(jié)構(gòu)多樣,是老藥新用、新適應(yīng)癥篩選的有效工具。國內(nèi)現(xiàn)貨供應(yīng)。
MCE Fragment Library
基于 RO3 原則精選 14,000+ 片段化合物,用于 FBDD。國內(nèi)現(xiàn)貨供應(yīng)。
HTS Compound Library
包含 2,115,979 種具有獨(dú)特結(jié)構(gòu)和性質(zhì)的化合物,數(shù)量大,結(jié)構(gòu)多樣性豐富。
Advanced Library
包含 493,968 種類先導(dǎo)化合物,化合物的多官能團(tuán)和類先導(dǎo)化合物的特性使 Advanced 庫成為先導(dǎo)化合物發(fā)現(xiàn)的有效工具。
Premium Library
46,441 種最具最佳分子特性 (高 Fsp3、低 logP 和 MW ) 的化合物集合,精選庫。
Discovery Diversity Set 10
Enamine Discovery Diversity Sets (DDS) 專注于新型化合物結(jié)構(gòu)式,適合新型化合物的隨機(jī)篩選。DDS 庫含有共 60,800 個新型化合物。Discovery Diversity Set 10 由高度特異且不重復(fù)的 10,560 個化合物組成。
Discovery Diversity Set 50
Enamine Discovery Diversity Sets (DDS) 專注于新型化合物結(jié)構(gòu)式,適合新型化合物的隨機(jī)篩選。Discovery Diversity Set 50 是 Discovery Diversity Set 10 的補(bǔ)充,由 50,240 個化合物組成。
Chemspace Lead-Like Compound Library
來源于 Chemspace,包含 981,244 個類先導(dǎo)化合物,結(jié)構(gòu)多樣,適用于高通量篩選。
Chemspace Scaffold derived set
Chemspace 骨架庫,精心選擇 3,373 個骨架,每個骨架 3 個化合物,在骨架基礎(chǔ)上添加官能團(tuán),增加化合物空間結(jié)構(gòu)覆蓋率。
Chinese National Compound Library
國家化合物樣品庫有近 140 萬個化合物,具有結(jié)構(gòu)多樣化、存儲專業(yè)化、管理集中化、信息系統(tǒng)化和質(zhì)控標(biāo)準(zhǔn)化等特點(diǎn)。
Life Chemicals 50K Diversity Library
Life Chemicals 50K Diversity Library 是一個相當(dāng)大的高度多樣化的化合物庫,由 50,240 個類先導(dǎo)物化合物組成。
Life Chemicals HTS Compound Collection
來源于 Life Chemicals,包含 494,471 個化合物,多樣性豐富,適用于高通量篩選。
Maybridge Screening Collection
來源于 Maybridge,包含 53,000 種高度多樣的類先導(dǎo)化合物,是藥物篩選的有效工具。
Specs HTS Compounds Library
來源于 Specs,包含 210,070 種化合物,多樣性豐富,適用于高通量篩選。
MCE 的所有產(chǎn)品僅用作科學(xué)研究或藥證申報(bào),我們不為任何個人用途提供產(chǎn)品和服務(wù)。

注:
1、每個庫中的分子數(shù)量實(shí)時變動,以上分子數(shù)量僅供參考,以官網(wǎng)實(shí)時數(shù)據(jù)為準(zhǔn)。
2、更多數(shù)據(jù)庫詳見 MCE 官網(wǎng)。



參考文獻(xiàn)

1. Callaway E. DeepMind's AI for protein structure is coming to the masses[J]. Nature, 2021.
2. Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11.
3. Baek M, Dimaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network[J]. Science.
4. JIrwin J J, Tang K G, Young J, et al. ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery [J]. Journal of Chemical Information and Modeling, 2020, 60, 12, 6065–6073.
5. Gorgulla C, Boeszoermenyi A, Wang ZF, et al. An open-source drug discovery platform enables ultra-large virtual screens. Nature. 2020; 580(7805):663-668.
 
來源:上海皓元生物醫(yī)藥科技有限公司
聯(lián)系電話:021-58955995
E-mail:sales@medchemexpress.cn

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com