原标题:会预测蛋白结构的AI,还要教我们设计新蛋白
原创 曹龙兴、卢培龙 返朴
自然界经过了数千万年的生命进化过程,才产生了这么复杂而美丽的蛋白质世界,而神经网络竟然用极短的时间就能模拟这一过程。
撰文 | 曹龙兴(华盛顿大学蛋白质设计所博士后)、卢培龙(西湖大学特聘研究员)
不久前,谷歌公司旗下的DeepMind研发的AlphaFold2人工智能系统在国际蛋白质结构预测竞赛(CASP)上取得惊人的准确度,多数预测模型与实验测得的蛋白质结构模型高度一致,引起了举世瞩目。实际上,蛋白质的结构不仅可以被预测,还可以被设计,二者互为“逆操作”。AlphaFold2在结构预测上的成功,也将惠及蛋白质设计领域。如今,以深度学习技术为代表的人工智能无疑已经高度融入生物科学与技术领域,并且极大地推动了生物领域的发展。今天我们就来讲讲深度学习对蛋白质设计领域的影响。
什么是蛋白质设计?
(来源:https://biocorpllc.com/there-is-a-lot-of-misinformation-about-protein-and-amino-acids/)
蛋白质是由氨基酸组成的长链条高分子化合物(图1)。天然蛋白质基本上由天然氨基酸以一定的组合顺序排列形成,序列长度不定。天然氨基酸共有20种,化学组成和性质各不相同,它们在序列之间的相互作用决定了蛋白质折叠形成的形状、结构,以及折叠后的功能。这就像不同形状的积木可以搭成不同形状、不同功能的建筑。例如我们熟知的血红蛋白可以结合并输送氧气,新冠病毒的中和抗体(蛋白)可以保护人体免于病毒的攻击——这些都是蛋白质的不同功能。人体中有两万多种基因用于编码不同的蛋白质序列,如果考虑不同的剪接形式、修饰和突变,蛋白质的类别总数目有可能超过10万。
蛋白质设计是蛋白质结构预测的逆操作,两者就像一枚硬币的正反面:结构预测是从蛋白质序列出发,预测现有氨基酸序列能够形成什么样的三维结构;蛋白质设计刚好相反,先确定我们需要什么样的三维结构,再找到能够自发折叠成所需三维结构的蛋白质序列。蛋白质设计与蛋白质结构预测围绕的都是“蛋白质如何折叠”这一根本问题。无疑,蛋白质结构预测水平的提高会大大加速蛋白质设计的过程。
首先,深度学习算法可直接用于提高蛋白质设计的精度以及成功率。
当前设计蛋白质的基本思路是:通过编排氨基酸序列,使其可以自发折叠成所要设计的结构,并使整个体系自由能最低,以保证该三维结构可以稳定存在。但是,由于蛋白质序列的排列组合空间极其巨大,且当前能量计算函数精度不足,所以蛋白质设计的成功率并不高。大部分计算机设计的全新氨基酸序列并不能折叠成、或者只能近似折叠成我们想要的结构。而要让设计出的蛋白质具有期望的功能,必须保证三维结构上的高精准度。比如,只能通过特定离子的膜蛋白通道,以及可催化特定反应的酶,要成功设计这些新型蛋白质,活性位点的原子级别的精准度是关键之一。
囿于当前蛋白质设计领域的这些局限,设计者通常需要在实验室中花费大量的时间与精力,通过高通量筛选以及定向进化的方法,从大量的序列中筛选出具有特定结构和高活性的蛋白质。
另一方面,AlphaFold2也会启发人们开发基于深度学习的蛋白质设计新方法 。
在AlphaFold之前的蛋白质结构预测领域,深度神经网络主要是通过分析和提炼同源蛋白序列之间的进化信息,预测出氨基酸之间的距离关系,进而构建出氨基酸序列所对应的三维结构。但在2018年的国际蛋白质结构预测竞赛(CASP13)上,AlphaFold近乎完美地预测了一个没有任何同源序列的、全新设计的蛋白质的三维结构,极大地震撼了蛋白质设计科学家。这表明,深度神经网路并不仅仅从同源蛋白之间的进化信息获取三维结构的特征,而是可以直接理解蛋白质序列和结构之间的复杂关系。
正如DeepMind所提到的,AlphaFold2目前仍有一定的局限性:蛋白质侧链构象与位置信息不能十分精确;暂时不能对于多链蛋白质复合物、蛋白质-DNA(RNA)、蛋白质-小分子等复合物的结构进行预测;暂时不能预测蛋白质的多种结构状态,动态过程缺失。这些问题也是蛋白质设计领域非常关心的。随着利用深度学习的蛋白质结构预测方法进一步发展,这些方面将会取得进一步突破,促进人们设计更为复杂的,功能更加强大的新型蛋白质。
在科学史上,技术的革新与科学的突破互为因果,相辅相成,我们要做的就是拥抱科技的进步,并以此为基础取得新的突破。以AlphaFold系列为代表的深度学习方法将给蛋白质设计领域带来深远影响,其中充满了机遇与无限的可能性,我们对此无比期待。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。
原标题:《会预测蛋白结构的AI,还要教我们设计新蛋白》
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)