2024年诺贝尔化学奖揭晓!揭开蛋白质折叠的秘密

2024年诺贝尔化学奖揭晓!揭开蛋白质折叠的秘密
2024年10月11日 16:29 新浪科技综合

  来源:蝌蚪五线谱

  当地时间10月8日,瑞典皇家科学院宣布,将2024年诺贝尔化学奖授予三位科学家,一半奖金授予戴维·贝克(David Baker),以表彰他在“计算蛋白质设计”方面的贡献,并将另一半奖金授予德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M. Jumper),以表彰他们在“蛋白质结构预测”方面的贡献。

  三位科学家简介

  戴维·贝克1962年出生于美国华盛顿州西雅图,目前是华盛顿大学的生物化学教授,同时也是蛋白质设计研究所的所长。他在计算生物学领域有着深入的研究,特别是在蛋白质折叠和设计方面。

  德米斯·哈萨比斯1976 年出生于英国伦敦,2009年在英国伦敦大学学院获得博士学位。目前他是DeepMind的联合创始人兼首席执行官,他在认知神经科学和人工智能领域有着广泛的研究,领导了AlphaFold算法的开发。

  约翰·江珀1985年出生于美国阿肯色州小石城,2017年获得美国伊利诺伊州芝加哥大学博士学位。目前他是DeepMind的高级研究科学家,他在人工智能和机器学习领域有着显著的贡献,尤其是在蛋白质结构预测方面。

  插图:化学家们长久以来一直梦想着完全理解和掌握生命的化学工具——蛋白质。现在,这个梦想已经触手可及。德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M. Jumper)成功利用人工智能预测了几乎所有已知蛋白质的结构。戴维·贝克(David Baker)学会了如何掌握生命的构建块并创造全新的蛋白质。

  蛋白质的研究历史

  普通公众要理解今年诺贝尔化学奖的科学成就,蝌蚪君认为有必要先梳理一下蛋白质的研究历史。

  1838年,荷兰化学家莫伊尔德首次提出“蛋白质”这一术语,并对其化学性质进行了初步研究。

  1902年,俄国科学家米尔·费舍尔(Emil Fischer)发现了肽和肽键,认为蛋白质是由氨基酸通过肽键连接而成的,他于1902年被授予诺贝尔化学奖。

  1912年,波兰化学家弗雷德里克·桑格(Frederick Sanger)完成了第一个蛋白质的完整氨基酸序列测定,即胰岛素的B链,这标志着蛋白质序列分析的诞生。他于1958年被授予诺贝尔化学奖。

  20世纪50年代末,英国生物物理学家约翰·肯德鲁(John Kendrew)和马克斯·佩鲁茨(Max Perutz)成功地使用了一种称为X射线晶体学的方法,展示了蛋白质的首个三维模型。为了表彰这一发现,他们于1962年被授予诺贝尔化学奖。

  1961年,美国科学家克里斯蒂安·安芬森(Christian Anfinsen)做出了另一个早期发现。他利用各种化学技巧,成功地使一个现有蛋白质展开,然后再次自行折叠,蛋白质每次都呈现出完全相同的形状。他得出结论,蛋白质的三维结构完全由蛋白质中的氨基酸序列决定。他于1972年被授予诺贝尔化学奖。

  上世纪70年代,科学家们开始研究和揭示基因序列与蛋白质序列之间的关系。美国人赛勒斯·莱文塔尔(Cyrus Levinthal)在1969年就通过计算出得出结论,蛋白质如何折叠的所有信息都存在于氨基酸序列中。

  上世纪80年代开始,生物信息学开始兴起,为大量蛋白质的氨基酸序列的分析和比较提供了工具。

  2001年,人类基因组草图完成,为蛋白质的氨基酸序列研究提供了大量数据。

  插图:一个蛋白质可以由几十个氨基酸到几千个氨基酸组成。氨基酸链折叠成一个三维结构,这个结构对于蛋白质的功能是决定性的。

  三位科学家的具体贡献

  时间标尺继续下划,就到了2024年诺贝尔化学奖的区间。下文就重点讲解此次获奖的三位科学家各自的贡献:

  戴维·贝克(David Baker)在“计算蛋白质设计”方面到底作出了哪些贡献?

  首先,我们先要搞清楚什么是蛋白质折叠?蛋白质是由20种不同的氨基酸通过肽键连接而成的长链。而这些长链在空间中是折叠成复杂的三维结构的,所以氨基酸的排列顺序其实就决定了蛋白质最终的三维结构,然而尽管科学家们知道蛋白质的氨基酸序列,但他们无法计算得知这些序列会如何折叠成特定的三维结构。由于蛋白质结构的复杂性,预测其折叠方式不仅需要巨大的计算能力,还需要对于这个物理化学过程有更为深刻的了解。

  尽管缺乏足够的理论支持,但是戴维·贝克采取了“近似”的策略,构建了一个复杂的“虚能量函数”,并在2003年成功地开发了蛋白质结构预测软件Rosetta。该软件虽然不能准确计算蛋白质折叠过程中的能量变化,但是仍旧能在相当一部分蛋白质上比较准确地计算得到折叠后可能采取的三维结构。

  除了计算手段之外,生物学家们主要还是依靠实验手段来测定蛋白质的真实三维结构,方法包括X射线晶体学、冷冻电子显微镜或核磁共振等。不过这些传统方法需要耗费大量的时间、金钱与科研劳动,而且还不能保证成功率。

  相比之下,戴维·贝克等多个团队的结构预测算法只依赖于计算,速度更快,但准确率尚无法保证。

  插图:使用戴维·贝克程序Rosetta开发的蛋白质

  就在研究蛋白质结构预测的过程中,戴维·贝克也对蛋白质设计产生了浓厚的兴趣,采用纯粹的计算策略,尝试从头设计全新的蛋白质,在自然界中不存在的蛋白质。以下是他的研究步骤:

  第一步:贝克依赖于他们开发的Rosetta蛋白质结构预测算法,可以预测氨基酸序列在形成蛋白质时可能采取的三维结构。

  第二步:利用这个工具,他们针对随机生成的一系列氨基酸序列进行结构预测,这些序列都是在自然界中未被观察到的。如果预测结果显示出合理的蛋白质结构,那么这条氨基酸序列就会被保留下来,反之则抛弃该序列。

  第三步:他们合成了那些成功折叠的氨基酸序列所对应的编码基因序列,并在实验室中制造出相应的蛋白质。然后,他们使用实验手段(如X射线晶体学)来测定这些新蛋白质的结构。

  第四步:一旦新蛋白质的结构被确定,他们就继续研究了这些蛋白质的可能功能和应用。

  戴维·贝克以及其他研究者之所以要设计新的蛋白质,是为了获得具有特定功能或性质的蛋白质,从而让这些蛋白质可用作药物、疫苗、纳米材料和微型传感器等。另外,设计蛋白质的过程本身也增进了人类对蛋白质如何从线性序列折叠成复杂三维结构的理解,同时展示了计算模型在生物化学研究中的强大潜力。

  时间标尺又往前推一步,到了德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M. Jumper)的时代,他们在“蛋白质结构预测”方面又作出了哪些贡献呢?

  先说一个大家耳熟能详的,AlphaGo。对,就是2016年和2017年分别击败了世界围棋冠军李世石和柯洁的人工智能模型。其实AlphaFold和AlphaGo都是由DeepMind公司开发的独立产品。AlphaGo问世于2016年,它的使命是使用深度神经网络来学习围棋的策略和决策,而AlphaFold,它的使命非常明确,帮助人类使用深度学习方法来预测蛋白质的三维结构。

  AlphaFold问世于2018年,就参加了一个国际学术比赛——蛋白质折叠预测比赛(Critical Assessment of protein Structure Prediction,简称CASP),并取得了不俗的成绩,立刻引起了领域内的关注。CASP从1994年开始,每两年举办一次,是蛋白质结构预测领域最重要的国际性赛事,参赛团队需要使用计算方法预测给定蛋白质序列的三维结构。

  到了2020年,德米斯·哈萨比斯和约翰·江珀共同领导了对AI模型做了根本改革的第二代的AlphaFold2,再去参加第十四届CASP比赛时,以压倒性优势取得了冠军,这犹如一声炸雷,颠覆了科学界对于AI的认识。相对于Rosetta等此前的结构预测算法,AlphaFold2得到的预测结构与实验测定的真实蛋白质结构有着非常高的一致性。

  插图:使用Baker程序Rosetta开发的蛋白质

  AlphaFold2的技术特点是使用了一种基于深度学习的方法,特别是注意力机制和神经网络,用于预测蛋白质的氨基酸对之间的距离,并据此构建蛋白质的三维结构。它的成功震撼了科学界,被誉为生物信息学和结构生物学领域的一个划时代里程碑。它展现了人工智能在攻克长期悬而未决的生物学难题上所蕴含的巨大潜力。

  虽然这些预测结构在局部仍有不准确的地方,但是AlphaFold2整体上作为一种快速高效的计算工具,已经计算了所有人类蛋白质的结构。DeepMind公司还开放了AlphaFold2的源代码,任何人都可以访问,这个AI模型已经成为研究人员的金矿。

  插图:AlphaFold2在刚性球状蛋白质以外的结构预测方面有着强大功能,但仍存在重要局限

  迅速推进!就在科学界为AlphaFold2欢呼之时,DeepMind研究团队领头人约翰·江珀却表示,AlphaFold2仍然有局限,因为它不能同时具备预测蛋白质结构及其配件结构的能力。而这些无法准确预测的部分,往往可能是科学家最为看重的难中之难。

  插图:7R6R - DNA结合蛋白:AlphaFold 3对一个分子复合体的预测展现了蛋白质(蓝色)与DNA双螺旋(粉色)的结合,其预测结果与通过繁复实验得到的真实分子结构(灰色)高度吻合

  在历经两年多的艰苦攻关后,DeepMind团队于2024年推出了AlphaFold3。这一先进系统采用了深度生成中的扩散模型为核心,从而能够以史无前例的精确度成功预测了包括蛋白质、DNA、RNA、配体在内的大部分生命分子的结构和相互作用。

  这一突破不仅超越了蛋白质结构的单一预测,更使得人类能够以前所未有的精确度洞察所有生命分子之间的构造及其相互作用,开启了生物学研究的新篇章。

  插图:8AW3 - RNA修饰蛋白:AlphaFold 3对一个包含蛋白质(蓝色)、一条RNA(紫色)和两个离子(黄色)的分子复合体的预测与真实结构(灰色)非常吻合

  AlphaFold的工作原理极为复杂,涉及的计算量浩如烟海。它融合了生物信息学、计算生物学和机器学习的最新研究成果。尽管面临巨大挑战,AlphaFold仍以前所未有的精确度和速度实现了蛋白质结构的预测,为科研和药物开发领域贡献了强大的新工具。

  到此,我们要把戴维·贝克重新请上舞台。随着第一代AlphaFold逼近了Rosetta的预测水平,不可能不引起Rosetta开发者戴维·贝克的关注。于是贝克和他的研究团队开始尝试在他们传统的蛋白质设计算法中也加入AI技术。

  在2003年,贝克团队成功建立了一种同样基于扩散模型的蛋白质设计AI算法,名为RFdiffusion,能够在很短的时间内直接得到可能的全新蛋白质结构。无论是从计算量上来看,还是从成功率上来看,都远远超过他自己此前的蛋白质设计流程。

  就在刚刚过去的10月9日,贝克团队多年来的蛋白质设计成果,以及三代AlphaFold所取得的成就,让三位科学家共同荣获了今年的诺贝尔化学奖。这不仅体现了科技进步的迅猛,也展现了诺贝尔奖对科学突破的敏锐响应,两者均令世界瞩目。

  蛋白质折叠的秘密

  为了让普通公众更好地理解蛋白质结构预测的成就和相关知识,我们可以将细胞、组织、蛋白质的结构和功能,以及构成它们的肽键和氨基酸序列,比喻成一个繁忙的建筑工地:

  想象一个庞大的建设项目,这个项目代表我们的生物体,而细胞则是这个项目中的一个个小工地,组织则是由这些小工地联合而成的更大规模的建筑群。

  氨基酸:氨基酸就像是工地上的原材料,如砖块、钢筋、水泥等。每种原材料都有其特定的属性和用途。

  插图:蛋白质可以包含从数十个氨基酸到数千个氨基酸的所有氨基酸

  肽键:肽键是将这些原材料连接起来的“焊接点”或“粘合剂”。就像焊接钢筋或涂抹水泥,肽键将氨基酸紧密地连接起来,形成坚固的链条。

  氨基酸序列:氨基酸序列是施工图纸,它详细规定了原材料的排列顺序。不同的排列顺序会决定最终建筑的结构和功能,正如不同的氨基酸序列决定了蛋白质的结构和功能。

  蛋白质的结构:

  一级结构:氨基酸序列,就像按照图纸排列的建筑材料。

  二级结构:蛋白质链的局部折叠,如同搭建好的框架结构,如墙壁和梁柱。

  三级结构:蛋白质链进一步折叠成复杂的三维形状,就像整个建筑的结构,包括楼层、房间和楼梯。

  四级结构:对于由多个肽链组成的蛋白质,四级结构是指这些肽链如何相互作用并组装成一个完整的复合体,就像一个由多个建筑组成的综合体。

  插图:蛋白质的四级结构示意图

  蛋白质的功能:蛋白质的功能就像是建筑的不同部分所承担的角色。有的蛋白质是结构支柱,如同建筑中的梁柱;有的蛋白质是催化剂,如同工程师使用的工具,加速化学反应;有的蛋白质是信号传递者,如同通信系统,确保工地内外信息的流通。

  细胞:细胞就像是整个建筑工地,它包含了所有必要的结构和功能单元,如蛋白质、核酸、脂质等,它们共同协作,完成生命活动的各项任务。

  组织:组织则是由许多相似的细胞组成的建筑群,每个细胞都按照其特定的功能进行组织和排列,就像一个城市中的住宅区、商业区和工业区。

  通过这个比喻,我们可以看到,氨基酸是构建生命的基础单元,肽键是连接这些单元的纽带,氨基酸序列是指导构建的蓝图,蛋白质的结构和功能是构成细胞和组织的基石,而细胞和组织的协同工作则支撑起了整个生物体的生命活动。

  蛋白质构成了生命的基础,其结构之谜隐藏于复杂的折叠之中。揭开这一谜团,我们得以更深入地理解生命的运作机制。如今,借助人工智能的力量,我们能够预测蛋白质结构并设计创新型的蛋白质,这一技术突破正在为人类带来了巨大的福祉和利益。

  成果价值与应用前景

  为了更全面深度地认识三位科学家在蛋白质三维结构预测和蛋白质设计领域的研究成果,以及在医学和生物学上应用前景,蝌蚪君特别连线采访了结构生物学与人工智能生物学家,北京航空航天大学医学科学与工程学院叶盛教授。

  叶盛教授坦言,今年诺贝尔化学奖授予这一领域,确实与他的研究方向不谋而合。“我们的研究正是沿着戴维·贝克的道路前进,我们团队最近也取得了一些重要成果,目前正在撰写相关论文。”

  插图:叶盛2000年本科毕业于清华大学自动化系,2007年于清华大学基础医学院取得生物学博士学位,在美国从事博士后研究工作之后,于2010年回国进入中国科学院生物物理研究所工作。2019年,叶盛进入北京航空航天大学从事蛋白质科学研究。

  随着AI技术突飞猛进的发展,叶盛教授的团队近年来开始将AI算法应用于生物学问题的解决,开创性地运用扩散模型等深度生成模型实现了蛋白质的快速从头设计,为人工蛋白质在医药等领域的应用提供了新的解决方案。以下是叶盛教授评价诺奖三位得主的研究成果的价值:

  为科学研究提供了一种新的范式

  传统的科学研究往往是由数据出发,总结规律与公式,实现对任意情况的计算。但是像蛋白质折叠这种复杂问题,我们既缺乏足够的数据,也始终没有找到公式。而AI可以在不知道公式的情况下(模型的不可解释性),仅依靠对于现有数据的学习,就掌握其中的规律,完成相应的预测或数据生成。

  深入探索生命奥秘

  虽然当前AI的模型是不可解释的,让我们也无法得知其中的具体规律,但是通过利用这些技术不断预测结构、设计蛋白,也能够帮助我们进一步揭示蛋白质三维结构背后的奥秘,为早日建立通用的法则或公式奠定基础,最终推动了我们对生命本质的理解。

  建立生物学研究新工具

  这些研究成果为科学家们提供了强大的新工具,让很多此前无法计算的问题变得可以迅速得到答案,因此在生物学、化学、医学、化工材料学等多个领域都能发挥巨大作用。

  对疾病治疗的具体帮助

  有助于深入理解疾病根源:预测蛋白质结构能够帮助我们理解细胞内外蛋白质的结构与功能的关系,从而有助于我们对于疾病的研究。比如相当一部分神经退行性疾病都与蛋白质的折叠错误有关,而这些蛋白质的不同折叠此前一直都是结构研究的难点,现在却可以在AI算法的帮助下得到快速解决。

  加速药物开发和生物技术革新:这项技术虽然还不能直接设计得到药物,但是却能够在多个方向上助力药物研发,比如加速药物靶点蛋白的结构研究等等,同时也可以在设计多肽药物、蛋白药物等新型生物药方面大显身手。

  助力疫苗开发:安全性更强的亚单位疫苗本身就是来自病毒的蛋白质分子,但是还需要进行一定的改造设计。AI算法加持的蛋白质结构预测和设计都对这类亚单位疫苗的研发有着显著的助推作用。

  降低药物成本:当前药物价格中有一大部分的成本是来自药物漫长的研发周期之中的投入。而AI算法能够帮助药企有效地缩短研发周期,降低研发成本,最终导致药物价格的下降,惠及我们每一个普通人。

  此前,我们曾试图进行蛋白质设计,这是一项极为艰巨的任务。试想,要设计一个由数千甚至数万个原子组成的分子,这超出了人类的知识范畴和能力极限。然而,随着基于深度学习的新一轮人工智能技术的出现,我们终于获得了实现这一目标的能力。

  “虽然我们仍旧无法解释这个模型背后的具体原理和规则,但是我们可以通过采样,去生成我们想要的设计。”

  叶盛教授补充说:“基于AI的蛋白质设计真的就是一种新质生产力。我觉得今年诺贝尔化学奖给到这个方向,也是给了我们一个非常非常重要的提示:在生物技术领域和健康医药领域,这是未来发展的一个大趋势。对于社会大众来说,这项技术创新将给我们的医疗健康问题带来实惠。同时它也让大家看到,诺贝尔奖其实离我们并不遥远。”

  撰稿:雷永青,科技媒体人

  中国科普作家协会会员,北京科学技术普及创作协会会员

  审稿:叶盛,结构生物学与人工智能生物学家

  北京航空航天大学医学科学与工程学院教授、中国科普作家协会理事

海量资讯、精准解读,尽在新浪财经APP

责任编辑:刘万里 SF014

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 10-18 拉普拉斯 688726 --
  • 10-16 新铝时代 301613 --
  • 10-15 苏州天脉 301626 --
  • 10-11 六九一二 301592 29.49
  • 10-08 托普云农 301556 14.5
  • 新浪首页 语音播报 相关新闻 返回顶部