来源:DeepTech深科技
2024 年的诺贝尔化学奖授予了在计算蛋白质设计方面取得卓越成就的美国华盛顿大学蛋白质设计研究所所长大卫·贝克(David Baker)教授,以及在蛋白质结构预测方面取得突破的 DeepMind 团队,可谓实至名归。
作为贝克的博士生和博士后,我想谈谈我对计算结构领域的理解以及我眼中的贝克教授。
我在大学的生物化学课程中学到,人类基因组测序揭示了大量 DNA 序列,这些序列所编码的蛋白质序列也已基本确定。
然而,绝大部分蛋白质的功能尚不清楚,因为在序列信息之上,还有更重要的一层,那就是蛋白质的三维结构。
1972 年,诺贝尔化学奖的一项重大发现就是蛋白质的三维结构由一维序列决定。通过漫长的进化,自然界筛选出一系列蛋白质序列,这些序列通过合理排列疏水性和亲水性氨基酸,在水中自发折叠形成蛋白质的结构。
然而,从物理上计算这一过程的复杂性极大,能量状态难以精确描述,这一直是科学上的未解之谜,被誉为真正的“生命密码”。
贝克本科就读于美国哈佛大学,主修哲学、辅修生物学。大学毕业后,他休学了一年环游世界,期间也游览过中国,可谓是中国实施改革开放后第一批“打卡”中国的先锋国际友人。
后来,他决定找点能逐步积累的方向研究,于是加入美国加州大学伯克利分校教授、2013 年诺贝尔生理医学奖得主兰迪·谢克曼(Randy Schekman)实验室攻读博士,研究细胞内的蛋白运输。
博士后阶段,他加入了美国加州大学旧金山分校的大卫·阿加德(David Agard)实验室,研究蛋白质结构。
当贝克刚到华盛顿大学任教时,他的研究领域集中在蛋白质折叠。他的设想是:如果能把蛋白质折叠的过程放慢,说不定能观察到其中的细微变化。
然而,实验发现这种方法并不奏效,蛋白质一旦达到折叠的临界点,折叠过程会瞬间完成。但这并没有让他气馁,因为在这过程中,他偶然发现了一些短肽链可以形成稳定的局部结构。
这时,他灵机一动:既然计算整个蛋白质的折叠过于复杂,不如从局部肽段结构入手,看看能不能通过拼装搞定整个折叠过程。
于是,贝克和他的团队将蛋白质数据库(PDB,Protein Data Bank)中的蛋白质打碎成小肽段,并通过随机插入组装的方法,用能量函数判断是否接受每一步,像搭积木一样,研发出了 Rosetta 蛋白质结构预测软件。
这个软件在 2004 年第六届蛋白质结构预测大赛(CASP,Critical Assessment of Structure Prediction)上“一战成名”,成为当时的标杆。但由于能量函数的准确性和搜索空间的限制,蛋白质结构预测依然是个难题。
于是,贝克和当时的博士后布莱恩·库尔曼(Brian Kuhlman)提出:
既然 Rosetta 的蛋白质构象空间搜索和能量评估已经取得一定成绩,为什么不反其道而行之?从结构出发,设计蛋白质,再计算能折叠成该结构的蛋白质序列。
2003 年,他们设计出了首个具有全新折叠方式的 Top7 蛋白,从此开启了计算蛋白质设计的新纪元。
自那以来,贝克实验室设计了各种功能、形态各异的蛋白质,从化学催化酶、到药物结合蛋白靶点、小分子结合蛋白、再到纳米材料等。
在此过程中,深度学习的人工神经网络逐渐崭露头角。
2014 年,贝克的博士生谢尔盖·奥夫奇尼科夫(Sergey Ovchinnikov)和博士后赫图南丹·卡米塞提(Hetunandan Kamisetty)基于深度学习原理,利用同源序列共进化信息改进了蛋白质结构预测,显著提高了准确性。
之后,DeepMind 团队更进一步,将共进化信息直接用作“能量函数”,开发出 AlphaFold1,在 2018 年的 CASP 比赛中将预测准确度提高到近 60%。
随后,2020 年 AlphaFold2 的优化进一步将准确度提高到 90% 以上,大部分蛋白质结构得以成功预测。
贝克实验室也在机器学习领域持续进步,研发出基于语言模型的消息传递图神经网络(MPNN,Message Passing Neural Networks),可以根据蛋白质结构生成最优的序列,完成蛋白质设计的重要步骤。
此外,贝克团队还基于 AlphaFold 框架开发了自己的开源程序 RosettaFold,并结合扩散模型推出了 RFDiffusion,用于生成全新蛋白质结构。两者的结合成为蛋白质设计的两大核心工具。
当然,蛋白质设计领域广阔,不同应用场景需要不同的结构设计,这不仅需要天马行空的想象力,还需要对特定问题有深入理解并掌握扎实实验技术的团队共同攻克。
我认为,贝克是一位纯粹的科学家,所有心思都放在科研上。他很少出差参加会议,大部分时间都在实验室内走来走去,和大家讨论前沿科学问题并指点方向。
他的特点之一是缺乏耐心,这乍听起来或许不是一种优点,但用在科研上反而变成了一种优势:他有一种勇于创新、迈大步往前走的劲儿,只专注于重要且极具挑战的问题。
在科研上,我们每天都会遇到很多困难,但贝克积极又务实,科研上的困难就像登山路上遇到的一块块巨石,绕过去、翻过去,总之没有什么能挡住他继续前进的脚步。
除了科研上飞速前进,贝克在生活中也是户外达人:他在周中拼命工作,在周末喜欢登山、露营、滑雪,我的单日登山和步数的记录,也是跟他一起刷新的。贝克不仅热爱探索新路线,还总能找到不同的挑战,似乎从不走寻常路。
贝克非常聪明,思路清晰,总是能够透过细枝末节抓住问题的核心和本质。他学习能力强,总是充满好奇心,哪怕是跨领域复杂问题,他都能够很快学习,触类旁通。他的写作与语言表达能力也很出众,常常能快速、精准地撰写和修改文章。
此外,他情商高、胸怀宽广、善于合作和分享,因此吸引了大批优秀人才加入他的研究组,形成了一个充满活力的蛋白质设计大家庭。
在我看来,贝克的实验室结构非常扁平,他一个人领导着 100 人的团队,团队成员根据研究兴趣自发组成小组。他会定期与每位成员一对一交流,记住每个人的工作进展,并推动项目不断前进。
他还非常重视团队内部的沟通与合作,相信集体智慧远胜于个人力量,在这个交叉学习和自由开放的环境中,每个人都能最大限度地发挥自己的创造力。
我第一次见到贝克是在 12 年前,刚刚获得当年诺贝尔化学奖的美国斯坦福大学教授布莱恩·科比尔卡(Brian Kobilka)来华盛顿大学西雅图分校进行讲座。
我当时是清华大学的大三交换生,那时已对贝克的研究有所了解,知道他在蛋白质结构预测和设计方面的卓越贡献。
讲座结束后,我鼓起勇气向贝克介绍自己,并表达了加入他研究组的愿望。虽然贝克觉得一个学期时间太短,不足以做出太多工作,但他还是让我加入了实验室,跟随年轻的博士生学习。在这个充满热情的实验室中,我感受到了科研的快乐。
之后,我顺利申请回到华盛顿大学西雅图分校,在贝克的组里攻读博士学位。我的博士课题首次实现了从头设计的自组装蛋白质纤维。
博士后期间,我继续设计可控纤维组装,包括通过酸碱度、小肽链构象变化、多组分蛋白纤维以及功能性纤维等项目。
未来,我的研究组将继续围绕蛋白质纤维展开,包括:设计蛋白质纳米导线、可控组装以及蛋白质机器等新型纳米材料等。
此外,还可以用于单分子检测的信号扩增、螺旋对称性辅助的冷冻电镜结构解析、碳纳米管纯化分离、功能分子排列、抗原呈递增强抗体生成、以及细胞生物学的研究。
参考资料:
https://www.bakerlab.org/future-faculty/#hao-shen
运营/排版:何晨龙
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)