姜凯议
■本报见习记者 杜珊妮
“Sometimes something wonderful happens to someone(美好的事情有时会发生在某个人身上)。”10多年前,还是初中生的姜凯议偶然从一本小说中读到了这句话,彼时的他没想到,这句话竟在多年后成为他人生的真实写照。
如今,25岁的姜凯议即将获得美国麻省理工学院(MIT)生物工程系博士学位,手握7项世界专利,不仅在《科学》《自然-生物技术》等国际期刊发表了多篇论文,而且由他参与孵化的基因编辑生物技术公司获得数亿美元融资。
近日,美好再次“如期而至”,姜凯议以第一作者身份收获了他的第二篇《科学》论文。他所在的研究团队开发出高效蛋白进化方法EVOLVEpro。这项跨学科研究将人工智能(AI)与生物工程紧密结合,大幅提高了生物实验效率,推动了AI模型在生物领域的应用。
跳过折叠变化
传统生物学研究倾向于循序渐进地从蛋白质序列入手,逐步探讨其如何折叠成三维结构,继而研究这些结构如何相互作用,并最终实现特定的生物功能。而解析蛋白质的折叠与功能关系,一直是生物学研究的核心难题。
近些年,谷歌DeepMind开发的AlphaFold在解决蛋白质折叠问题上有了质的飞跃。但是,人体每个细胞内有超过4000万个蛋白正在表达,它们往往协同工作,而非单独完成任务。
“这些蛋白质之间如何协同决定生物现象?它们碰到之后折叠会发生什么变化?这些问题是目前的AI算法没法解决的。”姜凯议告诉《中国科学报》。
姜凯议意识到,如果从折叠变化入手,可能要耗费10年甚至更长时间才能找到答案。与其停留在这个“卡点”,不如干脆跳出传统思维框架,跳过折叠变化,一步看到最后。
为此,姜凯议开发了AI算法驱动的蛋白质进化框架EVOLVEpro。它结合蛋白质语言模型(PLMs)和回归模型,可通过少量实验数据快速改进蛋白质活性。
大语言模型(LLMs)以“预测下一个词”为核心,即根据已有文本信息预测下一个最有可能的词语。因此,AI工程师在开发蛋白质的生物大模型时,会借鉴这一逻辑预测下一个最可能的氨基酸。
然而,在姜凯议看来,这一逻辑在生物进化中并不适用,因为进化不追求个体蛋白质的最优解,而是群体适应性的平衡。“过于‘优秀’的蛋白质可能会消耗更多能量,反而不利于整个群体生存。”
姜凯议等人在研究中放弃了解码,选择直接在高维空间中进行线性回归,利用高维空间中的信息推测并寻找更高活性的蛋白质。
研究团队通过对6种蛋白质进行测试,验证了EVOLVEpro在RNA生产、基因组编辑和抗体结合应用中的表现和有效性,真正取得了诸如抗体进化效率提高40倍等实验成果,证明EVOLVEpro优于当前的方法。
挑战一群聪明人
高效进化RNA聚合酶是这项研究的亮点之一。
起初,姜凯议的目标很简单,用算法进化出比自然界的RNA聚合酶更好的版本即可。然而,他的导师却将实验要求推向了一个更具“野心”的高度——直接对标美国生物技术企业莫德纳公司花费数年时间精心优化的蛋白酶突变体。
“这相当于我要用这个算法PK人类最聪明的一群生物工程师花了三四年时间想出来的解决方案。”姜凯议说。
当时,莫德纳公司改造的突变体已经比自然界的突变体胜出四五十倍,显然,超越并非易事。
尽管在接受挑战后,姜凯议仅用一个月就开发出在各个维度上都完胜自然界的RNA聚合酶,但距离突破目标还有很长的一段路要走,这其中面临非常多的挑战。
例如,在进行RNA聚合酶的进化实验时,培养细菌、表达酶、纯化蛋白……每一步都极其耗时且烦琐。“一名博士生努力一周,可能只能纯化两到三个蛋白,工作量非常大。”姜凯议说。但在这项研究中,他用时两个多月共纯化了60个蛋白。
这样的效率,仅靠传统方法几乎不可能实现。姜凯议想到了此前在另一篇文章中应用过的无细胞表达的高通量筛选系统,其无须细胞表达即可生成蛋白。但是,这套系统工具的实验环境存在高浓度杂质,例如镁离子和盐,会对蛋白的性能产生意想不到的影响,从而带来误导性的实验结果。
为避免偏差,在每一轮进化筛选后,姜凯议都会挑出最佳突变体,用烦琐的传统方法再次进行纯化,然后在正常的镁离子和盐浓度环境中重新表征。“如果没有这些校准工作,那么这个实验可能就彻底跑偏了。”
严谨的科研态度,使实验数据在面对工业级突变体时,拥有了足够的竞争力和可信度。最终,历时5个月,他和团队利用EVOLVEpro成功进化出一种比莫德纳公司突变体性能更优的RNA聚合酶。
7年积累与沉淀
这是一项贯穿姜凯议整个科研生涯的研究。
在美国读高中时,得益于学校附近诸多的生物研究机构,数理化成绩优异且好奇心强的姜凯议开始了对生物领域的探索。
2017年,他进入美国莱斯大学攻读生物工程专业,并遇到了科研生涯的启蒙导师Caleb Bashor。Bashor从事合成生物学研究,师承于被誉为“美国合成生物学之父”的James J.Collins。当Bashor第一次向姜凯议介绍自己的科研目标——“有一天要像编程硅基的电脑一样编程碳基的生物”时,这个概念如同火花,彻底点燃了姜凯议对生物研究的热情。
自那时起,姜凯议便成了Bashor实验室的常客。姜凯议渴望利用高效准确的工具预测实验结果,从而推动科研成果的实际应用。正是在这样的背景下,开发EVOLVEpro的想法悄然萌生。
彼时,AI还未发展“出圈”,ChatGPT、AlphaFold等革命性AI技术也尚未问世。
作为一名拥有生物学背景的本科生,姜凯议与AI原本应该是两条不相交的平行线。但碰巧的是,他身边几乎全是学计算机科学的朋友。
于是,一节计算机科学课都没上过的姜凯议在与朋友的日常交流中,逐渐掌握了支持向量机(SVM)、卷积神经网络(CNN)、深度学习框架Transformer等领域的知识。
2021年8月,姜凯议进入MIT攻读生物工程博士学位,并加入哈佛大学医学院助理教授Jonathan Gootenberg和Omar Abudayyeh的实验室,开启了科研生涯新篇章。
同年,美国互联网公司Meta的AI蛋白质团队ESM也在美国《国家科学院院刊》发表了首个生物的大语言模型ESM1b。紧跟AI研究发展的姜凯议敏锐地意识到,机会来了。
然而,由于该模型表现不佳、AI风潮仍未兴起,对AI的潜力了解有限的两位导师认为,这项工作可能难以激发学术界的兴趣,所以建议他专注于基因编辑领域的课题。但姜凯议并未放弃,而是将其作为一个小课题,偶尔利用空闲时间进行研究。
直到博三那年,他迎来转机。AI研究领域呈现井喷式发展,AlphaFold、ChatGPT相继问世,导师的态度也因大环境而发生了转变,当初搁置的小课题再次被提上日程。
这一次,姜凯议终于得以全身心投入这个项目,将多年的研究构想付诸实践。
执行力很关键
姜凯议无疑是幸运的。
做科研至今,他所参与的研究项目几乎从没有经历过“流产”的阴霾。对此,他坦率地表示:“做科研,运气永远排在第一位。”
那么,运气之外,是否还有其他关键因素在发挥作用呢?
当然有。在姜凯议看来,执行力就是最好的答案。
“有句话叫作‘Idea is cheap(想法不值钱)’。其实,想法并不稀缺,很多人都能想到同样的解决方案,但重要的是如何执行这些方案,并在执行过程中不断调整和完善。”
回顾姜凯议的科研经历不难发现,无论是本科导师的青睐、跨学科的自学经历,还是对研究构想落地的坚持,他一直保持着出色的执行力。而他博导的课题组更是一个执行力超强的团队,并且有着独特的“内卷”文化。
“初入课题组时,是组内一位来自瑞士的博士后指导我。他非常聪明,但同时也非常‘卷’。有时,我凌晨一两点离开实验室时,他还在忙。早上9点,当我再次回到实验室时,他甚至还没回去休息。”姜凯议回忆说。
此“卷”非彼“卷”,并不是迫于导师压力,而是一种自发的科研激情和兴趣所驱动的自循环系统。
坚持和追求高效执行力,带来的不仅是持续产出的科研硕果,还有丰厚的奖励回报。
2023年,两位导师共同成立了基因编辑初创公司Tome Biosciences。姜凯议虽未入股,但以技术顾问的身份参与了公司的研发工作。他与两位导师共同分享的7项专利为Tome Biosciences的产品开发提供了重要支持。
与此同时,姜凯议与妻子也迎来了一个新的小生命,正式晋升为“新手爸爸”。
谈及未来,姜凯议表示自己今年5月即将博士毕业,目前还在考虑博士后研究的工作地点。“我还是想做科研,继续优化现有的模型,并寻找一些临床抗体,尝试利用技术解决一些临床中的痛点问题。”
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)