财经科技创事记

模拟5亿年自然进化史，全新蛋白质大模型ESM3诞生！前Meta老将力作LeCun转赞

2024-06-26 13:02:33 创事记作者：

继AlphaFold 3更新后，我们又看到了一个生命科学领域的大模型ESM3。

模型开发团队来自于名为Evolutionary Scale AI的初创公司，团队负责人Alex Rives在推特上官宣了模型发布的消息。

这个令人振奋的消息也得到了Yann LeCun的转发，他表示，你们这个公司有点「闷声发大财」的意思。

相比AlphaFold系列，ESM3有什么竞争优势？

首先就是Meta团队轻车熟路的——开源。

虽然模型API仍处于内测阶段，需要申请试用资格，但模型代码已经放到了GitHub上。而且公司还会与AWS和英伟达云计算平台合作，方便开发者使用和部署。

仓库地址：https://github.com/evolutionaryscale/esm

但比较遗憾的是，目前在HuggingFace仓库中还没有公开模型权重。英伟达官方博客显示，ESM3将在Nvidia BieNeMo平台提供一个小型开源版本的代码和权重，但仅限于非商业用途。

仓库地址：https://huggingface.co/EvolutionaryScale/esm3-sm-open-v1/tree/main

此外，ESM3与不同于模拟多种生物分子的AlphaFold 3，只专注于蛋白质，但可以同时推理其序列、结构和功能，这种多模态能力属于领域首创。

更让人耳目一新的是，ESM3在自然界中27.8亿个多样化蛋白质上进行训练，逐渐学习到了进化过程如何让蛋白质发生变化。

从这个角度来看，ESM的推理过程可以被视为「进化模拟器」，这为当前的生命科学研究开辟了全新的视角。团队甚至在官网文章中提出了「模拟5亿年进化」的标语。

或许你已经注意到了，ESM这个名字和Meta之前的蛋白质模型ESMFold非常类似。

这并不是有意擦边。事实上，Evolutionary Scale这家初创公司就是Meta-FAIR蛋白质小组的前成员创办的，公司的首席科学家Alex Rives正是这个已解散团队的前负责人。

去年8月，在Meta的「效率年」中，扎克伯格选择解散了只有十几名科学家的蛋白质小组，让公司专注于更有盈利前景的研究。

但Rives并没有被Meta的这种举动吓倒，而是决定自立门户，他们目前已经筹集了1.42亿美元的种子资金。

那么就来仔细看看，这次的ESM3具体有哪些新内容？

ESM3：生物学的前沿语言模型

生命科学并不像我们想象的那般神秘莫测、不可捉摸。

蛋白质分子虽然有难以置信的多样性和动态变化，但是它的合成遵循严密的算法与流程。如果把它看成一门技术，其先进程度远远超过任何人类创造的工程。

生物学，就是一个厚厚的密码本。

只不过，这个密码本是用我们尚未理解的语言写就的，即使是当今最强超算上运行的工具也不过触及皮毛。

如果人类能够阅读，甚至是书写「生命代码」，就能使生物学变得可编程。试错法将被逻辑取代，费力的实验将被模拟所取代。

ESM3就是朝这个宏伟愿景迈出的一步，是迄今为止首个能同时对蛋白质的序列、结构和功能进行推理的生成模型。

过去五年中LLM的突飞猛进，也让ESM团队发现了Scaling Law的威力，他们发现，同样的模式也适用于生物学。

随着训练数据以及参数规模的扩大，模型会加深对生物学基本原理的理解，并能更好地预测、设计生物结构和功能。

因此，ESM3的开发思路也与Scaling Law一脉相承，其规模比上一代ESM大大扩展，数据量提高了60倍，训练计算量提高了25倍，并且是具有原生多模态的生成模型。

ESM3的训练过程囊括了地球自然环境的多样性——数十亿种蛋白质，从亚马逊雨林到海洋深处，小到土壤中的微生物，极端到深海热泉。

HuggingFace上的模型卡显示，训练集中天然蛋白质数量达到27.8亿，并通过合成数据增强到31.5亿个序列、2.36个结构以及5.39亿个带有功能注释的蛋白质，token总数达到7710B。

模型训练参数总量达到98B，使用了超过1024 FLOPS的算力。团队似乎与英伟达紧密合作，训练使用了Andromeda集群，是当今吞吐量最高的GPU集群之一，部署了最先进的H100 GPU和Quantum-2 InfiniBand网络。

网页来源：https://andromeda.ai/

他们表示「相信ESM3的计算总量是有史以来生物模型之最」。

推理蛋白质的序列、结构和功能

处理文本的语言模型一般以token作为基本单位，但多模态的蛋白质模型更加复杂，需要将序列、三维结构和功能都转换为离散的字母进行表示。

为了更好地扩展训练规模、释放模型的「涌现」生成潜力，ESM3使用的词汇在同一语言模型中能够很好地连接序列、结构和功能，进行联合推理。

不同于GPT等语言模型，ESM3的训练目标继承于掩码语言模型（masked language modeling objective）。

每个蛋白质的序列、结构、和功能的部分位置会被掩码，模型在训练过程中需要逐渐理解三者之间的深层联系，从而预测掩码位置。如果遮蔽所有位置的标记，就相当于执行生成任务。

由于在蛋白质的序列、结构和功能上联合训练，对这三种模态可以任意进行掩码和预测，因此ESM3实现了「全对全」预测或生成（all to all）。

也就是说，模型的输入可以是部分或完全指定的三种模态的任意组合。这种强大的多模态推理能力有很强的应用价值，科学家们能以前所未有的灵活度和控制度设计全新的蛋白质。

比如，可以提示模型结合结构、序列和功能，提出PET酶活性位点的潜在支架结构。PET是一种常用的塑料，如果PET酶设计成功，就能用于高效分解塑料废物。

ESM3通过序列、结构和功能的多模态提示设计PET酶活性位点的支架

Evolutionary Scale的联合创始人兼兼工程副总裁Tom Sercu表示，在内部测试中，ESM在应对各种复杂提示时表现出了令人印象深刻的创造力。

「它能够解决一个极其困难的蛋白质设计问题，创造一种新型绿色荧光蛋白。ESM3能够帮助科学家加速工作，开辟新的可能性——我们期待看到它在未来对生命科学研究的贡献。」

当数十亿个蛋白质来自进化时间轴上的不同位置，具有丰富的多样性时，模型还能学到模拟进化的能力。

能力随规模涌现

正如LLM在规模扩展中「涌现」出了语言理解、推理等能力，在解决有挑战性的蛋白质设计任务时，ESM3也随规模增加逐渐显现能力，其中一个重要的能力就是原子级协调。

比如，提示中可能指定组成蛋白质的两个氨基酸需要在序列位置上相近，但在结构中相距较远。这衡量了模型在结构生成任务中达到原子级精度的能力。

这对于设计功能性蛋白质至关重要，而ESM3解决这类复杂生成任务的能力可以随着规模增加逐渐提高。

不仅如此，在训练完成后，ESM3的能力还有进一步提升的空间，其机制类似于LLM常用的RLHF方法。

但区别在于，ESM3并不是从人类那里接受反馈，而是可以评估自身的生成质量，进行自我改进，也可以结合已有的实验数据和湿实验结果，让ESM3的生成与生物学结果保持对齐。

模型生成能力随规模增长，且微调的提升效果明显

模拟5亿年的进化

在发表的论文中，ESM3团队详细介绍了他们在模型上观察到的「模拟进化」功能。

论文地址：https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

绿色荧光蛋白（Green Fluorescent Protein，GFP）及其荧光蛋白家族是自然界中最美丽的蛋白质之一，但它们只存在于「生命之树」的几个分支中。

但GFP不仅仅是美丽而已，它包含一种荧光发色团（fluorescent chromophore）。这种分子可以吸收短波长的单色光子、捕获部分能量，再释放出波长较长的另一种单色光子。比如，自然界存在的GFP可以吸收蓝光并发出绿光。

由于这种特性，GFP能够作为标记，帮助科学家在细胞内观察蛋白质，成为了生物学中最广泛使用的工具之一，GFP的发现也因此获得了诺贝尔奖。

GFP的功能如此独特且有用，结构也是非常罕见：由十一条链组成的桶状结构，中间穿过一条螺旋。折叠后进行自发反应，在蛋白质中心的分子会重新排列，产生荧光发色团。

这种机制是独一无二的。没有其他已知的蛋白质能够自发地从其自身结构中形成荧光发色团，这表明即使在自然界中，产生荧光也是相当罕见且困难的。

为了能在实验室有更广泛的应用，科学家们尝试添加突变或改变颜色，进行人工合成。最新的机器学习技术能够搜索到序列差异高达20%的变体，但功能性GFP的主要来源依旧是自然界而非蛋白质工程。

想在自然界中找到更多的变体也并不简单，因为新荧光蛋白的进化需要漫长的时间——GFP所属家族的历史相当久远，它们从祖先序列中分化出来的时间点能追溯到数亿年前。

这个棘手的问题或许能在ESM3这里得到解决。

将天然GFP核心结构中几个位点的信息作为提示，并使用CoT技巧，ESM3成功生成了新型GFP的候选者。

这种生成绝不可能是随机撞大运或者是全局搜索，因为可能的序列和结构的组合起来会达到天文数字——20229 x 4096229 ，比可见宇宙中所有的原子数加起来还要多。

在首次实验中，团队测试了ESM3生成的96个候选蛋白，其中出现了成功的发光样本，而且存在一种十分独特的结构，与自然界中任何蛋白质都相差甚远。

在另一组96个候选样本中，发现了几种亮度与天然GFP相似的蛋白质，其中一种亮度最高的蛋白质被命名为esmGFP，与最接近的天然荧光蛋白相比有96个突变（在229个氨基酸组成的序列中，有58%的相似部分）。

左侧是与所有已知GFP都相差较大的生成物B8，从B8开始，ESM3生成了右图的esmGFP

与自然进化不同，蛋白质语言模型并不在进化约束内明确工作。

但为了让ESM3解决其预测下一个掩码token的训练任务，模型必须学习进化如何在潜在蛋白质空间中演变。

从这个意义上说，ESM3生成与天然蛋白十分相似的esmGFP的过程，可以被视为一种进化模拟器。

对esmGFP进行传统的进化分析是自相矛盾的，因为它是在自然过程之外创造的，但仍可以从进化生物学的工具中获得洞见，了解一个蛋白质通过自然进化与其最近的序列邻居分化所需的时间。

因此，研究团队使用进化生物学的方法，把esmGFP当成自然界新发现的蛋白质进行分析。他们估计，esmGFP等效于进化模拟器执行的超过 5 亿年的自然进化。

esmGFP的渲染图

开放模型

自成立以来，ESM项目（ESM project）一直致力于通过发布代码和模型来实现开放科学。目前仍能在GitHub和HuggingFace上找到团队在几年前发布的代码和模型权重。

仓库地址：https://huggingface.co/facebook/esm2_t36_3B_UR50D/tree/main

看到ESM模型在研究和工业领域的创造性和有影响力的应用，可谓是令人惊叹：

- Hie等人使用ESM-1v和ESM-1b来进化抗体，改善了结合亲和力、热稳定性和病毒中和等治疗相关特性。
- BioNTech和InstaDeep微调了一个ESM语言模型，用于检测COVID刺突蛋白中的变异，成功地在WHO指定之前标记了所有16种关注变异。
- Brandes等人使用ESM-1b来预测突变的临床效果，目前这仍是完成该重要任务的最强方法。
- Marsiglia等人使用ESM-1v来设计新的抗CRISPR蛋白变体，这些变体在保持目标编辑功能的同时，减少了对非目标副作用。
- Shanker等人使用ESM-IF1引导多样蛋白的进化，包括实验室验证的对SARS-CoV-2高效抗体。
- Yu等人微调了ESM-1b来预测酶的功能，包括稀有和研究不足的酶，并通过实验验证了预测结果。
- Rosen等人使用ESM2嵌入来构建单细胞基础模型中的基因表示。
- Høie等人微调了ESM-IF1在抗体结构上的表现，在CDR区域的序列恢复中达到了最先进的性能，设计出了高结合亲和力的抗体。

而这些，只是建立在ESM平台上的惊人工作的一小部分！

如今，团队正式宣布，将发布一个ESM3 1.4B参数版本的权重和代码，以便科学家和开发人员能够基于ESM3的理念和架构进行构建。