专访王仲远：智源多模态大模型登上《自然》，背后有群年轻人|自然|新京报|图像_新浪科技

近日，智源多模态大模型Emu3成果在国际顶级学术期刊《自然》（Nature）上线，预计2月12日纸质版正式刊发。这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

这一模型的技术路线有何优势？智源作为北京新型研发机构，如何吸引和培养青年AI人才？在2月3日举行的2026智源学者年会期间，新京报记者专访北京智源人工智能研究院院长王仲远。

据他介绍，Emu3的研发团队非常年轻，负责人当时只有29岁。这正体现了智源研究院“青年人挑大梁”的核心理念。今年和明年会是多模态模型实现重大突破、开始逐步进入产业化的阶段。

后续版本Emu3.5已达到产品级模型

新京报：近日，智源多模态大模型Emu3成果在国际顶级学术期刊《自然》（Nature）上线。请通俗解释一下，和其他大模型相比，Emu3的技术路线有哪些优势？

王仲远：自2020年启动“悟道”大模型研究以来，智源持续聚焦大模型的原始创新与长期技术路径探索。2024年2月，我们在内部重新做了对于下一代技术的梳理和判断，认为语言模型的技术路线已经成熟，但整个人工智能的大模型发展还远没有到尽头，只靠文字不足以理解真实物理世界中的声音、图像、时间、空间、物理规律等。人工智能大模型下一个发展阶段要能够对这些多模态数据和物理世界的数据进行理解、感知决策和交互。所以我们将多模态模型和具身智能列为智源研究院未来这些年的重点科研方向。

多模态分为理解和生成。打个比方，过去的多模态AI，就像是一个由多个专家组成的团队，有专门处理文字的语言专家，有专门画图的图像专家，还有专门做视频的剪辑师。每当有复杂任务时，需要把这些专家临时组合起来，协调成本高，效果也不稳定。

所以在战略上，我们选择了我们认为的终极技术路线，也是非常有挑战性的技术路线，这就是悟界Emu3大模型的由来。它是我们对于下一代多模态大模型技术路线的“押注”。我们选择以视频为主进行模型训练。

Emu3最核心的优势可以用一句话概括——它用了一种极其简单、统一的架构，实现了对文本、图像、视频等多种信息的理解和生成。与当前主流方案需要将擅长理解的语言模型和擅长生成的扩散模型等“拼装”在一起不同的是，Emu3仅使用一个模型、遵循一个最基础的学习原则：“预测下一个词元（token）”。无论是文本的下一个词，还是图像、视频的下一个视觉片段，都用同一个大脑（Transformer）来处理。这种架构上的极简，避免了复杂组合带来的效率损耗和性能不稳定。

这种统一路线带来了巨大的扩展潜力和更低的研发门槛。正因为架构简单，它能够充分利用现有大语言模型的成熟基础设施和训练方法。这意味着，随着数据和算力的增长，其能力可以更稳定、更可预测地提升。同时，它也简化了构建高性能多模态模型的过程，降低了技术复杂性和成本，使更多研究者和机构能够参与到前沿探索中。

Emu3实现了真正“原生”的多模态能力。模型从训练伊始，就将文本、图像、视频数据统一处理，因此能更深刻地理解不同模态之间的内在关联，并自然地完成交错生成任务，例如根据描述生成一个图文并茂的教程，而不是机械地分开处理文字和图片。

新京报：Emu3在未来应用上有何意义？

王仲远：Emu3为人工智能从数字世界迈向物理世界，构建了关键的基础。它是通向“世界模型”的重要基石。Emu3将强力赋能“具身智能”，为机器人、自动驾驶等需要与物理环境交互的智能体，提供了一个能理解复杂场景、进行时序推理和行动规划的强大“大脑”。它还将催生新一代的原生多模态助手。未来的AI助手将不仅能对话，还能基于多模态上下文直接创作图像、视频，或生成操作指令，实现前所未有的自然和高效的人机交互。

经过不断迭代，Emu3已经得到了学术界和产业界的认可。

新京报：Emu3的后续版本Emu3.5有了什么样的提升？

王仲远：Emu3.5在超过10万亿token的大规模多模态数据集上训练，视频数据训练时长从15年提升至790年，参数量从8B上升至34B。Emu3.5已经展示出通过长视频学习物理世界演变规律的能力，实现了从“预测下一个词或帧”到“预测下一个状态”的跃迁。这使得AI能够对时空、因果关系进行初步模拟，是迈向更通用智能的关键一步。

我们通过更大规模的参数，更多的数据量提升整个模型的智能化水平。事实上也证明了，Emu3.5比Emu3在各方面的能力有了大幅提升，从科研级系统达到了产品级多模态模型系统。

Emu3研发团队负责人当时仅29岁

新京报：Emu3背后的研发团队似乎都是年轻人？他们研发Emu3经历了怎样的过程？

王仲远：Emu3的研发团队非常年轻，负责人当时只有29岁。这正体现了智源研究院“青年人挑大梁”的核心理念。我们认为，AI是年轻人的事业，年轻人没有思维定式的束缚，敢于挑战传统路径，是推动颠覆性创新的关键力量。

Emu3的研发过程，堪称一场充满信念与勇气的“技术豪赌”。2024年初，当时业界多模态的主流是扩散模型和组合式架构。团队经过深入分析和激烈辩论，做出了一个高风险的选择：押注“预测下一个token”的自回归路线，并相信它能统一所有模态的学习。这是一个与当时行业焦点不同的、颇具颠覆性的想法。

2024年2月，智源集结了一支约五十人的年轻技术骨干，全力投入这条少有人走的路。他们将图像、视频与文本一样，离散化为“token”，试图用同一个模型进行端到端训练。

这个过程充满艰辛。首先是巨大的技术挑战，将信息量巨大且冗余的视觉数据有效压缩成离散token并成功训练，过程屡屡受挫。其次是承受着路径选择的压力，当时国内资源大量集中于追赶GPT-4类大语言模型，坚持这条“非主流”路线需要顶住内外的质疑。最后，还要回答一个根本问题：多模态数据究竟能否提升模型的根本智能？但团队坚信，要让AI理解并进入物理世界，它就必须“亲眼见过世界”。

最终，这群年轻人取得了突破。Emu3用媲美多种专用模型的综合性能，证明了自回归统一路线的强大可行性与扩展潜力。

新京报：面对AI人才竞争，智源如何吸引和培养顶尖学者，并支持青年科研人员勇闯人工智能“无人区”？

王仲远：智源对于人才不看资历，不看帽子，更多要看“代表作”，包括但不限于非常有影响力的学术论文，在开源社区有非常有影响力的开源项目等。在这里，非常多的项目都是由青年人才来完成的。我们现在有230人的全职研究员。这个团队包括实习生在内约有500人，研究员平均年龄只有30岁，是一支非常年轻、有闯劲的团队。

在立项上，如果青年人才有自己的技术判断和方向上的选择，我们会对项目进行评估，一旦评估通过，会直接给予非常充足的资源支持，是这些青年学者在高校难以拿到的大量算力和资金等支持。

新京报：北京瞄准世界科技前沿，布局了北京量子院、北京脑所、智源研究院等新型研发机构，提出支持建设世界一流新型研发机构，并推出了适应科研规律的改革举措，哪些举措对于推动科研成果产出起到积极作用？

王仲远：新型研发机构受益于体制机制上的创新。我们实行科研经费“包干制”，就是科研经费的自主权和使用权完全在智源研究院，除了几条规定的红线不能去使用，其他的从科研的立项到购买科研设备，再到具体实施，完全由智源研究院自己说了算。这特别像用企业化的方式来运作科研机构，但我们不需要背负企业的业务和盈利压力，使科研人员能够专注在做有价值的科研上。

这使得我们总能非常敏锐地捕捉到人工智能发展的趋势，且早于其他机构开始先期布局，也因为我们过往有非常多的成功案例，使越来越多的AI人才愿意选择智源，实现人工智能重大科技突破的梦想。

多智能体协同解决问题将是重要趋势

新京报：在今年北京两会上，你作为北京市政协委员提出了关于多智能体和具身智能相关建议。你如何预判未来AI领域的发展趋势？

王仲远：我们预判，过去的大语言模型已经进入到基座模型相对成熟，千行百业进行赋能和升级的阶段。过去一年， AI 的落地速度在加快，并且从单智能体往多智能体进行发展。

单智能体就是基于一个基座的模型训练出来完成某个具体任务的智能体，但存在较多局限。多智能体可以相互协作来完成任务，达到了真正可以落地产品级的效果。

多模态处于技术开始收敛的阶段，今年和明年会是多模态模型实现重大突破、开始逐步进入产业化的阶段。世界模型的研究和重大的突破正在酝酿当中。关于世界模型的定义和技术路线也处在没有收敛的阶段。进入到物理世界后，模型要跟硬件结合，就是具身智能。过去一年，具身智能非常火热，但距离真实使用，其稳定性、安全性、耐用性还远远不够，高质量的数据也很匮乏，我们将扎扎实实地把每个问题解决，推动具身智能行稳致远。

新京报记者张璐

编辑白爽校对付春愔