100天后，阶跃星辰交出了第二份答卷_新浪科技

今年 3 月，「借着」 2024 全球开发者先锋大会的场子，「国内最后一家通用大模型公司」——阶跃星辰发布了 Step 系列通用大模型，包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型以及 Step-2 万亿参数 MoE 语言大模型预览版，正式进入大众视野，并成功跻身国内六大大模型独角兽行列。

另外五家分别是月之暗面、智谱、MiniMax、百川、零一万物。

当时雷峰网就报道过，阶跃星辰给外界的第一印象是低调、神秘，虽然早在 2023 年就成立，但出现在公众视野的也只有微软出身的 CEO 姜大昕，对于团队核心成员、技术进展、产品研发等信息，外界一概不知。直到临近一周年之际，正式提交第一份成绩单的时候，一切才浮出水面。

当然，这一份成绩很是亮眼，一举将国内大模型卷到万亿参数赛道（预览版）。可即便如此，阶跃星辰依旧低调。

进入 2024 年以来，大模型行业的热闹明显更为多样化，大模型落地应用的主旋律下，行业模型、端侧模型变热；世界模拟器 Sora 的亮相，引爆多模态大模型的流行；走得更早更靠前的 OpenAI 迟迟没有将 GPT-5 公之于众，发布的 GPT-4o，虽然有强大交互能力，但也未能化解大众对其技术进化速度放缓的质疑、失望……

围绕「技术信仰派」VS「市场信仰派」、「模型做大」VS「模型做小」、「Scaling Law 是不是第一性原理」等话题，各路大儒「辩经」不止……

仔细看，阶跃星辰的声音似乎很少。

为此，当雷峰网得知阶跃星辰也将出席此次的 WAIC 时，充满期待、好奇，希望探究一下阶跃星辰是如何看待当下关于 AGI 的各种共识与非共识问题。

不过没想到的是，这次「借着」 WAIC 的场子，阶跃星辰又交出了第二份答卷——发布 Step-2 万亿 MoE 语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

而此次的产品升级，距离上次仅仅过去 100 天。

将国内大模型升级到「万亿参数时代」的Step-2长啥样

3 个多月前，当阶跃星辰宣布 Step-2 万亿参数 MoE 语言大模型预览版的时候，大家很是好奇，想一览其真实面目。而今天，在 WAIC 大会现场，吊足了大家胃口的 Step-2 万亿参数 MoE 语言大模型正式版亮相了，它采用当前热门的 MoE （Mixture of Experts）架构，又称「混合专家」，是一种模块化的稀疏激活，可以让模型在增大参数规模的同时，计算成本远低于相同参数规模下的稠密模型，实现高效训练。

目前，在通往 AGI 的道路上，业界大多数人坚信 Scaling Law 定律——模型越大，性能越强，阶跃星辰也是其中一家。但是现实问题是，模型的升级迭代离不开算力的支撑，而算力的不足和匮乏，显然是当下业界为数不多的共识之一。

因此，在意识到 MoE 可以解决这一难题时，一些大模型从业者相继推出基于 MoE 架构的大模型，比如国外的Mistral AI、 xAI，国内的 MiniMax、元象科技、DeepSeek AI、阶跃星辰等。而阶跃星辰是其中少有的、早早将 MoE 架构用在万亿参数规模大模型的玩家。

姜大昕告诉雷峰网(公众号：雷峰网)，阶跃星辰在完成 Step 系列千亿模型的训练后，就开始开始训练万亿模型。而想把模型参数扩大到万亿的话，MoE 几乎是一个必选项。「就像做科研或者做工程，很多决策就是各个维度之间的最佳平衡，MoE 也是在性能、参数量、训练成本、推理成本这些维度权衡下的最佳选择。」

而在设计 Step-2 MoE 架构的过程中，阶跃星辰还对算法架构进行了创新。

具体而言，当前 MoE 模型的训练方式主要有两种，一种是基于已有模型通过 upcycle（向上复用）开始训练，即将一个已经训练好的大模型的前馈神经网络权重复制若干份，每一份作为一个 expert（专家），组合后就可以把一个非 MoE 模型变成 MoE 模型，参数量增大的同时，算力需求会小几个量级，训练效率高。但弊端是上限低，基于拷贝复制得到的 MoE 模型容易造成专家同质化严重。

另一种是从头开始训练，很显然，缺点在于训练难度高，但优势是能够获得更高的模型上限。

而阶跃星辰的选择是完全自主研发从头开始训练，通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计，让 Step-2 中的每个“专家模型”都得到充分训练。结果就是不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了当前市面上的大部分 Dense 模型。

此外，在 Step-2 训练过程中，阶跃星辰系统团队还突破了 6D 并行、极致显存管理、完全自动化运维等关键技术，让整体的训练过程更为高效。

据阶跃星辰透露，目前，Step-2 万亿参数 MoE 语言大模型在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近 GPT-4。

此次，除了 Step-2 万亿参数 MoE 语言大模型，阶跃星辰还发布了 Step-1.5V 多模态大模型，在多模理解和生成统一的技术路线上实现了快速突破。

在理解上，相较于此前的 Step-1V 多模态大模型， Step-1.5V 的优势主要体现在三个方面。

一是感知能力全面提升，创新图文混排训练方法；能够理解复杂图表、流程图、准确感知物理空间复杂的几何位置；能够处理高分辨率和极限长宽比的图像。二是基于最新的 Step-2 万亿参数模型当老师，推理能力大幅提升，能够根据图像内容进行各类高级推理任务，如解答数学题、编写代码、创作诗歌等。三是具备出色的视频理解能力，不仅能够准确识别视频中的物体、人物和环境，还能够理解视频的整体氛围和人物情绪。

在生成上，阶跃星辰发布 Step-1X 图像生成大模型，全链路自研的 DiT（Diffusion Models with transformer）模型架构，可支持 600M、2B 和 8B 三种不同的参数量；具备更好的文本 prompt 和生成图片的语义对齐能力、指令跟随能力。另外，该模型还支持针对中国元素的深度优化，使生成内容更适合国人的审美风格。

比如，阶跃星辰在会场展示的「AI+大闹天宫」现场互动，游戏背后调用了多个阶跃星辰自研的 Step 系列大模型，融合了图像理解、风格迁移、图像生成、剧情创作等多种能力，丰富立体地展现了阶跃星辰行业领先的多模态水平。

动画片《大闹天宫》大家一定很熟悉，而今年正是《大闹天宫》制作完成 60 周年之际。

因此，在这一具有重要纪念意义的时刻，阶跃星辰团队联合上影推出了「AI+大闹天宫」这一款 AI 互动体验产品，试图将最先进的 AIGC 和大模型技术与《大闹天宫》情境深度融合，用当代的全新视角来展现中国传统文化的魅力、回顾经典动画作品的艺术成就，同时也为广大创作者打开更为广阔的想象空间、创作空间。

具体而言，在互动过中，用户需要上传一张个人照片，基于大模型生成的剧情选择角色，并与之交谈，算法会识别照片的特征，然后结合《大闹天宫》的画风和角色进行风格迁移生成新的肖像。同时，还将根据用户的选择和回答进一步分析用户的「MBTI」人格，给用户在天庭「安排」一个差事。

整体交互过程好玩有趣，且极具个性化，吸引了现场大量观众的参与互动。

感兴趣的朋友，可以扫描下方图片二维码参与互动体验，「测测你是哪路神仙」。