蚂蚁携手人大！发布行业首个原生MoE扩散语言模型_新浪财经

　　新浪科技讯 9月12日上午消息，在2025Inclusion·外滩大会上，蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型（dLLM）“LLaDA-MoE”。

　　据介绍，这款新模型通过非自回归的掩码扩散机制，首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能（如上下文学习、指令遵循、代码和数学推理等），挑战了“语言模型必须自回归”的主流认知。

　　实现数据显示，LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型，接近或超越了自回归模型 Qwen2.5-3B-Instruct，仅激活 1.4B 参数即可实现等效3B稠密模型的性能。

　　据了解，蚂蚁与人大团队攻关 3个月，在LLaDA-1.0基础上重写训练代码，并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术，基于蚂蚁Ling2.0基础模型的训练数据，在负载均衡、噪声采样漂移等核心难题上取得突破，最终采用 7B-A1B（总7B、激活1.4B）的MOE架构完成约 20T 数据的高效训练。（罗宁）