【动态】重磅！上海基础大模型MiniMax首次开源|上海市|注意力_新浪科技

1月15日，上海基础大模型企业上海稀宇科技有限公司（以下简称“MiniMax”）正式发布了全新MiniMax-01系列模型，并开源了MiniMax-o1系列两个模型的完整权重，以促进技术创新、加速应用落地、实现开放合作、弥合智能鸿沟。该系列包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01（论文链接附后）。

模型特点

全新模型架构

在MiniMax-01系列模型中，MiniMax首次大规模实现线性注意力机制，探索新型模型架构。该模型参数量达到4560亿，其中单次激活参数量为459亿，综合性能与国际领先模型相当，能够高效处理400万token上下文，达到GPT-4o的32倍、Claude-3.5-Sonnet的20倍。

超长上下文

业界判断，2025年是AI Agent高速发展的一年。无论是单Agent系统对持续记忆的需求，还是多Agent系统中Agent间的高频通信交互，均对长上下文处理能力提出了更高要求。MiniMax-01系列模型在该领域迈出重要一步，为构建复杂Agent系统奠定了基础。

超高性价比

依托架构创新、效率优化、集群训推一体设计及并发算力复用等技术优势，MiniMax-01系列模型能以极具竞争力的价格提供文本与多模态理解API服务（当前标准定价：输入Token 1元/百万token，输出Token 8元/百万token）。开发者可通过MiniMax 开放平台体验并使用（相关资源链接附后）。

性能国际领先

基于架构创新，MiniMax-01 系列模型可高效处理长输入，接近线性复杂度，如下图所示：

技术解构

MiniMax-01 系列模型采用了一种创新的混合结构设计。每8层结构中包含7层基于Lightning Attention的线性注意力机制，以及1层传统的SoftMax注意力机制。

MiniMax实现业内首次将线性注意力机制扩展至商用模型规模，在Scaling Law、与MoE（混合专家系统）的结合、结构设计、训练优化和推理优化等方面进行了综合规划。作为业内首个以线性注意力为核心的模型，MiniMax对训练和推理系统进行了深度重构，包括优化MoE All-to-all通讯机制、提升长序列处理能力，以及推理层面线性注意力的高效Kernel实现。

模型评测

在多项学术集中，MiniMax-01 系列模型表现达到国际领先水平，与海外第一梯队的结果相当：