1月15日,上海基础大模型企业上海稀宇科技有限公司(以下简称“MiniMax”)正式发布了全新MiniMax-01系列模型,并开源了MiniMax-o1系列两个模型的完整权重,以促进技术创新、加速应用落地、实现开放合作、弥合智能鸿沟。该系列包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01(论文链接附后)。
模型特点
全新模型架构
在MiniMax-01系列模型中,MiniMax首次大规模实现线性注意力机制,探索新型模型架构。该模型参数量达到4560亿,其中单次激活参数量为459亿,综合性能与国际领先模型相当,能够高效处理400万token上下文,达到GPT-4o的32倍、Claude-3.5-Sonnet的20倍。
超长上下文
业界判断,2025年是AI Agent高速发展的一年。无论是单Agent系统对持续记忆的需求,还是多Agent系统中Agent间的高频通信交互,均对长上下文处理能力提出了更高要求。MiniMax-01系列模型在该领域迈出重要一步,为构建复杂Agent系统奠定了基础。
超高性价比
依托架构创新、效率优化、集群训推一体设计及并发算力复用等技术优势,MiniMax-01系列模型能以极具竞争力的价格提供文本与多模态理解API服务(当前标准定价:输入Token 1元/百万token,输出Token 8元/百万token)。开发者可通过MiniMax 开放平台体验并使用(相关资源链接附后)。
性能国际领先
基于架构创新,MiniMax-01 系列模型可高效处理长输入,接近线性复杂度,如下图所示:
技术解构
MiniMax-01 系列模型采用了一种创新的混合结构设计。每8层结构中包含7层基于Lightning Attention的线性注意力机制,以及1层传统的SoftMax注意力机制。
MiniMax实现业内首次将线性注意力机制扩展至商用模型规模,在Scaling Law、与MoE(混合专家系统)的结合、结构设计、训练优化和推理优化等方面进行了综合规划。作为业内首个以线性注意力为核心的模型,MiniMax对训练和推理系统进行了深度重构,包括优化MoE All-to-all通讯机制、提升长序列处理能力,以及推理层面线性注意力的高效Kernel实现。
模型评测
在多项学术集中,MiniMax-01 系列模型表现达到国际领先水平,与海外第一梯队的结果相当:
在长上下文的测评集上,MiniMax-01 系列模型的表现显著优于其他对比模型:
MiniMax-01系列模型在400万的大海捞针测试检索任务(Needle-In-A-Haystack)上全绿,表明模型可以精准定位超长背景信息中任何位置的任何信息,体现出该模型在处理超长序列时的卓越能力:
除学术数据集外,MiniMax构建了基于真实数据的助手场景中的测试集。在该场景中,MiniMax-Text-01的模型表现显著优于其他对比模型:
在多模态理解的测试集中,MiniMax-VL-01模型表现优于多数对比模型(如下图所示):
MiniMax-o1系列模型权重下载地址:
https://github.com/MiniMax-AI
论文链接:
https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
MiniMax开放平台:
https://www.minimaxi.com/platform
MiniMax开放平台海外版:
https://www.minimaxi.com/en/platform
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)