【动态】重磅!上海基础大模型MiniMax首次开源

【动态】重磅!上海基础大模型MiniMax首次开源
2025年01月15日 19:01 网信上海

1月15日,上海基础大模型企业上海稀宇科技有限公司(以下简称“MiniMax”)正式发布了全新MiniMax-01系列模型,并开源了MiniMax-o1系列两个模型的完整权重,以促进技术创新、加速应用落地、实现开放合作、弥合智能鸿沟。该系列包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01(论文链接附后)。

模型特点

全新模型架构

在MiniMax-01系列模型中,MiniMax首次大规模实现线性注意力机制,探索新型模型架构。该模型参数量达到4560亿,其中单次激活参数量为459亿,综合性能与国际领先模型相当,能够高效处理400万token上下文,达到GPT-4o的32倍、Claude-3.5-Sonnet的20倍。

超长上下文

业界判断,2025年是AI Agent高速发展的一年。无论是单Agent系统对持续记忆的需求,还是多Agent系统中Agent间的高频通信交互,均对长上下文处理能力提出了更高要求。MiniMax-01系列模型在该领域迈出重要一步,为构建复杂Agent系统奠定了基础。

超高性价比

依托架构创新、效率优化、集群训推一体设计及并发算力复用等技术优势,MiniMax-01系列模型能以极具竞争力的价格提供文本与多模态理解API服务(当前标准定价:输入Token 1元/百万token,输出Token 8元/百万token)。开发者可通过MiniMax 开放平台体验并使用(相关资源链接附后)。

性能国际领先

于架构创新,MiniMax-01 系列模型可高效处理长输入,接近线性复杂度,如下图所示:

技术解构

MiniMax-01 系列模型采用了一种创新的混合结构设计。每8层结构中包含7层基于Lightning Attention的线性注意力机制,以及1层传统的SoftMax注意力机制。

MiniMax实现业内首次将线性注意力机制扩展至商用模型规模,在Scaling Law、与MoE(混合专家系统)的结合、结构设计、训练优化和推理优化等方面进行了综合规划。作为业内首个以线性注意力为核心的模型,MiniMax对训练和推理系统进行了深度重构,包括优化MoE All-to-all通讯机制、提升长序列处理能力,以及推理层面线性注意力的高效Kernel实现。

模型评测

在多项学术集中,MiniMax-01 系列模型表现达到国际领先水平,与海外第一梯队的结果相当:

在长上下文的测评集上,MiniMax-01 系列模型的表现显著优于其他对比模型:

MiniMax-01系列模型在400万的大海捞针测试检索任务(Needle-In-A-Haystack)上全绿,表明模型可以精准定位超长背景信息中任何位置的任何信息,体现出该模型在处理超长序列时的卓越能力:

除学术数据集外,MiniMax构建了基于真实数据的助手场景中的测试集。在该场景中,MiniMax-Text-01的模型表现显著优于其他对比模型:

在多模态理解的测试集中,MiniMax-VL-01模型表现优于多数对比模型(如下图所示):

MiniMax-o1系列模型权重下载地址:

https://github.com/MiniMax-AI

论文链接:

https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

MiniMax开放平台:

https://www.minimaxi.com/platform

MiniMax开放平台海外版:

https://www.minimaxi.com/en/platform

企业及专家观点不代表官方立场
上海市注意力
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

0条评论|0人参与网友评论
最热评论
--------

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片