![](http://n.sinaimg.cn/spider20250118/232/w660h372/20250118/25bf-40cd5ac1f17155f572b208d95281cf5b.jpg)
出品 | 虎嗅科技组
作者 | 王欣
编辑 | 苗正卿
头图 |电影《赌神》
MiniMax有点“变味儿”了?
此前,凭借海螺AI等C端产品在海外爆火的大模型厂商MiniMax,近期打出了一张“技术牌”。
1月15日,他们发布并开源新一代01系列模型(基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01)。值得注意的是,得益于创新性地大规模引入线性注意力机制,01系列模型支持最多400万个token的上下文输入。这是MiniMax在基于MoE架构的abab系列文本模型上的再度创新。
亮出底牌,似乎也回应了当下对大模型公司们的“灵魂拷问”——究竟做不做预训练?还追不追求AGI?
“这个模型的结构是独特、创新的,只能是靠自己预训练来的。”MiniMax这样对虎嗅表示。换言之,MiniMax目前依然坚持预训练的投入。
MiniMax向虎嗅透露,未来他们的技术迭代方向为:“短期来看,把复杂coding的基础能力逐渐完善;长期来说,我们把包含多模态的agent能力做好。”
而回到MiniMax出发的原点,在2021年9月MiniMax成立前的白板前,创始人闫俊杰就清晰地列下了未来的愿景:下一代AI、接近图灵测试的智能体、智能创造极致体验。为了让员工有更具像化的感受,他还在当场与《底特律·变人》、“贾维斯”等经典IP作为对比。
即便三年后,Scaling Law 撞墙、AGI信仰面临重构,但闫俊杰坚信MiniMax会一直在浪潮中,并把技术迭代作为最重要的目标。。
实际上,虽然最初凭借Glow、星野等C端产品出圈,但MiniMax团队素来认为自己的的技术底色浓重。
此前虎嗅与MiniMax交流时,对方就强调“对我们公司来讲,我们肯定是先做技术上的东西。技术模型能够提供什么样的能力,我们再看自己的产品可不可以调整。如果实在调整不了,那有可能会有新的APP出来。”
而更重要的是,他们认为“通用基础大模型才是这一波大模型浪潮的王道。”
因此不难理解,在其他友商选择追求现实主义路线、转投新赛道时,MiniMax却选择继续重投基础模型架构的创新。
曾经,AI学术界不断迭代升级的技术路线就像接力赛,每隔一年或半年总会有更好的模型涌现。1998年,杨立昆提出了多层CNN卷积神经网络;2016年,最流行的是RNN循环神经网络的变种——LSTM;半年后,与其对标的Transformer横空出世。然而,人们预想的能够颠覆Transformer架构的新模型并没有出现。
而Transformer架构的局限性也满足不了一些应用场景的要求——例如,在生成长文本时,传统Transformer架构可能会丧失上下文的连贯性,尤其是当输入文本较长且模型只关注局部上下文时。生成的文本可能缺乏一致性,或者前后内容有明显的脱节,无法满足一些对文本连贯性要求较高的应用场景,比如对长上下文能力与多模态处理能力要求较高的Agent场景。
因此,MiniMax引入了线性注意力机制,这有利于解决传统Transformer架构下长文本计算复杂度高、上下文理解受限、内存消耗大的问题。通过这一架构创新,他们实现了400万token的上下文处理能力。作为对比,此前GPT-4o、Claude-3.5-Sonnet的相关能力大约在100k水平左右。
受益于Linear Attention层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,使得01系列模型定价也被团队视为竞争力之一——标准定价是输入token 1元/百万token,输出token 8元/百万token。这里我们可以以Deepseek v3的定价对比,Deepseek v3 API 服务定价为,输入2 元 / 百万token,输出8 元/ 百万token。
相对而言,DeepSeek的新架构降低成本上表现突出,并且主要面向大集群训练、部署服务,用云提供用户服务的极致优化。而MiniMax的新架构,在超长文本输入方面表现优异,在400万的大海捞针任务(测试超长文本的任务)表现中取得全绿结果。
MiniMax观察到,“未来一年潜在Agent相关应用即将爆发,而Agent需要越来越长的context”,因此MiniMax在Github上开源了Text-01模型和VL-01模型的完整权重,在海外受到了硅谷研究员、从业者的关注。他们认为这将吸引大量的开发者和研究人员进行二次开发和创新,进一步拓展模型的应用场景和功能。
MiniMax的slogan是与用户共创智能。
虽然MiniMax认为“不是用户越多,模型能力就提升越快”,但据MiniMax介绍“他们是国内日处理量、交互时长最高的大模型公司。”随着产品矩阵的完善,早在去年8月时,MiniMax大模型每日与全球用户的交互次数达到了30亿次。
技术驱动,以模型技术能力边界调整产品方向的路线,贯穿MiniMax的始终。
这里可以以MiniMax的产品更迭为例,MiniMax每代产品和功能的推出背后,都吻合了当时的模型能力边界。
彼时,大模型普遍面临幻觉严重的问题,在这一瓶颈下,AI社区类APP无疑是当时AI to C产品炙手可热的方向。据Sensor Tower数据显示,自发布以来,海外版星野Talkie一直位居全球AI应用下载量的前3名。
随着模型能力提升,使得AI生产力成为可能,MiniMax推出了工具类产品海螺AI,并将其作为公司重点发力的产品。
MiniMax也早早押注了多模态赛道。2024年8月份,MiniMax发布了视频模型abab-video-1、音乐模型abab-music-1,同时在海螺AI上线。据MiniMax介绍,视频模型上线后五周,海螺AI网页版访问量增速超800%。
除C端应用外,MiniMax也在探索B端应用,面向企业客户提供大模型应用解决方案。MiniMax开放平台主要提供API服务,支持的行业场景涵盖了办公协作、智能制造、数字经济、医疗、客服、智能网联。他们在算力层的部署达到了万卡级算力池。据MiniMax介绍,开放平台在国内拥有超40000家企业与开发者用户,并在海外20余个国家实现业务落地。
而最新推出的01系列模型,也已经应用于海螺AI,MiniMax也观察到,在模型应用于海螺AI后,“赋予了海螺AI更强的通用能力,包括长文的理解和创作等。”
除此之外,MiniMax-01也在开放平台也同步上线,方便开发者和企业集成到自己的系统中。
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
APP专享直播
热门推荐
法国小伙带622张日军侵华照片抵达北京,希望捐赠给中国 收起法国小伙带622张日军侵华照片抵达北京,希望捐赠给中国
- 2025年02月16日
- 13:38
- APP专享
- 扒圈小记
21,978
人民热评:重庆燃气事件,不要每次都以道歉收场
- 2025年02月16日
- 13:58
- APP专享
- 扒圈小记
6,468
重庆燃气道歉:针对燃气收费问题已派驻整改督导专班
- 2025年02月16日
- 09:51
- APP专享
- 北京时间
3,018
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 11:00:54
岭南股份(sz002717)发布股价异动公告称,公司注意到网络上存在有关“公司和腾讯在人工智能、智慧文旅等领域合作”的诸多传闻。公司与腾讯之间的合作尚未取得实质性进展,也未有具体合作项目落地实施。 -
趋势领涨今天 10:56:20
最后两天!!!最后两天!!!最后两天!!!【“惠“聚元宵】乐享头彩!即日起《潜伏擒牛》VIP课程全场六折,半年VIP课程低至881元/月;更有月课1088元/月,季课6折3088元/三个月。活动过后价格会提升,切勿错过!加入至尊擒牛VIP:享四大顶级服务 【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每日一份高端内部绝密文章:包含明日布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!赶紧戳,直接购买:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 09:52:39
光线传媒(sz300251)今日高开低走大幅收跌,全天振幅近40%,天量成交超223亿元,换手率超24%。盘后数据显示,买方五个席位均为东财活跃营业部,合计买入达8.84亿元;一机构净卖出3.3亿元,深股通净卖出2.61亿元。 -
数字江恩今天 09:52:01
在c的延伸过程中,这样的个股热点还会持续不断,直至c的完成,这个时间点应该在本周。但只要未能确认c延伸结构的破坏,大盘就依然允许新高,个股也允许发挥。 -
数字江恩今天 09:51:56
看5分钟图,大盘一直处于3140反弹abc的c延伸结构之中。目前出现了图上的两个白色方框,第一个宽度30个点,第二个宽度为40个点,c目前就靠这样反复震荡向上延伸,只要第二个方框不跌破,这个延伸就还未结束。反过来说也可以,第二个方框跌破,则c确立结束。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:51:43
板块来看,ai医疗持续向上,国产算力、云、ai应用都继续表现,农林牧渔今日也表现不错。而前面持续表现的影视动漫,今天则迎来了大幅回调,周末消息发酵的金融类,今天表现也不如人意 -
数字江恩今天 09:51:39
A股两市今日成交7501 + 11914 = 19415 亿人民币,属于持续温和放量。大盘今天先震荡回踩,然后尾盘拉回,总的来说在一个不到30点的窄幅区间震荡了一个W型分时结构,收涨9个点。个股方面,约70%的个股收红。 -
数字江恩今天 09:51:34
煎熬和享受都是延伸 -
北京红竹今天 09:38:54
3、1.94万亿全天成交额将近两万亿,配合上缠论的方向,后面的吃肉行情还会继续,只是要掌握好节奏,而且还不能格局。为啥不能格局?反正我持有的品种只要大涨我就卖,因为量化都是这么干的,大涨就卖,咱手动操作干不过它,等量化卖往下砸,还不如我主动大涨就卖呢。但这么大的成交额活跃度没问题,反复的跟量化对着干就行了。目前新的方向没有出现,而且资金已经明牌,就是高低切换,那就跟随市场切滞涨的DS、人形机器人(sz300024)和铜缆就好。 -
北京红竹今天 09:38:48
2、不追高春节回来之后市场很疯狂,虽然指数没有怎么大涨,但赚钱效应很高涨。恒生科技指数更是率先反转,晚上在直播间跟红竹聊天的同学,恒生科技吃了一大口肉。而沪指本周,红竹的第六感告诉我,要有一波洗盘,就在周二三之后。当然了,第六感不能当饭吃,交易上谨慎点就行了,别追高就行。缠论结构上,恒生科技指数和创业板都有防守线了,不破反弹还会继续,跌破咱就小心点洗盘。沪指我从上周就在等五分钟级别三买,到今天都没有出现。客观上要么盯好恒生科技指数和创业板的防守线,跌破就防守下,要么就等着沪指的防守线出现。