大厂围剿，“长文本”成不了Kimi的护城河_新浪科技

文|新火种一号
编辑|美美

长文本之后，Kimi能找到新的“护城河”吗？

过去的一周，由AI技术天才杨植麟的大模型初创企业月之暗面及其产品Kimi所带来的连锁反应，从社交媒体一路冲向了A股，带动了一批“Kimi概念股”的大涨。这也是国内AI创业公司第一次真正意义上的“破圈”。

资本市场的关注，也让Kimi迎来了用户量的飙升，根据“AI产品榜（aicpb.com）”的数据，Kimi智能助手在2024年2月份的访问量达到了305万，比上个月增长了107.6%，3月8日至3月14日的周访问量更是达到了183万，环比增加了45%。流量的激增，也让Kimi在3月20日出现了宕机等异常现象。

而这一次的爆火始于3月18日，月之暗面宣布其自研的Kimi智能助手在大模型上下文窗口技术上取得了新的突破，已支持200万字超长无损上下文，并即日起开始产品内测。我们不禁要问，大模型能力这么多，为何长文本会成为引爆点？

对于大模型的长文本的能力，月之暗面的创始人杨植麟把它解读为“新计算范式”，并认为通用的世界模型，是需要“长文本”的。

想象一下，如果你把一个大模型当做一个和你对话的人，它跟我们一样，有短期记忆和长期记忆。而长期记忆就是它通过模型训练得到的向量和参数，你可以把这当成它的知识库。而上下文就是它的短期记忆，当你在和它对话的时候，你们之间的对话内容就是以上下文窗口的形式提供给了大模型，要是你们的对话长度超过了这个它的上下文承载能力，那么超出的部分，大模型就会忘记。这从根本上就限制了大模型处理一些复杂多变的任务的可能。

为了让大模型能够完成更多的任务，或者说让它不会在跟你对话过程中突然就没办法跟你继续对话下去了的问题，拓展上下文就成了一件必须解决的事情。也只有这样，AI才能在面对一些描述非常复杂，需要举例帮助模型进行学习等的任务上表现得更好。如果以AGI为目标，那上下文长度的突破更是必须的。

而从市场上看，当前使用大语言模型的大多数人群，无论是泛科技行业，还是从业者、爱好者或者学生，解读论文、深度研报还有会议摘要等这些明确的应用场景，长文本能力都是刚需。因此，OpenAI的开发者关系经历Logan Kilpatrick就曾经说过，“上下文就是大语言模型的下一个关键突破”。

很明显，月之暗面“登月”的第一步，从用户需求的角度上来讲，肯定是迈对了。早在2023年10月，Kimi刚刚上线的时候，它就以一个很有辨识度的方式进行了亮相。他们在官宣文章的标题上，别出心裁地用了“欢迎与Moonshot AI共同开启Looooooooooong LLM时代”，通过加了很多个“o”的long，从视觉上就让人印象深刻，明白这个大模型与“长”相关，然后文章的第一句就是“今天，Moonshot AI 带着首个支持输入 20 万汉字的智能助手产品Kimi Chat 与大家见面了”。

这些宣发内容，都让人能够很快地将“长文本”和Kimi之间构建起联系，通过这样的营销方式，月之暗面轻松地占领了用户心智，从此要是聊起“长文本”，“月之暗面”就成了一个很容易被提到的公司。

在当时不停“卷”的大模型市场上，新模型不断冒出，而绝大部分的模型介绍都有这么一套标准动作：公布模型参数、模型是开源还是封闭的、公布测试集成绩，体现自己成绩有多好，然后就是一些业内人士的介绍或评测文章。

虽然数据清晰，但如果是面向大众市场，显然这些晦涩难懂的参数和技术词语，只能是自嗨，远不及一个直白的特点更让人印象深刻。因此月之暗面用这样的具有辨识度的方式，很轻松地就从一众大模型中脱颖而出，轻松地赢得了普通用户的心。

而且在后续的宣发中，月之暗面也在不断重复和强调kimi的长文本能力，直到最近，它所做的突破也是在长文本这个能力上。因此，当用户将长文本=Kimi的时候，除非竞争对手拥有碾压级的实力，否则都很难威胁到Kimi在用户心中的地位。

但“长文本”真的能保Kimi永久平安吗？

同样在长文本上做文章的，在海外，还有一家名为Antropic的公司。作为被公认的OpenAI最强大的对手，他们的大模型Claude的杀手锏就是长文本。在其初代模型推出时，就支持100k token的上下文，可以直接处理5万字，这也让它一直在整体性能劣于OpenAI的情况下，也能保有一群核心粉丝。

然而这种优势也并未能保持太久。去年11月，OpenAI在Dev Day上发布了GPT-4 Turbo，支持128k的上下文，这让Antropic陷入了危机，不得不紧急推出Claude 2.1，将上下文从100k提升到了200k。但后来被人进行了探针测试，显示它只是支持了这样的长度，但并未记住其中的内容，使得它紧急打了补丁。而这个补丁，仅仅只是一句Prompt。

今年2月，谷歌的Gemini 1.5则直接将上下文推到了100万。种种迹象都表明，长文本能力的“护城河”已经在变浅。就在前段时间，Antropic号称超越GPT-4的“世界最强大模型”Claude 3也放弃了在长文本上开卷，依然只支持200k的上下文，转而在其他能力上进行了升级。

同样，在国内，Kimi爆火之后，“长文本”的需求也被大厂看到了。很快，阿里巴巴宣布通义千问重磅升级，向所有人免费开放1000万字的长文档处理功能，成为了全球文档处理容量第一的AI应用；紧接着，百度的文心一言将在下个月开放200万-500万字的长文本能力；360智脑也正式内测500字长文本处理能力。