Kimi如何避免服务宕机?郑纬民院士揭秘:以存换算

Kimi如何避免服务宕机?郑纬民院士揭秘:以存换算
2024年12月12日 15:44 新浪科技

  新浪科技讯 12月12日下午消息,在2024大模型技术与应用创新论坛上,中国工程院院士、清华大学计算机系教授郑纬民在分享中提及了月之暗面kimi对话AI产品避免大量用户涌入导致服务宕机背后的技术原理——以存换算。

  据郑纬民介绍,保障kimi对话AI流畅运行背后的大模型推理框架,名为Mooncake,是一项叫做清华大学与月之暗面共同研发的推理系统方案。

  郑纬民指出,Kimi研发遵循的基本原则是:数据更多、模型更大、更长的上下文窗口,肯定会带来更好的效果。因为kimi支持200万字的上下文,效果很好,很多人都喜欢用它。

  但是,在Kimi推出初期,遇到访问过大服务宕机采用的应对策略便是买算力卡,但买了五次卡还是死机,并不能彻底解决问题。其背后的原因是,更高的推理负载意味着要买更多的推理卡,但推理卡多了存储器也会不够,用的人多了,问题也就大了。

  据郑纬民介绍,最后月之暗面与清华大学开发了Mooncake技术框架,通过将不同用户与Kimi对话的公共内容提炼出来,存储下来,遇到下次用户再提问的时候直接读取回复,减少了每次用户提问都要重新生成的过程,节省了许多算力卡,之后Mooncake就没有再死过机。

  “把存储器好好用,也可以省很多卡。”郑纬民表示。(文猛)

海量资讯、精准解读,尽在新浪财经APP

责任编辑:王若云

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 12-20 天和磁材 603072 --
  • 12-19 国货航 001391 --
  • 12-13 中力股份 603194 20.32
  • 12-10 林泰新材 920106 19.82
  • 12-09 博科测试 301598 38.46
  • 新浪首页 语音播报 相关新闻 返回顶部