大模型推理架构Mooncake开源

大模型推理架构Mooncake开源
2024年11月28日 14:56 中关村在线

中关村在线11月28日消息,月之暗面Kimi和清华大学MADSys实验室联合9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目Mooncake,共建以KVCache为中心的大模型推理架。

据悉,Mooncake技术框架今日已正式开源上线。

资料显示,Mooncake是Kimi的服务平台,Kimi是月之暗面公司提供的一项LLM服务。它采用以K-V Cache为中心的分解式架构,将预填充和解码cluster分开。它还利用GPU cluster中未充分利用的CPU、DRAM和SSD资源来实现K-V Cache的分解式缓存。

Mooncake的核心是以K-V Cache为中心的调度程序,在最大化整体有效吞吐量和满足与延迟相关的服务级目标(SLO)之间取得平衡。

与假设所有请求都将被处理的传统研究不同,Mooncake面临着高度超载场景带来的挑战。为了缓解这些问题,开发一种基于预测的早期放弃(early rejection)策略。实验表明,Mooncake在长上下文场景中表现出色。

月之暗面相信,通过与产学研机构的开源合作,可以推动整个行业向更高效的推理平台方向发展,并邀请更多企业和研究机构加入Mooncake项目共建,共同探索更高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品惠及更广泛人群。

(9226434)

海量资讯、精准解读,尽在新浪财经APP
推理 Cache

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 12-06 蓝宇股份 301585 --
  • 12-02 先锋精科 688605 11.29
  • 11-29 博苑股份 301617 27.76
  • 11-26 科隆新材 920098 14
  • 11-25 佳驰科技 688708 27.08
  • 新浪首页 语音播报 相关新闻 返回顶部