蓝驰家族头条｜Kimi 联合清华大学等机构，开源共建大模型推理架构 Mooncake_新浪科技

来源：蓝驰创投

在大模型时代，更多的数据、更大的模型、更长的上下文窗口带来更高的智能，但也对大模型推理系统的效率提出更高挑战。如何应对高推理负载、降低推理成本、降低响应延迟成为业界共同面临的难题。

2024年6月，月之暗面Kimi和清华大学MADSys 实验室联合发布了Kimi底层的Mooncake推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构，大幅度提升了推理吞吐，受到业界广泛关注。

近日，为了进一步加速该技术框架的应用与推广，月之暗面Kimi和清华大学MADSys实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目Mooncake，共建以KVCache为中心的大模型推理架构。11月28日，Mooncake技术框架已正式开源上线。https://github.com/kvcache-ai/ Mooncake

蓝驰创投是月之暗面的早期投资人，并在其后持续加注支持。

Mooncake 推理系统架构图

Mooncake 开源项目从论文延伸，以超大规模KV Cache缓存池为中心，通过以存换算的创新理念大幅度减少算力开销，显著提升了推理吞吐量。本次开源将采用分阶段的方式，逐步开源高性能KV Cache多级缓存Mooncake Store的实现，同时针对各类推理引擎和底层存储/传输资源进行兼容。其中传输引擎 Transfer Engine 部分现在已经在Git-Hub全球开源。Mooncake 开源项目的最终目标是，为大模型时代打造一种新型高性能内存语义存储的标准接口，并提供参考实现方案。

月之暗面 Kimi 工程副总裁许欣然表示：“通过与清华大学MADSys 实验室紧密合作，我们共同打造了分离式大模型推理架构 Mooncake，实现推理资源的极致优化。Mooncake不仅提升了Kimi的用户体验，降低了成本，还为处理长文本和高并发需求提供了有效的解决方案。我们相信，通过与产学研机构开源合作，可以推动整个行业向更高效的推理平台方向发展。”

欢迎更多企业和研究机构加入 Mooncake 项目共建，共同探索更加高效和先进的模型推理系统架构创新，让基于大模型技术的AI助手等产品，持续惠及更广泛人群。