月之暗面：一年前就验证过长思维链，因成本高先搞了长文本_新浪科技

2 月 18 日上午消息，月之暗面研究员 Flood Sung 近日分享了 k1.5 模型背后的完整思考过程，并透露称，2024 年 9 月 12 号 OpenAI o1 发布带来的震撼效果，令自己陷入了 Long-CoT 的有效性反思中。因为 Long-CoT 的有效性，其实在一年多前月之暗面 Kimi 联合创始人 Tim 周昕宇就验证过，使用很小的模型，训练模型做几十位的加减乘除运算，将细粒度的运算过程合成出来变成很长的 CoT 数据做 SFT，就可以获得非常好的效果。

“我依然记得当时看到那个效果的震撼。”Flood Sung 表示，公司意识到 Long Context 的重要性，所以率先考虑把 Context 搞长，但却对 Long-CoT 这件事情不够重视，其实主要还是考虑了成本问题。“Long Context 主要做的是长文本输入，有 Prefill 预填充，有 Mooncake 加持，成本速度可控，而 Long-CoT 是长文本输出，成本高很多，速度也要慢很多，在这种情况下，把输出搞长就没有成为一个高优选项。”

Flood Sung 反思道，“但还有什么比 Performance （性能）更重要呢？成本和速度有摩尔定律加持，可以不断下降，只要把 Performance 搞上去，剩下的都不是主要问题。”所以，我们得搞 Long-CoT，搞 o1。“All in All，我们就是要训练模型能够像我们人一样思考，自由地思考。”Flood Sung 表示。

在月之暗面 Kimi 官网上，Flood Sung 刊发了一篇解密 o1 破解过程的万字长文，预示了公司关注并开始对标 o1 并推进相关研究的实质性动作。