「瞄准」o1:国内大模型厂商的技术思路有何不同?过度推理成通病?

「瞄准」o1:国内大模型厂商的技术思路有何不同?过度推理成通病?
2024年11月30日 11:31 机器之心Pro

近期,国内多家大厂、AI 创企纷纷发布类 o1 推理模型,部分模型称效果大幅超越 OpenAI 的 o1-preview 等。各家的推理模型在技术思路有何异同?模型实测效果如何?

目录

01R1-Lite、K0-Math...国内纷纷推出的类 o1 推理模型,谁更强?

这些推理模型们在不同数据集上的评分表现如何?分别在哪些维度,打过 o1 模型了?

02. 各家做推理模型的技术思路有何异同?

在训练、推理不同阶段,主要有哪些技术方案?长思维链构建:基于 LLM+奖励的树搜索了解一下?强化学习训练:如何使用过程奖励模型(PRM)进行评估?推理阶段:Marco-o1 和 LLaVA-o1 分别使用了何种不同的方法?

03. 实测效果各有优劣:「过度推理」成为共性问题

各家推理模型们实测效果如何?为何普遍存在「过度推理」问题?

 01 R1-Lite、K0-Math...国内纷纷推出的类 o1 推理模型,谁更强?

1、近期,国内大厂、AI 创企陆续发布类 o1 推理模型,DeepSeek 推出 R1-Lite 推理模型;Kimi(月之暗面)推出的主打数学能力的推理能力强化模型 k0-math;阿里先后推出 Marco-o1、QwQ 两款推理模型;昆仑万维推出 Skywork o1 推理模型。高校方面,北大、鹏城实验室发布能够自主进行多阶段推理的视觉语言模型模型 LLaVA-o1;上交大 GAIR 研究组发布 o1 复现项目。

2、其中,部分公司称其推理模型的效果大幅超越/领先了 OpenAI 的 o1-preview、GPT-4o 模型。

表:近期推出的国内推理模型在不同数据集上的评分表现

 02 各家做推理模型的技术思路有何异同?

o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层,模型推理层的开发和规模增长也成为大模型厂商们当下的关注重点。

1、o1 模型在数学、代码和长远规划等方面的能力取得了大幅的提升。根据其官方博客,o1 深度思考和复杂推理能力的提升归功于采用了自我对弈强化学习(Self-play RL)、思维链(CoT)等技术。但 OpenAI 并没有公开 o1 模型的具体技术细节,从各高校、研究机构的 o1 模型复现研究来看,o1 的主要技术路线为「搜索+强化学习」,即对思维链进行搜索,然后用强化学习去学习搜索的过程。

2、尽管对于 o1 模型的技术解读、猜想较多,但目前来看,做推理模型具体的技术仍还在探索中,如思维链数据/监督信号如何获取及构建?长思维链的合成如何扩展?如何进行显式的合理推理?近期国内推出的 7 个类 o1 推理模型中,仅有 3 个发布了技术报告,其余则没有公开技术细节。从已公开的三份技术报告来看,各家的技术路线也有一定差异。

表:近期推出的国内推理模型所用技术情况

长思维链构建:基于 LLM+奖励的树搜索了解一下?

1、上交大 GAIR 研究组在其 o1 复现项目,通过对 o1 模型在处理和推理复杂方程的底层思维链的观察发现,o1 模型的思维链最显著的特征是在推理产生错误时或遇到冗余的推理步骤时尝试反思和回溯。这类似于在推理树上搜索问题的解决方案。

① 该技术思路通过构建推理树来模拟解决问题的过程,树的每个节点代表一个推理步骤。当推理出现错误或冗余时,模型会在错误节点回溯,直至找到正确路径。期间,使用细粒度的奖励模型来判断每个推理步骤的正确性,从而在树搜索中整合错误步骤和回溯反思,以形成长思维。

2、这里提到的「树搜索」方法是指在棋类游戏(Board Game)中的关键技术蒙特卡罗树搜索(MCTS),来源于 DeepMind 的 AlphaGo 工作,AlphaGo 系统的核心模块为树搜索和两个神经网络,其中树搜索用于在 19X19 的棋盘所构成的解空间中寻找最佳的动作。

3、阿里 MarcoPolo 团队发布的推理模型 Marco-o1 采用了类似的技术思路。将大型语言模型与蒙特卡洛树搜索(MCTS)集成,来增强 Marco-o1 模型的推理能力。具体来说......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

推理
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片