OpenAI推出强化微调,CEO称是今年最大惊喜之一

OpenAI推出强化微调,CEO称是今年最大惊喜之一
2024年12月07日 08:20 第一财经

  OpenAI研究员演示,强化微调后的o1 mini测试通过率甚至比正式版o1高24%,比未强化微调的o1 mini提高了82%。

  当地时间12月6日,OpenAI公布第二日活动主题:推出了强化微调(Reinforcement Fine-Tuning),帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。OpenAI CEO Sam Altman在X发帖称,强化微调的效果非常棒,是他今年最大的惊喜之一,期待看到大家利用这种功能的创造。

  该项目通过全新的模型定制技术,让开发者可以使用高质量任务集对模型进行微调,并利用参考答案评估模型的响应,从而提升模型在特定领域任务中的推理能力和准确性。

  OpenAI的研究员称,强化微调并不是只教模型模型输出,它的运作方式是,当模型发现一个问题的时候,研究者给模型空间区仔细思考这个问题,然后评估模型给出的最终解答,运用强化学习,研究者可以强化产生正确答案的思路,抑制产生错误答案的思路,只需要“几十个例子”甚至12个例子,模型就能以有效的新方式学习特定领域的推理。

  OpenAI研究员演示,强化微调后的o1 mini测试通过率甚至比正式版o1高24%,比未强化微调的o1 mini提高了82%。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:韦子蓉

开发者

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 12-13 中力股份 603194 --
  • 12-10 林泰新材 920106 19.82
  • 12-09 博科测试 301598 38.46
  • 12-06 蓝宇股份 301585 23.95
  • 12-02 先锋精科 688605 11.29
  • 新浪首页 语音播报 相关新闻 返回顶部