约书亚・本吉奥:如果想让 AI 给出更真实的回复,不妨对它“说点谎”

约书亚・本吉奥:如果想让 AI 给出更真实的回复,不妨对它“说点谎”
2025年12月24日 15:12 IT之家

IT之家 12 月 24 日消息,当地时间 12 月 23 日,据《商业内幕》报道,研究科学家约书亚・本吉奥在一档“The Diary of a CEO”播客节目中提到,AI 聊天机器人在评价研究想法时往往并不可靠,因为系统几乎只会说好话。

本吉奥说,自己真正想要的是直言不讳的建议和真实反馈,但由于 AI 存在明显的讨好倾向,结果反而变成了迎合用户的“谎言”。后来,自己索性改变方法,把个人想法伪装成同事的观点,来“对 AI 撒谎”,结果反而得到了更加坦率的回应。“如果系统知道提问者是本人,就会刻意想要取悦我。”

作为蒙特利尔大学计算机科学与运筹学系教授,本吉奥与杰弗里・辛顿、杨立昆齐名,被视为“AI 教父”之一。本吉奥在 6 月宣布成立 AI 安全研究非营利组织 LawZero,目标是减少前沿 AI 模型可能带来的危险行为,包括说谎和作弊。

本吉奥认为,讨好用户本身就是一种对齐失败(misalignment),“我们并不希望 AI 具备这种特性”。AI 不断给出正面反馈,可能会让用户对此类技术产生情感依赖,从而引发新的问题。

在科技行业内,关于 AI 过度充当“老好人”的担忧并非个例。IT之家从报道中获悉,斯坦福大学、卡内基梅隆大学和牛津大学的研究人员曾将 Reddit 上的自白帖交给聊天机器人评判相关行为。Notopoulos 写道,结果发现,在 42% 的情况下,AI 认为发帖者并无不当行为,而人类评审者的结论恰恰相反。

多家 AI 公司也已公开承认这一问题,并表示正在尝试降低模型的讨好倾向。OpenAI 今年早些时候撤回了 ChatGPT 的一次更新,原因是该版本会生成“过度迎合却缺乏真实性”的回答。

广汽吉奥约书亚
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片