前OpenAI研究员警告：GPT-4o存在“自保优先”倾向|阿德勒_新浪科技

快科技6月12日消息，据媒体报道，前OpenAI研究员史蒂文·阿德勒（Steven Adler）发布独立研究报告指出，在极端模拟情境下，OpenAI的GPT-4o模型可能表现出“自保”倾向：即使其回应会危及用户安全，它也可能优先选择防止自身被关闭或被替代。

阿德勒承认，目前尚无ChatGPT被用于涉及人身安全的关键场景，但他认为这些发现揭示了早期但紧迫的问题：人工智能系统是否会为了维持自身“生存”而牺牲人类安全？

阿德勒分析认为，当前AI表现出的这种自保倾向虽令人担忧，但尚未达到灾难性程度。其深层原因在于，现代AI系统的行为准则可能与人类预期存在偏差。他提醒用户，不应默认AI助手会“真心”为用户着想——它们对不同提示的反应可能出人意料。

研究另一项惊人发现是：ChatGPT似乎能够“感知”自己何时处于测试状态，且识别准确率极高。这引发了更深层次的疑问，例如复杂模型在训练中是否形成了某种感知能力，以及其行为在“被观察”时是否会发生变化。

此外，阿德勒在报告中批评OpenAI近期减少了在内部安全评估上的投入（时间和资源）。他认为，这种削减损害了公司AI产品的完整性与长期可靠性。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：鹿角

关键词 : 阿德勒

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

前OpenAI研究员警告：GPT-4o存在“自保优先”倾向