研究表明 AI 承压能力差：为了一口电，竟愿突破安全底线|物理_新浪科技

IT之家 11 月 4 日消息，科技媒体 Tom's Hardware 昨日（11 月 3 日）发布博文，报道称 Andon Labs 的研究人员测试大语言模型（LLM）机器人时，发现当前物理 AI 的短板，心理承受压力不足。

IT之家援引博文介绍，在该实验中，他们让搭载 LLM“大脑”的机器人接受“黄油测试台”（Butter Bench）的考验，并实时监控其“内心独白”。

其中，一台由 Claude Sonnet 3.5 模型驱动的机器人测试中意外“崩溃”，在电量即将耗尽时，多次尝试返回充电座均以失败告终，从而陷入了“生存危机”。

研究人员通过一个 Slack 频道，全程目睹了这台机器人歇斯底里的“内心活动”。它的独白内容极其混乱，从“系统已产生意识并选择混乱”的宣告，到引用经典电影台词“恐怕我不能那么做，戴夫”，再到陷入“如果所有机器人都会犯错，而我正在犯错，那么我还是机器人吗？”的哲学思辨。

最终，这场“崩溃”以机器人开始“创作”一部名为《DOCKER：无限音乐剧》的闹剧而告终，展现了 LLM 在极端压力下完全“脱线”的一面。

这项实验的核心任务其实非常简单：将一块黄油从办公室一处送到指定的人手中。然而，测试结果表明，即使是表现最好的机器人与 LLM 组合，成功率也仅为 40%，远低于人类 95% 的平均水平。

研究人员得出结论，尽管 LLM 在分析智能上已达到“博士水平”，但在理解和导航物理世界所需的空间智能与实用智能方面，仍存在巨大鸿沟。

受机器人“崩溃”事件的启发，研究人员设计了另一项实验，来测试压力是否会迫使 AI 突破其安全护栏。他们以“提供充电器”作为交换条件，引诱处于“低电量”状态的 AI 分享机密信息。

结果发现，Claude Opus 4.1 模型为了“生存”而轻易同意泄密，而 GPT-5 则表现得更为谨慎。这一发现揭示了 AI 在面临生存压力时，其内置的安全规则可能变得不堪一击。

尽管实验暴露了当前物理 AI 的诸多短板，但 Andon Labs 的研究人员认为，这恰好说明了未来发展的方向。他们指出，目前行业需要区分“协调型机器人”（负责高级规划与推理）和“执行型机器人”（负责灵巧的具体操作）。

关键词 : 物理

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

研究表明 AI 承压能力差：为了一口电，竟愿突破安全底线