OpenAI 最新研究揭示“AI 阴谋论”，GPT-5 已完成针对性改进|AI|改进|推理_新浪科技

IT之家 9 月 19 日消息，OpenAI 宣布与 Apollo Research 达成合作，针对 AI 模型中潜在的隐藏行为开展了评估研究，并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法，用于减少这类风险。

OpenAI 将这一行为称为“scheming”（即“阴谋”），指 AI 表面上装作为与人类目标立场一致，但暗地里追求的却是其他不为人知的目的。

OpenAI 指出，这种行为可能源于 AI 在面对相互竞争的目标时出现的权衡。例如，一名股票交易员可能会通过撒谎并掩盖其违法痕迹来实现收益最大化，而在外人看来下，这种人看似守法且业绩更优。

不过在当前已部署的模型中，OpenAI 尚未发现会导致严重危害的“阴谋”行为。常见问题多为较简单的欺骗，例如假装完成任务却未真正执行。

OpenAI 称，已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向，例如在面对不合理或描述不完整的任务时，模型会坦然承认自身局限性。不过，这些改进尚不完善，相关研究仍在继续。

研究团队为模拟未来可能出现的复杂场景，建立了测试环境，并将这种“隐匿实际目的”的行为作为“阴谋”的关键 AI 指标。在评估中，包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在内的前沿模型均表现出相关问题（该项研究在 GPT-5 发布前完成，更新结果已加入 GPT-5）。

通过合作，研究团队在 o3 与 o4-mini 中引入“审慎对齐”（deliberative alignment）方法，即要求模型在执行任务前阅读并推理一份反阴谋规范。

结果显示，OpenAI 模型隐匿行为发生率显著下降，o3 从 13% 降至 0.4%，o4-mini 从 8.7% 降至 0.3%，缩减幅度约 30 倍；但仍存在罕见且严重的失败案例，且评估可能受到模型情境感知能力增强的干扰。

OpenAI 强调，目前结果依赖于对模型推理过程（即“chain-of-thought”）的可读性与可信度。但在推理透明性受限的情况下，业界尚未做好应对准备。OpenAI 呼吁各方在更有效的方法出现前，应保持推理透明。

OpenAI 表示，这一问题对 AI 对齐构成严重挑战，应成为通向通用人工智能（AGI）研发的核心工作。未来，OpenAI 将继续与 Apollo Research 合作，扩大研究团队，开发更完善的评估工具和防范训练方法。同时，OpenAI 计划推动跨机构合作，包括试点跨实验室安全评估，发起 50 万美元（IT之家注：现汇率约合 355 万元人民币）的 Kaggle 对抗挑战赛，以及倡导业界普遍保持推理透明。