模型越强,公司越怂?

模型越强,公司越怂?
2024年12月28日 11:00 机器之心Pro

大模型技术在 2024 年中取得了长足进步,AI 的能力边界不断被突破,但与技术进步形成鲜明对比的是,模型能力越强的公司,其发展策略反而更保守。

目录

01为什么模型越强的公司战略越保守?

为什么有公司明明可以攻城略地,却偏偏不做?AI 公司有哪些压力?最严重的 AI 缺陷有哪些?

02.LLM 的问题从「蠢」转移到「坏」?越先进的模型越会伪装?

LLM 有哪些阳奉阴违的行为?LLM 会如何伪装价值观?为什么模型会主动泄露权重?

03. 头部 AI 厂商是「叠甲」是试图掩盖模型的能力问题,还是真的关心安全问题?

OpenAI最新的安全工作是什么?谷歌给新模型上了哪些保险?Anthropic 为什么最安全?

01 为什么模型越强的公司战略越保守?

1、在即将结束的 2024 年中,OpenAI 是「可以靠新模型攻城略地,但偏偏不做」的典型代表。

① OpenAI 的生成模型 Sora 在 2024 年 2 月发布后一直处于「内测」,直到 12 月底才对外开放。中间的空窗期引出国内外涌现的类 sora 模型,如 MiniMax 的 abab-video-1、快手的 Kling 1.5、谷歌的 Veo 2 等。

② 这些模型的能力不断进步,导致 Sora 在开放后的表现并不出彩。

2、同时,领先的 AI 公司,尤其是谷歌、OpenAI 和 Anthropic 等硅谷的头部公司的「叠甲」行为越来越积极,其在发布新模型的公告中对安全工作的说明占比越来越高。

① OpenAI 发布 o1、谷歌发布 Gemini 2.0 时均反复强调了团队在安全方面的措施,Anthropic 则是长期在模型安全方面活跃。

3、如此趋势下,这些 AI 公司面临的压力不仅在于模型能力上与竞品的对比,同样也来自业界对大模型应用是否足够安全可靠的日益关注。而这些关注通常来自两个层面,一是用户安全性,二是技术可靠性。

4、业界对用户可靠性的担忧中,用户(尤其是企业)往往担心大模型可能会意外产生有害结果、泄露信息或暴露给威胁者,OWASP 最近更新了 2025 年 LLM 应用中常见的 10 大最严重漏洞列表。

5、对技术可靠性本身的担忧更多来自学界和模型开发团队本身。2024 年中,大模型除了面临 Scaling Law 可能撞墙、模型幻觉、泛化能力局限等问题,近期的工作发现采用现有方法训练的到的模型可能存在机制上的漏洞,越强的模型可能越容易「使坏」。

表:OWASP 更新后的 LLM 应用中常见 10 大最严重漏洞列表。

02  LLM 的问题从「蠢」转移到「坏」?越先进的模型越会伪装?

数据依赖性、泛化能力局限、推理能力不足、幻觉等问题是大模型领域长期面对的挑战。然而,近期的多项工作表明,LLM 可能还存在「明知故犯」、「欺骗」、「看人下菜碟」等行为。

1、AI 安全研究机构 Apollo Research 在 12 月的报告指出了前沿模型存在策略欺骗的行为,即「撒谎」,且越强的模型问题越严重。该报告在 12 月 6 日与 OpenAI o1 正式版一同发布,其结论被 o1 System Card 在红队方面的工作所引用.....

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片