BBC 等机构研究评估 AI 工具新闻总结水平,谷歌 Gemini 错误比例最高

BBC 等机构研究评估 AI 工具新闻总结水平,谷歌 Gemini 错误比例最高
2025年10月24日 07:29 IT之家

IT之家 10 月 24 日消息,生成式 AI 的确在信息整理方面大有用处,生成的内容也常令人惊叹,但只要仔细一看,就能发现这项技术仍存在不少缺陷。

据外媒 Android Authority 今日报道,欧洲广播联盟(EBU)与 BBC 近日联合评估了 ChatGPT、Gemini 及 Perplexity 等多款 AI 系统在新闻摘要方面的表现。研究动因在于,现有约 15% 的 25 岁以下年轻人主要通过 AI 获取新闻

BBC 最初通过大规模问卷调查及六场焦点小组访谈收集公众对 AI 新闻工具的使用体验与看法,随后 EBU 将这项研究扩展至国际范围。

研究显示,约 42% 的英国成年人表示信任 AI 内容的准确性,年轻群体的信任度更高。不过,84% 的受访者认为,一旦出现事实性错误,将严重削弱自己对 AI 的信任。问题在于,这些系统的“不准确度”究竟为何,以及用户是否真的察觉到了这些错误。

结果显示,大多数 AI 生成的内容都存在问题。各模型整体表现差距不大,但 Gemini 成为明显“异类”,不仅错误数量最多,严重错误的比例也远高于其他系统

研究指出,Gemini 的问题主要包括:缺乏清晰的资料来源链接、未能区分可靠信息与讽刺内容、过度依赖维基百科、缺乏足够语境,以及错误引用原文

在六个月的研究周期中,各大 AI 系统的表现都有改进,新闻摘要的准确率普遍提升,Gemini 的进步尤为明显。但即使如此,Gemini 的表现仍明显落后于其他系统。

IT之家附报告链接:News Integrity in AI Assistants

AIBBC谷歌
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片