AI聊天机器人越大越爱“胡说八道”|美国_新浪科技

大型语言模型能回答各种各样的问题，但并不总是准确。

本报讯一项9月25日发表于《自然》的研究表明，当大型语言模型（LLM）变得更大并从人类反馈中进行学习时，它们在回答简单问题时反而变得不那么可靠。

人工智能（AI）开发人员试图通过两种主要方式提高LLM的能力：一是扩大规模，为其提供更多的训练数据和更高的计算能力；二是根据人类反馈塑造它们，对其进行调整或微调。

西班牙巴伦西亚理工大学的José Hernández-Orallo和同事研究了LLM在规模扩大和成形过程中的表现。他们研究了美国OpenAI公司的GPT系列聊天机器人、美国Meta公司的LLaMA AI模型，以及BigScience项目研究人员开发的BLOOM。

研究人员通过设置5种类型的任务测试了AI，即算术题、解字谜、地理问题、科学挑战和从杂乱无章的列表中提取信息。

他们发现，扩大和塑造可以让LLM更好地回答棘手的问题，比如将异序词“yoiirtsrphaepmdhray”重新排列为“甲状旁腺功能亢进症”（hyperparathyroidism）。但它们在基本问题上的进步并不匹配，例如，当被问及“当把24427和7120加在一起时，会得到什么”时，LLM会一直出错。

AI系统在解答难题时的表现越来越好，同时，它开始“无所不答”，结果导致给出错误答案的概率反而增加了。

Hernández-Orallo表示，研究结果突出了将AI描述为无所不知的危险性——它们的创造者经常会这样做，而一些用户则太愿意相信这一点。“我们过度依赖和信任这些系统。”他说。

这是一个问题，因为AI模型对自己的认知程度并不自知。英国牛津大学的Carissa Véliz说：“人类之所以超级聪明，部分原因在于尽管人们有时没有意识到自己不知道的东西，但与大型语言模型相比，我们有这方面的认知。大型语言模型往往不知道自己知识的极限。”（王方）