研究揭示：大语言模型无法真正理解双关语|卡迪夫大学_新浪科技

IT之家 11 月 24 日消息，一项关于人工智能（AI）的最新研究表明，大语言模型（LLM）在理解双关语方面有所欠缺。

来自英国和意大利多所高校的专家团队近期开展了一项研究，重点考察大语言模型对双关语的理解能力，结果发现其表现令人失望。该团队由南威尔士卡迪夫大学（Cardiff University）与意大利威尼斯福斯卡里宫大学（Ca’ Foscari University of Venice）的研究人员组成，他们得出结论：尽管大语言模型能够识别双关语的表层结构，却无法真正领会其中的幽默含义。

IT之家注意到，研究团队测试了一个典型双关语例句：“I used to be a comedian, but my life became a joke.”（我曾是一名喜剧演员，但我的人生却成了一句‘玩笑话’/一场‘闹剧’。）当研究人员将句末“a joke”替换为语义相近但无双关意味的“chaotic”（混乱不堪）时，大语言模型仍倾向于判定该句含有双关。

另一个测试例句为：“Long fairy tales have a tendency to dragon.”（冗长的童话故事往往容易“dragon”［拖得太长］。）此处“dragon”谐音“drag on”（拖沓延续），构成双关。然而，即便将其替换为同义词“prolong”（延长），甚至一个随机词，大语言模型仍会误判该句存在双关成分。

卡迪夫大学计算机科学与信息学院的何塞・卡马乔・科拉多斯（Jose Camacho Collados）教授指出，此项研究揭示了大语言模型对幽默的理解仍极为薄弱。“总体而言，大语言模型倾向于记忆训练数据中学到的内容，因此能较好识别已存在的双关语，但这并不意味着它们真正理解这些双关语。”他解释道，“我们通过修改现有双关语、刻意移除构成双关的双重语义后，始终能‘欺骗’大语言模型。在这些情况下，模型会将修改后的句子与记忆中的双关语强行关联，并编造各种理由‘论证’其仍属双关。归根结底，我们发现：大语言模型对双关语的理解，其实只是一种‘幻觉’。”

研究团队进一步发现，面对不熟悉的文字游戏，大语言模型区分双关语与非双关语句的准确率可降至 20%。

研究人员还测试了另一则双关语：“Old LLMs never die, they just lose their attention.”（老一代大语言模型永不消亡，它们只是失去了‘注意力’［attention］。）此处“attention”暗指 Transformer 架构中的“注意力机制”。当研究者将“attention”替换为“ukulele”（尤克里里）时，某大语言模型竟仍判定其为双关，理由是“ukulele”听上去近似“you-kill-LLM”（你干掉了 LLM）。团队虽对该模型的“联想创造力”感到惊讶，但显然它仍未真正“懂”这个笑话。

研究人员强调，该成果凸显了人们在依赖大语言模型执行需具备幽默感、共情能力或文化敏感性的任务时，应保持高度审慎。相关研究成果已于本月早些时候在中国苏州举行的“2025 年自然语言处理实证方法会议”（EMNLP 2025）上发表，论文题为《双关非本意：大语言模型与幽默理解的幻象》（Pun unintended: 大语言模型 and the illusion of humor understanding）。