科学家提出小型AI事实核查模型，可根据文本验证大模型答案准确性|AI_新浪科技

来源：DeepTech深科技

现如今，大语言模型已经拥有在诸多领域生成回答的能力。不过，它们通常不能保证生成的所有内容都完全准确且可靠。

原因在于，一方面，大语言模型自身拥有的参数知识，不足以帮助它们生成正确的事实，因而导致“幻觉”问题普遍存在。

另一方面，即便是基于已有的文本生成回答，大语言模型也可能会错误地混合文本中的信息，这一般会在基于检索的问答、对输入文本进行摘要等任务中出现。

因此，开发一种既能够根据文本检查大语言模型输出的回答是否存在事实错误，又具有可信、高效、低成本、保护隐私等优势的方法，就至关重要。

（来源：arXiv）

近期，来自美国德克萨斯大学奥斯汀分校和 AI 研究企业 Salesforce AI Research 的团队，构建了一款名为 MiniCheck 的小型事实核查模型，可以根据文本快速可靠地验证模型生成的每个事实，并识别跨句子的信息合成。

其中，值得一提的是，该模型能以 GPT-4 级别的性能运行，成本却仅为后者的 1/400。

图丨可与 GPT-4 相媲美，但价格较之便宜 400 倍的小型事实核查模型 MiniCheck（来源：arXiv）

“我希望通过该研究证明，通过精心设计的训练数据，专门的模型可以在保持低廉成本的同时达到最强大模型的性能。

同时，我相信这个结论也适用于其他更多的下游任务，这对于学术界和工业界来说具有重要价值。”美国德克萨斯大学奥斯汀分校博士研究生唐立言表示。

图丨唐立言（来源：唐立言）‍

据唐立言介绍，他的研究方向主要集中在自然语言处理中的文本评估。

而在最近的研究中，他特别关注文本摘要中的事实一致性评估这一任务，旨在确定由大语言模型生成的摘要中的句子，是否有对应的原始文本提供支持。

在该项研究开始之前，他曾在该领域发表过三篇论文。

在第一篇论文中，研究了现有事实核查模型在识别新闻摘要生成的错误上的表现[2]。

在第二篇论文中，研究了大语言模型在医学证据摘要中生成事实摘要的表现[3]。

在第三篇论文中，评估了现有事实核查模型在识别对话摘要中大语言模型生成的错误方面的表现[4]。

正是通过上述研究，他得到了几个重要发现：

首先，在现在的大语言模型生成的摘要中，仍然会产生大量无法由原始文本支持的内容。

其次，大语言模型于不同领域生成的错误类型各不相同。

再次，规模较大的大语言模型，往往会产生更加细微且难以检测的错误。

所以，显而易见，要想全面准确地识别生成内容中存在的错误，是一项相当复杂的任务。

当下，主要存在两种能基于文本验证模型生成内容的方法。

前者是为事实一致性评估设计的事实核查模型，专用于检查大语言模型输出的那些无法被验证的内容，具有参数规模小、成本低、速度快等优势。

后者是直接采用大语言模型作为事实核查模型，通常用来评估模型从检索增强生成和封闭式生成中得到的回答，是否存在错误。

唐立言观察到，这两种方法各自存在局限性。

就事实检查模型而言，它们通常需要在验证集上进行一些超参数调整，才能在相应的测试集上表现良好。

换句话说，它们无法真正做到零样本部署至不同的下游任务，尤其是在缺乏已经标注好的验证集时。

同时，由大语言模型生成的一个句子通常包含多个事实，而它们经常会忽略其中的一些事实。

另外，当需要综合文本中多个句子的信息，才能验证所生成的句子时，它们通常表现不佳。

最后，与 GPT-4 等性能十分强大的模型相比，它们仍然存在较大差距。

而另一方面，从直接采用大语言模型作为事实核查模型来看，虽然像 GPT-4 这类模型拥有十分出色的表现，但由于应用程序编程接口成本、延迟和隐私等方面存在的种种局限，它们并不适合大规模使用。

“在这些观察的基础上，我希望能通过该研究设计一个小型事实核查模型，不但拥有快速预测、低成本、隐私问题少等优点，也具备目前市面上最好的大语言模型（即 GPT-4）的性能。”唐立言表示。

研究过程中，他大概花了 6 周时间定下研究课题。

在此期间，他不仅大量阅读相关论文，也对最近网上发布的数据集进行了逐一探索。

“在这一阶段，每当向导师汇报进展时，我总会准备一些有趣的结果并讨论我的发现。这些具有建设性的讨论，有助于我们快速确定想要研究的具体方向。”他说。

在他看来，虽然将该研究的目标放在提高小型语言模型在事实核查方面的性能，可能容易受到质疑，但结合自己的实习经历、对该研究的早期观察以及与导师的多次讨论，他仍然相信追求这个方向是值得的。

在确定研究目标以后，该课题组便迎来一个颇具挑战性的任务，即通过生成结构化的合成数据，来教授事实核查模型如何验证一个句子中的所有事实，并培养跨越多个句子进行推理的能力。

这个阶段大概持续了 10 周时间。

过程中，唐立言尝试了各种用于生成合成数据的方法，并使用相应的数据集开展了很多实验，最终证明了所创建模型的可行性。

在获得主要成果之后，他开始撰写论文。

起初，他先概述了论文的结构，并思考该如何进行具体阐述。接着，他通过与导师的每周讨论，来逐步完善论文的结构、增强叙事，并发现一些缺失但对于论文来说非常关键的必要实验。

“写作过程中，我还添加了几个刚开始没有考虑到、但能使论文更有说服力以及更全面的额外实验。”唐立言说。

而现在，他正在开发一个网页程序，以更好地将 MiniCheck 模型集成到事实核查流程中。

在该网页程序的使用界面上，用户可以根据需求输入一个需要进行验证的句子，然后该程序就会自动地搜索相关文本。

一旦这些文本被成功地检索到，MiniCheck 模型就会对其进行评估，并基于文本对用户输入的语句给出一个分数，以说明这句话是否能被检索到的相关文本支持。

“因为该工具能够为事实核查提供一个经济高效的解决方案，所以我期待它可以在不远的将来发挥应有的作用。”他说。

另外，在该研究的基础上，他也计划阅读更多与自己研究方向相关的最新论文，并尝试提出更多新的想法。

参考资料：

1. Liyan Tang, Philippe Laban, Greg Durrett, “MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents”, ArXiv: 2404.10774, 2024.

2. Liyan Tang, Tanya Goyal, Alexander R. Fabbri, Philippe Laban, Jiacheng Xu, Semih Yavuz, Wojciech Kryściński, Justin F. Rousseau, Greg Durrett, “Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors”, in Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL), 2023.

3. Liyan Tang, Zhaoyi Sun, Betina Idnay, Jordan G Nestor, Ali Soroush, Pierre A. Elias, Ziyang Xu, Ying Ding, Greg Durrett, Justin Rousseau, Chunhua Weng, Yifan Peng, “Evaluating Large Language Models on Medical Evidence Summarization”, in npj Digital Medicine, 2023.

4. Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu’an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown, “TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization”, in Proceedings of the North American Chapter of the Association for Computational Linguistic (NAACL), 2024.

运营/排版：何晨龙