Nature 专栏：让 AI 一键写系统性综述的话 ChatGPT 远远不够，一百年以后再看|AI|自动化_新浪科技

人工智能工具正在帮助科研人员快速整合和理解大量科学文献，但完全自动化的高质量文献综述生成仍面临挑战，虽然能提升研究效率，但也存在生成低质量综述的风险，需谨慎使用，所以说现阶段还是人眼看论文靠谱。

网络的普及，加上文献数量的爆炸式增长，如今的科研人员要面临的一个主要难题就是，尽管可能已经收集了足够的数据来帮助理解某个复杂的领域或系统，但由于信息量的巨大，人类无法全面地阅读和理解所有文献。

就像是面对一个巨大的图书馆，虽然每本书都包含了宝贵的知识，但没有人能够阅读所有的书籍并从中获得一个完整的认知。

因此，尽管科学的进步为我们提供了大量的数据，但如何有效地整合和理解这些数据仍然是一个亟待解决的问题。

最近 Nature 上有一篇专栏文章，介绍了一些现有的、文献综述自动化生成的方法，并指出了这类方法主要面临的困境及用户痛点。

文章链接：https://www.nature.com/ articles / d41586-024-03676-9

尽管身处 ChatGPT 时代，但想要完全没有人类参与，让 AI「一键」完成系统性综述生成，集查询、整理、文献筛选、总结归纳等于一身，并且没有幻觉错误，仍然是一项不可能完成的任务。

用 AI 做文献综述

几十年来，研究人员们一直在尝试提升「将大量相关研究汇编成综述」的速度，由于工作量过大，很多综述在提交的时候往往就已经过时了。

ChatGPT 等大模型展现出的超强语言理解能力，也再次激发了人们对于自动化综述的兴趣，今年 9 月，美国初创公司 FutureHouse 构建了一个新系统，宣称能够在几分钟内生成一个比维基百科更准确的科学知识综合页面，并且已经为大约 17,000 个人类基因（human gene）生成了维基百科风格的条目，其中大部分在此前缺乏详细的描述介绍。

一些科学文献搜索引擎也已经开始引入 AI 驱动能力，来帮助用户通过查找、排序和总结出版物来制作叙述性文献综述，但目前质量普遍比较低。

大多数研究人员都认可，离实现自动化「金标准综述」还有很长的路要走，整个过程涉及严格的程序来搜索和评估论文，还包括元分析来合成结果，或许 10 年、甚至 100 年后才能略有进展。

计算机辅助评审

几十年来，计算机软件一直在辅助研究人员搜索和解析研究文献。

早在大型语言模型（LLMs）出现之前，科学家们就开始使用机器学习和其他算法来帮助识别特定研究，或快速从论文中提取发现，但类似 ChatGPT 这样的大模型让自动综述的能力显著提升。

不过，研究人员表示，要求 ChatGPT 或其他 AI 聊天机器人从头开始撰写学术文献综述，是相当不现实的。

如果模型被要求对某个主题的研究进行综述，LLM 可能会从一些可信的学术研究、不准确的博客中，或是其他未知的信息来源中整合信息，而不会对最相关、最高质量的文献进行权衡。

LLMs 的运行机制，即通过反复生成对查询在统计上合理的单词，决定了模型对同一个问题会生成不同的答案，并「幻想」出一些错误信息，比如众所周知的「不存在」的学术引用，和人类进行综述的过程可以说是毫无相似之处。

一个更复杂的过程是检索增强生成（RAG），包括将预先选定的论文语料库上传到 LLM，并要求模型从中提取关键点，并基于这些研究给出答案，可以在一定程度上减少幻觉现象，但无法完全消灭幻觉。

RAG 的过程中，还可以设置信息来源，类似 Consensus 和 Elicit 等专门的、AI 驱动的科学搜索引擎就是这样做的，虽然大多数公司没有透露系统工作的确切细节，但大体上就是将用户的问题转化为对学术数据库（如 Semantic Scholar 和 PubMed）的搜索，并返回最相关的结果。

基于搜索结果，大型语言模型（LLM）会总结这些研究，并将其综合成一个「带引用来源」的答案，用户可以根据具体需要选择要引用的工作。

丹麦南部大学奥登塞分校的博士后研究员 Mushtaq Bilal 认为，这些工具肯定能让提升综述和写作的效率，并且还自己开发了一个工具 Research Kick。

至少搜索引擎引用的内容是绝对真实存在的，用户可以进一步点击查看，自己分辨。

不同的辅助工具有不同的特点，例如 Scite 系统可以快速生成支持或反驳某个主张的论文的详细分解，Elicit 等系统可以从论文的不同部分提取间接（方法、结论等）。