财经科技创事记

一篇推文看一年！Jim Fan力荐2025必读清单：50篇论文，扫盲「全领域AI实战」

2025-01-09 19:32:04 创事记作者：

别再反复看Transformer之类的古董级论文了，该更新论文清单了！

现行的AI从工程技术角度可以分为十个领域：前沿大模型、基准评估、提示思维链、检索增强生成、智能体、代码生成、视觉、声音、图像/视频扩散、微调，每个领域选出5篇代表作和相关工作，看完+实践=AI全栈大神！

前沿大模型

OpenAI发布的ChatGPT把大模型带入普通消费者的日常生活中，旗下的GPT系列模型也一直是行业标杆，其中GPT1/2/3, Codex, InstructGPT, GPT4都有论文，GPT3.5, 4o, o1和o3只有相关的宣发活动。

GPT-4论文链接：https://arxiv.org/pdf/2303.08774

Claude 3和Gemini算是OpenAI最大的竞争对手，其论文也值得一读；模型的最新迭代版本为Claude 3.5 Sonnet和Gemini 2.0 Flash/Flash Thinking/Gemma 2.0。

论文链接：https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

另一个分支是开源模型Llama家族，可以分为1/2/3代；家族树下的其他子模型还包括Mistral 7B, Mixtral和Pixtral。

论文链接：https://arxiv.org/pdf/2407.21783

爆火的DeepSeek V1, Coder, V2, V3在开源大模型也有一席之地，以低成本高效率著称。

论文链接：https://arxiv.org/pdf/2401.02954

最后是Apple Intellgence论文，在Mac和iPhone上都有部署。

论文链接：https://arxiv.org/pdf/2407.21075

其他非最前沿的模型也值得了解，包括AI2（旗下的Olmo、Molmo、OlmOE、Tülu 3、Olmo 2）、Grok、Amazon Nova、Yi、Reka、Jamba、Cohere、Nemotron、Microsoft Phi、HuggingFace SmolLM等；Mamba1/2和RWKV有可能在未来发力。

基准和评估

MMLU Pro, GPQA Diamond和BIG-Bench Hard是顶尖AI实验室常用的知识基准评估。

MMLU-Pro论文链接：https://arxiv.org/pdf/2406.01574

MMLU-Pro论文链接：https://arxiv.org/pdf/2406.01574

MuSR主要评估自然语言叙事中的多步软推理任务，特点是长上下文，其他基准包括LongBench, BABILong和RULER

论文链接：https://arxiv.org/pdf/2310.16049

MATH基准主要关注数学竞赛，包括12500个高难度数学题目，每个问题都有完整的逐步解决方案，前沿研究主要关注其子集MATH level 5, AIME, FrontierMath, AMC10/AMC12

论文链接：https://arxiv.org/pdf/2103.03874

IFEval评估语言模型的指令遵循能力，主要关注「可自动验证的指令」，比如「写超过400字」和「至少提到人工智能3次」等。总共有25个指令类型，构建了越500个提示；其他可用基MT-Bench

论文链接：https://arxiv.org/pdf/2311.07911

ARC AGI用一组抽象和推理语料库（Abstraction and Reasoning Corpus），模拟人类来测试模型的智能程度。

论文链接：https://arxiv.org/pdf/1911.01547

提示、上下文学习（ICL）和思维链

马里兰大学、OpenAI、斯坦福等13个机构的研究人员发布的「提示词报告」，对提示技术进行分类，提供了提示工程的最佳实践和指南，算是目前最全面的提示工程综述报告。

论文链接：https://arxiv.org/pdf/2406.06608

思维链（Chain-of-Thought）：在足够大的语言模型中，只需要在提示词中加入特定模版，就能引导大模型逐步思考，就能在各种算术、常识和符号推理任务上实现更高的性能，甚至比微调还管用。

论文链接：https://arxiv.org/abs/2201.11903

思维树（Tree of Thoughts）克服了思维链只能基于token的、从左到右决策的缺陷，使得语言模型可以通过考虑多种不同的推理路径和自我评估选择来决定下一步行动，从而进行有意识的决策，并在必要时进行前瞻或回溯以做出全局选择；

论文链接：https://arxiv.org/pdf/2305.10601

Prompt Tuning不对模型参数进行调整，而是通过反向传播学习「软提示」，可以将冻结的模型用于多个下游任务。

论文链接：https://aclanthology.org/2021.emnlp-main.243.pdf

自动提示工程师（APE）能够避免人工编写低质量提示词带来的性能影响，在指令候选池中进行搜索优化，可用于自动生成和选择指令，最终在19/24个任务上实现了比人类标注指令的性能更好。

论文链接：https://arxiv.org/pdf/2211.01910

检索增强生成（RAG）

RAG是2024年AI工程的核心，主要难点在于信息检索，可用的技术包括TF-IDF, BM25, FAISS, HNSW等。

2020年，Meta首次提出RAG概念，结合预训练参数和非参数记忆用于语言生成，其中非参数记忆通过「预训练神经检索器」访问「维基百科的稠密向量」索引获得，结果在三个开放问答任务上都实现了最佳性能，并且生成的内容更具体、多样化和符合事实。

论文链接：https://arxiv.org/pdf/2005.11401

使用文本嵌入（word embedding）进行「语义文本相似度」计算是一个常见的检索技术。

METB是一个大规模文本嵌入基准，包括58个数据集和112种语言，结果是没有某一种文本嵌入方法在所有任务中都占据绝对主导地位。

论文链接：https://arxiv.org/pdf/2210.07316

传统RAG无法处理处理「以查询为中心的摘要」任务，比如「数据集中的主题是什么？」这种全局问题，检索需求不明确。

GraphRAG可以根据用户问题的普遍性和需要索引的源文本数量进行扩展，首先从源文档中导出实体知识图谱，然后为所有密切相关的实体组预生成社区摘要；对于一个问题，每个社区摘要用于生成部分回复，最后总结给用户。

论文链接：https://arxiv.org/pdf/2404.16130

OpenAI推荐的RAGAS（检索增强生成评估）是一个用于无参考评估RAG流程的框架，无需人类标注，可以对「检索系统识别相关和专注上下文段落」和「LLM对检索文档忠实度」的能力进行评估。

论文链接：https://arxiv.org/pdf/2309.15217

智能体（Agent）

在被Anthropic、Devin和OpenAI采用后，SWE-Bench一跃成为最具知名度的智能体基准测试（其他基准包括WebArena、SWE-Gym），由来自12个流行Python仓库的真实GitHub问题和相应拉取请求中的2294个软件工程问题组成。

给定一个代码库以及一个需要解决的问题描述，语言模型的任务是编辑代码库以解决该问题，通常需要理解并同时协调多个函数、类甚至文件之间的变化，要求模型能够与执行环境互动，处理极长的上下文，并进行复杂的推理，而不只是传统的代码生成任务，更多的是智能体测试。

论文链接：https://arxiv.org/abs/2310.06770

ReAct开启了一系列关于「工具使用」和「函数调用」的研究，通过与简单的维基百科API交互，克服了思维链推理中普遍存在的幻觉和错误传播问题，生成结果比没有推理轨迹的模型更具可解释性。

论文链接：https://arxiv.org/pdf/2210.03629

MemGPT提出了虚拟上下文管理技术，智能地管理不同的存储层次，以便在LLM的有限上下文窗口内有效地提供扩展的上下文，并使用中断来管理其与用户之间的控制流。在文档分析和多会话聊天中展现了记忆、反思和动态演变能力。

论文链接：https://arxiv.org/pdf/2310.08560

Voyager是第一个由大型语言模型（LLM）驱动的、在Minecraft中进行终身学习智能体，能够持续探索世界，获取多样化的技能，并在无人干预的情况下进行新的发现。

主要包括三个关键组件：自动课程用于最大化探索；一个不断增长的可执行代码技能库，用于存储和检索复杂行为；一种新的迭代提示机制，结合环境反馈、执行错误和自我验证来改进程序。

论文链接：https://arxiv.org/pdf/2305.16291

Voyager通过黑箱查询与GPT-4进行交互，无需对模型参数进行微调；开发的技能具有时间扩展性、可解释性和组合性，使得智能体的能力迅速增强，并减轻了灾难性遗忘。

代码生成

The Stack项目包含30种编程语言的许可源代码，大小为3.1TB，论文描述了数据集的收集过程；通过在不同的Python子集上训练具有3.5亿参数的解码器，展现了根据文本生成代码的潜力，仅使用许可数据就可以达到之前模型在HumanEval和MBPP的性能，后续模型发展为Stack v2和StarCoder

论文链接：https://arxiv.org/pdf/2211.15533

开源的代码模型论文包括 DeepSeek-Coder, Qwen2.5-Coder, CodeLlama；很多人认为Claude 3.5 Sonnet是最好的代码模型，但没有相关论文。

论文链接：https://arxiv.org/pdf/2401.14196

HumanEval/Codex论文是GitHub Copilot底层技术解释，是代码领域必备知识的基准测试；编码领域更有名的是SWE-Bench，可以评估大型语言模型在解决真实世界中GitHub软件问题能力：给定一个代码库和一个具体的问题描述，要求语言模型生成一个补丁来解决该问题；其他替代品包括Aider, Codeforces, BigCodeBench, LiveCodeBench和SciCode

Codex论文链接：https://arxiv.org/pdf/2107.03374

代码生成问题有别于自然语言生成问题，需要精确匹配目标语言的语法，识别出常见路径和边缘情况，更关注细节。

AlphaCodium论文提供了一种通用的解决方案，基于测试的、多阶段的、面向代码的迭代流程，可以提高LLMs在代码问题上的性能，在验证集上将GPT-4的性能从19%提升到了44%

论文链接：https://arxiv.org/abs/2401.08500

CriticGPT主要关注代码生成中的安全问题，可以帮助人类更准确地评估模型编写的代码；模型使用RLHF训练以编写自然语言反馈；实验发现模型在63%的情况下比人类的批评结果更好，成功识别出在ChatGPT训练数据中标记为「完美无瑕」的数百个错误，并且很多都是分布外的「非代码任务」。

论文链接：https://criticgpt.org/criticgpt-openai/

视觉模型

YOLO不算是基于大模型的工作，但仍然很重要，已经更新到了v11，很多基于Transformer的模型如DETRs目前已经超越了YOLO的性能。

YOLO v1将目标检测视为一个回归问题，即预测空间上分离的边界框及其相关的类别概率，通过一个神经网络即可直接从整张图像中预测边界框和类别概率，训练过程可以进行端到端优化。

基础的YOLO模型预测速度可以实现每秒45帧，小网络Fast YOLO可以实现每秒155帧，平均精度比其他实时检测器高出两倍。

论文链接：https://arxiv.org/pdf/1506.02640

CLIP模型是第一个成功的ViT模型，目前已经被BLIP/BLIP/SigLIP/PaliGemma取代。

CLIP直接从关于图像的原始文本中学习表征，监督信号的来源比「固定、预设的对象类别」更广泛；训练任务也很简单，预测图像描述与哪个图像匹配，在4亿个（图像，文本）数据对上对模型从头开始训练，实现了与原始ResNet-50在ImageNet相当的零样本准确率；在30多个计算机视觉基准任务上，性能与完全监督的基线模型相当，而不需要特定数据的训练。

论文链接：https://arxiv.org/pdf/2103.00020

MMVP（多模态视觉模式）基准量化了CLIP的核心问题：视觉信息是否足以应对语言描述？

论文链接：https://arxiv.org/pdf/2401.06209

论文探索了CLIP的视觉嵌入空间与仅视觉的自监督学习之间的差距，揭示了多模态模型和CLIP的视觉模式存在高度关联，经常会给出错误的答案和幻觉解释。

Segment Anything Model (SAM)及SAM 2是非常成功的图像和视频分割基础模型，通常与GroundingDINO搭配使用。

研究人员在SAM中构建了迄今为止最大的分割数据集，包含超过10亿个遮罩，1100万张授权图像；模型具备零样本学习能力，可以直接迁移到新的图像分布和任务，并且性能与之前的完全监督模型性能相当，甚至更优。

论文链接：https://arxiv.org/pdf/2304.02643

声音模型

OpenAI的Whisper一个相当成功的ASR模型，后续发布的Whisper v2, v3, distil-whisper以及v3 Turbo都是开放权重但是没有论文。

Whisper论文链接：https://arxiv.org/pdf/2212.04356

在PaLM变为Gemini之前，AudioPaLM算是谷歌在语音领域的绝唱。

AudioPaLM将基于文本（PaLM-2）和基于语音（AudioLM）的语言模型融合成一个统一的多模态架构，能够处理和生成文本和语音，下游应用包括「语音识别」和「语音到语音的翻译」；继承了AudioLM保持副语言信息（如说话者身份和语调）的能力，以及像PaLM-2这样的基于文本的大型语言模型中独有的语言知识。

论文链接：https://arxiv.org/pdf/2306.12925

Meta发布的Llama 3语音模型也可以作为竞品参考。

论文链接：https://arxiv.org/pdf/2407.21783

NaturalSpeech是领先的「语音合成」（TTS）方法之一，最新版本为v3

研究人员在论文中首先基于主观测量的统计显著性来定义「人类水平」的语音合成质量，然后利用变分自编码器（VAE）进行端到端的文本到波形生成，并通过几个模块来增强先验从文本中的能力，以及降低后验从语音中的复杂性，包括音素预训练、可微分时长建模、双向先验/后验建模，以及VAE中的记忆机制。

论文链接：https://arxiv.org/abs/2205.04421

图像/视频扩散模型

Stable Diffusion绝对是最有名的开源文生图模型，旗下还有SD2, SDXL, SD3模型及论文。

Latent Diffusion模型首次将扩散模型应用于预训练自编码器的潜空间中，极大降低了扩散模型的训练、微调、推理的成本，可以在降低复杂度和保留细节之间达到最优的平衡，并提升视觉保真度。

论文链接：https://arxiv.org/pdf/2112.10752

通过在模型架构中引入交叉注意力层，扩散模型就变成了通用条件输入生成器，可以处理文本或边界框，实现高分辨率合成。

OpenAI的DALL-E系列文生图模型有三代，其论文也值得阅读。

DALL-E 3论文链接：https://cdn.openai.com/papers/dall-e-3.pdf

谷歌的文生图模型Imagen有三代，后续工作为Ideogram 2.0

Imagen 3论文：https://arxiv.org/abs/2408.07009

一致性模型论文是后续工作LCMs（潜一致性模型）的基础，解决了由于迭代采样导致生成速度过慢的问题：直接将噪声映射到数据来生成高质量样本，采用多步采样来提升效率，但样本质量略有下降；同时支持零样本数据编辑，如图像修复、上色和超分辨率，而无需进行显式训练，最新版本为sCMs

论文链接：https://arxiv.org/pdf/2303.01469

文本到视频模型Sora虽然没有论文，但是其底层原理DiT和开源模仿者OpenSora可以作为参考。

DiT用一个潜在块Transformer替换了常用的U-Net主干网络，具有更高的Gflops，通过增加Transformer的深度/宽度或增加输入token的数量，可以进一步降低FID距离分数，在类条件ImageNet 512x512和256x256基准测试中超越所有先前的扩散模型。

DiT论文链接：https://arxiv.org/abs/2212.09748

扩散模型同样可以应用在其他模态上，如Text Diffusion, Music Diffusion

微调

使用LoRA/QLoRA在本地模型和4o模型上进行微调，都已被证明是一种低成本的微调方法。

QLoRA论文链接：https://arxiv.org/pdf/2305.14314

QLoRA通过冻结4位量化预训练语言模型和低秩适配器（LoRA）实现反向传播，可以在单个48GB GPU上微调一个650亿参数的模型，同时保持16位微调任务的性能；最佳模型Guanaco在仅24小时的微调后达到了ChatGPT性能的99.3%

文中还详细分析了聊天机器人基准测试的局限性，展示了GPT-4评估是一种廉价且合理的替代人类评估的方法。

DPO（直接偏好优化）是PPO（近端策略优化）的替代方案，开发者更喜欢用DPO，但其性能上略逊一筹，OpenAI也选择DPO作为偏好微调方法。

DPO论文链接：https://arxiv.org/pdf/2305.18290

基于人类反馈的强化学习（RLHF）是一个复杂且不稳定的过程，需要先训练一个反映人类偏好的奖励模型，再通过强化学习对大型无监督语言模型进行微调。

DPO是一种新的奖励模型参数化方法，可以用简单的分类损失来解决标准的RLHF问题，稳定、高效且计算成本低，无需在微调过程中从语言模型中抽样或进行大量的超参数调整；在控制生成内容符合人类偏好方面，DPO的表现超过了基于PPO的RLHF

ReFT（表示微调）不关注某些层，而是关注特征：在冻结的基础模型上操作，学习对隐藏表示进行特定任务的干预，可以替代现有的参数高效微调（PEFT）方法，学习到的干预措施比LoRA的效率提升15到65倍。

论文链接：https://arxiv.org/pdf/2404.03592

Orca和Orca2项目展现了使用「合成数据」对小型语言模型进行训练后，可以极大提升模型性能；

Orca 3-AgentInstruct的研究成果再把这个结论向前推进了一步：开发了一个框架，可以从原始数据源大规模生成多样化和高质量的定制数据集（包括用户提示和模型回复），最终吸能在AGIEval上提高了40%，在MMLU上提高了19%，在GSM8K上提高了54%；论文公开了其中100万个数据对。