腾讯携手创新“无监督前缀微调”技术：降低 AI 推理计算开销|推理_新浪财经

IT之家 3 月 2 日消息，科技媒体 marktechpost 昨日（3 月 1 日）发布博文，报道称腾讯 AI Lab 携手香港中文大学，提出名为“无监督前缀微调”（UPFT）的创新方法，显著提升了大型语言模型的推理效率。

该方法无需处理完整的推理过程，只需关注模型输出的前 8 至 32 个词元（token），即可有效改进模型的推理能力。UPFT 抓住了不同推理路径中共同的关键早期步骤，在降低计算开销的同时，实现了推理性能的提升。

大型语言模型在语言理解和生成方面表现出色，但提升其推理能力仍然是一项挑战。传统微调方法依赖大量标注数据或复杂的拒绝采样，资源消耗巨大。UPFT 则另辟蹊径，通过聚焦模型输出的初始 tokens，解决了效率和对昂贵监督的依赖问题。

研究发现，针对同一问题，模型生成的各种推理路径的初始步骤往往高度相似，UPFT 正是基于这种“前缀自洽性”，无需完整推理轨迹或大量标注数据，仅使用这些初始标记进行训练。

UPFT 采用贝叶斯推理原理，将正确推理的概率分解为“覆盖率”和“准确性”两部分。通过训练早期 tokens，UPFT 在探索多样化推理路径的同时，确保了结果的可靠性。实验表明，UPFT 可将训练中处理的 tokens 数量减少高达 95%，并显著降低时间和内存需求。

UPFT 在 GSM8K、MATH500、AIME2024 和 GPQA 等推理基准测试中表现优异。例如，在 Qwen2.5-Math-7B-Instruct 模型上，UPFT 在减少训练和推理 tokens 的同时，提升了平均准确率。在复杂推理任务中，UPFT 的性能提升尤为显著，表明早期推理步骤包含解决问题的关键信息。