NVIDIA与MIT等联手突破：缩放压缩技术实现AI图像视频高效处理_新浪财经

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：科技行者）

这项由NVIDIA联合MIT、加州大学伯克利分校、加州大学圣地亚哥分校、华盛顿大学、清华大学等多家顶级科研院校共同完成的研究，发表于2025年3月的arXiv预印本平台（论文编号：arXiv:2412.04468v2）。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

在人工智能的世界里，有一个看似矛盾却又巧妙的现象正在发生。当我们希望AI能够既看得清楚又反应迅速时，通常会遇到一个两难境地——要么牺牲精度换取速度，要么为了准确性而忍受缓慢。然而，这个由多家顶级研究机构组成的团队却找到了一个颇具智慧的解决方案，他们称之为"先放大再压缩"的策略。

设想你在整理一个巨大的图书馆。传统的做法可能是直接把书籍按照固定的格式整理到书架上，但这样往往会丢失很多重要信息。而这个研究团队采用的方法更像是先把所有书籍摊开在一个巨大的桌面上，让图书管理员（AI）能够看清每本书的细节，然后再用一种巧妙的方式把这些信息有序地压缩到书架里，既保留了重要内容，又节省了空间和查找时间。

这项研究的核心成果是一个名为NVILA的视觉语言模型家族。视觉语言模型就像是一个既能看图又能说话的智能助手，它不仅能理解图片和视频的内容，还能用自然语言与人类进行对话。但与以往的模型不同，NVILA在保持高准确率的同时，显著提升了运行效率——训练速度提高了1.9到5.1倍，处理速度提高了1.6到2.8倍，这意味着同样的任务能够用更少的时间和资源完成。

研究团队发现，现有的视觉语言模型在处理高清图片和长视频时面临着严重的效率瓶颈。就像试图通过一个很小的窗口观察一幅巨大的画作，要么只能看到局部细节，要么就要花费大量时间来慢慢扫视整幅作品。传统方法通常会把所有图片强制调整为统一的小尺寸，这样虽然处理起来比较快，但会丢失很多重要的细节信息。

一、化解矛盾的智慧：先放大再压缩策略

研究团队提出的"先放大再压缩"策略就像是一位经验丰富的摄影师处理照片的过程。首先，他们让AI以非常高的分辨率来"观察"图片，就像用高倍放大镜仔细查看每一个细节。对于图片，他们使用一种叫做Dynamic-S2的技术，这种技术能够根据图片的实际比例来调整观察方式，而不是像以前那样强行把所有图片都裁剪成正方形。

当你拍摄一张横向的风景照时，如果强行裁剪成正方形，就会丢失两边的景色。Dynamic-S2技术就像是一个智能的取景框，能够根据照片的原始形状来调整观察角度，确保不遗漏任何重要信息。具体来说，它会把一张大图片分割成若干个小块，每个小块都用原始分辨率进行处理，然后再把这些处理结果巧妙地组合起来。

对于视频处理，研究团队将可处理的帧数从传统的8帧大幅提升到256帧。这就像是从只能看到电影中几个关键镜头，变成能够观看完整的电影片段。更多的帧数意味着AI能够更好地理解视频中的动作变化和时间关系，比如能够准确识别一个人从坐着到站起来的完整过程。

然而，仅仅是提高分辨率和帧数还不够，因为这会带来巨大的计算负担。这时候"压缩"策略就发挥了关键作用。研究团队开发了两种压缩技术：空间压缩和时间压缩。空间压缩采用了一种叫做"空间-通道重排"的方法，简单来说就是把相邻的像素点重新组织，用更少的空间表示相同的信息。这就像是把一张4×4的拼图重新排列成2×2的形式，虽然看起来变小了，但包含的信息量基本保持不变。

时间压缩则使用了"时间平均"的技术。由于视频中相邻的帧往往非常相似（就像连环画中相邻两页的差别很小），研究团队将连续的几帧进行平均处理，既保留了动作的连续性，又减少了需要处理的数据量。这种方法能够将视频的数据量压缩4倍，而对理解效果的影响微乎其微。

为了验证压缩后的效果不会显著降低模型的理解能力，研究团队还增加了一个额外的预训练阶段，专门用来让视觉处理器适应这种压缩方式。就像一个人戴上新眼镜后需要时间适应一样，AI系统也需要通过专门的训练来学会如何从压缩后的信息中提取关键内容。

二、提升训练效率：数据筛选与精度优化

除了在模型结构上的创新，研究团队还从数据处理和计算精度两个方面入手，进一步提升了训练效率。他们发现，并不是所有的训练数据都对模型的学习有同等的价值，就像学生复习时，有些题目对提高成绩很有帮助，而有些题目要么太简单要么太难，练习价值有限。

为了筛选出最有价值的训练数据，研究团队开发了一种叫做DeltaLoss的数据评分方法。这个方法的工作原理有点像是让两个不同能力的学生来做同一套试题。如果小学生和中学生都能正确回答某个问题，说明这个问题可能太简单了；如果两人都答错了，说明问题可能太难；但如果小学生答错而中学生答对了，这样的问题就最有训练价值，因为它正好处在学习的"甜蜜点"上。

通过这种方法，研究团队成功地将训练数据集从原来的1亿个样本压缩到5000万个高质量样本，训练速度提高了一倍，同时模型的性能几乎没有下降。这就像是从一个庞大的题库中精选出最有代表性的习题，让学习变得既高效又有针对性。

在计算精度方面，研究团队采用了FP8混合精度训练技术。传统的深度学习训练通常使用16位浮点数进行计算，而FP8技术则使用8位浮点数。这种改变就像是从使用高精度的测量仪器改为使用普通精度的仪器——虽然单次测量的精度略有降低，但处理速度大大提升，而且对最终结果的影响很小。

这种技术的优势在视觉语言模型训练中尤为明显。由于视觉语言模型处理的数据长度变化很大（有些样本只需要处理几百个数据点，而视频样本可能需要处理几万个数据点），使用FP8技术可以显著提高GPU的利用率，让计算资源得到更充分的发挥。

三、智能微调：让专业应用事半功倍

当一个基础模型训练完成后，通常还需要针对特定领域或任务进行微调，这就像是让一个通才变成某个领域的专家。传统的微调方法往往需要更新模型的所有参数，这不仅耗时耗力，还需要大量的计算资源。

研究团队在微调方面也做出了重要创新。他们发现，视觉处理器和语言处理器在微调时应该使用不同的学习速度。具体来说，视觉处理器的学习速度应该比语言处理器慢5到50倍。这种差异化的学习策略就像是在教一个人学习新技能时，对于他已经比较熟悉的部分采用温和的教学方式，而对于完全陌生的部分则需要更加细致和缓慢的指导。

更进一步，研究团队发现，对于视觉处理器，只需要微调其中的层标准化部分就能达到很好的效果，而不需要调整整个网络。这就像是在调试一台复杂的机器时，只需要调整其中几个关键的控制开关，而不必拆解整台机器重新组装。这种方法不仅能够节省25%的训练时间，还能在24GB显存的消费级显卡上完成微调，大大降低了技术门槛。

这种高效的微调策略使得NVILA能够快速适应不同的专业领域，比如医疗影像分析、机器人导航、时间定位等。每个领域的适应过程都变得更加经济和高效，这意味着更多的研究者和开发者能够基于NVILA开发出适合自己需求的专业应用。

四、部署优化：让AI在各种设备上飞奔

即使有了高效的模型，如何让它在实际应用中快速运行仍然是一个挑战。研究团队为NVILA开发了专门的推理引擎，采用了量化技术来进一步提升运行速度。量化技术就像是把一幅用256种颜色绘制的画改为用16种颜色绘制，虽然色彩丰富度略有降低，但文件大小大幅缩小，传输和处理速度显著提升。

对于视觉处理部分，研究团队使用了W8A8量化（权重和激活都使用8位精度），这主要是为了加速图片和视频的初始处理阶段。对于语言处理部分，则使用了W4A16量化（权重使用4位精度，激活使用16位精度），这主要是为了在生成文本时保持速度优势。

这种分阶段的量化策略就像是在不同的路段使用不同的交通工具：在宽阔的高速公路上使用高速列车快速通过视觉处理阶段，在需要精细操作的城市街道则使用更灵活但相对较慢的普通车辆来生成准确的文本回应。

通过这些优化，NVILA在单张RTX 4090消费级显卡上的运行速度比同类模型提升了1.6到2.8倍。这意味着原本需要几秒钟才能完成的图片理解任务，现在可能只需要一秒钟就能完成，大大改善了用户体验。

五、实际效果：在各项测试中的出色表现

为了验证NVILA的实际效果，研究团队在多个标准测试中对其进行了评估。这些测试涵盖了图片理解、视频理解、数学推理、文档分析等多个方面，就像是给一个学生进行全面的期末考试。

在图片理解方面，NVILA在包括AI2D科学图表理解、ChartQA图表问答、DocVQA文档问答等在内的十个主要测试中都表现出色。特别是在处理包含大量文字的图片时，NVILA的优势更加明显。比如在文档理解任务中，NVILA-8B的表现甚至超过了一些参数量更大的模型，这主要得益于其能够处理高分辨率图片的能力。

在视频理解方面，NVILA展现出了处理长视频的强大能力。在Video-MME测试中，当处理包含256帧的长视频时，NVILA-8B在短视频、中等长度视频和长视频三个类别中都取得了最佳成绩。这种能力对于理解复杂的视频内容特别重要，比如分析一段教学视频或者理解一个完整的故事情节。

值得注意的是，NVILA不仅在准确性上表现出色，其效率优势也得到了充分验证。与其他同级别模型相比，NVILA的训练时间减少了1.9到5.1倍，推理速度提升了1.2到2.8倍。这种效率提升对于实际应用来说意义重大，因为它意味着相同的计算资源可以处理更多的任务，或者相同的任务可以用更少的资源完成。

六、拓展应用：从时间定位到机器人导航

除了在标准测试中的表现，NVILA还展示了在多个专业领域的应用潜力。在时间定位任务中，NVILA能够准确地识别视频中特定事件发生的时间点。比如当用户询问"视频中角色跳跃的时间段"时，NVILA不仅能够理解这个问题，还能准确地标出相应的时间区间。

在机器人导航领域，基于NVILA的NaVILA系统在视觉语言导航任务中取得了突破性的成果。这个系统能够理解诸如"走出客厅，右转进入厨房，在柜台末端左转，等在走廊对面稍微偏左的房间里"这样复杂的自然语言指令，并成功地控制机器人完成相应的导航任务。更令人印象深刻的是，这个系统可以在普通笔记本电脑的GPU上实时运行，整个从摄像头获取图像到输出动作指令的流程能够以1Hz的频率稳定运行。

在医疗应用方面，NVILA-M3框架展示了在医疗图像分析中的巨大潜力。通过整合多个医疗专业领域的专家模型，NVILA-M3在放射科、病理科、胸部X光等多个医疗任务中都实现了显著的性能提升。这种多专家协作的方式就像是组建了一个由不同科室专家组成的医疗团队，每个专家都贡献自己的专业知识，最终形成更准确、更全面的诊断建议。

在这些专业应用中，NVILA展现出的不仅是技术上的先进性，更重要的是实际部署的可行性。无论是机器人导航中的实时响应需求，还是医疗应用中的准确性要求，NVILA都能在保持高性能的同时满足实际应用场景的效率需求。

七、技术细节：五阶段训练的精妙设计

NVILA的训练过程采用了一个精心设计的五阶段策略，每个阶段都有明确的目标和作用。这个过程就像是培养一个学生从基础知识到专业技能的完整教育过程。

第一阶段是投影器初始化，主要目的是让视觉信息和语言信息能够在同一个"语言"系统中交流。这就像是为两个说不同语言的人配备翻译器，让他们能够开始基本的沟通。

第二阶段是视觉编码器预训练，这是NVILA相比传统模型新增的一个重要阶段。由于采用了空间压缩技术，视觉编码器需要重新学习如何从压缩后的信息中提取有用特征。这个阶段就像是让一个习惯了看原版画作的艺术评论家学会如何从压缩后的印刷品中识别艺术风格。

第三阶段是语言处理器预训练，主要是让模型学习基本的语言理解和生成能力。第四阶段是图像指令调优，让模型学会如何回答关于图像的问题。第五阶段是视频指令调优，专门针对视频理解能力进行强化训练。

这种阶段性的训练策略确保了模型在每个发展阶段都能获得充分的学习，避免了一次性学习过多任务可能带来的混淆和效率低下问题。整个训练过程使用了128张NVIDIA H100 GPU，全局批次大小为2048，采用了AdamW优化器和余弦学习率衰减策略。

八、性能对比：效率与精度的双重胜利

在与其他先进模型的对比中，NVILA展现出了显著的优势。以LLaVA-OneVision为例，NVILA在图像模型训练上速度提升了5.1倍，在视频模型训练上速度提升了1.9倍。与Qwen2-VL相比，NVILA在预填充阶段速度提升了1.6到2.2倍，在解码阶段速度提升了1.2到2.8倍。

这种速度提升并没有以牺牲准确性为代价。在几乎所有的测试基准中，NVILA都能保持与其他顶级模型相当或更好的性能。特别是在处理高分辨率图像和长视频的任务中，NVILA的优势更加明显。

从实际应用的角度来看，这种效率提升意味着原本需要几天才能完成的模型训练工作，现在可能只需要不到一天就能完成。对于需要频繁更新模型或者进行大量实验的研究项目来说，这种效率提升能够大大加快研究进度。

更重要的是，NVILA的高效性让更多的研究者和开发者能够参与到视觉语言模型的研究和应用开发中来。以前可能需要大型科技公司才能承担的计算成本，现在中小型研究团队也能够负担得起，这有助于推动整个领域的创新和发展。

研究团队将NVILA的代码和模型都进行了开源，这意味着任何感兴趣的研究者都可以基于NVILA进行进一步的研究和开发。这种开放的态度不仅体现了学术研究的分享精神，也为整个人工智能社区提供了宝贵的资源和工具。

说到底，NVILA代表的不仅仅是一个技术上的进步，更是一种思维方式的转变。它告诉我们，在追求AI能力提升的过程中，效率和准确性并不是对立的，通过巧妙的设计和优化，我们完全可以实现两者的兼得。这种"先放大再压缩"的策略不仅在视觉语言模型领域有所突破，其背后的设计理念也可能为其他人工智能技术的发展提供有益的启示。

归根结底，这项研究为我们展示了一个更加高效、实用的AI未来。无论是想要让机器人更好地理解人类指令，还是希望AI能够更快地处理医疗影像，或者是期望在普通设备上也能运行强大的AI应用，NVILA都为这些愿景的实现铺平了道路。随着这项技术的进一步发展和应用，我们有理由相信，AI将能够以更低的成本、更高的效率为人类社会带来更多的便利和价值。

Q&A

Q1：NVILA的"先放大再压缩"策略具体是怎么工作的？

A：NVILA首先让AI以高分辨率观察图片和视频，捕获所有细节信息，然后通过空间压缩和时间压缩技术将信息量减少，既保留了关键内容又提升了处理速度。就像先用放大镜看清楚，再用巧妙的方式把信息整理收纳。

Q2：普通用户能否使用NVILA技术？

A：NVILA已经开源，技术人员可以直接使用。对普通用户来说，随着技术的推广，未来会有更多基于NVILA的应用产品出现，比如更快的图像理解软件、智能客服系统等。目前主要还是面向研究者和开发者。

Q3：NVILA比其他AI模型有什么明显优势？

A：NVILA最大的优势是在保持准确性的同时大幅提升效率，训练速度提升1.9-5.1倍，处理速度提升1.2-2.8倍。这意味着同样的任务用更少时间完成，同样的资源能处理更多工作，让AI应用变得更经济实用。