CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题|3D_新浪科技

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文链接：https://arxiv.org/abs/2306.16772
项目链接：https://cjerry1243.github.io/M3Act/
论文标题：M3Act: Learning from Synthetic Human Group Activities

引言

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一，但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今，合成数据集正成为一种新兴的，用于替代现实世界数据的方法，但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频，而这并不适用于人群的视频识别任务。

在这篇文章中，作者提出了一个适用于多群组人群行为的合成数据生成框架 M3Act。实验显示，该合成数据集可以大大提高下游模型在多人跟踪和群体活动识别上的性能，并可以在 DanceTrack 任务上替代超过 62.5% 的真实数据，从而在现实应用场景中降低数据标注成本。此外，该合成数据框架还提出一类新的任务：可控 3D 群体活动生成。该任务旨在利用多种输入（活动类别、群体大小、轨迹、密度、速度和文本输入）直接控制群体活动生成结果。作者严格定义了任务和指标，并提供了有竞争力的基线和结果。

数据生成

基于 Unity 引擎开发，M3Act 涵盖了多种行为类型的人群数据，提供了高度多样化和逼真的视频图像，以及全面的数据标记。与其他合成数据集相比，M3Act 提供了更为全面的标记数据，包括 2D 和 3D 标记以及细粒度的个人级别和群组级别标签，因此使其成为支持多人和多组研究任务的理想合成数据集生成器。

数据生成器包括 25 个 3D 场景、104 个高动态范围全景图像、5 种光线设置、2200 个人物模型、384 个动画（14 个动作类别）和 6 个群体活动类型。数据生成过程如下所示，首先通过随机化过程确定一个模拟情景内的所有参数，然后根据参数生成带有背景对象、灯光和摄像机的 3D 场景，以及带有动画的人物模型群组。最后从多个视角渲染 RGB 图像并导出标记结果。

为确保模拟数据具有高度多样性，M3Act 为数据生成过程的几乎所有方面提供随机化。这包括场景中的群体数量、每个群体中的人数、群体的位置、群体中人的排列、个体的位置、实例化角色的纹理，以及场景、照明条件、相机位置、角色、群体活动、原子动作和动画片段的选择。每个群体活动也被构建为一个参数化模块。这些参数包括群体中的个体数量和群体活动内允许的特定原子动作。

最终生成的数据集分为两个部分。第一部分「M3ActRGB」包含了 6000 次单一但多类型群体活动的模拟和 9000 次多群体多类型模拟，总计 600 万张 RGB 图像和 4800 万个边界框（bounding box）。第二部分「M3Act3D」仅包含 3D 数据。它由超过 65000 次 150 帧单一多类型群体活动的模拟组成，总时长达 87.6 小时。据作者所知，M3Act3D 的群体大小和互动复杂度显著高于以前的多人运动数据集，是第一个针对大型群体活动的大规模 3D 数据集。

实验结果

M3Act 的实际效果通过三个核心实验展示：多人跟踪、群体活动识别和可控群体活动生成。

实验一：多人跟踪

研究发现，在既有模型 MOTRv2 [1] 的训练中添加合成数据后，模型在所有 5 个指标上都有显著提高，特别是在 HOTA 指标上的排名中从第 10 位跃至第 2 位。同时，当训练集中 62.5% 的真实数据被合成数据替换之后，模型依然可以取得相似的性能。另外，与其他合成数据源相比，如 BEDLAM 和 GTA-Humans，M3Act 为模型训练提供了更大的性能进步，表明其更适合多人群体活动任务。最后，下表展示了不同模型在 M3Act 下的训练结果。结果表明，M3Act 在各种模型中都是有效的。

实验二：群体活动识别

类似地，M3Act 也提高了两个既有群体活动识别模型的性能，如下表所示：随着用于预训练的合成数据量的增加，识别准确性不断提高。使用 100% 的合成数据时，群体活动识别模型 Composer [2] 的准确率在群体级别平均提高了 4.87%，个人级别提高了 7.43%，而另一群体活动识别模型 Actor Transformer [3] 在群体级别上看到了 5.59% 准确率的增加，在个人级别上增加了 5.43%。

下表展示了使用不同输入模态在 CAD2 和 Volleyball（VD）上的群体识别准确率。实验中的性能增益表明，M3Act 的合成数据可以有效地利于下游任务，并横跨不同模型、输入模态和数据集。

实验三：可控 3D 群体活动生成

作者提出了一个新型任务：可控 3D 群体活动生成。该任务旨在基于给定的活动类别标签和任意群体大小，从高斯噪声中合成一组 3D 人类动作。既有研究尽管可以生成多人动作，但它们限于双人场景或具有固定人数的群体。因此，作者提出了两个基线方法。在第一个基线方法中，群体活动通过重复调用单人运动扩散模型 MDM [4] 来实现，因此每个个体的生成过程都是独立的。第二个方法则基于 MDM 增加了一个互动变换器（IFormer）。由于其对人类互动的建模，MDM+IFormer 能够在一次前向传播中产生协调的群体活动。

作者从在群体和个体两个层面考虑以下评估指标：识别准确率、弗雷歇特初始距离（FID）、多样性和多模性。此外，作者基于社会力模型，在群体层面增补了四个基于位置的指标：碰撞频率、排斥互动力、接触排斥力和总排斥力。结果显示：

MDM+IFormer 能够生成具有良好对齐的角色位置的群体活动。请参见下面的定性图。
两个基线方法都能生成与输入条件匹配的多样化活动，但 MDM+IFormer 获得了更好的 FID 分数。
MDM+IFormer 中的互动变换器大大降低了生成的群体活动内的碰撞频率。

结论

论文作者通过多模态和增强性能的三个核心实验以及引入一种新的生成任务，展示了 M3Act 的优点。在多人跟踪和群体活动识别实验中，他们观察到了随着更多合成数据的加入，模型对未见测试案例的泛化能力得到了改善。

此外，M3Act 中的合成数据可以替代部分目标领域的真实数据而不影响性能，从而有望减少训练过程中对大量真实数据的需求，进而降低了数据收集和标注的成本。这一发现证明了小样本甚至零样本从模拟数据迁移到现实数据的潜力。

在可控 3D 群体活动生成中，尽管 MDM+IFormer 只是这一任务的基线模型，它仍然学习到了人物运动的交互规则，并在控制下生成对齐良好的群体活动。值得注意的是，尽管生成方法目前表现不及程序化方法，但它展示了直接从各种信号（活动类别、群组大小、轨迹、密度、速度和文本输入）控制群体动作的潜力。随着未来数据可用性增加和生成模型能力的提升，论文作者预计生成方法最终将占据优势，在社会互动和人类集体活动方面得到更广泛应用。

尽管 M3Act 数据集中群体行为的复杂性可能受到数据生成过程中启发式规则的限制，M3Act 在整合新的群体活动方面提供了显著的灵活性，从而适应任何特定的下游任务。这些新群体可以来源于专家指导的启发式规则、大型语言模型生成的规则或可控 3D 群体活动生成模型的输出。此外，论文作者认识到合成数据与现实世界数据之间存在的领域差异。随着未来版本中数据生成器中资产的增加，可以提高模型的泛化能力并缓解这些差异。

[1] Yuang Zhang, Tiancai Wang, and Xiangyu Zhang. Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22056–22065, 2023.

[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, and Hans Peter Graf. Composer: Compositional reasoning of group activity in videos with keypoint-only modality. Proceedings of the 17th European Conference on Computer Vision (ECCV 2022), 2022.

[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020.

[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.