AI 生成人物视频翻车？商汤推出可控人物视频生成模型 Vimi|AI|人脸_新浪科技

摘要

商汤推出「可控」视频生成模型 Vimi，可精确模仿人物微表情。

作者 | Li Yuan

编辑 | 郑玄

6 月，又是 AI 视频生成的一个重要月份，Runway 3、Luma AI、快手可灵纷纷推出了普通用户可用的视频生成模型。用 AI 生成视频，距离我们越来越近。

不过，相对于对话式机器人、AI 图片生成这些成熟的大模型使用场景，「AI 视频」离走出尝鲜还有一定距离。比如，无论是在影视剧里，还是在短视频中，视频的最重要的场景之一就是人脸，而在网上的视频生成测试中，最容易翻车之一的场景，也正是人脸。

下面是笔者用 Luma AI 尝试通过一张科学家图灵的照片生成的视频，让人物本身动起来相对容易，但一旦动起来，图灵的脸很快就变成了另一个人。

图片来源：Luma AI 生成

在大模型和智能视觉技术领域有深厚积累的商汤，希望解决视频生成中这种「不可控」的痛点。最近在上海的 WAIC 2024 上，推出了最新的人物 AI 视频模型 Vimi，主打技术的「可控性」。

同一张照片，在商汤的演示下，生成是这样的。

视频来源：商汤 Vimi 模型

不仅光影和谐，且人物的一致性保持度极高。

商汤是怎么做到的？

第一个人物「可控」的视频生成模型

据极客公园了解，此次的可控人物 AI 视频模型 Vimi 模型，由商汤数字文娱团队出品。

商汤从 2016 年开始，就持续深耕在人物表情的 AI 处理上，是亚洲地区最大的特效引擎提供商。作为用户，我们可能提起小狗滤镜，变脸特效，只能想起抖音这样的 C 端软件，不过其实背后，许多这样的特效的提供，都来自于商汤数字文娱团队。

去年，早在 Sora 的 demo 发布之前，他们就开始立项，进行可控人物 AI 视频模型的研发。重点发力「人物」、「可控」两个难点。

在视频生成中，可控性其实一直是不少模型努力的方向。

在 Vimi 模型之前，其实市面上已经有一些模型，能够较为可控地生成人物动作。

其中最出圈的，可能就是阿里出品的 AnimateAnyone，也就是曾经让兵马俑也能跳「科目三」的背后技术。采用了姿态引导器（Pose Guider）的技术，通过 Denoising UNet 模块进行视频的生成，AnimateAnyone 能够让人们在只输入一张图片的情况下，让图片做出姿态引导器所做出的动作。

简单讲，科目三的动作是被提前设置好的，而输入照片后，AnimateAnyone 可以让一张照片中的人物按照科目三的动作动起来。

AnimateAnyone 生成

不过很明显可以看出，AnimateAnyone 的姿态控制，更针对大范围的肢体动作。

而商汤团队的优势，在于塑造人物表情上更加鲜活。

同样是同时输入一张图片，和一个动作（可以是动画模型的 3D 骨架动作，也可以是一段视频），商汤的 Vimi 模型，能够做到对脸部和上半身动作进行精准地控制。这也是目前发布的第一个能够对人脸和上半身做如此精准可控的模型。

视频来源：商汤 Vimi 模型

商汤表示，模型训练本身，并没有使用特别的数据，只是采用了公开数据库进行训练。

而能够在人脸方面，成为第一个精准控制人脸表情的模型，主要源于商汤多年在面部跟踪方面的积累：「对人脸实现技术角度的精准控制，需要更精准地去跟踪人物表情中的每一个细节，包括牙齿、耳朵、眼球、睫毛等等。细节能够做的好，在人物的参数化上就可以做得非常的精准，之前的技术积累都是实现这个模型的前提。有了这些积累，真正训练的时候，使用的数据量可以少许多。」

事实上，除了专注于面部的可控之外，商汤的 Vimi 模型和 AnimateAnyone 在底层架构上也不同。AnimateAnyone 使用类似 ControlNet 的方法，从图像中的身体部位提取一些锚点，作为生成视频每一帧的动作参考；而商汤的 Vimi 模型，将人的动作和表情做了全面的理解和抽象，将整段动作信息作为一个整体，与生成模型对图像和视频信息的特征理解相融合，这样生成的视频在空间和时间上都能保持很好的整体性。

不同的训练架构，导致从生成效果来看，商汤的模型，对光影一致性的控制，效果非常优秀。「传统模型最大的一个问题是，它不太能合理地生成周边的内容，包括身体的动作和环境的一些变化。而采用大模型训练，可以整个的环境都跟着肢体的控制去变化，包括生成合理的头发的抖动。甚至能够模拟镜头角度，比如输入镜头是逐渐拉近，输出也能有自然的逐渐拉近的效果。而原本，要做出这样的效果，需要复杂的 3D 建模，绑定各种光效渲染才能做出来。」采访中商汤表示。