科技首页创事记互联网电信 IT业界投稿

Meta数字人2代来了！告别VR头显，iPhone一扫就行

2022-06-17 12:56:50 创事记作者：

Meta的逼真数字人2.0再次进化，现在可以用iPhone生成了，只要拿出手机扫一扫！

早在2019年3月，Facebook就在活动上展示了第一代数字人形象（Codec Avatar 1.0）。第一代数字人是利用多重神经网络，用 132 个摄像头的专用捕获装置生成的。

一旦生成，在VR头显设备上的5个摄像头。每只眼部提供两个内部视角，脸部以下提供三个外部视角。

就像下面这样。

从那时开始，Facebook一直在不断改进这些虚拟形象的逼真度，比如只需麦克风和眼球追踪技术，就可以获得更逼真的形象。最终在2020年8月进化为Codec Avatar 2.0版。

2.0版比1.0版最大的进步在于，摄像头不再需要扫描跟踪人脸，而是只要跟踪眼球的运动就行了。

新的神经网络将VR头显的眼动追踪数据与麦克风的音频馈送相融合，推断佩戴者可能的面部表情。

将声音模型和眼动模型数据反馈至混合模型，再经过融合模型计算处理，由渲染器输出Avatar形象。

今年5月，团队更进一步宣布，2.0版的Avatar彻底达成了「完全逼真」的效果。

「我想说的是，未来十年的一个重大挑战是，我们是否可以实现与面对面互动无法区分的远程Avatar互动。」该项目负责人之一的 Sheikh 说。

看看上面的对比，a为真人照片，e为最终渲染生成的虚拟人，看起来好像没有怎么吹牛？

别急，上面这是实验中的比对结果，实际上应用场景下，目前Meta虚拟人的形象是这样的。

即使是最右边「最逼真」的形象，还是卡通形象，这离「完全逼真」怕是还有点远，不过Meta说的是十年，看看演示中的形象，这个目标实现的希望还是不小的。

而且，虚拟人技术的进步，也不仅仅体现在逼真度一个方向，大可不必沿着一条路一直走，Meta也在尝试着其他方向。

比如，摘掉VR头显？

以前，生成一个单独的Codec头像需要带一个名为「MUGSY」专门捕捉设备，上面有171个高分辨率摄像头，就是上图这个（密恐退散）。

Meta现在说，不用带这东西了，有个iPhone就行了！

只要一台带正面深度传感器的智能手机（比如带FaceID功能的iPhone），直接扫一扫（确切地说，是好几十扫），就能生成逼真的虚拟人头像。

首先保持面无表情，扫描一次，然后做出各种不同的表情，最多支持65种不同表情。

Meta称，用手机完成表情扫描，平均大概需要3-4分钟。

当然这少不了算力的支持，最终生成的逼真虚拟人头像，在一台有四个高端GPU的机器上，大概需要6个小时。

当然，如果这个技术用在产品上，这些计算会交给云端GPU，无需用户自己的算力资源。

那么，为什么之前需要100来个摄像头才能完成的事，现在只需一台手机就可以做到了呢？

秘诀就是一种叫做Hypernetwork的通用模型。

这是一种神经网络，可以生成另一个神经网络的权值。在上面的例子中，就是生成特定人的Codec Avatar.

研究人员通过扫描255个不同的人脸来训练这个模型，使用的是一种先进的捕捉装置，很像MUGSY，但是只有90个摄像头。

虽说别的研究人员已经展示过用智能手机扫描生成的人像了，而且Meta表示，生成的结果是SOTA级别的。

然而，现在的系统还是不能应付眼镜和长头发。并且只能到头，身体的其它部位还不行。

当然了，Meta在达到这种保真度之前，还有很长的路要走。

现在Meta的人像都有种卡通风格。而那种逼真的感觉随着时间的推移慢慢降低了。

现在这种形象可能更适合用Quest 2玩儿Horizon Worlds的群体。

然而，Codec Avatar可能最终只会是一个单独的选项，而不是现在这种卡通风格的升级。

Meta的CEO扎克伯格是这么描述未来的：你可能会用一个充满表现主义的人像玩儿平常的游戏，而用一个更逼真的人像来参加工作会议什么的。

今年4月，负责Codec Avatar团队的Yaser Sheikh表示，「现在来预测Codec Avatar还有多久能投入使用是不太可能的。」

不过，他明确表示，他认为项目是有很大进步的。

「如果说之前离实现还差十个奇迹那么远，如今可能只差五个奇迹了。」

（声明：本文仅代表作者观点，不代表新浪网立场。）

分享到:

保存 | 打印 | 关闭

作者简介