中国移动联合研发2D数字人说话驱动系统:可生成7种情绪,用于5G新通话、AI客服等

中国移动联合研发2D数字人说话驱动系统:可生成7种情绪,用于5G新通话、AI客服等
2024年12月09日 14:23 飞象网

中国移动 12 月 8 日宣布联合南京大学团队研发高保真 2D 数字人说话驱动系统。

作为拥有世界规模第一用户数的通信运营商,中国移动每年的客户服务运营成本巨大。现已广泛普及的智能语音客服虽能完成一定的业务自动应答任务,但依然不及人工客服面对面,一对一的星级服务体验。

针对实际业务存在的痛点,中国移动九天视觉团队联合南京大学邰颖团队,研发高保真 2D 数字人说话驱动系统,旨在为用户提供表情自然、唇音同步和头部姿态和谐的数字人播报对话服务,可应用于智能客服、教育培训、广告营销等场景。

▲ 情感控制的高保真 2D 数字人说话驱动方法▲ 情感控制的高保真 2D 数字人说话驱动方法

据中国移动官方介绍,2D 数字人说话驱动系统实现根据给定目标人物的照片或视频和任意一段音频,生成与音频同步的目标人物说话视频流。要求生成视频里的人物逼真度高,表情姿态自然,同时需要具有较高的实时性,能做到与语言大模型、音频合成能力有机整合,构建起人物数字替身。

中国移动九天视觉团队联合南京大学研发的高保真 2D 数字人说话驱动系统,在以下三方面开展了技术攻坚和方案创新:

第一,性能实时:相比以往数字人方法,在实时播报的口型生成技术上达到了学术界领先水平,支持中英文数字人口型驱动,在保持效果的情況下达到实时性能 30ms / 帧。

第二,效果领先:研发二阶段学习框架,将数字人说话驱动拆解成:从音频到口型系数和从口型系数到生成人像两部分,降低学习难度,实现更好的生成效果。

第三,情绪控制:引入情绪引导学习模块,支持正常、微笑、惊讶、愤怒、恐惧、悲伤等 7 种主流情绪控制生成能力,赋予生成的播报人人文情感表达能力。

▲ 高兴、悲伤情绪下的数字人说话生成效果▲ 高兴、悲伤情绪下的数字人说话生成效果

从中国移动官方获悉,数字人生成技术上实现了端到端的二阶段 30 FPS 实时生成性能,并支持 512*512 人脸区域生成,同时具备高兴、悲伤等 7 种主流情绪控制生成能力。

在评测集 VoxCeleb 指标方面,该技术的口型准确性 LMD(LandMark Distance)达到 4.3,生成自然度 FID 达到 11.1。

中国移动官方表示,该研发成果应用前景广阔,有效降低了创作门槛,提升了生成人物的视觉质量,已为 5G 新通话、和留言小秘书品牌业务的拓展赋能升级。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片