构建AI实时音视频互动 声网这套方案听、看、思、说样样精通

构建AI实时音视频互动 声网这套方案听、看、思、说样样精通
2024年09月09日 11:33 飞象网

在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。

今年5月,GPT-4o 的发布开创了AI 实时语音交互的先河。在此之前,一些传统的大模型已经具备语音交互的能力,但一般采用 WebSocket 方案,这一方案虽然应用广泛,但其传输架构是基于 TCP 协议来构建,延迟较高,在 STT-LLM-TTS 的三步骤中,一个来回的延迟就要2-3秒,在弱网等非理想网络环境下,整体语音交互的延时更达到4秒+。在 GPT-4o 采用 RTC 方案后,展现出了自然、流畅的低延时语音交互体验,也让更多企业与开发者看到了在 AI 语音交互中 RTC 方案的更优性,并积极与 RTC 厂商合作,升级 AI 语音交互的体验。

声网对话式AI解决方案 构建实时多模态AI语音交互

声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过与客户在 AIGC 场景的深度合作,探索出了一套实时多模态对话式 AI 解决方案,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入&输出,通过丰富的功能构建真实、自然的 AI 语音交互体验。

例如对交互延迟进行优化,延迟可做到1s以内;支持 AI 降噪、背景人声过滤,让语音对话更纯静;支持随时打断与超拟人化人声合成,让对话更智能与逼真;同时还支持灵活可扩展的 AI Agent 架构等一系列功能,帮助开发者与企业快速构建适配自己业务场景的 AI 实时语音对话服务。

图:声网实时多模态对话式AI解决方案架构图图:声网实时多模态对话式AI解决方案架构图

1、延迟低于1s,极速响应:声网实时多模态对话式AI解决方案可做到语音对话延迟低于1s。通过在客户端进行低延迟的音频采集和播放、借助声网自研的 SD-RTN™ 实时传输网络实现全球范围的低延时 RTC 传输,并进一步通过更精准低延迟的AI VAD、更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性。

2、智能打断,贴近真实会话:在人类真实的语音对话中,打断对方并提出新的疑问是非常常见的现象,而在 AIGC 场景,能否支持随时打断也成为衡量大模型智能化的重要指标。声网的方案也支持先进的 AI 语音活动检测(AI VAD)技术,可实现灵敏的自然语音打断,模拟人类对话的自然流动,让对话更加真实、自然。

3、嘈杂环境下也能清晰对话:即使在嘈杂的环境中,声网的解决方案也能保证清晰的语音交流。通过AI噪声抑制、背景人声过滤、音乐检测/过滤等算法,确保人与 AI 的对话不受环境干扰,始终保持顺畅。

4、灵活可扩展的AI Agent架构:AI Agent 作为大模型的应用框架,其重要性不言而喻。对于开发者而言,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。

5、超拟人化人声合成:在一些传统的AI语音对话中,AI角色机械式的声音大大降低了对话的真实感。针对这一痛点,声网的解决方案超可实现超拟人真实音色,合成的声音几乎与真人无异,且支持私人定制音色,模拟喜怒哀乐等多种情绪表达,提升用户体验,使互动更加自然,还原真实体验感。

6、支持 RTC 与 SIP 网关互通:AI电话客服是当下 AIGC 应用最广泛的场景之一,具备呼叫中心坐席的特性,对此,声网的解决方案也支持 RTC 与 SIP 网关互通,用户可直接通过声网的RTCSDK 直接呼叫企业客服中心坐席,有效的降低客服成本,提升客服效率。

RTC能力加持下 AIGC应用场景迎来爆发

声网在与客户的合作中发现,在RTC 的加持下,AIGC应用场景迎来进一步爆发,AI智能助手、AI情感陪伴、AI口语老师、AI客服的 AI 交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。

来自量子位智库推出的 AI智能助手用户数据报告显示,截止8月国内市场的 AI智能助手 App 已超过64款。在 AI情感陪伴领域也涌现了 Soul、星野、Wow等一系列人气社交APP。

以 AI情感陪伴为例,随着多模态交互能力的升级,当下 AI情感陪伴类产品正呈现出三个特征:

1、语音/视觉交互:除了传统的文本交互外,越来越多的 AI情感陪伴类 APP 也在加入语音通话的功能,让 AI陪伴更具有真实感。同时在视觉交互方面,部分产品也支持了视频通话功能,通过3D建模、拟真渲染等技术构建逼真的数字人,让人与 AI 的情感交互更加拟人化。

2、情感计算:人与 AI 的一个核心区别就是人具备情感,为了让 AI 的回答更加智能与真实,许多 AI 陪伴产品开始加入情感计算的能力。通过语义识别、面部表情等信号检测用户的喜怒哀乐等情绪状态,并做出对应的情感回应,实现更加人性化的交互体验。

3、私人定制:标准化的人机交互千篇一律,个性化的定制才更有新意。具备个性化定制能力,提供自主创作和个性化选项已经成为 AI陪伴类产品的新趋势,例如定制原生IP角色、定制IP专属画风和语音体系、定制专属互动话题等一系列功能。

图:电影《Her》里的AI助理被视为AI情感陪伴的启蒙图:电影《Her》里的AI助理被视为AI情感陪伴的启蒙

在 AI口语老师场景,声网观察发现,1v1教学场景非常适用 AI口语老师,从真人教学变成自学模式,例如正价课1v1与 Demo 课1v1教学,AI数字人老师将代替真人,1v1 AI 口语老师将成为未来语言学习机构必备的应用,AI 数字人老师可能用于大龄学生与成人,卡通 IP 可用于低幼龄的课程。同时在职业教育赛道,已经有不少教育机构在大班课场景利用 AI数字人老师教学。

同时,在游戏社交、AI分身、实时语音翻译等场景,实时AI语音也大有可为。例如,在狼人杀、谁是卧底等场景,AI NPC 角色虽然已经在应用,但是 AI 的痕迹还是较为明显。在大模型具备实时语音交互能力后,谁是卧底中的 AI 角色可以做到快速的推理并发言,再搭配语音仿真技术,有望做到 AI 角色的以假乱真。

声网的实时多模态对话式AI解决方案目前已经上线,如您想进一步体验我们的 Demo或者接入该方案,可在声网公众号找到这篇文章,扫描文章底部的二维码联系我们。

AI语音交互
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片