Soul App创始人张璐团队升级端到端语音大模型，打造更真实的情感交流体验_新浪财经

转自：衡水日报

随着人工智能技术的飞速进步,越来越多的社交平台开始尝试借助AI优化用户体验。基于此背景,Soul App创始人张璐团队上线了自研的端到端全双工语音通话大模型,标志着其在语音技术领域取得了稳步前进。此次升级的端到端语音通话大模型具备超低交互延迟、快速自动打断、超真实声音表达及情绪感知理解等特性,实现了更为贴近生活的交互对话和情感陪伴体验。

从2016年上线,Soul就致力于通过技术创新来提升社交体验。早在2020年,Soul便启动了AIGC相关技术的研发,不断打磨和完善智能对话、语音技术等关键技术。同时,Soul还积极与国际前沿技术接轨,参与国际技术交流。今年7月,Soul语音技术团队在国际人工智能联合会议举办的多模态情感识别挑战赛上表现优异,在SEMI(半监督学习)赛道取得了第一名的好成绩,展现出Soul在语音技术领域的创新能力和强劲实力。

声音作为信息传递和情感表达的重要媒介,是Soul技术研发中的关键方向之一。尤其在社交场景中,语音交互的实时性和自然性直接影响用户的互动体验。为此,Soul团队专注于打造更加自然、情感化的语音模型,以提升人机交互的体验。

相较使用级联方案的语音模型,此次上线的端到端全双工语音通话大模型显著提升了交互效率和准确性。传统级联方案通常涉及语音识别、自然语言处理、语音生成等多个步骤,而步骤越多就越容易产生信息损耗和延迟。此次升级的端到端语音通话大模型通过直接处理语音输入和输出,减少了这些环节中的信息丢失,使得交互过程更加顺畅。此外,该模型还有快速自动打断等特点,实现更加流畅的语音交流。这种高效的语音处理能力,有效改善了人机交互质量。

声音不仅是信息传递的工具,也是情感交流的重要渠道。Soul创始人张璐团队认识到,拟人化的情感陪伴体验需要精确、自然的声音表达。此次升级之前,Soul就将自研的多个语音大模型(包括语音生成、语音识别、语音对话、音乐生成等)应用于“AI苟蛋”和“狼人魅影”的游戏互动中,AI的语音处理和生成能力大幅提升了用户的沉浸感和互动性,也带来了更为真实的体验。

而此次升级的端到端语音通话大模型具备超真实声音表达和情绪感知理解能力,能够更好地感知和回应用户的情绪变化。例如,在陪伴场景中,AI不仅能理解用户声音的情绪情感,还能够根据对话氛围做出适当的声音回应,进一步增强用户的情感体验。模型还能够理解物理世界的声音场景,模拟物理世界中的声音,理解多人聊天内容,进行多风格语言切换,开展文艺内容创作和即兴演唱等,满足用户接近现实交流互动场景需要。

通过多年的技术积累和持续创新,Soul App创始人张璐团队在语音交互领域展现出强大的技术实力。此次端到端语音通话大模型的上线,使用户能够体验到更加自然、流畅的语音互动,也让Soul在AI辅助社交的道路上更进一步。