OpenAI发布实时API AI实时语音时代加速到来|AI_新浪财经

本报记者吴清北京报道

OpenAI实时API（应用程序接口）公开测试版发布，推动AI应用的加速落地。

近日，OpenAI发布了其实时API公开测试版，为开发者提供了构建基于GPT-4大型语言模型的高交互性AI应用程序的机会。业内人士认为，该API允许开发者在应用程序中创建低延迟、多模态的实时交互体验，是AI应用领域的一次重大革新。

同时，OpenAI宣布与三家语音API合作伙伴合作，分别为：LiveKit、Agora和Twilio。三家都是实时音视频（RTC）领域的全球龙头企业，其中Twilio、LiveKit都是美国本土企业，之前与OpenAI有较多联系，而Agora在中国市场拥有兄弟公司声网，两家公司在2023年5月拆分，声网专注于中国市场，总部位于上海，Agora则面向美国和国际市场。

《中国经营报》记者注意到，随着各平台公司纷纷发布旗下AI大模型产品，大模型领域的竞争也在加剧。10月2日，OpenAI发布了其实时API公开测试版，10月4日，Meta公布了名为Movie Gen的全新AI模型。国内巨头也纷纷推出并更新了性能直追甚至部分超越GPT-4的产品。

同时，RTC作为AI语音、音视频互动等AI落地强应用场景的关键技术，得到了更多的关注和应用，吸引了巨头们的纷纷布局。除了OpenAI，近日微软AI CEO Mustafa Suleyman也表示，今年年底，微软的AI将拥有实时的语音界面，允许完全动态的交互。

人与AI的实时音视频互动正在变成现实。多为业内人士接受记者采访时表示，实时API的发布标志着OpenAI在AI应用领域向前跨了一大步，通过降低语音交互延时并增强AI对人类语音及情感的理解，为开发者创造了构建更具沉浸性和动态性的AI应用程序的机遇。

实时语音互动：多模态大模型交互的终极形态？

日常生活中人与人的沟通就是以语音为主，视觉其次，视觉的价值主要在于信息的丰富度，但想要提升信息浓度和沟通效率还得靠语音。如今综合文字、图像、视频等的多模态大模型的出现，推动了人与AI交互方式的变革，而语音多模态将是其中的必经之路。

在生成式人工智能领域，大模型多模态交互能力的升级正掀起一股新的AI浪潮，在RTC 能力的加持下，人与AI的交互不再局限于文字，也可以通过语音通话进行生动、流畅的低延时交互，这也成为当下国内外大模型厂商新的发力点。

实际上，引领此轮AI革命浪潮的OpenAI深刻地理解这点，并在此领域深耕已久。

今年3月，OpenAI就宣布了一项革命性的声音克隆技术——“语音引擎”。该技术作为其现有文本转语音API的扩展，仅需15秒的音频样本，便能模仿任何说话者的声音。

记者注意到，GPT-4o算是开创了AI实时语音对话的先河。自GPT-4o发布以来，支持端到端实时多模态成为国内外大模型厂商纷纷跟进的新方向，先是AI初创公司Character.AI推出一项通话功能，允许用户与其人工智能角色语音对话，并支持多种语言。此后巨头们纷纷跟进。

一般来说，GPT-4o能支持实时语音对话。一方面得益于自身大模型能力的进化，端到端实时多模态模型能够直接处理语音，这与传统的三步骤处理方法（语音识别、语音转文字、文字转语音）相比，响应更加及时。另一方面，通过应用RTC技术，实现了语音的实时传输，进一步降低了语音交互的延时，RTC也成为人与AI交互的重要一环。

声网在实践中发现，传统的三步骤处理方法在应用RTC后，响应延时可从4—5秒降低到1—2秒，而在具备端到端实时多模态处理能力后，通过RTC技术，大模型实时语音对话的延时可降到几百毫秒内。

从体验上看，RTC技术的应用让对话式大模型的交互更智能，更具真实感。一方面，低延时的快速响应让人与AI的互动更接近人与人之间的实时对话更自然。另一方面，语音还能识别说话人的情绪、语调，视频能识别人的表情与所处的环境，最终输出更精准、更智能的回答。

“基于RTC的超低延迟方法可实现更为逼真的对话，并使AI能够理解人类的情感，从而提供更自然的对话体验。”一位云服务厂商的技术负责人对记者表示，可以预见的是，未来基于AI的人机界面从键盘、鼠标、触屏到实时对话的变革，语音将是必须走过的进化过程，实时语音互动或将成为未来对话式多模态大模型交互的终极形态。

大模型实时语音落地RTC成关键推动AI应用场景爆发

不过，多模态大模型实时语音对话想要落地，背后依然面临着一系列的技术难点。首先，对于大模型厂商而言，具备端到端实时语音处理的能力是关键，端到端模型的训练成本很高，尤其是处理语音与视频数据，面临大量计算，而计算过程往往会造成延迟，这对实时交互的需求形成了挑战，需要边接收语音边处理和解析，对于很多大模型厂商而言，这意味着需要研发更高效的模型或者优化现有模型的运行效率。

同时，多模态大模型在接入RTC后如何保障低延时、流畅的语音交互体验更为关键。除了低延时问题外，大模型实时语音对话中还面临着噪音、终端适配等一系列问题，需要专业的RTC厂商来优化。

记者注意到GPT-4o的发布会的一个细节，工程师演示GPT-4o的手机上插着一根网线，这也反映了一个现实，GPT-4o的演示是在固定设备、固定网络和固定物理环境下进行的，以确保低延时。而在实际应用场景中，用户的设备通常无法一直插着网线，这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。

而在RTC的加持下，随着多模态大模型能力的进化，AIGC应用场景迎来新一轮爆发，AI智能助手、AI情感陪伴、AI口语老师、AI客服的AI交互体验进一步升级，学生的学习效率更高，社交陪聊场景的娱乐性与沉浸感也进一步增强。同时，在游戏社交、AI分身、实时语音翻译等场景，对话式多模态大模型也大有可为。

量子位智库发布的AI智能助手用户数据报告显示，截至今年8月，国内市场的AI智能助手App已超过64款。在AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。

业内人士认为，人工智能技术的快速发展，推动实时互动行业持续进化，让实时互动场景变得更丰富、更有趣、更高效，相关市场的应用空间广阔。

以全球移动应用第一大市场美国为例，相关应用市场广阔，应用收入也在持续增长。公开数据显示，2023年泛娱乐应用收入规模达到74亿美元，是第二大市场日本的4.6倍，且同比增长12.6%，市场规模仍在稳定增长。

“美国本土开发者依然把持着泛娱乐头部市场，中国出海App目前仍以短剧为主，尽管在头部App中，中国出海应用较少，但是出海美国的优点在于中长尾App时长占比较高，且用户付费能力较强，中小型App也能在美国取得不错的收入。”国内一家短剧出海App的运营负责人向记者称。

据Ookla的最新数据，美国的移动网络平均网速略低于中国，在测试环境下，美国手机移动网络下载速度113Mbp/s（中国为135.7Mbp/s）。在这样的背景下，要实现真实无障碍的AI互动，RTC就成为一个关键，也给相关业内企业带来了大的发展机遇。

财报显示，今年第二季度，声网和Agora分别在中国和海外市场实现了营收增长。声网和Agora的创始人兼CEO赵斌表示：“我很高兴看到声网和Agora在面对极具挑战的宏观环境下，本季度双双实现收入同比增长。这一成果得益于我们不断推动新应用场景落地，另一方面也提升成熟场景方案的质量和价值。我们最近帮助客户在多个应用场景中推出了对话式AI应用，如AI陪伴、AI助理、AI语言陪练和AI客服，并看到了不错的用户和用量增长。我相信，实时互动与对话式AI的结合将成为我们未来业务发展的关键驱动力。”

在这样的背景下，声网在近期推出了Linux Server SDK，支持当下大模型编程最主流的两类语言Python与Go，能够帮助开发者快速构建AI陪伴、AI助理、AI语言陪练等实时AI应用场景。

不过，声网在2024年第二季度仍处于亏损状态，净亏损仍为920万美元，上年同期的净亏损为4530万美元。声网预计2024年第三季度营收为3150万美元到3350万美元。

可以预见的是，AI、5G、云计算等成为新时代的基础设施，将会给企业变革与发展带来更多新机会。未来，科技巨头将会在大模型和AI产品上不断推陈出新，RTC则将带来人与AI交互的重要变革，也将加速AI应用场景的新一轮爆发。

（编辑：张靖超审核：李正豪校对：颜京宁）