声网CEO赵斌：RTE将成为生成式AI时代AI Infra的关键部分|RTE|AI|赵斌_新浪科技

10月25日，在 RTE2024 第十届实时互联网大会主论坛上，声网创始人兼 CEO 赵斌发表了《实时互动十年：从 WebRTC 到生成式 AI 时代的 RTE 》主旨演讲。

赵斌认为，生成式 AI 正在驱动 IT 行业发生大变革，这一趋势主要体现在四个层面：终端、软件、云以及人机界面。在这样的时代背景下，生成式 AI 将会一如既往地助力 RTE 能力的进化与普及，同时也将借助 RTE 能力以及 RTE 应用的广度与深度来实现自身进化。

同时，他也在分享中发布了声网 RTE+AI 能力全景图。在全景图中，声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度，清晰地呈现了当前 RTE 与 AI 相结合的技术能力与应用方案。赵斌表示，生成式 AI 与 RTE 结合带来的场景创新，也将成为下一个十年的主题。

以下内容基于赵斌演讲全文整理：

感谢大家在金秋十月再次来到北京 RTE 大会的现场，与各位嘉宾、讲师一起探讨 RTE 行业的现状和未来。尤其要感谢来参会的开发者、工程师、产品经理、创业者，在过去十年中，是你们与我们共同参与并见证了 RTE 行业波澜壮阔的成长历程。

在过去的十年里，RTE 能力成为了颠覆众多行业发展与成长的核心力量。在社交泛娱乐领域，涌现出了多家以实时音视频技术为底层能力的企业，它们开创了新的玩法、场景和商业服务，其中有不少已成功上市，使得 RTE 能力逐步广泛应用并普及至全球市场。

在在线教育领域，以 RTE 能力为支撑的 “线上课堂” 不仅曾是中国互联网创业圈的热门关注点，还为体制内教育 “三个课堂” 这一全国性政策提供了支持，并且在疫情期间发挥了不可或缺的作用。

在 IoT 领域，也出现了许多依托 RTE 能力而实现的新产品，例如儿童手表。VR/AR 设备进化中，RTE 也赋能了众多高价值功能。

在企业服务领域，从金融业的双录面签到产业远程巡检巡查、生产现场指导协同，以及快递站点和调度中心的实时协同等场景，各行业都在通过RTE能力深度改造经营方式。

过去十年，大家熟知的互联网风口也有很多离不开RTE能力的赋能和参与。社交泛娱乐、在线教育等行业的创业风口，电商直播对电商行业格局的改变等等，其中很多都和实时互动能力的使用和进化有不可分割的关系。如今，在大模型和生成式 AI 时代，也将伴随 RTE 能力的辅助与赋能走向成熟和应用。

生成式 AI 时代 IT 行业四大变革趋势

过去一年，通过与大模型以及 IT 行业同行、合作伙伴进行深入的探讨与交流，我们逐渐厘清了生成式 AI 能力将会如何改造和影响未来十年甚至二十年 IT 行业进化的途径与方法，并总结出了四大趋势，这些趋势将会决定并影响整个 IT 行业发展的进程。

趋势一：终端的进化将以对大模型的能力支持为核心驱动。在未来十到二十年，无论是 PC 还是智能手机，必然会以如何更好地支持大模型能力在端上的应用，以及推理能力的成熟和推理性能的提升为主要进化轴线。

趋势二：所有的软件都可以且将会通过大模型重新实现。仅仅在现有软件中运用大模型能力进行小改进和补充是远远不够的，而是要以大模型能力为核心，重新思考每个领域的软件应如何设计、如何实现，以及最终会有怎样的使用体验和效果。这便是从 “ Software with AI ” 到 “ AI Native Software ” 的根本转变，也将改变行业的技术框架和技术能力进化方式。

趋势三：所有的云都需要具备对大模型的训练和推理能力。大模型出现后，对于云服务而言，在早期提出的三个基本能力之外，GPU 算力必然成为第四个关键能力。没有这一能力，就很难成为一个真正意义上的大规模公有云服务。

趋势四：人机界面从键盘、鼠标、触屏转变为自然语言对话界面(LUI)。自计算机出现的第一天起，人机界面就是一个持续进化的话题。从窗口卡片，到键盘鼠标，以及当下最主流的触屏，都不如几十年前科幻小说中就开始提出的自然语言人机对话界面更为易用、高效。多模态对话式智能体(Agent)的出现，已经渗透到 IoT 设备以及电脑、手机的各种软件中，也将极快地改变这些设备中人机界面的使用体验。

以上四个趋势定义了下个时代 IT 进化的主题，也将成为 IT 进化的核心驱动力。在这样的时代背景下，我们认为生成式 AI 将会一如既往地助力 RTE 能力的进化与普及，同时生成式 AI 也将借助 RTE 能力以及 RTE 应用的广度与深度来进化自身。

我们对生成式 AI 的未来发展有两个方向性的总结：

其一，向多模态深度进化。目前，文字所能提供的训练数据已基本被充分利用。语言作为声音化的文字，所提供的信息和数据空间将会被放大很多倍。同时，自然环境声音和视觉数据的获取与运用，也将为大模型提供几乎无限的数据空间，进一步满足大模型智能进化的数据需求。

其二，多步推理。无论是思维链(CoT)还是多 Agent 协同的方式，都为依托推理引擎完成具有高智能、高复杂度的现实任务提供了清晰的机会。这必然会成为一个重要的发展方向，从而实现利用大模型完成许多人完成起来都颇具挑战的任务。狭义的通用人工智能(AGI)有望在未来几年内通过多步推理的方式迅速变为现实。

回归到生成式 AI 未来发展的两大方向与 RTE 之间的关系。多模态大模型已逐步进化到能够提供高度拟人化的听、说、看、写能力。通过与多个行业伙伴的打磨和深度实验，我们发现多模态对话体验存在两个关键侧面：

第一，是声音体验，包括延迟、语气、情感、情绪、口音等，都是大模型参与人机对话时体验感知和评价的关键角度。

第二，人与 AI Agent 对话时，最核心的互动体验就是打断。如果在对话过程中打断体验不自然，出现抢话或者不知道如何顺利开展下一段对话的情况，就会对多模态大模型的实用化产生严重影响和阻碍。

为了解决这一问题，我们发现现有 RTC 技术栈和基础设施有大量改进空间。只有通过改进，大模型才有机会在各种场景、形态、模型下大规模参与到和人的语言对话中，参与的来源也是从云到端再到更低延迟的边缘进行的。基于这些能力的改进和普及，未来 RTE 必将成为生成式 AI 时代 AI 基础设施(AI Infra)的关键部分。

很多智能都涉及所在领域的专业知识和信息，在完成复杂任务时，这些专业信息和知识可能由于隐私、数据权属、财产保密等原因，分布在云边端的各个部分。当它们协同完成任务时，其中连接的延迟降低和可用性的稳定保障就成了一个关键需求。实时互动领域的软件定义实时网 SD-RTN™，对传输质量的保证以及稳定可靠的支持，将是其中必不可少的能力保障。

10 月初，声网兄弟公司 Agora 作为语音 API 合作者，出现在了 OpenAI 发布的 Realtime API 公开测试版中。同时，我们也很高兴地宣布，声网与 MiniMax 正在打磨国内第一个 Realtime API，这里给大家放个彩蛋。让我们一起期待接下来 MiniMax 的正式发布。

Beyond GenAI 更多进化与商业价值

生成式 AI 固然是宏大时代潮流中最重大的趋势之一，但绝非全部，还有更多 IT 技术和产业进化在推动 RTE 行业发展，不断提供新的商业价值。

值得一提的是，去年 Apple Vision Pro 正式发布，尽管行业第一手体验反馈褒贬不一，但我们认为它依旧实现了实时互动领域的重大边界拓展。

Immersive Video 在人的视觉体验上展现了全新的潜力，具备接近全息视觉体验的能力，给人所建立的真实感远远超越上一代 VR 设备。这种新的媒体形式也是未来创造“如聚一堂”互动感觉的基础，这些进展着实令人激动。

我们很高兴在行业内率先推出支持 Vision Pro OS 的 SDK，与客户和开发者共同创造众多有趣的场景。例如 InSpaze，便是利用设备新能力开展社交的一次极有意义的探索。

随着疫情的消退，WebRTC 需求虽曾有明显下降，但在 2023 年回归稳定且呈现稳中有升的状态，整体用量是疫情前的四倍。

WebRTC 开源项目过去一年的进化主要体现在一些具体能力点上，包括 AI 噪声消除、AI 语音增强、支持 AV1 以及适配 AI Insertable Streams。

社交出海持续升温，核心区域的视频社交增长超过一倍。1V1、秀场直播、语聊房是最受青睐的三个社交出海场景;用量最大的区域为东南亚、中东和印度;增长最快的三大区域分别是东南亚、中东和南美地区。

2024 年是体育赛事大年，这也促使体育赛事直播应用不断进化。数据显示，本届奥运会相比上届，通过手机和智能设备观看直播的数量大幅提升。我们支持的云演播厅场景，可以实现更低的卡顿率、延迟，拥有更好的互动体验和易用性。

在自动驾驶领域，RTE 技术不仅应用于 Robotaxi 这种自动驾驶出租车上，在各种功能性车辆上的应用也在加速落地，甚至比 Robotaxi 更快。

游戏大作的出现持续推动游戏社区和游戏开黑使用场景的成长。“黑神话：悟空” 的推出使得游戏开黑业务呈现爆发式增长。

在全球市场上，许多被 AI 影响和改造的新场景和新案例也在持续演进。例如，利用 AI 能力进行视频风格化处理，可以将视频改造成卡通等各种风格;AI 呼叫中心，由于多模态和大模型智能的进化，也开始加速替代人工客服;AI 智能婴儿监护，除了过去的听得见和看得见之外，AI 也在尝试解读婴儿的哭声究竟代表何种需求。

在更多领域，如高端酒店管家、线上剧本杀、虚拟主播等等，都是大模型和多模态能力进化带来的令人感到丰富多彩、耳目一新的创新。

RTE 产品也正朝着更加专业化的方向迈进。近期，我们推出了面向实时互动的 Status Page。它提供了电信级的质量保证，拥有分钟级更新质量保证状态的能力。同时，针对实时互动对话体验，无论是卡顿还是延迟，都能提供更为细致且清晰的指标。我们期望将这样的 Status Page 透明给所有开发者和客户，以便为大家更好地提供对实时互动服务状态和能力的感知。

AI+RTE 推动各行业场景创新与成熟

生成式 AI 技术正在结合新的专业能力渗透到各个场景，创造新场景、加速场景成熟以及降低生成场景的成本。

社交泛娱乐领域，过去一年 AI 宠物突然变成一个新的有趣玩法。

在线教育领域，生成式 AI 技术让原本很难、很贵的服务，变得算力化和平民化。例如 AI 题库几乎变成所有大模型都有的知识，降低了利用题库开展教育服务的门槛;AI 口语教学中，多模态大模型在语言能力上，已经完全可以替代传统口语老师，无论发音、语法、还是用词表达等方面都表现的不错;

AI 答疑老师基本也可以做到随叫随到，结合多模态能力，做到与真实答疑老师能力相当，甚至更有耐心。语言翻译能力也随着我们RTT实时翻译产品功能的发布成为触手可及的能力，当前这一能力的使用价值仍然被远远低估。

AI 多语言交流，正在打破全球语言障碍，成为推进全球化的新方式。

IoT 领域最值得关注的是大模型能力带来的对话机器人的实用化，不仅更容易理解意图，而是能够提供实质性、信息量丰富、且拥有高度智慧的答案。预计未来一年左右的时间，大家就会感受到各种对话机器人场景的实用性进化。

可穿戴设备利用生成式 AI 能力成为爆品，比如 Meta 智能眼镜凭借提供 LLAMA3 支持的对话能力，至少卖了300万副。

具身智能机器人也逐渐在 AI 推动下成为现实，已经没有什么障碍可以妨碍机器人走路和生活。

AI 客服正在实质性地替代人工客服，已经不只一家创业公司在大规模采用 AI 客服，最让人感到惊讶的是，不仅节省了人工客服成本，也提升了客服满意度，这里面有很多值得关注的进化潜力。

会议场景上，我们的 aPaaS 产品灵动会议已经把实时字幕、实时翻译和智能会议纪要完全做在模板里，任何做会议协同甚至社交场景的开发者和创业者，都可以利用这一能力简单打破语言障碍。

AI 对新场景的催化也让人大开眼界，例如现在智能眼镜对环境的理解、认知，结合地理位置和自然对话能力已经完全可以取代导盲犬，甚至更好用，这些都开创了以前从未有过的机会。

生成式 AI 的确为我们展现了无限的想象空间与诸多可能性，然而，生成式 AI 应用的开发同时也面临着诸多挑战。

首先，基础大模型和AI应用之间的边界是在哪里?过去一年，包括 Inflection、CharacterAI 以及很多估值10亿美元以上的公司被收购，Perplexity 的搜索创新，也遭到了大模型公司和以搜索为主业的公司的强烈挑战。那么，究竟哪些应用才真正属于创业者的机会呢?我们认为，只有与垂直应用所在的领域结合得越深，壁垒才会越高，应用开发者也才越有机会。

其次，应用开发的架构与机制尚不明晰。在当下这个时代，将大模型能力视作推理引擎或者知识库，如何在此基础上进行应用领域的知识推理和服务，仍然是一个处于探索阶段的话题。LangChain、RAG、SWARM 等框架仅仅是一种思路，虽然可以提供一定能力的支持，但还不够成熟、不够完备，更不用说易用性了，这些框架自身不断变化的现象恰恰反映出其不成熟和不确定的特点。

RTE 10年在场景创新中一路走来

过去的十年，是 RTE 行业从无到有逐步崛起的十年。十年前，RTE 行业处于 “三无状态”，既无行业会议，又无专业书籍，也无专业媒体和社区，而如今这些都已逐步建立起来。

在这十年的大会中，有超过 2000 位来自各领域的专家、讲师参与分享，累计超过 4 万人次的参会者亲临现场交流，累计影响的开发者超过 200 万。

今年，我们非常高兴地推出了行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》。通过这本书，读者能够窥探到过去十年实时互动领域发展的关键节点以及其中的规律、脉络和未来的可能性。

RTE 开发者社区始终是过去十年 RTE 行业成长的主旋律。我们欣喜地看到当下各个开发者项目之间的技术交流与互动达到了极为高频和活跃的状态。通过 RTE 开发者社区，我们与大家共同打造一个技术共建、产品加速、交流连接的平台，与各个开发者一同把社区建设得更加繁荣。

十年征程，RTE 已从一个理念发展成为一个行业。然而，在如今的生成式 AI 时代，我们觉得所有过往都仅仅是未来的序章。凭借着 RTE 与 AI 能力结合的广阔前景，我们有理由期待下一个更加波澜壮阔、激动人心的十年。希望在未来的发展进程中，我们能继续与大家携手共进，开创生成式 AI 时代下 RTE 的崭新篇章。