火山引擎作为「AI 原生」基础设施，变得更强了|火山引擎|AI|图像_新浪科技

摘要

火山引擎的 AI 基础设施，正在以月为单位快速进化。

今天的 AI，在对话框里「无所不能」，在现实世界里却常常「失灵」。

前者让人惊艳：三秒成诗、五秒成文，天文地理、法律医学样样精通，像是拿了几十个学位的神童；而后者却频频掉链子：AI 玩具答非所问，AI 眼镜识别场景不准，哪怕是最基本的实时翻译，效果也常常一言难尽。

如果说大模型是 AI 的「大脑」，那么要让这个「大脑」真正处理现实中的复杂任务，还需要一整套「感知器官」和「神经系统」配合运作。对 AI 来说，不仅是麦克风、摄像头这样的传感器是否可靠，更关键的是背后的数据传输、多模态模型的识别与生成、跨模态的理解与联动，乃至整个端到端的系统工程是否稳定高效。

换句话说，现实世界的 AI 应用不只是「一个聪明大脑」能搞定的事情。它的效果不仅取决于大模型本身，更取决于承载它的整个系统。这也标志着我们正在迈入一个与传统云计算时代完全不同的基础设施时代，AI infra 不再只是提供存储、计算和 API 接口，而要具备多模态感知、上下文理解、跨端部署等系统能力。

今天，大型云计算厂商正在快速转向 AI 时代的基础设施，火山引擎是最早拥抱这一趋势的云厂商之一。7 月 30 日，火山在厦门开启 2025 年度的 AI 创新巡展，与一个多月前的春季 Force 大会相比，火山引擎的多个 AI 基础设施能力又迎来了进化。

火山引擎总裁谭待发布新模型丨来自：火山引擎

三款模型更新：快速强化 AI 的「神经系统」

这次火山引擎一共更新了三款模型，覆盖图像生成、同声传译和通用语言理解三大领域，分别是豆包·图像编辑模型 3.0、豆包·同声传译模型 2.0，以及全面升级的豆包大模型 1.6 系列。

首先是图像编辑模型 3.0。图像生成和编辑是当下使用最广泛的 AI 应用场景，在电商广告、内容创作等领域都有着广泛应用，但也是 AI 最容易「失灵」的环节之一，用户希望 AI 能像设计师一样理解需求——「去掉背景人群」「把照片里的冬天换成春天」，但经常遇到 AI 听不懂、改不对的问题。

而这一版本强化了指令遵循、图像保持和美感生成三方面能力，能在保持原图人物结构的同时，精准完成光影、风格、材质等细节调整，已经能支撑包括广告、电商、影像创作等专业 P 图场景。比如下面这张演示，当命令 AI 将照片里的场景换成冬天，过去 AI 会把整个照片覆盖上白雪，并不符合真实，而新模型就更加符合现实的冬景。

图像编辑模型的美感提高丨来自：火山引擎

准确率和美感的提高，不仅意味着在专业人士手中更加好用，也意味着 AI 修图可以解锁更多应用。比如在当下很火的 AI 眼镜/AR 眼镜领域，可以开发一个基于语音交互的 AI 修图工具，并在拍完后直接上传社交软件，直接在眼镜端侧完成从拍摄到修图、发布的闭环。

还有更惊艳的同声传译模型 2.0，则切中多语言会议与跨境沟通的「延迟」与「音色错位」问题。传统 AI 同传依赖模块级联，往往延迟长达 8-10 秒，还用统一的机械女声输出，既慢也「出戏」。而新一代模型基于全双工实时语音框架，将延迟压缩至 2-3 秒，并实现「0 样本声音复刻」，也就是说——AI 在听你说话的同时就能抓住音色并生成同步译文，用「你的声音」说出外语。

豆包·同声传译模型 2.0丨来自：火山引擎

不论是用于跨语言的直播、远程多人会议，还是在端侧的 AI 眼镜、AI 耳机中实时同传，更新后的豆包同传 2.0 模型都有着更大的想象空间。甚至从长远来看，就像大模型出现后，跨语言「读写」的门槛几乎被抹平，一个能真正实现同传的模型，结合通话软件和智能耳机硬件，未来「听说」的门槛也将消失，这意味着外语学习的必要性可能都会逐渐消失。

如果说前两个模型更像「感知系统的升级部件」，那第三款模型豆包 1.6 系列的极速版 Seed-1.6-flash，就是一块能大规模部署的「神经中枢」。此前 6 月的 Force 大会上火山引擎发布了豆包 1.6 大模型，而此次发布的是兼顾低延迟、强通用能力和超低成本的 flash 版，特别适配对性能极致要求的场景，如智能巡检、手机助手、家用安防等。在智能监控企业萤石的落地案例中，引入该模型后，系统时延下降 50%，成本下降 92%。

此外，火山引擎还在会上发布了新一代的全模态向量模型 Seed1.6-Embedding。新模型能把文本、图像、视频转化为统一的语义向量，实现模态间的「互相理解」。这意味着文本可以精确检索图像，视频可以被语义性地标注，图文信息能共同参与知识构建与推理。同时，新模型还支持混合模态检索，让企业可以构建真正统一的、多模态知识库，提升 AI 系统的内容理解深度和响应准确度。

三款模型的进步迭代，不仅是「点状功能升级」，更像是为 AI 基础设施装上了更灵敏、更协调的「神经系统」——从而让大模型不再只是一个「聪明大脑」，而是能真实理解用户意图、快速反应场景挑战、并以可部署的方式持续工作的一整套闭环系统。

重写 AI 基础设施的「付费逻辑」

如果说模型是大脑、感知模型是神经系统，那真正支撑这些「器官」长期稳定运行的，是一整套更底层、更工程化的基础设施。这正是火山引擎在此次活动上强调的另一条主线：不只是「让模型更强」，而是「让模型更可用」，真正成为企业构建 AI 应用的底座。

首先是开发平台。此前火山引擎宣布开源旗下的 Agent 开发平台扣子，火山引擎在会上介绍，此次开源涵盖扣子开发平台 Coze Studio 与全链路管理工具扣子罗盘 Coze Loop，并采用 Apache 2.0 协议，这意味着开发者无需复杂配置即可快速搭建 Agent，并完成从模型调用到逻辑编排、从部署上线再到后续监控运维。

同时，火山引擎的企业级 Agent 平台 HiAgent 也同步支持与扣子开源版对接，可调用扣子开源版提供的智能体搭建和运维能力，并通过共享 Agent 标准，支持扣子开源版智能体的纳管。

而在基础设施层面，过去 AI 部署一个最大痛点是「算力贵且不灵活」，尤其是经过微调的企业自有专用模型，托管云计算平台时，大多数时候只能用以租用 GPU 的方式计费，相比按照 Tokens 计费的方式不够灵活，容易造成资源的浪费。