豆包视觉理解模型比行业平均价格便宜85%，字节跳动再掀大模型价格战|字节跳动_新浪财经

摄影：曾宇

界面新闻记者 | 肖芳
界面新闻编辑 | 宋佳楠

掀起通用大模型价格战后，字节跳动又要把多模态大模型的价格打下来。

12月18日，在火山引擎Force大会上，字节跳动正式发布豆包视觉理解模型，同时公布其售价为千tokens输入0.003元，比行业平均价格便宜85％，相当于一元钱就可处理284张720P的图片。

这意味着，字节跳动在多模态大模型领域再次复制其在通用大模型领域大幅降价的打法。今年5月，该公司正式对外发布豆包大模型，并把价格降低了一个数量级，引发了阿里、百度等多家厂商大模型的降价潮。

火山引擎总裁谭待此前表示，降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。

半年过去，豆包通用大模型在市场上的表现一定程度上验证了谭待的判断。字节跳动对外公布的数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

大模型应用正在向各行各业加速渗透。据界面新闻了解，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。

在此次发布会上，谭待再次强调豆包大模型市场份额的爆发，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念。

最新发布的豆包视觉理解模型大幅降价也基于同样的逻辑，而字节跳动在多模态大模型上的野心还不止于此。

争夺更多有AIGC需求的客户

字节跳动方面称，豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

例如，其可以一眼识别动物的影子，并推断出这是什么动物，也可识别地标建筑、生活中不太熟悉的物品，并给出科普信息，同时还可识别出图片中被全选位置的物体。

豆包战略研究负责人周昊表示，豆包一直试图让用户的输入更快更方便，非常注重多模态的输入和打磨，包括语音、视觉等能力，这些模型都已通过火山引擎开放给企业客户。

根据谭待的判断，豆包视觉理解模型在判卷指导、作文批改、儿童陪伴等教育场景，目的地推荐、外文菜单识别、著名建筑识别及讲解等旅游场景，以及拍照找同款、商品搭配建议、广告种草文案等电商营销场景有较大的空间。目前，火山引擎已邀请数百家企业测试该模型。

和豆包视觉理解模型一同发布的，还有豆包3D生成模型。该模型与火山引擎数字孪生平台veOmniverse结合使用，据称可高效完成智能训练、数据合成和数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。

界面新闻记者在现场体验了用豆包3D生成模型生成一张桌子，输入相关参数，模型就可以生成相应的3D图像，还可以根据需求变换桌子的材质。在装修设计、游戏、元宇宙等领域，该模型都可以很好地辅助设计人员进行创作。

这也是字节跳动在多模态大模型领域更大的野心所在。当多模态模型的技术能力更强、价格更便宜，其将会在更多场景以及更多对AIGC有需求的企业中使用。

同时，火山引擎升级了火山方舟、扣子和HiAgent三款平台产品，帮助企业构建自身的AI能力中心，提升开发AI应用的效率。其中，火山方舟发布了大模型记忆方案，并推出prefix cache和session cache API，以降低延迟和成本。火山方舟还带来全域AI搜索，具备场景化搜索推荐一体化、企业私域信息整合等服务。

批量更新大模型

新模型发布的同时，豆包此前发布的多款大模型也迎来更新。

其中，豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本，首次实现精准生成汉字和一句话P图的产品化能力。

明年春季，字节跳动还将发布具备更长视频生成能力的豆包视频生成模型1.5版，豆包端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力。

相比于市场同类产品，豆包系列大模型发布的时间并不算早，但一直保持较快速度的更新。豆包系列大模型最新的能力也通过即梦AI和豆包App开放给了普通用户使用。

本月初，豆包网页版和豆包App上线了图片理解功能。测试显示，该功能可识别图片中包含的元素和基本特征。同时，用户还可通过该功能询问某景点所处的位置或某个角色出自哪部影视作品。

基于字节自研的豆包文生图模型、豆包视频生成模型，即梦AI近期上线了3款视频生成模型，并接入了最新的豆包文生图模型。测试显示，用户可输入一句话一键生成海报，海报中文字生成的准确率也大幅提升，让图片创作编辑更加灵活。

即梦AI隶属于字节跳动旗下剪映业务，于2024年5月上线，定位是AI内容平台，支持通过自然语言及图片输入，生成高质量的图像及视频。

此前，界面新闻曾独家报道，字节跳动旗下创作工具剪映和CapCut，在2024年实现了超过三位数收入增长，总收入正接近百亿元人民币。同时，剪映和CapCut的全球月活用户，也已经超过8亿。

目前，字节跳动计划提升即梦的产品优先级，尝试用新的路径打造AI时代的“抖音”。这也意味着，字节跳动对大模型在消费端产品落地还有更高的预期。