谷歌推出新一代AI模型Gemini 2.0 Flas 支持生成图像|谷歌_新浪财经

为应对OpenAI此前推出的众多新产品，谷歌周三推出下一代重要人工智能模型Gemini 2.0 Flash，可以原生生成图像和音频，同时支持文本生成。2.0 Flash还可以使用第三方应用程序和服务，使其能够访问谷歌搜索、执行代码等功能。（更新中）

作者：赵雨荷

来源：硬AI

为应对OpenAI此前推出的众多新产品，谷歌周三推出下一代重要人工智能模型Gemini 2.0 Flash，可以原生生成图像和音频，同时支持文本生成。2.0 Flash还可以使用第三方应用程序和服务，使其能够访问谷歌搜索、执行代码等功能。

从周三起，2.0 Flash的实验版本将通过Gemini API和谷歌的AI开发平台（AI Studio和Vertex AI）提供。然而，音频和图像生成功能仅对“早期接入合作伙伴”开放，并计划在明年1月全面推出。

未来几个月内，谷歌表示将推出2.0 Flash的不同版本，用于Android Studio、Chrome DevTools、Firebase、Gemini Code Assist等产品。

Flash的升级

第一代Flash（1.5 Flash）只能生成文本，且并未设计用于特别高要求的工作负载。据谷歌称，新版本2.0 Flash模型更具多样性，部分原因是它能够调用工具（如搜索）并与外部API交互。

谷歌Gemini模型产品负责人Tulsee Doshi表示，

“我们知道，Flash因其在速度和性能上的良好平衡而备受开发者喜爱。在2.0 Flash中，它依然保持了速度的优势，但现在更加强大。”

谷歌声称，根据公司内部测试，2.0 Flash在某些基准测试中的运行速度是Gemini 1.5 Pro模型的两倍，并在编码和图像分析等领域“显著”改进。事实上，该公司表示，2.0 Flash凭借其更好的数学性能和“事实性”取代了1.5 Pro，成为Gemini的旗舰模型。

正如前文提到的，2.0 Flash可以生成并修改图像，同时支持文本生成。该模型还可以读取照片、视频以及音频录制内容，从而回答与这些内容相关的问题（例如：“他说了什么？”）。

音频生成是2.0 Flash的另一个关键功能，Doshi将其描述为“可操控”和“可定制”。例如，该模型可以用八种针对不同口音和语言优化的声音来朗读文本。

不过，谷歌并未提供2.0 Flash生成的图像或音频样本，因此无法判断其输出质量与其他模型的比较。

谷歌表示，它正在使用其SynthID技术为2.0 Flash生成的所有音频和图像添加水印。在支持SynthID的软件和平台（即部分谷歌产品）上，该模型的输出将被标记为合成内容。

此举旨在缓解人们对滥用的担忧。事实上，“深度伪造”（deepfake）正成为日益严重的威胁。据身份验证服务Sumsub的数据，从2023年到2024年，全球检测到的深度伪造数量增长了四倍。

多模态API

2.0 Flash的生产力版本将于明年1月推出。但与此同时，谷歌推出了一个API，名为Multimodal Live API，以帮助开发者构建具有实时音频和视频流功能的应用程序。

通过Multimodal Live API，谷歌表示开发者可以创建具有来自摄像头或屏幕音频和视频输入的实时多模态应用程序。该API支持工具集成以完成任务，并能够处理“自然对话模式”，例如打断——与OpenAI的实时API功能类似。

Multimodal Live API已于周三上午全面开放使用。

更多消息，持续更新中

本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

海量资讯、精准解读，尽在新浪财经APP

文章关键词：谷歌 flash 图像 AI

VIP课程推荐

加载中...

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）