全面叫板OpenAI！谷歌发布多模态大模型全家桶：从AI助手到文生视频模型|谷歌_新浪财经

专题：聚焦谷歌2024年I/O开发者大会：实时交互、视频模型登场

被OpenAI抢先一天后，科技巨头谷歌不甘示弱，推出了自己的最新多模态AI（人工智能）产品。

当地时间5月14日，在谷歌I/O开发者大会上的主题演讲中，谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，以及在硬件方面发布的第六代Tensor处理器单元（TPU）Trillium芯片。根据发布会最后的官方统计，完全聚焦于AI的这场主题演讲总共提到了121次AI。

完全聚焦于AI的这场主题演讲总共提到了121次AI。来源：谷歌I/O主题演讲

谷歌CEO桑达尔·皮查伊（Sundar Pichai）表示，谷歌的所有工作都在围绕生成式AI模型Gemini展开，“我们希望每个人都能从Gemini所做的事情中受益”。

14日当天，谷歌（Nasdaq：GOOGL）股价收于每股171.93美元，涨0.6%，总市值2.12万亿美元。

AI搜索支持视频输入，Gemini、Gemma上新

作为搜索引擎巨头，AI搜索正是谷歌所做工作中的一部分。

据介绍，在最新Gemini的加持下，谷歌搜索将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题、帮助用户进行头脑风暴，并支持视频搜索，让用户通过拍摄视频来搜索解决方案。这些功能将先在美国推出，谷歌预计会在今年年底前将其带给超过10亿人。

谷歌AI搜索将具备多步骤推理能力。来源：谷歌

谷歌的Gemini以超长的上下文窗口而出名。在大会上，谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力，为其推出一系列更新。谷歌将向全球150多个国家地区的Gemini Advanced订阅者提供最新模型、拥有100万个token的Gemini 1.5 Pro，支持超过35种语言，定价为每100万token 3.5美元。

据皮查伊介绍，Gemini 1.5会提供“迄今为止所有基础模型中最长的上下文窗口”。Gemini 1.5 Pro将在今年晚些时候将会把窗口进一步扩大至200万token，拓展同步处理多模态信息的边界。

从今年夏天开始，Gemini将支持语音实时交互，并在今年晚些时候上线实时视频交互。未来几个月内，谷歌也将推出类似于GPTs的自定义AI助手功能，名为Gems，可以与整套“谷歌全家桶”联动。

另外，对于一些需要快速响应的场景，谷歌推出了Gemini 1.5 Flash模型。Flash将是API中速度最快的Gemini模型，针对大规模、大批量的高配任务进行了优化，也具有100万token的长上下文窗口。

谷歌也在发布会上带来了旗下开源大模型Gemma的最新版本Gemma 2。据介绍，Gemma 2采用全新架构，参数上达到27B，拥有突破性的性能和效率。

AI助手Project Astra叫板GPT-4o

在OpenAI推出能够实现人类级别响应的智能助手GPT-4o后，谷歌的AI智能体项目Project Astra也重磅登场。

在演示视频中，Astra能够通过手机摄像头或智能眼镜看到的内容来分析响应语音命令。它成功地识别出代码序列、为电路图提出改进建议、能够通过镜头“看到”伦敦国王十字区，并提醒用户智能眼镜的放置位置。