专题:聚焦谷歌2024年I/O开发者大会:实时交互、视频模型登场
被OpenAI抢先一天后,科技巨头谷歌不甘示弱,推出了自己的最新多模态AI(人工智能)产品。
当地时间5月14日,在谷歌I/O开发者大会上的主题演讲中,谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片。根据发布会最后的官方统计,完全聚焦于AI的这场主题演讲总共提到了121次AI。
![完全聚焦于AI的这场主题演讲总共提到了121次AI。 来源:谷歌I/O主题演讲](http://n.sinaimg.cn/sinakd20240515s/600/w1920h1080/20240515/7be0-7eb00fbc2f40959fef2a9f3eb006f5a4.jpg)
谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示,谷歌的所有工作都在围绕生成式AI模型Gemini展开,“我们希望每个人都能从Gemini所做的事情中受益”。
14日当天,谷歌(Nasdaq:GOOGL)股价收于每股171.93美元,涨0.6%,总市值2.12万亿美元。
AI搜索支持视频输入,Gemini、Gemma上新
作为搜索引擎巨头,AI搜索正是谷歌所做工作中的一部分。
据介绍,在最新Gemini的加持下,谷歌搜索将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题、帮助用户进行头脑风暴,并支持视频搜索,让用户通过拍摄视频来搜索解决方案。这些功能将先在美国推出,谷歌预计会在今年年底前将其带给超过10亿人。
![谷歌AI搜索将具备多步骤推理能力。来源:谷歌](http://n.sinaimg.cn/sinakd20240515s/674/w482h992/20240515/b48e-gif9397fb418d1c115393dbe0811144e4e9.gif)
谷歌的Gemini以超长的上下文窗口而出名。在大会上,谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力,为其推出一系列更新。谷歌将向全球150多个国家地区的Gemini Advanced订阅者提供最新模型、拥有100万个token的Gemini 1.5 Pro,支持超过35种语言,定价为每100万token 3.5美元。
据皮查伊介绍,Gemini 1.5会提供“迄今为止所有基础模型中最长的上下文窗口”。Gemini 1.5 Pro将在今年晚些时候将会把窗口进一步扩大至200万token,拓展同步处理多模态信息的边界。
从今年夏天开始,Gemini将支持语音实时交互,并在今年晚些时候上线实时视频交互。未来几个月内,谷歌也将推出类似于GPTs的自定义AI助手功能,名为Gems,可以与整套“谷歌全家桶”联动。
另外,对于一些需要快速响应的场景,谷歌推出了Gemini 1.5 Flash模型。Flash将是API中速度最快的Gemini模型,针对大规模、大批量的高配任务进行了优化,也具有100万token的长上下文窗口。
谷歌也在发布会上带来了旗下开源大模型Gemma的最新版本Gemma 2。据介绍,Gemma 2采用全新架构,参数上达到27B,拥有突破性的性能和效率。
AI助手Project Astra叫板GPT-4o
在OpenAI推出能够实现人类级别响应的智能助手GPT-4o后,谷歌的AI智能体项目Project Astra也重磅登场。
在演示视频中,Astra能够通过手机摄像头或智能眼镜看到的内容来分析响应语音命令。它成功地识别出代码序列、为电路图提出改进建议、能够通过镜头“看到”伦敦国王十字区,并提醒用户智能眼镜的放置位置。
![Project Astra是谷歌对于未来AI助手的展望。来源:谷歌](http://n.sinaimg.cn/sinakd20240515s/600/w1920h1080/20240515/b0cf-873d75a395e71dcb9ca8dbcc4000bf23.jpg)
![谷歌AI助手将能够通过智能眼镜和用户一起观察世界。来源:谷歌](http://n.sinaimg.cn/sinakd20240515s/600/w1920h1080/20240515/0383-c3c088588f703c05403e468154b0e307.jpg)
据介绍,谷歌在Gemini的基础上开发了Astra的原型,可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型,谷歌也强化了智能助手的说话能力,让其能够给出更快速的回应。
不过,在演示视频中,谷歌AI助手的回应速度似乎还是会比GPT-4o稍慢一些,语音所表现出的感情色彩也平淡一些。
皮查伊表示,谷歌计划从今年开始将Astra的功能添加到其Gemini应用程序及其产品中。不过,他也强调,虽然最终目标是“让Astra在公司的软件中实现无缝连接”,但该产品将被谨慎推出,并且“商业化之路将由质量驱动”。
除了在AI助手领域的竞争外,谷歌还通过文生视频模型Veo来反击OpenAI的Sora。Veo能够根据文字、图片和视频的提示来生成高质量的1080p视频,创作“一致且连贯”的镜头,用户可以对光照、镜头语言、视频颜色风格等进行自定义设置。不过,谷歌没有宣布Veo的具体推出时间。
![来源:谷歌I/O主题演讲](http://n.sinaimg.cn/sinakd20240515s/600/w1920h1080/20240515/4abf-995208a4fdfa40baeb830f90f0605509.jpg)
![](http://n.sinaimg.cn/finance/cece9e13/20200514/343233024.png)
VIP课程推荐
APP专享直播
热门推荐
收起![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)