安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址】
专题:聚焦谷歌2024年I/O开发者大会:实时交互、视频模型登场
来源:量子位
OpenAI出手再次惊艳世界,谷歌果然坐不住了。
GPT-4o掀起的一片“AGI已至”的惊呼声中,刚刚,Google DeepMind首席执行官哈萨比斯亲自携谷歌版《Her》登场:
Project Astra的AI助手甚至能直接帮忙读代码:
谷歌还祭出了自己的硬件优势,带来一波AR和大模型的梦幻联动。
一边撸狗一边玩转大模型已经成为现实(手动狗头)。
![](http://n.sinaimg.cn/finance/gif_image/415/w540h675/20240515/032e-gifb8034f371f624d2f422fae46dd3ae9f0.gif)
这一波操作下来,战果如何尚未可知,网友们反正是兴奋了起来:
![](http://n.sinaimg.cn/finance/crawl/668/w550h118/20240515/7184-57250f7ae9818499f784120ab814f50d.png)
而正面硬刚GPT-4o,还只是谷歌铆足了劲,在I/O大会上释出的冰山一角。
两个小时的主题演讲里,AI被提及了121次,CEO劈柴哥还犹嫌不足。
![](http://n.sinaimg.cn/finance/crawl/107/w550h357/20240515/d37d-4a2d423a3fa78bdd4c3c726d4c779b4d.png)
于是,对标Sora能生成一分钟长视频的视频生成模型Veo来了:
Gemini 1.5 Pro不仅面向所有人开放,上下文窗口还从100万token直接一步迈向200万,一口气能读1500页PDF。
连Android,现在也紧紧跟谷歌大模型Gemini绑定,摇身一变成为以AI为内核的操作系统。
![](http://n.sinaimg.cn/finance/crawl/777/w550h227/20240515/fd6b-87423f3178c63e52bc6f9d4505dc0ca7.png)
总之,信息量多到爆炸
![](http://n.sinaimg.cn/finance/crawl/144/w72h72/20240515/2a3b-173c221cd122db0fa496e2a67a3b37e4.png)
![](http://n.sinaimg.cn/finance/crawl/144/w72h72/20240515/e98c-94ebfca6651ab8e797fad2038dd3e8e9.png)
![](http://n.sinaimg.cn/finance/crawl/633/w550h83/20240515/c11d-d051976713399b9223c55658b8c14005.png)
谷歌版《Her》登场
第一时间引发最多讨论的,当然是谷歌版《Her》——Project Astra。
Project Astra基于Gemini系列模型打造,谷歌表示,研究人员们希望这样的智能助手,能真正在人们的日常生活中提供帮助。
有意思的是,OpenAI总裁哥Brockman昨天在场外补充了有关GPT-4o多模态能力的更详细视频,而谷歌这边,哈萨比斯也是第一时间在X上更新了与这样一个智能助手的互动。
看样子,Ta不仅能完成帮忙找眼镜这样的基础工作。
![](http://n.sinaimg.cn/finance/crawl/59/w550h309/20240515/e28c-ee9ee4bd17eea760cc29d42f81f3ccae.png)
帮忙搞点文艺创作,解答一下专业书上看不懂的内容,也都是信手拈来。
还有Google DeepMind的工作人员干脆和Project Astra一起看起了I/O大会直播:
不少网友都认为,这是谷歌对OpenAI的GPT-4o的正面回应。
![](http://n.sinaimg.cn/finance/crawl/727/w550h177/20240515/fa53-e27e948f92ebf57909da37ebcf04dd7f.png)
不过嘛,网友们也关注到了不少问题,比如,Project Astra的延迟似乎还是比GPT-4o长,谷歌的演示中也没有体现是否能打断智能助手说话。
![](http://n.sinaimg.cn/finance/crawl/17/w550h267/20240515/1b42-f6cb947447baf5b4424410624750113f.png)
值得关注的是,Project Astra背后,是Gemini系列模型的进一步升级迭代。
比如,Gemini 1.5 Pro的上下文窗口来到了惊人的200万token。
![](http://n.sinaimg.cn/finance/crawl/51/w550h301/20240515/99d5-e909e2ef91c6c5dda48f9d1deb92e5d6.png)
谷歌还最新推出了Gemini 1.5 Flash这一轻量级模型,并开源了27B的Gemma 2和视觉语言模型PailGemma。
60秒长视频生成
你可能已经默默在心里比较了一番Project Astra和GPT-4o的高下。
但桥豆麻袋,说起来,谷歌被OpenAI突然狙击,可不止这一回。
还记得在春节期间抢尽谷歌风头的Sora吗?
谷歌的回应,虽迟但到——
谷歌最强视频生成模型Veo来了。
![](http://n.sinaimg.cn/finance/gif_image/201/w640h361/20240515/6911-gif123a3561639f09223ac3f4e960f6d918.gif)
Veo可以生成1080p的高质量视频,生成视频的长度也看齐Sora:最长超过1分钟。
谷歌还强调,Veo生成的画面一致性出色,并且可以hold住各种风格。比如“延时拍摄”和“航拍”这种术语,直接写在提示词里,Veo都能get。
目前,谷歌已经和电影制作者展开了合作,在电影项目中探索Veo的应用。
![](http://n.sinaimg.cn/finance/crawl/61/w550h311/20240515/91d4-008b51e9ae41d144690207592315f7c5.png)
与此同时,谷歌的图片生成模型Imagen也迎来更新,Imagen 3发布。
官方提到,与此前的模型相比,Imagen 3的视觉伪影更少,生成的图像细节拉满,并且在生成文字方面效果也很好。
![](http://n.sinaimg.cn/finance/crawl/300/w550h550/20240515/04ce-7db7b7981045c3180eb0b23cfa52bcd4.png)
另外,谷歌此次还推出了音乐生成模型Lyria。
Gemini进入全线产品
在这些跟OpenAI叫板的“肌肉”展示之外,谷歌对大模型应用的看重,也在此次I/O大会中尽显。
英伟达科学家Jim Fan就他的I/O观后感中表示:
谷歌做对的一件事是:他们终于开始努力把AI集成到搜索框中。
![](http://n.sinaimg.cn/finance/crawl/278/w550h528/20240515/9f1a-91916d01ea478edf881a8827634a3949.png)
还不止是搜索,这一次,谷歌可以说是把Gemini塞进了全线产品中,包括谷歌搜索、Android,以及谷歌邮箱、谷歌Photos等。下面我们划划重点。
1、谷歌搜索
基于Gemini,谷歌搜索推出AI概述(AI Overview)新功能,彻底化身AI搜索。
用户在搜索框输入问题,马上就能得到一个AI总结的答案,包括相关链接。
而且是超长问题都能处理的那种,比如:
查找波士顿最好的瑜伽或普拉提工作室,并提供他们的入门优惠详情以及从灯塔山步行所需时间。
AI Overview秒秒钟就会列出五星好评且距离灯塔山近的店,并附带课程标价,连店在地图上的位置都标记了出来:
![](http://n.sinaimg.cn/finance/gif_image/484/w744h540/20240515/8f88-gifb768f4389a0c2a74d13eb696e053d738.gif)
对于这种复杂问题的搜索,谷歌表示采用了多步推理技术,可以将复杂问题拆解成一个个小问题,然后自动对问题进行排序回答。
![](http://n.sinaimg.cn/finance/gif_image/190/w624h366/20240515/1c90-gif109c53c6717909125d5cafac90cbaea6.gif)
多步推理加持下,AI Overview已经脱离了纯粹的搜索——把制定计划一并搬进了搜索引擎里。
比如直接让它为一个团体制定一个为期三天的易于执行的餐饮计划。
AI Overview一键给出了方案,每个方案都可以点击修改,下方还可以一键将食材加入购物车:
![](http://f.sinaimg.cn/finance/gif_image/482/w732h550/20240515/cbcb-gifc467dfcf827a1e47e0b08bafbdc3ec4b.gif)
还没完,当你没有想法、问的问题比较笼统时,谷歌搜索还会AI自动将搜索结果整理成一个个“群组”,为你提供建议。
比如问:在达拉斯找一个餐厅庆祝周年纪念日。
搜索出的结果会按照音乐餐厅、具有历史魅力的餐厅等一键分组。再往下翻,页面会从餐饮逐渐扩展到电影、酒店、购物等。
![](http://f.sinaimg.cn/finance/gif_image/482/w732h550/20240515/dfc3-gif7357a5d8e329317c4ee97c4d84f40fe3.gif)
此外,谷歌搜索还支持视频搜索了。
演示中,唱片机出故障,只需一边录制视频一边说出疑问,谷歌AI Overview就会立刻分析故障原因,并给出处理建议。
![](http://f.sinaimg.cn/finance/gif_image/0/w480h320/20240515/2e69-gife27494198e2783913d247d6ccd27e009.gif)
谷歌搜索AI Overview功能将在本周开始在美国推出,后面将陆续推至其他国家。
2、Android 15
谷歌把Gemini也带到了安卓系统中。
凭借直接内置的Circle to Search功能,用户使用简单的手势“圈”一下手机上看到的任何内容,就能进行搜索。
比如圈出练习题,就能一键获取答案。
![](http://n.sinaimg.cn/finance/gif_image/108/w594h314/20240515/c324-gifeef8ddc82955b0f7f2e9437b27df392d.gif)
目前这一功能,已在Pixel和三星的部分设备上使用。
此外,还可以在一个应用之上随时调出Gemini助手层,随时使用。你还可以将Gemini生成的图片直接拖到Gmail等应用中,直接询问某个视频中的具体信息,不用滑动翻文档询问某个PDF中的信息……
![](http://n.sinaimg.cn/finance/crawl/134/w374h560/20240515/9882-0be89ce0a2b8578d0836a78939693792.png)
甚至连电话反诈,都用上Gemini了:听到关键字“把钱转到安全账号”,马上就能给出警报。
![](http://n.sinaimg.cn/finance/crawl/450/w225h225/20240515/3d61-e6aa6327d374afb7bea94560b1d11c94.png)
总之,官方强调,现在,Gemini在手机上现在不止是一个App,更是安卓体验的基础。
3、谷歌Photos
谷歌Photos基于Gemini也推出了新功能——Ask Photos,可以一键从图库中帮你找到想要的照片和视频。
![](http://n.sinaimg.cn/finance/gif_image/182/w624h358/20240515/3010-giff2042a70546f039a01723c80f325b8b4.gif)
比如你想知道自己的baby是什么时候学会游泳的,Ask Photos会从你在谷歌Photos中存储的成百上千张照片中查找出含游泳、游泳证书等相关图片,最后总结给出回复:
![](http://n.sinaimg.cn/finance/gif_image/182/w624h358/20240515/8516-gif2a5b539e22dcc96ff0c0fa2c41a9cc81.gif)
Ask Photos这一功能将在今年夏天推出。
4、谷歌Workspace
Gemini也接入到了谷歌Workspace提供的一套生产力和协作工具中,包括谷歌邮箱、谷歌Docs、谷歌Calendar等。
这使得在这些工具间进行跨应用工作变得更加容易。
例如在谷歌邮箱中自动分析邮件以及附件,识别整理好收据,然后一键在Drive和Sheets中处理。
![](http://n.sinaimg.cn/finance/gif_image/376/w762h414/20240515/a61a-giffa859abfcdcf73bda4562aa4fc178393.gif)
5、NotebookLM
谷歌AI笔记应用NotebookLM也大升级。
如下图所示,当你提出一个问题后,背后的Gemini模型就会结合NotebookLM中的笔记内容,进行多模态的语音对话式回答。
![](http://n.sinaimg.cn/finance/gif_image/298/w712h386/20240515/95cf-gifb11c8df93d9bebe8fdd206781551e49f.gif)
也就是说,所有笔记都可以变成交互式教材。
第六代TPU
最后,在硬件部分,谷歌也带来了新消息:
第六代TPU Trillium将在今年向云客户提供。
与TPU v5e,Trillium的峰值计算性能提高4.7倍,HBM和带宽增加了1倍,芯片间互联(ICI)带宽也增加了1倍。另外,Trillium的能效比TPU v5e高出了67%以上。
![](http://n.sinaimg.cn/finance/crawl/60/w550h310/20240515/c6cc-9ad3148302aff96571db0d47c6921dcc.png)
![](http://n.sinaimg.cn/finance/cece9e13/20200514/343233024.png)
责任编辑:欧阳名军
VIP课程推荐
APP专享直播
热门推荐
收起![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)