安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址】
专题:聚焦谷歌2024年I/O开发者大会:实时交互、视频模型登场
来源:财联社
从北京时间周三凌晨1点开始,谷歌在山景城总部附近的海岸线圆形剧场,召开了长达两个小时的年度I/O开发者大会Keynote演讲。
与预期一致,谷歌的这场发布会基本都是在谈AI、AI、AI、AI和AI。根据发布会最后的官方统计,整场Keynote的演讲稿里总共提了120次AI。而且这只统计了讲稿,实际上的数量还会更多一些。
在一大堆更新和新发布的功能中,也有许多具有记忆点的产品。例如从本周开始,谷歌搜索引擎将在美国推出“AI概览”(AI Overviews)的功能,搜索引擎会直接归纳总结搜索结果。同时谷歌搜索也将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题,并支持“拍视频”搜索解决方案的新搜索形式。
另外以上下文窗口“长”闻名的Gemini 1.5 Pro大模型,在今年晚些时候将会把100万Tokens的窗口,进一步扩大至200万Tokens,拓展同步处理多模态信息的边界。而对于一些需要快速响应的场景,谷歌也推出了Gemini 1.5 Flash模型。今年2月刚刚问世的Gemma开源模型,也将在下个月迎来参数量更大的Gemma 2。在多模态领域,谷歌也发布了文生图工具Imagen 3、与Youtube&音乐家合作的“AI音乐沙盒”,以及最新的视频生成模型Veo。而多模态Gemini Nano模型也将在今年晚些时候登陆Pixel手机,这是在本地运行的机载模型。
值得一提的是,谷歌的发布会上也有一些与昨日OpenAI发布会“雷同”的地方——实时AI助手。从今年夏天开始,Gemini也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互。未来几个月内,谷歌也将推出类似于GPTs的自定义AI助手功能,叫做Gems,能够与整套“谷歌全家桶”联动。
硬件方面,谷歌宣布了第六代TPU芯片Trillium,并透露能够在明年初用上英伟达最新的Blackwell架构GPU。另外,液冷、光缆等中国股民可能会感兴趣的题材也在发布会上出现。
----全场发布会回顾----
👉发布会开始,Alphabet&谷歌CEO桑达尔·皮查伊登上舞台。
![](http://n.sinaimg.cn/finance/crawl/59/w550h309/20240515/0ad1-34283aa5f1ed7ce05edcd12933f8fd88.jpg)
👉皮查伊表示,现在已经有超过150万开发者正在使用谷歌的人工智能Gemini,今天将展示一系列有关搜索、图片、工作套件、安卓系统等等与人工智能有关的案例。
![](http://n.sinaimg.cn/finance/crawl/84/w550h334/20240515/4dd8-25d796cd2af24c8f5367a3685dc830c5.jpg)
![](http://n.sinaimg.cn/finance/crawl/82/w550h332/20240515/f6b9-f0018baaab582250c7677979b073b001.jpg)
🔈
皮查伊宣布,能够总结谷歌搜索引擎结果的“AI概览”(AI Overviews)功能,将于本周在美国推出。
![](http://n.sinaimg.cn/finance/crawl/48/w550h298/20240515/fcc3-860c7e9e83534223eb1619d4acf4ce18.jpg)
![](http://n.sinaimg.cn/finance/crawl/44/w550h294/20240515/c0a9-ca14c1849218bb471dcf69a5300a3d02.jpg)
👉基于Gemini支持,谷歌图片(Google Photos)将支持用户存储图片的AI搜索,例如“告诉我,我的车牌号码是多少?”——这个名为
Ask Photos的功能将于今年夏天推出。
![](http://n.sinaimg.cn/finance/crawl/45/w550h295/20240515/6361-932c3e749c896be6024267492c48de17.jpg)
![](http://n.sinaimg.cn/finance/crawl/38/w550h288/20240515/d7cc-48b8fe784a9769ee4662d81b1d8d96c5.jpg)
🔈皮查伊宣布,最新版本的Gemini 1.5 Pro(在多项核心功能方面均较最初发布版本有所提高)现在向全球所有开发者开放。从今天开始,支持100万tokens上下文窗口的Gemini 1.5 Pro将在Gemini Advanced功能下向用户开放,支持35种语言。
![](http://n.sinaimg.cn/finance/crawl/55/w550h305/20240515/1ef2-730beec7284402bfd0083221d56f1087.jpg)
![](http://n.sinaimg.cn/finance/crawl/47/w550h297/20240515/d778-66ac22e9e09ebec7d40f558b6df73184.jpg)
![](http://n.sinaimg.cn/finance/crawl/48/w550h298/20240515/92ea-74adf9962d55e82edd1dbbb970a90936.jpg)
👉谷歌同时面向开发者推出支持200万tokens的Gemini 1.5 Pro模型的预览,并表示最终的目标将是“无限上下文”。
![](http://n.sinaimg.cn/finance/crawl/49/w550h299/20240515/38a8-feaa86844eb61dc3cdd0109068e05bf5.jpg)
👉谷歌AI业务总负责人、DeepMind的首席执行官杰米斯·哈萨比斯登台,宣布推出
Gemini 1.5 Flash大模型。这个模型兼具速度与效率,和多模态推理能力,以及长达100万tokens的上下文窗口。开发者将能够申请体验200万tokens的上下文窗口的Gemini1.5Flash。
![](http://n.sinaimg.cn/finance/crawl/41/w550h291/20240515/d3e3-2e00eaee7e4aadd9643bd7e4affbf2e3.jpg)
![](http://n.sinaimg.cn/finance/crawl/52/w550h302/20240515/c6db-0cc67fead3cf0838babcde2b0cea4bde.jpg)
![](http://n.sinaimg.cn/finance/crawl/50/w550h300/20240515/8858-d6f35dc5ece5ce32d8741b210c048f08.jpg)
🔈谷歌展示“未来的人工智能助手”——名为“Astra”的项目。哈萨比斯表示,这样的AI助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西,这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导,以及自然、无延迟地进行交流。在演示视频中,谷歌的AI助手能够通过摄像头视频,识别“什么东西能发出声音”、“现在身处何地”等指令。
![](http://n.sinaimg.cn/finance/crawl/51/w550h301/20240515/53b8-658cc569644c7c7835630f06666b8b96.jpg)
![](http://n.sinaimg.cn/finance/crawl/48/w550h298/20240515/dd01-48b247c665610c1f7d0df6a024e55c00.jpg)
![](http://n.sinaimg.cn/finance/crawl/48/w550h298/20240515/7383-c6943356a8db63f171e2e8693d8e799d.jpg)
🔈谷歌宣布了一系列与图像、音乐、视频有关的生成式AI工具。包括文生图工具Imagen 3、与Youtube以及音乐家合作的“AI音乐沙盒”,以及最新的视频生成模型Veo。
![](http://n.sinaimg.cn/finance/crawl/49/w550h299/20240515/b6b9-9f60f9939fbb463d9492f46308a6af1f.jpg)
![](http://n.sinaimg.cn/finance/crawl/53/w550h303/20240515/11db-eb11fc1501b868d127a260f918defd4d.jpg)
![](http://n.sinaimg.cn/finance/crawl/55/w550h305/20240515/3c2e-53e41572bc53b3562b16a0cc6f2eb239.jpg)
![](http://n.sinaimg.cn/finance/crawl/40/w550h290/20240515/d502-c7052542b67dc76480d68665728bf085.jpg)
👉其中最受关注的视频生成模型Veo,能够根据文字、图片和视频的提示,生成高质量1080p视频。
![](http://n.sinaimg.cn/finance/crawl/47/w550h297/20240515/3e7c-ef572b7c3f62836a1e4b4a2ee98b1f78.jpg)
👉哈萨比斯离场,皮查伊重回舞台,发布第六代TPU芯片Trillium,较上一代芯片的算力表现翻4.7倍,云用户从今年下半年开始可以用上新芯片。同时谷歌云将在2025年初,用上英伟达的最新Blackwell架构GPU。
![](http://n.sinaimg.cn/finance/crawl/52/w550h302/20240515/6e0a-e95830d715fc16e5bf14fedca89640d6.jpg)
![](http://n.sinaimg.cn/finance/crawl/47/w550h297/20240515/b332-7d2aa9c6c302f87a2c52bdc0d23d9d90.jpg)
👉皮查伊开始介绍自家的AI超级计算机,比起用户自己买相同的硬件和芯片,谷歌的架构能使得效能翻倍,其中有部分功劳来自于液冷系统。皮查伊表示,谷歌部署液冷系统的数据中心已经达到1GW,而且还在不断增长中。
![](http://n.sinaimg.cn/finance/crawl/51/w550h301/20240515/ffe7-03ffaade7af71e4449827fb4ae6e4d21.jpg)
![](http://n.sinaimg.cn/finance/crawl/52/w550h302/20240515/fbd8-01d1f74434957966a4d38c3b95fcfbb3.jpg)
![](http://n.sinaimg.cn/finance/crawl/45/w550h295/20240515/b35b-bb19865eb3731d693b66dda67d0b8bb6.jpg)
👉皮查伊表示,谷歌投资了200万英里的地面和海底光纤,比第二名的云服务商翻了十倍。
液冷、光缆,应该都是股民们会感兴趣的东西。
![](http://n.sinaimg.cn/finance/crawl/55/w550h305/20240515/23d2-72662dc2e6bf9fa49bdfc0573788b032.jpg)
👉谷歌搜索业务负责人Liz Reid开始具体介绍AI Overviews功能。Reid表示,在进行搜索时,搜素引擎具备多步骤推理的能力,例如寻找一个瑜伽教室,同时展示新手优惠报价,和距离特定位置的步行时间。这个AI搜索引擎助手,还能介绍食谱、安排行程,以及接受视频形式的提问(例如视频中的相机怎么使用)。
![](http://n.sinaimg.cn/finance/crawl/52/w550h302/20240515/2618-649c54bb6229170278663e8f08d7f15f.jpg)
![](http://n.sinaimg.cn/finance/crawl/48/w550h298/20240515/cbc3-1b53a88fd59cd7a3cf90cb36d475a341.jpg)
![](http://n.sinaimg.cn/finance/crawl/49/w550h299/20240515/997e-17e7ca58e957579a9966119a65196326.jpg)
![](http://n.sinaimg.cn/finance/crawl/55/w550h305/20240515/5fb9-d5d9451fb9bfb48b1e4bae0a7cc783f5.jpg)
👉在办公套件Workspace方面,谷歌将逐步推出总结、邮件Q&A,以及智能回复等功能。
![](http://n.sinaimg.cn/finance/crawl/30/w550h280/20240515/16c0-1dd4941cff200a8fc5c2cf274869b37c.jpg)
🔈谷歌Gemini总经理Sissie Hsiao介绍了Gemini App的更新。
与周一的OpenAI一样,从今年夏天开始,Gemini也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互功能。未来几个月内,谷歌也将推出类似于GPTs的自定义AI助手功能,叫做Gems。这个AI助手的亮点,将是能与“谷歌全家桶”进行交互。
![](http://n.sinaimg.cn/finance/crawl/50/w550h300/20240515/2e93-2e5b34fed90343c06209b415562be302.jpg)
![](http://n.sinaimg.cn/finance/crawl/46/w550h296/20240515/6f4b-77facadfb2648bcf301fe989c94e242a.jpg)
![](http://n.sinaimg.cn/finance/crawl/47/w550h297/20240515/f09e-0a0c58e31e295be219bef9d549119af7.jpg)
👉Hsiao再次强调了Gemini的长上下文窗口——能够一次性处理整整1500页的文件,或3万行代码、1小时的视频。不同的载体也能混同一起提交给聊天机器人。她再次强调,今年晚些时候上下文窗口将翻倍至200万Tokens。
![](http://n.sinaimg.cn/finance/crawl/55/w550h305/20240515/9244-2fc426c92a40c30600b8fcc425f28d9a.jpg)
![](http://n.sinaimg.cn/finance/crawl/55/w550h305/20240515/3375-922a4302832be66559d9c7adf00bf863.jpg)
👉安卓生态系统的负责人Sameer Samat登台,他将讨论今年安卓系统实现的“三大突破”,分别是“画圈圈搜索”、Gemini手机AI助手,第三是在手机本地运行的AI。
![](http://n.sinaimg.cn/finance/crawl/55/w550h305/20240515/90d9-3a018fcc69bd4b6ba1ed9a37e6deddb1.jpg)
🔈谷歌表示,今年晚些时候,能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机,意味着手机将能通过文字、图片、视频、音频,理解用户的世界。举例而言,在听到“帮你把钱转到安全账户”这样的诈骗电话时,手机会自动弹出诈骗警告。整个过程都是在本地运行,不会引发隐私泄露。
![](http://n.sinaimg.cn/finance/crawl/58/w550h308/20240515/f94f-ecd97e48fdcfe8573f646d754a22490e.jpg)
![](http://n.sinaimg.cn/finance/crawl/48/w550h298/20240515/6e09-67eba0266d5e5bf6d9e1dee0046997dd.jpg)
👉谷歌披露大模型API的最新定价,其中Gemini 1.5 Pro定价为7美元/100万Tokens,12.8K上下文窗口的版本定价为3.5美元/100万Tokens;而Gemini 1.5的起售价为0.35美元/100万Tokens。
![](http://n.sinaimg.cn/finance/crawl/62/w550h312/20240515/c0c4-caad0535b47c7492f0091aa5c4ea5392.jpg)
🔈对于在今年二月刚刚推出的轻量级开源模型Gemma,谷歌宣布推出视频语言模型PaliGemma,并将会在6月推出Gemma 2。相较于第一代模型只有20亿和70亿的参数量,第二代开源Gemma的参数量能达到270亿。
![](http://n.sinaimg.cn/finance/crawl/57/w550h307/20240515/96f7-3f8e0d98fbf92886f11f8761d668aebb.jpg)
![](http://n.sinaimg.cn/finance/crawl/58/w550h308/20240515/23e3-0fde5ea920e33ef232f926202eee0343.jpg)
👉作为发布会最后的彩蛋,谷歌CEO皮查伊最后用Gemini总结了今天的发布会稿子里总共提了多少次AI——120次。当然,这并不包括皮查伊问完这个问题后,又唤了几遍AI。
![](http://n.sinaimg.cn/finance/crawl/18/w550h268/20240515/01f0-0a4e459002f2f949d3ea3f91d8096dff.jpg)
![](http://n.sinaimg.cn/finance/crawl/54/w550h304/20240515/bb73-fc5989ebf4587e4839ff913c684cda04.jpg)
🎉发布会结束🎉
![](http://n.sinaimg.cn/finance/0/w400h400/20231127/9ece-7520e4e0c86423a0c596834c30eb42ea.png)
![](http://n.sinaimg.cn/finance/cece9e13/20200514/343233024.png)
责任编辑:欧阳名军
VIP课程推荐
APP专享直播
热门推荐
收起![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)