Ilya离开OpenAl,谷歌一口气拿出十余款新品也难出风头?

Ilya离开OpenAl,谷歌一口气拿出十余款新品也难出风头?
2024年05月16日 13:44 界面新闻

文|经纬创投

顶着压力开发布会是一种什么样的体验?

「代表谷歌为开发者提供所有服务」的谷歌I/O来到第16年。去年的I/O带来了Gemini,今年带有火药味的发布会则更加值得期待。被竞争对手忌惮已久的谷歌,能否超越前一天刚刚截胡发布的ChatGPT-4o?

发布会现场,谷歌带来了可以实时理解镜头世界的多模态Agent助手Astra、搜索业务来了一次彻底的AI化改造、Gemini系列模型卷起了长文本、效果超过Sora的视觉模型Veo……谷歌一口气拿出来十余款AI新品,势必要挣回这口气。

但就连llya也来抢谷歌风头。凌晨,OpenAI首席科学家Ilya Sutskever在X发布自己离开OpenAI消息,称“我决定离开 OpenAl。再见,感谢你们所做的一切。我很期待接下来的计划--这个项目对我个人来说意义重大,我会在适当的时候分享细节。”

谷歌的反抗只是一个序幕,硅谷将进入竞争异常激烈的AI月。在这之后,微软2024Build年度大会、英伟达季度财报、苹果2024年度开发者大会陆续到场,这个“AI月”注定不一般。那么,高强度下的硅谷,“不(强迫)加班文化”现状如何?各家巨头都打的什么算盘?有哪些发布值得期待?以下,Enjoy:

01 Google I/O 带来哪些新花样?

前一天OpenAI用GPT-4o吸引了全世界的眼球,Google要在今年的Google I/O上拿出什么样的产品翻盘呢?

Gemini模型家族

关于Gemini的具体信息,是由Deepmind的CEO Demis Hassabis上台介绍。这也是这位传奇人物第一次Google I/O演讲。

谷歌宣布Gemini 1.5 Pro升级到200万tokens,并全面支持Workspace,同时Gemini 1.5 Pro将面向全球开发者开放。新版本长度再次刷新,达到200万tokens。

除了能生成创意文本、代码外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结。谷歌同时面向开发者推出支持200 万 tokens的 Gemini 1.5 Pro 模型的预览,并表示最终的目标将是 " 无限上下文 "。

关于大模型 API 的最新定价,其中 Gemini 1.5 Pro 定价为 7 美元 /100 万 Tokens,12.8K 上下文窗口的版本定价为 3.5 美元 /100 万 Tokens;而 Gemini 1.5 的起售价为 0.35 美元 /100 万 Tokens。

此次推出的Gemini 家族的新成员,则是针对端侧的模型Gemini 1.5 flash,同样有100万和200万token的版本。哈萨比斯曾说,谷歌之所以创建 Gemini 1.5 Flash,是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。

谷歌展示的" 未来的人工智能助手 ",也是被OpenAI狙击的项目——"Astra" ,可以通过用户打开的摄像头识别物体,与用户实时语音交互。

哈萨比斯表示,这样的 AI 助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西,这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导,以及自然、无延迟地进行交流。在演示视频中,谷歌的 AI 助手能够通过摄像头视频,识别 " 什么东西能发出声音 "、" 现在身处何地 " 等指令。

演示视频中,官方还展示了Astra与AR眼镜相结合的效果。戴上眼镜后,Astra的回答会实时显示在眼前,比如帮助修改白板上的流程图时,会用箭头指出修改位置。

此外,谷歌还发布了开源模型Gemma 的2.0版本,270亿参数。并为它拓展了PaliGemma这个多模态版本。

多模态生成模型多模态生成模型

面对OpenAI的围猎,Google针对Sora发布了一款全新的视觉模型Voe。谷歌还表示,Veo 具有对自然语言和视觉语义的高级理解能力,能够生成与用户创意愿景紧密匹配的视频——准确呈现详细的长提示并捕捉情感。Veo甚至还能理解电影术语,如“延时”或“航拍镜头”。

用户仅需写出文本提示即可生成视频,比如文本提示:"一艘宇宙飞船在浩瀚的太空中穿梭,星星划过,高速,科幻。"

当你输入" 在宁静的山地平移镜头,相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊。 ",可以得到如下的效果。

在Voe的展示中,用户可以通过点击扩展,而继续增加视频生成的时长,并且可以保持一致性。

此外,谷歌还发布了文生图像模型Imagen 3。从细节拟真度来看与Midjourney v6能达到同一级别,比起Dalle-3更胜一筹。而且在对细节的跟随上也要更细致;音乐生成方面,谷歌给Lydia增加了新拓展 Music AI Sandbox。

AI搜索,25年来最大的更新之一

谷歌正式推出了“AI Overviews”搜索体验,将于本周开始向美国地区开放,后续会推广到更多国家和地区。这应该是其搜索引擎 25 年来最大的更新之一。

谷歌搜索业务负责人 Liz Reid 开始具体介绍 AI Overviews 功能。Reid 表示,在进行搜索时,搜素引擎具备多步骤推理的能力,例如寻找一个瑜伽教室,同时展示新手优惠报价,和距离特定位置的步行时间。这个 AI 搜索引擎助手,还能介绍食谱、安排行程,以及接受视频形式的提问(例如视频中的相机怎么使用)。

谷歌还介绍了AI搜索的计划能力。用户可以直接在搜索里获得一个完整的计划。比如搜索类似“为一群人创建一个易于准备的三天餐饮计划”,您将获得一个起点,包含来自网络各处的各种食谱。这是其他搜索软件暂时还没有专精的能力。

此外,靠Gemini的多模态功能,谷歌可以做到利用声音搜歌曲,利用图片搜产品。甚至可以用Circle to Secarch 功能圈出图片中的一部分去搜索。在搜索时,你可以通过视频提问,比如录一段视频问道:“为什么这个放不上去?”

谷歌全家桶AI能力升级谷歌全家桶AI能力升级

结合Gemini的Workspace。你可以通过 Side Panel(一个能唤起Gemini的侧边栏)功能总结一系列邮件,可以总结你的账单,形成一个Sheet。

“Ask Photo”更新后可以与照片进行对话。比如,你可以问Photo app,“我的汽车牌照是多少”。然后Gemini就在照片里寻找出来你的车告诉你答案。

谷歌 Gemini 总经理 Sissie Hsiao 介绍了 Gemini App 的更新。与周一的 OpenAI 一样,从今年夏天开始,Gemini 也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互功能。未来几个月内,谷歌也将推出类似于 GPTs 的自定义 AI 助手功能。

在安卓系统方面,谷歌将实现的" 三大突破 ",分别是 " 画圈圈搜索 "、Gemini 手机 AI 助手,第三是在手机本地运行的 AI。

谷歌表示,今年晚些时候,能够在本地运行的多模态 Gemini Nano 模型将登陆 Pixel 手机,意味着手机将能通过文字、图片、视频、音频,理解用户的世界。

发布会现场,谷歌宣布了第六代数据中心 AI 芯片 Tensor 处理器单元(TPU)--Trillium,并表示将于今年晚些时候推出交付。

作为发布会最后的彩蛋,谷歌 CEO 皮查伊最后用 Gemini 总结了今天的发布会稿子里总共提了多少次 AI —— 121 次。

02 谷歌的护城河有多深?

在当今这个AI 时代,Google的危机愈来愈重。

但身在谷歌的人未必如此认为。

作为谷歌的员工,Zellweger一开始加入谷歌就是为了从事注定失败的 Daydream 头盔的工业设计,后来他又转到了 Pixel 硬件团队。

在他看来,“受CEO影响,从公司的角度来看,我们需要成功,这种压力是存在的,制造硬件已经从一种爱好变成了 Google 业务的关键元素。”

而谷歌CEO本人桑达尔·皮查伊在采访中的回答,流露出对谷歌护城河的自信。

早在2016年,他正式担任谷歌CEO,以此身份发布了第一封致股东信。信中,他说:

“我们将从移动优先走向人工智能优先的世界。”

似乎一直被认为落后的谷歌暗地里早有准备。或者夸张来讲,AI的第一波浪潮,还是谷歌掀起的水花。然而,不少网友仍然调侃其为“起了个大早,赶了个晚集”。

谷歌的“保守”对于称霸来说,很难,但作为护城河而言,足够用。

每个时代、每个公司,都或多或少在管理和员工身上多下功夫。能够让谷歌与众不同的地方,还在于独到的员工成长文化。

谷歌创始人拉里·配齐和谢尔盖·布林曾倡导“20%时间”文化,允许员工将工作20%的时间用以个人兴趣和创新当中,希望用创造力支撑发言权,这无疑可以筛选一批有活力的开放员工。正如英特尔前CEO安迪·格鲁夫所说,“只有偏执狂才能生存。”

针对近日广受挑战的搜索引擎,皮查伊也有自己的看法。 谷歌搜索的独特之处在于,即使有时会直接给出答案,但我们始终会链接到各种来源。

多年来,谷歌一直在搜索中提供直接的答案。现在的模式入手,我们只是借助生成式人工智能在实现这一点。

链接功能将一直存在,理解并满足这些多样化的需求,正是搜索的真正魅力所在。

他还曾就搜索质量面临的质疑进行正面回答:

技术或行业发生变革,伴随着大量新内容的涌现,人工智能领域亦然。谷歌会把它当成一项挑战。我坚信,成功应对这种挑战将重新定义高质量的产品,这将是搜索取得成功的关键。谷歌深知被给予了很高的期望,我们也清楚需要为此承担的责任。

当被问道相较GPT,谷歌似乎错失了许多重要机会时,皮查伊表示:

从长远的视角看待这个问题,互联网兴起时,谷歌甚至还不存在,对吧?

谷歌是第一家专注于搜索的公司。

谷歌是第一家推出电子邮件服务的公司。

谷歌是第一家开发浏览器的公司。

因此,我认为人工智能领域也正处于其最早期的阶段。

当然,皮查伊也清楚地知道,对所有公司,尤其是那些规模庞大的企业来说,最大的潜在威胁就是执行力不足。

03 进入AI月,每个玩家生怕落后,大模型大招不断,大牛纷纷炫技

从5月10日到6月10日,AI领域的玩家接连上阵,发新品、更新财报,给开发者和投资者们贡献一场场精彩绝伦的科技盛宴。

硅谷大牛们似乎从不懈怠,一个接着一个的炫技……

就在谷歌的I/O开发者大会2024前一天,OpenAI一夜改写历史,在发布会上闪亮官宣了新产品:GPT-4o。就连发布会本身都是AI在开,难分真假的CTO Mira Murati意味着OpenAI朝着更加自然的人机交互迈进。

微软也不甘示弱,5月21日,微软将举办2024 Build年度开发者大会。

根据官方公布的信息,两场分论坛将分别聚焦“下一代Windows on Arm”和“全新的Windows AI功能”。

其中,“下一代Windows on Arm”分论坛将着重介绍有关应用程序“行业领先性能”的详细信息,以及“Arm驱动的Windows的新体验”,例如采用NPU功能的智能Windows应用程序,可能包括更多的Windows AI功能。

此外,微软还将详细介绍Windows开发者体验方面的一些改进。

AI之外,明星产品Copilot可能将成为2024微软Build年度开发者大会的重点议题之一。

一场振奋人心的技术革新,说不定又将在一夜之间诞生。

紧接着的下一天,英伟达将于5月22日公布一季度财报。

借着AI浪潮,“卖铲人”英伟达财报表现一直颇为亮眼,今年年初公布的财报更是展现了强劲的收入和净利润增长。而在市场的表现上,据市场研究机构 Trendforce 最新报告显示,英伟达已经超越高通,成为 2023 年全球收入最高的芯片设计厂商。

虽然英伟达发布财报当天不会透露太多新品动作,但市场上流传了不少消息——据《经济日报》报道,业内传闻,手机芯片大厂联发科正携手AI芯片大厂英伟达(NVIDIA)开发基于Arm架构的AI PC处理器,预计将在今年三季度完成设计定案(tape out),第四季度进入验证,售价或将高达300美元。

大差不差、紧随其后的苹果也有秘密武器?6月10日至6月14日,苹果将举行年度全球开发者大会(WWDC)。

在AI潮席卷全球的时候,苹果不断调整自身战略以期追赶时代潮流,但效果总是不尽如人意。

MR头显Vision Pro被寄予苹果近十年来开辟新品类的希望,但首发美国后的反响不佳。不及市场预期的出货量和后期疲软的用户需求,给苹果泼了一盆冷水。

而另一个备受瞩目的电动汽车项目也被取消,部分员工将转移到苹果的人工智能(AI)部门。而生成式人工智能项目,正是公司日程表里愈发重要的事项。

可以看到,苹果对于AI的焦虑和急迫。

苹果全球营销高级副总裁Greg Joswiak在X上表示:“请在日历标记上WWDC24吧。这场活动将绝对震撼!”这里的彩蛋是,Joswiak特意把“Absolutely Incredible(绝对不可思议)”的首字母拼成大写,合起来就是当下最火的科技概念——AI。

04 硅谷加班卷疯了,铁打的程序员、流水的加班线?

改编《北京人在纽约》中一句经典台词描述硅谷,似乎毫无争议:「爱TA,就把TA送到硅谷;恨他,也把他送到硅谷。」

高薪、高自由度的硅谷,既被奉为「Work Life Balance」的自由天堂,也被认为是「加班文化」最强的“内卷”集中地。硅谷公司不强迫加班,原因很简单:加班无法与工作质量划等号。同时,硅谷公司不缺少加班,原因同样简单:上班无法脱离工作狂的生活独立存在。

GPT的到来,让硅谷的「卷」文化更上一层楼。

只不过这次技术迭代,伤害的大多数是工程师。如同英伟达CEO黄仁勋所说,AI正位于iPhone时刻。整个硅谷都在压力中爆发,试图在发布上与对手分出毫厘之胜。

一位硅谷员工甚至将这种状态概括为“边飞、边造飞机”。

亚马逊的工程师也是如此。美好的周末计划被一条Slack消息打破。夜以继日地加班,结果却是项目优先级降低。几千行代码付诸东流。

专家们无时无刻不在紧急开发的功能、软件,让工程师的心也跟着跌宕起伏。项目顺利则功成名就;项目叫停则进度归0。这便是此时此刻的「硅谷状态」。不少工程师陷入职业倦怠,随之揭开了AI热不为人知的另一面:很急,但不知道在急什么。

抱怨声的出现不会暂停巨头公司的任何决定。

微软首席财务官Amy Hood曾表示,公司正在调整人手,将优先专注AI,并且优先投资AI。因为,未来十年的关键因素。

Meta CEO扎克伯格也是如此,他认为,未来几年,应该大力投资、开发更先进的模型和世界上规模最大的AI服务。

亚马逊CEO Andy Jassy鼓励投资者增加对生成式AI的资本投入,他认为,技术领域很少见到如此的机会,甚至从互联网问世以来。

速度的加持下,匆忙的产出、单薄的人力偶尔也会导致翻车,Gemini的仓皇下线、Bard的备受质疑,都是如此。

对比之下,谷歌的上班文化,也走着相似的硅谷风。谷歌鼓励「不加班」,但要求「on call」。这意味着需要你的时候,你就要在。不少局外者将这种模式称为超越「996」的「24*7」。

天堂与地狱的区别,似乎区别在于工作是否只是工作本身。如果作为兴趣,如果成为生活,似乎越“虐”越有“事业感”。

本质上,每个人的工作观不同,加班狂屡见不鲜,朝九晚五、渴望下班的打工人更是拥有自己的快乐。

然而,在硅谷,「卷」已经成为囊括大多数程序员的形容词,也是当下AI竞赛的真实写照。

现在,每一次发布会似乎都成了一场无声的较量。

科技巨头们像商量好了一样你追我赶,都想以各自的创新技术证明自身、抢得一份里程碑式成就。“百模大战”时期的到来,在高强度压力中全面释放了AI的潜力,也让每一位“姗姗来迟”的公司,都可能成为最终的赢家。因此,每一次突破,都不容错过。

一切革命性时刻,都值得拭目以待。

参考文献:

1. 硅谷AI工程师内卷崩溃记:996写代码项目被砍,连续熬夜只为讨好投资人!by新智元

2.科技界的“AI月”即将开启!OpenAI、谷歌、微软等巨头将带来哪些颠覆性体验和期待?by每日经济新闻

3.谷歌CEO最新访谈:AI浪潮仍处于早期阶段,公司未来最大威胁是执行力不足(视频+实录) by腾讯科技

4.独家专访谷歌CEO桑达尔·皮查伊:基于我的个人经历,我一直相信人和人性 by DeepTech深科技

5.谷歌的这场活动已经办了16年,为何它叫I/O?by科技行者

6.跟 OpenAI 争夺「iPhone 合作权」的 Google,后天要发布什么才能 「弯道超车」 by爱范儿

7.谷歌一夜亮出十几款产品对阵OpenAI:什么都有,只是没有惊喜 by腾讯科技

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 05-24 汇成真空 301392 --
  • 04-29 瑞迪智驱 301596 25.92
  • 04-25 欧莱新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 新浪首页 语音播报 相关新闻 返回顶部