21世纪经济报道记者李强 北京报道
北京时间5月11日凌晨,谷歌I/O开发者大会在谷歌美国加州山景城总部举行。
自2016年发布Google Assistant以来,以AI First为核心战略的Google每年都会在I/O大会上亮出一些AI领域的研究成果,不过总体来看,最后能够落地为面向消费市场的实际产品寥寥,导致谷歌虽然作为大语言模型领域公认的开拓者和先驱者,但却一直处于不温不火的状态,业界之外对于谷歌在AI领域近些年来的贡献也知之甚少。
2022年11月,OpenAI旗下的大语言模型产品ChatGPT横空出世,让几乎所有人都能够明确感知到AI的惊人潜力,瞬间改变了整个AI行业的节奏,一直在底层技术研发和产品更新上不紧不慢的谷歌也充满了紧迫感与危机感。ChatGPT的出现和微软新版Bing的步步紧逼,为Google拉响红色警报的同时,更是让原本在AI应用方面一心求稳的Google不得不快些再快些。
2月6日,赶鸭子上架的谷歌匆忙发布了由大语言模型LaMDA提供支持的AI聊天机器人Bard。
3月14日,谷歌发布面向开发者和Google Workspace用户的生成式AI工具与服务:如方便开发者快速进行原型设计和模型调整的PaLM API和MakerSuite、面向大规模模型和AI应用构建、部署的Google Cloud生成式AI产品等;在普通用户较多的Google Workspace,谷歌也上线了包含Gmail智能撰写、Google文档自动摘要生成、文法润色等工具在内的生成式AI体验……
而不出意外的,本次发布会完全围绕AI进行的同时,Bard和生成式AI应用也作为主角身份登场。
Bard“逆袭”
作为本次大会的重头戏,谷歌公布了最新的大语言模型PaLM 2。
PaLM是Google在2022年4月宣布的大语言模型,使用了5400亿参数进行训练,约是GPT-3的三倍,此次PaLM 2又在PaLM上进一步进行了提升和改进,在多语言文本方面接受了更多的训练,涵盖了100多种语言,对于理解、生成和翻译包括成语、诗歌和谜语在内的细微差别文本的能力非常显著,还通过了“精通”级别的高级语言能力考试。
在推理方面,PaLM 2的数据集包括科学论文和带有数学表达式的网页,拥有超强的逻辑、常识推理和数学能力。
谷歌CEO Sundar Pichai在发布会上提出,谷歌在AI方面的愿景是“让AI对每个人都有帮助”,对于产品落后感强烈的谷歌,叙事逻辑也更倾向于基于现有的产品基础,让AI在产品智能化上的效果更为显性,而首要的就是将AI技术融入到旗下众多的产品中。作为谷歌在这一波AI浪潮下最新的研发成果,发布会当天演示的一系列产品应用新功能也都是基于PaLM 2生成。
例如谷歌的最核心产品谷歌搜索,经过AI全新优化的搜索,对自然语言的理解力更强,更能理解用户所想要真正表达的意思;基于谷歌自行研发的大语言模型,谷歌搜索结果除了过去的网页搜索结果外,会在最上层显示被谷歌成为“AI Snapshot”(AI快照)部分,这部分是由谷歌底层人工智能,根据开放网络信息所总结出的信息。
此前发布的Bard是基于LaMDA开发,现在也已经全面转用PaLM,在答案生成的数据组和更多元化的内容方面能力飞升,尤其吸引人的是,谷歌将Bard跟旗下和外部产品的集成,让Bard跳出聊天机器人范畴,拥有更多实用性。
比如现在Bard提供答案时,除了文字之外,还能提供包括图片、视频、外部链接等多元化的信息,用户也可以将这些问题答案一键导出到Gmail、谷歌文档、表格之中,Bard还可以为图片、文档等做加标注,未来也将支持更多谷歌应用程序和Bard的集成体验,包括Drive、地图等。
对于软件工程师们来说,Bard提供了改进后的代码引用功能,在提供来源的同时还能解释代码片段。同时,开发者们也可以把Bard生成的代码进行导出,不仅能发送到谷歌的Colab平台,还能和另一个基于浏览器的IDE Replit一起使用。
目前,Bard能支持20多种编程语言,基本涵盖了工程师们所有编程开发需要,并为开发者们提供了新的深色界面。开发者们只需输入prompt就能得到完整的代码片段。
此外,跟ChatGPT类似,Bard现在也可以跟其他外部工具进行集成使用。在开发者大会上,谷歌也展示了一个Bard跟Adobe Firefly合作生成图片的例子,比如用户想给孩子办一个生日派对需要做一个请柬照片,只需要对Bard说:“制作一张在儿童派对上独角兽和蛋糕的图像”,接着在Adobe的支持下它会在几秒钟内生成四张图像。
除了Adobe之外,Bard目前还在推进跟更多外部工具的集成使用,包括Kayak、OpenTable、ZipRecruiter、Instacart、Wolfram、Khan Academy等。
此外,谷歌此次取消了等候队列,Bard将面向180多个国家和地区的用户全面开放。此外在英语之外,还增添了日语和韩语两种语言,未来将逐步支持40种语言的交互。
AI“武装”
本次谷歌一并推出了四种不同规模的PaLM 2。
谷歌用不同的动物来体现规模大小,从小到大依次是壁虎、水獭、野牛、独角兽。其中“壁虎”版本是最轻量级的,能在移动设备上快速运行,离线状态下每秒可处理20个token。
值得说明的是,在实际落地中,大模型不是参数量越大越好,在一些数据量小、任务并不复杂的场景,追求泛化能力强但规模庞大的大模型,无异于“大炮打蚊子”,如何将大模型核心的泛化能力快速适配至不同场景才是关键。
而不同规模的PaLM 2意味着其落地应用会更加方便,可以面向不同的客户,部署在不同企业环境中,用户甚至不用花费大量时间和资源来创建和调整PaLM 2,而是能够直接拿来就用。
PaLM 2也早已经被用在了谷歌自家的25项功能和产品之中,除了Bard,另一个重头落地场景是谷歌的全线办公套件。
今年3月,追赶微软的Microsoft Copilot服务,谷歌为其Workspace办公套件增加了一系列AI功能,在本次开发者大会上,谷歌也正式将其命名为Duet AI。
跟微软Copolit类似,Duet AI将被全面集成至谷歌旗下的Work Space,包括谷歌文档、表格、幻灯片、会议、GmailMeet的自动会议摘要等等,同时还推出了一项名为Sidekick的新功能,能够跨不同的谷歌应用程序进行阅读、总结和回答文档中的问题。
例如邮件的撰写,只需要给谷歌一个主题,AI便能够自动生成一段前后逻辑相对完整的文字;在生成PPT方面,也能够运用AI随时插入所需图片以及每一页PPT的大纲内容……这些功能在此前微软发布Copolit时基本都看到过,Duet AI更多是展示了谷歌在AI产品上的应对和跟进能力。
此外,Duet AI也将被应用于谷歌云业务之中。借助Duet AI,谷歌云推出了一系列开发者工具,包括可以提供实时代码帮助,指出错误的同时推荐生成的代码块,以及回答代码和谷歌云相关的问题等。该功能支持Go、Java、Javascript、Python和SQL等多种语言。谷歌表示,目前在谷歌云上进行AI的训练速度提高了80%,成本降低了50%。
但目前,谷歌办公领域的Duet AI功能还没有对公众进行开放,如果想试用这些新工具,需要先注册“工作场景实验室(Workspace Labs)”并加入等候名单。
(作者:李强 编辑:骆一帆)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)