百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万

百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万
2024年01月02日 13:00 机器之心Pro

机器之心原创

作者:杜伟、泽南

2023 年,AI 大模型的最后一波突破来了。

文心一言用户规模破 1 亿,飞桨的开发者数量达到 1070 万。

只用短短两个月,文心大模型 4.0 整体效果又提升了 32%。

2023 年 12 月 28 日,在刚刚过去的 WAVE SUMMIT+ 2023 深度学习开发者大会上,百度揭幕了文心大模型与深度学习平台飞桨的一系列新进展。

在大会现场,百度的演示呈现了基于大模型进行 AI 原生应用开发的新方法和新思路。

想开发一个 AI 原生应用,一行代码也不需要:基于星河社区大模型工具中心多工具智能编排开发模式,我们可以从头开发完成一款集成图文识别、问答、翻译、播报等多模态全功能的「旅行助手」应用。

假如你要到瑞士旅游,只需要上传一本旅游攻略的和自己的旅行计划,就可以构建起一个有关本次旅行的知识库,然后让它回答你关于旅行中的各种问题。

当然这个旅行助手能做的还有更多。基于文心大模型体系,挂载 OCR、语音合成等各种工具,它就可以帮你识别出照片中德文提示的内容: 

或是对景点照片进行一番 AI 解说。

大模型能力的进化与生态构建,已经让基础模型发展进入了新的阶段,「全民定制个人 AI 应用」的时代似乎正在到来。

突破上亿用户规模,能力持续进化的文心一言,最近在全球科技公司 「AI 军备竞赛」的背景下风评持续走高,体现了强大的技术实力。本次大会上,文心大模型以及飞桨披露的技术和生态进展,更关乎千万开发者的切身使用体验和权益。

文心大模型 + 多工具智能编排,构建更强的 AI 应用

2023 年 10 月 17 日,迄今为止综合实力最强的文心大模型 4.0 面世,其理解、生成、逻辑、记忆四大能力得到显著提升,大语言模型正在为通用人工智能带来曙光。

在 WAVE SUMMIT+ 2023 上,百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜分享了文心一言的用户使用洞察。她表示,2023 年文心一言已完成了 37 亿字的文本创作,生成了 3 亿行代码。

在过去一年里,「文心一言」的基础模型,文心大模型持续发布了 3.5 和 4.0 两个大版本,效果一直急速提升。

大模型技术突破之后,AutoGPT 为代表的智能体概念迅速进入了人们的视线,开发能够解决和适应复杂工作的多任务智能体(Agent)成为了研究者们重要的目标。AI 智能体对于大模型的应用至关重要,它可以连接大量 App,自主地完成任务,大幅提升系统的智能化水平。

文心一言的智能体能力是如何构建的?具体来说,文心一言中现在有两个系统:系统一是以模型和记忆为基础的,给予用户像知觉这样直接的答复生成;系统二加强了理解、规划、反思、进化等一系列的能力。

在系统二的加持之下,文心一言现在更善于灵活地运用知识与各种工具,能够帮助用户层层递进地剖析问题,也具有更强的主动交流能力。

基于智能体的技术理念,百度已经开发了文心一言的智能体模式,面向专业版用户即日起进行邀请测试。

在 2023 年 8 月份的 WAVE SUMMIT 上,百度已经发布了基于文心一言的新开发范式。到目前为止,基于文心一言的应用已经达到了 4000 个以上,涵盖了各类应用场景。这一次,百度围绕社区生态,希望能够赋能 AI 原生应用开发者,对星河社区进行了一系列的新升级。

星河社区提供异构算力支持和更高效的通用组件,面向开发者升级了飞桨产业级模型库和全流程开发工具链,实现低成本开发 AI 应用。最新推出的星河社区大模型工具中心,又给开发者带来了功能强大的 AI 原生应用构建能力。

吴甜介绍称,全新发布的星河社区大模型工具中心,集合了百度人工智能多年来的建设成果,包括飞桨产业级模型库、百度大脑 AI 能力、文心一言工具等,同时支持生态工具接入,提供了对用户非常友好的可视化交互界面,参数配置灵活多样自由选择,预览效果实时呈现。

这一系列升级,让星河社区为开发者提供了「AI 原生应用创新的全要素」,包括开发、体验、推广、交流、学习一体化服务。

在生态共创方面,百度此前推出的文心大模型「星河」共创计划,将大模型相关的 AI 应用、工具、数据资源都构筑起全面的生态,此次大会百度重点介绍了数据方面的最新进展。

为了增强专业能力,文心一言正式「拜师」,首批 10 位「文心导师」是其所在行业领域的顶尖学者和专家 ,将帮助文心一言加强在各个专业领域的认知 。此外还有一位特殊的导师 ——《辞海》,文心一言与上海辞书出版社深化合作,《辞海》的庞大数据已经融入文心基座大模型 ,增强了文心一言的学识,更好地为用户提供服务。

大模型时代,用智能的开发工具

大模型的技术突破提高了前沿研究的强度,同时也在降低普通人使用 AI 的门槛。

正如百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰所言,文心一言这样的人工智能技术,本质上是提升生产力的工具,也会成为一个通用的赋能平台,加速产业智能化变革 ,创造巨大的商业价值。

大模型加持的开发工具链,带来三大开发新范式,降低 AI 技术的门槛,会催生出越来越多原生的 AI 应用。

百度 AI 技术生态总经理马艳军现场用三个案例进行了详细的阐述。

首先是全面升级的百度智能编程助手 Comate。我们了解到,百度内部已经有超过 20% 的代码由 Comate 编写。此外还有 8000 家左右企业在使用 Comate SaaS 版服务,整体代码生成采纳率更是超过了 40%。

不过,此次 Comate 最亮眼的还是新功能 AutoWork,它可以基于文心大模型来拆解复杂任务,将开发者从提出需求到完成编码的全过程大大缩短,效率自然而然得到提升。

百度现场演示了 2 分钟开发一个领取 Comate 试用权益的程序,开发者只需要提出需求,剩下的由 Comate 的 AutoWork 完成,制定计划,生成代码。

在 Comate AutoWork 新功能之外,飞桨低代码开发工具 PaddleX v2.2 也正式发布,飞桨低代码开发工具 PaddleX v2.2 在飞桨开发套件能力基础上,充分结合文心大模型,可以高质量完成以前很难解决的产业痛点问题,大幅提升开发效果和效率;通过提供图形界面开发模式,进一步降低了 AI 技术的使用门槛,目前已支持 40 多个产业级精选模型,覆盖 10 大主流 AI 任务,并适配国内外主流 AI 硬件,支持云端和本地端离线使用。

现场的演示是大宗商品关键交易信息抽取,针对煤炭领域的专业术语,解决了关键信息抽取不准确的问题,实现开发效率和效果的双双提升。

原来 AI 开发者特别困难的任务,用大模型 Prompt 的方法,就能实现效果的大幅度提升。

最后,面向生态的文心一言开发机制可以极大地提升开发效果,带来非常棒的使用体验,同时有助于更高效便捷地开发出更有创意的 AI 原生应用。

针对制作全国 TOP10 省份常住人口随时间动态排序的图表这样一个乍看起来并不特别复杂的任务,马艳军现场直接应用文心一言插件代码解释器,prompt 输入需求,就自动生成代码和实现了。

现在开发者借用文心一言的开发机制非常简单地通过类似的功能做出来一个非常好用的应用,体验看起来丝毫不逊于专业的工程师开发出来的应用。

文心一言开发机制的升级,实际上是百度在进一步降低 AI 应用开发的门槛。这涉及了从服务开发、注册接入、效果调优到上线分发等四个环节的难题,百度有实力也有意愿这样做,是希望能涌现出越来越多高质量的应用。

基于文心一言开放的一整套开发机制,不管是哪个类型的开发者,不管技术栈是哪个领域的,都可以使用这套开发机制去开发插件,做多工具智能编排,开发出自己高质量的应用。

马艳军表示,「随着开发范式的改变,我相信这是对广大开发者最好的时代,未来会涌现出越来越多高质量的 AI 原生应用。」显然,百度已经为此做好了准备。

飞桨开源框架 v2.6,实现大模型套件全流程优化

文心一言的能力处于业界大模型领域的第一梯队,除了一直深耕领先 AI 技术之外,也要归功于飞桨产业级深度学习开源开放平台。在 WAVE SUMMIT+ 2023 上,百度宣布飞桨开源框架升级至最新的 2.6 版,对支持大模型开发进行了一系列硬核提升。

马艳军在大会现场表示,飞桨开源框架 v2.6 在开发体验提升方面实现了高扩展性 IR、自适应图构建机制和动静统一自动并行编程等核心功能。

在提升基础能力后,面向大模型的构建,飞桨开源框架 v2.6 进行了全流程的优化。简而言之,在飞桨开源框架 v2.6 上,大模型套件从预训练、精调、压缩、推理到部署的所有流程,都有了全面的优化。

对于大模型技术而言,充分利用硬件算力至关重要。飞桨此次升级了硬件适配方案,可以更好支持不同硬件厂商的产品,进行灵活定制,软硬协同的深度优化。

结合文心大模型的适配和优化,飞桨和硬件厂商正在共同构建「硬件 Transformer 大算子加速库」,加速完善业界的软件栈体系。

结语

在大模型时代,技术的发展速度很快,在 WAVE SUMMIT 的每次发布中,我们都能感受到这种快节奏的进步:自 2019 年 3 月起,文心大模型经历了从 1.0 到 4.0 的快速发展历程,一年两次的大会到今天也已办到了第十届。

我们也见证了飞桨深度学习开源开放平台的不断繁荣。截至目前,飞桨平台已经凝聚了 1070 万开发者,服务 23.5 万家企业,并在其上构建了 86 万个模型。在这个越来越强大的平台上,百度联动各方推动 AI 技术和生态的繁荣发展,加速应用落地。

百度对人工智能技术和产业趋势的前瞻判断,正在不断指引技术创新和产业实践的方向。

王海峰在此次大会的开场演讲中表示:「深度学习平台加上大模型,贯通了从硬件适配、模型训练、推理部署,到场景应用的 AI 全产业链,夯实了产业智能化基座。今年大语言模型的出现,为通用人工智能带来了曙光。」

从喊出深度学习框架作为「智能时代的操作系统」,到云智一体加速的产业智能化,再到贯通硬件到应用的 AI 全产业链,如今的百度已经利用自身技术优势,构建起了覆盖全行业、低门槛的开发体系,并在大模型时代充分发挥了优势。

在持续技术创新和赋能产业的发展历程中,飞桨自身也在不断升级,从深度学习框架,到平台生态,发展成为技术领先、功能丰富的产业级深度学习平台。

或许用不了多久,这一轮 AI 突破带来的变革将会触及到更多人,我们将见证生成式 AI 对生产力和创新的颠覆。

在这场变革中,相信我们会看到越来越多的 AI 原生应用,来自百度,来自文心一言。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片