科大讯飞刘庆峰：我们现在已经做了一批智能体_新浪科技

i黑马导语

刘庆峰，科大讯飞股份有限公司董事长，中国人工智能领军企业带头人。科大讯飞股份有限公司，是“863 计划”哺育出的企业之一。他们的口号是用人工智能建设美好世界。

什么是863计划？1986年国务院组织了全国200多位科学家对计划建议进行了大半年的论证，在中国科学技术需要急起直追的年代，863计划经过30年的实施，有力地促进了中国高技术及其产业发展。

经i黑马编辑，以下为刘庆峰分享的内容：

今天很高兴再次来到天津参加“世界智能产业博览会”。

过去一年，大模型的进步让信息分发获取、内容生产、全自然的交互等，都有了全新进展。这些不仅改变了科研范式，还在改变着产业形态和竞争格局。

所以，高盛去年预测，通用人工智能将推动全球年均GDP增长7%；Gartner预测，到2026年现在80%企业都要用到通用人工智能，而今天这个数字是5%左右。

今年 3 月份，政府工作报告首次提出“人工智能+”。早在1月30号，科大讯飞就推出了中国首个基于全国产算力训练的全民开放大模型。所谓全民开放大模型，就是大家可以下载、随时使用的星火3.5大模型。

星火4.0全面对标GPT-4 Turbo

今天国际上最好的、综合实力最高的，还是 GPT-4 Turbo。

我们可以看到，根据中科院人工智能产宣创新联盟和认知智能国家重点实验室，给出的 7 个维度、 481 个测试项，完全用真实数据随机测试的结果显示，我们已经非常接近 GPT-4 Turbo 的最新水平。

过几天，我们将发布星火 4.0大模型，全面对标GPT-4 Turbo当前水平。这个对标，不仅是中文，还包括英文写作等相关能力。

当然，今天看起来我们与美国最好的大模型仅一步之遥，但如果OpenAI发布GPT-5 ，我们的差距就会进一步拉大到一年左右。

为什么？因为人家算力更多，数据更多，模型更大。

但是我们有信心继续快速追赶，确保中国通用大模型底座不会与美国出现代差。只要大模型底座能跟上，我们在各个专业领域和垂直行业，就有可能实现超越。

给大家举几个例子，今年高考后，讯飞星火在中英文的作文和数学测试题方面，都处在领先地位。尤其是语文作文现在已经能达到 52 分。

6月7号中午，重庆日报的“新重庆客户端”，就拿星火大模型写了一篇《当AI知道今年高考作文讨论自己，于是TA马上写了一篇……》，引起了整个人工智能专家组和市民的极大的关注，都认为写得非常好。

去年年初， GPT-3.5通过了谷歌二级程序员测试，现在我们星火大模型的代码能力，已经全面超过了当时的 GPT 3.5，并与 GPT 4 非常接近。在代码设计、生成以及测试等方面，都可以大幅提效。过去一年，我们代码采纳率已从 30% 提升到了 52% 以上。

今天的产业数字化和数字产业化，代码和软件定义一切。代码能力，其实是未来大模型赋能产业的一个核心能力。

在大模型推动的知识学习中，大家都非常关注长文本能力。

最近，我们不仅是文本和图片，还可以是录音。比如，今天上午两三个小时的演讲录音和PPT，丢给我们的星火大模型，马上可以跟它提各种问题，比如什么是有温度的智能体。

我们已经做了一批智能体

那么，智能体是什么概念？

通过大模型的语义理解和任务规划，你给它一个任务，它马上就知道这个任务要对应到哪些任务内容。

每个任务应该调用什么样的工具，这些工具在内部和外部调取什么样的信息，最后完成任务并汇总结果。

我们现在已经做了一批的智能体。

比如，我们中标了国人集团的大模型后，其中一个功能已在国资委网站上发了，就是招标助手。

它可以自动识别标书文件的关键内容，自动去看投标企业资质怎么样，价格分怎么样，最后给出来评标结果。

过程中，还可以自动去查各种证照文件是否真实、是否被修改过，把内外很多信息全部打通了，这就是智能体。

中国一定要建立

自主可控的大模型底座能力

过去一年，大家看到了很多国际上的热点。

比如去年9月份的GPT-4V（有视觉功能的 GPT-4）、 11 月的 OpenAI-whisper （语音识别大模型）、今年2月份的Sora，和5月份的 GPT-4o。

看起来很热闹，实际上本质上还是 GPT-4 的底座能力。没有这个底座的理解能力和生成能力，就不可能有上面这些热点。

比如 Sora ，其实根本不是对物理世界的认知又上了一个台阶，本质上是用GPT-4V来对视频打标签，从而更容易训练。

原来靠人工标签，工作量太大。当然，他们还用了 GPT 的框架，对视频的生成做了一些改写。

所以，中国一定要建立自主可控的底层通用大模型能力。在这个基础上，我们才可能有行业垂直赛道。

底层通用大模型能力达到最高的天花板后，再做剪枝或蒸馏，做出有各种各样的小模型，也能走在世界前列。

底层通用大模型，是中国这一波通用人工智能是否可以跟美国对标的核心点。

也就是说，有了底座能力的提升，中国所有人工智能研究在未来两年之内，都应该用大模型的逻辑重写一遍。

但原来很多垂直专业领域的技术与大模型结合，可以让我们超过美国通用大模型能达到的水平，这是“通”和“专”结合的过程。

现在中国已经有极少数底层通用大模型具备了紧紧跟随美国的能力。比如，今年1月份，星火语音大模型已经在 37 个主流语种上全面超越了他们。这37个语种，不是我们定义的，是国家定义的。

GPT-4o出来后，大家兴奋的是，他们把语音交互做到了极致；比较失望的是，它的理解能力并没有很大的提升，实际上是工程化的提高。

超拟人合成，像真人一样说话，随时可以打断的交互，以及两三百毫秒的反应，实际上是大概六七百毫秒。

这些，其实我们的语音大模型全部都在对标，而且很多东西是我们提出来的。比如，一句话复刻，你只要对着讯飞星火说一句话，马上就可以模仿你的声音。

去年新增 200 多万开发者团队

当然，大模型不是万能的。

我们可以看到，有些任务上通用模型能解决的很好，有些任务上则需要做定制优化，还有些任务其实挺难的。

比如，高难度的数学，需要复杂的长链条推理。相关知识问答和开放领域的智能体验，短期内还不太容易做到好用。所以，我们今天既有大模型应用落地课题，也有了持续研究和探索的方向。

比如在教育领域，我们在河西区打造的标杆，就成了教育部的全国标杆。在很多一线特别缺的小学科教学中，大模型都可以很好地赋能。比如科普、编程、信息课、口语老师、心理辅导等。

在我们的展厅，大家可以看到，孩子可以跟爱因斯坦、李白、祖冲之对话。原来孩子脑洞大开的问题，老师解答20%左右，现在有了星火大模型与中国科协的科普中国合作，现在基本上都可以回答，孩子的上课的手率从16%提到了73%。

在最热的能源行业，中国石油、中国能源集团、中国绿发，都在用星火大模型来提升人员相关的调度、管理和一线的相关安全等。

比如，合肥综合性国家科学中心能源研究院，是要做中国人造小太阳的。现在用我们的大模型赋能科研，已经有了很好的阶段性进展，今天10月份就会发布。我们跟科大做的化学家，原来要做1400 年的催化剂实验，现在两个礼拜就做出来了。

比如，在汽车出海领域，去年 500 万辆汽车出海，很多都用了我们的多语言能力。不仅是国内车企，最近大众跟讯飞星火已经合作发布了一系列的技术，他自认为测试效果已经超过了ChatGPT。

今天大模型落地，绝不能仅仅是后台的、纯软件的，还一定要落到实处。不能只是泛娱乐化，要能够实用，软硬件结合的、云边端结合。

今天我们有适合在手机上用的 1.3-2.6 B 模型，有适合在汽车上用的7- 10 B 模型，也有 13B 和175B 的模型，从几千万到上千亿、上万亿的都要有。如何帮大家用更小的计算成本和代价，实现更好的效果。这是中国大模型应用落地能否全球走在前列的关键课题。

我非常高兴，今天在能源、汽车，家电等领域，都有了很好的应用。中国第一个家电的大模型落地是海尔招标的，我们中标后，现在已经做得很好。目前，我们已经跟 20 多个行业，共同开发了行业大模型。一定是以行业为主，再用大模型来赋能。

再以星火 APP 为例，下载量已经超过一个亿，客户使用的最高峰不是周末，而是在工作日。高峰时段主要是工作日上午 9 点半，以及下午 3 点半到 4 点。

从讯飞开发者生态也能看到，过去一年，我们的人工智能开放平台上已经新增了 200 多万的开发者团队，海外开发者团队增长了260%多。大模型直接相关的 54 万开发者团队，其中一大半是企业而不是个人。

不只是做各种APP，还在工业生产、研产、供销、等各个环节做赋能。在天津，开发者团队数量也已经接近 10 万家了，我们正在积极打造北方深谷。

所以我说，每次到天津，即便声音嘶哑，也一样是两眼放光、充满激情，我们期待着跟大家一起拥抱这一次通用人工智能的浪潮，共同来解放现有生产力，释放每个人和每一个产业方向、每个企业的想象力，共同用人工智能建设美好天津。

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

科大讯飞刘庆峰：我们现在已经做了一批智能体

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

来电聊

专题

官方微博

公众号