权威报告：我国2.3亿人用过生成式人工智能产品，数据资源是其训练“养料”_新浪科技

11月30日，中国互联网络信息中心（CNNIC）在第五届中国互联网基础资源大会上发布了《生成式人工智能应用发展报告（2024）》。

生成式人工智能（Generative Artificial Intelligence，简称GAI）是基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的人工智能技术分支。

报告中提到，我国对人工智能技术发展一直予以高度关注，尤其自2023年生成式人工智能概念兴起至今，国产生成式人工智能大模型如雨后春笋般涌现。截至目前，我国已初步构建了较为全面的人工智能产业体系，相关企业超过4500家，核心产业规模已接近6000亿元人民币，产业链覆盖芯片、算法、数据、平台、应用等上下游关键环节。

截至2024年7月，我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达190多个，我国以大模型为代表的人工智能普及率达16.4%。百度的文心大模型、阿里的通义大模型、腾讯的混元大模型、字节跳动的豆包大模型、华为的盘古大模型、月之暗面的“Kimi智能助手”等生成式人工智能产品纷纷上线，为用户提供了丰富的选择空间和差异化的用户体验。

截至2024年6月，我国有3.5亿人表示自己听说过生成式人工智能产品，占整体人口的24.8%；有2.3亿人表示自己使用过生成式人工智能产品，占整体人口的16.4%。针对网民具体使用的生成式人工智能产品进行调查发现，截至2024年6月，国产生成式人工智能产品在网民中更加广泛；而海外产品，比如OpenAI、谷歌等大型科技企业的生成式人工智能产品在国内也拥有一定规模的用户。

通过整理国家互联网信息办公室发布的《生成式人工智能服务已备案信息》中的产品备案属地可以发现，截至2024年11月，我国共有309个生成式人工智能产品完成备案，北京、上海、广东三省的生成式人工智能备案产品数量占比分别达到31.1%、27.2%和11.7%。

数据显示，2024年前三个季度，我国共发生504起与人工智能相关的投融资事件，合计金额约812亿元。在民间资本的推动下，人工智能初创企业如雨后春笋般涌现。据全国组织机构统一社会信用代码数据服务中心统计，2024年上半年我国人工智能企业数量同比增长35.65%。

通过对2024年1-9月人工智能投融资事件的细分领域进行整理可以发现，从投融资事件的数量来看，投资于人工智能自身应用、投资于其他传统行业应用的投融资事件数量相同，均为138笔，占比均为27.4%；投资于机器人相关领域的投融资事件数为119笔，占比为23.6%；投资于人工智能硬件与技术的投融资事件数为79笔，占比为15.7%。

智能体是指能够感知环境并采取行动以实现特定目标的实体，其运作机制包括理解、规划、反思和进化，能让机器像人一样思考和行动，自主调用工具完成复杂任务。智能体的最大特点是自主性，即在无需人类干预的情况下，根据外部传感器或数据输入自主做出决策并执行相应动作。这一特点使得智能体能够适应多变的环境，更高效、更智能地执行任务。

在企业端，各行各业都在积极拥抱生成式人工智能带来的智能化升级浪潮。在交通、能源、制造、化工等多个领域，高科技企业与传统行业积极进行合作，投入大量资源，共同研发各行业专用的生成式人工智能大模型，探索如何利用这项新兴技术赋能实体经济创新发展。在2023年底开展的一项针对全球16个国家的企业管理人员调查中，79%的受访者预计生成式人工智能将在三年内为组织和行业带来实质性变革，其中近三分之一的受访者预计实质性变革将在当下（14%）或不到一年内（17%）发生。

多模态能力是显著拓宽生成式人工智能应用领域的重要因素。通过整合文本、图像、语音和视频等不同数据类型，生成式人工智能大模型可以实现对各类信息的深层理解和联动。多模态能力赋予大模型更高的灵活性和适应性，使其能够在复杂的现实场景中提供更精准的解决方案，从而推动行业的深刻变革。多模态大模型能够更好地处理噪声和数据缺失。如果一种模态不可靠或不可用，系统可以依靠其他模态来维持性能。

报告中认为，数据资源是训练生成式人工智能产品的“养料”，因此加快国内数据生态建设、产出高质量的数据资源，是推动生成式人工智能发展的另一项重要工作。

一是建立公共数据利用制度。要统筹发展和安全，兼顾效率与公平，提高我国公共数据资源的开发利用水平。通过建立国家级大数据平台，促进数据的合法合规共享，打破行业壁垒，实现公共数据资源的整合与开放。

二是激发产业活力。鼓励产学研合作，共同构建标注详尽的专用数据集，特别是在医疗、金融、教育等专业领域，通过政府引导资金支持数据集建设项目，同时考虑利用众包和技术社区力量，发动技术社区用户参与数据标注，扩大数据覆盖范围。

三是保障数据安全。完善数据隐私相关的法规制度，探索隐私计算等新兴技术的应用前景，确保数据资源在训练人工智能产品的过程中能够保护国家安全和个人隐私，增强数据收集和使用的合法性和可靠性。