中国网络空间安全协会发布用于大模型的首批中文基础语料库|人工智能_新浪财经

澎湃新闻从中国网络空间安全协会获悉，12月20日，中国网络空间安全协会人工智能安全治理专业委员会在北京发布了用于大模型的首批中文基础语料库。

中国网络空间安全协会相关负责人介绍，在中央网信办相关业务部门指导下，网安协会人工智能安全治理专委会会同国家权威机构，发挥企业、高校和科研单位协同优势，通过“共建－共享”机制，汇聚一批高质量可信数据，经过去重、过滤等技术手段，形成并对社会发布首批120G中文基础语料，包括1亿余条数据，500亿个token。用户登录中国网络空间安全协会网站（https://www.cybersac.cn/newhome），点击“中文基础语料库”链接，通过注册、认证等程序，就能够下载相关语料。中文基础语料库的发布，是各界协同汇聚形成高质量语料库的初步成果。

网安协会人工智能安全治理专委会负责人表示，语料库建设是一项长期性、专业性的工作，需要遵循相应法规、标准和规范，需要合力共建、突破创新，推动形成科学有效的语料库汇聚、处理、使用机制，为国家人工智能技术创新和产业发展赋能。