中国网络空间安全协会发布用于大模型的首批中文基础语料库

中国网络空间安全协会发布用于大模型的首批中文基础语料库
2023年12月21日 20:06 澎湃新闻

中文基础语料库页面截图。

澎湃新闻从中国网络空间安全协会获悉,12月20日,中国网络空间安全协会人工智能安全治理专业委员会在北京发布了用于大模型的首批中文基础语料库。

中国网络空间安全协会相关负责人介绍,在中央网信办相关业务部门指导下,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚一批高质量可信数据,经过去重、过滤等技术手段,形成并对社会发布首批120G中文基础语料,包括1亿余条数据,500亿个token。用户登录中国网络空间安全协会网站(https://www.cybersac.cn/newhome),点击“中文基础语料库”链接,通过注册、认证等程序,就能够下载相关语料。中文基础语料库的发布,是各界协同汇聚形成高质量语料库的初步成果。

网安协会人工智能安全治理专委会负责人表示,语料库建设是一项长期性、专业性的工作,需要遵循相应法规、标准和规范,需要合力共建、突破创新,推动形成科学有效的语料库汇聚、处理、使用机制,为国家人工智能技术创新和产业发展赋能。

海量资讯、精准解读,尽在新浪财经APP
人工智能

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 12-29 博隆技术 603325 --
  • 12-22 艾罗能源 688717 55.66
  • 12-20 达利凯普 301566 8.9
  • 12-19 辰奕智能 301578 48.94
  • 12-18 莱赛激光 871263 7.28
  • 新浪首页 语音播报 相关新闻 返回顶部