智源研究院发中文互联网语料库3.0,含1000GB高质量数据

智源研究院发中文互联网语料库3.0,含1000GB高质量数据
2024年09月20日 12:09 新京报

新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮流:新兴业态与技术融合”平行论坛上,智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。

中文互联网语料库3.0具有规模空前,来源广泛;精细标注,赋能应用;效果突破,更懂中文等特点。目前中文互联网语料库3.0(CCI3. 0)数据量高达1000GB,包含2.68亿网页;中文互联网语料库3.0高质量子集(CCI3. 0 HQ)数据量达498GB。每条语料从10多个维度进行分析标记,附有安全分数、质量分数、信息密度等参数,方便用户选择高价值数据,满足企业可行化需求,更好发挥数据效能。

据刘广介绍,数据是大模型发展的基石与瓶颈,目前模型训练对数据规模需求大幅增加,互联网站源占比导致中文数据短缺。而有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展才会更快。这是中文互联网语料库3.0的推出背景。

编辑 阎侠

校对 王心

海量资讯、精准解读,尽在新浪财经APP
研究院 分数 人工智能

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 10-08 托普云农 301556 --
  • 09-30 上大股份 301522 --
  • 09-25 强邦新材 001279 --
  • 09-19 长联科技 301618 21.12
  • 09-18 铜冠矿建 920019 4.33
  • 新浪首页 语音播报 相关新闻 返回顶部