转自:财联社
面对中文语料数据不足的困境,国内多方主体决定抱团聚力。
近日,深圳数交所联合近50家单位成立“开放算料联盟” 。参与公司不仅有联通、电信两大运营商以及腾讯云,还有多家A股公司,包括云天励飞、奥比中光、优必选、华大基因、海天瑞声等。
其中,海天瑞声是数据资源服务商,云天励飞是视觉智能芯片研发商,华大基因是基因测序龙头之一。奥比中光、优必选为机器人产业相关公司,前者深耕机器视觉,后者是机器人制造商。
联合发起单位华傲数据董事长贾西贝认为,目前芯片行业已经被证实了要走“三分协作”的模式,即分段创新、分域竞争、分工协作,未来AI领域也将走向这样的模式。
据介绍,该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加大模型相关的新品类和新专区。
各成员将共同贡献、整理、倡导贡献自然语言、图像视频、语音音乐、程序代码、生物信息、合成数据等多模态训练数据,为解决人工智能和数字经济的数据荒问题,特别是解决多模态数据荒、中文数据荒、中国文化、中国价值观数据荒等问题提供强有力支撑。
数据是AI胜负手 丰富中文数据库迫在眉睫
大模型、算力、数据是生成式人工智能发展的三大支柱。数据是关键生产要素和生产资料,也可以说是AI的算料。
马斯克在现身xAI团队首秀时就提及其重要性,在他看来,随着产品更好地理解问题,所需的算力将减少几个数量级,而“数据荒”更难解决,“在某个时候,AI训练会耗尽人类数据,最终人工智能将不得不自己生成数据。”
虽然现在未到人类数据用无可用的时刻,但数据资源高昂的费用往往让人工智能企业望而止步。消息称,由于Reddit、推特等公司的数据采集要价太高,微软、OpenAI和Cohere等公司,已使用合成数据来训练AI模型。
对于国内企业而言,更是存在有钱也买不到、买不合适的情况。原因无他,中文语料库中的内容依然匮乏。此前中国工程院院士高文在演讲中提到,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。
正因为如此,解决数据瓶颈问题被提上日程的同时,丰富高质量中文训练数据迫在眉睫。
天风证券分析师缪欣君认为,AI三要素(算法、算力、数据)中数据是直接影响AI大模型在垂直行业落地效果的关键。垂类数据通常由政府和行业机构掌握,相比于模型和算力,数据稀缺性明显。
东吴证券分析师王紫敬也表示,数据是AI的胜负手。该分析师还点出了数据更深层次的含义——语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀。
从投资角度看,公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。该机构看好以下三个环节:
1)数据运营:预计医保数据将有望成为公共数据放开的第一站,相关公司包括久远银海、山大地纬、中科江南等。
2)数据基础设施:有望成为最先放量兑现的环节。相关公司包括深桑达A、易华录、云赛智联、中国电信等。
3)数据安全:看好具备央国企背景和数据安全业务积累的相关厂商。相关公司包括启明星辰、奇安信、安恒信息、电科网安等。
编辑:胡晨曦
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)