来源:环球网
3月22日,上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库,通过构建多语言开源数据底座,以人工智能赋能“一带一路”高质量建设。
在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类语料,涵盖四大数据模态共计1,150万条数据,并运用精细化处理技术使数据质量达到“工业级”标准,实现“开箱即用”。
开源链接:https://opendatalab.com/applyMultilingualCorpus
“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点,更新速览:
语种数量扩充:在阿拉伯语、俄语、韩语、越南语、泰语5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。
数据模态、总量全面升级:在纯文本数据基础上,新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。
超精细数据,多场景适用:经成熟数据生产管线及安全加固,结合过滤算法与当地专家人工精细化地标注质检,“万卷·丝路2.0” 已成为覆盖多模态、多领域的大规模高质量数据集,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,为开发者提供得力助手。

为验证语料库质量与应用前景,上海AI实验室研究团队基于“万卷·丝路2.0”,训练出匈牙利语大模型,通用能力对标国际主流大模型,在本地化特色、安全性与中国关联性上表现出显著优势,可适用于本地生活与中匈合作领域场景。
目前,该模型已衍生出对话平台、多语言AI教师助手、AI匈中双语词典等创新应用。上海AI实验室同时与外研在线、库帕思等多家机构开展合作,推动“万卷·丝路2.0”在教育、文旅、技术交流领域落地,助力多语言AI生态发展。
新增四大模态数据,满足多样化研究需求
今年1月,上海AI实验室开源“万卷·丝路1.0”综合性文本语料库,“万卷·丝路2.0”在1.0的基础上新增了4大模态数据,可满足多领域研究人员的多样化研究需求。
图片-文本:视觉与语言的桥梁
● 数据构成:
“万卷·丝路2.0”开源的图文数据集包含200万余张图片,原始图片总大小362.174G,专注于科技、自然风光、民俗传统等10个高关注度领域且数据分布均匀,采用Alt-text基础描述 + 视觉模型生成扩展描述的双重标注,大幅提升了信息丰富度。为AI大模型行业从业人员和小语种研究人员等专业人士,提供了低成本获取特定语言语料的便利工具。
● 标签分布:

图片-文本数据标签分布
音频-文本:真实对话的记录
● 数据构成:
“万卷·丝路2.0”构建了涵盖8种语言的大规模语音语料库,每种语言均包含200小时超高精度标注数据,并结合环境噪声消除技术有效提高了音质,使数据质量显著高于同类开源数据集,人工校验通过率为98.2%。
数据内容聚焦社会人文、娱乐媒体、学识教育和生活文化四大主题,涵盖真实对话场景,记录自然交流中的语音,更贴近实际生活,为跨语种语音研究者提供了坚实的数据基础。
● 样例展示:

越南语音频-文本样例
视频-文本:动态叙事场景
● 数据构成:
“万卷·丝路2.0”视频-文本子集涵盖8种语言,总视频片段数量超过800万条,原视频总时长超过28,000小时,清洗后仍保留16,000多小时的高质量内容。该数据集包括了8种语言(含匈牙利语/塞尔维亚语等)低资源语种,填补了这些语言在视频数据集中的空白,是多模态研究和低资源语种处理的宝贵资源。
数据类别覆盖广泛,从科技与战略、文化、电影动画,到旅行、人物、动物、访谈、音乐、游戏、新闻、教育和体育等多个领域,满足多样化的研究需求,为推动视频领域技术进步与应用创新提供保障。
● 样例展示:


文化科技视频样例示意
特色指令微调SFT:避免文化偏见
● 数据构成:
“万卷·丝路2.0”特色指令微调SFT涉及了8种语言,总共提供18.4万条SFT数据,覆盖了本地文化、日常对话、代码、数学、科学等领域。
每个语种提供2.3万条,每个语种均有3,000条由当地国家居民设计的关于本地文化的特色问答对数据;其余2万条来自公开数据翻译,并经一套结合规则和模型打分的质检pipeline筛选出高质量SFT数据。
● 样例展示:

(捷克语SFT样例)
多元文化数据基座,驱动全球化AI落地
作为全球首个聚焦"一带一路"研究的大规模、多模态、多领域、高质量的语料库,“万卷·丝路2.0”将有效破除AI全球化进程中"语言孤岛"与"文化断层"的双重壁垒,为AI普惠、跨国合作搭建数字桥梁。
上海AI实验室研究团队认为,通过整合多模态数据与精细化标注技术,“万卷·丝路2.0”首次实现了对低资源语言的系统性覆盖,尤其扩充了塞尔维亚语、匈牙利语、捷克语等语言的高质量语料建设,为文化交流互鉴带来可量化、可迭代的智能新维度。
新华社新闻信息中心上海中心副主任陈侃琪指出,“万卷·丝路2.0” 的发布,将构建互联互通的多元文明交融格局,为更精准广泛的国际传播和更本地化的文化产品提供数据基础。通过“万卷·丝路2.0” 的多维应用,媒体能够更准确地针对不同文化背景下的社会受众呈现更加多元、真实的全球新闻产品。与此同时,“万卷·丝路2.0” 的建设可为语言的保护与传承提供技术赋能,助力维护语言多样性,为构建更加包容、互联的世界贡献中国力量。
外研在线CEO商其坤认为,多语言语料库是AI时代的关键物资,是教学资源开发的基础、语言保护与传承的数字化载体,有助于语言节后分析与教学法优化,有利于促进教育公平与全球化能力。
中旅旅行入境游欧洲市场总监周占峰表示,国内入境旅游日渐升温,但小语种导游从业者较为稀缺。通过“万卷·丝路2.0”,既能完善入境游小语种导游的培训内容,也可以打造导游智能体,为入境游游客提供定制增值服务,切实帮助和促进入境游发展。


APP专享直播
热门推荐
收起
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
宋谈股经今天 04:04:25
上午A股数据统计!【更多独家重磅股市观点请点击】 -
波段擒龙今天 03:52:19
【今日午评】 A股三大指数早盘集体反弹,截至午盘,沪指涨0.18%,深成指涨0.36%,创业板指涨0.36%,北证50指数涨1.02%。全市场半日成交额7463亿元,较上日缩量553亿元。全市场超4000只个股上涨。市场缩量反弹,这个时候是需要相对谨慎对待,前面已经提到过跌破1.3万亿的市场,就需要相对谨慎对待,上证支撑区域60天均线3320-3350点位置已经初步企稳,技术型反弹要注意合理调配上升通道标的。【板块分析】板块题材上,养殖业、机器人(sz300024)、化工板块涨幅居前;银行、中船系概念股跌幅居前。(以上所有观点为王君毅投顾观点,执业证书编号:S1350620030001,条件单为演示模型,根据历史回测和回溯数据,不作为未来的走势依据,不作为推 荐,仅供参考,不作为入市依据,据此入市,盈亏自负,市场有风险,投资需谨慎) -
雪球年大今天 03:37:33
目前市场缺少持续性,远离高位科技! -
冯矿伟今天 03:37:29
冯矿伟:趋势目前半日线趋势比较完善,从2月7日突破趋势后,已经3次顶背离无效,2次回踩趋势止跌,这些都是趋势的典型特征,目前正在趋势回踩止跌的初期,需要向上加速才能加强趋势的延续。今天动能背离向上,维持趋势向上延续的概率增强。 -
宋谈股经今天 03:35:33
3月26日午间收评:三大指数小幅上涨,全市场超4100股飘红1、市场早间红盘震荡,黄白二线分化明显,微盘股指数涨近3%。机器人(sz300024)概念股再度爆发,南方精工(sz002553)、新时达(sz002527)、华宏科技(sz002645)、林州重机(sz002535)、秦川机床(sz000837)等十余股涨停。养殖板块持续走高,晓鸣股份(sz300967)、京基智农(sz000048)涨停。化工股延续强势,中毅达(sh600610)、苏州龙杰(sh603332)、尤夫股份(sz002427)等涨停。下跌方面,银行股走低,招商银行(sh600036)跌超4%。个股涨多跌少,沪深京三市超4100股飘红,上午半天成交7464亿。午间收盘沪指涨0.18%,深成指涨0.36%,创业板涨0.36%。2、板块概念方面,养殖、机器人(sz300024)、化工、光伏设备等板块领涨;油服、银行、电力、旅游等板块领跌; 3、两市共3962只个股上涨,65只个股涨停;1053只个股下跌,13只个股跌停;19只股票炸板,炸板率24%。 -
雪球年大今天 03:34:31
目前市场缺少持续性,远离高位科技! -
数字江恩今天 03:33:35
个股涨跌比不错,7%以上涨幅的目前103,昨日7%以上跌幅是140左右,那么下午还必须快速增加。这里最好的走法,就是压住大盘不要力度反弹,反复震荡略微向上即可;大盘走得不猛,个股才能好 -
量化伏妖今天 03:31:59
【股票午评】:技术提示止跌今日的市场表现稍微活跃了点,连日来暴跌的个股有止跌修复迹象,红盘个股多达3800多只。技术指标粘合线也出现低位拐头向上,价值陡峭日线连续三日拐头向上,预示大盘短期调整结束。板块方面暴跌下来的机器人(sz300024)相关板块已经止跌,是个好现象。同步磁阻电机,鸡肉概念,化纤行业,昨日连扳,电机,减速器,猪肉概念等涨幅靠前;超导概念,可燃冰,油气设服,银行,抽水蓄能,低碳冶金等板块跌幅靠前。总体来看指数虽然还没有开始大幅上行,但是盘面已经开始活跃,逐渐开始有点赚钱效应了,期待今天下午能有更好的表现。 -
徐小明今天 03:31:53
【盘中直播】下午见 -
徐小明今天 03:31:29
【盘中直播】洗盘的目的就是为了向上突破,这个观点没变。