大模型“语料荒”现象日益严重,合合信息文档解析技术破解难题|图像|人工智能_新浪科技

科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示，从全球已发布的大模型数量来看，中国和美国大幅领先，占全球总数的80%以上。

在大模型迅猛发展的浪潮之下，“语料荒”现象逐步暴露，几乎已成为全球大模型产业共同共同的难题。麻省理工学院等高校研究人员预测，到2026年之前，机器学习数据集可能会耗尽所有可用的高质量语料数据。

除此之外，大模型语料以英文为主，中文语料的占比仅为1.3%，中文语料的形势更加严峻。在近期举行的中国图象图形大会上，由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了《大模型技术及其前沿应用》论坛，来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、合合信息等高校、研究机构及企业的专家代表就大模型技术在图像领域的发展、应用进行了深入研讨。

现阶段，大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中，复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。文档解析技术的进步，让机器能够识别文档中的多种元素，更好地处理文本、表格、图像等多类型数据，还原文档阅读顺序，加速大模型训练与应用。论坛上，合合信息智能创新事业部研发总监常扬分享了合合信息智能文档处理技术在文档解析领域的工作，给与会者带来了新的技术视角。

合合信息发布的TextIn智能文档处理平台，在文本、表格、图像等非结构化数据的表现上，最快1.5秒就能完成百页长文档的解析;不仅速度快，同时还具备理解能力，可以智能还原文档的阅读顺序。面对多类型样本问题，合合信息在TextIn文档解析的算法阶段，就很注重图表数据训练。当前，TextIn文档解析工具可以将柱状图、折线图、饼图、雷达图等十余种常见图表，以及任意格式文件 “还原”，并其拆解为Json(轻量级的数据交换格式)或Markdown(轻量级标注语言)格式。

面向中文语料库短缺的问题，合合信息首先将场景前置，在未个性化阶段提前给模型补充大量优质的垂直领域Know-how，比如金融、法律、教育等，关注特定行业中的普遍痛点，基于用户诉求在产品设计时提供解决方案，进而提高大模型加速器在核心应用场景中表现能力。二是专注产品化，不只对客户提供通用场景的API，而是提供更多工具型产品，降低应用门槛，做到开箱即用，这对技术资源较为薄弱的传统企业、中小创业公司或个人开发者来说非常友好。

未来，合合信息也将继续在大模型领域深耕，挖掘潜在的难题，为人工智能行业的发展提供技术之城，助力AI产业健康平稳发展。