在数字化浪潮席卷全球的今天,文档作为知识传递的重要载体,其处理与分析技术显得尤为关键。无论是大模型应用的快速发展,还是与产业数字化紧密相连的高质量数据库建设,都离不开对文档数据的深度挖掘。近日,在第五届长沙·中国1024程序员节上,合合信息面向广大开发者推出了智能文档处理“百宝箱”系列产品(简称“百宝箱”),旨在助力技术人员实现更高效、个性化的文档类应用开发。
此次大会由湖南省工业和信息化厅、湖南湘江新区管理委员会、长沙市工业和信息化局、长沙信息产业园管委会和CSDN联合主办,吸引了众多行业专家和开发者参与。大会期间,合合信息通过开放“百宝箱”免费体验,为参会者提供了全面了解和实践智能文档处理技术的机会。
“百宝箱”覆盖了文档处理流程的多个节点,包括解析界面可视化、关键信息提取、解析效果测评等,能够批量、高效、准确地解析多种版式的文档材料。这一系列产品致力于解决文档解析精度低、解析效果评估难以及大模型幻觉等问题,为技术人员提供了强大的技术支持。
在长沙·中国1024程序员节《模型与工具》论坛上,合合信息智能创新事业部研发总监常扬详细介绍了“百宝箱”的三大核心产品。他表示,对于广大技术人员而言,一款能够“开箱即用”的工具能够显著提升开发效率。为解决个人及中小型企业技术人员在开发过程中遇到的种种难题,合合信息发布了一组文档解析界面前端可视化组件。这些组件允许开发者通过交互界面直观地查看解析效果,包括提取各类解析元素、定位解析元素在文档中的位置以及还原展示各级目录树等。此外,相关组件还支持对解析结果进行编辑修正,从而实现了更高精度的解析效果和个性化开发。
文档解析可视化前端界面
在文档处理及大模型RAG应用中,文本向量模型对于检索质量和效率至关重要。“百宝箱”开源了合合信息自研的acge模型代码。这款模型曾在2024年3月荣登C-MTEB榜单第一名,支持长文档嵌入检索,兼顾效率和性能,能够显著提升大模型RAG应用的效果。目前,acge模型在开源机器学习社区和模型库Hugging Face平台上单月下载量已达30,423次,受到了广大开发者的热烈欢迎。
此外,“百宝箱”还为文档解析工具的筛选配备了“游标卡尺”。针对市面上文档解析产品效果缺乏统一标准的问题,“百宝箱”中的“文档解析测评工具”从表格、段落、标题、阅读顺序、公式等多个维度为开发者提供了定量测评依据及服务。通过雷达图等可视化形式,开发者可以直观地看到文本识别、解析和翻译的结果,从而大大节省了筛选时间。
技术只有与具体业务实践相结合才能创造价值。在大会上,常扬还分享了“智能文档处理百宝箱”在知识库搭建、智能文档抽取、大模型预训练语料与数据治理快速入库以及文档翻译场景中的深度应用。以工程制造业为例,借助“百宝箱”及合合信息的智能文档处理技术,开发者可以实现对复杂文档信息的精准提取和高效处理,为知识库的建立提供了坚实的基础。
未来,合合信息将继续致力于提升智能文档处理技术的效率和准确率,从文档解析到效果测评,为知识库产品开发提供全方位的支持。通过不断的技术创新和优化,“百宝箱”将助力更多企业和开发者实现数字化转型和智能化升级。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)