陈运文:达观“曹植”大模型发展动态

陈运文:达观“曹植”大模型发展动态
2023年09月15日 14:39 市场资讯

  2023中国AIGC创新发展论坛于2023年9月4日在北京召开,达观数据董事长兼CEO陈运文出席并新品发布。

  以下为演讲实录:

  大家好,很高兴今天下午来到现场跟大家分享达观大语言模型以及我们曹植大模型的发展动态。

  我们达观也是一家专门从事文档资料自动化处理的公司,经过几年发展已经成为行业的领军企业。我们主要的工作就是围绕怎么样用AI技术去处理我们日常各个垂直领域的专业文档资料数据工作。日常工作中不管是写非常垂直行业的方案还是回答问题还是审核材料还是翻译内容等等,和日常白领专业工作息息相关的,都是达观所从事的。所以我们从事能让AI技术自动化完成文档资料自动化处理工作的,这是我们的老本行,做智能文本处理相关工作。

  其实文档处理工作相当难,因为我自己从事这个领域的研发工作很多年,人看文档是很快的,可以很快捕捉到内容,让AI看这个文档,必须要有很好的技术让AI对文档进行庖丁解牛的工作,基本上要把文档里的各种版面、位置、图、表格都要做一个解析,才能很好完成这个文档的解析工作,所以我们开发了很多的独特的技术,进行复杂的文档版面的理解和配置工作。

  今天扔进去一个文档让处理的时候,可以很好对它的章章节结果解析,对表格进行自动化结构工作,比如这里有各种各样的复杂的表格,可以让计算机有计算机视觉和自然语言相结合的进行语义的处理工作。在语义分析的各个环节里面,一个文档进去中间让计算机一步一步处理,我们做了很多原创性的工作,过去几年一步一个脚印在成长。同时积极联合各大高校和达观和产学研合作,一直在前进当中。

  经过几年发展达观能够正式发布“曹植”的大语言模型。大家都知道曹植有一个古代的典故七步城市,今天达观的大语言模型也试图像“曹植”一样能才高八斗,能对文档进行非常准确的清晰的挖掘工作。尤其曹植在古代文人里是写长文档最好的,我们知道唐诗宋词篇幅很短,但是《洛神赋》接近一千字,在古代的文档很长。我们的大语言文本特别擅长做长文本的处理工作,大家日常工作中的各种标书各种的负责大文档都特别适合用“曹植”大模型去完成。另外支持垂直和多语言的支持工作,在过去训练大模型的过程中,我们积累了很好的经验,今天也跟大家分享一下。

  首先训练我们的模型,我们使用一个混合语料技术,其中一半采用通用的语料,各行各业都包括。另外一半是垂直行业的专业语料,两个合在一起形成一个通用的基础能力和专业能力两者相结合的模式。在模型实际落地过程中我们使用一个创新的技术叫多模型并联架构的技术,比如规模特别大的模型在垂直领域应用的时候精调的效率非常低,达到特定好的效果需要代价非常大。参数规模比较小的模型,相对来说比较灵活,但是泛化能力比较弱,所以相结合是比较好的方式。另外发现,在各行各业很多非常专业的行业规则和知识图谱,把这些行业规则和知识图谱结合在一起可以让大模型在垂直领域更专业更好用,更加精准处理专业问题,也可以很好地抑制大模型的泛在问题。

  这个模型已经可以在文本的自动写作、自动审核、自动阅读等等领域发挥很好的作用。大家看这边有作一个对比,如果让AI技术自动去完成相关的工作,结合大数据的自然语言处理、文本挖掘等等技术,融合在一起可以非常好模拟一个白领完成日常的工作。左边是一个白领完成日常的操作工作,右边是我们的“曹植”大模型去完成同样的工作。大家看在同样时间里面“曹植”可以做得比我们人类白领更快更准更高效。这些我觉得随着人工智能大模型技术的发展,会有越来越多的很繁琐人的工作事项可以交给人工智能系统自动去完成。自动审核材料、自动填报材料,自动完成工作,效率比人类有几十倍的提升。

  这背后是达观引以为傲的“曹植”大语言模型,这个模型专门处理文档资料尤其是长文本的文档资料,这些文档资料包含复杂的结构,而且还有非常多垂直领域的专业知识,让计算机自动完成专业的文档资料报告阅读理解分析相关工作,就可以来做很多各行各业非常专业人的工作。比如文档审核、比对、分析、挖掘等等工作,而这些工作跟很多的垂直行业密切相关,是我们针对垂直行业专业的知识问答的相关工作。这里面还涉及到比如印章、签名等等都需要让AI理解、分析并且能够应答。这是专业的报告解读,而且能做到图文并茂的解读,这些都是由AI生成的。

  这些是达观“曹植”大模型文本处理相关技术。

  在后台我们最近也为我们的客户开发了我们称为KMS知识管理的大模型产品。我们发现很多企业对文档资源有效汇总分析整理工作,我们大模型在企业落地的时候首先要为企业开发一整套的智能知识管理系统,所以我们在行业里开发了智能知识管理系统,底侧是我们的基座,上层是给客户开发的知识搜索、社区等等一整套的系统,一个企业把他的知识管理起来,才能更好地位企业将来的赋能做工作。

  未来为每个企业开发知识库打造企业的知识大脑,还和客户相关产品相打通,比如现在和WPS、Office打通,开发了相应的插件,可以把我们的“曹植”大模型和客户员工的工作相结合,自动化帮员工完成排版、写作、审核、分析等等工作,这些工作可以非常好地为我们的客户每一位员工提高日常的工作效率。

  今天“曹植”大模型在垂直化、长文本、多语言方面已经做出非常多的成功应用。大家看到在我们公司的官网上面已经可以申请试用各种专业报告的写作能力,这些能力我们相信未来会在各行各业里落地应用起来,发挥作用。

  这些是我们的一些今天可以使用的专业领域的报告写作工作,比如大家可以看我们的报告是分步骤来写作的,首先要根据标题生成大纲,再根据大纲生成全文,并且能图文并茂生成文章里的很多的章节、目录、配图、表格等多模态的内容,可以非常好地帮助我们的可取完成日常工作。今天AIGC的能力,在垂直领域我们和各行各业的合作伙伴共同开发非常有效的产品,争取让这些产品为各行各业赋能,包括多语种的支持,今天我们的模型在除中文以外其他的语言处理上长文本的能力也非常强大。这是“曹植”大模型的各种各样的应用系统,我们的研发团队在扎扎实实一点一滴开发各种的算法。

  我们达观求贤若渴,今年招聘了非常多的年轻的优秀的工程师,加入我们达观,和我们一起把优秀的大语言模型应用落地。我们相信未来的生态定上游的算力、数据等生产资料和达观为代表的通用大模型和垂直大模型和中游相结合,应用到下游各行各业去,是未来的产业链,这是未来的方向。

  未来希望我们的办公形态,在达观的长文本数据系统里将有丰富淋漓的展示,未来会有很多的黑灯办公室出现,会有很多的自动化的技术出现走进千行百业,为他们赋能。

  总结一下,达观我们相信智能文本处理技术未来会有很大的发展,左边放的图是宋代的毕昇是活字印刷术,今天的达观的“曹植”大模型像活字印刷术一样,我们希望这个技术能为各行各业赋能,为AIGC创造价值,谢谢大家。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:梁斌 SF055

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 09-22 中集环科 301559 --
  • 09-21 浩辰软件 688657 --
  • 09-19 三态股份 301558 --
  • 09-18 爱科赛博 688719 69.98
  • 09-14 恒兴新材 603276 25.73
  • 新浪首页 语音播报 相关新闻 返回顶部