达观数据陈运文:文本智能处理技术在电商行业的应用

达观数据陈运文:文本智能处理技术在电商行业的应用
2018年01月23日 23:18 新浪财经
达观数据CEO陈运文 达观数据CEO陈运文

  “第六届中国电子商务年会”于2018年1月23日在上海举行。达观数据CEO陈运文出席并演讲。

  以下为演讲实录:

  陈运文:各位嘉宾下午好,非常高兴今天下午有机会来给大家分享,达观数据在但尚领域的应用,今天下午听了很多零售大咖分享经验,我和前面的分享嘉宾们被禁完全不一样,我是纯技术出身,我的个人介绍我自己是在复旦大学计算机系读的博士,毕业以后做技术方面的工作,在必读、盛大、腾讯工作过。我从技术的视角电商有哪些突破和机遇,怎么让这个产业更有效率,通过接下来的分享讲讲我的观点。

  我们达观数据这边做一个简单介绍,总部在上海的张江高科园区,深圳有分公司,做大数据挖掘的技术服务,我们获得了中国一线投资机构的认可。电商行业我们需要做数据应用的时候,常见的难点有哪些?这边列了一些,也是我自己从业的一些体会,其实电商很也很多时候数据不够,我们很多时候能拿到的数据只是少量的交易数据这个数据在整个里面只占1%,就是99%的数据没有采集到,我们怎么把缺失99%的数据都采集到。还有一个难点,我们数据采集下来以后,怎么从海量的数据当中筛选出有价值的信息,我们以前的企业尤其是零售企业,我们拿到的数据盘长用的,我们销量怎么样等,其实数据做的不是这些。第三点是怎么样通过自动化的手段来代替人工,我们知道在产生的零售行业里面,这个叫人拉马抗式的,抗人工的方式是大多数,大多数自动化没有开始,电商行业里面,因为他天然具有互联网大树据基因,很容易把人工智能技术应用在这个行业里面,代替人工要做工作,哪些地方是可以自动化的。

  我们还可以看到通过技术驱动的方式进行精细化的运营和营销,其实也是大数据应用特别惯用的地方,我们知道很多零售行业里面,我们靠老法师在零售行业里面做了很多年,他有经验,他知道怎么选品,怎么陈列怎么做管理,这个靠人工的经验,但是人工经验很多时候未必可靠,我们怎么通过大数据的方法,让整个的过程不再依赖一两人的经验而是依赖科学的精细化方法,这也是点上行业的应用点、难点。

  前面讲到数据采集,数据采集有很多的方法,我们知道传统的数据其实都是数字型的数据,比如说大家的销量,大家的价格,大家的商品的这些信息但是我们现在我们的采集的数据方式比以前多很多,比如说现在最常用的电子标签,在商品当中你放上可感应的技术,进出仓库可以感受到,其实现在很多无人便利店常用的技术,第二个是图象的技术,装了高清摄像头的以后可以更加丰富采集你这个店铺,你的仓库很多的图象的信息。第三类是文字信息,我们知道文字信息企业当中大量存在的,后面做一些更深入的介绍,这三类数据以前没有采集的,现在有新的技术可以把这三类数据采集上来为我所用,从文字挖掘的角度来看,重点讲一下我们大家看到很多领域会有文字,比如说商品描述系就是文字,商品的标题是什么,商品的介绍是什么怎么写吸引消费者,商品的类目、标签、价格都是文字,这些文字怎么组织,怎么建立商品的内部体系。还有用户的搜索词,像我们知道淘宝、天猫等电商平台主要收入来源来自于收缩词,这个搜索词是比较重要的数据,挖掘每个用户在电商平台搜什么找什么,来做更好的数据挖掘。第四用户和浏览和购买的行为,是非常重要的,我们经验是通常一个用户下单之前,浏览行为是购买行为的100倍,只记录的用户下单的,如果不把用户浏览的记录下来,也是缺失了99%。采购完这个商品以后对这个商品物流服务各种评价,这个其实也非常重要,因为只有通过用户的评论数据的深入挖掘,我们可以不断的改进我们的产品和服务,才可以更好的提供电商服务。前面我们讲文本数据的挖掘,他的应用可以在哪里?电商平台里面用的最多的系统,最近互联网行业最赤手可热的意见,叫个性化推荐不管线上和线下都靠热门推荐,专家推荐,线上有编辑,我们有主编,来敲每天的热门的商品放在头版头条,线下有店员有经验,把好商品放在进店的地方,我们期待给每个用户提供满足个性化的需求,个性化推荐已经非常重要,现在在所有的线上零售70%的销量来自于推荐引擎,它这个是有多重要,个性化推荐非常有效提升传统人工推荐的效果,它的背后是一个用户画像的积累和分析的体系,我们知道进店的时候给每个用户,我们知道他喜欢什么讨厌什么,他最需要什么,我们对这些用户的兴趣把握是来自于兴趣本身的,最后个性化推荐反过来,就是说我们了解非者以后,反过来可以帮助我们进行更好的商品的选品和质量的提升的,这非常重要,我们有很多的合作伙伴他们头疼不直达消费者现在喜欢什么,进什么货,进多少货,这些对每个消费者画像,把这些用户的画像汇总在一起更好的指导我们零售运营的。

  然后呢,重点提一下VOC,在我们这个行业里面,我们达观帮一些华为的开发VOC系统,帮助他们更好的深入挖掘每个消费者对商品的评论、服务意见等等。这些用户的评论,通常我们需要结合商品和服务的属性进行深入的挖掘才可以更好的帮助你了解你的消费者对每个消费品的每个细节到底怎么样这个里面需要用到比较复杂的文本语言理解的技术。这个是什么呢?就是让计算机像人理解文字的含义,通常我们从互联网上采集的个评论信息量非常大的,这个量每天过10万级的,大的平台都是百万、千万级,靠人看看不过来的,必须让计算机做。计算机做这个事情就变的非常有价值,我们知道今天的计算机,人工智能技术可以帮助我们完成很多文本自动化处理,比如说我们这边,每个企业里面,电商里面你有很多你自己的行业文书,比如说你的财务条线等,都是文字藓苔出现的数据以前靠人审合同,人签订合同,人做文字管理,能不能把这个事情让计算机帮你去做,比人做的更好更快更靠谱,这个就是计算机做文字阅读的带来的价值,很多企业当中我们部署了计算机处理系统。像合同解析就是常用的功能,我们知道一个企业有大量的合同,这些合同都是靠人来做,人做合同的撰写、修改、提取、阅读、审核等等这些工作,但是今天我们计算机可以把合同的这个事情可以自动化非常好,计算机通过我们技术自动化进行合同文本的提取分析挖掘,合同里面有那些问题,哪些漏洞,这个合同和以前合同的比对,这个大大提升一些企业的云心效率。像商业合同、票据的自动化解析、信息的自动录入等等,计算级可以把这个事情做的非常自动化了,这个是我们讲我们的人工智能实在来提升我们电商零售企业的效率。

  好,这边我们这个稍微给大家科普一分钟,计算机怎么做文字理解的,教小学一年学生学语文,我们先教小朋友学会组此,因为汉字里面组词是主要的小朋友学会词语,接下来需要他造句,造简单句,今天我来参加会议,再造符合句,学会造句,再教小朋友写作文,先写200字,再更长的,教计算机像人阅读计算机和人一样阅读文字其实是类似的,后面有很多复杂的技术模块,像计算机像人一样理解词,力矩一句话,然后理解一片文章,一份合同在说什么,这个让我们计算机代替我们做很多的工作了。

  然后,说一下知识图谱,最近一两年炙手可热的概念,电商零售行业尤其很多细分行业有很多专家经验,我们讲这个老法师很厉害,这些专家经验靠人靠不住,我们这些专家经验能不能沉淀在计算机系统里面,能够让专家一样做一些数据挖掘,我们需要构建一个知识图谱,把这个行业的方方面面的知识、经验沉淀在知识图谱里面,用这个知识图谱更好的分析数据,挖掘数据,指导各种各样的运营工作,像我们构建知识图谱非常重要的一件事情,帮助很多企业这个行业的知识图谱,医药行业、生鲜行业、法律行业,每个行业都有自己的知识点,我们把这些整理起来以后建立一个知识图谱,为他们的行业更好的自动化运营服务。

  总结一下文本挖掘引擎可以做很多事情,从大量的稳当当中抽取你要的信息,可以做审阅,以做用户的意见分析,计算机具备了阅读能力可以做的事情。同样可以做很多,像搜索,搜索是电商领域最重要的应用场景,推荐同样也是,还有知识图谱。

  最后,我们看一下,在整个电商的全流程里面,数字化和精细化经营怎么做的及这个图是PPT最后一页,我们可以看到从用户整个生命周期从注册到浏览到下单,到支付,整个的生命流程里面每个环节可以沉淀很多的数据,从数据分析角度来说,从事件从各个角度分析我们的数据,从企业业务条线来说,我们有产品改进、广告投放、质量生产的桃仙都可以用这个数据指导我们每个部门的运营。

  总结一下,电商大数据领域,我们讲有三点值得大家借鉴的,第一点全过程数字化,我们以前讲线上线下,以后不再分线上还是线下而是数字化还是非数字化。第二点,文本数据的自动化处理有很大意义的,大量原先依赖人工的文本处理工作可以交给计算机系统来自动化进行,节约大量的人力,更好提高效率。第三点,够是数据服务的价值将被越来越多的重视,靠行业经验的传统方式,将被通过知识图谱、用户意见分析等自动化系统来代替,更好提升你的企业运营效率,赚更多的钱,更好的改进你的产品服务。

  这是我们最后三点的总结,谢谢大家,这个是我的微信号,如果大家感兴趣欢迎后面跟我继续交流,谢谢大家。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

责任编辑:梁斌 SF055

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

Array
Array

股市直播

  • 图文直播间
  • 视频直播间