新浪期货讯 2017年12月1日-3日,由中国期货业协会、深圳市人民政府主办的第十三届中国(深圳)国际期货大会在深圳召开。本届大会以“开放融合 提升服务 共赢未来——新时代期货及衍生品行业的转型与发展”为主题。12月2日下午,由华泰期货承办的“科技发展与信息安全”分论坛召开。阿里云金融事业部首席数据架构师吴旭以《构建期货行业打通业务的大数据平台》为主题发表演讲。
以下为文字实录:
主持人:汤姆林登先生为我们展示了AI技术在信息安全领域的实际运用,开拓了我们的视野。感谢汤姆林登先生的精彩发言。
下面请允许我介绍阿里云金融事业部首席数据架构师吴旭先生。吴旭先生深入了解阿里大数据体系、人工智能产品体系及开源大数据,对于大数据领域的发展趋势及在金融行业的规划建设有着深刻的理解与丰富的经验。有请他为我们作“构建期货行业打通业务的大数据平台”的主题演讲。
吴旭:各位领导,专家,大家好!非常荣幸今天有这样的机会来跟大家分享阿里巴巴和大数据体系的构建,以及我们非常希望通过这样的机会,能够通过阿里巴巴的大数据建设,能够对我们后面证券期货行业构建自己的大数据平台有些借鉴和帮助。
阿里巴巴,我们的马老师在很多不同的场合都把阿里巴巴定位为数据公司,而不仅仅是一个电商公司,定位在数据公司的目的不是号称阿里巴巴拥有多大量的数据,其实是想强调阿里巴巴是一个靠数据来驱动业务,通过数据来挖掘业务价值,来最终提升业务能力的公司。所以这也是作为阿里巴巴整个的核心竞争力。其实通过这样的定位以及在之前我也思考怎么定义今天的演讲题目,因为时间有限,半个多小时的时间,更多的用非常通俗的词“打通业务”,题目的选择也是强调大数据的建设不是单纯从技术角度去建设,一定是一个从技术和业务相结合,最终是要发挥出业务价值、数据价值这样的定位。所以说以这样的定位,我们的介绍围绕三方面,可能更多介绍技术细节,介绍技术细节不是强调技术,而是强调技术背后的思想,这个思想能帮助我们挖掘更多的数据和技术的价值。
一是围绕数据赋能期货行业,更多是从技术的角度探索。二是方法体系,阿里巴巴如何构建大数据体系,并不是阿里巴巴构建大数据技术和如何使用大数据技术,体系和技术之间有区别,光有技术不足以帮助你实现业务价值的提升,有了技术,我们还要有正确的方法,利用这个正确的方法才能有助于发挥出最终的技术价值。有了技术和方法,我们是要选择合适的场景去应用。三是介绍以客户为中心的数据应用的场景。咱们的客户包括自然人、公司客户、对公客户等等。最终的场景其实又会返回到技术。今天我们看到三者的逻辑关系有内在的逻辑关系,场景最终如何反馈到技术?大数据有一个理念场景化,根据不同的场景来选择最适合的技术,帮助我们解决业务问题。所以说从技术、方法体系、场景这三者之间是一个闭环。我们以这样的思路来开始今天的介绍。
这张图是阿里巴巴构建大数据体系从技术能力的角度的能力框图或者技术图谱,这张图展开来讲也是按分层、分块的思路构建,最下面大数据的物理设施,不管是公共云还是专有云,现在阿里对外所赋能,这两种模式都支持,支持帮助客户在自己IDC中心构建大数据平台。物理设施之上是从整个大数据体系当中比较基础或者核心的部分,计算引擎,计算引擎我们会看到分了几部分,这也体现了刚才说的场景化,大数据的业务应用有场景化,从数据处理的角度来讲依然具有场景化。这几个场景,我们梳理了大数据领域当中经常用到或者最集中的几大场景,分别是大数据的批量计算、离线计算,后面还会展开。也就是传统做一些数据平台,可能80%、90%的业务负载都是集中在批量、离线的场景。第二个场景是实时交互分析场景,我们有了后台更多的跑批,我们需要更多的业务人员能直接利用数据,直接跟数据打交道,让他们直接使用数据。这个能力需要有很强的交互能力维持,当用户有请求,不可能等十几分钟或者更长的时间反馈结果,要秒级或者毫秒级的反馈。三是云计算,事件驱动的云计算模型。不管是金融营销、风控都会结合云计算的能力。四是表格存储,类似很多SQL。五是对象存储,我们的批量处理、实时交互等更多围绕结构化数据展开。在金融行业里面积累的日志文件、图片文件、音视频文件,里面孕育很大的业务价值,如何利用这些数据,也是大数据构建当中必须考虑的环节。
不同数据处理场景,在阿里内部来讲,技术人员使用门槛不高,数据分析人员更多的有SQL的能力,这些工具要求数据分析人员掌握SQL就可以平滑的使用。这强调了一点,我们并不是为了追求新的技术,追求最时髦的技术而展开,我们是为了最终发挥出业务价值。这个是从数据处理引擎,再往上就会包含数据开发的能力,调度的能力,源数据管理的能力。作为大数据平台,如何知道一个数据的地图、一个地图的脉络,上游的血缘、下游的影响,要作为整体,从数据管理的角度来讲是要作为整体,变成可追溯和可跟踪。再就是数据集成服务,不同的数据源、易构的数据源是作为一个整体来协同向用户提供业务能力的输出(音)。这里面包括很多,比如面向物联网采集数据,传感器采集数据,这些数据如果整合到大数据平台,这是数据集成的能力。再往上业务支撑层,位于底层平台和上面的业务应用中间层,这层面向有共性业务需求,我们可以把这部分能力沉淀下来。这里面在阿里内部来讲有这么几个能力,数据服务能力、边缘分析能力、智能算法能力、可视化服务能力,我今天不会一一介绍,只是选取几部分介绍。
大数据能力体系我们可以概括四个字“算、管、聚、用”。大数据的计算、管理、聚合、应用,这样构成了整个大数据体系。但这里面缺少不了整个平台的运维,因为我们知道作为一个平台来讲,平台在线扩容、平台的监控、预警等等能力都必不可少,这是平台平滑运营很重要的一环。这是整个阿里巴巴数据内部的大数据平台,这些能力,我们现在都是可以通过公共云以及专有云的方式向客户进行赋能。
我们着重强调几个点,批量计算能力强调两点:一是多租户能力,传统数据平台可能由于一个任务,SQL写的有问题,导致整个资源的耗尽。现在大数据平台要具有多租户的能力,能控制每个租户下能使用硬件资源的上限,比如我可以控制它最多使用多少核CPU、最大使用多大的内存,这个租户下如果发生一些查询SQL写的质量有问题,不会影响整个平台其他租户的查询。二是跟安全相关,我们给一家商业银行构建大数据平台的同时,帮助他去做了整个银行内部的数据资产管理,这个资产管理更多的是从安全层面,帮助他去构建数据平台内部数据的安全等级,同时帮助它规划用户的安全等级,这样我们就能够把它什么样等级的数据,对应什么样的人员能够访问,这个体系能够建立起来。这对于整个数据安全来讲,是非常重要的。我能够识别出我的数据安全等级,同时对应我数据的使用人员,对于什么人看什么数据完全做到可控。
刚才我们提到非结构化数据处理,现在我们有大量的日志的文件,音视频的文件,这些数据我们怎么发挥出它的价值?在阿里巴巴其实也是能够把我们的对象存储和大数据处理平台相结合,这里面做了一个技术性的事例,这是日志文件典型的非结构化数据,如何通过大数据平台建立一张外部表关联数据文件,传统的做法,要分析的时候可能还会读出来,放到另外的位置再解析。现在保留在原来存储的位置,通过大数据平台外部表技术的能力,在数据不移动的前提下解析它、分析它。像分析本地表一样简单,这是对于非结构化数据处理,需要我们在这方面建设。对于日志文件、音视频文件、图片文件都有对应的接口来满足不同场景的需求。
实时交互,刚才说针对批量,实时交互满足用户提交请求,不管做多少表格关联、多大业务关联、多大数据量,都可以达到秒级和毫秒级访问,这是阿里巴巴内部应用中,在事实交互计算来讲对应的场景。应用很多类似全表索引等等技术,如果把这些技术应用到极致,在用户查询的时候,在阿里巴巴面向数据运营人员和商家都会有数据实时交互的场景。怎么满足这种业务运营人员的身价在查数据的时候,并不是说体验很差,能够满足他们的体验,满足业务的时效性。这是实时交互计算能提升的数据价值和业务价值。
流计算,这是今年双十一最终的交易图,从10号零点到11号24点,这个大屏的数据每时每刻都在变化,那也就是大屏背后的数据体系是流计算支撑的体系,我们展现出来的是大屏效果,但是背后有一套流计算体系,实时抓取数据、实时展现,这是流计算全链路的体现。流计算并不是一个点,而是一个链条。如何面向不同的数据源做到实时采集、实时计算、实时展现,这个能力的建设是一个完整的能力体现。
另外我们提到涉及到这么多数据源,而且不仅仅是数据源,在企业内部、金融企业内部会涉及多种多样的数据源,如何把整个体系作为整体集成起来?这是阿里巴巴从技术研发的角度去做了很多工作。在阿里云内部来讲,各个数据源都是有对接的接口,作为一个统一的体系把这些异构的数据源作为整体整合起来。
说完了数据计算,我们再谈数据分析,数据分析分几个层面:比较基础的BI分析,数据建模分析、可视化分析。BI分析举一个简单的例子,我们在给商业银行服务的大数据平台,在建平台的同时帮助他做了一个内部的自助查询项目,解决了整个行业内业务部门70%的报表查询的数据。传统的做法是业务部门有报表需求交给科技部门,科技部门再进行排期再进行研发,业务部门拿到数据的时候,这个数据从业务上已经不关心了,因为有周期。业务部门70%报表需求完全通过项目体系,自助的做,完全通过拖拉拽和可视化报表完成,剩下30%是复杂的情况,由科技部门帮助他实现。70%的工作量的节省,对于业务部门的价值时效性和对于科技部门的人力的成本、工作量的减少都是非常明显的提升。这是BI分析角度来讲我们看到的。对于大数据平台,我们如何满足业务人员直接上平台里面查数、取数、分析数据,这是我们去发挥出整个大数据平台的价值的第一步。BI更多是报表分析、图表分析,后面有很多建模的场景,包括今天多次提到AI、数据建模、机器学习、深度学习等,这面对特定的数据分析。
数据分析人员需要有一套体系帮助他构建模型,帮助他去实现这种算法调优、算法构建等等一系列的过程。在阿里巴巴内部,现在整个集团差不多有将近4000名以上,不到五千名数据模型分析螈,这些分析人员会有统一的工作平台,通过这个平台完成整个数据的预处理,特征工程、模型的构建、模型的调优,整个到最终的在线发布,一整套系列都是在统一的平台上做。这样能有效的发挥,像我们耳熟能详的信用,背后涉及到上百个模型的计算,这些模型都是通过这个统一的工作平台来实现的。
数据大屏大家看起来很直观,通过很多的可视化、可互动的方式,把我们的数据展现成动态的模式,让数据活起来、让数据动起来,好处是我们能看到从传统报表上看不到的数据的含义。这方面来讲,其实我们刚才举的双十一大屏是非常典型的例子。在阿里巴巴内部专门有一个整个决策大屏,上面展现BU业务运营情况。这对于整个的业务决策、实时的分析,包括系统的运维,这些场景其实对于大屏来讲都是非常适合的应用场景。这个场景其实里面帮助客户已经构建了很多展现的主题,包括帮助你连接数据源,需要我们考虑的是怎么设计整个绑定,怎么设计指标帮助我通过可视化的手段把业务价值展现出来。
以上是从技术的视角,从整体的角度介绍阿里巴巴内部去构建大数据体系里面包含的各个技术的组件。光有这些技术组件,它是很重要的一部分,但不是大数据整个体系的全部。像我们盖房子一样,光有很好的建筑材料,但是不代表就一定能建立很好的房子。我还需要很好的设计。当然设计里面需要很多基于科学的方法去构建,基于力学、建筑学等等方法构建。数据工程一样是这样,我们构建一个大数据平台,光有这些技术组件是必须,但不是完全的。还需要非常合理、非常科学的方法帮助我们去实现这个技术组建。在这条路上阿里巴巴通过不断的积累或者不断的踩坑,总结出来面向大数据如何合理的去构建一个大数据平台体系,这个平台体系能发挥出我们的业务价值。阿里巴巴内部,阿里巴巴的业务板块,大家比较典型的是电商板块,淘宝、天猫,还有金融板块还有菜鸟物流等等板块,大家都知道,其实还不只是这些,还有很多板块。这些板块在集团内部,从数据平台讲是构建统一的数据平台去支持这些不同的业务板块。并不是每个业务板块构建自己的数据平台。阿里把这个数据平台叫数据中台,数据中台解决了整个集团内部数据的存、通、用,存是从武力和逻辑数据的集中存储,通是把各个业务板块的数据打通,打通之后才能发挥出更多的数据价值,比如客户的画像整合是打通的,站在整体的角度看待这个客户。用是最终的服务于不同的业务板块,所以这是整个去构建数据中台内部包含的一整套的方法体系。
总结,这套方法体系包含三部分:one-date,整个数据平台内部跨业务板块,数据汇总角度要打通,形成面向业务分析的模型构建,传统的类似于像数仓,构建数据基础层的时候,更多利用三藩市建模的方式,它并不足以支撑业务用户直接使用、直接查询。它解决如何面向业务分析,企业内部同一个分析指标有唯一的一套算法,并不是说解决数据的质量和数据不一致的问题,one-date面对分析层构建整个分析的指标和标签。one ID,围绕后面讲的以客户为中心,我们知道对于客户,它在网上的行为会有很多的标记,比如说手机号、邮箱、淘宝账户、支付宝账号,对于每个BU来讲,他知道的只是这个客户的片面的属性,同时它可能会做营销的时候,它并不是针对一个人做营销,而是针对一个手机号做营销,针对邮箱做营销,但是背后不能识别出来这些代表的是同一个人。one ID解决的就是打通的问题。面向不同的用户的标识能给它打通,最终是我能识别出一个具体的自然人、具体的一个公司,这个能力的提升是对于整个从业务的角度来讲,对于营销、风控都是非常关键的能力,是一个关键的核心能力。我相信从金融行业来讲,更多的以后会开展面向互联网的业务,这种业务同样可能遇到这样的问题。我并不是针对手机号发广告,一定是知道这是谁,他有什么样的行为,在互联网上有什么行为,针对这个人去给他做广告。oneService是统一数据服务的能力,大量数据提供服务一定是可管理、有序的,它作为统一的数据服务引擎,数据服务的配置,这样作为三个one构成整个大数据平台的方法体系。我更多是说整体的层面,要更细化,包含很多的内容,会细化到构建数据平台,一个表怎么命名、一个字段、一个指标怎么命名,这里面都是有严格的规范。按照统一的规范构建数据平台,才能保持可持续。这是从方法体系上的介绍。
One ID,阿里巴巴内部首先识别这个人,通过不同的标签识别这个人,识别出来之后,后续再给他提供服务、提供营销,进行风控的时候,我会有各个不同的数据处理的场景,就是围绕场景。最典型的就是客户画像,识别出一个自然人,这个自然人上在所有的领域,不同的业务板块上发生过的行为,留下这些标签的记录,我给它汇总起来,形成完整的客户标签。这个其实对于整个金融行业来讲,我们现在都在提客户画像,这和传统的构建360度视图差别在哪儿?我们把各个渠道的数据整合起来,那时候更多是数据的展现。客户画像的目的是要给客户打标签,这个标签是计算的结果,这个标签也是我们获取数据内外部数据整合利用的结果,通过这些标签可以做很多工作,做客户筛选和分群和营销,其实是更有针对性。所以客户画像是我们后面面向很多客户应用场景围绕他的服务,围绕风控、营销这些场景的基础。客群放大,企业内部核心客户有哪些,或者价值贡献度最大的有哪些,通过这些客群的梳理,我总结出这个群体有没有共性的特征,基于这些共性特征做人群的放大,这样对于整个业务的拓展,营销的拓展就会有很大的指导意义。我在做营销的时候,并不是广撒网,而是有针对性的撒网。面向一个有目标的人群撒网,这个目标如何确定?它利用了很多AI的技术,通过数据分析的模型去梳理出来、计算出来,这是从客群放大的应用能力。在内部有很多的典型的场景。
第三个是产品推荐,定位好目标客户,我们给他推荐哪些产品?我相信在金融行业里面也会同样遇到,比如说我们类似于同质化产品非常高的情况,这类产品,我们如何再去面对不同客户推荐产品?而且这种推荐是基于已经有的历史数据和实时数据的结合,这两者的结合是给客户推荐产品的时候,我会基于他大量的历史记录、交易记录进行计算,同时我会基于这个客户在当时时间段发生的动作,他的触发,比如APP上点击什么、浏览什么、收藏什么,在网站看了什么产品,基于他实时发生的行为,我去触发给他推什么产品。我相信大家在淘宝上都有这样的感受,我买什么东西,还会给我推送什么产品。背后有很多处理策略,比如冷启动策略、关联策略,还有基于客户行为历史、交易历史的策略,它背后有不同的算法。这些技术、算法结合,其实保障了我最终向客户推荐一定是从计算的角度来讲是他最需要的、最有针对性的,这是产品推荐。
最后是智能客服,我们知道智能客服通道人工智能里面的语音分析,语音转文本,文本转语音,还包括很多自然语言解析等等技术,这块应该说在AI领域能看到已经是实际落地的业务的场景。像我们去打开支付宝联系客服的时候,将近90%都是机械座席回答问题,只有极度敏感还有投诉等特殊情况才会转人工客坐席。客服领域利用人工技术领域提升客户体验,来降低整个呼叫中心运营的成本,包括我们在这里面还可以做很多事情,比如情感分析,分析这个客户的语言里面有哪些情感因素,有没有潜在的销售线索,其实都是可以通过语言解析和背后的整套算法来帮助我们分析的。
这是我今天向大家汇报的主要内容。因为时间非常有限,我更多从整体的角度,从宏观的角度来向大家介绍的。谢谢!
责任编辑:张伟
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)