2013年2月1日,中国第七届保险业管理信息化高峰论坛在北京召开,论坛由《中国保险报》主办。IBM[微博]金融行业资深架构师徐礼佳在演讲中表示,大数据平台技术本身还在探索阶段,所以不要过热地追求大数据。要更加关注这个技术应用的场景,它到底可以做什么,它将来的两到三年逐渐发展下去的话,它应该可以逐步的为现有信息化建设提供什么样的智能手段。她强调,在做大数据平台规划时,要充分的考虑它和现有的数据架构间是什么样的关系,同时重视技能,数据挖掘和分析的需求。
附嘉宾发言实录:
徐礼佳:各位领导,各位嘉宾大家好!非常高兴今天有这个时间和大家一起讨论大数据。大数据在过去六个月以来是非常时髦的话题,我们也和除了互联网之外的各个行业的公司在探讨到底大数据能够给我们带来什么样的一种转变。
在我和各个不同的各行各业的公司打交道的过程中,大家对大数据的理解和探索都有各自不同的一个想法。
首先我来讲一下从大数据的角度来看,到底对我们现在的数据分析、挖掘和预测技术带来什么样的转变。第二,和大家探讨一下从大数据的角度来说,从技术和业务的层面带给我们的是什么。之后再给大家分享一下,我们实际上已经和客户在做的一些大数据方面的探索。第四,再来看一下如何在我们的保险公司开展新的大数据项目。
大数据不是一个新词,也不是一个相对小数据的提法。大数据是说对于我们很多传统技术已经不能再处理我们现有数据量的考量。从技术角度,我们有一个什么样的新技术能够帮我们来做海量数据的挖掘和分析。
到底数据是用来干吗的?今天早上阮总和刚才黎总讲到的,互联网经济对传统行业的影响越来越广泛了。大家都各自在商业转型的过程中发现信息智能化和分析的能力其实是我们竞争力的一个集中体现。我们IBM每年有一个IBV的调查,每年访问了业界大部分的公司,这些公司74%都认为是信息化分析和信息管理,包括大数据为他们创造了竞争优势,自2010年同比上升了70%,已经越来越意识到数据的价值所在。分析的能力是我们人类从自古到今一直盼望的一种能力,我们更好的希望能够预测未来。大数据一本很好的书《爆发》中就详细地论证了一下,人类行为是否可以预测。他的前提和假设条件是说当我们有足够的信息和数据来理解一个人的行为,大部分时候,一个人的行为是80%可以预测的。对传统行业来说,也一直希望更好的了解客户,更好的摸索一个客户潜在可能对哪些产品感兴趣。
传统做法中,我们一般通过统计和报表的方法来判断现在我们已经有什么样的预测和行为。我们很多时候是靠某一些业务人员的直觉和本能来判断哪些是风险点,我们应该如何定价等等。大数据时代对此有了颠覆。首先它对于我们数据挖掘和分析的要求不再局限于保险行业中的某个部门,比如说精算部门、核保部门等等,就像互联网经济一样,我们和客户打交道的各个渠道,包括我们的销售和营销,都需要有这样一些预测和分析的能力,以使得我们更好的判断客户的走向。客户什么时候会流失,需要什么样的保险服务等等。也就是说数据挖掘和分析已经变成了业务部门每天所必须要用到的一个利器,这一利器从现在信息科技部门的角度来讲,我们怎样把它交给业务部门呢?
在传统的解决方法和模式下,我们由业务需求来驱动一个方案的设计。业务部门往往把它的需求转化成为我们IT部门能够理解的语言,业务部门再通过IT部门搭建的这些数据平台、数据中心来一次次的查询和通过报表形式得到他想要的回答。IT部门再根据业务部门的反馈逐渐改善和完善我们这样一个方案,所以它是一个循环递减的过程。但是这样一个过程往往非常适合于一些非常高价值、非常结构化的,已经固定和成形的流程。但对于一些比较前卫性的探索的高度变化的数据,它的支撑往往不够。就算我们很多传统的固定业务需求来讲,很多客户告诉我,他们通常都需要六个星期到三个月的时间来开发新业务需求,这一方面是因为业务IT化不够和IT业务化不够导致难以区分,同时什么样的技术在什么样的场景下如何使用往往没有很好的把握。
在大数据时代的分析、挖掘与传统做法完全不同。在大数据时代我们更多的做的是探索性地摸索,传统的方法下,我们要求一些非常高质量的数据,在数据平台当中通过建模的方法来找出它相应体现的一些特征。但是在大数据时代,往往我们做的是沙里淘金的过程,我们把大量从各种渠道得来的数据,互联网也好、传统IT系统带来的数据进行探索性分析。这个探索性分析,往往我们在分析前没有带有一个特定的一些假设,而是通过数据本身给我们体现的一些特性来判断。在这样一些情况下,这个数据挖掘和分析变得非常复杂,同时,它的性价比也就是刚才李总讲到的,体现的业务价值反而是在不断的递增。
一般来讲从数据挖掘和分析的角度来讲,按复杂度可以分成几个层面。传统上我们做得比较好的是描述性的挖掘,甚至不能叫做分析,因为它仅仅是描述性的,对既有事实做一些统计分析的标准报表。随着我们对数据理解的加深和预测能力的加深,我们往往能够做得更多的是一些预测性分析。比如这个客户在什么样的情况下可能会流失,如果他流失的话我们采用什么样的相应对策,这个客户是对客户服务更为敏感还是对价格更为敏感,这样的一些分析我们要通过预测类分析才能回答;在预测类分析之上还有命名型分析,命名型分析源自于一个哲学上的命题,它要回答的问题不是说我们做了些什么,而是我们应该做什么,从企业治理的角度来说,我们应该如何部署我们的资源,才能使得我们的商业价值最大化。这样的一些分析往往需要我们有一些非常全局的观念来做非常大量的分析和海量数据的基础。所以,我们可以看到现在还是处在非常基础的一个描述性的分析的阶段,随着我们技术的发展和我们业务部门往互联网经济过度的这样一个需求下,我们分析的深度和广度也会远远增加。
大数据,大家都听到很多了,它其实在IBM的定义下有4个V,数据的种类、数据的速度、数据的价值(粘度)和数据不确定性。这里我重点提一个数据的速度,数据的速度有两层含义,第一层是现在各个公司的IT系统中,数据获取的速度越来越快,这是数据采集和进来的速度。另一方面我们往往做的是离线的分析,当数据生成后,过一段时间我们放入数据仓库,二次平台,再来做加工和分析,在大数据时代我们有新的流计算的技术,可以让我们时时做在线的分析。这种在线的分析对我们金融行业的影响是非常深远的。比如我们和很多银行和金融保险公司正在摸索的如何在线做理赔欺诈和金融欺诈的分析,这往往能够给我们的业务部门创造极大价值的这样一些业务场景。
去年我们IBV中发现,在四家企业中至少有三家都在开展与大数据相关的项目,起码四家里有一家大数据项目已经在上线和试运行中。在过去六个月中,我们也走访了很多国内的金融机构、银行和保险公司,很多公司都在开展大数据的探讨。很多客户和我们讨论,数据到底在我们公司应该做什么?这个问题我们很愿意和大家分享。这时候如果大数据是从信息部门和IT科技部门而起的,很多人问大数据能否替代传统的数据仓库?大数据能否给我们构建一个像淘宝那样的历史数据云?这样的问题在现在的技术情况下我们认为暂时做不到,但是技术的发展是日新月异的,将来这些一定是方向。但是对于我们传统的企业来讲,我们现在认为大数据还将是你的信息架构中的一个非常重要的组成部分。但是它和我们已有的传统数据架构不是一个替代关系,而是一个相辅相成的辅助关系。这里面的一个非常关键的词就是信息整合。
我们现在不是要创造另外一个信息孤岛,而是要把我们分散在各个地方,我们平时不能采集到的数据和我们现在已有的业务系统或者是数据平台当中的数据加以整合,然后挖掘出它的价值所在。
对于IBM大数据平台来讲涵盖了很多的部分。这个大数据平台不像很多科技部门同事认为的那样仅仅包含Hadoop这一个组成元素,其实在Hadoop上我们还有很多互联网技术的分析和流计算的分析,以及相应用户环境、及与现有IT系统集成的组件。如果我们仅仅从Hadoop技术角度来看,在很多开源的Hadoop组件上,IBM又加入了很多我们自己开发的组件,这些组件可以更好的帮助我们从运维角度、从数据分析和挖掘、从探索的角度给我们提供相应友好的一些界面。
对于各种数据平台来讲,流数据、大数据、数据仓库的数据处理,他们各自处理的数据量和时效性要求各不相同。也就是说它们之间既有重复的交叉的层次,同时也有各自不同的定位。对于非常高效、高速的一个流计算的分析,它相应在整个的坐标轴上,因为它在左下方。而对于我们非常传统的一个固定的、在数据质量非常高的、提取出来的这些数据之后的一些分析,它是相应的数据仓库或者说海量数据分析的一个优势领域。
这三种数据分析的平台其实是相辅相成的关系。在现在的情况下,他们各自可以分析的内容、分析的场景、利用的价值互相是一种补充。我们以理赔欺诈为例子来讲,对于很多的理赔数据和承保数据,如果我们积累了大量的历史数据的话,这时候我们可以在Hadoop的基础上的这样一个大数据平台上进行深度的挖掘和分析,这样一种深度的挖掘和分析可以帮我们找到一个标的的风险点,或者是理赔欺诈的一些固定模式。因为这些模式不断在变化,所以,如果在传统的数据仓库环境下做这样一种模式判别,会是非常困难的一种方法。
在大数据平台时,我们会有很好的这样技术辅助来帮我们做这样一些数据挖掘。这样一些离线分析的结果能够反过来运用在我们的流式数据分析上,当一个理赔案在处理过程中就可以根据我们识别出来的模式,来判断现在处理的这个理赔案到底风险有多大,是否应该有一个特殊的处理。所以,这三种数据平台是相辅相成而不是替代的关系。
有不少的客户,几乎大部分的银行和保险公司客户都在探讨做大数据。很多信息部门向总裁提交这样的报告,到底我们打算做什么样的大数据项目。很多时候如果我们的信息科技部门对于业务的认识不够深入的话,往往会非常困难地从纯技术角度考虑这个大数据平台是不是一个历史数据云,或者能否代替我传统的数据仓库,或者有的客户问我们,大数据平台能否能够完全替代我们的数据库,来出一些固定的报表。这时候我们给大家的建议,考虑大数据还是要从业务的角度来考虑,对于我们每一家公司,最基本的一个问题是你希望用大数据平台解决什么样的业务问题,也就是说现在你的业务部门有什么样的一些业务问题是通过传统的技术想做做不到的。这也许是大数据展示长处的一个地方。
根据我们去年调研的结果,55%的客户做大数据都是从客户分析开始的,很多客户是从网上的舆情分析或者微博来看客户对新产品的反馈,来调整它的产品策略,以判断一个客户的行为作为大数据业务应用的第一步探索。所以,很多时候我们建议客户,也许从你的客户的角度出发,不管你是判断客户流失率也好,还是判断一个客户在网销的过程中留下的痕迹是否有商机,这些往往是一个大数据能够发挥长处的最主要的业务应用。
大数据和互联网技术的共同特点是说,它的基础设施一定是可延展和扩展的。对于大数据来讲,因为我们今天处理的数据可能是100T到几百T,明天我们处理的数据可能是上TB的数据,所以它对信息基础的要求是可扩展的过程。
最初的的数据探索是否能够集中在现有的新的内部数据源中挖掘有价值的信息。过去我们的IT部门经过过去十多年的建设已经积累了大量丰富的数据,但是这些数据往往在我们各个后台零散存在着,而没有发挥它应有的价值。很多时候业务部门和我们讲到他们花大量的时间在取数,而不能做他们专业所长的数据挖掘;对于信息科技部门的困扰又是这些数据质量不可控,数据质量相对比较低,所以我们往往分析不出它的应有结果。但是对于大数据平台来讲,因为我们和数据仓库最大的不同在于它没有初步判别的要求,也就是说你在数据建模的过程中,不是先把数据做一个采样和抽取,这时候你是希望数据以它的原有形态呈现一种数据的特征,所以我们可以从内部来着手看看我们数据的能挖掘出什么样的有价值的信息。
大数据往往需要非常强的分析能力。也就是说大数据和传统的建模不同的地方在于它需要一些特殊的技能。我们在做大数据探索的过程中,也要逐渐开始着眼于培养这些技能的人员。
大数据的行业趋势是一定要创造一个非常多的业务价值,我们一定要从这些业务的问题出发找到大数据的实际应用,而不要从纯技术的角度出发来考量大数据究竟应该做什么。
举三个例子。
1、美国的某家保险公司用大数据来帮助它更好的挖掘客户。它现在能够用很多更广泛的外部资源,包括社交媒体、合作伙伴等互相之间的数据库来弥补内部和外部的一些观点,360度的来看一个客户究竟对什么样的保险产品有需求。二是它把零散的分布各个地方的信息数据加以提炼和整合,用大数据的这样一些挖掘能力,来告诉我们每个客户完整的信息究竟是什么。我们生活中的微博和微信已经占了非常好的比例,每个人的行为特征、喜怒哀乐和爱好都在这些社交媒体中有一定的反映。这些我们的传统行业往往不能加以利用,这时候大数据往往对于我们传统的数据工具来讲是非常好的补充。同时预测分析能力是非常好的判别。我记得有一次某家保险公司的客户流失团队给我讲,往往等到信息科技部门把可能流失的客户名单给他们的时候,客户已经都流失过了。所以,怎样能够更好地提高我们的预测分析能力,并且以非常高的时效性能够给到我们的客户服务团队,这也是大数据中要攻克的一个课题。
2、另外一个简单的例子是Santam Insurance公司,它用预测分析来更好的做理赔欺诈和赔案处理。理赔欺诈是各家保险公司都要很好处理的问题,但是我们找不到理赔的风险引子在哪里。这时候你积累了很多大数据以后,就给我们提供了线索。原来我们可能要人工判别赔案和赔案之间的关系,来判断哪些模式是相应的风险因子,现在我们可以借助大数据的平台来帮助我们找出这样的一些风险因子。找出风险因子后我们的赔案就可以按照高风险和低风险来采用不同的理赔流程,不同的流程。不同的流程帮助这家公司提高了理赔的流程,我们尽可能的缩短了理赔的时间和止损,这也是通过大数据帮助我们做到的。
3、第三个例子是一家保险公司用分析技术来提高客户的满意度和员工生产率。在网销过程中我们怎样判断一个客户的行为和倾向性。在判断的时候,我们和很多网销部门讨论的是,客户在网上留下的痕迹哪些是真正可以转化为我们销售机会的基础。在过去的时代,我们往往没有这样的一些能力来分析这样一些半结构化或非结构化的数据,但是在现在的大数据平台下,这些都已经成为可能。
最后我们有一些建议。
1、在过去的六到九个月,我们跟不同的金融行业客户探讨的过程中,我们建议大家更多的关注于我们真正的业务问题,而不是仅仅去做技术上的尝试。因为你技术的尝试没有一个业务的目的或者业务价值驱动,它其实是一个纯粹技术上的非常失败的高风险的尝试。
2、大家在做大数据平台规划时,要充分的考虑它和现有的数据架构间是什么样的关系。
3、技能是非常关键的词,数据挖掘和分析的需求,我们如何提高技术部门也好,业务部门也好数据挖掘和分析的能力也是迫在眉睫的。
4、虽然我们不断的在讲大数据,那么我们也有一个建议告诉大家,其实大数据平台技术本身还在探索阶段,所以我们不要过热地追求大数据。我们不要太追求这个技术本身,而是要更加关注这个技术应用的场景,它到底可以做什么,它将来的两到三年逐渐发展下去的话,它应该可以逐步的为我们的现有信息化建设提供什么样的智能手段。
大数据还在不断的发展过程中,我们希望能够在大数据的流程中,陪伴我们的各个行业和各家公司帮助大家实现大数据的信息化建设的新一步智慧的道路。
谢谢大家!