2017年06月19日14:29 新浪财经

基金经理老鼠仓,说好保本变巨亏,买基金被坑请到【基金曝光台】!信用卡无故遭盗刷,银行存款变保险,理财被骗请猛戳【金融曝光台】!

  新浪财经讯 中国保险报业股份有限公司主办、华夏保险经纪有限公司协办的第二届“中国互联网保险大会”于6月15日-16日在北京举行,本次论坛主题为“创新、突破、智能、共享”。上海冰鉴信息科技有限公司董事长顾凌云在会上发言。

  下面为部分发言实录:

  我们今天为什么要用机器学习和大数据的算法,在保险和金融当中做应用,主要是说他对于一个人的言行、举止、声音、长相等等判断这个人在官场,在职场当中应该怎么样利用。你看所有这些对应的标签,实际上在我们人工智能机器学习当中,变成独立变量,通过机器学习和数据进行映射,对金融和保险进行判断。

  为什么选择使用人工智能的技术,对于保险和金融提供独有的解决方案呢?

  在保险当中我们其实碰到了很多巨大的困难,在座的诸位,尤其是保险的从业者,可能经常看到保险当中因为受时间的所限,我也没有办法一个一个的把所有的痛点都展开,如果把外部数据和内部数据结合在一起的话,中国今天保险业和国际接轨变的更加接近,为什么没有做到呢?我们看一下这一页当中右边所列出来的一些数据,金融消费数据使用了吗,驾驶数据如果没有OBD我们能够有效使用吗,学历教育、社保公积金、通讯所有数据,对于我们来讲的话有些看起来完全不相关的,跟保险没有关系,为什么所有这些数据对于最终我们的个性化定价,对于我们的评判,有着极大的帮助呢。

  在我们多年的从业经验当中,我们觉得所有的保险业当中的数据可以分成三类,第一类我们叫做核心保险数据,第二类叫做泛核心保险数据,第三类叫做外围或者社交数据,所有的这些数据在对于最终保险核心业务的支撑当中,都扮演着非常重要的角色。我想举一个例子,大家可以看到在保险业当中大家怎么做到个性化定价的。

  在车险当中,中国目前为止痛点非常明显了,同样是三年车龄的奥迪A6,两个完全不同驾驶经验的司机,买保险的时候,他们很可能拿到一样类似的保费,这样情况下,中国汽车保险怎么赚钱和盈利呢。美国我举个例子,他是怎样对汽车的保险进行定价的。在定价的过程当中,有一个最标准的一个使用的问题,就是在过去的三年、五年或者一年当中,你的汽车是作为主要的什么样的使用用途的,是作为商业用途的,还是作为每天上班的时候使用的,还是作为你平时有事没事自己开车出去玩一玩的,要你做一个选择。

  第二个问题他会问过去这个时间段当中,比如说一年12个月,你行驶的里程数到底是多少,你是五千英里,一万两千英里,还是两万五千英里以上,我相信大家听到这些问题的时候,自然就会判断出来,某种程度上来讲是商业用途的,你的保险额更高。如果每天上下班的可能相对来讲也还有一点危险系数,简单出去买买菜,可能保险费用最低。同样开五千英里的比开一万两千英里便宜,事实真的是这样吗?不是的,为什么?回到了刚才讲的数据当中,如果再把外部数据和内部数据结合的时候,我们看到的图景非常不一样,为什么?仅仅按我刚才提的这些问题得到的答案,我们叫做内部数据,从用户当中直接获得。但是外部数据的支撑和应和在我们保险建模当中起到了非常重要的作用。

  在我们美国合作的公司当中,这家公司总部在非常偏僻的地方,他做什么呢?他可以精确的告诉你任何一个申请者,在过去的12个月当中,每次在加油站当中加油的时间、地点以及加油的油费到底多少,这个外部数据对于我们建模起到了非常大的帮助作用。你跟我说每天只是一个礼拜简单买一次菜,可能每年只开五千英里,我怎么知道。我看一下你频繁的加油次数,以及加油的所花的美金,我就能精确判断出来,过去一年油价当中,真实的驾驶行驶英里数到底是多少,我们只是做一个简单的验证所举出的例子。大家可以看的到,所谓外部数据和内部数据结合,具体应用当中产生非常有效的作用。在中国我相信今天没有一家真正的数据提供商,能够精准的把所有我讲到的信息都提供出来,可能这并不意味着对于我们来讲除了刚才我讲到的这个数据之外,我们没有其他的数据可以使用。比如说我们只提供三要素的弱授权的情况下,我们可以对一个人的健康状况,或者我们可以对一个人的驾驶行为做出基本判断。其答案是可以肯定的。

  当我们可以获得一个人的通话记录,就是所谓他的宏观数据,甚至根本不需要知道通话记录情况下,什么时候开机,使用情况,在哪些地方进行过漫游,对于这个人的行为判断,在建模当中起到决定性作用。这个是刚才我只是简单的举到的一个例子,就是如何能够把外部和内部的数据在进行结合使用当中得到最精确的判断。

  下面我想再举第二个例子,这个例子跟我们现在目前在保险当中提供的三个方面的服务,有很大的关系。大家可以看一下,第一个是目前为止保险业当中最大的痛点,几乎没有之一。那就是保险当中精准营销或者所谓的渠道分发,在某种程度上面来讲,中国的保险业生态跟美国非常不一样的。那么携程到今天为止,还能赚的盆满,跟他作为一个简单的票务代理有很大区别,这个过程当中,作为渠道的应用,携程在保险当中获得的提成是极大的。这个从某种程度上来讲,保险业是痛并快乐着,没有携程销量上不去,有了携程自己替携程做嫁衣了。我们应用机器学习和大数据过程当中,有一个最精准使用,如何能够根据刚才我讲到的外部和内部数据结合使用,精准的定位客户,这样精准定位客户,对于渠道本身的评价,以及对于唤醒沉睡客户,已有客户之间的交叉销售,以及获信这几个方面,有非常典型的显著的效益上提高。

  第二个今天我想具体举例子的方向,我们到底如何使用机器学习的一些算法,在风险定价当中做出我们自己特有的方式。某种程度上面我们技术的创新,一定程度上需要得到保监会在改革方面力度的支持,才能够在一定方向上有所推进,这个例子需要回到美国当年主营业务方向之一,我们如何在OBD的硬件结合场景之下,对于汽车保险做出精准的定位和定价。

  那么大家可能都会知道,在美国目前使用OBD的客户,其实并不是特别多,当他把所有的这些硬件设施插上以后,美国对中国最大的区别在于美国对于用户隐私数据关心程度,远远超过中国。所以他如果觉得你可以把所有的行驶的所有记录,全部放在内,对于他来讲,即使是光明正大的人,恐怕相对来说不太愿意,在中国更加不太光明正大了。所以如果这样的话,对于硬件的驾驶信息,可能在中国接受程度上有更大困难。我们到了中国发现恰恰相反,中国接受度比美国大一点。

  回到硬件数据上的采集和在模型当中所体现的效果,大家可能知道在美国现在特斯拉它的普及程度已经变的越来越大,对于电动车来讲,它跟普通的汽油驱动的汽车,最大的区别在于它全身都是传感器,而跟汽车本身传统工业上来讲,哪怕是最先进的一些柴油、汽油驱动的汽车,它本身的传感器数量最多的可能大概只有400到600个左右。所以在我们从实时的行使数据上,采集数据角度上面来讲,电动车所能采集到的数据是最为全面的,对于我们早期的建模来说,有最大的帮助。

  具体我自己个人案例来讲,我在最早期的时候,2012年的时候,在前3000辆车主的时候,拥有一辆特斯拉,我开两个星期时候,我已经充满了250英里电的时候,在高速公路不能加速了,告诉我现在电视只剩下10%,不能使用超过1600千瓦的电力进行加速,我非常吃惊。紧急停在高速公路边上,打电话给特斯拉,我问他现在我出现这样情况,我想给你解释一下什么样的情况,他说你叫什么名字,我跟他说了一下,他说你不用解释了,我们后台所有数据都已经看到了,几点几分从GPS定位你家车库里面开出来,开到什么地方,我可以告诉你,刹车边上传感器出问题了,你的电量跟真正表上显示的电量不太一样的,可以继续放心开,这个问题不能远程解决,不需要把这辆车开到我们特斯拉店来,让我们工程师,在你车库里帮你把这个问题解决。

  在这样场景下面,新一代的所谓互联网,尤其像电动汽车为代表的物联网产生之后,对于保险行业当中一个最大的优点是他所采集到的数据比以前多了很多,实时的行使数据,对于我们建模过程当中,产生了极大的作用。到今天为止我们很多汽车模型,都是来源于我们在美国早年跟各个保险公司的合作。比如说在洛杉矶的大都会当中,行驶每条高速公路上面,所对应的堵车到底什么时间段发生的,每一起交警已经上报的交通事故,每一段高速公路上什么区域当中最容易发生,当时对应的天气、温度情况到底是怎么样的。所有这些数据对于我们在最终的建模当中起到所谓的外部数据的作用,这是外部数据。

  刚才我讲到有三个,有核心的保险数据,有外围保险数据和最外围的泛保险数据。在外围保险数据当中有什么是重要的,这个人开车过程当中,他频繁的急刹车次数到底是多少,他快速换道的次数到底有多少,他的平均时速是多少,使用这辆汽车平均的时间段大概在什么情况下,这些我们认为做外围保险数据。我们其实还有一些核心的保险数据,比如说曾经在保险当中,有欺诈行为的出现,他在过往的过程当中,出现过多少次车祸,他的理赔额到底是多少等等,所有这些我们称为叫做核心保险数据。所有这些数据综合在一起之后,对于个性化的保险数据定价,将会起到决定性的革命性的变化,这一点在美国大部分已经实现了,另外一点更加有意思的是美国很多保险的联动,中国现在做了很多了,但是美国的保险联动大数据应用当中非常明显的,这就取决于下面这个,就是反欺诈模型的实现,和骗保的防控。大家知道车保当中最痛苦一点,很多4S店不是特别规矩,大量的保费实际上在4S店被损耗掉了。这样的情况,早年在美国,美国没有4S店,刚刚回来时候不知道4S表示什么意思,后来勉强学会的。

  它其实早年当中也存在这样骗保的情况出现,这样的骗保怎么样通过我们保险技术和算法来进行防范呢,企事业非常清楚。因为我现在只剩下一分钟时间,所以我可能不能在细节上面展开。总体上面来讲,还是回到我们刚才前面说到的,如果在你刚才我们讲到的所谓三要素,或者四要素的弱授权过程当中,非常清晰的对于你过去的流水交易,对于你所谓的LBS信息体现等等各方面精准放在机器模型学习当中,最终对于实际当中我们不能做到一个水晶球,但是我们会有一个从300到850分的分数,我们为了进行对标,这样情况下,可以让保险公司非常清晰的知道,这个具体的案例,他的骗保可能性,到底有多大。

  时间确实有限,后面有两页的当中,只选择一页当中左下角的图给大家解释一下。在保险当中我们是如何来区分骗保的用户,以及正常的保费用户的。在我们这张左下角图当中,大家可以看到一开始最左边是一个二维的平面图,是X和Y这个,大家可以看到一些红颜色的点,大家还可以看到一些黑颜色的点,这些红颜色的点,实际上比较不好的保护,而黑颜色的点是比较好的一些使用的用户。大家可以明确的看到,使用不好的一些用户,他有一些非常统一的特征,所以他中间以聚类的形式,体现在了中间。而好的保护,实际上他们的表现是千变万化的,是散在边上的。这样一张图,最有意思的是如果你想使用现在简单的精算,或者一些模型判断方法来判断的话,非常困难的。因为大家知道在二维平面当中,如果想对一个具体的类别进行区分,我们只能使用一个一维的图片来进行判断,一维实际上就是一条直线。如果你用一条直线在二维当中进行区分,无论怎么分,不可能把红点和黑点分开的,永远都会把红点和黑点切在一起,好的保护和坏的保护被你混在一起。

  右边一点球面图非常有意思,我们使用机器学习过程中,在这个支持机过程当中,把二维所有用户行为投影到了三维空间中去,已经是立体的球面,这个球面当中可以通过降维,一个二维的平面对于好用户和坏用户进行区分,红点和黑点被投影到了后面的两个方向,我可以非常清楚的把红点黑点区分开来,实际建模当中,如何区分好和坏的用户在哪怕例如。下面这些更加具体的技术细节,恐怕没有时间继续分享了。对于我们来讲,中国保险市场,中国在今后十年或者十五年当中,最有可能产生利润的一个主战场,对于我们来讲,我们非常有幸能够在这个时间的拐点当中,把机器学习和人工智能的算法,放在这个朝气蓬勃的行业当中来使用,谢谢大家。

责任编辑:张文

  金融业创新层出不穷,行业发展面临挑战与机遇。银行频道官方公众号“金融e观察”(微信号:sinaeguancha),将为您提供客观及时的新闻精粹,分享独家、深度、专业的评论点睛。

金融e观察

热门推荐

APP专享

相关阅读

0