2015年10月23日 11:04 新浪财经 微博
上图为百融金服CEO张韶峰(图片来源:新浪财经 顾国爱 摄) 上图为百融金服CEO张韶峰(图片来源:新浪财经 顾国爱 摄)

  新浪财经讯“第十二届中国国际金融论坛”于2015年10月22-23日在上海浦东喜来登由由酒店召开。本次论坛主题为:经济新常态时期的金融改革与金融服务。百融金服CEO张韶峰出席并演讲。

  在中国我们所面临的问题,是大部分老百姓没有享受到信贷服务。中国人民银行征信中心可用数据3亿人,占我国14亿人口的百分之二十几,也就是说还有百分之七十几的人没有信用记录。在这种征信体系还不健全不完善的情况下,要实现普惠金融就必须借助大数据的力量。

  以下为演讲实录:

  张韶峰:我给大家分享第一个部分的内容:大数据会在几方面影响金融行业发展。首先,营销在信贷行业、保险行业实际上跟风险相关。普通消费者你只是找到什么人喜欢你的产品,金融有逆选择的问题,不是说你喜欢他,他就喜欢你。最终可以基于风险定价,根据不同的消费者,不同的小微企业设计不同的信贷产品、保险产品,以及理财产品,设计适合的定价。核心就是帮助金融机构解决信息不对称的问题。如果信息本身不对称,那他可能就会亏钱。

  关于大数据,实际上行业里面谈了很多,大数据的核心还是价值要大。金融行业老爱说一句话,我们银行不缺数据,实际上银行只有最终的交易数据,金融只是结果,你为什么要钱,要结婚、买房子、买保险、要出国留学,这些上游数据并不掌握在金融机构手里,所以实际上金融机构应该从别的行业去获取数据。不同行业的数据交叉融合创造的价值比简单行业的叠加要大。单一维度的数据叠加只是加法效益。

  再一个,数据必须要在公司内部,行业之间,甚至跨行业流动起来,这是大数据的两点核心价值。刚才提到过就是大数据的外部性,如果只有你公司内部的数据,就算把内部所有数据都整合了,也称不上大数据。为什么今天阿里巴巴[微博]腾讯他们都可以做金融?因为核心是掌握了金融的上游、消费,或者是生产经营数据。

  第二个,我给大家汇报的是如何利用互联网数据和线下传统的数据进行融合的金融建模,以及有什么样的使用效果。分三个部分:传统金融机构的风险建模思路、线上、线下的大数据建模思路以及实践效果。

  传统金融机构的风险建模思路是什么?全世界,尤其是银行的建模思路基本上起源于65年前,过去你这个人借了什么钱,借了多少钱,有没有逾期;房屋按揭贷款的记录有没有还钱,什么时候还;你的杠杆,花费,每个月花1万,其中8千是借来的,杠杆非常高。然后是坏账,彻底没还钱。利用这些数据来做建模,预判你下次借的钱会不会归还,归还多少,什么时候归还。这个方法的前提是什么?假设我是银行的话,那么就需要取得你在金融机构的信用记录,以前是否有过借贷行为,是否按时还款,有借有还,再借不难,通过这些数据预测你下次借钱难不难还。

  问题来了,假设没有在银行借过钱怎么办?原始的数据都没有,也就是说巧妇难为无米之炊,就是这个道理。如果我们要建立一个函数,这个函数就是Y(还款违约概率) = F(X1, X2,…,Xn),F是所谓的模型。传统金融机构建模的基数无论是Y,还是X,金融机构内部的事情都可以采集到。每个X和Y的相关性比较强,个数比较少,一般10到15个左右的强变量,很少有超过20个。

  在中国我们面临的问题,甚至我认为很多发展中国家都有这个问题,那就是大部分老百姓没有享受过信贷服务。中国人民银行征信中心一共吸收了中国大概3亿人的信用记录,99%的数据来自于银行。一个是信用卡,一个是房贷,还有少部分其他的。其他还有5万人是刚刚办房贷、信用卡,你还看不出到底是好,还是坏。真正可用数据也就2.5亿人,占14亿人口的百分之二十几,也就是说还有百分之七十几的人没有信用记录。

  这是咱们普惠金融的目的,要去普惠这些人,但也是它的难点,为什么呢?没有数据啊,没有数据就没办法评判风险,这是今天制约中国普惠金融发展的非常大的问题。

  下面讲讲怎么去缓解这个问题,线上线下融合的大数据风险建模思路。X是不够用的,只有3亿人有那个模型中的X,还有剩下80%没有那个X,怎么办?有信用记录的人意味着有信贷行为,信贷行为是个低频行为,所有的金融行为除了支付都是低频的。但是生活、阅读、社交是高频的,每天都在发生。如果把思路从一定要从金融数据、信用数据来做金融建模,拓展成是不是可以用生活数据,衣食住行、社交、阅读、旅游这种类型的X弱变量来预测Y,可不可以?这样就可以覆盖大部分没有被狭义征信报告所覆盖的人群。

  我们大概会用50万个这样的弱数量,这些数据有什么好处呢?都包含什么呢?美国有个例子,是ZestFinance两个创始人做的。很多数据都可以服务于信贷,比如很多数据都可以服务于信贷,一个人的网页浏览历史、手机付费记录、超市购物清单都可成为重要的参考依据,甚至在用户填写信贷申请表时是使用大写字母还是小写字母,也可以成为数据变量。这可以反映出申请者的教育程度、申请贷款的谨慎程度和还款诚意等。。

  再就是互联网数据,尤其是社交关系数据。还有与第三方公司合作得来的数据。指它跟一些很窄的数据源合作,这些数据源很有效,只是覆盖的人群比较少,用这些数据来做建模。方法就是原始变量第一行,第二行是做衍生变量,第三行是合成变量,三个变量合成一个。每个模型给你一个评分,然后再把若干模型拿来做加权平均。认为每个模型都有自己的优点和缺点。然后把模型集成起来,方法效果提升比如说20、30%。我们觉得猜谁违约了,谁不违约,大约挑了70%,说这些人还OK,还有30%觉得不是很好。开卷对答案,最后的结果是什么,我们挑出的70%人,他们的违约率是我们剩下的30%,一半左右这些人都是以前很难解决的问题,比较下层的人群,或者是年龄比较小的,有线上放贷和线下放贷的。

  他们在线上的不良率6%,线下4%。我们挑的人群不管是线上,还是线下,都是2%。所以我们说线下降到1/2,线上有它的好处,线上可以减少很多道德风险。所以各有各的好处。风险的话线上比线下要好。

  第三,还有只在手机上放的东西,大概占1/3左右。

  刚才讲了一些数据,接下来分享一下具体的大数据风控核心思路。首先讲一下欺诈风险,指你面临的申请者,他来申请的时候一开始就是恶意的,是来骗你的钱。信用风险是指申请者刚刚申请的时候,没有想过不还你的钱,只是最后没钱。一般大部分骗子不会用真实的信息,很可能不是他本人。我们也发现这样的真实欺诈行为,就骗一次。觉得我不还钱你也找不到我,这叫道德发生了问题。

  还有要看履约能力,还款意愿,还有是不是在多家金融机构同时欠钱。然后营销的时候怎么样去找到那些好人,坏人最好是连广告都不要看见。当好人看到你的广告之后,如何进行反欺诈识别就很关键。是不是他已经在别的金融机构失联了,跑路了,而你这里还没有信息。如果是真实的人,怎么找到他,这是行业老大难的问题。在不良资产这个问题上,找不到人是关键。

  如何进行欺诈风险防范呢?首先就是核实身份的准确性。传统的身份识别包含身份证号、军人证等等。姓名和身份证号对不对得上,如果对不上,基本上认为是骗子。这里有两种情况,一种是比较傻,再一个比较懒,随便性,但还真的有,申请表上的姓名和身份证号一查不是同个人。

  大部分都能对得上是同一个人。但光查这个还没有用,还得查手机号、QQ号、微博号,跟他是否可以对得上。如果姓名、身份对得上,留的手机号不是他本人的,家庭地址不是他本人的,那就很有可能是欺诈。他没想过还钱啊,干吗要留自己的真实手机号。借完钱就扔,找不到他。所以广义的身份识别,是把今天互联网时代,很多不同的ID合在一块校验看是不是同个人。

  红色的是手机,紫色的是电子邮件地址,绿色的是身份证号。可能在网上申请的时候同一个手机填过四个不同的身份证号,这一般不是正常的人。他的归属是乱码,但是反过来一个身份证填四个手机号也是有问题的。我们用复杂的网络来解决身份核实的老大难问题。

  贷款申请次数与欺诈风险也有关系。这是我们的世界地图,发现同样一个身份的,在90天之内申请过贷款只要达到5次,他的欺诈率是别的人群的3.2倍。他可能换不同的手机号,不同的身份证号,不同的地址,实际上是一个人,或者是实际上是一伙人,有中介,就是一个团伙。

  再看一下地址距离与欺诈风险的关系。申请家庭地址与百融库匹配上地址的最近距离大于5公里,欺诈客户数是距离小于5公里欺诈客户数的3.4倍。

  再看信用风险防范。信用风险很复杂,有很多很多的方面,刚才说有很多很多的弱变量组合在一起。例如看到有的借款人经常在网上购买游戏币,金融机构借钱给你,希望你提高生产力,但你没有,纯粹地消耗。一定程度上说明借款人还款能力有限。还有网上喜欢看艺术类、财经类的媒体的借款人他们的不良率低一些。可能是因为他们受教育的程度比较高,随之而来他们的收入可能也高一些。一般来讲还款意愿至少是比较强的。

  此外,一年做过一次商务舱,或者不是商务舱,但是飞行次数不少于4次的人,我们认为他的还款意愿、能力都比较强。但是这里要刨除一种特殊情况,欺诈的也有可能很有钱,还款能力没有问题。所以我们要把欺诈排除在外,排除信用风险的问题。

  这是一个银行的信用风险评估模型。KS值模型。这个值越大越好,一般来说希望大于0.3,而我们做到了0.49。(注:KS值被用来评判模型区分好坏客户的能力,是银行界统一使用的标准。KS值越大模型越好)

  这是百融评分模型的参考因素。首先是关键信息匹配数据,手机号、关键地址这些对防欺诈非常重要。

  其次是稳定性数据。是不是稳定,是不是老换手机号,这样的人说不清楚是欺诈,还是信用。有时候是信用,没钱还了,很不稳定。

  第三大类,商品消费偏好数据,一个月花多少钱,买什么东西,有没有钱,长期负债消费的人还是少的。第四是媒体阅读偏好数据,看什么书、杂志也很重要。第五是资产数据,有没有车子、房子、挣多少钱。第六是申请信息核查数据,点线代表违约率。此外还有其他类的数据,第一大是交易类的,刚才说喜欢玩游戏、看动漫的,如果在3、4线城市生活的信用分值比较低的。为什么在线上买食品的人比较靠谱,因为他们都是有家庭的人。农民工很少买一桶油。一般不会恶意地骗你的贷款。

  下面就是希望那些稍微小一点的金融机构能够以比较简便的方法来看我们前面讲的东西,因为什么原因拒绝,还有欺诈和信用的问题。再一个是关于信息的保留很重要的。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

  《财经会议》报道你看不见的会场实况,传播会议精华内容,会议直播提前预告,不定期送出免费超值会议门票。官方微博:财经会议,微信号:caijinghy。扫码更方便。

财经会议

相关阅读

0