2017年11月02日15:23 新浪财经
图为北京大数据研究院金融大数据研究中心主任王冉冉图为北京大数据研究院金融大数据研究中心主任王冉冉

  新浪财经讯 11月2日消息,“2017税银互动·普惠金融论坛”今日在北京召开。图为北京大数据研究院金融大数据研究中心主任王冉冉在论坛上作主题演讲。

  以下为嘉宾发言实录:

  王冉冉:今天很荣幸来参加这个税银互动的高峰论坛!我今天主要是从技术的家度,包括大数据技术、人工智能的角度,怎么推动从征信、在金融行业的应用。这是我们大数据研究院,在北大的院子里面。首先说一下大数据和人工智能,我们刚刚过去的十九大,习近平总书记在会议报告上明确说,我们要用互联网大数据、人工智能的技术来助力实体经济。我们说到人工智能的时候,往往会提到另外两个概念,就是云计算、大数据,作为人工智能实现的基础设施。所以实现人工智能的时代,其实我们要做的事情,首先是信息化,通过数据的采集、存储,我们有了数据,通过大数据的技术我们来做分析,通过算法使得我们有一个智能的决策体系,来提高我们的工作效率,提高人工。

  这边举一个例子,我们在新的审批场景里面,以往的经验我们会有信审员,经过长时间的经验累积,我们在人脑里面,通过我们经验累积,我们会形成一些归纳总结出来一些规律,什么样的人,他的年龄、工作地址、收入水平,我们判断他的承载能力等等,形成规律。新来的申请人,我们通过思考输出,我们对他未来授信的时候会不会违约,这是我们人脑的工作机制。

  在人工智能的情况,我们把这件事情交给计算机,它通过历史数据的广泛采集和学习,训练的过程就形成了模型,这就是我们经常说的,比如在审批的信用屏风模型,之后来的申请人,我们经过模型预测他未来还款违约的概率,这个其实就是我们在做大数据分析、大数据建模,一直到人工智能我们政治的流程。

  我们要实现人工智能的事情,我们需要做信息化、数据化和智能化。现在很多网络爬虫的技术,可以采集一些信息,再通过分布式存储、云计算的技术,通过机器学算法,我们可以对这些数据进行分析预测。最后基于像现在生物学习的算法和应用落地,使得我们整个人工智能可以和应用进行紧密的结合。

  举一个例子,这是一个人工智能时代非常具有代表性的伟大的企业,就是谷歌的例子,最开始谷歌做的事情是搜索引擎,就是通过网络爬虫的技术来采集全网的数据,通过我们的关键词的查询,我们搜索出对应的网络和新闻的主页是什么。它最开始实现的技术,就是全网数据的时时抓取技术。在这个之上,怎么最快的找出我最想要的文章,或者我最想要的主题,它其实是需要算法的。谷歌做的最创新的事情,其实就是通过基于它的关联算法使得它搜索引擎整个效率和准确性达到非常高的提升。

  在这个之上,我们有数据,同时,全网数据时时的爬取,大量的数据,靠传统的一台电脑是不能存下来的。最开始其实谷歌开发了基于分布式的存储系统,在这个上面形成了像现在我们分布式大数据这样完整的一套生态体系衍生出来的云计算的生态体系。在这个之上,他不只是搜索引擎本身,我们用户到搜索引擎做点击,一些用户行为,我们的搜索行为,我们对于一些物品的关注度,这些数据他们也采集下来,就形成了一个广告推荐,这个就是基于用户搜索点击行为形成的广告推荐,就衍生出了一个新的商业模式以及新的学科,像计算广告学,里面的一些算法、理论,都是来自于这样一个创新性的产业。

  在这个之上有了底层的基础设施,让我们来存储数据,处理数据,有了创新的算法,有了新的商业模式和应用场景,现在像深度学习,以及非常火的阿尔法狗,其实就是基于深度学习、深度增强学习的算法,使我们有了机器可以挑战人、战胜人的一个时代的冲击。这就是云计算大数据,以及人工智能,整个对于我们现在这个时代带来的一些影响。

  在金融行业,大数据分析、人工智能算法,这些对于我们金融的场景有哪些应用呢?我们现在提得比较多的就是大数据征信、信用风险评估,尤其基于消费金融,小微企业金融的发展,这些使用也是越来越多。首先信息化是要解决数据的问题,从数据源上已经和传统的银行授信有了非常大的改变,用户在手机端,在企业我们可以通过一些新的记账平台,或者税务数据,我们更多更海量的数据源,给到我们的风险评估的场景里面。

  接下来我们用大数据的手段,来了解申请人贷前的风险,因为这些数据源,有了海量的数据源,也会带来一些问题,像用户行为端的数据,噪音是非常大的,而且可能会影响一些用户有这方面的数据,但是没有那方面的数据,数据的缺失度也会比较高。这些数据的问题,其实我们需要更好的算法来帮助我们提升算法的准确率,以及整体的运算效率,这也是我们从信息化系统升级,以及大数据的运用,到智能算法的运用,帮助我们整体的生态流程。

  比如说在信用评分的征信场景里面,像人行征信报告,也是我们金融机构依靠非常多的权威的数据源,还有很多外部的数据源,帮助我们可以从侧面了解企业的运营、信用风险等等,再通过算法,我们可以对于整个风险审批的过程进行监测。

  我们主要说一下模型,在建模的过程中间,信用评分模型就是一个预测模型,我们申请人来到金融机构贷款的时候,我需要他各种数据源的采集,预测未来12个月、24个人申请人的违约,这个过程中间,我们对于历史数据的清洗、整合、预处理,来提取风险变量指标,最后通过我们的预测模型,来识别他的违约概率,用这些中间用到一些算法,来提升我们模型的准确率。

  我们和中国人民征信中心进行了一个合作,这是在个人的场景里面,包括很多的小微企业,目前在办卡的时候,其实很多也是通过像个人金融代,调取个人征信报告这样的信用贷款的方式来做。其实征信报告也是非常重要的一个信息来源,征信报告是有我们贷款人之前,他之前的代换信用记录非常重要,在之上,人行征信中心花了很多时间建立了信用报告解读,通过这些方式,辅助金融机构对于个人信用风险进行评估。

  像传统的评分公司用的方式,包括我们跟人行合作的过程中间也法相,这样的评分首先模型相对比较陈旧,沿用上世纪5、60年代的方法。还有一个问题,模型做出来的分数区分相对比较低,这也是因为我们中国金融市场的发展,使得我们每个人之前有的信用历史,要不然就没有信用历史,要不然同质性比较高。我们每个人其实就是一个车贷、一个放贷、几个信用卡,这造成我们模型的区分度比较低,模型也会存在易被解读。

  包括我们在合作中也发现,尤其针对一些中国特色的贷款,比如说像农户贷、个人金融性贷款,这个模型预测的效果相对来说是比较差的。在这个之上,我们通过和征信中心的合作,基于全量的征信报告,我们建立模型,包括使用了很多现在行业比较领先的,基于大数据的创新算法,可以在数据的噪音比较大,缺失率高,同时模型的预测效果上面进行提升。和国际领先的咨询机构的评分,包括在准确率上区分率上,这个模型都可以得到有效的提升,这就验证了像这些领先的算法,可以在我们做信用评分的场景里面,起相当的作用。

  我们和一些互金合作,很多的互金机构他们的数据源更广了,包括互联网端、个人的消费记录、行为标签等等,这个数据来源越广,其实数据质量相对来说越差。我们也是通过建模的方法优化这个模型,和历史数据进行比较的时候可以发现,使坏账坏率降低40%。

  在大数据的场景里面我们有历史数据,有正常还款和违约人群的标签,我们通过历史数据来建立模型。说到智能算法的场景,很多时候我们可能是都不知道,我们可能没有一个好的,或者长时间的历史数据的累积。针对这样的场景我们要做的就是,更需要通过一些分析方法和算法的创新来做这个事情。这是我们和全国股份制商业银行合作的过程中间,基于电子渠道端的异常交易,现在我们很多的商业银行电子业务的占比越来越多,包括人行去年261文下来,也是要求对整个银行的反欺诈形成平台,形成自己的规则和算法。

  在这样的场景下,我们遇到很多的问题,历史数据的累积相对比较少的,我们不太知道在这些样本里面,哪些是真正的欺诈人群,而且数据来源也非常的广泛,包括我们可能在电子渠道端,像IP访问、一些设备的数据,其实都是可以通过我们去分析的,同时这个数据量也是非常大的。一个百万级的用户量,在一年之类交易数据是有上亿的交易数据,这样大量的数据,其实我们也是需要新的数据的存储和处理的基础设施和系统,以及新的算法来处理这样的问题。

  在这个过程中间,我们也是通过多渠道数据源的采集,对数据进行清洗。在这个过程中间,因为并没有历史标签,我们会通过目前我们可以采集的数据来发现异常,通过一些算法发现异常,在有异常之后,我们发现的正常交易和异常交易进行对比,形成规则,完善行业的规则库,形成有效的循环。

  这是我们通过算法自动识别出来的,比如说一个频繁的电子支付转账的用户,出现了IP地址在物理条件不允许的情况下出现这样的一个变化,这些规则把它整合起来,这个其实可以形成很有效的对于异常交易的识别和理解。

  再回到我们企业征信的场景中间,在中国来说,我们很多的专家也提到,中国的小微企业的情况相比个人来说,其实更加的复杂。首先我们在个人渠道,比如企业的主控人、企业法人,很多的个人信息我们可以采集。企业的财务、工商、企业报告、企业的招投标、一些担保的信息,其实都是可以供我们作为一个数据源的参考。但是在这个之上,我们怎么形成有效的模型?

  这边我们也是在和微众税银进行模型的合作,目前我们在判断企业风险的时候用到企业的基础信息、税务征收、申报信息、稽查、信用的相关信息、企业财务信息以及上下游,这也是非常重要的数据来源,可以帮助我们判断企业在供应商的稳定程度,以及销售方的稳定程度,来帮助我们判断。通过6大一级指标,以及上百维度数据的指标,我们来综合判断企业的信用风险、运营风险。

  比如这个注册资本这个图,这边我们可以明确的看出,比如说注册资本越小的企业,出现坏账风险的概率其实越高,包括像我们通过纳税总额的数据,可以看到近期纳税总额越余,经营风险越高。我们通过上下游,像销售方占比,这就是他下游的客户端,我们发现一个有意思的现象,如果他的前几大客户占比越高,其实这个企业出现坏账的风险也是越高的,客户如果集中度非常高的话,客户如果出现问题,这是企业很容易出现联动问题的,这都是我们在数据分析中间发现有意思的现象。我们希望跟更多的税务专家一起来持续的完善。

  包括像企业本身的控制链、投融资的关系、供应链的关系、资金链的关系,其实这些我们都可以把这些数据整合起来,不同的关联关系,对我们企业经营风险、信用风险有一个什么样的传导,这些也是我们正在通过一些数据源的采集和合作,使得我们的模型可以更多元,更全方位的解读这些企业的风险,服务到金融机构。

  最后简单介绍一下我们研究院,我们其实是15年成立的,在北京市政府的支持下,由海淀区政府、中关村管委会海淀去政府、北京大学、北京工业大学四方共同筹建成立的。光在实验室里用公开数据源做出来的算法,在真实的应用场景中的应用其实会出现偏差。我们也是希望通过和业界合作的方式,使得我们的创新科研,可以有更好的产业化的落地。这边是我们的三位院士。

  我们在金融大数据的场景里面,一方面基于信贷数据、金融市场数据以及用户行为数据,都是我们主要分析的方向。我是15年从美国回来,一直跟股份制商业银行、城商行做各种方面基于大数据分析建模的应用。这是对于我们中心的介绍,就是这样,谢谢大家!

责任编辑:杜琰 SF007

热门推荐

相关阅读

0