2015年06月30日 18:22 新浪财经 微博
图为拍拍贷联合创始人胡宏辉(图片来源:新浪财经 杜琰摄) 图为拍拍贷联合创始人胡宏辉(图片来源:新浪财经 杜琰摄)

  新浪财经讯 6月30日消息,由新金融联盟主办、上海交通大学上海高级金融学院联合主办的“2015新金融联盟峰会”今日在北京举办。拍拍贷联合创始人胡宏辉在峰会上表示,大数据是个概念,是不是大数据越多越好,通过实践也并不必然是这样,其实数据非常非常多,最后导致的结果,当中的噪音也非常多,会给你带来很多误导的信息。

  以下为嘉宾发言实录:

  胡宏辉:非常含写大家来听拍拍贷在信用大数据方面的实践,刚才陈总和雷总主要着力技术层面。我们拍拍贷更关注大数据在我们实际应用当中来使用,所以,今天我们主要想跟大家分享拍拍贷在实践、P2P信贷发展当中怎么收集和使用这些所谓的大数据。

  拍拍贷的服务人群是非常重要的,针对不同人群会产生不同的数据,这些数据反过来再来影响最后这个决策或建这个模型也是非常非常重要的。FICO在美国旧非常有用,针对美国的人群。美国人在中国在文化理念和经济基础、学历各方面其实有非常大的差别,这时候拍拍贷在做的过程当中,我们最早参考Lending Club等模式,后来发现拿国外的数据和模型很难应用到自己身上,拍拍贷做了八年时间,拍拍贷现在不是P2P领域里最大的,但自豪的是我们用8年时间做了600万客户,收集了40亿条数据,这些数据在未来业务历程当中是非常重要的,这600万客户是我们银行覆盖不到的客户,这些客户在传统金融机构里是非常少的,我们用八年时间里来收集这些数据,对我们未来风险模型和建模是非常非常重要的。

  我们做大数据模型时,会考虑到这些不同人群,他们所有数据结构可能不太一样,所以我们会提炼这些数据结构,在这些结构基础上会做自己的模型,未来会和美国FICO这么先进的系统学习,改善我们自己的模型,应用大数据来讲,这是基础的工作。八年时间我们收集这些大数据。

  拍拍贷八年收集的数据,认为哪些数据是比较有用的数据,或者哪些数据我们自己在用的呢?像信用行为和搜索引擎,传统的金融机构来做这样的业务时可能会比较少关注网络的数据,但拍拍贷在做业务时,做的客户相对层次比较低一些,金额不是特别大,所有业务是通过互联网方式来做的,无论是获客和风险管理、放贷,还是贷后管理都是通过互联网来做,所以,放的是互联网上的数据。

  第一,搜索引擎。前段时间听到有个软件,如果我们发现我们客户在股吧里是个非常活跃的客户,这个客户在现在的时间点可能是进入的客户,在搜索引擎发现客户的蛛丝马迹或客户的总计其实这也会被我们收入到数据库当中。社交关系,大家提到很多社交关系,这些社交关系怎么应用它?举两个例子,不完全和大数据有关,前段时间微博特别红时我们做过一个产品“微博达人贷”,当时在微博上经常有发言和互动时非常大的号,很多人过来以后我们通过新浪微博给我们做第三方微博授权,把数据拉过来,我们大量对这些人群数量分析,当然最后放款以后有结果。

  我们发现这些数据有个特点,做了一个总结发现,当一个微博达人粉丝数量超过150个时它的风险逾期概率会显著降低。当初发现这个特别以后,可能也会结合其他因素,微博达人是很好区分好人和坏人的分水岭,这其实也是通过我们对大量微博使用用户数据的积累,通过自己的模型去计算才发信的这一点。接下来看看未来有没有可能在微信上使用相同的场景。

  利用社交关系,我个人认为非常有意思,和大数据不一定很相关,我们以前也做过这个事儿,我们认为信用来自于哪里?信用不是来自于拍胸部说我肯定还钱叫信用,也不是别人担保叫信用。我个人认为信用有时候是社交关系或社会关系的压力带来的信用。我们忆秦做贷款发现有些人不还款,小额的,明明他有还款能力的。后来我们做了一个事儿,给他公司里、单位里寄了一张催款明信片,当明信片从邮递员到他手里已经经过非常多的人,明信片是非常开放的,他的欠款行为就被很多人所知道,所分享。这对他无形当中就涉及到社交压力,他就会还款。我们也设计了网络黑名单这样的方式,是通过一定的社交关系改变一个人的失信行为。

  再举个网络行为的例子,是通过大量数据收集来发掘的,现在在京东上买样东西它会给你推荐很多其他的东西,因为你搜索过目类的,或者判断你是什么样的人,比如以为你是3岁孩子的妈妈所以会推尿布和奶粉等等,这是他做的用户行为分析。我们做信用也进行用户行为分析,比如一个客户银行借钱,这个银行会关注客户是坐车还是打车,还是坐奔驰来的,我们就会非常关注,我们在拍拍贷上每一个借款人过来时,是什么时间点过来的,利用什么样的设备过来的就非常重要,我们发现很多用户是拿iPhone、iPad高端电子设备来上网的,再结合他其他一些金融行为,这样一些客户最终风险是比较低的,借款平均是5000、6000元人民币的水平,他用iPhone来上网,说明他的还款能力和信用是有一定保障的。我们对这些数据的收集最终构建我们自己的风险模型,真正利用好这些数据。   

  第二,魔镜系统。大数据是个概念,是不是大数据越多越好,通过我们的实践也并不必然是这样,其实数据非常非常多,最后导致的结果,当中的噪音也非常多,会给你带来很多误导的信息,我们在那么多数据处理过程中,虽然有41条数据,我们把这些数据进行一层层过滤,从最先建个数据仓库,会把收集到客户所有信息放到数据仓库里,目前来看每个客户有400—2000个数据维度,这些数据太多了,不可能有非常多的能力去计算。假设每个人有2000条,每个人有6万条,非常耗资源,所以我们对这2000条会做筛选过滤,当中风险比较弱的我们会剔除,最后大概构成400个维度的实时数据,这会构成借款人的DNA,我们会关注这些数据,有这400个数据之外再进一步提炼100个。因为这400个数据互相是有关联关系的。比如这些人有身份证的信息,户口信息,可能是有关联关系的,这本身是有相类同的信息,虽然也构成400个人实时监控的东西,有关联关系的我们会进行剔除(数据清洗)。

  有相关100个变量我们就会做数据模型,因为有100个数据处理难度就不是特别大,真正对借款发放决策有帮助的,最后形成对标的进行风险等级判断的因素不会特别多,所以,我们在真正利用大数据过程当中,进行收集、清洗、分析,最后建立一个用户模型,最后我们输出一个东西。我们几乎国内所有客户没有人服务的场景下怎么给这些客户提供金融服务,这是我刚刚分享的,我们拍拍贷在数据实际应用过程当中所做的。

  金融业创新层出不穷,行业发展面临挑战与机遇。银行频道公众号“金融e观察”(微信号:sinaeguancha),将为您提供客观及时的新闻精粹,分享独家、深度、专业的评论点睛。

金融e观察

相关阅读

0