发展互联网金融须调准大数据认知

2016年05月23日10:27    作者:杨凯生  (0)+1

  文/新浪财经金融e观察(微信公众号:sinaeguancha)专栏作家 杨凯生

  在大数据、互联网时代,更需要注意处理好碎片化信息和完整性数据的关系,处理好结构性数据和非结构性数据的关系,还要处理好客户个性化意识和社会化共同需求的关系等。

  本文首发于5月23日出版的《财新周刊》。

  一段时间来,互联网金融尤其是P2P网贷等出现了一些问题。之所以发生这些问题,原因是多方面的,除了常说的法规不健全、监管不够有力、行业自律比较薄弱、投资者教育有所缺失等,很重要的一点是源于对互联网、大数据技术的理解和认识存在一定偏差。

  人们常说互联网时代要有互联网思维,进而还将互联网思维诠释为共享、普惠、民主、开放、高效、去中心化等。我们也总愿意把有关互联网金融的一些概念,如P2P网贷、众筹特别是比特币、区块链技术等,从哲学、社会学的意义上予以这样的总结和升华。

  这些说法当然有一定的道理,但我们似乎没有更多注意到所谓互联网思维应有的另一层含义,那就是互联网、大数据技术的发展和进步,给人类提供的是从更宽视野、更多维度、更全方位来认知问题和分析问题的工具和方法。这既是大数据时代、互联网时代为社会进步和经济发展创造的新条件,同时也是对我们自身提出的更高要求,赋予的更多约束。

  也就是说,在大数据、互联网时代,我们更需要注意处理好碎片化信息和完整性数据的关系,处理好结构性数据和非结构性数据的关系;作为企业包括银行还要处理好客户个性化意识和社会化共同需求的关系等等。在这些关系中,忽略了哪一方面都是不行的。

   注重方法论

  如果我们拥有了互联网、大数据、云计算等一系列技术的进步,但不能帮助我们防止思想上的片面性、避免形而上学,而相反在认识事物上更简单化、判断问题上更绝对化,那不仅可惜了这些时代文明进步的产物,更重要的是还可能由于有了这些方面一定的技术,反而更容易形成各种错判而导致失误。

  比如说,因为掌握了一定量的客户信息数据,就以为是掌握了大数据,而忽视了对数据分析工具和方法论的研究,这在金融业务中就很有可能影响对风险的识别、计量和防控,造成风险的积聚和扩散。

  这一阶段,一些从事互联网金融业务的公司、尤其是一些P2P网贷公司频频出现了失败,除了一部分是蓄意欺诈行骗,多数正是因为他们并没有真正搞清楚究竟什么是大数据,自己究竟获得的是什么数据,自己究竟有没有掌握好所需要的数据挖掘技术、建模技术和分析评估技术。我们应该认识到,这些问题并非只是技术问题,在相当程度上也是思想方法和认识方法问题。

  例如,我们总以为自己拥有了某一方面不小的数据量,似乎就掌握了该领域的大数据。掌握的数据究竟是全量的、还只是可及的?大数据并非一定要求全量数据,关键在于如果是可及数据,那是全部可及的数据还是部分可及的?有无必要、有无能力得到全部可及数据?如果是部分可及数据,那样本范围又是如何确定的,其确定的方式是否科学合理?这些问题都需要扎扎实实下功夫才能解决。

  现在可以看到,一些互联网金融公司在宣传中总要加上一句自己是如何运用大数据技术的。其实他们所做的,大多是将自己客户群的一些行为数据保留下来。暂不论这种收集和保留是否经济、合理,但把已得的数据当作全量数据或是不加甄别地以为自己拥有的就是一个有充分代表性的样本,那就一定会得出错误的结论。

  巴塞尔Ⅲ要求银行业在观察客户违约概率和违约损失率时,有关数据的积累长度必须达到五年、七年乃至更长时间,而且这中间还要有严格的数据清洗流程,就是为了尽量避免因数据缺陷而导致风险识别和计量上的失误。前期出现的一些互联网金融事件,除有的属于人为恶意欺诈,也与这些公司在思想方法上存在片面性,过分高估自己能力且急功近利有关。他们对自己掌握的所谓大数据究竟能否用于、应该如何用于风险识别和管控,并未经过认真的可行性研究,也没有可靠的经过反复验证的风险计量模型和科学有效的数据分析工具。

   防止“过度拟合”

  再如,也有人总是以为在一个样本范围内得出了结论,就等同于掌握了对某个问题全部的规律性认识。其实在一个范围内的结论(即便是正确的结论)也不一定能够简单外推,这就是在所谓机器学习中需要格外防止的模型“过度拟合”问题。模型越是复杂、需要纳入的变量越是多,就越容易出现这样的问题。这也正是在金融风险管控中必须注意的“模型风险”问题。

  通常来说,在经济生活中,在市场上,不同的企业、不同的客户是存在个性化和差异化的,要对他们各自的违约风险以及违约损失作出判断,仅靠模型的评估结论有时还是不够的,必要时还需要有一定的“专家判断”。这也就是我们一些银行现在采用计算机进行部分贷款审批时,对高分段自动进入,低分段自动拒绝,中间段加以必要的人工干预的原理。现在可以经常看到,一些互联网金融企业宣传自己的所有贷款都可以在网上瞬间完成审批和发放,如真是那样,对其风险把控的有效性是需要认真审视和考量的。

   不可轻视小数据

  又如,有人以为有了数据,就可以轻视对传统小数据的开发和利用。其实,迄今并无关于大数据统一定义,大数据是相对于小数据而言的。大数据与小数据的主要区别不是数据量的大小(尽管数据量过小无法称之为大数据),大数据的重要特征在于它应该既包括结构性数据,也包括那些在生成时表现为非结构性特征的信息;而小数据主要指二维的结构性数据。大数据有大数据的长处,亦有不足;小数据有小数据的欠缺,但也有不可忽略的优势和必须用它的理由。

  比如说,传统的小数据有经典的数理模型,有比较成熟的数据分析统计理论、方法,方法论是已经解决了的,数据挖掘的技术早就成形了。但到今天为止,大数据的管理理论、分析方法都还处在快速发展更迭的阶段,并未十分成形。而且,还有一部分非结构性数据在分析使用时,也需要通过技术手段转换成结构化数据才能实现。

  另一点就是必须看到大数据数量越大,噪音相应就越大,甚至往往在数据大幅增加时,噪音的增幅要快于数据量的增幅。因而大数据的挖掘成本是比较高的。再比如,大数据更易反映出一些相关关系,而小数据通过分析比较容易直接得出因果关系。在许多情况下,相关关系不能简单地取代因果关系。

  小数据抽取现实世界一些事情最核心的内容,与大数据相比,它具有单位信息容量更大的特点。比如银行的一些业务数据,我们通常可以把它定义为小数据、结构化数据。它直接反映了客户和银行交易活动的最终结果。但是客户之所以进行这个交易的行为路径,特别是他之所以要进行这个交易的决策过程,是传统的结构化数据、小数据所难以反映的;而客户的一些社交行为数据就有可能反映他的决策过程。这就是大数据的一个优势。

  尽管银行和客户发生了交易这一事情是最实质的,是银行最需要掌握和记录的,但是如果能了解客户的决策过程,了解他的这个行为路径,这无疑对提升服务水准和防范风险都是有意义的。

  因此,大数据和小数据各有特点,各有长处、短处。简单地想以此来取代彼,不是一种科学的看法。只有把小数据分析方法的完备性、准确性和大数据的多维性、即时性融合起来,才能对管理真正带来一种质的改变。应该说,前一阶段一些互联网金融企业出现的问题,就与这方面思想认识上的片面性有关。

  总之,在对互联网金融进行集中整治的过程中,除了就事论事,更重要的还需从认识论、方法论的角度来进行总结和提高。数据是一种财富,因为它是人类活动的记录与结晶。但数据多了有时也会带来挑战,记录中可能掺杂噪音,结晶旁也许陷阱纵横。

  对于数据信息的不当理解,对于分析方法的盲目应用,以及数据使用者本身的目的、品性如果存在问题,那就有可能使得人们在面对世间万象时,变得比以往缺乏数据信息的年代更加迷惑。

  作为互联网时代一个合格的现代人,只有学会客观地看待数据,合理地选择工具,科学地进行分析,才能够从纷繁复杂的社会经济生活中提炼出那些有价值的结论。也只有那样,才能够说我们具有了真正的大数据思维、互联网思维;也只有那样,互联网金融才能够走出一条更健康、更有序的发展之路。

  (本文作者介绍:工商银行原行长、银监会特邀顾问)

责任编辑:邹枫 SF168

  欢迎关注官方微信“意见领袖”,阅读更多精彩文章。点击微信界面右上角的+号,选择“添加朋友”,输入意见领袖的微信号“kopleader”即可,也可以扫描下方二维码添加关注。意见领袖将为您提供财经专业领域的专业分析。

意见领袖官方微信
分享到:
保存  |  打印  |  关闭
绩效主义让中国企业陷入困境 华人温哥华拆房为何引发抗议 20万新三板投资者必关注:刘士余亲自站台意味着啥? 关于多层次资本市场体系的十点思考 预售制是房地产去库存拦路虎 中投为啥从加拿大撤走千亿投资? 统一金融监管体系不会一蹴而就 新三板动真格了:国资投券商被祭旗 刘士余磨刀霍霍向豺狼 2016年换美元小心踏错节奏 A股市场的不振是不正常的