文/新浪财经金融e观察(微信公众号:sinaeguancha)专栏作家 杨凯生
在大数据、互联网时代,更需要注意处理好碎片化信息和完整性数据的关系,处理好结构性数据和非结构性数据的关系,还要处理好客户个性化意识和社会化共同需求的关系等。
本文首发于5月23日出版的《财新周刊》。
一段时间来,互联网金融尤其是P2P网贷等出现了一些问题。之所以发生这些问题,原因是多方面的,除了常说的法规不健全、监管不够有力、行业自律比较薄弱、投资者教育有所缺失等,很重要的一点是源于对互联网、大数据技术的理解和认识存在一定偏差。
人们常说互联网时代要有互联网思维,进而还将互联网思维诠释为共享、普惠、民主、开放、高效、去中心化等。我们也总愿意把有关互联网金融的一些概念,如P2P网贷、众筹特别是比特币、区块链技术等,从哲学、社会学的意义上予以这样的总结和升华。
这些说法当然有一定的道理,但我们似乎没有更多注意到所谓互联网思维应有的另一层含义,那就是互联网、大数据技术的发展和进步,给人类提供的是从更宽视野、更多维度、更全方位来认知问题和分析问题的工具和方法。这既是大数据时代、互联网时代为社会进步和经济发展创造的新条件,同时也是对我们自身提出的更高要求,赋予的更多约束。
也就是说,在大数据、互联网时代,我们更需要注意处理好碎片化信息和完整性数据的关系,处理好结构性数据和非结构性数据的关系;作为企业包括银行还要处理好客户个性化意识和社会化共同需求的关系等等。在这些关系中,忽略了哪一方面都是不行的。
注重方法论
如果我们拥有了互联网、大数据、云计算等一系列技术的进步,但不能帮助我们防止思想上的片面性、避免形而上学,而相反在认识事物上更简单化、判断问题上更绝对化,那不仅可惜了这些时代文明进步的产物,更重要的是还可能由于有了这些方面一定的技术,反而更容易形成各种错判而导致失误。
比如说,因为掌握了一定量的客户信息数据,就以为是掌握了大数据,而忽视了对数据分析工具和方法论的研究,这在金融业务中就很有可能影响对风险的识别、计量和防控,造成风险的积聚和扩散。
这一阶段,一些从事互联网金融业务的公司、尤其是一些P2P网贷公司频频出现了失败,除了一部分是蓄意欺诈行骗,多数正是因为他们并没有真正搞清楚究竟什么是大数据,自己究竟获得的是什么数据,自己究竟有没有掌握好所需要的数据挖掘技术、建模技术和分析评估技术。我们应该认识到,这些问题并非只是技术问题,在相当程度上也是思想方法和认识方法问题。
例如,我们总以为自己拥有了某一方面不小的数据量,似乎就掌握了该领域的大数据。掌握的数据究竟是全量的、还只是可及的?大数据并非一定要求全量数据,关键在于如果是可及数据,那是全部可及的数据还是部分可及的?有无必要、有无能力得到全部可及数据?如果是部分可及数据,那样本范围又是如何确定的,其确定的方式是否科学合理?这些问题都需要扎扎实实下功夫才能解决。
现在可以看到,一些互联网金融公司在宣传中总要加上一句自己是如何运用大数据技术的。其实他们所做的,大多是将自己客户群的一些行为数据保留下来。暂不论这种收集和保留是否经济、合理,但把已得的数据当作全量数据或是不加甄别地以为自己拥有的就是一个有充分代表性的样本,那就一定会得出错误的结论。
巴塞尔Ⅲ要求银行业在观察客户违约概率和违约损失率时,有关数据的积累长度必须达到五年、七年乃至更长时间,而且这中间还要有严格的数据清洗流程,就是为了尽量避免因数据缺陷而导致风险识别和计量上的失误。前期出现的一些互联网金融事件,除有的属于人为恶意欺诈,也与这些公司在思想方法上存在片面性,过分高估自己能力且急功近利有关。他们对自己掌握的所谓大数据究竟能否用于、应该如何用于风险识别和管控,并未经过认真的可行性研究,也没有可靠的经过反复验证的风险计量模型和科学有效的数据分析工具。
防止“过度拟合”
再如,也有人总是以为在一个样本范围内得出了结论,就等同于掌握了对某个问题全部的规律性认识。其实在一个范围内的结论(即便是正确的结论)也不一定能够简单外推,这就是在所谓机器学习中需要格外防止的模型“过度拟合”问题。模型越是复杂、需要纳入的变量越是多,就越容易出现这样的问题。这也正是在金融风险管控中必须注意的“模型风险”问题。
通常来说,在经济生活中,在市场上,不同的企业、不同的客户是存在个性化和差异化的,要对他们各自的违约风险以及违约损失作出判断,仅靠模型的评估结论有时还是不够的,必要时还需要有一定的“专家判断”。这也就是我们一些银行现在采用计算机进行部分贷款审批时,对高分段自动进入,低分段自动拒绝,中间段加以必要的人工干预的原理。现在可以经常看到,一些互联网金融企业宣传自己的所有贷款都可以在网上瞬间完成审批和发放,如真是那样,对其风险把控的有效性是需要认真审视和考量的。
不可轻视小数据
又如,有人以为有了数据,就可以轻视对传统小数据的开发和利用。其实,迄今并无关于大数据统一定义,大数据是相对于小数据而言的。大数据与小数据的主要区别不是数据量的大小(尽管数据量过小无法称之为大数据),大数据的重要特征在于它应该既包括结构性数据,也包括那些在生成时表现为非结构性特征的信息;而小数据主要指二维的结构性数据。大数据有大数据的长处,亦有不足;小数据有小数据的欠缺,但也有不可忽略的优势和必须用它的理由。
比如说,传统的小数据有经典的数理模型,有比较成熟的数据分析统计理论、方法,方法论是已经解决了的,数据挖掘的技术早就成形了。但到今天为止,大数据的管理理论、分析方法都还处在快速发展更迭的阶段,并未十分成形。而且,还有一部分非结构性数据在分析使用时,也需要通过技术手段转换成结构化数据才能实现。
另一点就是必须看到大数据数量越大,噪音相应就越大,甚至往往在数据大幅增加时,噪音的增幅要快于数据量的增幅。因而大数据的挖掘成本是比较高的。再比如,大数据更易反映出一些相关关系,而小数据通过分析比较容易直接得出因果关系。在许多情况下,相关关系不能简单地取代因果关系。
小数据抽取现实世界一些事情最核心的内容,与大数据相比,它具有单位信息容量更大的特点。比如银行的一些业务数据,我们通常可以把它定义为小数据、结构化数据。它直接反映了客户和银行交易活动的最终结果。但是客户之所以进行这个交易的行为路径,特别是他之所以要进行这个交易的决策过程,是传统的结构化数据、小数据所难以反映的;而客户的一些社交行为数据就有可能反映他的决策过程。这就是大数据的一个优势。
尽管银行和客户发生了交易这一事情是最实质的,是银行最需要掌握和记录的,但是如果能了解客户的决策过程,了解他的这个行为路径,这无疑对提升服务水准和防范风险都是有意义的。
因此,大数据和小数据各有特点,各有长处、短处。简单地想以此来取代彼,不是一种科学的看法。只有把小数据分析方法的完备性、准确性和大数据的多维性、即时性融合起来,才能对管理真正带来一种质的改变。应该说,前一阶段一些互联网金融企业出现的问题,就与这方面思想认识上的片面性有关。
总之,在对互联网金融进行集中整治的过程中,除了就事论事,更重要的还需从认识论、方法论的角度来进行总结和提高。数据是一种财富,因为它是人类活动的记录与结晶。但数据多了有时也会带来挑战,记录中可能掺杂噪音,结晶旁也许陷阱纵横。
对于数据信息的不当理解,对于分析方法的盲目应用,以及数据使用者本身的目的、品性如果存在问题,那就有可能使得人们在面对世间万象时,变得比以往缺乏数据信息的年代更加迷惑。
作为互联网时代一个合格的现代人,只有学会客观地看待数据,合理地选择工具,科学地进行分析,才能够从纷繁复杂的社会经济生活中提炼出那些有价值的结论。也只有那样,才能够说我们具有了真正的大数据思维、互联网思维;也只有那样,互联网金融才能够走出一条更健康、更有序的发展之路。
(本文作者介绍:工商银行原行长、银监会特邀顾问)
责任编辑:邹枫 SF168
欢迎关注官方微信“意见领袖”,阅读更多精彩文章。点击微信界面右上角的+号,选择“添加朋友”,输入意见领袖的微信号“kopleader”即可,也可以扫描下方二维码添加关注。意见领袖将为您提供财经专业领域的专业分析。
闂傚倸鍊搁崐鎼佸磹妞嬪海鐭嗗〒姘e亾妤犵偞鐗犻、鏇㈡晝閳ь剛澹曢崷顓犵=濞达綀鍋傞幋婵冩瀺闁绘ê鍘栫换鍡涙煏閸繂鈧憡绂嶉幆褜娓婚柕鍫濋娴滄繄绱掔拠鑼ⅵ闁靛棔绀侀埢搴ㄥ箻閺夋垟鍋撻柨瀣ㄤ簻闁瑰搫妫楁禍鎯ь渻閵堝懘顎楃紒缁樏~蹇撁洪鍕唶闁瑰吋鐣崹濠氬矗閸曨垱鈷戦柛娑橈攻缁€鍐嫅鏉堚晝纾奸柛灞剧☉缁楁帡鏌嶉挊澶樻█濠殿喒鍋撻梺鎸庣☉鐎氼剙顕i搹顐ょ瘈闁汇垽娼ф禒锕傛煕閵娿儳鍩i柟顔炬焿椤﹀綊鏌熼鍡欑瘈妞ゃ垺鐩幃娆戔偓鐢登归獮宥嗕繆閵堝洤啸闁稿鐩幃妯衡攽鐎n偄鈧埖銇勮箛鎾跺闁绘挻鐟ч埀顒傛嚀鐎氼喗鏅跺Δ鍛惞闁搞儮鏂侀崑鎾斥枔閸喗鐏嶉梺鐟版啞婵炲﹪鐛崘顔碱潊闁靛牆鎳庣粣娑欑節閻㈤潧孝闁哥喐婢樺嵄闁哄洢鍨洪埛鎺懨归敐鍫燁棄闁告氨鎳撻埞鎴︻敊閻愵剚姣堥悗瑙勬礃缁诲牆顕i幘顔藉亹闁汇垺顔栧Σ绋库攽閻樺灚鏆╁┑顔芥綑鐓ら柕蹇嬪€曢悞鍨亜閹哄棗浜鹃梺绋匡工濞尖€崇暦濞差亜鐒洪柛鎰电厛閸ゃ倝姊洪崨濠庢畼闁稿鍋熼幏褰掓晸閻樺磭鍘撻悷婊勭矒瀹曟粓濡歌缁€濠囨煕閳╁啞缂氭い鈺佸级缁绘繃绻濋崒婊冾暫缂備讲鍋撻柛灞惧焹閺€浠嬫煟濡绲绘い蹇e亞閻ヮ亪宕滆鐢爼妫佹径鎰叆婵犻潧妫Σ瑙勭箾閹冲嘲鍟犻弨浠嬫⒔閸パ€鏋嶉柨婵嗘处椤洟鏌熼悜姗嗘當闁活厽顨嗘穱濠囶敍濮橆厽鍎撶紓浣风贰閸o綁骞冨Δ鍐╁枂闁告洦鍓涢敍姗€姊洪崨濠冪叆闁活厺绶氶幃姗€骞掑Δ浣叉嫼闂佺ǹ绻楅崑鎰板Χ閹绢喗鐓涢柛娑卞枤閻帗顨ラ悙鍙夘棦闁轰焦鍔欏畷銊╁磼濞戞瑯妫冮梺璇″枓閺呯姴螞閸愩劉妲堟俊銈呭暞瀹曠喖姊婚崒娆愮グ妞ゆ泦鍛床闁瑰濮靛畷鏌ユ煕椤愮姴鍔ょ€规挷绀侀…鍧楁嚋闂堟稑顫嶉梺鍝勬噺閹倿寮婚敐鍛傜喖宕崟顒佺槪闂備礁鎲¢幖鈺呭矗閸愵煈娼栭柧蹇曟嚀鐎垫煡鏌¢崶鈺佷粶闁冲嘲顦埞鎴︽倷閹绘帞楠囩紓浣筋嚙鐎氼噣宕氶幒妤€閱囬柍鍨涙櫅娴滈箖鏌ㄥ┑鍡涱€楅柡瀣枛閺屾稓鈧絽澧庣粔顕€鏌$仦鍓ф创濠碉紕鍏橀獮瀣攽閸パ勵仩闂備焦鍓氭禍鐐哄极鐠囧樊娼栭柧蹇撴贡绾惧吋淇婇姘辨癁婵☆偁鍔戝铏圭矙閹稿孩宕抽梺杞版祰椤曆囶敋閿濆鏁冮柕蹇婃櫅閹垿姊洪崨濠佺繁闁搞劌宕埢鎾诲即閵忊檧鎷洪梺鍛婄☉閿曘倖鎱ㄩ崼銉︾厱閹肩补鈧櫕姣愰梺宕囩帛閹瑰洤顕f繝姘ㄩ柨鏃囶潐鐎氬ジ姊绘担鍛婂暈缂佸鍨块弫鍐Ψ瑜忛惌鍡涙煃瑜滈崜鐔奉潖濞差亝顥堟繛鎴炵懃椤︹晝鈧厜鍋撻柨婵嗙墛绾爼鏌涢幒鎾虫诞妞ゃ垺锕㈡慨鈧柣妯碱暜缁卞弶绻濋悽闈涒枅婵炰匠鍛亾濮橀棿绨婚弫鍫熶繆閵堝懏鍣洪柍閿嬪灴閺岋綁鎮㈢粙娆炬婵炲濮伴崹浠嬪箖濡も偓椤繈鎮℃惔銏壕濠电姰鍨奸~澶娒洪悢鐓庢瀬闁瑰墽绮弲鎼佹煥閻曞倹瀚�闂傚倸鍊搁崐鎼佸磹閻戣姤鍤勯柛鎾茬閸ㄦ繃銇勯弽顐粶缂佲偓婢跺绻嗛柕鍫濇噺閸e湱绱掗悩闈涒枅闁哄瞼鍠栭獮鎴﹀箛闂堟稒顔勯梻浣告啞娣囨椽锝炴径鎰﹂柛鏇ㄥ灠缁秹鏌涢妷顔句虎闁规崘绉悷鎵虫敠闁割煈鍠掗崑鎾诲冀椤愶絽搴婂┑鐐村灟閸ㄥ湱绮婚敐澶嬬厽闊洦姊归妵鐔访瑰⿰鍕煉妞ゃ垺宀搁弫鎰緞婵犲嫷鍞撮梻浣稿悑娴滀粙宕曟潏銊ь浄妞ゆ牜鍋為埛鎴︽煙閼测晛浠滈柛鏂诲€濋弻娑滅疀閺傚棭浜垾鏍ㄧ節閸ヨ埖鏅梺閫炲苯澧寸€殿喛顕ч埥澶娾枎閹邦剙濡虫俊鐐€栭悧妤冪矙閹达富鏁傞柨鐕傛嫹