文/新浪财经金融e观察(微信公众号:sinaeguancha)专栏作家 杨凯生
在大数据、互联网时代,更需要注意处理好碎片化信息和完整性数据的关系,处理好结构性数据和非结构性数据的关系,还要处理好客户个性化意识和社会化共同需求的关系等。
本文首发于5月23日出版的《财新周刊》。
一段时间来,互联网金融尤其是P2P网贷等出现了一些问题。之所以发生这些问题,原因是多方面的,除了常说的法规不健全、监管不够有力、行业自律比较薄弱、投资者教育有所缺失等,很重要的一点是源于对互联网、大数据技术的理解和认识存在一定偏差。
人们常说互联网时代要有互联网思维,进而还将互联网思维诠释为共享、普惠、民主、开放、高效、去中心化等。我们也总愿意把有关互联网金融的一些概念,如P2P网贷、众筹特别是比特币、区块链技术等,从哲学、社会学的意义上予以这样的总结和升华。
这些说法当然有一定的道理,但我们似乎没有更多注意到所谓互联网思维应有的另一层含义,那就是互联网、大数据技术的发展和进步,给人类提供的是从更宽视野、更多维度、更全方位来认知问题和分析问题的工具和方法。这既是大数据时代、互联网时代为社会进步和经济发展创造的新条件,同时也是对我们自身提出的更高要求,赋予的更多约束。
也就是说,在大数据、互联网时代,我们更需要注意处理好碎片化信息和完整性数据的关系,处理好结构性数据和非结构性数据的关系;作为企业包括银行还要处理好客户个性化意识和社会化共同需求的关系等等。在这些关系中,忽略了哪一方面都是不行的。
注重方法论
如果我们拥有了互联网、大数据、云计算等一系列技术的进步,但不能帮助我们防止思想上的片面性、避免形而上学,而相反在认识事物上更简单化、判断问题上更绝对化,那不仅可惜了这些时代文明进步的产物,更重要的是还可能由于有了这些方面一定的技术,反而更容易形成各种错判而导致失误。
比如说,因为掌握了一定量的客户信息数据,就以为是掌握了大数据,而忽视了对数据分析工具和方法论的研究,这在金融业务中就很有可能影响对风险的识别、计量和防控,造成风险的积聚和扩散。
这一阶段,一些从事互联网金融业务的公司、尤其是一些P2P网贷公司频频出现了失败,除了一部分是蓄意欺诈行骗,多数正是因为他们并没有真正搞清楚究竟什么是大数据,自己究竟获得的是什么数据,自己究竟有没有掌握好所需要的数据挖掘技术、建模技术和分析评估技术。我们应该认识到,这些问题并非只是技术问题,在相当程度上也是思想方法和认识方法问题。
例如,我们总以为自己拥有了某一方面不小的数据量,似乎就掌握了该领域的大数据。掌握的数据究竟是全量的、还只是可及的?大数据并非一定要求全量数据,关键在于如果是可及数据,那是全部可及的数据还是部分可及的?有无必要、有无能力得到全部可及数据?如果是部分可及数据,那样本范围又是如何确定的,其确定的方式是否科学合理?这些问题都需要扎扎实实下功夫才能解决。
现在可以看到,一些互联网金融公司在宣传中总要加上一句自己是如何运用大数据技术的。其实他们所做的,大多是将自己客户群的一些行为数据保留下来。暂不论这种收集和保留是否经济、合理,但把已得的数据当作全量数据或是不加甄别地以为自己拥有的就是一个有充分代表性的样本,那就一定会得出错误的结论。
巴塞尔Ⅲ要求银行业在观察客户违约概率和违约损失率时,有关数据的积累长度必须达到五年、七年乃至更长时间,而且这中间还要有严格的数据清洗流程,就是为了尽量避免因数据缺陷而导致风险识别和计量上的失误。前期出现的一些互联网金融事件,除有的属于人为恶意欺诈,也与这些公司在思想方法上存在片面性,过分高估自己能力且急功近利有关。他们对自己掌握的所谓大数据究竟能否用于、应该如何用于风险识别和管控,并未经过认真的可行性研究,也没有可靠的经过反复验证的风险计量模型和科学有效的数据分析工具。
防止“过度拟合”
再如,也有人总是以为在一个样本范围内得出了结论,就等同于掌握了对某个问题全部的规律性认识。其实在一个范围内的结论(即便是正确的结论)也不一定能够简单外推,这就是在所谓机器学习中需要格外防止的模型“过度拟合”问题。模型越是复杂、需要纳入的变量越是多,就越容易出现这样的问题。这也正是在金融风险管控中必须注意的“模型风险”问题。
通常来说,在经济生活中,在市场上,不同的企业、不同的客户是存在个性化和差异化的,要对他们各自的违约风险以及违约损失作出判断,仅靠模型的评估结论有时还是不够的,必要时还需要有一定的“专家判断”。这也就是我们一些银行现在采用计算机进行部分贷款审批时,对高分段自动进入,低分段自动拒绝,中间段加以必要的人工干预的原理。现在可以经常看到,一些互联网金融企业宣传自己的所有贷款都可以在网上瞬间完成审批和发放,如真是那样,对其风险把控的有效性是需要认真审视和考量的。
不可轻视小数据
又如,有人以为有了数据,就可以轻视对传统小数据的开发和利用。其实,迄今并无关于大数据统一定义,大数据是相对于小数据而言的。大数据与小数据的主要区别不是数据量的大小(尽管数据量过小无法称之为大数据),大数据的重要特征在于它应该既包括结构性数据,也包括那些在生成时表现为非结构性特征的信息;而小数据主要指二维的结构性数据。大数据有大数据的长处,亦有不足;小数据有小数据的欠缺,但也有不可忽略的优势和必须用它的理由。
比如说,传统的小数据有经典的数理模型,有比较成熟的数据分析统计理论、方法,方法论是已经解决了的,数据挖掘的技术早就成形了。但到今天为止,大数据的管理理论、分析方法都还处在快速发展更迭的阶段,并未十分成形。而且,还有一部分非结构性数据在分析使用时,也需要通过技术手段转换成结构化数据才能实现。
另一点就是必须看到大数据数量越大,噪音相应就越大,甚至往往在数据大幅增加时,噪音的增幅要快于数据量的增幅。因而大数据的挖掘成本是比较高的。再比如,大数据更易反映出一些相关关系,而小数据通过分析比较容易直接得出因果关系。在许多情况下,相关关系不能简单地取代因果关系。
小数据抽取现实世界一些事情最核心的内容,与大数据相比,它具有单位信息容量更大的特点。比如银行的一些业务数据,我们通常可以把它定义为小数据、结构化数据。它直接反映了客户和银行交易活动的最终结果。但是客户之所以进行这个交易的行为路径,特别是他之所以要进行这个交易的决策过程,是传统的结构化数据、小数据所难以反映的;而客户的一些社交行为数据就有可能反映他的决策过程。这就是大数据的一个优势。
尽管银行和客户发生了交易这一事情是最实质的,是银行最需要掌握和记录的,但是如果能了解客户的决策过程,了解他的这个行为路径,这无疑对提升服务水准和防范风险都是有意义的。
因此,大数据和小数据各有特点,各有长处、短处。简单地想以此来取代彼,不是一种科学的看法。只有把小数据分析方法的完备性、准确性和大数据的多维性、即时性融合起来,才能对管理真正带来一种质的改变。应该说,前一阶段一些互联网金融企业出现的问题,就与这方面思想认识上的片面性有关。
总之,在对互联网金融进行集中整治的过程中,除了就事论事,更重要的还需从认识论、方法论的角度来进行总结和提高。数据是一种财富,因为它是人类活动的记录与结晶。但数据多了有时也会带来挑战,记录中可能掺杂噪音,结晶旁也许陷阱纵横。
对于数据信息的不当理解,对于分析方法的盲目应用,以及数据使用者本身的目的、品性如果存在问题,那就有可能使得人们在面对世间万象时,变得比以往缺乏数据信息的年代更加迷惑。
作为互联网时代一个合格的现代人,只有学会客观地看待数据,合理地选择工具,科学地进行分析,才能够从纷繁复杂的社会经济生活中提炼出那些有价值的结论。也只有那样,才能够说我们具有了真正的大数据思维、互联网思维;也只有那样,互联网金融才能够走出一条更健康、更有序的发展之路。
(本文作者介绍:工商银行原行长、银监会特邀顾问)
责任编辑:邹枫 SF168
欢迎关注官方微信“意见领袖”,阅读更多精彩文章。点击微信界面右上角的+号,选择“添加朋友”,输入意见领袖的微信号“kopleader”即可,也可以扫描下方二维码添加关注。意见领袖将为您提供财经专业领域的专业分析。
闂傚倸鍊搁崐宄懊归崶褉鏋栭柡鍥ュ灩缁愭鏌熼悧鍫熺凡闁告垹濮撮埞鎴︽偐鐎圭姴顥濈紓浣哄閸ㄥ爼寮婚敐澶婄闁挎繂鎲涢幘缁樼厸闁告侗鍠楅崐鎰版煛鐏炲墽娲存鐐达耿瀵爼骞嬮鐐寸杺闂傚倷绀佺紞濠囧绩鏉堚晜宕查柛顐犲劤瀹撲線鐓崶銊︻棓婵℃彃缍婇獮鏍偓娑欋缚閳笺儳绱掗鐐毈婵﹦绮幏鍛存嚍閵壯佲偓濠囨⒑閸濄儱校闁告梹鐟ラ锝夊川婵犲嫮鐦堝┑顔斤供閸撴盯顢欓崱娑欌拺缂備焦锚閻忓崬鈹戦鍝勨偓婵嗩嚕閺屻儱绠瑰ù锝呮憸妤犲洭姊虹紒妯哄闁糕晜鐗滃☉鐢稿醇閺囩喎鈧爼鐓崶褜鍎忓┑顔煎€归〃銉╂倷閼碱剛顔掗梺璇″枟缁捇骞婇悙鍝勎ㄩ柨鏃傜摂娴犙呯磽閸屾艾鈧绮堟笟鈧棟閺夊牄鍔庢禒姘舵⒒娴h鍋犻柛濠冪墵閹囨偐閼姐倕绁﹂棅顐㈡处缁嬫帡宕愰懡銈囩<婵炴垶锕╅崕鎰箾閸稑濮傛慨濠勭帛閹峰懘鎳為妷褋鈧﹪姊洪崫銉バi柛鏃€鐟ラ锝夊川婵犲嫮鐦堝┑顔斤供閸撴盯顢欓崱娑欌拺缂備焦锚閻忓崬鈹戦鍝勨偓婵嗩嚕閺屻儱绠瑰ù锝呮贡閸樿棄鈹戦悙鍙夘棞闁兼椿鍨遍弲鍫曞蓟閵夛妇鍘遍梺缁樺姇濡﹪鎮¢崗纰辨闁绘劘灏欑粻濠氭煙椤旂晫鐭掗柟宕囧仱婵$兘鏁傜粵瀣╂埛闂傚倸鍊烽悞锕傛儑瑜版帒绀夐悘鐐跺▏濞戞ǚ鏋庨柟鎯х枃閸╃偞绻濋悽闈浶i柤鐟板⒔缁顢涢悙瀵稿幗闂侀潧鐗嗘鎼佹倶鏉堛劋绻嗘い鎰靛墰缁♀偓濠殿喖锕ㄥ▍锝夊箲閸曨垰惟闁靛濡囬埀顒勭畺濮婃椽宕崟闈涘壈濡炪値鍘鹃崗姗€鎮伴璺ㄧ杸婵炴垶鐟ラ埀顒€顭烽弻銈夊箒閹烘垵濮曞┑鐐叉噷閸ㄤ粙寮婚埄鍐ㄧ窞閻忕偞鍨濆▽顏勵渻閵堝棗鐏﹂柣鐔叉櫊瀹曟椽鍩€椤掍降浜滈柟鐑樺灥閳ь剙鈧喐锛傞梻鍌欐祰濡椼劑鎮為敃鍌涙櫇闁靛繈鍊戦埀顑跨椤粓鍩€椤掍椒绻嗛柟闂寸劍閺呮繈鏌嶈閸撶喖銆侀弮鍫濋唶闁哄洨鍟块幏娲煟閻樺厖鑸柛鏂跨焸瀵悂骞嬮敂鐣屽幐闁诲函缍嗘禍鍫曟偂閸忕⒈娈介柣鎰皺缁犲鏌熼鐣岀煉闁瑰磭鍋ゆ俊鐑芥晜缁涘鎴烽梻鍌氬€风粈渚€骞栭锕€纾归柛顐f礀绾惧綊鏌″搴′簮闁稿鎸搁~婵嬵敆閸屾簽銊╂⒑閸濆嫯顫﹂柛鏃€鍨块獮鍐閵堝懎绐涙繝鐢靛Т鐎氼亞妲愰弴銏♀拻濞达絽鎲$拹锟犳煕韫囨棑鑰块挊鐔兼煙閸撗呭笡闁绘帡绠栭弻鐔虹磼閵忕姵鐏嶉梺缁樻尪閸庣敻寮婚敐澶婃闁圭ǹ楠搁弳鍫ユ⒑鐠囧弶绂嬮柛锝忕秮瀵鎮㈤崜鍙壭ч柟鑲╄ˉ閳ь剙鍟跨粻锝夋⒒娴h姤銆冮柣鎺炵畵楠炴垿宕堕鈧弸渚€鏌熼崜褏甯涢柡鍛倐閺屻劑鎮ら崒娑橆伓闂傚倸鍊搁崐宄懊归崶褉鏋栭柡鍥ュ灩缁愭鏌熼悧鍫熺凡闁告垹濮撮埞鎴︽偐鐎圭姴顥濈紓浣哄閸ㄥ爼寮婚敐澶婄闁挎繂鎲涢幘缁樼厸闁告侗鍠楅崐鎰版煛瀹€瀣瘈鐎规洘甯掕灒閻炴稈鈧厖澹曢梺鍝勭▉閸嬧偓闁稿鎸搁~婵嬵敆閸屾簽銊╂⒑閸濆嫯顫﹂柛鏃€鍨块獮鍐閵堝懎绐涙繝鐢靛Т鐎氼亞妲愰弴銏♀拻濞达絽鎽滅粔鐑樸亜閵夛附宕岀€规洘顨呴~婊堝焵椤掆偓椤曪綁顢曢敃鈧粻濠氭偣閸パ冪骇妞ゃ儲绻堝娲濞戞艾顣哄┑鈽嗗亝椤ㄥ﹪銆侀弮鍫濋唶闁哄洨鍟块幏娲煟閻樺厖鑸柛鏂跨焸瀵悂骞嬮敂鐣屽幐闁诲函缍嗘禍鍫曟偂閸忕⒈娈介柣鎰皺缁犲鏌熼鐣岀煉闁瑰磭鍋ゆ俊鐑芥晜缁涘鎴烽梻鍌氬€峰ù鍥р枖閺囥垹闂柨鏇炲€哥粻顖炴煥閻曞倹瀚�