祸起爬虫 “数据圈”一夜入冬
本报记者 王仲琦 冯樱子 北京报道
对于第三方数据公司来说,仿佛一夜入冬了。
近期,“数据圈”接连传出重磅消息。先是魔蝎科技、新颜科技被爆遭到调查,然后公信宝运营主体——杭州存信数据科技有限公司也被杭州市公安局西湖分局古荡派出所查封。
而且这可能只是开始,本次监管部门对打击违法获取和使用信息的大数据公司的决心很大。北京一家数据科技公司研发部负责人刘毅(化名)告诉《华夏时报》记者:“公司已经放假了,何时上班‘十一’后等通知。其他一些公司也提前放假了,没放假的也在停工观望,现在监管部门对提供爬虫服务的数据公司整治力度空前的大。”
而对于目前“数据圈”存在的乱象,中信集团原监事长、中信银行原行长朱小黄在“2019中国银行业发展论坛智慧金融(上海)峰会”上指出,好多数据公司都是“爬”下来的数据,当然成本低,数据公司利用了这个成本低的优势,迅速获得收益。这种以侵犯个人、企业数据而形成的商业模式使行业产生了异化。
“没有爬不到的数据”
在近年互联网金融大潮中,大数据服务供应商一直扮演着重要角色。而近期多家公司接连被查,将处于数据风控服务核心的网络爬虫技术推到了风口浪尖。
爬虫作为一种计算机技术,具有技术中立性,爬虫技术在法律上从来没有被禁止。爬虫的发展历史可以追溯到20年前,搜索引擎、聚合导航、数据分析、人工智能等业务,都需要基于爬虫技术。但是爬虫作为获取数据的技术手段之一,由于部分数据存在敏感性,如果不能甄别哪些数据是可以爬取,就会触及监管红线。
“爬虫技术作为第三方大数据风控服务商的主打产品,也是互联网金融公司进行大数据风控必不可少的武器。”刘毅对记者说,“不过,目前网络爬虫存在着是否经过用户授权,是否存在过度爬取信息,爬取到的信息使用等问题。随着同业竞争越来越激烈,一些畸形的爬虫产品也随之出现,涉及数据窃取、泄露、滥用和隐私安全等问题。”
一些大数据风控服务商为了在竞争中取得领先地位,需要更精准地分析用户行为,制作用户画像,为了获取海量的数据支撑,电商数据、通信运营商、出行数据,信用卡、人行征信等信用数据,甚至网银、公积金等金融数据等,都成为爬虫们的目标。
据刘毅介绍, 市场上曾经有一款专门爬取支付宝数据的产品。只需要用支付宝扫描一下登录“二维码”,就可爬取支付宝用户的真实姓名、手机号、收货地址、近一年的购物信息、交易记录等。而一家第三方大数据风控服务商曾在市场上推出的一款“同业爬虫”产品更厉害,只需要用户提供其在其他现金贷平台的账号和密码,就可以爬取用户的所有信息,包括放款额和风控数据。放款机构可以根据这些数据进行评估,实现“秒批”和“秒放”。这个产品相当于直接掠夺同业数据,窃取别人的风控成果。由于过于野蛮粗暴,被业内称为“耍流氓”。
“只要技术好,就没有爬不到的数据。”刘毅总结道。
“一些第三方大数据风控服务商利用爬虫技术违法获取或过度获取用户信息并使用的行为,已经成为阻碍行业健康发展的瓶颈。而个别公司打着金融创新的幌子,就是为了突破监管的要求。无论公司发展的规模多大,违规获取和使用数据的行为都是不可能回避的‘原罪’。”一位不具姓名的金融业人士向本报记者指出。
提高自主风控能力
事实上,对大数据公司获取和使用用户信息的行为并非无法可依。
早在2017年6月1日,《网络安全法》正式施行,比如第四十一条规定,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意;第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。
而在2019年5月28日国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》中也明确出现了对网络爬虫规制的法律条文。其中第十五条规定,网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门备案。备案内容包括收集使用规则,收集使用的目的、规模、方式、范围、类型、期限等,不包括数据内容本身;第二十条表示,网络运营者保存个人信息不应超出收集使用规则中的保存期限,用户注销账号后应当及时删除其个人信息;第二十七条指出,网络运营者向他人提供个人信息前,应当评估可能带来的安全风险,并征得个人信息主体同意。
目前,随着“数据圈”乱象整治的深入,一些公司纷纷对业务进行调整。其中,上海一家信息科技公司干脆发公告给合作商户称,暂停对外提供用户授权的运营商爬虫服务,拥抱监管、加强自律。
公开信息显示,本次被调查的公司大多是国内较早从事大数据智能解决方案的服务商。主要为银行、保险、消费金融公司、贷款机构等提供智能风控、风险分析、信用分析、多头借贷、风控建模等风控技术解决方案,合作机构多达数千家。
上述金融业人士也向本报记者表示,严格监管对于行业的长远发展起到了积极作用。随着强监管信号的不断释放,野蛮生长的大数据收集时代将结束。这对很多风控公司、征信公司以及金融机构都有深远的影响。
那么,对于金融等机构来说,这些民营第三方数据供应商,真的无可替代了吗?其实,早在2014年初,北京中关村就成立了树海大数据交易平台,2015年4月中国第一个大数据交易所在贵阳挂牌运营;同年7月底,武汉东湖大数据交易中心开业。此外,江苏、浙江等省份也筹建了自己的大数据交易中心或交易所。
河南一家城商行的高管告诉本报记者:“这些国家性质的数据交易所或交易平台,受到的国家管控较强,其数据确实非常合规,但由于来源渠道受限,对于金融机构来说在实际应用中效果不大。”
不过,对于金融机构来说,在有限的数据下做好风控是未来必须面对的问题。前述金融业人士认为,事实上,此前一些金融机构的风控工作,主要是靠引入数据供应商,反倒使自身的风控水平出现下滑。另外,数据资源太多也不一定是好事,会导致很多金融机构贷前审核不认真,降低了准入门槛,让很多还款能力弱、还款意愿不强的用户通过了审核,最后金融机构只好通过加大贷后催收力度的办法迫使其还款,这又衍生出暴力催收的问题。
断掉第三方数据供应商违规获取的数据后,金融机构只能扎扎实实地开展贷前审核工作,让真正优秀的、有技术能力的企业凸显出来。
在这次整治数据乱象中,9月17日,第三方智能风控与分析决策服务供应商同盾科技实控人兼CEO 蒋韬在公开信中表示,人工智能及大数据这个行业是个新领域,这个新领域是需要所有从业者一起努力,在竞争的过程中互相学习,共同帮助和配合监管机构,逐步建立起这个行业的最佳实践以及规制。
责任编辑:覃肄灵
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)