泄露个人隐私、窃取商业机密?数据爬取的合理边界在哪

泄露个人隐私、窃取商业机密?数据爬取的合理边界在哪
2019年10月12日 20:21 澎湃新闻

原标题:泄露个人隐私、窃取商业机密?数据爬取的合理边界在哪 来源:澎湃新闻

数据爬取的基本原理是什么?数据爬取是不是都是违法的?大数据环境下,如何对数据爬取进行规范和治理?10月11日,在上海社科院国际创新中心举办的上海“数据治理系列沙龙”第四期——“数据爬取治理”分享会上,多位法律专家和业界人士对这些问题做了深入探讨。

上海“数据治理系列沙龙”第四期——“数据爬取治理”

分享会现场

数据爬取的技术原理

数据爬取,是指利用“爬虫”在互联网上抓取信息的行为或过程。

翼盾(上海)智能科技有限公司CEO朱易翔介绍,数据爬取最初就像是一个搜索探测器,按照指定规则,通过遍历网络内容的方式,搜集、提取所需的网页数据,被技术人员储存或重新加工。发展至今天,数据爬取所获得的信息多种多样,不仅爬取互联网网站上的信息,在不同场景下还爬取公民身份、电信、出行、社交、电商、银行记录等多个维度的数据。

朱易翔提到,从数据来源渠道分,爬虫可分为网页爬虫和接口爬虫。网页爬虫是根据网页上的超链接进行遍历,扒取网页的数据信息,最常用于搜索引擎,这是早期的一类爬虫。在大数据时代,新型的接口爬虫则是通过精准构造特定 API 接口的请求,来获得所需数据信息。目前引起问题的爬虫公司往往是在网站或App上获得用户在注册协议、隐私协议中自觉或无意的授权后,就利用授权信息登录网站或接入API,获取用户个人数据以及网站数据。有些爬虫甚至具备突破网站本身设置的控制能力,获取被保护的数据。这些非完全公开、涉及用户隐私和网站商业信息的数据正是爬虫的危害来源。

他认为,数据爬取需要辩证看待。善意的爬虫是一个对网站和用户双方有利的桥梁。例如搜索引擎爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。 但非法爬虫会威胁到保存在网站服务器上的用户个人和互联网服务提供商数据,从而侵犯用户隐私和服务提供商的商业信息,会带来法律风险。在实际商业世界中,大量的案件都围绕爬虫者侵犯商业数据、形成不当竞争有关。

数据爬取的法律争议

数据爬取作为数据采集的一种高效实现形式,是国内外诸多互联网企业极为通常甚至赖以生存的手段。但是随着围绕数据自动化技术进行爬取和挖掘行为急剧增多,带来了数据权属、知识产权和商业机密保护、个人信息隐私界限、不正当竞争等方面巨大争议。近期,在金融、内容、电商等各类场景的数据爬取案件频发,对互联网和大数据商业业态产生重大影响,引起了产业界、监管者和全社会的广泛关注。

2019年1月中央网信办、工信部、公安部、市场监管总局发布了《关于开展App违法违规收集使用个人信息专项治理的公告》,开展对于个人数据爬取的专项执法活动;5月发布的《数据安全管理办法(征求意见稿)》第十六条中明确规定网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行,此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

上海交通大学数据法律研究中心执行主任、法学院副教授何渊表示,从数据类型来看,数据爬取可能侵犯的法律权益包括“三安全一稳定”、“两秘密一隐私”,例如计算机信息系统安全、公民个人信息、版权、国家秘密、商业秘密、市场竞争秩序等。从爬取方式来看,数据爬取存在非法获取数据的法律风险,例如危害计算机信息系统安全,非法获取公民个人信息,非法获取商业秘密,破坏版权技术保护措施等。从爬取结果来看,存在不正当竞争类、侵犯著作权类及侵犯人格权类等非法利用数据的法律风险。

公安部第三研究所网络安全法律研究中心主任黄道丽认为,数据爬取行为是否涉刑需综合考量爬取的数据类型、爬取方式、爬取结果。数据类型方面,是否属于法律所保护的数据,例如个人信息、著作权数据、商业秘密、国家秘密等。一般情形下,是否获得权利人的合法授权直接影响着针对上述数据爬取行为的法律定性。爬取方式方面,需要看是否侵入了服务器,是否非法获取了数据。爬取结果方面,是否破坏了对方网站、服务器等的正常运营都是影响罪与非罪判定的重要因素。总体而言,法益侵犯越大,风险越高。

黄道丽提到,对于个人信息、商业秘密、著作权数据、国家秘密之外的一般数据的爬取,一般不构成对民事财产权的侵犯,而更多的是面临竞争法上的风险。 相应的,在刑事领域,一般也不构成财产类犯罪,更多的是面临侵犯计算机信息系统安全及数据安全类犯罪的刑事责任风险。

上海市锦天城律师事务所高级合伙人吴卫明表示,需要厘清数据爬取的合理边界。对象合法方面,需要判断爬取的数据类型,避免爬取禁止收集的数据类型,并根据数据类型设置不同的准入门槛。手段合法方面,需要通过公开或合作的渠道,遵守权利声明和公开规则的限制,不使用侵入方面或非法工具等。另外,在数据爬取中还需获得个人信息主体、著作权人、信息系统权利人网站运营者等相应权利人同意。

数据爬取的相关治理

上海市委网信办政策法规处处长孙杰表示,随着我国今年以来数据治理政策密集出台,数据爬取已经成为中央和各地网信监管部门重点关注的领域之一,上海各界积极研究数据爬取治理议题,探索有效的监管模式具有重要意义。上海市经信委软件和信息服务业处刘文认为,当下各类互联网企业都会涉及到不同类型的数据爬取应用,在监管趋严和合规压力背景下,帮助企业规范自身数据爬取业务,提高企业合规能力成为保障上海数字经济产业高质量发展的现实需求。

阿里巴巴法律研究中心副主任顾伟基于企业实操的立场,分析了数据爬取问题的实务困境。他提到,当前半封闭的APP成为趋势,数据爬取绕不过对加密技术的破解,往往存在法律风险。而大数据时代,AI等技术的发展又需要大量数据来支撑。另外,行业内竞争日益加剧,“搭便车”的行为风起,数据方面的竞争损害越发严重。他认为,当前需要以包容审慎的态度看待数据爬取问题,着重通过反不正当竞争法与制作权法解决争议,通过立法规范爬取手段确保利益平衡,进而推动网络平台有序开放数据。网络运营者应当明确主张数据权属、禁止爬虫的协议保障,采取APP接口加密、访问IP限制等技术措施,对明显侵害合法权益的爬取行为进行取证,对明显违法或者侵害公司合法权益的行为进行举报或起诉,并积极寻求商业合作空间。

腾讯网络安全与犯罪研究基地高级研究员张宝峰认为,可以通过采取反爬技术技术措施、设置明确的反爬虫声明和版权信息以及及时监控、积极维权等手段防止恶意爬虫。对于网络爬虫技术的合理应用,他提出,要遵守互联网行业的Robots协议,还应检查目标网站是否设置了IP壁垒、验证机制等反爬虫措施,避免采取规避认证系统、加密算法等手段获取数据,避免主观恶意;区别爬取数据的性质,应当避免爬取未获得授权的个人信息、他人享有版权的内容、企业或机构内部数据、商业秘密等,制定禁止爬取的信息类型清单;限制数据使用目的,个人应严格在授权范围内使用,商业目的使用避免“不劳而获、食人而肥”形式的利用,避免造成对其他商业主体的替代,从而承担不正当竞争的责任;控制爬取频率和数量,避免因爬取频率和数量给目标网站服务器造成较大负担等。

上海数据治理沙龙是在上海市经信委和上海市委网信办指导下,由上海数据治理与安全产业发展专业委员会主办的公益性专业研讨活动,主要针对数据治理与网络安全前沿和热点议题,汇聚研究、用户、厂商、律所咨询机构等各方专业力量展开持续交流,吸纳各方意见和建议向国家和上海相关管理部门建言献策,为推动上海数字经济健康发展贡献专业力量。本期沙龙由上海市锦天城律师事务所和赛博研究院承办,上海社科院互联网研究中心和阿里巴巴数据安全研究中心协办。

个人隐私 爬虫

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 10-16 海尔生物 688139 --
  • 10-16 申联生物 688098 --
  • 10-16 祥鑫科技 002965 --
  • 10-15 贝斯美 300796 --
  • 10-14 渝农商行 601077 7.36
  • 股市直播

    • 图文直播间
    • 视频直播间