珠海律师、珠海法律咨询、珠海律师事务所、京师律所、京师珠海

首页 > 动态要闻 > 律所新闻

专业文章丨从数据合规角度论爬虫技术应用合规边界 更新日期： 2023-05-08 浏览：312

本文作者：郭贺依律师

前言:

大数据时代背景下，数据作为新的生产要素逐渐成为企业核心竞争力的重要组成部分。企业想要持续发展壮大，往往需要不断采集数据资源，其中，网络爬虫是企业采集数据的常用技术手段之一。通过爬虫技术，可以实现对文本、图片、音频、视频等互联网信息的海量抓取。然而，爬虫这种中立、合法的技术本不具备违法性，但当其被非正当、恶意使用时，就会对网络数据的安全造成影响，从侵犯知识产权、侵犯公民个人信息，到构成不正当竞争，破坏计算机信息系统，乃至触犯刑法引发犯罪。因此，爬虫等网络技术若想在保持技术中立的前提下持续良好发展，促进数据互通互融，必然需要有效的数据合规引导，来明确使用边界，建立健全可行性方案。

本期目录：

一、爬虫的概念及技术特征

二、爬虫的技术中立性与合规边界

三、爬虫技术使用的合规风险

四、爬虫技术使用的合规性审查判断

五、爬虫技术使用的合规整改建议

一、爬虫的概念及技术特征

爬虫是一种自动化浏览网络、采集信息的程序，也被称为网络蜘蛛（Web Spider）。其按照编写的规则，通过模拟人类上网的点击行为来自动地抓取互联网数据和信息，从而自动、高效地读取或收集互联网数据。换言之，我们可以把爬虫想象为一个小型“机器人”，它可以把人的行为自动化，例如笔者一分钟只能浏览1个网页且无法全部记住，但爬虫可以自动化做到一分钟浏览100个网页并将其了解到的内容通过抓取的方式下载到本地形成数据备份。

该项技术最早常用于搜索引擎的数据抓取，而随着互联网时代爆炸式的发展，网络爬虫的应用场景和范围也不断扩大，爬虫技术亦不断更新迭代，从我们日常浏览的新闻平台，到网页、APP平台中数据、价格、产品评价都离不开网络爬虫对数据的抓取。

根据使用方式分类，爬虫可分为三类：一是通用爬虫，搜索引擎抓取整张页面里面的所有内容；二是聚焦爬虫，建立在通用爬虫的基础之上，抓取的是页面中特定的局部内容；三是增量式爬虫，检测网站中数据更新的情况，只会抓取网站中更新出来的数据。

根据使用场景分类，爬虫常被应用于：一是爬取电商网站里面的商品评价数据，按正面负面关键词做分析，整理出商品市场研究报告，卖给品牌方赚钱；二是爬取网文网站的数据，然后发布到自己的APP里面，吸引流量，并通过广告变现；三是爬取裁判文书网的文书，通过人工智能语意学习构建一个能够更好识别自然语言的判例索引产品，上线并收费。

由上所述，也许初步认识爬虫技术的读者会问，其与黑客技术或计算机病毒有何本质区别呢？业内一般观点认为，爬虫技术按照制定的规则，将前端网页的互联网信息通过解析、提取、下载到本地的方式进行抓取，不会获取到网站的后台权限。而黑客技术或计算机病毒具有传染性、潜伏性，能够侵入计算机内存，破坏计算机信息系统，盗取计算机数据。这是两者之间技术特征的根本性差异。

二、爬虫的技术中立性与合规边界

以最高人民法院对大连倍通数据平台管理中心与崔某吉侵害爬虫技术秘密纠纷案（案号:[2021]最高法知民终1687号）做出终审判决为例，法院支持了爬虫技术信息可以纳入商业秘密保护客体范畴，并表明即使爬虫技术曾被用于违法活动，但并不等于该项技术本身具有违法性。这一主张实质上肯定了爬虫技术具有技术中性与适用中性的特征。

实际上，爬虫技术中立说已在业内形成通识。爬虫作为一种搜集数据的手段，其本身并没有合法与非法之分。但若对互联网上众多的数据不加以限定地随意爬取，势必会对互联网生态造成影响。

当然，爬虫技术发展多年，业内并非毫无任何“反爬措施”，例如我们日常常见的各种APP登陆时，除用户名、密码外，还要同时输入各类验证码，此等设置便为爬虫这个“小机器人”限制了访问权限，提升了访问难度，进而保护了数据不被随意抓取。

除此之外，还有国内外互联网行业通行、公认的技术规范，即Robots协议（也称为爬虫协议、机器人协议,全称为“机器人排除规则”the robots exclusionprotocol)。其核心是指，爬虫通过自动检索网页来获取信息，而网页主可以使用robots.txt文件指导爬虫的访问对象。这个文件告诉来访的搜索引擎哪些房间可以进入和参观，哪些房间可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt并非官方文件，也不是命令或防火墙，无法阻止窃贼等恶意闯入者，它更像是一个没有强制性的单方声明，无法保证所有的爬虫都遵守此协议，只是大多数程序员为万维网提供的一个保护服务器免受骚扰性访问的通行做法。换言之，Robots协议这一君子协议，能防君子却难防小人。

那么，基于数字经济目前的发展现状，我们对爬虫技术所有依赖，又无法准确掌握使用爬虫的合规法律风险。因此，到底该如何把握使用的界限与分寸，是我们本篇文章要讨论的重点。

三、爬虫技术使用的合规风险

1、侵犯个人和平台的权利

1）爬取个人信息

在使用爬虫爬取个人信息的业务场景中，整体会按照被爬取对象分类。若被爬者为不特定人群，其对于被爬往往并无感知，更不会主动授权；若爬取范围限定为自营网页或App，一般会通过签订《用户协议》或《隐私协议》的方式取得事先授权。

同时，目前市面上的多款日常生活中常用的APP均存在超协议授权范围采集数据的现象，有专家发现许多APP及其SDK（Software DevelopmentKit）都申请了大量与其功能毫不相关的权限，比如只需要5个权限，但申请量可能高达55个，这种过度收集往往会导致爬虫内容的不法性侵害。

因此，在利用爬虫技术未经他人同意，爬取他人个人信息的，面临如下法律风险及责任：

1、民事责任：处理个人信息侵害个人信息权益造成损害，个人信息处理者不能证明自己没有过错的，应当承担损害赔偿等侵权责任。[详见《网络安全法》第41、44条，《个人信息保护法》第69条]

2、刑事责任：以江苏省(2019)苏08刑终216号案为例，犯罪分子研发并运营具有付费查询公民个人借贷信息、身份证照片信息等功能的“黑爬虫”网站，谋取非法利益，最终被追究刑事责任。

[侵犯公民个人信息罪，详见《刑法》第253条]

2）爬取著作权作品

著作权作品相较于个人信息更具有明确的特征和辨识度，在爬虫软件侵犯著作权的案件中，行为人往往不会因为识别不清而误触法律底线，换言之，行为人的主观方面往往为明知的故意。实践中，大量盗版网站的素材来自网络爬虫所爬取的正版网站资源，此类侵权案件屡见不鲜。

以（2022）赣0825刑初2号肖某侵犯著作权案为例，2019年肖某成立公司开发“悦读免费小说”手机APP软件并上架，提供网络小说在线阅读服务。后为获取更多利益，肖某租用爬虫软件，从互联网上抓取各个小说网站的网页链接、小说名称、小说作者、小说简介、小说图片等信息，并对其进行分类，存放在腾讯云服务器当中，且不间断更新扒取内容。用户在软件中搜索小说相关文字后，服务器自动将文字从扒取到的小说信息中提取出来，通过转码将第三方网页进行重新排版，再插入广告公司提供的广告供用户阅读。当用户在手机APP软件上点击阅读小说（只有标题和目录）时，爬虫软件从互联网上抓取用户需要的小说内容，发送并缓存在上述服务器中供用户免费阅读，肖某以此获利。最终，法院认定肖某构成侵犯著作权罪，判处有期徒刑五年，罚金100万元。

因此，利用爬虫抓取具有版权属性的文字或信息，可能违反著作权法第十条规定的与著作权相关的内容，涉嫌侵犯知识产权。

[详见《刑法》第217条]

2、干扰网站的正常运营

考量爬虫是否干扰了网站的正常运行，主要衡量因素有二：其一，获取数据的方式是通过入侵被爬网站的系统，还是以模拟用户方式访问；其二，爬取数据的行为是否因爬取频次等因素，致使系统负载过高、平台运营成本过高，乃至瘫痪。

在（2021）浙8601民初309号案件中，互联网法院针对使用某些爬虫技术获取数据，详细指出“绕开微信客户端，从而获得了等同于‘登录用户’的权限，同时使用自动化脚本不间断爬取，异化了微信公众号去中心化的产品展示规则，会对微信公众号平台服务器造成远超正常用户访问的负担，已经妨碍、破坏了两原告合法提供的网络产品与服务的正常运行”。

在(2019)粤 0305刑初193号案件中, 被告人开发的爬虫软件在2018年5月2日10时至5月2日12时的两小时内, 以每秒183次的频率访问“深圳市居住证系统”, 导致“深圳市居住证系统”停止运行超过2小时, 该等爬虫使用行为被认定为破坏计算机信息系统罪。

[详见《刑法》第286条]

3、“爬到了不该爬的信息”

1）爬取国家事务信息

笔者将国家事务信息归类于此节并非表明但凡涉及到国家事务类信息都不可以经过授权后合规爬取，仅是基于在实践案例中，此类信息的定义尚无明确法律界定，主要通过信息发布的主体和用途来辨识。公检法机构或事业单位因公发布的信息较有可能属于国家事务信息范围，且真实性和价值均较高，爬虫使用者应注意尽量避免对此类信息的违规爬取和使用。

以四川省德昌县(2018)川3424刑初169号案件为例，被告人李某用爬虫大量爬取全国各地及凉山州公安局交警支队车管所公告的车牌放号信息，之后使用软件，采用多线程提交、批量刷单、验证码自动识别等方式，突破系统安全保护措施，将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统进行对比，并根据反馈情况自动记录未注册车牌号，建立全国未注册车牌号数据库。并编写客户端查询软件，由李某通过QQ、淘宝、微信等方式，以300-3000元每月的价格，分省市贩卖数据库查阅权限。其行为被法院认定为非法侵入计算机信息系统而被追究刑事责任。

[详见《刑法》第285条]

2）爬取其它非公开信息，引发不正当竞争

非公开信息在爬虫软件侵权场景中也并无明确的法律界定，在实践中，一般指爬虫所爬取的信息若采取了一定技术手段保护而无法被直接取得，则爬取的该类信息可能被认为是非公开信息。值得一提的是，我国司法实践中不要求被爬取的信息的保护手段具有较高的水平，可以是robots协议保护、IP限制、访问监控、系统登陆限制或其他反爬取保护技术等。

（2019）京73民终3789号案件系微博诉蚁坊公司不正当竞争案，微博（微梦公司）认为，蚁坊公司爬取了微博用户在登陆情况下才能查看的内容、在点开特定微博后才能查看的评论，以及微博平台前端无法显示的用户已删除或被删除的内容，并将相关内容直接展示在“鹰击系统”中，并形成舆情数据分析报告的，构成不正当竞争。

法院经过审理认为，微博享有基于其收集的数据进行衍生性利用或开发所获的经营利益；蚁坊公司绕开用户登陆技术限制，大范围、即时地爬取微博数据的行为不具有正当性，且对该行为的评价与其使用目的无关；蚁坊公司提供的是商业化舆情监测服务，会直接减弱微博进行商业化利用的交易机会。在此基础上，最终判决蚁坊赔偿微博500万元。

[详见《反不正当竞争法》、《最高人民法院关于适用〈中华人民共和国反不正当竞争法〉若干问题的解释》第2条]

4、爬取行为本身存在的合规风险

如前所述，爬虫技术本身中立，具体是否合规主要衡量要点在于爬取后的使用行为，但实务中，也仍然有以破坏计算机信息系统罪处理的案件。笔者认为，该类案件并非是典型意义上的爬虫侵权案件，而是本身其编写的爬虫软件并未与黑客技术、计算机病毒产生本质区分，同时过度使用，大量挤占计算机资源，造成系统崩溃，从而对计算机系统产生刑法意义上的破坏性。

四、爬虫技术使用的合规性审查判断

1、获取数据的方式

（此部分已在本文3.2章节举例，不再重复说明）

A、爬虫行为的访问模式是否绕过了系统安全设置；

B、爬虫软件的使用是否会对平台服务器运行产生额外负担。

2、获取数据的内容

首先，从获取数据的性质看，爬取非公开信息的，可能构成违法违规。如前所述，非公开信息的具体定义并无法律明确规定。但从司法裁判上，法院很大程度上会参考公众接触数据可能受到的限制这一因素进行判断。

如（2022）京73民终1154号腾讯公司诉淘卓公司不正当竞争一案，腾讯公司发现淘卓公司长期在微信公众号非法分时出租腾讯视频VIP账号，使得用户无需向腾讯公司付费，即可获得腾讯视频VIP会员服务。法院在裁判中，就将数据分为三类。“互联网环境下数据获取（处理）方式有三：一是对公众开放且不需要授权的数据处理；二是需要授权但已获得授权的数据处理；三是需要授权但未获得授权的数据处理（或者超出授权处理权限的处理）。根据上述三种情况，对于公开开放且不需要授权的数据处理，不存在未经授权或超出授权的问题。对于需要授权或访问授权（例如密码验证），则存在未经授权或超越授权的问题。简言之，数据控制者通过代码限制界定其数据可处理区域，设置用户行为规则，他人破坏或者违反代码限制而处理该数据，即构成‘未经授权’。”可见，对于数据公开性的界定，至少部分取决于，数据控制者如何以代码形式设定的边界，从而给予公众多少接触和使用的空间。

其次，从获取的数据价值上看，所获数据是否有独立价值是考察的重要因素。根据司法裁判通说，对于爬虫爬取的数据是否违反不正当竞争法，应当区分数据资源整体和单一数据个体，网络平台方这二者享有的是不同的数据权益：就平台资源整体而言，不可否认平台对数据投入了大量的人力、物力、财力，此类经过长期经营积累汇聚成的数据资源，能够给平台带来商业价值和竞争优势，故平台对于整体数据资源应当享有竞争权益。简言之，衡量平台对于数据资源是否享有独立的权益，必要衡量平台对于数据的投入度。但就单一用户数据而言，即使平台可以对用户发布的公开内容数据进行权益主张，但是也要兼顾考虑产业发展和互联网环境所具有信息共享、互联互通的特点，以及“数据二十条”中的收益分配制度，那么则需要平衡信息获取者、信息使用者和社会公众三方的利益。

3、是否侵犯个人信息权益或知识产权

已在本文3.1章节详述，此处略。

4、是否构成实质性替代

爬取数据之后的使用行为是决定“爬虫”行为合法性的重要考察因素。一般而言，爬取的数据不得用于被爬者相竞争的商业活动。根据《关于适用中华人民共和国反不正当竞争法若干问题的解释（征求意见稿）》第二十六条规定，经营者违背诚实信用原则和商业道德，擅自使用其他经营者征得用户同意、依法收集且具有商业价值的数据，并足以实质性替代其他经营者提供的相关产品或服务，损害公平竞争的市场秩序的，人民法院可以依照反不正当竞争法第十二条第二款第四项予以认定。例如，在淘宝诉美景案中，美景爬取数据用于开展与淘宝生意经类似的业务，就构成不正当竞争。

相反，如果爬取数据不用于类似业务，而是丰富了相关数据领域的生态，构成不正当竞争的可能性就小了许多。比如，前程无忧诉上海逸橙案[(2019)沪73民终263号]中，法院认为：“随着互联网市场竞争的日趋激烈，互联网市场领域的各种产品或者服务关联性和依附性不断加深，依赖甚至介入于其他经营者的产品或服务而开展经营活动本身并不会损害正常的市场秩序，相反以此而否定该行为的正当性，无疑将会挫伤创新动力。同时，被告提供的产品功能，并不违背行业惯例，可以提高工作效率，给市场主体带来便利，被告并未强制、欺骗用户使用产品功能等等，从而综合认定该行为并不具有不正当性。”

综上，为避免爬虫软件使用过程中的违规风险，在使用爬虫软件时，大体可按照下图所示（图源网络）步骤进行合规性审查判断。

五、爬虫技术使用的合规整改建议

1、进行事前综合评估与定期检查

针对爬虫技术获取数据的手段，企业不仅需要事前开展综合评估，还需要定期检查，并组织各业务部门、技术部门等，在外部的专业技术与法律团队的支持下协力完成。评估的内容包括：

拟抓取的数据类型、数量、频次
拟抓取对象网站性质、类型
拟抓取对象网站是否具备Robots协议或反爬措施等

评估应围绕着是否需要采用爬虫技术访问、收集相关数据，采用爬虫技术对拟抓取对象网站的性能、功能带来的可能影响，以及其影响的可能程度进行。

在我们办理的相关项目中，有的企业会在开展业务之前设计“合规替代方案”。例如，将采取爬虫技术获取数据这一项工作“外包”给第三方企业或个人，认为此种方式一般被误认为可有效隔离法律风险。

事实上，基于企业是爬虫技术获取数据的最终使用者，当数据主体或权利人拟维护自身相关权益时，作为最终使用者的企业始终是数据主体或权利人的第一目标，因此，“主体隔离”并不会降低企业可能面临的法律风险。同样地，采集其他国家网站数据也难以通过地域实现“风险隔离”；相反，当相关网站运营者依法维权时，企业还可能面临更加复杂的域外法律程序与更加高昂的诉讼支出。

2、尽量抓取公开数据，遵循网站爬虫协议

司法实践中并非对采用爬虫技术获取数据采取全盘否认的态度，尤其针对公开数据，即便是商业性网站，也并非全然不可为，但应当注意遵循“合法、正当、必要”原则，避免对被抓取网站的正常运行造成干扰。但对于需要利用技术手段突破或绕行反爬虫措施才能获取的非公开数据，则不应抓取。同时应当提前设置抓取内容的限制策略，注意审查抓取内容，避免因抓取著作权法保护的作品、个人信息、商业秘密等而构成违法犯罪。已经抓取的，则应当及时停止抓取行为并进行删除。

3、重点防范抓取商业模式相同或相似主体的主营业务数据，避免不正当竞争

笔者从众多爬虫相关的不正当竞争纠纷案例中分析得出，法院主要从以下几个方面认定采用爬虫技术获取数据的企业构成不正当竞争：

抓取企业与被抓企业之间是否存在竞争关系
被抓企业是否因抓取企业的竞争行为而受到损害[在此项上，法院将着重考虑涉案数据是否为被抓企业享有合法权益的数据（详述参考本文4.2节）]
抓取企业抓取的数据类型、数量、频率和完整度等
是否对被抓企业产生实质性替代进而对被抓企业造成实际损害（违反商业道德、诚实信用原则）
抓取企业采用爬虫技术获取数据的行为与被抓企业遭受的损害存在因果关系

因此，企业应当尽量避免采用爬虫技术获取竞争对手所运营平台网站的主营业务商业数据，降低不正当竞争的风险。

结语：

爬虫技术中立的特性决定了其本身并无违法性，但对于爬虫本身的使用和所爬取数据的使用，则需要从不同角度分析其合法边界及法律责任问题。笔者认为，无论是企业还是其数据合规律师团队，只有深刻了解使用爬虫的合规风险，才能有针对性地进行合规审查，量体裁衣，做出合规整改建议。企业也只有合规使用爬虫技术、合规搜集数据，并将爬取数据聚合为有价值的数据资源，才能充分利用数据价值，实现数据的资产化，为企业发展赋能、增色。

作者介绍

郭贺依

北京市京师律师事务所律师

EXIN-DPO

数据安全师

企业合规师（高级）

中国中小企业协会调解员

上一篇言词证据的有效辩护规则——基于故意伤害（致人重伤）成功辩护

下一篇专业文章丨浅析从监察委调查到检察院审查起诉之间的“真空期”

近期动态板块