近年来,随着数据类违法犯罪的案件量大幅蹿升,“网络爬虫”成为高频词汇,也引发了理论和实践困惑。对网络爬虫的规制路径,司法部门或倾向于就爬虫工具本身设置是非界限,如将robots.txt视为法律界限,或倾向于笼统地以利益衡量原则判断爬虫工具的活动范围,例如学界所提倡的“场景化判断”即主张“根据具体场景中各方的合理预期来确定相关主体的数据权益”。然而,从规范评价的现状来看,“公布的判决书也暴露出其刑民难分的困境”。现有文献对网络爬虫技术多有基础性介绍,其中不乏详细的解剖式说明。技术上,数据爬取行为依赖爬虫机器人的自动化运行,其基本流程为:1)发送HTTP请求;2)解析响应;3)提取链接;4)访问链接;5)存储数据;6)控制爬取速度及范围;7)数据清洗和处理。这7个步骤虽是网络爬虫需要执行的基本步骤,但并不是必需步骤,因为不同爬虫具体的运作方式和目的可能有所不同,例如有些爬虫只需要访问网站上的数据,不需要进行存储和处理,如此则可以省略存储数据、控制爬行速度、数据清洗和处理的步骤,也就不涉及获取型数据侵权或犯罪、虚拟财产侵权或犯罪以及著作权侵权或知识产权犯罪,因为此类侵权或犯罪行为以数据载体或内容信息的获取为前提。此外,有些爬虫可能需要执行其他特定的任务,如自动化测试、数据采集、信息搜索等,因而对前述7个步骤同样可能是跳跃性地实施。因此,在讨论网络爬虫的法律规制问题时,应当避免仅对前述步骤作局部分析。当前网络爬虫的规制缺乏立法规则和理论学说的明确性,难以确定爬虫行为的边界,需要以跨部门法的视野作系统性研讨。
一、网络爬虫边界模糊的规制难题
当前对涉网络爬虫的监管措施尚未从数据载体本身出发,较为迂回,未能为网络爬虫设置行动边界。由于行政监管的缺位,实践中涉网络爬虫的刑事与民事案件的裁判逻辑较为纷乱。
(一)监管缺位加剧网络爬虫边界的模糊性
我国对网络爬虫的监管较为迂回,即间接地保护数据所承载的内容或保护被访问的计算机信息系统,而缺乏对爬虫行为本身的限制措施,从而加剧了网络爬虫边界的模糊性。监管上的间接规制措施主要涉及以下四个方面:
一是个人信息。网络爬虫在抓取网页数据时可能会获取用户的个人信息,需要遵守《中华人民共和国个人信息保护法》等相关法律法规,从而保护用户的个人信息不被滥用和泄露。一些恶意爬虫可能会利用网站漏洞和弱点,获取网站的敏感信息、用户个人隐私等,对网站和用户造成严重损害。恶意爬虫的泛滥常导致个人信息安全被逐渐侵蚀,因为爬虫机器人不仅检索以HTML编写的网页内容,还可以检索文档和图像等文件。此类危害时常见诸报端,例如2023年2月12日晚,在即时通讯软件Telegram上,某机器人爆出超45亿条国内个人信息遭到泄露,包括真实姓名、电话、地址等信息,并公开了免费查询渠道。该机器人管理员提供的截图显示,遭泄露的数据量为4 541 420 022条(45亿),数据库大小为435.35GB,数据总量极为庞大。针对个体的隐私和信息泄露事件也早有发生,例如2012年便有报道称,“国内某公司员工郭某给别人发了封求职的电子邮件,并且该Email存储在某邮件服务公司的服务器上。因为该网站没有设置robots协议,导致该Email被搜索引擎抓取并被网民搜索到,为郭某的工作生活带来极大困扰”。
二是知识产权。网络爬虫在抓取网页数据时也可能涉及著作权、版权、专利等知识产权问题,需要遵守《中华人民共和国著作权法》等相关法律法规。此类问题大多见于利用爬虫实施的网络外挂行为。
三是网络安全。网络爬虫可能会对网站造成流量负荷和安全风险,因此需要遵守《中华人民共和国网络安全法》等相关法律法规。如果大量爬虫同时访问同一个网站,会对网站的带宽和服务器资源造成压力,导致网站响应速度变慢甚至瘫痪。以法律界使用频率极高的“裁判文书网”为例,2020年8月31日,《人民法院报》曾刊文说明:“当前存在部分公司利用相关技术非正常渠道获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,出现访问速度慢或部分页面无法显示等现象……”,此处提及的“相关技术”即网络爬虫。其他如“国家企业信用信息公示系统”等公共服务网站同样常因网络爬虫的滥用而拥挤不堪。又如2018年春运期间,12306(中国铁路网)最高峰时段页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次,其中恶意爬虫访问占据了近90%的流量。爬虫行为对服务器资源的消耗不仅损害了网络服务提供者的商业资源,也给普通用户带来极大的不便,而如果网站提供的是公共服务,还会造成公共服务的瘫痪,扩大间接损失。
四是市场竞争。在商业领域,一些公司可能会利用网络爬虫技术获取竞争对手的商业机密和数据,也可能利用反爬措施限制竞争对手合理获取商业数据。例如,有些网络爬虫可能会擅自获取网站上的数据和信息,从而实施盗用、侵权等行为,此时盗用者通过编写网络爬虫程序,自动化地抓取目标网站的数据。在这个过程中,爬虫程序可以自由地模拟各种操作,如模拟用户访问网站、模拟用户点击链接、模拟用户输入等,从而快速地抓取到目标数据。在抓取到目标数据后,盗用者可以通过各种手段篡改数据或者擅自使用数据。盗用者可以将原本开放的数据改为私有数据,或者将数据用于非法目的,如进行垃圾邮件营销、实施网络诈骗等。近年来,网络爬虫威胁数据安全的案例不胜枚举。例如2021年终审的“北京微梦创科网络技术有限公司与北京字节跳动科技有限公司不正当竞争纠纷案”、2017年终审的“百度在线网络技术(北京)有限公司等与北京奇虎科技有限公司不正当竞争纠纷案”以及刑事案件“上海晟品网络科技有限公司等非法获取计算机信息系统数据案”等,均以获取或限制获取商业数据为目的。
前述四个方面的监管并非直接保护被自动访问的网站正常运行,而是保护被爬取数据所承载的内容法益,且对爬虫工具本身并未设定界限。
美国对网络爬虫的行政监管思路与我国并无大的差别,其监管部门同样是从爬虫工具所引发的内容法益扰动而非工具本身出发对网络爬虫进行规制,且主要涉及两方面内容。一是知识产权保护。美国通过《数字千年版权法》(DMCA)来保护数字版权,该法律规定,未经授权地爬取网站内容、破解加密技术或者规避数字版权保护措施等行为均属于侵权行为,应受到法律追究。二是个人隐私保护。美国通过《计算机欺诈与滥用法案》(CFAA)来规范网络犯罪,该法律规定,未经授权的访问或获取计算机信息、数据或者服务,都可能构成违法行为,而条文中所谓的访问又大多需要用到爬虫工具。在堪称正式法律渊源的监管性规范之外,中美两国都有行业自治性质的软规范,属于广义的监管,例如中国互联网协会于2012年11月1日发布的《互联网搜索引擎服务自律公约》第8条规定,互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争,积极营造鼓励创新、公平公正的良性竞争环境。和中国互联网协会类似,网络爬虫联盟(The Web Crawler’s Consortium)也是非官方组织,由一群网络爬虫程序员自发组成,旨在分享网络爬虫的技术、经验。该组织的目的是推广网络爬虫技术的合理使用,并防止滥用该技术,但其并没有监管权力,只是提供了一些准则和建议,以帮助开发人员遵守行业道德规范。
从当前对网络爬虫的监管模式来看,监管机构大多是从爬取数据的信息内容上对爬虫行为进行间接规制,这一规制模式较为间接和迂回,无法为爬虫行为提供明确的界限,例如,同一数据爬取行为可能既爬取了个人信息内容,也涉及商业竞争,因而完全可能出现同一行为在个人信息爬取上具有正当性但同时属于不正当竞争的情形,如此则加剧了对爬虫行为边界判断的模糊性与矛盾性。至于自律公约等自治组织颁布的软性规范文件则难以在规范性质上获得权威性。
(二)司法困境加剧网络爬虫边界的模糊性
除了直接监管的缺位,司法上对网络爬虫的行为边界同样缺乏专业性的判断。网络爬虫行为在多个部门法领域引起规范性争议,具体牵涉的民事诉讼包括不正当竞争、侵犯知识产权及一般民事侵权等,而这些民事侵权可能同时与刑法中的数据犯罪、计算机犯罪、侵犯公民个人信息罪等密切相关。对已有判例进行统计则足可见法律评价的复杂性。在已公开的判决书中,涉及网络爬虫行为的技术表达具有多样性,其关键词主要包括“网络爬虫”“robots.txt”“爬虫软件”等。截至2024年3月15日:1)以“网络爬虫”为关键词在裁判文书网中全文检索,可得到66个涉刑民领域案件。有10个为刑事案件,其中1个案件为知识产权犯罪,4个案件为个人信息犯罪,5个案件为计算机信息系统犯罪及系统数据犯罪;有56个民事案件,包括42件知识产权纠纷、13件不正当竞争纠纷及1件合同纠纷。2)以“robots.txt”为关键词全文检索,可得到26个民事案件,其中有15个案件为知识产权权属、侵权纠纷,11个案件为不正当竞争纠纷。3)以“爬虫软件”为关键词进行检索,可得到刑事案件31个,案件类型集中于知识产权犯罪、个人信息犯罪、财产犯罪、计算机信息系统犯罪和系统数据犯罪;民事案件79个,其中知识产权权属、侵权纠纷62件,另有不正当竞争纠纷14件,劳动及合同纠纷3件。
以上统计并不能完全还原网络爬虫在网络犯罪中的案件数量,甚至可以说仅仅是冰山一角。一方面,涉及网络爬虫技术的案件统计在事实层面上并非完全披露在司法文书中,尤其是爬虫行为本身可能在案件评价中被认为是无关紧要的。例如在“朱某某高某某侵犯公民个人信息案”中,从一审判决书的描述来看,被告人显然使用了爬虫技术自动、批量地获取个人信息,但对工具本身的评价并未见于司法文书。另一方面,当实务部门能够以更精确的法律标准评价违法犯罪行为时,往往不会再对爬虫工具的使用进行评价。以操纵期货市场罪为例,在AI交易泛滥的今天,该罪的常见情形是,行为人利用自行开发的报单交易系统,在本身已使用高频程序化交易的基础上,利用不正当的交易优势和额外交易速度优势抢占交易先机,限制或排除其他合规投资者的最优交易机会。高频程序化交易也需要使用爬虫工具,因为高频交易依赖于极短时间内获取市场数据和快速做出交易决策软件的设计和开发,需要考虑到很多因素,如系统架构、算法优化、交易逻辑、风控管理等,而网络爬虫是数据获取和解析这两个步骤的基础工具。
从当前的司法实际来看,对涉网络爬虫行为边界的司法评价呈现出混乱和无序状态。首先,前段所举的诸多“隐形”利用网络爬虫的案例表明,司法机关对于是否将网络爬虫纳入司法评价本就带有偏好性,例如当网络爬虫在严重的违法犯罪行为中居于次要位置,不必通过单独评价来论证行为的可罚性时,司法机关对于网络爬虫技术的不当运用便采取刻意忽略的态度。其次,民事上体现为请求权基础的多样性,不仅包括知识产权权属纠纷、侵权纠纷、不正当竞争纠纷,甚至囊括了劳动及合同纠纷。换言之,从不同的请求权基础出发,能够对类似的网络爬虫行为作出迥异的司法评价,因为民事上不同类别的请求权基础所关注的是不同维度的权益类型,其所受损失的判断自然也有其个别性。再次,刑事上体现为罪名适用的不稳定性,主要体现为对类似爬虫行为的定性摇摆于数据犯罪和数据承载的内容犯罪之间,且与民事法或行政法对爬虫技术界限的评价明显冲突。例如在相当多对爬虫作入罪化处理的典型刑事案件中,网络爬虫行为在前置法的视角上仅仅是对市场规则的违反,应以不正当竞争的案由立案,但当司法机关否定爬取方爬虫行为的合法性时,则极容易对突破robots.txt的数据爬取行为作入罪化处理。然而,若将类似的刑事裁判逻辑推而广之,那么大量涉网络爬虫的民事或行政案件理应都作入罪化处理。最后,网络爬虫的刑事规制往往过于夸大爬取方绕过robots.txt的规范意义,有滥用数据犯罪之嫌,其更明显的体现是,针对数据爬取行为的刑事定性具有明显选择性,即部分被定性为刑事犯罪的数据爬取行为实际上在大型网络平台之间多被定性为普通的不正当竞争案由,因而导致不同的主体承受不平等的刑事待遇。总的来说,刑民案件的共同特征是爬虫行为的界限标准不明,个案对反爬措施robots.txt的规范地位认知不统一。作为社会规范的最后保障,司法裁判同样难以为网络爬虫行为提供基本的边界说明,这无疑加剧了监管标准的缺失,难以纠正迂回的监管方式。
二、网络爬虫两种规制路径的否定
为了明确网络爬虫行为的是非界限,一种思路是完全依靠工具规制路径,即坚持以爬虫工具的技术内容为基础设计网络爬虫的行为边界,如此则自然导向以robots.txt为网络爬虫行为边界的主张,另一种思路则是依据司法上的利益衡量原则,对网络爬虫的行为边界作个别化判断。前一思路缺乏对robots.txt规范性质的细节论证,后一思路则由于利益衡量原则自身的模糊性而无法解决爬虫行为边界的模糊性问题,同样为本文所不取。
(一)robots.txt“协议”合同化的路径否定
1.robots.txt的技术原理
前文对网络爬虫技术原理的概括分为七个步骤。robots.txt协议的适用体现在第一和第六个步骤—或用于限制访问,或用于控制爬取速度及范围。在互联网行业中,为解决网络爬虫的边界问题,为爬虫机器人指定站点目录和文件检索条件的技术—机器人排除标准(Robots Exclu-sion Standard)得到广泛运用。简单来说,若网站不希望其数据被搜索引擎或其他特定的爬虫工具爬取,则可用机器人排除协议(Robots exclusion protocol)局部地实现此目标。因此,若ro-bots.txt的确能够明确网络爬虫的行为边界,则堪称最经济有效且彻底的解决方案。认可ro-bots.txt能够充当网络爬虫界限的主张大多认可robots.txt的合同性质,例如认可其属于单方意思表示。刑法学界亦有观点认为违反行业规则即爬虫协议获取公民个人信息的行为,可以认定为“以其他方法非法获取公民个人信息”之“非法”。从robots.txt的局限来看,其本质上仅仅是一种警告和声明,并无抵御爬虫的技术力量,是否阅读并遵守robots.txt文件中包含的指导原则,只能留给爬虫机器人的操纵者自行决定。因此,恶意爬虫及用于收集邮箱的爬虫机器人等并不遵循robots.txt的指引或禁令;某些出于合法目的运行的爬虫机器人也可能会忽略robots.txt。另一个原因则源于技术层面:在某些情况下,搜索引擎中正式运行的爬虫机器人可能无法完整解释robots.txt包含的语法。
2.“协议合同化”的可能性及实益
我国民法学界存在将robots.txt解释为民事合同的尝试,例如在2014年9月在北京召开的“Robots协议与竞争规范研讨会”上,李明德教授主张robots协议是合同、契约,是网站的意思表示,违反robots协议就构成了对契约的违反。宁立志教授也认为,从法律约束力而言,网站设置robots协议系意思表示,在网站与搜索引擎之间建立了一个提供网络服务的法律关系,搜索引擎访问网站即视为接受robots协议,从而根据契约产生法律约束力。在美国,robots.txt被解释为民事合同内容的典型例子是Register.com v.Verio案。法院明确表达了推定合同成立的规则:在商业交易中提供利益并附有一定条件的情况下,如果接受要约的人承认该附带条件并取得对方提供的利益,那么该行为相当于接受合同要约。谷歌搜索引擎相应推出了和网站管理者的协议—Browse Lab合同。在Browse Lab合同中,谷歌向网站管理员说明了其需要收集的信息和数据类型,并承诺不会泄露敏感信息或披露与网站无关的信息。同时,网站管理员也同意遵守合同要求,包括不会向谷歌提供虚假信息或恶意修改其网站内容等行为。此时,谷歌的Browse Lab合同既包含了计算机协议的性质,也具备民事合同的性质。
3.robots.txt指引爬虫行为边界的法理障碍
将robots.txt解释为合同至少存在如下法理障碍:robots.txt协议仅是计算机协议,不是民法上的协议。在计算机领域,协议是指计算机之间或计算机和网络之间进行通信时必须遵守的一组规则和标准。[然而,robots.txt理论上可以成为合同内容的文字载体。《中华人民共和国民法典》(以下简称《民法典》)第469条第1款规定,当事人订立合同,可以采用书面形式、口头形式或者其他形式。该条第3款规定,以电子数据交换、电子邮件等方式能够有形地表现所载内容,并可以随时调取查用的数据电文,视为书面形式。“所谓法律行为采书面形式,是指借助有形载体并以文字来呈现法律行为的内容。”若将爬取数据行为视为合同订立行为,则必须将robots.txt的代码表述视为其他形式。肯定其符合合同的文字要素,则可以进一步讨论其属于合同的可能性。根据《民法典》的规定,民法上的协议即合同,此时的协议是指在特定的法律关系中,自然人或法人根据其意思表示或者共同意志,就一定的权利和义务达成的一致意见,可以通过书面、口头或者其他方式达成。协议与合同之间的转换仍然离不开自然人的意思表达,例如谷歌Browse Lab合同是网站所有者通过联系谷歌的网站管理员或发电子邮件来请求使用该工具,如果谷歌同意提供访问权限,网站所有者将被要求同意并签署Browse Lab合同,以确认他们将遵守使用该工具的规则和条件。在这个问题上,美国司法判例对“技术协议变身民事合同”的条件限定值得参照。尽管在Register.com v.Verio案中,被告Verio援引了Specht v.Netscape Com-munications Corp.案,用以否认Browse Lab合同的拘束力。但在Specht v.Netscape Communica-tions Corp.案中,爬取者和网站所有者只有一次网络链接发送,用户无法充分获知合同的条件,所以缺乏订立民事合同的意思表示。而在Register.com v.Verio案中,当事人Verio每天要执行无数次查询任务,因而被推定为存在订立民事合同的意思表示。两个判例的核心区别在于,行为人可否识别合同的存在并且实际地作出合同订立的意思表示。换言之,人的参与以及人的意思表示仍然是民事合同订立不可或缺的要件。以此为据,如果过于草率地推定robots.txt等同于合同,则容易违背网站运营者和使用者双方的真实意思表示,使二者变成“强行撮合”的合同当事人。坚持这一意思表示意味着,robots.txt不能当然地成为民事合同,尤其应当顾及robots.txt协议之局限:网络世界仍存在无法解释robots.txt语法的机器人;访问该站点的任何人,包括自然人和爬虫机器人,实际上都没有明确接到robots.txt的通知或声明,更不明白其民事含义;阅读和遵守robots.txt完全由数据爬取方单方决定。
总之,对robots.txt的突破仅具有技术意义,其与民事或刑事意义上的“合法”或“违法”判断并无必然的规范联系。法律规范上如何评价robots.txt的违反行为首先取决于robots.txt指令内容本身的正当性:1)若robots.txt包含对个别爬虫工具使用者的针对性歧视,具有限制竞争等目的,则应否定其指令的正当性,此时突破robots.txt的爬虫行为具有正当性。2)若robots.txt指令内容并无不当,则突破robots.txt的行为将被推定为滥用爬虫的违法行为,但此处的“违法”定性仅有民事侵权意义,至于其刑事上是否定罪,一方面取决于所爬取数据的内容是否为刑法保护的法益类型,另一方面则取决于行为是否造成计算机信息系统不能正常运行,从而构成计算机犯罪,但这两点判断均无法仅由对robots.txt的突破来完成。前述规则虽较为明确,但由于ro-bots.txt指令的正当性缺乏中立性的权威部门来判断,基于现有制度安排,其在实践中仍难以指引爬虫的使用边界。
(二)利益衡量原则确定网络爬虫边界的路径否定
根据法律行为的一般理论,合同约束仅产生于当事人意思表示方向一致的共同行为,因而难以将robots.txt直接视作订立合同的要约,而当robots.txt不能自动成为民事合同的结论得出后,从爬虫工具本身出发规制网络爬虫行为几乎失去了可能性。虽然司法中常以robots.txt为依据,但理论界似乎更普遍地认识到仅依靠robots.txt无法区分网络爬虫的界限。基于此认识,对所有数据获取行为,学者多倾向于将候补方案确立为笼统的利益衡量原则,或所谓的平衡立场。利益衡量原则强调个案中司法判决对社会利益的影响,是结果导向的立场,其关注的是涉网络爬虫案件司法评价的潜在后果,而非立足于事前视角为网络爬虫行为提供指引。换言之,利益衡量原则对网络爬虫行为的边界在某种程度上采取的是回避态度,因为其并不预先设定网络爬虫的行为边界,而是根据网络爬虫行为的实施效果来回溯看待行为的正当性。然而,当裁判生效时,其仍然需要通过否定个案中网络爬虫行为的正当性、明确个案中网络爬虫行为的边界来证成裁判的正当性。在这一裁判方式中,法院实际上负担着两个矛盾的目标—寻找网络爬虫行为的边界,但必须根据裁判的潜在结果回溯性地认定网络爬虫的行为边界,而其中的矛盾性也意味着利益衡量原则下所谓网络爬虫的行为边界并无确切规则。从目前公布的案例来看,利益衡量原则多考虑爬虫的使用目的和影响,如前引“百度在线网络技术(北京)有限公司等与北京奇虎科技有限公司不正当竞争纠纷案”中两审法院的侧重点即反映了利益衡量原则下的效果规制路径:否定反爬措施对于判断爬虫行为是否合法的意义,而是关注爬虫行为所引发的规范后果。
利益衡量是笼统的理念概括,只能用以评判一项规则或学说的实益,而在缺乏具体标准的前提下不足以充当个案标准。首先,所谓利益衡量原则难以在个案中衡量利益,因为利益的内涵难以界定,长期利益和短期利益也不一致,如在涉网络爬虫案例中,爬取数据者和网站所有者利益不一致,公共利益和个人利益也不一致。以“百度在线网络技术(北京)有限公司等与北京奇虎科技有限公司不正当竞争纠纷案”为例,在该案中,法院认为判断被诉行为是否属于《反不正当竞争法》第2条禁止的不正当竞争行为,应当兼顾经营者、消费者、社会公众的利益,在权衡被诉行为对竞争相对方合法权益的损害程度以及对消费者利益和竞争秩序的影响程度等基础上,对其损害后果作出综合认定。也就是说,爬虫与反爬虫行为是否合法,实质上取决于行为的后果,而爬虫行为所造成的结果又往往具有不可控和偶然的特性,这就导致爬虫的使用者无法事先预判其行为是否被禁止。其次,除了标准的模糊性,利益衡量原则还可能导致适用法律的不平等,因为不同主体以同样的方式使用爬虫,对社会整体的利益影响是不同的。以企业和个人对爬虫工具的使用为例,在飞猪等抢票软件大行其道的背景下,由于其商用性质,以企业为单位实施的爬虫行为极少被评价为非法,但个人使用爬虫工具提供此类商业服务时,则极容易被认定为违法甚至犯罪。例如,2013年2月,警方破获了一起利用抢票软件加密狗圈票后高价倒卖案,该案行为人倒卖车票1 777张,获利140万元。该加密狗软件的制作者被警方控制,警方称其涉嫌非法经营罪。有人认为,制作抢票软件,侵犯了铁路部门对车票的专卖权,构成非法经营罪。也有人认为,行为人制作软件,为他人侵入12306网站提供了工具,涉嫌提供侵入、非法控制计算机信息系统程序、工具罪。然而事实是,当前的订票均是实名制,不存在不记名情况下的买入及“倒卖”问题。所谓“倒卖”实为在票价之上增加了抢票的服务费用。但携程、飞猪等平台提供的类似服务在技术原理上并无不同,且同样有“收费帮抢”业务。此案例中的个人行为被定罪,而企业的类似行为被实质性豁,很难说不是利益衡量的结果。总之,由于爬虫工具本身多被运用于商业领域,实践中利益衡量的标准往往在实际上等同于经济利益标准,因而缺乏更本质的正当性论证。再次,利益衡量原则所依赖的个案利益分析更像是对裁判结果的事后解释,而非事前的教义学指引,甚至会导致当事人本人都难以预见其使用网络爬虫的行为是否违法。例如在商事领域,针对数据的“爬取”和“反爬取”行为都可能被评价为不正当竞争,但该评价在行为之前却是出乎当事人预料的,而若该爬虫行为发生于刑事领域,则很容易导致行为人虽有不法行为,但大多对其实施的爬虫行为缺乏违法性认识,或至少是违法性认识不明确。
三、网络爬虫监管前置的必要性及路径
司法规制的两种路径—借助robots.txt的工具规制及“场景化”判断的利益衡量原则均无法提供正当、统一的标准,因而需要借助监管前置,以为司法判断提供稳定的裁判依据。
(一)网络爬虫监管前置的必要性
网络爬虫监管前置的必要性可从其司法指引功能和部门法沟通功能中加以说明:
其一,监管前置具有指引司法判断的功能,从而有助于避免司法判断的无序性。目前利用网络爬虫实施的行为可能面临着合法、违法、犯罪三重评价,且评价标准非常模糊。大部分网络爬虫行为,即便越过了反爬措施,也未必会被评价为违法或犯罪。例如在“百度在线网络技术(北京)有限公司等与北京奇虎科技有限公司不正当竞争纠纷案”中,法院认为,“百度网讯公司、百度在线公司在允许国内外主流搜索引擎抓取其网页内容的情况下,限制360搜索引擎抓取,其行为显然有悖于robots协议的初衷”,从而否定了以反爬措施作为是非界限的思路。又如,在前述“北京微梦创科网络技术有限公司与北京字节跳动科技有限公司不正当竞争纠纷案”中,二审法院强调反爬措施robots.txt对于判断合法与非法的核心作用:北京微梦创科网络技术有限公司专门针对北京字节跳动科技有限公司设置反爬措施并非不正当竞争行为,即试图以ro-bots.txt为标准,认可robots.txt充当爬虫工具行为界限的功能,但一审法院则否定robots.txt的规范意义。换言之,“反爬取”的特定限制行为反而可能被评价为违法,而“反反爬”措施(爬取方通过技术手段突破网站方的反爬限制)虽突破了反爬措施(robots.txt),却可能被评价为合法。从前文的统计来看,同样是“反爬”或“反反爬”措施,刑法和民法可能对之作出违法或犯罪的评价。“反反爬”措施是司法重点规制的行为,刑法上主要集中于知识产权犯罪、个人信息犯罪、计算机信息系统犯罪及数据犯罪;民法上则主要集中于知识产权纠纷和不正当竞争纠纷;“反爬”措施由于并不涉及对他人计算机系统的侵犯,而仅涉及对互联网信息共享机制的侵害,几乎只存在于经济法领域,特别是不正当竞争和反垄断领域。总之,对网络爬虫这一工具的使用,司法实践在合法、违法、犯罪之间分歧极大,且案由呈现出多样化、复杂化的趋势。简言之,由于缺乏统一的裁判指引标准,各部门法内对网络爬虫的评价均缺乏“统一的锚定标准”,这不仅导致部门法内部裁判逻辑的冲突,还导致部门法之间的判断逻辑冲突,影响司法同案同判的基本追求。而为不同案件充当共同锚定标准的指引性规范可由前置性规定提供统一的规范说明,例如可对数据载体爬取的边界直接进行规范说明,或由监管机构在缺乏统一前置性规定的基础上逐案进行行政确认,从而为网络爬虫行为提供明确预期。就前者而言,目前的立法条件尚不成熟,即难以明确应当依据哪一维度的标准作为网络爬虫行为边界的硬性限制,这在已有的立法尝试中已有较明显的负面反馈。已有的尝试性立法是2019年5月28日国家互联网信息办公室曾发布的《数据安全管理办法(征求意见稿)》,其中第二章第16条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量1/3,网站要求停止自动化访问收集时,应当停止。该条所称“自动化手段”即网络爬虫。从这一意见稿的监管思路来看,监管机关曾试图以网站正常运行作为规制网络爬虫的统一锚定标准,而以网站提出要求并满足特定条件后才对爬虫行为进行限定,也体现了标准的灵活性以及对网络爬虫评价的单一性。这一规定并未落实为最终的立法条文,足可见网络爬虫工具监管维度的复杂性,也表明一刀切式的立法思路缺乏可行性。因为考虑到数据中所蕴含的诸多信息内容价值,对滥用网络爬虫的危害性判断已然无法仅仅从“数据爬取行为影响网站运行”这一间接标准评估其危害性,其本质上是用计算机信息系统法益替换数据载体与信息内容等多种法益类型,实属不当简化。除此之外,这一监管规制模式仅仅是对数据爬取方的“反反爬”措施进行了规制,对网站方的“反爬”措施则缺少确切的规制思路。
其二,刑法与前置法的法秩序统一需求同样依赖监管前置化来实现。由于前置法缺失,对爬虫行为的规制多依赖刑法,但通过刑法规制网络爬虫行为在实体评价上欠缺体系化。首先,刑法规制网络爬虫时所适用的罪名极为凌乱,主要反映为司法机关在适用数据犯罪和数据内容犯罪之间多有摇摆,即在数据载体犯罪与数据所承载的内容犯罪之间缺乏体系化的评价逻辑,而这一点也在前述统计所涉案由中有所呈现。其次,脱离了前置性规制的刑法评价多有“妖魔化”爬虫行为的倾向,例如将“反反爬”措施理解为威胁网络安全的犯罪行为。这一入罪化思维在“上海晟品网络科技有限公司等非法获取计算机信息系统数据案”中体现较为明显,该案法院认为,被告人在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制,构成非法获取计算机信息系统数据罪。但是,从网络生态的一般实践来看,获取字节跳动的数据并不需要特别注册账号,此时的服务器不可能通过UA和IP进行身份校验,判决说理中所谓的身份,只是服务器对访问者所作的临时性标记,会随着IP地址的变化而变化。互联网的生态实践中,更换IP便利用户访问以及经营IP业务的商业行为非常常见。更何况,如果这一说理成立,则前述列举的民事侵权案件均使用了类似原理的“反反爬”措施,从而都应评价为刑事犯罪行为。对刑法规范来说,刑法规范主要以行为规范的性质呈现,而其来源则依据自然犯和法定犯的定性而有所区别,如自然犯的行为规范来源于常识,而法定犯则依赖前置性规范的指引和说明。对网络爬虫行为边界的明确属于法定犯领域,若缺乏前置性规范,则难以为行业参与者提供明确的规范指引和预期,导致一般性的行业行为动辄得咎,间接干扰互联网数据爬取行为的常规生态。
其三,监管前置有助于避免刑法内部适用罪名的随机性。刑法在很大程度上发挥着惩罚恶意爬虫的功能,由于行政监管和处罚的缺失,对网络爬虫行为的刑事惩罚实际上不仅仅是刑事上的报应性要求,还包含了行政惩罚的预防性追求。由于刑事后果的严重性,这一惩罚机制的弥补可谓过度填补监管处罚的漏洞,因而常被质疑违背了谦抑性原则。从立法涉及范围来看,刑法的规制方式主要集中于计算机信息系统犯罪的相关条文:若行为人通过网络爬虫访问收集一般网站所存储、处理或传输的数据,可能构成非法获取计算机信息系统数据罪;如果在数据抓取过程中实施了非法控制行为,可能构成非法控制计算机信息系统罪。此外,由于使用网络爬虫造成对目标网站的功能干扰,导致其访问流量增大、系统响应变缓,影响正常运营,也可能构成破坏计算机信息系统罪。整体来看,无论是民法还是刑法领域,涉网络爬虫案件的司法现状表明,规范上对网络爬虫的控制和评价并无硬性边界,而是依赖多类别的法律规范,显示出一定的随意性,因而亟须监管层面推出指引性标准以避免刑法罪名适用的随机性。
(二)监管前置的路径设置
在明确监管前置必要性的基础上,对监管路径的基本设置应有进一步的展望。所谓监管前置有两种可能的基本路径:一是在司法评价之前,通过立法活动明确网络爬虫的统一规范标准,力求在对数据进行各维度评价的基础上寻求最大公约数,以实现立法条文明示后的静态监管效果。2019年《数据安全管理办法(征求意见稿)》第二章第16条即试图寻求监管网络爬虫的最大公约数,但是将网络爬虫对网站运行的影响作为监管的切入点并不能充分应对互联网数据监管的复杂性。二是在司法评价之前,监管机构并不追求统一的前置性立法,而是逐案对网络数据爬取行为进行行政许可或行政确认,以明确爬取方爬取特定网络数据的合法性,或明确被爬取方采取针对性反爬措施的合法性,从而为互联网数据的各类参与方提供明确的规范性指引,并为可能的司法判断提供专业的前置性指引。
在此前提性认知上,本文主张在后一监管模式下绘制网络爬虫监管的基本图景。这不仅是因为《数据安全管理办法(征求意见稿)》的立法使然,还是因为当前互联网生态并非处于完成时,各类新兴的数据产权层出不穷,而数据确权也因其技术和规范难度正处于发展的进行时。数据爬取行为中的爬取方和被爬取方均应纳入监管对象。对此,行政许可或行政确认具体可以通过行政监管环节的备案与许可制度加以落实。
在行政监管环节设置程序化的备案与许可流程可作如下具体构想:
第一,明确网络数据爬取及反爬取的协同监管主体及对象。协同监管在当前的社会发展阶段并不是新鲜事物,而是各领域监管的刚需,例如可参照《国务院办公厅关于深入推进跨部门综合监管的指导意见》(国办发〔2023〕1号),对网络数据爬取及反爬取行为的监管设计相应的基础构思。首先是确定跨部门综合监管事项清单。该意见对跨部门监管的愿景被表述为“直接关系人民群众生命财产安全、公共安全和潜在风险大、社会风险高的重点领域及新兴领域中涉及多部门监管的事项,要积极开展跨部门综合监管”。数据爬取监管符合前述监管事项的特点。至于数据爬取及反爬取监管的对象范围,则应当围绕《国务院办公厅关于深入推进跨部门综合监管的指导意见》所指出的“事项清单”进行动态更新—2023年底前,各地区各部门通过“互联网+监管”系统对跨部门综合监管重点事项实施清单管理和动态更新。就网络爬虫目前所涉及的规范评价范围来看,主要涉及的部门可能包括国家网信部门、国务院电信主管部门、公安部门、市场监督管理部门和其他机关,对网络爬虫的监管设置综合监管机构。之所以要设置综合各职能部门的监管机构,概因网络爬虫中的数据爬取行为与反爬行为所涉及的法益类型过于多元,难以仅仅从局部法益出发对其进行简单化规制。对数据爬取行为或反爬行为的合规性审查需要经过知识产权、反不正当竞争、个人信息、数据安全、计算机信息系统安全等多方面的检验,若无协同机制则难以应对监管评价中变量的多元性。在这一思路的指引下,针对网络爬虫中爬取方与反爬方的程序化许可,则可针对网络爬虫各个步骤分别制定限定与允许的具体标准,从而纠正当前网络爬虫监管的单维度倾向:目前针对网络爬虫的监管方式多局限于数据的下载存储这一数据获得型爬虫行为,而对于发送请求、访问的前置性步骤则缺乏相应的法律规范,例如,虽然我国在个人信息、财产和知识产权保护等涉及数据承载内容方面已有比较全面的监管措施,但在数据载体本身以及网站正常运行的保护法益上缺乏对应措施。对爬虫技术中发送请求及访问的前提步骤仍有待行政监管层面的规范填补,而各类监管主体均应当从爬虫技术中爬取行为的各个环节及反爬措施的各个环节进行分步骤的细节评价。
第二,针对被爬取方的数据利益,应建立robots.txt特别认证制度。所谓robots.txt特别认证即由综合监管程序认证合规的robots.txt具有限定爬虫行为边界的效力,该机制主要是为明确网站方限制他人爬取的权利边界。在前述所引的不正当竞争案例中,不同审级法院、不同地域法院对类案甚至同案中robots.txt协议效力的分歧大多根源于前置性监管的空白,而在备案机制下,对于大型商业主体来说,为防止数据泄露,维持竞争优势,可直接申请robots.txt特别认证。若认证失败则需撤销相应的限制爬取措施,修改其反爬措施。具言之,网站可通过编写robots.txt文件来告知搜索引擎和其他网络爬虫哪些页面可以爬取,哪些页面不允许爬取,至于robots.txt的效力如何,则可以考虑建立监管机构的备案机制,例如针对个别网络爬虫的“歧视性限制”应当交由监管机关备案,以确认其合规性,并可针对拒绝备案的大型互联网商业主体制定惩罚措施。对于规模较大的互联网商业主体来说,这一机制能够明确其商业预期,避免不必要的商业风险,因为经过特别认证后,限制其他商业主体爬取自己的商业数据不再是悬而未决的猜测。为显示robots.txt特别认证的效力,应在网站底部设置公示系统。与目前经营性网站的备案标记类似,特别认证同样可在网站页面内突出备案标记,便于告知爬取方。
第三,针对数据爬取方的利益,可赋予其数据爬取的申诉权并设置特别授权机制。对数据爬取方而言,若对robots.txt特别认证存在质疑,可向监管部门申请撤销或修正robots.txt特别认证,以满足其正常的数据使用权利。数据载体所承载的信息内容理论上可包含无限多的法益内涵,数据监管所涉的多维度法益无法穷尽考量所有的法益内容,所以应当允许针对robots.txt特别认证的质疑,并在程序上保障数据爬取方的申诉权。若申诉成功,则可以给予数据爬取方爬取特定网站数据的特别授权。之所以称为特别授权,是因为在本文的设计中,特别授权仅是针对已有特别认证备案标记的数据被爬取方,而对于中小型互联网商业主体来说,由于不存在强制的robots.txt特别认证,数据爬取方或可以按照对方已有的robots.txt规则实施数据爬取行为。但需要注意的是,爬取不存在robots.txt的网站数据或已按照robots.txt提示进行数据爬取的行为仅仅是被推定的合规行为,其对数据内容的获取仍可能构成违法或犯罪,例如部分网站存储了海量的个人信息或国家机密,即便其并未设置反爬措施,对相应数据内容的爬取也能够被评价为违法或犯罪。与特别认证相对应,在技术上可为特别授权设置明确的授权标记,以明确告知被爬取方特别授权的存在。此外,对于robots.txt中缺少特别认证备案的歧视性限制(仅针对部分网站设置的反爬措施),则可推定其不具有反爬的约束力。如此设计不仅可以鼓励被爬取方积极申请特别认证,利于监管生态的形成,还可以反向促进对自身数据缺乏投入的网站积极保护商业数据的权利。
第四,对网络爬虫进行程序化智能监管,减少人工审核的低效特征。网络爬虫行为在互联网世界属高频使用技术,若以传统的人工审核方式确认法律关系或许可主体行为极容易妨害互联网行业的商业效率。对此,应当出台自动化审核机制。在《国务院办公厅关于深入推进跨部门综合监管的指导意见》(国办发〔2023〕1号)中规定,“互联网+监管”是被突出强调的监管工具—“要依托‘互联网+监管’等现有信息系统,针对具体监管事项的风险特点,构建跨部门联合监测预警模型”。在利用robots.txt实施反爬措施或利用网络爬虫工具实施“反反爬”措施前,若行为人无法判断其行为性质,则可先行申请行政监管机构的行政确认,从而避免违法性认识缺失以及是非界限难以明知的困扰。但无论哪一方的行政确认申请,原则上均应交予流程化的算法计算两类行政确认行为的风险点,这不仅是为保证互联网的共享与开放精神能够得到效率加持,也能够减少综合性协同监管的工作压力。然而,由于数据内容法益的多元性,由算法算出的风险点仅仅具有推定的有效性。在“互联网+监管”模型中,同样应自动识别出需要人工二次审核的监管情形。除了自动筛选的人工审核类案件,还可针对互联网主体的特别申请开放人工审核作为复议机制,或允许程序审核备案失败的申请方再次申请人工审核。
第五,应在司法上明确对行政监管即行业规范的参照义务及边界。有了明确的锚定标准,则有助于避免司法标准的任意性,尤其是刑法对数据爬取行为的妖魔化。综合监管机构能够从个人信息、网络安全、知识产权、商业竞争等多方面出发,于事前评估网络爬虫行为的合法性,而这一评估结果原则上应当成为司法判断的规范指引,司法判断上无特别理由时不宜推翻其效力。此外,通过综合监管机构的过渡,部门行业自治规范还能够被间接认可为规范渊源,从而为司法认可行业自治规范提供正当性论证。行业组织、搜索引擎和其他网站可以通过合作来共同监管网络爬虫的活动,尤其是针对验证码、限制请求头、限制请求次数、反爬虫技术等问题更容易设置明确的行业准则,如有必要,可通过监管机构对行业标准进行规范化,从而将行业准则上升为明确的法规范来源,即标准的规范化。在监管上确立robots.txt特别认证与“反反爬”特别授权机制,还有利于正当化robots.txt规范填补功能,并可将其类型化。类型化与概念分类的本质不同在于其功能主义取向。概念分类注重概念的内涵和外延,常常采用概念分析的方法,通过对概念的分解、定义和阐释来解释对象的内涵,在网络爬虫问题上,以技术思维判断robots.txt的效力即概念思维的体现。而类型化思维则更多地关注具体的法律实践中的情形,着重研究如何将法律事实归类,并运用法律规则进行适用。目的上,类型化思维则旨在将法律事实归类,为法律规则的适用提供依据。就robots.txt的效力问题而言,类型化的解题方式是更合理的,而实现这一类型化的首要前提在于改变提问方式,即不对robots.txt的效力设定前见。在正式规范上,新近颁布的《数据安全法》《网络安全法》《个人信息保护法》对网络爬虫行为均不置可否,导致网络爬虫行为边界的确定只得诉诸“前置法的前置法”—行业准则。但即便是行政性法律文件,也未对网络爬虫的行为边界做出明确界定。于是,该大前提的补充不得不触及行业惯例即robots.txt。在“北京微梦创科网络技术有限公司与北京字节跳动科技有限公司不正当竞争纠纷案”中,二审法院主张,“在判断robots协议对于网络机器人限制行为的正当性时,其核心在于保护网站经营者的自主经营权与维护其他经营者利益、维护消费者利益、维护竞争秩序之间的平衡”。因此,可以说只要能够确定robots.txt填补规范的边界,即能够间接确定网络爬虫行为的界限,而这一问题又可拆解为两个思考步骤:1)行业标准能否径行填补规范漏洞?2)民事法中不同的请求权基础以及刑事法中的不同罪名,是否要在吸纳robots.txt这一行业标准的限度上保持同步?针对前一问题,民法学界对行业标准补充规范的讨论由来已久,并存在较大的理论对立。所谓标准(standard),是指“通过标准化活动,按照规定的程序经协商一致制定,为各种活动或其结果提供规则、指南或特性,供共同使用和重复使用的文件”。主流观点认为标准的制定权不属于国家权力,而属于私权范畴。换言之,若公权力并未主动引用其作为大前提,则标准原则上不成为规范。但亦有观点主张基于公权力认证推出的标准可以成为规范。本文认可标准系小前提,只有在特定情况下才可以软法的性质补充大前提,若遵循彻底的违法一元论立场,则robot.txt足以填充民法、经济法、行政法的大前提,也能够给予爬虫行为合法与非法的准确判断,否则数据爬取的行为评价只能停留于灰色地带。但根本的缺憾是,这一理论虽然具有体系性的美感,却不符合互联网的基本生态,因为一旦认可robots.txt贯穿各部门法的绝对效力,不仅违背民事合同的基本原理,还与互联网自由共享之精神相违背,甚至会存在“滥用robots.txt”的弊端。因此,对robots.txt效力的认可,应当设置一定的筛选条件。从网络生态的现实出发,可归纳为两个标准:一是否定robots.txt歧视性限制的规范效力;二是否定基于不法目的的robots.txt具有规范效力。与此同时,由于robots.txt直接解释为民事合同的可能性已被排除,应当认为,robots.txt的性质系因行业自治而诞生的软法,只有通过前述两个筛选条件,才可能获得监管机构的承认,继而获得规范性质。
当司法评价主要依赖前置性的监管定性时,作为保障法的刑法尤其应当保持定罪的审慎,其首先应当排除的是数据犯罪的定性,因为一旦刑法预先将数据爬取行为认定为刑事犯罪,则必定会与前置法上的合法或一般违法的评价冲突。在司法环节不应对行政监管的结论做绝对化的有效推定,这是因为行政监管总会有考虑不及的变量,这在其他领域的法定犯中均有较多的典型案例。前置法监管的法益维度几乎全部立足于数据的内容信息,而刑法上的定罪则多围绕计算机信息系统等罪进行,故从刑法评价的妥当性而言,只有当爬取的数据所承载的内容涉罪时,且前置法评价的法益维度与刑法罪名的法益维度存在对应关系时,才可以有相应的刑事定罪。至于对未侵害数据信息内容的数据载体获取行为则应完全剔除构罪的可能性,取而代之的应当是民事和监管层面的预防性保护措施。这也可以解释为何司法机关处理电信诈骗、帮助信息网络犯罪活动、制售网络外挂等行为时,不直接评价网络爬虫技术本身的法律意义,而是将相关技术造成的影响置于不同规范之下评价。在本文的立场上,刑事法应当避开对网络爬虫技术本身的评价,专注于评价访问行为是否干扰计算机信息系统以及爬取数据所包含的内容是否构成个人信息、知识产权及财产犯罪,只是在判断爬虫与反爬虫行为时可借鉴监管层面的备案或许可状态。
作为静置的技术现象,网络爬虫技术指向的规范评价类型是多元的,不仅跨越民法与刑法,也会在各部门内部存在评价上的冲突。民法范围内即存在不同救济路径或请求权基础的竞合甚至冲突;在刑法范围内,不以数据获取为目的的网络爬虫行为通常仅仅涉及计算机信息系统类犯罪,而以数据获取为目标的网络爬虫行为则可能涉及数据类犯罪如非法获取计算机信息系统数据罪。因此,单纯讨论网络爬虫的行为边界容易导致问题失焦,导致标准僵硬或标准空白,也是当前理论与司法实践的方向性错误。本文从技术细节出发,揭示工具规制与利益衡量路径的不可行,并提出监管规制的大致框架。在行政监管前置这一前提性规制框架之下,尚有技术及规范性问题需从实践经验中提取出有价值的操作方案:首先,对爬虫行为的行政确认或行政许可如何能够尽可能地摆脱人工操作,通过流程化的备案反馈机制提升申请方的效率,需要参考已有的线上自动备案机制,也需要将许可的关键考量要点编为算法,至于算法的细节则应当以行业内部的通约准则为据,较难通过法律规范预先设定。其次,行政监管虽可置于预防性的位置,但对互联网数据使用的监管必然是消极的、事后的,因而前述监管性的机制构建只能是倡议性的而非强制性的。据此,若互联网中的数据使用者与被使用者并不积极遵循监管规范,则仍将面临缺乏前置性指引的纠纷,对此,需承认行政监管并无彻底解决问题的制度能量,至于此情形下的行为边界,则尽可能类推监管中的边界划定标准,而司法层面上的纠纷也可由监管机构出具司法建议性文件来指引司法部门的判断。