左卫民:迈向大数据法律研究

选择字号:   本文共阅读 113 次 更新时间:2018-08-31 09:30:46

进入专题: 大数据法律研究  

左卫民  

   【摘要】 大数据法律研究是实证法律研究的最新发展,将会带来法学研究范式的革命性变化。当前这项研究存在若干误识,如将“大量数据”“结构化数据”等同于大数据;在如何使用大数据展开研究方面,也存在方法的科学性不足等问题。未来的大数据法律研究不仅应思考如何更好地获取法律大数据,还要探讨如何正确认识与适当使用“大量数据”,更要充分利用统计方法展开大数据法律研究,探讨如何科学使用机器学习等新方式分析法律大数据。此外,继续重视对法律“小数据”的挖掘与运用,以及加强复合型研究人才的培养,也同样重要。

   【中文关键词】 法律数据;大数据法律研究;实证法律研究

  

一、大数据法律研究时代的来临

  

   受惠于互联网与大数据技术的迅猛发展,数据正以前所未有的速度巨量生成,海量的数据资源由此产生。大数据资源日渐成为国家与社会的基础性战略资源,推动世界大步迈向大数据时代。因应于此,法律机关、尤其是司法机关大力推进部门信息的电子化、数字化、公开化,使得法律大数据逐渐兴起并进入公众视野。

   法律大数据的出现,使得基于法律大数据的司法实践与新型实证研究成为可能,并可能带来法学研究方式的革命性变化。这种可能性源于大数据所具有的独特优势:(1)数据的“全样本性”。大数据通常是特定领域的全面数据,具有数量巨大与内容全面之特性。基于全样本数据的实证研究,能够显著减少传统抽样方法可能导致的误差,增强对研究对象的整体把握,发现传统抽样数据中难以或根本无法获取的信息,带来研究视角、研究素材、研究方法的根本性转变。(2)数据产生、收集、分析的快捷性。“数据分析的速度越来越快,经常在数据刚刚敲进去的时候就可以看到实时的分析结果”,[1]这有助于研究者及时有效地掌握相关法律实践状况的全貌,从而克服传统实证研究方法耗时、滞后的缺陷。(3)数据收集与分析技术的客观性、科学性。

   与具有亲历性的传统手工作坊式实证研究“大多是自己收集、整理数据”“存在因为研究动机需要而选择性收集、运用数据”不同,[2]海量材料与数据远非“人工作坊时代”研究者所能亲自、逐一地审阅、统计和分析。大数据的收集和分析往往直接依托于数据技术自动处理、完成。在开源条件下,研究过程具有相当的透明度,研究结论可复盘检验,数据收集、分析的客观性、科学性明显增强。[3]特别是,利用不同渠道收集的数据集产生了海量数据,当这些数据聚合到一起,可以对其进行挖掘,并开展更深层次的分析,该深度分析能揭示出各种模式、相关关系,并进行有统计意义的各种预测。[4]这不仅能够开展历时性与变迁性的研究,也能够进行预测性研究与趋势分析,[5]最终促进研究科学水准的提升。

   在国外,法律大数据已广泛渗透到公权力与私权利领域的法律实践。在公权力领域,法律大数据在两个方面得到较多利用:一是在警务活动中。美国、澳大利亚等国家早已开始利用法律大数据开展警务预测。在美国,法律大数据被充分运用于犯罪趋势分析、发案情况预测、警力分配以及调查工作重心的确定等。[6]二是在审判活动中。法律大数据已大量应用于司法管理活动和程序性司法决策。例如,法官通过对法律大数据进行分析、评估,建立“何种情况下将影响嫌疑人到庭接受审判,何种情况下容易诱发新的犯罪”的保释风险预测模型,以此决定嫌疑人能否被保释;法官利用法律大数据对罪犯是否符合假释条件进行评估,以此作为判断罪犯能否被假释的重要参考。[7]在私权利领域,律师(律所)和当事人也高度重视对法律大数据的利用。例如,律师(律所)利用法律大数据进行律所管理、成本控制以及诉讼(律师)费用的评估、预测,[8]律师、当事人利用大数据挑选对自己有利的陪审团、[9]进行诉讼结果预测。[10]在大数据法律研究方面,国外学者除开始利用大数据对具体的法律问题展开研究外,对大数据法律研究与法律实践的理论与方法问题(例如,如何确保数据本身的可靠性、公开性,如何克服算法的非透明性、非归责性以及“数据歧视”,[11]大数据运用是否与美国联邦宪法第四修正案产生冲突及如何协调[12])尤为关注。

   目前,中国利用大数据开展的法律实践方兴未艾。例如:基于司法公开而大力推进的裁判文书上网工作;依托大数据技术建立犯罪信息判断和趋势预测;[13]运用大数据建设“检察大数据标准体系、应用体系、管理体系、科技支撑体系”;[14]利用大数据建立案件权重系数和评价指标体系,确定法官工作量,并进行科学的员额分配、案件分流;[15]基于大数据开展的多种法律人工智能实践,尝试如类案推荐、量刑辅助与偏离预警等应用。[16]其中,裁判文书大规模上网,使得中国第一次有了全国性、公开的、细节化的法律数据。但总体而言,目前国内对于法律大数据的实践性运用还相对有限,具体运用并不普遍,在一定程度上呈现出“话语热、实践冷”的现象:一方面,应用主体范围有限,主要集中在少数司法机关、法律数据公司;另一方面,应用领域相对较窄、实际运用较少,主要集中在类案检索、法律文书草拟、文书智能纠错等辅助办案方面。

   近年来,国内也出现直接利用大量数据展开法学研究的探索,并已经注意到法律大数据所面临的伦理规范等问题。[17]其中,有学者就如何开展大数据法律研究,提出了有启发性的见解。[18]不过,国内的大数据法律研究整体上还处于探索阶段,一些研究缺乏对法律大数据的基本认识,研究方法和过程其实建立在某些误识上。因此,检视大数据法律研究现状,澄清若干误识,对于大数据法律研究的健康开展具有基础性意义。

  

二、大数据法律研究中基本问题的澄清


   (一)大数据还是大量数据

   大数据具备“4V”(Volume、Velocity、Variety、Value)特征,是关于某一领域(行业)全样本、能够快速流转、多样化且富价值的数据。其中,“全样本”是其最显著的特征,“全样本数据”意指相关的所有数据。然而,目前国内的法律大数据基本上只是部分的、非完整的数据,远非“相关的所有数据”,称其为“大量数据”或更合适。基于这些大量数据展开的研究,似乎很难视为严格意义上的大数据法律研究。

   从某种意义上讲,中国的法律大数据肇始于裁判文书统一集中上网;在裁判文书上网之前,中国并没有法律大数据研究,法律实证研究基本上是基于“小数据”,即研究者自己在局部范围或特定领域所收集的数据,而展开的“手工作坊式”研究。裁判文书网的诞生与发展,使得丰富的全国性数据第一次制度性涌现,其与既有实证研究所使用的数据在数量级、广泛性上大不相同。然而,裁判文书网已经公布的裁判文书数据整体上并不完全具备全样本特征:公布文书数量与实际结案数量相差较大,数据缺失问题相当严重。根据全国法院2014年和2015年的裁判文书上网统计显示:按省份看,上网裁判文书占实际结案文书比重最高的达78.14%(陕西),最低的仅为15.17%(西藏);最高人民法院在这两年的上网裁判文书仅占其实结案件量的46.13%,这一比重与全国的总体情况大体持平。[19]截至2017年7月11日,四川省的法院在2012-2016年间的裁判文书上网1134249份,而根据四川省高级人民法院工作报告,2012-2016年全省共审结案件3865125件,[20]上网量不足审结量的1/3。此外,上网裁判文书所涉及的案件类型并不全面,特别是一些重大职务犯罪类案件,其裁判文书往往并不上网。

   概括起来,刑事案件的公开比率优于民事案件,一般刑事案件的公开比率优于敏感刑事案件。裁判文书上网的数量、地域、案件类型等方面的局限,使得相关数据往往并非全数据,远离标准的大数据,这容易导致一些基于裁判文书的实证研究存在支撑证据不足,甚至观点可能错误的问题。此外,部分地区法院在公开裁判文书时还对文书内容进行了删减,其删减往往并非对当事人身份信息的屏蔽处理,而是对文书特定段落的删除。这也会使得某些依靠从裁判文书网获取的文书对特定问题的分析,存在不同程度的数据偏差。因此,尽管特定领域、特定区域的分类数据可能较为齐全,但从整体上看中国当下的法律大数据,虽然数据量可能较多,许多领域均可能有20-70%左右的全国性或全局性数据,但其实仍多是大量数据。

   如何认识大量数据的学术研究价值?一方面,完美的法律大数据往往难以强求。作为官方化的数据,公开与不公开往往并存,法律、政治、传统的各种因素都会影响法律和司法数据的公开程度。欧洲国家地方法院裁判文书的公开度往往不如中国,美国法院刑事审判中同样少有关于裁判心证的公开信息。无论中外,法律数据都均非丰富、完整,难以完全反映法律和司法实践。由此,有缺失的大量数据往往可能是“现实中的大数据”。另一方面,大量数据不仅在数据量、丰富性方面远超小数据,而且经过清洗后可以具有相当的全局代表性。在求全不得的条件下,如果能够正确清洗数据,正确把握数据缺失的程度、特别是有无系统性缺失,大量数据就具有不可替代的学术研究价值。

   (二)法律数据的官方性、结构化

   相比于商业、社会领域的大数据,法律大数据具有自身的独特性:商业、社会领域的大数据往往是非官方的机构收集并使用的,而法律领域大数据则具有“官方化”的特征;这种差异深刻影响数据的生成和使用。官方化特征不仅使得法律数据的公开程度受到影响,也影响到法律数据的内容、类型及格式。基于法律机关的政策考虑,相关法律数据的内容多表现出格式化、预设性与法律化特征,据此向社会公开的法律数据其实是按照司法机关的管理目标所生产的内容,而非公众所欲知晓的有关法律实践的充分、真实数据。这与商业、社会领域的大数据颇不相同,后者常常是更为自然的非结构性数据。

   比较典型的结构化数据,主要是来源于司法机关工作报告与法律统计年鉴的数据。此类数据都经过“精细加工”,数据发布主体自身的价值偏好也潜藏其中。目前,“公开的司法统计数据不完整,许多应当公开的数据并未公开,公开比例也难以令人满意”,[21]诸如刑事案件律师辩护率、民事案件律师代理率等数据难以获得;数据的统计口径往往也不一致,甚至同一主题在不同年份的统计口径也会出现变化,以致数据的连贯性较差。这些结构化或半结构化特征明显的大量数据,对司法管理具有一定的参考意义,也有相当的研究资料价值,但由于其生产目的的特定性,整体上并不充分和全面,尤其是中观、微观层面数据的缺失,使得它并不完全具备大数据的特征。对于此类数据,或许视作“重要和宏观的司法数据”更恰当。[22]而裁判文书的结构性则要弱一些,或可称为半结构化的数据。裁判文书的事实认定与法律适用的表述思路和风格,是由众多风格各异的法律实践者个人或集体完成的,但其基本写作逻辑和格式仍然受到制度与实践层面的严格规范,大体上还是半结构化的。

   真正丰富的法律大数据应兼具大数据的自然特征与法律特征,主要由各种法律主体参与生产、制作并发布,具有全样本、即时性、多样化特征。现阶段中国法律大数据整体上是以裁判文书网为主要来源的官方化、结构化或半结构化的大量数据,实质上只是法律领域中的有限数据,也是角度特定的数据。

   (三)数据在研究上的应用:方法和目的

作为实证研究的一种新形式,大数据法律研究应当遵从实证研究的一般范式,即利用大数据分析、发现经验现象,并基于经验现象提出、证实或证伪假设,(点击此处阅读下一页)

    进入专题: 大数据法律研究  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 法学 > 理论法学
本文链接:http://www.aisixiang.com/data/112026.html

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2018 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
易康网