李小恺 戴士剑:从“数据大”到“大数据”:电子数据取证及审查的范式嬗变与模型建构

选择字号:   本文共阅读 414 次 更新时间:2026-01-17 23:28

进入专题: 人工智能   大数据技术   证据法  

李小恺   戴士剑  

来源:《国家检察官学院学报》2026年第1期。

     要随着人工智能与大数据技术的深度融合,电子数据取证正经历从“数据大”(Large Data)向“大数据”(Big Data )的范式跃迁。这一嬗变不仅是数据体量的增长,更是取证逻辑从“静态复原”向“动态认知”、从“确定性事实”向“概率性预测”的认识论转型。然而,现行刑事司法体系仍囿于“镜像固证”的传统逻辑,在面对算法黑箱、数据偏见及责任主体虚化时,遭遇了证据合法性难确立、关联性难解释、真实性难验证的结构性困境。在厘清“数据大”与“大数据”在电子数据取证语境下的本体差异、揭示智能技术介入对证据“三性”结构的冲击基础上,提出对电子数据证据“三性”的实质化改造路径,进一步构建“三维智能取证证据审查模型”“动态合规取证分级矩阵”和“智能取证能力成熟度评估模型”,以期为智能时代电子数据证据审查提供一套兼顾技术理性与司法正义的模型化工具体系。

 

引言:技术迭代下的证据法危机

在数智化转型的浪潮中,刑事司法体系正在经历一种“静悄悄的革命”。以电子数据为核心的证据结构正在迅速取代以物证、书证为主的传统格局。但现行《刑事诉讼法》及相关司法解释对电子数据取证的制度设计,仍然以静态存储介质为基本前提:立法者与司法者假定,取证对象是相对单一的硬盘、服务器、移动终端,证据生产过程可以通过一次性镜像、哈希校验和链条记录予以完整再现。电子数据规则强调“原始载体”“复制件”“封存”“校验”等概念,本质上都建立在这一可封存、可复制、可重演的技术想象之上。

然而,“数据大”(Large Data)正向“大数据”(Big Data)跃迁,这一想象随之迅速松动。事实上,全球数据总量在近十年呈指数级增长,并将在未来数年持续攀升,数据形态也从结构化静态记录演化为跨平台、多模态的行为流。在这一环境下,侦查活动很难再被理解为对某一存储单元的瞬时截取,而更多是对跨平台、跨主体、跨时段的行为流进行长期监测、实时分析和持续重构。

司法实践中,“数据大”与“大数据”的界限长期被模糊认识。前者描述的是证据数量扩张,但是仍然遵循镜像固证的静态重现逻辑;而后者则是指向跨平台数据流和算法,结论呈概率性模式识别,其实质并不是更多的证据,而是不同类型的事实构成方式。因此,传统以“镜像固证”为核心的电子数据取证逻辑遭遇了系统性冲击。其一,在合法性维度上,大数据取证往往表现为对平台侧、云端侧数据的持续接入与算法驱动分析,难以清晰纳入现有搜查、调取、技术侦查等程序类型之中,侦查权的运行呈现出“时间拉长+空间扩展”的复合态势。其二,在真实性维度上,司法机关通常难以接触到未经预处理的原始数据,只能依赖平台或技术供应商提供的结果集,证据生产过程高度黑箱化,传统通过比对载体、校验哈希值来判断真伪的方法失去抓手。其三,在关联性维度上,越来越多的证据结论是基于大数据相关性分析、预测性模型生成,例如预测性警务对高风险区域的标注、风险评估系统对再犯概率的打分,这类统计关联与刑事证明中排除合理怀疑的标准之间存在明显张力。

与此同时,人工智能技术(AI)深度嵌入取证实践,使问题更为复杂。一方面,AI作为取证工具参与海量电子数据的筛选与研判——从人脸识别、轨迹重建,到资金穿透分析、社交网络图谱构建——极大提升了办案效率,却也在可解释性、偏见与责任归属层面制造新的程序风险。另一方面,当AI系统自身成为涉案对象时(如自动驾驶事故的决策日志、生成式人工智能(AIGC)深度伪造视频在诈骗中的使用),司法机关面临的是如何对算法行为链、模型输出进行取证与审查的难题:深度伪造技术已经显著动摇了“视听资料天然具有高证明力”的传统假定,法院在面对“被告主张视频系深度伪造”“控方依赖算法检测报告”时,如何配置举证责任、如何评价检测工具的科学性与可靠性,尚缺乏成熟规则。

由此可见,智能时代电子数据取证和证据审查之危机,并非简单的技术滞后,而是证据法本体假定与数据实践之间的结构性错位。若仍停留在工具合规性审查的思路,将大数据、AI视为可简单套入既有规则的新证据种类,既无法回应“算法黑箱”“数据偏见”“责任主体虚化”等新型问题,也可能在无意中削弱被追诉人质证权、对抗权和程序性防御空间。反之,若在技术风险的压力之下采取一刀切否定的策略,拒绝接纳任何基于AI、大数据生成的证据,又势必导致司法事实发现能力的倒退,不利于打击高度隐蔽、跨境化的网络犯罪和洗钱活动。

本文正是在此问题意识基础上展开讨论。与单纯从技术视角描绘AI取证新场景的研究不同,本文将以证据法理为主线:首先,在本体论层面厘清“数据大”与“大数据”的范式区别,揭示从“静态复原”到“动态认知”的转变如何重构电子数据证据的真实性、关联性和合法性结构;其次,在教义学层面提出对电子数据证据“三性”标准的实质化改造思路,论证从“载体真实、形式合法、事实关联”走向“系统可信、过程透明、概率可校验”的规范进路;最后,在方法论层面,尝试构建三维智能取证证据审查模型、动态合规取证分级矩阵和智能取证能力成熟度评估模型,将前述本体分析与规则重构转化为可操作的模型化审查工具体系,为智能时代的电子数据证据审查提供一套兼顾技术理性与司法正义的模型化路径。

一、本体论分野:“数据大”与“大数据”的取证范式差异

在侦查取证的语境下,“数据大”(Large Data)与“大数据”(Big Data)并非仅是数量级上的差异,而是代表了两种截然不同的证据生成逻辑与司法认知范式。如果说“数据大”取证是对传统物证提取思维的数字化延伸,那么“大数据”取证则是一场彻底的认知革命,它改变了司法机关发现事实、认定事实乃至定义事实的方式。

(一)从“静态复原”到“动态认知”

厘清“数据大”(Large Data)与“大数据”(Big Data)的本体差异,是理解智能时代电子数据取证嬗变的起点。在传统电子数据取证语境中,“数据大”更多意味着数量层面的巨大,其思维范式仍然是对静态记录的再现。早期单机取证中,办案人员所面对的不过是数以万计的文件、日志或通信记录;进入网络化阶段,即便服务器集群、云盘账号等使得数据体量呈爆炸式增长,取证技术的应对之道仍然是“全盘镜像+哈希校验”的加量版:只要可以对相关存储介质实施镜像复制,获取一份稳定的比特流复制(bit-stream copy),再辅之以哈希值、一致性校验,就可以在逻辑上保证原始性与完整性,从而为后续的真实性审查提供基础。此时,“大”的只是载体所承载的信息量,而非证据生成逻辑本身。

与此不同,“大数据”所标示的是一整套关于事实生成与认知方式的转变。其一,在数据来源上,大数据不再依附于单一物理介质,而是呈现为跨平台、跨设备、跨主体的行为轨迹集合。从智能手机、可穿戴设备、车联网终端,到社交媒体、线上交易平台、云服务日志,任何一个具体案件的侦查与证明,都可能牵涉多个不同主体控制的分布式数据节点。其二,在时间结构上,大数据具有显著的流动性。许多数据是实时生成、实时更新的,例如位置轨迹、物联网传感器读数、实时风控模型输入输出等,很难通过一次性操作进行彻底固定。其三,在处理方式上,大数据依赖于算法驱动的自动化分析。无论是传统的统计学方法,还是深度学习、图计算等机器学习技术,取证过程不再是侦查人员逐一检索、比对记录,而是构建模型、设定参数,通过算法在数据海洋中自动发现异常模式、高风险对象、可疑路径。

在这样的情境下,电子数据取证的认知对象悄然发生变化。传统“数据大”模式下,侦查人员试图通过技术手段重建已经发生的确定性事实,例如恢复某一时间段内的聊天记录、还原某一文件的修改历史、证明某一IP地址在某时段曾访问特定网站。“真实”被理解为对过去状态的最大限度接近,因此“静态复原”成为取证的主导目标。而在“大数据”范式下,侦查工作更多是对正在发生或可能发生的行为趋势的捕捉与判断。通过对历史数据进行建模,对当前数据进行实时比对,从而推断某一主体是否具有较高的犯罪风险、某一账户是否参与洗钱链条、某一地区是否需要增加警力。这种取证方式产出的往往是概率性判断和相关性结论,而非单一事实陈述,其认识论基础更接近关联论与预测论,而不是还原论。

可以说,从“静态复原”到“动态认知”的转向,是“数据大”与“大数据”最具实质意义的分界线。前者将电子数据视为已经发生行为的数字化痕迹,重心在于如何防止其被篡改、删除;后者则将电子数据视为可不断再加工的认知原料,重心在于如何通过算法不断发现新的模式和结构。正是在这一意义上,“大数据”不仅改变了侦查机关看待案件事实的方式,也对证据法传统中的“事实—证据—证明”三分结构提出了挑战。当事实本身越来越多地以概率分布、风险评分、模式聚类的形式出现时,传统以确定性命题为核心的证明逻辑将如何调整,这成为电子证据理论无法回避的根本问题。

从司法技术史的角度看,大数据与人工智能并非单一取证工具,而是重塑了案件事实被“发现、组织与呈现”的整体框架。正因如此,若仍简单地把大数据取证理解为证据数量变大,无异于用旧有范畴遮蔽新问题,不仅难以及时识别其中潜伏的程序风险,也可能在不自觉间把大量基于统计推断的认知结果误当作传统意义上的事实陈述直接引入裁判过程。

(二)证据属性的结构性异化

范式的转变最终要落实到证据属性的重构上。从“数据大”到“大数据”的跃迁,并非只是证据数量的增加,而是对电子证据真实性、关联性和合法性三大属性的结构性异化。若不在本体层面加以辨析,试图用既有“三性”框架机械套用新型证据,将难以识别新风险,同样也无法发挥新技术在事实发现中的积极功能。

在真实性维度上,传统电子数据制度将原始性和完整性建立在载体同一性之上。通过对硬盘、光盘、移动存储介质的镜像复制与哈希校验,司法机关可以相对自信地宣称:当前用于审查的电子数据,与取证时封存于特定介质中的比特序列完全一致。真实性审查因此围绕载体是否被更换以及文件是否被篡改等问题展开,取证设备与软件的可靠性问题,虽也重要,但在结构上仍属辅助问题。在大数据环境下,这种载体中心论难以为继。一方面,取证对象往往是分布于不同服务器、云节点、终端设备上的分片数据,难以通过对某一物理介质的封存来覆盖全部相关信息;另一方面,平台在将数据提供给司法机关之前,通常已经进行了复杂的预处理、清洗与聚合,侦查人员所得的结果集,在技术上已经脱离了原始数据的存储状态。真实性的焦点因而前移到数据处理流程和系统整体可信度:算法如何选取样本、如何清洗异常值、如何进行特征提取,这些过程是否被完整记录并可供事后复核,成为判断证据真实性不可回避的组成部分。

在关联性维度上,“数据大”时代的电子数据证据仍然以直接或间接关联具体事实为基本目标。电子邮件、聊天记录、访问日志、交易流水等,通常可以被解释为对特定时间、地点、行为的直接记录,或者至少是在逻辑上可追溯、可解释的中间环节。法官在审查关联性时,关注的主要是这条记录与待证事实之间是否存在合理联系、该记录是否足以支持某一证明命题等。在“大数据”模式下,大量证据结论呈现出典型的统计关联特征,例如预测性警务系统标注的“高风险区域”、风险评估工具给出的“再犯概率打分”、基于图算法得出的“可疑关系网络”等。既有研究表明,此类算法往往建立在包含结构性偏见的历史数据之上,可能在无形中强化对特定群体、特定地区的不利推断。这类基于相关性的风险判断,难以与以排除合理怀疑为核心的刑事证明标准直接等同;在关联性审查中如果缺乏对这一结构差异的自觉,简单地将算法输出视为“高科技版证据”,就有可能在实质上降低证明门槛,使部分被追诉人仅凭概率性判断而承受不利后果。

在合法性维度上,从一次性取证到持续性介入的转折尤为关键。传统证据制度设想的取证行为,多为在特定时间点上实施的个别措施,例如搜查、扣押、调取、勘验等。程序法通过事前审批、现场见证、范围限制等机制,对这类行为施加外部约束。大数据侦查实践中,越来越多的取证活动表现为对平台数据接口的长期接入、对用户行为的连续跟踪和对全库数据的周期性扫描。此类持续性取证很难被现有程序范畴完全吸收:它既不同于传统的长期监听,又远超出普通调取证据材料的范围,更难简单地被归入技术侦查措施的狭义范畴。与此同时,这种无感取证的常态化,使得侦查权对个人信息、数据权益的侵入变得更为隐蔽和深远,现有以“地点—时间—物件”为核心的搜查、扣押规则,很难对其施加有效约束。如何在合法性审查中纳入对取证持续性、数据敏感度、人数范围和算法处理目的的综合衡量,成为大数据环境下电子证据制度不得不回答的新问题。

(三)本体区分对证据规则的规范含义

前两节从事实本体与认识论基础层面,勾勒了“数据大”与“大数据”两种取证范式的结构性差异。在规范维度上,这种差异并不能仅停留在概念分析层面,而是应当转化为证据规则与程序设计的具体分野。换言之,如何在制度上承认并吸收这种本体区分,决定了电子数据取证能否在智能时代保持规范的稳定性与适应性。若忽视二者差异,继续以一种一体适用的规则框架涵盖所有电子数据取证活动,要么在“大数据”场景下陷入规制真空,要么在“数据大”场景中人为提高程序负担,均不利于刑事司法的有序运行。

其一,本体区分首先意味着应当在规范层面明确划出可以沿用既有规则的范围,避免制度不必要的推倒重来。在“数据大”范式下,取证对象仍然是可识别、可封存的存储单元,证据生产过程主要通过一次性镜像和哈希校验得以控制,传统电子数据司法解释中关于“原始载体”“复制件”“封存”“校验”的制度设计,依然具有高度适用性。这一部分实践恰恰是现行规则的舒适区,在立法与司法解释上更应当通过释明性规定予以确认:凡取证行为主要针对静态存储介质,且能够通过镜像复制、校验等方式形成可再现的比特流副本的,应适用现有电子数据规则,以保障规则延续性和司法可预期性。在这一范围内引入过于复杂的算法审计、风险分级等机制,不仅增加办案成本,也会稀释“三性”标准的操作性。

其二,本体区分更为关键的规范含义,在于识别出现有规则的断裂地带,为大数据取证创设一个具有独立意义的适用空间。正如前文所述,当取证对象转向跨平台行为流、实时数据流与算法生成的认知结果时,以载体封存为中心的制度逻辑便难以完全发挥作用;此时若仍然机械援引原始电子数据、复制件等概念,往往只能在形式上完成合规自洽,却无法触及真正需要审查的技术流程与系统结构。规范上的合理路径不是简单宣布现行规则失效,而是承认大数据取证作为一种特殊类型的取证模式,在适用一般规则的基础上附加若干加层要求。例如,可以在司法解释层面通过概括性条款对大数据取证予以界定,将跨主体、跨平台、跨时段的行为数据聚合处理,以及依赖算法模型对海量数据进行自动化分析等特征纳入定义,并明确:凡符合该定义的取证活动,在满足一般程序要件之外,还应遵守特定的流程记录义务、算法说明义务与风险评估义务。

其三,从证据法教义学角度看,本体区分还要求在“三性”审查内部建立一种层级化适用的结构,而不是一刀切地将所有电子数据证据一律纳入同一审查强度。在“数据大”场景中,真实性审查仍以载体同一性为核心,关联性仍主要围绕具体事实命题展开,合法性审查侧重于传统搜查、扣押、调取程序有没有依法履行,审查重心相对明确;而在“大数据”场景中,真实性审查必须嵌入对算法流程、数据谱系的核查,关联性审查需要面对概率性结论与证明标准之间的张力,合法性审查必须评估持续性取证对个人信息权、数据权益的整体侵入效应。这意味着:在既有证据“三性”框架之下,应确立不同取证范式对应的审查要素与审查强度,而不能简单采用一套统一的、以静态存储为前提的检查清单。否则,要么对大数据证据审查不足,要么对传统电子数据过度审查,均有失均衡。

其四,本体区分还具有程序类型重构的规范意涵。传统程序法以单次取证行为为单位,将侦查权配置为若干离散的强制措施类型,如搜查、扣押、技术侦查等,并分别附加不同的批准门槛、适用条件与监督机制。在大数据取证场景下,取证活动呈现出明显的长期性、连续性与高度技术依赖性,其对权利的影响更接近持续监控,而非一次性侵入。若仍然试图将其硬性归入既有程序类型,不仅难以反映权力运作的真实强度,也会模糊司法审查的着力点。因此,从规范设计上,应当在维持原有程序类型体系的基础上,考虑增设一类以“大数据取证”或“智能取证”为对象的程序框架条款,对持续性接入平台数据、频繁调用算法模型、跨库聚合分析等行为设定统一的审批、告知、记录与评估要求,使之成为横贯各类传统措施之上的元程序。本体区分在此转化为程序结构上的纵横交错:横向保留搜查等传统类型,纵向通过大数据取证框架对其中涉及智能技术的部分施加追加约束。

其五,从司法适用路径看,本体区分还可以对法官在个案中如何认定取证范式给出明确指引。实践中同一案件往往兼具“数据大”与“大数据”两种成分,例如既存在对某一终端的镜像复制,也存在对平台日志的大规模分析;若无清晰的范式识别标准,法官在审查证据时就难以判断应适用何种审查强度。规范上可以考虑引入若干识别性指标,如:取证对象是否以单一介质为承载、是否涉及跨主体聚合、取证过程是否主要依赖算法模型、是否存在持续性数据接入等,并据此将不同证据材料划归相应范式,再分别适用相应的证据审查要素包。这不仅有助于提升裁判的自洽性,也为上级法院的类案指导和司法解释的细化预留空间。

最后,本体区分为后文提出的智能取证治理工具提供了规范定位。智能取证模型所要刻画的,并非抽象意义上的所有电子数据,而是特别针对“大数据+AI”取证场景中暴露出的技术、法律与伦理三维失衡,提供一套可操作的审查坐标;动态合规取证矩阵试图构建的,也不是一般证据规则的替代品,而是在承认“数据大—大数据”差异的前提下,为不同风险级别、不同取证范式提供差异化的合规指引。换言之,只有在证据规则层面预先承认“数据大”与“大数据”的本体区分,智能取证模型与合规矩阵才有用武之地,否则就会沦为与现行制度平行的外部方”,难以真正嵌入司法实践。正是在这一意义上,本体区分不仅是理论分析的起点,更是方法论重构与制度设计的基础坐标。

二、电子数据证据“三性”标准的实质化改造

在以“数据大”为前提构建的传统电子证据制度中,证据的合法性、真实性、关联性具有高度的抽象性与稳定性,更多充当的是一种形式审查框架。前者着眼于程序是否依法授权,后两者则分别指向载体与内容有无变动以及证据与待证事实之间是否存在逻辑联系。在静态存储、集中载体的取证本体之下,这套结构一度行之有效。随着“大数据+AI”取证对象由单一介质转向跨平台行为流与算法生成结果,取证过程由一次性截取转向持续性接入,事实建构愈发依赖黑箱化模型与概率性推断,三性的形式化理解逐渐暴露出“外严内松”的结构性张力。为回应这种变迁,有必要在保持三性基本语汇不变的前提下,对其内在结构进行实质化改造:从形式合法走向过程透明,从载体真实走向系统可信,从事实关联走向概率可校验。

(一)从“形式合法”到“过程透明”:大数据与AI取证的程序重构

在传统电子数据证据语境中,合法性审查主要围绕若干外在要素展开:是否具备法定事由,是否履行必要的批准手续并出具规范法律文书,是否在授权范围和限定场所内实施取证等。由于取证对象多为具体的场所、物件和终端设备,程序设计在时间上呈现一次性介入,在空间上呈现局部圈定,事前审批、现场见证和范围限定等机制据此构成了较为清晰的外部约束。在这种框架下,形式化的合法性审查原则上足以反映侦查权运行的实质强度。

“大数据+AI”取证打破了这一前提假定。首先,取证行为表现为对平台数据接口的持续接入、对用户行为轨迹和关系图谱的长周期监测,乃至对全库数据的定期扫描与自动化分析,侦查权在时间轴上的拉长和在客体范围上的扩展,远远超出了一次性搜查、调取的传统想象。其次,AI工具以风险评分、高危名单、异常预警等形式嵌入办案流程,事实筛选与对象锁定在进入正式程序之前,已大量由技术系统预先完成;侦查人员往往只采纳系统输出,而未必自觉认识到这种采纳本身就是一种权力行使。最后,平台与技术供应商在数据清洗、指标准备、模型训练、阈值设置环节的选择,实质上决定了哪些主体被纳入监测视野、哪些行为被视为高风险,然而在现有程序框架下,这些关键环节几乎完全处于程序视野之外。在此情形下,若合法性审查仍然只停留在是否有批准决定、是否有调取手续这一层面,即便形式上完备,也难以触及大数据与AI取证所固有的持续性、系统性权力扩张。

因此,合法性的实质化改造,首要任务是将审查对象由孤立的取证行为拓展为贯穿数据采集—传输—处理—输出的全过程,从而实现从形式合法向过程透明的转型。具体而言至少包括三项核心要素:其一,授权基础与适用边界的实体化。对于持续性接入平台数据、跨主体聚合行为流、依赖模型自动筛选嫌疑对象等取证模式,应当在法律或司法解释层面以概括性条款予以定义,明确其适用条件、范围与期限,对高度敏感数据和高风险应用设置更高的批准门槛与更严格的范围限定,防止大数据取证被默认为调取证据材料的简单延伸。其二,过程记录与可审计性的制度化。凡属大数据与AI取证,应当对数据接入时间、范围、类型、调用频率、模型版本、参数调整、阈值修改等关键行为全程留痕,形成可供事后追查的程序日志;当事人救济、上级机关监督、检察机关法律监督以及法院个案审查均应当有权在必要范围内调取这些记录,以核查取证行为是否真正受控。其三,程序参与与权利救济的嵌入式设计。对于高风险、强侵入性的大数据取证,应当探索在事后阶段通过通知权、说明权等机制,为被监测对象提供最低限度的程序知情与异议渠道;对因技术取证导致的程序权利侵害,应通过排除规则、不利推定、责任追究等方式形成激励—约束结构。

在这一意义上,合法性不再是办案机关与技术供应商合力完成的一套文书包装工作,而是对整个技术流程是否处于可监督、可追问状态的整体评价。只有实现这一重心转移,程序法才能真正进入大数据与AI取证的内部,而非被排除在技术黑箱之外。

(二)从“载体真实”到“系统可信”:算法时代真实性的扩展要素

“数据大”范式下,电子数据的真实性审查长期建立在“载体中心论”之上。通过对硬盘、光盘、移动存储介质实施镜像复制和哈希校验,司法机关可以在高度确定的前提下宣称:当前审查的数据与取证时封存在特定介质中的比特序列完全一致,从而以载体同一性为支点推定内容的原始性与完整性,真实性问题因此被压缩为数据是否存在篡改、删减、伪造的相对简单判断。即便在网络取证阶段,电子邮件、访问日志等证据也往往可以通过对服务器存储记录的比对与校验来确认其原始状态。

“大数据+AI”情境中,这种以载体为核心的真实性结构遭遇了双重解构。一方面,取证对象不再附着于单一物理介质,而是分布在云端服务器、内容分发网络、终端设备和物联网传感节点等多元场所,司法机关直接获得的往往不再是一份原始数据拷贝,而是经平台清洗、聚合、脱敏、建模后的结果集;数据在进入侦查视野之前已多轮流转,载体同一性的证明力大幅弱化。另一方面,AI模型作为证据生成与筛选的关键环节,其内部运作方式往往难以被直观理解,深度学习模型、复杂图算法等在“抽取特征—生成结论”的过程中,形成了一个对非专业人士而言高度不透明的决策链。此时,即便能够证明某一风险评分、相似度矩阵或图谱结构自生成以来未被篡改,也难以据此推定其内容即与客观事实具有足以令人信服的一致性。

在这种情况下,真实性的实质化改造,就必须从载体真实的一元标准转向系统可信的多元要素。具体而言,至少可以从以下几个方面展开:第一,数据谱系的完整性。对于依赖大数据与AI生成的证据结论,应尽可能重构从原始数据到最终输出的关键节点,包括数据采集源、预处理规则、特征选取与维度变换过程等。即便无法保存全部原始数据,也应通过抽样、摘要、日志记录等方式保证这一链条在证据上具有可再现性。一旦出现断裂,例如关键中间结果未保存、模型版本无记录,真实性便应当受到实质性怀疑。其二,模型与方法的可检验性。证据审查不应满足于“这是一个业内常用的系统”这类笼统表述,而应追问所采用的模型在何种数据上经过测试,其错误率与置信区间大致如何,在何种情境下容易出现误判或偏差;必要时,应通过引入同行评议、技术标准或第三方评估报告,强化模型可检验的基础。其三,适用性与偏差控制。同一模型在不同数据类型、不同人群结构、不同案件场景中的表现可能大相径庭,司法机关不能简单以技术先进作为采用理由,而应审查其训练数据与案件情境之间是否存在基础不相容,是否进行过偏差测试与调整。其四,可重复性与第三方验证的可能性。对于对案件裁判具有关键影响的技术结论,原则上应当具备在合理条件下由同一或其他有资质主体重新运行、获得大致一致结果的可能;若系统完全封闭,既无法复现,也无法被替代工具验证,其真实性就只能停留在一种不可证伪的信念,难以满足证据法上的要求。

在生成式人工智能(AIGC)快速发展的背景下,真实性问题还表现为对视听资料天然高证明力的根本挑战。深度伪造技术使得完全虚构的图像、视频、音频在感官上与真实拍摄难以区分,有其影像并不必然有其行为,传统通过剪辑痕迹、压缩特征识别伪造的路径已日益失效。更复杂的是,各类深度伪造检测工具本身也是基于机器学习的模型,其检测结论同样具有概率性与不确定性——在诉讼中用一套模型的输出去证明另一套模型生成内容的真伪,容易形成“AI对AI”的技术对抗,若缺乏对检测工具错误率、适用范围、训练数据的实质审查,所谓鉴定意见很难承担起恢复事实的重任。因此,将技术合理性纳入真实性审查,绝不是以技术合理性取代真实性,而是将模型可解释性、错误率、适用性与可重复性等技术要素整合为判断证据内容是否足以可信的组成部分。从这一角度看,系统可信不是对传统真实性的否定,而是在智能时代对真实性内涵的必然扩展。

(三)从“事实关联”到“概率校验”:大数据证据的证明力分级与边界

在传统证据法结构中,关联性是一个看似简单却极为关键的概念:证据必须与待证事实存在逻辑联系,足以提高某一事实命题为真的可能性。无论是证人证言、书证还是电子数据,只要其内容与案件事实之间存在可以用常识与经验法则解释的联系,便可被视为具有关联性。即便在“数据大”语境下,电子数据证据多为大量通信记录、交易记录、访问日志等,其内容仍然指向具体的时间、地点、行为或状态,法官可以通过相对直观的推理将其与案件事实串联起来,“关联性”的判断虽有难度,但基本仍然围绕个别事实命题展开。

而在“大数据+AI”的环境下,进入诉讼视野的证据材料越来越多地呈现为模型输出:风险评分、预测性警务系统标注的高危区域,资金穿透分析得出的可疑账户网络,图算法生成的核心节点,甚至是基于行为模式分析得出的疑似共犯名单。这类输出的本质是对海量数据相关性的统计抽象,是一种关于风险结构、行为倾向的概率性判断,而非对某一具体行为的直接记录。在关联性判断上,大致可以区分三类情形:其一,模型输出仅用于缩小侦查范围、聚焦调查对象,本质上仍应被定位为情报线索,而非直接进入证据体系的关联证据;其二,模型输出与传统证据交叉印证,在置信度、错误率处于可控范围且有其他证据予以支撑时,可以在有限范围内增强整体证明结构的说服力,但其关联性证明力显然弱于直接记录具体事实的传统证据;其三,模型输出被当作具有高度证明力甚至接近决定性的依据,例如将高风险评分视为“危险性”判断的主要来源,将图算法生成的关系网络视为共犯结构的关键证据,如果在关联性审查中简单地以“统计相关性”替代个案事实的逻辑联系,实际上就隐含地降低了刑事证明标准,使个别被追诉人仅仅因为“被模型视为高风险”而在羁押、定罪、量刑等环节遭遇不利。

正因如此,在操作层面有必要在关联性审查内部引入一种“概率校验+分级使用”的结构。一方面,将模型输出的置信度、错误率指标纳入对关联性的考量,要求控方在依赖大数据分析结果时说明其可靠性依据。另一方面,将大数据与AI生成的结果划分为不同层级,例如将经严格验证且与其他证据相互印证的结果作为高置信度关联证据,可以在一定条件下作为定案的补强依据;将可靠性尚可但缺乏独立验证的结果作为中等置信度关联证据,只能与其他传统证据结合使用,不得单独支撑有罪结论;将错误率难以估计或对偏见高度敏感的结果严格限定为侦查线索,禁止在裁判文书中作为证明理由援引。通过这样的分级结构,可以在承认大数据证据具有一定认知价值的同时,防止其在证明结构中获得与其可靠性不相称的地位。

与此同时,还应警惕大数据分析在事实筛选阶段对关联性判断所造成的前置扭曲。算法偏见与自动化偏见往往在案件进入正式审理之前,就通过“谁被纳入重点关注”“谁被列入高危名单”等方式,悄然重塑了事实构成的边界。某些群体被系统性地置于更高风险标签之下,被检索、盘查、侦查的概率显著提高,从而在统计上更容易被发现犯罪,司法者若对这一机制缺乏认识,很容易在审理阶段继续接受这种技术预筛的结果,将其视为客观事实的自然呈现。将这一现象纳入关联性的实质化审查,意味着不仅要审查证据与事实是否有关,还要追问这一关联是在不偏不倚的事实筛选基础上形成,还是在偏见结构塑造之下生成。

三、智能时代电子数据证据审查的模型化路径

从前文的分析可以看出,智能时代电子数据证据审查的首要难题,并非单一规则的缺位,而是审查要素过多、结构松散。在“大数据+AI”的场景下,合法性审查既要考察授权基础、持续性介入和跨境流转,真实性审查又要追问数据来源、处理流程与算法版本,关联性审查还要区分线索性推断与定案性证明,而且三者之间彼此牵连,很难逐项穷尽。与此同时,智能取证构成一个“技术—程序—权利”高度交织的场域:同一平台、同一接口往往既承担数据获取、清洗和建模的技术功能,又通过风险评分、模式识别直接影响侦查决策乃至裁判结果,单纯依赖逐条对照法律条文的方式,难以形成对整体风险的清晰把握。更为棘手的是,技术提供方掌握着模型内部结构和数据处理细节,侦查机关掌握着取证流程与内部决策路径,而被追诉人及其辩护人往往处于信息链条的末端,在缺乏结构化呈现的情况下,很难明确应当围绕哪些关键环节发问、质证。正因为如此,证据审查亟须一种模型化的工具,将分散的技术指标、程序要件与权利影响整合到同一坐标系之中,使审查者能够在有限的注意力和篇幅内,对大数据与人工智能介入案件事实认定时可能产生的系统性风险,形成可视化、可沟通的整体判断。

基于上述考虑,本文在前两部分本体分析与“三性”实质化改造的基础上,提出三个相互衔接的模型,以期在方法论层面加以具体化和工具化:三维智能取证证据审查模型,将“技术可信性—程序正当性—权利影响”三个维度整合为一个审查图式,对应前文对合法性、真实性与关联性的重写;动态合规取证矩阵,则是把“不同本体范式+不同权利风险”的取证活动,划入不同的审查强度区间,对应前文对大数据取证本体分野及其权利侵入强度的分析;智能取证成熟度等级评估模型,则是承接前文关于程序类型重构与责任结构重塑的讨论,用以回答在什么样的制度条件下运用智能取证才值得信赖。

(一)三维智能取证证据审查模型:技术—程序—权利的立体校验

在前文对电子数据证据“三性”标准进行实质化改造的基础上,可以看到,智能时代的证据审查已不再是围绕单一载体、单一程序的线性检查,而是同时牵动技术实现、程序路径与权利影响的复合场域。所谓“三维智能取证证据审查模型”,正是试图在这一基础上,将零散的风险要素收束为“技术—程序—权利”三个彼此支撑的维度,对同一份电子数据证据进行立体化检视。

从技术维度看,三维模型要求法院和检察机关不再停留在载体同一性、比特流一致性的层面,而是审查支撑该证据的系统本身是否值得信赖。具体而言,应当围绕数据来源是否可追溯、处理流程是否留痕、算法模型是否经过基础验证、输出结果的误差范围和适用边界是否被如实披露等要素,形成一套可以被质询、可以被质证的技术说明书。技术维度的核心任务,就是把抽象的“系统可信”拆解为若干可以具体发问、可以提出反驳的审查事项。

从程序维度看,三维模型把“形式合法”下沉为对整个取证与分析过程的可追问性。与一次性取证相比,大数据与AI取证往往表现为长周期接入、全库扫描和多轮模型迭代,程序合法性因此不再仅是有没有批准手续、有没有调取函,而是要回答:何时接入、接入多久、接入了哪些数据、是否设置范围和频率边界、是否留存可事后复核的操作日志。程序维度的要求,不在于简单叠加审批环节,而在于通过完整留痕和可复盘的流程设计,使权力运行本身处于可被描述、可被质疑的状态。

从权利维度看,三维模型则把前文关于算法偏见、自动化偏见以及责任主体隐身化的分析,具体化为对程序正义与平等保护的考量。在大量依赖算法筛查、风险评分和行为预测的场景中,需要系统评估:这种取证方式是否对特定群体造成结构性不利影响,被追诉人是否有现实机会了解并质疑算法的基本原理和适用范围,技术供应商在错误和滥用中的责任是否可以明确追溯。权利维度因此提醒司法者,技术手段不仅是个案中的证明工具,也是权力结构的一部分,其对防止歧视性执法、保障武器平等的影响,必须纳入证据审查的视野之中。

在上述三维结构下,同一份智能系统环境下的电子数据证据,可能在技术、程序、权利三个维度呈现出截然不同的面貌。有的证据在技术维度上存在显著不确定性,却在程序维度上留痕完整、权利维度上影响有限,或许可以在说明理由后作为辅助性证据使用;有的证据技术上看似先进,程序上手续齐全,但在权利维度上造成严重的歧视性效果,则其证明力和可采性均应受到严格限制。三维智能取证证据审查模型的意义,不在于为每个维度预先设定一个刚性阈值,而在于为司法者提供一个立体看待技术证据的结构,使其在裁判说理中可以清晰地解释:何以在技术不确定的情形下仍然有限采信某种证据,或何以在程序形式完备的情形下仍然对某类技术证据持保留态度。

(二)动态合规取证矩阵:场景分级与程序强度配置

若说三维智能取证证据审查模型主要回答如何在同一案件中立体地看待一份技术证据,那么动态合规取证矩阵讨论的,则是在什么样的取证场景中,应当施加多大的程序强度。在“大数据+AI”的实践中,如果对所有智能取证一概适用最低程序要求,难以遏制技术滥用;反之,若一律施加最高强度控制,又会显著挤压办案资源,使正常侦查难以为继。矩阵化思路正是试图在二者之间寻找一条可操作的中间路径。

动态合规取证矩阵的基本思路,是在承认技术差异与风险差异的前提下,通过场景化分级来配置不同强度的程序要求。一方面,以数据类型及敏感度为一条轴线,将传统结构化业务数据、一般身份识别信息与高度敏感的生物特征数据区分开来;另一方面,以用途和影响范围为另一条轴线,将用于案件线索筛查、用于采取强制措施、用于定罪量刑的不同用途加以区分。两条轴线交叉形成的矩阵,使人们能够直观地看到:调取单一单位的业务日志,与调取全国性平台的全量用户行为库,显然不处于同一风险等级;利用规则检索查找特定邮件,与运用深度学习模型对全网内容进行情绪分析,在程序上也不应等量齐观。不同情况对应不同的程序要求:有的可以在现行制度基础上通过内部规程加以细化,有的则需要引入更高级别的审批、外部监督乃至事后通知与救济机制。

这种矩阵化的安排,使得前文关于程序类型重构的讨论获得了一个更直观的载体。以长期位置轨迹分析为例,在没有矩阵的情形下,它在制度上容易被归入普通调取通信记录的传统类别,从而享受较为简化的批准程序;而在动态合规取证矩阵之中,长期轨迹数据作为高度敏感的行为信息,即使在单一案件中使用,也因持续性、可拼接性而被定位为高风险场景,对应的程序自然应当上移一个台阶,需要附加更为严格的审批与记录义务。同理,大规模人脸识别布控、基于生物特征的自动化风险评分,在矩阵中处于数据敏感度与风险等级双高的位置,其取证行为理应受到比一般技术侦查更为严苛的规范约束。

动态合规取证矩阵并不直接决定证据的可采性,但它在证据审查机制中发挥着前置阀门的作用。当法院在审查某一经由大数据平台获取的电子数据时,如果发现该取证行为从矩阵角度看应当被视为高风险场景,却在实践中仅适用了低风险场景对应的简易程序,就有理由在可采性上持更加严格的态度,或者在赋予证明力时给予合理折扣。这种“程序强度—风险等级”的匹配思路,与传统证据法中程序违法对证据效力的影响并不冲突,而且是将其扩展到智能取证所特有的长周期、广范围、深侵入场景中,从而使前文提出的过程透明、概率校验原则,真正转化为可以指导个案操作的规范工具。

(三)智能取证成熟度等级评估模型:机构能力与审查强度的匹配

在讨论个案证据审查与场景分级之后,还需要回答一个容易被忽略的问题:当我们谈论大数据平台、智能研判系统时,究竟是谁在使用这些技术、在怎样的制度条件下使用这些技术。不同司法机关在技术治理能力、内部制衡机制、权利保障传统等方面差异显著,同样的技术在不同机构手中,其风险面貌也很不相同。如果忽视这一层面的制度差异,只在案后审查单一证据和单一行为,往往会陷入“头痛医头、脚痛医脚”的局部应对。

智能取证成熟度等级评估模型,正是从机构视角出发,对上述问题作出的回应。所谓“成熟度”,并不指技术本身先进与否,而是指某一司法机关在引入和运用智能取证技术时,是否形成了相对稳定的程序规则、内部制衡和权利保障配置。处于较低成熟度阶段的机构,往往由业务部门主导技术引进,程序法与人权保障部门介入有限,对算法风险的识别与应对更多依赖个案补救;与之相对,成熟度较高的机构则通常在系统立项之初即纳入程序法、证据法和合规部门,对数据来源、功能定位、使用边界进行前置论证,并在运行过程中通过审计、评估和公开报告等机制持续校正偏差。

在证据审查机制中,引入成熟度评估模型的意义,在于为三维审查模型与动态合规取证矩阵提供一个制度背景参数。当某一关键电子证据来自成熟度较低的机构时,法院和检察机关在评估其技术可信度和程序正当性时,就应当提高审查强度;反之,来自成熟度较高、内部规则较为完备的机构的证据,并非当然可信,但可以在合理限度内给予更多的初始信赖。换言之,成熟度评估并不是赋予某些机关以“技术特权”,而是在强调:判断技术证据是否值得信赖,不能将其视为脱离制度环境的中性工具,应当把提供者自身的规范能力一并纳入考量。

从改革的视角看,成熟度评估模型还为分层推进智能取证制度建设提供了一条较为现实的路径。与其在立法上对所有司法机关一刀切地提出高标准,不如在尊重现实差异的前提下,鼓励部分机构率先提升自身成熟度,在较高规范水平下试行三维审查模型和动态合规矩阵,并通过典型案例和业务规范的方式,将成功经验向外扩散。随着更多机构完成从技术依附向规则内化的转变,智能取证成熟度本身也可以逐渐转化为一种软性的外部监督工具,促使各机关在追求侦查效率的同时,同步提升程序意识与权利意识。

(四)基于模型的电子数据证据审查机制改革

上述三个模型的提出,并不是为了在现有证据规则之外另起炉灶,而是为了在从“数据大”到“大数据”的取证嬗变背景下,为证据三性标准的实质化改造提供可落地的工具。基于此,本文最后尝试提出一套以模型为支撑的电子数据证据审查机制改革思路。

首先,在立法与司法解释层面,可以通过概括性条款为模型化审查预留空间。具体而言:一方面,在电子数据相关司法解释中,在合法性、真实性、关联性的条文表述中增加若干开放式要素,如数据处理过程的可追溯性、算法方法的可说明性与错误风险、技术手段对当事人权利的整体影响等,使三维审查模型有明确的规范基础;另一方面,在大数据取证条款中引入“风险分级—程序强度匹配”的原则性表述,为动态合规取证矩阵提供上位法依据。成熟度评估模型则可以通过业务指导意见和工作规范的方式逐步制度化,而不必一开始就写入法律。

其次,在司法机关内部工作机制层面,可以试点建立以模型为核心的电子证据专门审查程序。操作上,可以考虑由侦查机关在提交依赖“大数据—智能分析”形成的关键电子证据时,一并提交简要的“三维审查说明书”和“场景定位说明书”,前者对应三维智能取证证据审查模型中技术、程序、权利三个维度的基本信息,后者则说明该取证行为在动态合规取证矩阵中的大致位置。检察机关在审查起诉和出庭支持公诉时,对此进行前端把关,对重要案件可以要求补充说明或独立技术评估。法院在审查可采性和证明力时,可以以这两份说明书为基础展开针对性讯问和质证,并在裁判说理中明确回应这两个维度的核心问题。

最后,在外部监督与能力建设层面,可以将智能取证成熟度等级评估模型作为“软约束工具”嵌入检察监督、审判评估和行政考核之中。检察机关在履行侦查监督和法律监督职能时,可以对智能取证活动突出的地区和部门开展专项调查,依据成熟度模型评估其在制度建设、技术能力、权利保障等方面的状况,并据此提出检察建议或制发类案监督文书。审判机关在总结典型案件时,可以结合成熟度评估,提示不同类型机构在运用智能取证技术方面的风险点和改进方向。行政主管部门则可以将成熟度等级作为专业化建设与资源配置的参考指标,鼓励司法机关在提升技术能力的同时,同步完善程序与权利保障机制。

归根到底,三维智能取证证据审查模型、动态合规取证矩阵和智能取证成熟度等级评估模型所构成的证据审查模型体系,其目的并不在于创造一套与现行证据规则平行的新体系,而是在电子数据取证和证据审查范式嬗变中,为传统“三性”框架与程序规则提供一套可适应智能时代的中介机制:既不放弃原有的教义学基础,又通过模型化工具将本体差异、技术风险与制度约束精细化嵌入司法实践。以此为基础推进的证据审查机制改革,有望在兼顾侦查效率的前提下,重新加固电子数据证据的可质证性与可追责性,使“可审计的流程—可解释的模型—可归责的主体”逐步取代镜像即真实、技术即真相的想象,成为智能时代电子数据证据制度的核心支点。

   论

在大数据与人工智能深度嵌入刑事司法的背景下,电子数据证据一方面获得了前所未有的能力扩展,借助行为轨迹重构、资金链条穿透、跨平台数据聚合等手段,司法机关得以更有效地发现隐蔽犯罪、追踪跨境网络犯罪与虚拟资产流转,传统侦查手段难以触及的暗面空间正在被逐步照亮;但另一方面,算法黑箱、数据偏见、自动化偏见以及深度伪造技术,又持续重塑着事实说服力的基础,使得司法对事实的认识越来越依赖难以完全解释的模型输出,视听资料的直观性与电子记录的表面客观性不再天然可靠,若缺乏相应的制度工具,证明标准极易在不知不觉中滑向对技术权威的信赖。面对能力扩张与结构变形的双重态势,本文主张以“从镜像固证走向可审计代码”为总体方向,在厘清“数据大”与“大数据”取证范式差异的基础上,对电子数据证据“三性”标准进行实质化改造,即不再仅停留于载体层面的“原始—复制”形式审查,而是将系统可信度、取证与分析过程的透明可控性以及大数据分析结果的概率属性与置信度统一纳入真实性、合法性与关联性的审查框架之中。相应地,在制度工具层面,本文提出通过三维智能取证证据审查模型、动态合规取证分级矩阵和智能取证能力成熟度评估模型三者构成的模型体系,对智能时代电子数据证据的发现、固定与审查进行结构化支撑。三维智能取证证据审查模型从技术、法律与程序维度刻画不同类型电子证据的审查要点,动态合规取证分级矩阵通过对数据敏感度与合规风险的交叉评估,为不同场景下大数据取证活动设定差异化的程序强度与外部审计要求,智能取证能力成熟度评估模型则用于反思和评估司法机关自身在引入、运用与审查智能取证技术方面的能力边界与发展路径。通过在立法上承认大数据取证的独立地位、设置开放式的AI相关证据审查因素,并在司法实践中以试点方式嵌入上述模型体系,有望在提升事实发现能力与侦查效率的同时,重新加固电子数据证据的可质证性与可追责性,使“可审计的流程—可解释的模型—可归责的主体”逐步取代镜像即真实、技术即真相的想象,成为智能时代电子数据证据制度重构的核心支点。

    进入专题: 人工智能   大数据技术   证据法  

本文责编:chendongdong
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 法学 > 宪法学与行政法学
本文链接:https://www.aisixiang.com/data/171859.html

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2025 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统