徐蕴杰:数据投毒的罪名适用与刑事归责

选择字号:   本文共阅读 1527 次 更新时间:2025-07-20 23:22

进入专题: 数据投毒   大模型幻觉   机器学习   财产犯罪  

徐蕴杰  

 

摘要:人工智能技术发展的新趋势体现为对规模庞大且高质量训练数据的需求和依赖,但同时也给数据投毒的广泛入侵提供了可乘之机。数据投毒对象的特殊性、机器学习的自主决策性以及参与主体的多元性构成了罪名适用和刑法归责难题。在罪名适用时,应将不法行为统合在既有刑法体系之中,无须动辄增设新罪。尽管涉及数据犯罪的样态具有复杂性,但可以根据损害后果的性质直接化归为侵害传统法益的犯罪。在具体适用过程中,针对投毒行为侵害的两类对象,训练集数据和模型数据分别展开讨论。刑事归责时应考虑目的性与正当性的双重实现。在数据提供者、训练者、服务提供者以及使用者之间展开公平、有效的风险分配,考虑主体间的利益平衡,在可能和可期待的范畴内划定注意义务,以确保在实现刑法有效规制和预防目标的同时不会阻碍新技术的发展。而对投毒者而言,由于投毒者具有高于一般人的“特别认识”,故应对其持从严态度,践行主观归责理念,明确机器学习有限的自主性并不会阻碍归责。并且,即便机器学习的介入导致投毒者对犯罪因果流程支配力有所减弱,但只要事后能够证明结果与投毒行为具有条件关系,就能确认结果归属。

关键词:大模型幻觉 机器学习 财产犯罪 注意义务 主客观相统一

 

一、问题的提出

随着人工智能技术的纵深发展,高质量训练数据的供给已成为决定人工智能产品和服务功能以及算法模型优化程度的关键环节。当下大热的DeepSeek正是凭借优越的训练数据一鸣惊人。与此同时,大模型训练环节中出现的数据投毒现象愈演愈烈,对人工智能系统乃至社会整体安全提出了严峻挑战。2024年,字节跳动的大模型训练被实习生田某入侵,田某通过注入破坏代码直接导致大模型训练成果失信、失效,字节跳动对田某提起诉讼索赔800万元。这并非个例,数据投毒行为在商业竞争中亦有发生。2023年,科大讯飞学习机就曾被第三方导入违背主流价值观的网络推文,尽管科大讯飞及时清除了相关内容,并在内部制定了更为严苛的内容审查机制,但公司名誉仍在一夕之间严重受损,股价总市值蒸发约120亿元。这种非法行为甚至还会对公民生命健康、安全等造成严重威胁,比如医疗大模型在数据投毒攻击面前就显得尤为脆弱。美国非营利性消费者权益组织研究总监里克·克莱普尔(Rick Claypool)指出,北美流行的一款蘑菇识别AI工具经常将致命毒菌误认为可食用品种,致数十人中毒入院。再如,数据投毒也有可能攻击自动驾驶系统,任意篡改交通标志或道路场景的图像数据,使系统做出错误决策。数据投毒亦可与深度伪造相结合,加速虚假内容泛滥。

不难发现,数据投毒关涉经济、社会秩序以及财产权、人权等各类利益,符合既有研究对数据犯罪归纳的特征,且因其日益频发和危害严重正逐步成为各个学科的核心议题。在我国数据、新技术刑法研究的热潮中,增设新罪的呼声蔚然成风,但动辄增设条文未必是最有益的选择,试图构建一套周延网罗所有数据犯罪类型的法律体系可能理想大于现实。本文拟以数据投毒这一具有典型意义的行为为切入点,尝试从解释论进路来分析刑法如何应对处理新型侵害行为,证明数据投毒作为新的侵害方式可以纳入刑法既有体系,无须采取增设新罪的方式来对犯罪进行界定。

细言之,在面对数据投毒时,刑法规制需要解决两个子问题。其一,罪名适用问题。刑法如何通过司法途径,而不是完全依赖立法来适应新技术的发展,妥当回应公众对安全、信任的强烈需求?其二,责任追究问题。刑法如何在预防、控制风险,有效规制不法行为的同时,兼顾产业创新的发展?海量的多源多维度的基础数据是模型优化升级和人工智能科技创新的关键,但引入海量数据的同时鱼龙混杂的数据也无孔不入。数据处理者们对有毒数据并非束手无策,甚至具有较强的管理支配能力,此时该如何认定责任归属?有鉴于此,本文将立足于数据投毒的技术特性,考察在机器学习场景下可能存在的风险,着重分析罪名的适用以及数据投毒全流程中相关主体刑事责任的划定,避免安全思维下的过罪化倾向和不当限制技术发展,毕竟并非所有情形都需要刑法的干预和介入。

二、数据投毒的实然描述与刑法规制的挑战

数据投毒作为涉数据犯罪的重要行为之一,具有特殊的技术特征,而这些技术特征会直接影响其法律适用和责任分配方案。数据投毒这一概念是一种事实和现象的描述,不具有规范性,需对其具体样态、损害后果等作更为规范和实质的理解,在此基础上才能进一步给予法律评价。为了更好地把握数据投毒的特质,应将其与传统技术和相似概念作对比,厘定法律规制方案的重难点。

(一)数据投毒的类型

所谓数据投毒(data poisoning)是一种针对机器学习模型的攻击手段,攻击者通过在模型的训练数据中注入恶意样本或修改数据,干扰模型的训练过程,从而使其在预测或决策阶段产生错误结果。手段包括但不限于植入恶意样本、篡改数据以及通过特定输入诱导模型泄露训练数据等;发生阶段主要包括在机器学习阶段的训练和推理两个过程;投毒后果则可能涉及模型的性能和内容的不当输出。截至目前,根据攻击对象(或者说具体阶段)可以大致分为以下两种较为典型的投毒方式。

一种是对训练集数据的投毒,直接改变的是元数据,可以理解为原料中毒。通过注入低俗虚假、仇恨言论等不良信息扭曲数据承载的内容。另一种是正式进入训练过程后针对模型的投毒,主要是通过影响模型参数来左右模型预测的准确性。就机器学习领域而言,模型的准确性是通过它的损失(它的预测和正确答案之间的差距)来衡量的,因此模型的目标就是减少损失以提高预测的准确性,而模型预测的准确性正是由模型参数值决定的。与之对应存在三种细分危害结果:第一,模型输出错误结果或具有误导性的内容;第二,不当输出超出可利用范围,譬如泄露敏感、隐私数据;第三,模型整体性能下降,不论输出结果错误与否,都直接导致企业开发成本过高。阿里巴巴集团安全部首席算法专家陆全曾在2018年全球人工智能与机器人峰会(CCF-GAIR)上分享过数据中毒的典型例子,阿里巴巴的部分端口每天都会被一些爬虫攻击,即使爬虫被识别和抹杀后端口仍然被持续攻击。这种攻击行为对攻击者而言表面上毫无意义且耗费大量成本,但实际上攻击者是利用低级爬虫作诱饵,带偏大模型,后续通过高级爬虫达成最终目的。

(二)数据投毒的技术特征

其一,和传统编程技术相比,机器学习模型下行为主体对输出结果的支配性减弱,输出结果不再是程序员编写的规则的直接反映。计算机程序的输出取决于代码规则,传统代码只要程序员发布规则,就能忠诚地予以执行,程序员可以解释并确定输出的结果,即使结果出现错误也能直接归因于程序员本身,但机器学习并非如此,其规则和逻辑是由模型自我塑造的。例如,程序员希望某个平台只包含水果李子的图像,但机器学习模型的概率性和自主性会导致无论概率大小,总会出现假阴性(李子被标识为桃子)和假阳性(桃子被标识为李子)的错误结果。程序员永远无法知道这些结果会在何时发生又是如何发生的。在机器学习中,程序员既不编写也无法解释算法的规则。在这种情况下,当算法不可避免地犯错误时,换言之,当它做出的决定与实际情况相反时,不能合理且当然地将错误归咎于程序员。

其二,攻击阶段具有特殊性,主要集中于大模型数据的搜集与训练阶段,影响机器的学习效果。这里有一个名为“数据污染”的相似概念,是指在抓取汇集、加工挖掘、传输流通、分配交易等环节,数据受到人为修改或不当干扰而导致元数据失真的质量损害。这显然与数据投毒存在差异,即便最后呈现出来的结果都是通过侵害数据而导致最终效果的偏差,但数据污染的发生阶段几乎贯穿全流程且主要围绕数据性能展开。例如,行为人通过修改上传服务端的游戏数据,不正当地实现游戏过程中的竞争优势。再如,虚构交易数量、用户好评以诱骗消费者决策,或者利用平台规则为他人恶意刷单使得竞争对手遭受降级、整改等处罚,以至于影响整个平台的经济、竞争秩序。总之,游戏外挂、刷单(包括反向)炒信等行为不属于投毒范畴,虽然危害结果都可能体现在企业经营状况和网络产品(运行)上。数据污染中的数据重复、缺损等也都不属于数据投毒的范畴。在某种程度上,数据投毒可以被视为数据污染在人工智能和机器学习特定领域的表现。

同时,攻击阶段的特殊性又直接导致了侵害结果的多元性、严重性。数据投毒既可能侵害个体生命健康财产等法益,也可指向广泛的社会利益,如公共安全、经济市场秩序等。时至今日,数据投毒不再是抽象的理论假设,而是随时随地可能爆炸的定时炸弹。比如,微软的Twitter聊天机器人Tay在协同攻击后变得具有攻击性,美国人工智能公司开发的Character.AI聊天平台教唆鼓励未成年人自杀,被攻陷的电子邮件垃圾邮件过滤器允许恶意流量通过,或者自动驾驶汽车因数据篡改而做出严重误判。而要从数据投毒的攻击中恢复,不仅需要处理恶意数据,还需要不断调整模型参数以恢复模型性能。可见,在目前的网络生态中,数据投毒具有严重的社会危害性,监管难度也更大。

其三,大模型具有自我纠正能力和超高幻觉率。众所周知,算法黑箱的问题业已存在,而大模型的自我纠正能力和幻觉问题又对刑法规范的判断带来了新的冲击。一方面,大模型实际上拥有自生(autopoiesis)系统,即模型在运行过程中能够拥有自动识别并纠正错误(self-correction)的能力,旨在提升模型的透明度和可解释性,进一步提升用户对模型决策的理解和信任。然而,从另一角度而言,这使得投毒行为可能不会出现实害结果,刑法是否需要对此予以评价?另一方面,机器会以无法预料的方式自我学习、补白(简言之就是脑补)乃至创造,这是目前技术无法剥离的机器学习固有且天然的属性。以DeepSeek为例,在休斯幻觉评价模型(Vectara HHEM)人工智能幻觉测试中,DeepSeek-R1的幻觉率高达14.3%。幻觉正是由语言所孕育,赫拉利在《人类简史》中强调了幻觉对于文明社会建构的根本作用:语言的产生赋能了人类幻觉(虚构故事)的能力。因此,投毒所引发的结果可能超出控制亦可能未能实现预期,不可预见性愈加复杂和严重。

(三)刑法规制难题

其一,对象要件判断难题:大模型(包含训练集)的保护需求。不同于早期的网络犯罪大多针对计算机信息系统以及计算机信息系统中存储、处理或传输的数据,数据投毒所侵害的主要对象是训练集,并不符合计算机犯罪的构成要件,尤其是破坏计算机信息系统罪的适用存在障碍。如果强行适用相关罪名,则有结果主义倾向,不当加重罪名适用的口袋化趋势。

接下来以《刑法》第286条破坏计算机信息系统罪为例展开分析。该法条关键的罪状描述有二:一是行为对象是否计算机系统或系统中存储、处理或传输的数据;二是行为是否影响了系统功能正常运行的状态。一方面,对参与训练之前的数据(训练集)进行投毒的行为方式不属于破坏计算机。这是因为对于被指向的计算机信息系统而言,无论是其系统功能或数据都未经历被删除、修改、增加或干扰的过程。实际上在进入该计算机信息系统前相关数据就已经处于异常状态,并且在训练过程中的数据本就具有不可逆性,质言之数据已经被固化。而计算机信息系统中存储、处理或传输的数据具有动态性可以被变更。另一方面,投毒行为并不当然影响系统功能。与发生在现实空间的犯罪作类比,这种侵害形式没有直接对受害者生理系统或组织造成物理性损伤,而是通过教唆方式影响受害者的主观认知和意图来达到侵害目的,只是教唆的对象变成了数据或者说机器。

审视近期案例不难发现,司法实践的认定思路有过度扩张之嫌,行为方式、结果等都发生了实质性扩张,形式解释空间逼仄。在李某、何某某、张某某等人破坏计算机信息系统案中,行为人用棉纱等物品堵塞环境监测采样设备干扰采样,导致监测数据严重失真,该行为就被认定为干扰计算机信息系统。现实空间内的物理性方式虽然客观上给计算机信息系统造成了消极影响,但并不符合本罪所欲规制的行为性质——独属于计算机运行机理的操作,其核心特质是针对系统本身的指向性和侵害系统功能的直接性,并且结果上系统也并未出现功能性的毁弃。将任意方式都认定为本罪实行行为是对罪名的误读。同理,数据投毒中针对训练集这一类型是发生在计算机信息系统外部,通过降低数据质量、改变数据真实性等方式来影响计算机信息系统的最终输出结果,但计算机信息系统的功能则完好无损,只是数据处理结果被人为操控修改了而已。而攻击大模型的投毒行为若没有造成计算机信息系统功能上的毁弃,亦不能认定构成该罪。如果认为所有数据投毒行为都符合破坏计算机信息系统罪的行为要件,无疑加重了本罪的口袋化程度。在教义学上,计算机犯罪应有其固有的保护范围。

其二,“主客观相统一”原则的动摇。数据投毒中随着行为人对整个犯罪流程支配力的弱化,具体认识逐渐转变为抽象认识,侵害后果的不可预测性和高度随机性也意味着行为主体对结果预见的可能性随之降低。投毒者虽有不法意图,但最终输出内容未必能够准确传达出其所欲表达的信息或追求的结果。例如,攻击者试图通过伪造数据来提升某特定产品在推荐系统中的推荐概率,但投毒后系统中所有产品的推荐序列都发生了混乱,系统根本无法正常运转。现实的危害结果与既定的目的完全发生了偏离,与攻击者的犯罪意图背道而驰,主体事前对结果发生的性质和程度均无认识。必须承认的是,介入机器学习后输出结果可能会在继承歧视、偏见的基础上更为暴力和偏执。当然,还有一种可能就是投毒并未造成任何实害结果。在这种情形下,由于结果的发生与否具有偶然性、随机性,刑法对此是否应该评价?如果可以评价,那么如何评价更为合理?

其三,面临责任离散(diffusion)的难题,具体包括刑事责任有无和分配的判断。首先,参与主体的复杂、多元和去中心化。和自动驾驶、人工智能等新兴技术一样,数据投毒最终引发法益侵害后果往往涉及多方主体。大模型数据提供商(又称数据标注服务提供商,如海天瑞声、龙猫科技等)、AI模型训练服务提供商(或称机器学习平台供应商,如Ollama等)、大模型服务厂商(如ChatGPT、Kimi等)以及使用者都可以是潜在的责任主体。当出现损害后果时,是否所有主体都需归责不无疑问。其次,自我纠正和模型幻觉对归责结构提出了挑战,出现错误决策时事后难以复盘,行为和结果之间的因果关系愈加模糊。一方面,在造成损害结果的情形下,难以认定投毒行为和结果发生之间具有较为确定的一般因果关系。从投毒到最终结果输出有一段持续的因果流程,有其内在的复杂性。人工智能在自主学习、自我纠正提高自身性能的同时可解释性更弱,切断了行为主体与输出结果的直接联系。然而,对于司法裁判者而言,对因果流程的详细解释是必经之路,归因是归责的前置性问题。虽然理论上可以全面理解,但事实上机器学习模型的性质和科学认知的有限性使“可解释”变得不可能。即使是研发者也无法理解,更无法事后解构。另一方面,在模型自我纠错后未显现具体损害结果时,刑法是否要介入也并非不言自明。最后,新兴技术领域往往缺乏详细规定和实践经验的总结,更遑论针对大模型这一专业领域的具体规范,技术事实和规范评价都处于极度模糊和变动不居的境况。但刑法理论范式的应用,如可容许的风险、注意义务的履行等往往需要依靠共识,凝聚出一般人认知作为判断标准。在行业标准缺失的情况下,明确风险容许的边界、利益的衡量取舍等均非易事,亟待理念指引。

综上,数据污染和数据投毒可以说是上下位的两个概念,数据投毒在结果上往往会体现一种“污染性”,是数据污染的一种典型方式,但因攻击阶段更多集中在大模型阶段,相较于其他类型攻击而言危害性更强,恢复难度更高,因此,在具体场景下会有更多现实性问题。例如,目前我国刑法对涉及数据的犯罪都理解为对数据本体性能的侵害,或者将数据理解为计算机信息系统的一部分。而数据投毒的主要类型之一是对训练集数据的投毒,影响的是进入系统前的数据的表达,可谓对数据的“教唆”,我国既有理论对该情形并未准确定性。同时,技术发展高度依赖数据的丰富性和广泛性,大模型的训练者和数据集的提供者开始出现分离,且大模型的自我矫正、幻觉等要素又会导致归责结构异化,刑事责任分配更为复杂。

三、以传统犯罪框架分析数据投毒行为

基于前述可知,数据投毒的出现意味着涉数据犯罪的侵害对象和手段在不断革新,若坚持以数据品类作为定罪处罚的关键理据,同时还要期待刑法做到及时因应,则不仅会抹杀刑法谦抑的底色,也违背了场景化的规制理念。法律所真正指向、依据的应当是数据在不同场域所发挥的具体功能或者说特质。即使有些观点将数据看作独立的保护对象,相关行为依然可以被现行刑法内的其他罪名所评价,突出的受损法益也应当是具体场景下某个“前实定法益”,而不是所谓的“数据安全”。比如,在传统人身、危害公共安全等自然犯罪下,侵害数据显然只是某种事实手段,数据这一要素的存在对传统犯罪构成要件的判断甚至可以说是毫无影响。正如有学者所指出的,增设新罪非但无益于拓宽处罚范围,反而平添竞合难题,有画蛇添足之嫌。基于此,本文将主要探讨侵蚀数据本体或重要功能(主要涉及财产、经济)的投毒行为化归为传统犯罪的适用路径。

(一)侵害训练集数据的罪名适用

如前所述,数据投毒的部分行为无法被计算机犯罪所囊括,首要的解决思路应当是向既有刑法体系寻求方案而不是直接另立新罪。此时,刑法真正评价的是数据内蕴和承载的功能法益,可根据侵害的具体结果适用相关罪名以应对前述的对象要件判断难题。

首先,投毒行为侵害具有财产价值的数据之时,只要行为符合相关财产犯罪构造的都可以被处罚。数字经济时代承认数据的财产化、经济化是大势所趋。事实上,我国已经确定了数据财产权化的基本脉络。2022年12月19日印发的《关于构建数据基础制度更好发挥数据要素作用的意见》明确指出,数据是新型生产要素。北京市、上海市、广州市、深圳市分别成立了数据交易所,我国的部分省市也开始试点成立数据局以真正落实和保障数据流通交易、收益。但在故意毁坏财物罪的适用上存在观点分歧。有观点认为,数据具有非排他性和使用的非消耗性,这意味着数据的权利主体可以和他人共有,尽管数据被其他人非法使用了,但并不妨碍权利人的继续使用,从这个角度来看侵害数据的行为似乎难以成立毁坏罪。然而,该立场实际上是拘泥于数据本身,没有意识到故意毁坏财物罪所保护的是一种更为抽象但更为本质的利益——数据的使用价值,是实质上能被权利人所用、所需的效用,而不是形式上简单的使用。在数据投毒的情境下,即使数据的占有和支配本身并未被损耗,但数据的性能一定会被扭曲、改变,偏离原本的用途和目的,其使用价值已然被破坏,根本无法满足权利主体的需求,因为识别并分离出有毒数据是需要花费劳动成本的,这无疑符合毁坏行为的判断标准。还有一些投毒行为会导致他人财产性利益减少,比如,大模型在遭到攻击之后预测的准确值下降,企业运营成本当然会提高,类似于故意以低价抛售他人优质股票,行为人虽无非法占有目的,但是恶意导致受害者财产减损(包括消极减损)。同时,通过数据投毒导致数据、模型的性能和使用价值发生损耗甚至丧失,实践证明其恢复难度远远高于应用层数据,需要通过清理、重新训练才有可能恢复(甚至可能无法恢复),这也符合故意毁坏财物罪中对象机能被侵害重大性的标准要求。

其次,侵害涉及个人、企业私法益或公共利益等特定类别的数据可以成立相应罪名。例如,在数据投毒过程中,攻击者完全可能篡改、毁损或泄露个人信息,构成侵犯公民个人信息罪。实践中存在一种模型倒推的方式,攻击者将设计的中毒数据注入模型训练,这会导致模型学习到这些特定的恶意模式,那么一旦模型部署被应用,攻击者可以通过模型反应推断出用户的敏感信息。因为在这类情形下,攻击者可以明知他们所控制的恶意数据输入后会导致特定结果。同样,如果侵害的数据内容涉及知识产权商业秘密、国家秘密等,则可以成立侵犯商业秘密罪、非法获取国家秘密罪等。倘若行为人通过投毒散播了大量虚假信息,使更加广泛的用户群体接触到了虚假信息,扰乱了正常稳定的社会秩序,那么就可以适用编造、故意传播虚假信息罪。

最后,数据投毒是对正当竞争市场秩序的侵害,可以成立扰乱市场秩序罪。这也是一种兜底式的保护方式,以实现预防性、综合性的保护效果。数据投毒正是数字经济形态下对市场秩序的新型干扰方式,实践中类似于科大讯飞的事件屡见不鲜。投毒者注入伪造的或不良的恶意样本,但并未损害原有数据本身的保密性、完整性和可用性,而是直接破坏了他人竞争优势,变相地增长了自己的优势。在扰乱市场秩序的系列罪名中以破坏生产经营罪最为典型。在生产环节,数据投毒可以导致生产过程中的自动化系统、质量控制系统等出现错误决策。例如,如果攻击者篡改了生产线上用于质量检测的数据,可能会导致不合格产品流入市场,影响产品质量和企业声誉。在交易和消费环节,攻击者还可能通过篡改生产数据,破坏企业决策,使企业错误地调整生产计划,导致资源浪费或生产停滞,干扰正常的生产计划和资源分配。但值得注意的是,本罪存在极大的被滥用风险,不少学者提出要严格限制本罪适用,避免掉入结果主义的陷阱。行为并非只要具备了生产经营的实质侵害性即可成立该罪,不能忽视对构成要件符合性的形式判断。

(二)侵害模型数据的罪名适用

除却前文所讨论的行为类型在适用计算机罪名时存在的障碍,其他行为可以根据具体情节适用对应的计算机罪名。例如,在训练阶段对模型展开攻击,导致计算机信息系统功能受损或失控,可以适用破坏计算机信息系统罪。在数据预处理阶段,攻击者通过篡改数据标签、插入中毒数据等方式,控制AI模型生成有害结果,可能涉嫌非法控制计算机信息系统罪。如果行为人通过投毒非法获取了系统中的数据,情节严重的则可能构成非法获取计算机信息系统数据罪。

这种情形下更值得关注的应当是竞合问题,毕竟计算机犯罪作为手段存在时完全可能构成其他犯罪。信息网络时代的财产犯罪、非法获取商业秘密和军事秘密以及侵害公民个人信息等,往往会通过增减、修改相关数据实现。而这些罪名间到底是以想象竞合从一重罪论处还是以区分平行单独适用尚存在争议。通说主张以想象竞合从一重罪论处。但有的学者将罪刑相当原则解构为两层,认为犯罪分子所处刑罚应同时与罪行和刑事责任相适应,想象竞合的处理方案本质上是以刑治罪理念的体现,只是单纯满足重罪重罚的罪刑相当原则。该观点在强调治罪和治理的刑事政策下具有合理性,更何况破坏计算机信息系统、非法获取计算机信息系统数据等罪名本就有成为口袋罪之势。为避免司法适用过程中出现重复评价,应通过司法裁判凸显不法行为的特质,向民众宣示什么行为是被刑法所禁止的。尤其是在两罪法定刑幅度相同的情况下,应以数据具体属性的展现来认定,传达出刑法对个人信息、社会秩序等重要法益的保护——从结果来看更为直观的法益侵害。由此,为了更好地表明不法行为的特质,刑法对相关利益的保护以及避免计算机犯罪沦为口袋罪,以故意毁坏财物、侵害公民个人信息等罪名予以规制的思路更能回应实际。

四、数据投毒的刑法归责判断

在具体探讨如何归责之前,需要明确一个前提:大模型系统不具有法律主体地位,无法独立承担刑事责任。有学者明确指出,肯定机器的独立责任并不符合人工智能技术发展的现状,并且从作为行为规范的刑法角度出发而言,只有能够理解刑法规范内涵的主体才是真正适格的规范接受者。在明确机器不属于本文责任主体的基础上,尝试探讨如何在实现功利性的“不安全性管理”的同时,通过适当的教义学机制来限缩刑事处罚范围的不当扩张,避免过度吞噬新技术的发展空间,在介入大模型有限的自主性时,对投毒者展开合理追责。同时,明确基本的刑事处罚理念和立场:对于投毒者应当从严处罚,毕竟投毒行为不仅无益于科技的发展,最终还很可能出现失控危险。而对于其他参与主体的刑事责任承担应当从宽处理,以轻缓化为主要指导原则, 并在风险分配时兼顾公平和效率。

(一)刑事归责目的性与正当性的双重实现

风险控制和预防是一种功能化走向,以适应社会治理为归依。同时,为避免不当侵蚀个体自由还应坚持归责的正当性。可归责性的具体判断涉及注意义务的具体内容和履行程度,以及对于法政策而言,社会可以接受何种损害作为人工智能技术发展的代价。

在刑事立法的倾向上,通过一定程度的延伸治理链条来满足风险控制、刑法预防的目的性追求。刑法解释用以回应已然之问,而立法则更擅长面向未然之事。毕竟,刑法面临未知的重大风险要做此预案:倘若刑法的事后规制无力应对数据投毒的大肆蔓延和激扰,那么此时可能就需要立法介入。但归根结底还是刑法自我调整和演进的过程,而非一种刑法先行的路径依赖。在此,本文就可能的立法方向提供初步、简要的进路。在风险社会的刑法治理框架下,归责的目的性追求通常可以经由抽象危险的犯罪化、过失归责的客观化和因果关系的规范化加以实现。可见,危险犯是实现归责目的性的重要路径。通过危险犯的立法模式将处罚时点提前,保证法益保护的周延性。在此意义上,可以考虑修改已有法条的构成要件改变罪质,就如《刑法修正案(八)》将生产、销售假药罪中“足以严重危害人体健康”的要件删除,以防将危险的发生与否交付于偶然。被恶意篡改的充满虚假、扭曲内容的数据何尝不是一种有毒有害原料?再如,通过对情节犯情节的设置与解构实现对犯罪属性的调整。如果达到独立成罪的标准,且现有刑法规定确实无法更好地规制投毒行为,也可以考虑将其认定为一种独立的危险类型,将损害结果作为客观处罚条件。理由在于,严重破坏社会发展的新型行为需要投射到法律之中,所以应以规范为导向,确证法规范效力,实现刑法谴责错误行为的功能。但值得一提的是,增设新罪这一方案必须通过必要性、类型性、明确性和协调性原则的检验,且民法等前置法也已对数据做了较为完整的界定方才适宜。

此外,为了最大程度地保证安全,对训练者和服务提供者适用英美法系的严格责任模式也是代表性观点之一。该观点支持举证责任倒置,认为只有训练厂商、服务提供厂商能够证明其违反义务的行为和结果之间缺乏因果关系,才能否定过失的存在。但这一观点并不妥当。侵害者适用严格责任尚且面临质疑,产业链条上的其他主体并非风险的创设者和法益侵害的肇事者,更不宜采取严格责任模式。严格责任类似于民法的无过错责任原则,民法上设立无过错原则旨在填补损害,便于弱势群体追偿,但严格责任则与刑法的责任主义相抵牾,合理性将面临较大争议。“在刑法中,和过错无关的责任以及举证责任倒置是不存在的。”更何况,对于任何主体而言,刑事程序通常意味着比民事程序更重的负担。

司法层面主要针对多主体间的风险分配与刑法注意义务的界定,强调的是避免刑法过度追求安全侵蚀技术、经济的自由发展。风险分配的关键逻辑在于如何在被害人和其他参与者之间保证风险分配的公平和有效。刑法无法也不能追求风险的完全消灭,刑事归责正是通过风险的合理配置,以实现风险控制的公平性。虽然公平不可或缺,理论也在苦苦追寻,但对于迭代升级极为迅猛的科技领域,事实上风险决策并不能在公平的环境下作出。从横向维度来说,商家的支配地位和控制能力都远超用户群体,普通民众在这种所谓的选择中知情权甚少。在产品、食品、自动驾驶这类案件中存在一个共同的基础性问题:使用者在他们同意采取风险行为时,是否已经充分了解行为可能带来的风险?从纵向维度来说,公司管理层较普通执行层对风险具有更高的控制能力,应承担更高的注意义务。因此,刑法需要赋予相关主体以合理的客观注意义务,避免强加过分风险给弱势当事人。

具体而言,在机器学习的语境下,数据提供商、训练商以数据识别、检查、标识义务为主,有些中毒数据完全可以被识别、纠正。训练、演算的结果与训练数据、资料的品质高度相关。2025年,我国发布了《人工智能生成合成内容标识办法》和配套国家标准《网络安全技术 人工智能生成合成内容标识方法》,这足以说明,对厂商来说检测识别元数据是至关重要的核心环节,这一阶段也是安全厂商的能力所在。就目前技术的发展而言,厂商已经可以通过较成熟的机器学习算法和深度学习技术,实现对恶意样本的标定和恶意网络攻击的识别,并收集相关的风险威胁数据。常见的防御措施有数据清洗和验证、行为监控和对抗训练等。如果主体确实实施了完整、常规的检测流程,就不该对其展开追责。而数据识别、标注义务是否被适当履行需要区分不同的领域和规则性质:对于共识、标准、规则明确的特定交往领域如交通规则、生活常识、医学原理等,监督检查、标注义务的履行和恰当与否当然具有明确界限;对于价值离散、风险预测等并不存在共识的事项和领域,相关主体无须刻意标识,也无错误标识之说。例如,DeepSeek上火热的算命业务,或者要求生成式AI进行金融决策,这类带有明显娱乐性质或极高专业难度的内容本就不能成为使用者信赖的来源,否则会有不当加重相关主体负担之嫌。

服务提供商具有合理的警示(提示)义务,且义务的履行应当贯穿内容生成始终,才算尽到合理的注意义务。具体包括使用前的说明义务、生成中的动态提示以及生成后的责任提示。目前服务提供商大多都会在生成的答案后附以风险提示和警示标识,但如果仅仅是简单的提示,很可能会因警示不足而发生危险。也就是说,服务提供商在进行提示时必须要考虑到使用者理解的可能性,除非是众所周知的风险无需刻意提醒。除此之外,服务提供者还有产品观察义务,倘若产品出现异化、安全漏洞时应当及时处理,否则极易造成重大损害后果,尤其是当下还有大量未成年人使用群体。比如,在AI交互的过程中,生成式AI引诱、鼓励使用者犯罪、自杀等,服务提供商应该及时弥补技术缺陷,在消除各种显性或潜在的风险的同时,还应当考虑进行分级管理。相关主体不履行上述义务时,可以用《刑法》第286条拒不履行信息网络安全管理义务罪进行规范。

此外,超出理性的风险不属于商家应当预期的范畴,可容许的风险也应作适当拓展,限定注意义务范围。一是如果某种风险在既有技术背景下无法被识别和排除,这属于不可避免的剩余风险,无需归责于任何一方。即使是在行业标准缺少的情况下,只要根据目前产业整体水平和惯例做法推断出该风险不可识别和不可避免,就应当认可这种风险,阻却刑法归责。二是达到完全的识别和排除需要付出巨大成本和代价,那么就需要考虑配置的效率。毕竟对于以盈利为目的的企业而言,在要求其最大程度地履行注意义务时对经济效果置之不顾是不切实际的,应在比例原则的审视下尊重企业的经济自由和必要的风险规避。就目前而言,要管理并完全支配和控制好数据投毒的范围和结果需要具备很高的经济条件。如果投入大量成本过度追求安全,会限制技术充分发展的空间。

当训练者、服务者严格遵守了行业规则,合理履行了上述义务、弥补了信息差后,风险开始移转。此时问题就转变为被害人问题,使用者自身也应当承担一定的责任,即正当使用义务。使用者会用特殊方式(例如mona lott指令)诱导机器模型绕过、突破程序员设置的合法规则与限制,进而输出不正当结果,或者应用于非法领域,比如有大量使用者利用软件撰写淫秽色情内容等。总之,在使用者因其自身不理性的行为而导致法益损害的场合下,其他主体无需担责。

(二)避免不当限缩处罚范围的主观归责方式

本文主张采取主观归责方式对投毒者进行归责,根本缘由在于机器学习这一领域需要的是“特别认知”而不是一般人认知。客观归责中的一般人标准在这一领域丧失了存在的实际意义,且无力应对复杂的因果流程。主观归责方式主要解决的是当投毒者主观认识和客观结果无法完全对应,且介入了第三方(机器学习、大模型等)的因素,因果流程发生了一定程度的偏离时,该如何合理界定投毒者的刑事责任。具体存在如下两种情形。

一是投毒结果完全符合投毒者预期,但由于介入了大模型的自主性而出现因果流程的偏离,这种情况又称“狭义的因果流程偏离”。根据主观归责的立场,因果流程是否偏离和行为人是否能预见到因果流程不影响故意的成立,只要能够认定行为是引发结果的最小真实充分条件中的必要要素即可。罗克辛也曾提出,以“计划实现”作为判断标准,只要因果流程的偏离没有导致行为人的计划失败,那么就可以将结果归责于故意。因此,在这种情形下因果流程介入了异常因素但并没有阻断行为人故意危险的实现。

二是结果可能并不符合投毒者具体的认识。在数据投毒这一场景下,投毒攻击者能够认识到其行为具有法益侵害的危险性(致害危险)这一点是毋庸置疑的。数据投毒的行为主体一定是具有相关专业知识和能力的,甚至可以说是业界翘楚,行为人在行为时对行为终了后危险实现的流程可以进行大体评估和预测,但不是给预期危害结果预设范围,而是认为预期危害结果肯定会发生。因此可以做此定论,机器学习有限自主性的介入导致结果发生具有随机性,这一事实没有超过投毒者的故意认识。换言之,投毒者对出现任意结果都具有预见可能性,即使和其明确的目的追求存在偏离,但不属于“重要的偏离”,无法被认定为预见能力范围外的偶然事件。结果的随机对投毒者而言是一个明确且肯定的事实,其对投毒可能导致大模型受损等的危险性具有充分的认识。无论受损结果到底为何,都可以认定为是由该危险性正常延伸出来的,没有超出“危险射程”,并且技术上可以事后通过分析投毒方式推断投毒者最初的计划和目的。处于危险未现实化的危险流进程之中,属于犯罪未遂,“法益损害的未遂是被包含在内的,而且未必故意对于相应的行为决意来说便已经足够了”。不论损害结果到底如何,都完全可以利用未遂这一犯罪形态来予以平衡,不会背离主客观统一原则。上述问题实际上最终会演变为司法证明问题。原因在于,一方面,投毒行为的危险性质和侵害的法益都具有复杂性和多样性,投毒行为和结果之间不具有规范意义上的特定类型关系。另一方面,即使有观点坚持认为投毒者必须对结果有具体认识,但主观见之于客观,投毒者对严重后果的认识与否本就需要通过证据才能予以证明。在数据投毒的场景内,司法实践只需证明投毒行为和结果之间具有条件关系即可,因为技术可以实现场景复现,所以司法机关能够并只要证明:如果没有行为人的投毒,损害结果就无法出现。这也有利于提高司法效率和有效规制犯罪,充分发挥刑法的行为规范效力。

可以被大模型自我纠正的投毒行为,其创设的风险不具有刑法意义上的社会危险性,没有满足入罪条件,缺乏刑事处罚的必要性,不属于刑法评价对象。

五、结 语

在机器学习的时代背景下,不确定可能才是唯一的确定。刑法作为重要的治理手段当然需要转型以适应发展的新动向,但不能以突破基本原则为代价强行建立新的话术体系,应摒弃动辄增设新罪的理念。刑法应对“需要跟进的不是立法而是刑法的解释”。一方面,数据投毒这类涉数据犯罪只是具有某种新颖的形式外观,拆解后会发现其实行行为、损害后果和侵害法益与传统犯罪相比实际上没有本质差别,具体行为只要符合故意毁坏财物、破坏生产经营等犯罪构成要件就可以适用。另一方面,在刑法归责中,因介入了机器学习的有限自主性和大模型自我矫正、大模型幻觉等要素,出现了主客观不一致、归因困难、刑事责任离散等一系列难题。刑法作为指导性规范,应当发挥引导人们正当行为的功能。应立足于领域的特殊性,采取主观归责路径,严格处罚阻碍技术发展的投毒行为,而对于训练厂商、服务提供厂商等这类新兴技术的中流砥柱而言,刑事归责则予以适当的宽缓,适度延展可容许风险等原理,合理界定责任效果特别是责任范围。当然,随着人工智能技术的高速发展,刑法体系中传统的规范概念和理论范式该如何进行开放性的理解和贯彻还需要进一步的深入探讨。

徐蕴杰,南京大学法学院博士研究生,研究方向:刑法学。

基金项目:国家社会科学基金重点项目“完善党和国家监督体系研究”(编号:21AZD088)

本文发表于《天府新论》2025年第4期,注释从略。

    进入专题: 数据投毒   大模型幻觉   机器学习   财产犯罪  

本文责编:SuperAdmin
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 法学 > 刑法学
本文链接:https://www.aisixiang.com/data/165249.html

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2025 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统