摘要:大数据刺激了生成式人工智能的智力涌现,也加剧了数字时代的隐私和个人信息保护难题。算法和大数据的叠加让生成式人工智能的数据处理过程迥异于传统网络服务,呈现出自动化、规模化和多样化特征。既有个人信息保护基础理论和相关规则难以在生成式人工智能领域有效适用,无法为用户信息权益和其他人身财产权益提供合理保护,更无法有效抑制违法数据处理导致的其他社会风险。面向人工智能时代的个人信息保护规则,需要以风险防控为核心,以国家强制力约束生成式人工智能设计者、研发者和提供者等主体的数据处理行为,并进一步完善个人信息获取规则、使用规则、存储和流通规则及救济规则。
关键词:生成式人工智能;个人信息保护;技术原理;风险防控
作者:叶雄彪(法学博士,华中师范大学法学院讲师)
来源:《法学家》2025年第4期“主题研讨二:数字法学研究的多维视角”栏目。
全球视野下,美国、欧盟等主流数字经济体都在加速布局自己的人工智能产业,期望在新一轮技术变革中拔得头筹。就我国而言,2024年12月,DeepSeek-V3的出现在全球人工智能领域掀起巨大波澜,标志着我国在人工智能领域的崛起。DeepSeek极大降低了人工智能大模型的算力成本,为我国后续生成式人工智能应用创新的涌现奠定了必要基础。然而,随着技术的高速发展和市场应用的快速推进,生成式人工智能引发的各种风险也引发社会担忧。其中,隐私和个人信息安全问题值得高度关注。生成式人工智能中的数据泄露、隐私侵犯、个人信息滥用、用户歧视等问题已经屡见不鲜。我国在2023年7月出台了《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),以规范生成式人工智能设计、研发和利用活动。其中第4条要求,提供和使用生成式人工智能服务不得侵害他人隐私和个人信息权益;第7条规定,生成式人工智能提供者应当依法开展预训练、优化训练活动,遵守《中华人民共和国网络安全法》(以下简称《网络安全法》)、《中华人民共和国数据安全法》(以下简称《数据安全法》)、《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)等既有规范。上述规定为现有个人信息保护规则进入生成式人工智能领域提供了转介通道,但在人工智能应用进入快车道的大背景下,现有规则是否足以应对其中的隐私和个人信息风险仍然有待审视。有鉴于此,本文拟聚焦生成式人工智能背景下的个人信息保护问题,尝试剖析生成式人工智能的技术原理和数据处理特征,并以此为基础分析其对现有个人信息保护理论、原则及具体规定的冲击,进而提出面向人工智能时代的个人信息保护完善建议。
一、生成式人工智能的技术原理与数据处理特征
当前的生成式人工智能大模型普遍以成熟的Transformer模型为基础进行研发,Transformer模型使用预先设定的通用性任务和大量无标注的数据进行开发,整个过程可以简化为两个阶段:第一阶段为模型的构建和预训练。该阶段的学习意在让模型习得泛化性强的参数,使其可以获得有用的信息、结构和模式。第二阶段为算法的微调和模型的完善。该阶段需要解决无监督学习导致的有用信息和无用信息无法分辨、输出结果不稳定、可靠性弱等问题,研发者需要采用人工标注数据对模型进行优化,同时对算法进行一定的调整。在这一阶段,模型还需要将第一阶段学习到的成果应用到下游任务中,以迁移并适应特定任务。而整个大模型的核心要素是算法、数据和算力。其中数据是大模型获取知识和“智力”的基础养料,算法是大模型的核心技术,而算力则是模型研发和运行的硬件支持。在生成式人工智能产业链中,算法、数据和算力紧密联系:其一,数据作为一种新质生产力要素,尽管蕴藏着巨大的经济价值,但其价值的挖掘需要通过算法程序进行;其二,通过数据运算可以对预先编写的自动化程序进行检验,进而完成算法调整;其三,生成式人工智能模型的参数和训练数据体量庞大,超级计算机、GPU、云存储等算力资源则为数据处理和运算提供了硬件保障。
生成式人工智能是大数据和算法结合的产物,其数据处理过程具有鲜明的数字时代特征,包括以下几个方面:
第一,数据处理的自动化。除数据的人工标注和检测外,生成式人工智能模型研发和使用过程中的数据处理几乎完全由计算机程序或者算法自动完成。从技术角度看,算法是基于数学和计算机规则形成的、可快速处理一组数据的逻辑步骤,它能够帮助研发者按照预设目标进行数据处理和运算。以预训练过程为例,Transformer模型包含编码器和解码器,算法按照预先设定的程序步骤自动对语料库中的数据进行清洗、组合、分析、运算和学习,使生成式人工智能获得文本生成和逻辑推理能力,再由Embedding模型对比训练结果,获取文本相关性、文本检索和代码检索能力,整个过程自主完成。
第二,数据处理的规模化。大数据具有体量大(Volume)、速度快(Velocity)、多样(Variety)、价值高(Value)和真实(Veracity)的“5V”特征。大数据在人工智能领域的应用则将其优势发挥得淋漓尽致,并形成了生成式人工智能数据处理的规模化特征。其一,在数据体量方面,不少大模型的训练参数已经达到千亿级别,预训练数据量也在不断增长。其二,在数据处理速度方面,算力的提升让大模型的数据处理速度显著提升。多技术协同升级推动了先进计算持续发展,以AI大模型为代表的多元应用创新驱动计算加速进入智能计算新周期,而超级计算机、AI芯片、量子计算等技术的创新突破则让参数量更大、复杂度更高的AI大模型研发成为可能。
第三,数据类型的多样化。生成式人工智能的训练数据类型繁多,训练数据涉及人类生活的各领域和行业,泛数据源的语料体系保障了模型学习知识的广泛性和完整性,满足了用户的差异化交互需求。生成式人工智能大模型的训练数据主要来源于互联网上公开的信息、获得第三方许可使用的信息以及用户和其人类培训师提供的信息。大规模使用各类数据进行模型训练也蕴藏着巨大的隐私和个人信息风险,如生成式人工智能输出内容中包含个人姓名、住址、电话号码等信息。随着数据分析技术的进步,个人信息与事实信息之间的界限已经逐渐模糊,过去不具有身份识别性的事实信息也可能通过与其他信息组合,成为可识别个人身份的个人信息。此外,与其他网络服务相同,用户使用生成式人工智能产品或服务过程中,他们的基础信息、与生成式人工智能的对话信息等都可能被收集用于大模型研发和升级。譬如,DeepSeek在其隐私政策中就明确表示会利用个人信息开发服务、训练和改进技术、促进平台安全和稳定。总的来说,生成式人工智能的研发和应用会涉及众多品类的数据,而个人信息则是其中必不可少且至为重要的类型。
二、生成式人工智能对现有个人信息保护制度的冲击
大数据和算法的广泛应用使得生成式人工智能数据处理的规模化、复杂化和自动化程度显著提升,而数据处理模式的改变则对现有个人信息保护的基础理论、治理目标、保护手段产生了强烈冲击。
(一)知情同意权保护面临挑战
知情同意权是个人信息权益保护中的核心权利,取得同意则是个人信息处理的一般性合法事由,其集中体现了“个人信息自决”的基本理念,即信息是否可以被收集、处理以及如何处理等事项都应当由个人自主决定。知情同意权强化个人信息主体对其信息的控制,它要求个人信息处理者明确、完整、准确地将与信息处理相关的事项告知个人信息主体,个人信息主体则在知情基础上作出同意与否的决定。然而,由于生成式人工智能数据处理具有规模化、自动化的技术特点,知情同意权面临被架空的困境。
知情同意权的行使以个人信息主体知情、处理者充分履行告知义务为前提。依《个人信息保护法》第17条,个人信息处理者在处理个人信息前,应当告知用户个人信息的处理目的、处理方式,处理的个人信息种类等事项,以确保信息主体了解自身信息将被如何收集和处理,进而实现个人的意思自治和风险自控。准此,处理者在获取个人信息前就需要明确处理目的、处理程序、处理行为对个人的影响及可能的风险等事项,按照既定计划开展数据处理活动。但问题在于,人工智能大模型在无监督学习阶段将如何挖掘数据信息、如何自主进行算法优化和模型调整是研发人员无法提前计划的。由亿万算法连接而成的生成式人工智能“神经网络”是一个“黑箱”,其数据处理过程和决策机制复杂,设计者和研发者难以对其作出清晰解释。此外,生成式人工智能的数据处理是在人机交互过程中完成的,整个过程具有动态性和易变性,服务提供者会根据大模型的发展情况和商业应用的实际需求对数据处理目的及处理方式进行动态调整,故告知内容往往会与最终的实际情况存在差异。
由此可见,生成式人工智能的开发者、设计者、部署者往往无法提前知晓个人信息处理的具体目的、方式等,欠缺履行告知义务的客观条件。若严格适用告知义务规则,则又与我国产业发展阶段不适配。申言之,目前生成式人工智能尚处于发展阶段,底层技术原理、模型结构形态、算法潜在缺陷、商业应用模式等方面都不甚明确,试错不可避免,如何平衡知情同意权保护与技术和产业发展,成为难题。
(二)查阅权、删除权保护面临挑战
除知情同意权外,《个人信息保护法》赋予个人信息主体的查阅权、复制权、删除权等权利亦面临保护困境。查阅复制权,即个人有权查询、复制其个人信息,处理者则负有信息提供义务;删除权,即当发生个人撤回同意、处理者违反处理规则、处理目的已实现抑或无法实现等情事,个人有权请求处理者删除其个人信息的权利。查阅复制权、删除权有助于维系个人同意处理后、处理活动进行过程中,个人信息主体对其信息的控制力,有助于其自身及时发现和阻止违法处理活动。
在生成式人工智能开发应用背景下,查阅权、复制权、删除权行使和保护则难以实现。其一,查询权、复制权以及删除权的行使,往往以个人信息主体知晓处理活动及其处理目的、处理范围为前提,同样依赖于处理者履行告知义务。然而,如前所述,生成式人工智能开发应用中的个人信息处理很可能处于“黑箱”之中,个人难以在不知情的情况下行使前述权利。其二,查询权、复制权以及删除权是以处理活动相对简单,处理者的个人信息储存、管理和调取成本相对较低为实践背景。然而,随着数字技术快速迭代,生成式人工智能开发应用中的信息处理活动在处理规模、处理方式上发生巨变,开发者既无法完全知晓、决定处理目的,也无法管理、储存所涉个人信息的情况广泛存在。鉴于此,一旦个人信息主体行使查阅权、复制权以及删除权,生成式人工智能开发者存在履行义务的客观困境,义务履行成本较高。
可见,随着技术变革加速,个人信息处理的实践形态发生变化,知情同意权、查阅权、复制权、删除权等个人信息权益的行使和保护已经在权利内容是否适当、权利如何实现等方面面临新的挑战。
(三)个人信息保护制度目的之局限性暴露
主流观点认为个人信息承载着一定人身和财产利益,应当将其确定为一种民事权利。《民法典》接受了这一观点,在第111条中将个人信息界定为一种受法律保护的民事法益;《个人信息保护法》则进一步规定了知情同意权、查询权、更正补充权、删除权等具体权能。至此,个人信息权益已经成为一种明确而独立的民事权益。但有疑问的是,赋予个人知情同意权、删除权等信息权利是否足以保证个人利益不受侵害,以个人信息权益保护为基础的现有规则是否足以涵摄生成式人工智能引发的全部风险。
事实上,数字技术的发展和个人信息的多场景应用使得个人信息的价值及风险已经超越了个体范畴,片面强调信息控制和个人信息权益保障并不符合数据治理的现实需求。生成式人工智能的信息风险至少包括信息泄露、隐私侵犯、个人信息权益行使受阻、用户歧视、生成错误内容等类型。这些风险可以分为三类:其一是直接侵害个人信息权益;其二是利用个人信息侵害用户的其他人身或财产权益;其三是侵害社会公共利益。相当程度上,现有个人信息保护制度仅关注到了第一类风险,难以有效涵盖后两类风险,无法实现对利益的全面保护,更难以控制经由个人信息产生的其他风险。
个人信息的价值凸显和权利化构造完全是数字技术发展的结果,信息仍然是社会交往媒介和生产工具。申言之,人们可以利用信息实现思想交换、技术研发或社会生产。因此,个人信息保护的目的不应局限于保障法定的个人信息权能,还应当关注信息不正当利用的后果,降低违法处理行为对个人人身财产权益以及社会公共利益产生的不利影响。譬如,限制违法处理行为不仅是因为该行为侵犯了用户的知情同意权,还在于该行为可能导致价格歧视、性别歧视等不利后果,损害公民的财产权益和人格利益。在生成式人工智能不断普及的当下,个人信息保护的制度目的需要进一步与人工智能治理目标相结合,从纯粹保障个人信息权益拓展到防控个人信息利用风险,真正实现以法治手段促进生成式人工智能的安全发展。
(四)依靠个人行权的个人信息保护方式效果有限
就保护方式而言,目前个人信息保护制度主要通过个人主张权利的方式来实现,但这种保护方式在生成式人工智能领域则难以充分发挥作用。其一,如前所述,由于生成式人工智能中的个人信息处理活动复杂化、黑箱化,知情同意权、查阅权、复制权、删除权等个人信息权益存在被架空的风险。其二,生成式人工智能中,个人信息侵权救济障碍更加凸显。个人信息侵权一直面临着侵权损害难以确定、举证困难不明等问题,而这些问题则在生成式人工智能中被进一步放大。就侵权损害而言,生成式人工智能的不透明使得用户无法察觉信息被违法处理,更难以发现自己的权益受到了侵害。而从侵权行为人角度来看,应用接口开放和商业合作的加速让生成式人工智能产业链上的企业数量激增,用户无法确定数据处理链条中的哪个环节出现了问题,难以确定侵权人,进一步加大了个人信息主体的行权难度。
(五)已公开个人信息保护和处理规则亟待完善
从人工智能发展实践来看,已公开的个人信息信息是生成式人工智能的主要数据来源,生成式人工智能研发阶段即开始利用网络爬虫等工具抓取网络上的公开个人信息,以生成相应内容。生成式人工智能对已公开个人信息的大规模处理,使如何规范已公开个人信息的处理,平衡个人信息保护和促进信息复用这一问题逐渐凸显,如何完善现有已公开个人信息保护和处理规则成为关键。
根据《个人信息保护法》第13条和第27条的规定,个人信息由个人自行公开或已合法公开,乃个人信息处理的独立合法事由。不过,个人信息已公开作为合法处理事由仍然受到三重限制:其一,无须个人同意的已公开个人信息处理活动必须在“合理的范围”内进行,此为同意豁免成立的内在要件;其二,个人享有拒绝权,信息主体行使拒绝权的,处理者则无权继续处理已公开个人信息,此为终止“个人信息已公开”之同意豁免效力的事由;其三,若处理公开个人信息对个人权益造成重大影响的,仍需取得个人同意,此为“个人信息已公开”不发生同意豁免效力的例外事由。上述三项限制,可在促进已公开个人信息的流通与复用基础上,维系个人对其已公开个人信息的控制力,防止个人信息权益受到侵害。然而,前述三重限制在生成式人工智能领域的适用中至少存在以下问题。
第一,拒绝权的适用困境。由于处理公开个人信息并不需要取得个人同意,生成式人工智能研发者往往直接抓取互联网上的数据。但问题是,在缺乏交互界面的情况下,信息主体如何知道自己的公开信息被用于生成式人工智能模型研发,又如何行使《个人信息保护法》第27条规定的拒绝权?此外,《个人信息保护法》第27条规定的“拒绝权”在定位上不甚清晰。按照文义解释,“拒绝权”的行使没有任何限制,无论研发生成式人工智能大模型是否属于“合理范围”,是否会“对个人权益有重大影响”,信息主体均可拒绝研发者处理自己的公开信息。那么,在未获得合理补偿的情况下,信息主体更可能基于风险规避原因而直接拒绝研发者处理自己的公开信息,进而阻碍生成式人工智能的研发。
第二,“合理范围”界定不清导致的现实问题。“合理范围”的规范意旨是平衡个人信息流通利用和个人信息利益保护。第27条一方面肯定公开个人信息上依然存在个人利益,并未将公开个人信息完全置于法律保护范畴之外;另一方面又认为公开个人信息具有较强的公共属性,希望引导数据的高效流动利用。由于缺乏明确的判定规则,作为矛盾调节工具的“合理范围”却并未发挥理想的作用。若对“合理范围”作宽泛解释,则可能导致生成式人工智能研发者毫无顾忌地抓取和使用公开个人信息,使得第27条保护信息主体利益的目的落空;若将“合理范围”限制在“必须与信息公开时的目的一致”或“必须符合信息主体的期待”,则又可能导致生成式人工智能开发极易陷入违反个人信息保护规则、侵害个人信息权益的违法境地,有碍人工智能技术研发。
第三,“对个人权益有重大影响”解释规则的不明确。在缺乏规则指引情况下,哪些处理活动属于“对个人权益有重大影响”,需要重新取得个人同意并不明确,生成式人工智能开发者极易陷入侵权风险之中。如果“对个人权益有重大影响”的判断是从个体角度出发的,那么不同风险偏好的信息主体完全可能作出不同判断。而如果采取结果导向的判定思路,那么只有在生成式人工智能大模型现实地侵害个人权益后,相关处理行为才能被判定为“对个人权益有重大影响”,该条款失去了应有的风险预防功能。
三、生成式人工智能背景下个人信息保护的范式转换
从工业社会到数字社会的极速跨越并未给理论研究和立法工作留出足够的时间,这也导致既有个人信息保护法律规范在现实适用中存在系列问题,而生成式人工智能的出现则将这些问题进一步放大。在大数据和人工智能快速发展的当下,我们有必要重新思考个人信息保护的理由、思路和方式,并就个人信息治理范式作一定调整。
(一)从利益保护到风险防控:个人信息保护的理由扩张
保护个人利益一直是个人信息保护制度的重点,《民法典》《个人信息保护法》《数据安全法》等法律以此为目标,围绕“个人信息权—处理者义务”建构起了一套完整的个人信息保护制度体系。在这一体系下,个人信息保护制度的主要目的是保障法定的个人信息权以及保护以个人信息为载体的其他个人利益,但这显然与个人信息的基本属性、数据治理的底层逻辑以及人工智能时代的社会现实需求不符。其一,个人信息在公共管理、科学研究和商业发展方面的应用增加,其公共价值愈发凸显,个人信息的私益化理解与民事权利构造可能引发信息垄断,不利于个人信息在生成式人工智能产业链中的流通利用。其二,完全从个人权益保护角度理解个人信息保护的制度目的,忽视了个人信息治理的社会面向,个人信息不当利用引发的操纵选举、泄露国家秘密、群体歧视、市场垄断等问题已经溢出了私人利益范畴。
近来,有学者从社会风险防控角度对《个人信息保护法》的相关规则进行了重新解读。在这种理解下,知情同意权、查询权、删除权等权能除了具备私权属性外,更是个人控制信息风险的工具;而处理目的合法、处理手段合理、数据处理评估、数据分类分级保存等规则也都是为了减少数据风险。不过,仅将个人信息风险限定为预防个人利益被侵害还远远不够。个人信息集合并非单条个人信息的简单叠加,所涉及的利益也非个人利益的聚合。个人信息保护已经与国家政治、社会稳定、经济发展、人权保护等议题深度融合,所涉及的利益超越了个体范畴,风险也已延伸至更为广阔的国家和社会场域,需要宪法、行政法、经济法等公法的介入。生成式人工智能引发的生成错误内容、国家信息安全隐患等问题皆属个人信息风险的外溢,需要从社会风险防控角度规制生成式人工智能的数据处理行为。从个人权益保护到社会风险防控目的的转变,要求同步调整生个人信息保护的责任主体和治理路径。
(二)从“个体责任”到“国家责任”:个人信息保护的责任主体扩展
个人信息保护的初衷是防止政府利用信息技术监视和迫害公民,而学界则以自由、尊严等基本权利为基础构建了“个人信息自决”理论。与此相对应的则是政府和社会在个人信息保护领域的“退场”,个人需要对信息风险和其他不利后果负责,此即个人信息保护的“个体主义”立场。但技术的发展削弱了个人对自身信息的控制能力,个体主义视角下的“知情同意”只是一张“免费通行证”(Free Pass)。平台在算法、数据、资金等资源的加持下形成了新的权力“利维坦”,个人无力对抗平台权力带来的结构性伤害,亦难以借助民事规则来保障自身利益。
面对个人信息保护个体责任的局限,学界开始重新思考个人和国家在个人信息保护领域的定位。有学者从《宪法》第33条规定的“国家尊重和保障人权”条款出发,将个人信息权解读为个人信息受保护权,提出国家在保障个人信息安全方面负有一系列义务,以防止公民在数据处理行为中陷入被动或者受到侵害。事实上,随着个人信息风险由私人领域向公共领域的外溢,个体责任的局限愈发凸显,以个人信息为载体的新型社会问题已经超出了个人的控制领域和私法的涵盖范畴:算法黑箱治理、反数据歧视、治理数据不正当竞争等问题需要通过完善科技伦理规则、行业规范和法律制度等方式实现;而促进数据流通利用、引导人工智能健康发展和数字经济转型等则需要完善数字基础设施和法律监管。从提升公共福利角度来看,生成式人工智能对科学研究、文化传播、经济进步和社会治理等公共领域皆具有推动作用。譬如生成式人工智能的应用重塑了政务服务智慧体,使得政府可以从海量政务数据中获得洞察力,进而改善决策、优化服务;又如生成式人工智能作为新型基础设施,改变了数据采集、内容生成、产品推荐以及用户反馈形式,让新闻传播的效率显著提升。提升公共福利系国家职责,政府有义务创造良好的环境来促进数字化转型,其中很重要的一点就是优化个人信息保护制度,实现生成式人工智能产业发展与数据风险控制之间的平衡。
(三)从结果保障到程序控制:个人信息保护的过程延伸
生成式人工智能复杂的模型结构及不透明的数据处理机制使得个人失去了对自身信息的控制能力,信息主体只有在权利受到侵害后才可能觉察到数据处理行为违法。就此而言,以个人信息权和个体责任为核心的个人信息保护规则并不能贯穿全部数据处理过程,仅能作用于数据处理的特定环节,所能实现的效果也仅是纠正违法数据处理导致的部分结果不正义。具体来说,其一,这种模式要求被侵权人积极行使权利来维护自身权益,但问题在于生成式人工智能中的违法数据处理行为和信息侵权是很难察觉的。其二,这种模式只能保证用户的权益,但不能彻底纠正违法数据处理行为。人工智能侵权的原因在于其内在的算法机制和训练数据质量低,即便某一用户通过诉讼或者其他途径获得了救济,但如果生成式人工智能的内容生成机制没有彻底改变,其他用户权益仍然无法得到保护。
针对这些问题,有学者提出了生成式人工智能个人信息保护的全流程合规理论,即法律应当将生成式人工智能准备阶段、运算阶段和应用阶段的个人信息处理行为均纳入监管范围,通过程序合规的方式来降低数据风险。这种观点殊值赞同。目前各国都在加大对生成式人工智能算法和数据处理过程的监管,数据处理的程序合规成为隐私和个人信息安全的基础。我国《新一代人工智能治理原则——发展负责任的人工智能》将提升透明性、可解释性和可追溯作为实现人工智能安全可控的必要手段。事实上,从我国已经出台的个人信息保护和科技治理规范来看,立法者已经有意强化对数据处理过程的监管。譬如《个人信息保护法》第51条要求数据处理者制定内部管理制度和操作规程、进行数据分类管理,第55条要求对自动化决策进行事前评估等;《互联网信息服务算法推荐管理规定》第7条要求算法推荐服务提供者制定并公开算法服务相关规则,第8条要求定期审核、评估、验证算法模型。不过,这些制度还有待细化,尚不足以对生成式人工智能研发者和提供者的数据处理行为形成有效约束,未来需要进一步制定行业标准和监管规则,实现对生成式人工智能的预训练语料、人工标注方法、数据质量指标、数据分类标准、算法机制等事项的全领域监管。
四、面向未来的个人信息保护规则
现有个人信息保护制度难以有效涵摄生成式人工智能中的新问题和新需求,这就要求法律规则和治理手段作出相应调整。这种调整可能是系统性的重构,譬如彻底颠覆以“个人信息自决”和“知情同意”规则为核心的现有个人信息保护制度体系,但这个工程量无疑太大;也可能是局部性的微调,结合大数据和生成式人工智能的技术特征,从解释论上对现有个人信息保护规则进行细化和填补。而后一种改进办法成本无疑更低,也更具有操作性,以下具体展开。
(一)更新个人信息获取规则
个人信息获取的合法理由包括个人同意和非基于个人同意两类。在生成式人工智能领域,个人同意规则适用于生成式人工智能产品投放市场后,服务提供者基于用户协议获取个人信息的情形。在个人信息自决理论下,用户同意是数据处理行为合法的核心要件。但就《民法典》第1036条第1项的规定来看,处理者不承担责任的条件是在同意的范围内合理实施的行为,即处理个人信息需要同时符合用户同意与处理行为合理两个条件。在用户同意已经逐渐流于形式,无力继续发挥个人利益保护和信息风险控制功能情况下,对个人信息处理是否合法的考察应透过同意这一外观要件,进一步考虑处理过程的合理性,包括目的是否合法、是否会损害个人权益、是否对社会公共利益产生了影响、处理行为是否必要等因素。就目的合法而言,学界往往将其解释为目的特定、明确与合理三项要求。不过,大数据技术天然与目的特定、明确存在一定龃龉,因而对于目的“明确”和“特定”之要求可以适当放宽,给予人工智能产业更大的自由空间。当然,利用个人信息进行商业活动、提升用户体验和训练人工智能模型等目的,虽然均具有一定积极意义,但却并不意味着处理行为绝对正当。对数据处理目的合理性的判定,还需要结合处理过程、处理手段、保护措施来考察处理行为产生的损害和风险、损害与收益之间的比例,以具体判断处理行为是否合理。
非基于个人同意则主要是在大模型研发阶段,研发者获取公开个人信息的情形。从《个人信息保护法》第27条的构造来看,处理公开个人信息遵循原则许可、例外禁止、严格限制模式。有观点认为公开是一种默示同意,并将第27条的拒绝与第44条的一般拒绝权等同。这种观点一方面忽视了《个人信息保护法》不同条文规定的“拒绝”之间的体系差异,另一方面扩大了个人对信息的控制权,过度限制了公开个人信息利用自由。更为可取的解释是将“公开”理解为一种自甘冒险行为,即信息主体在公开时应当意识到这些信息可能被利用,并许可他人使用公开信息,以减少信息主体的“公开意愿”和“风险偏好”等主观因素对二次利用行为的干涉。而“明确拒绝”则属于处理公开个人信息的例外禁止情形。如果信息主体明确表达了拒绝二次处理的意思,则数据处理者不得以信息已经公开为由处理个人信息,这体现了对个人意愿的尊重。
为了促进数据的流通和再利用,有必要对《个人信息保护法》第27条的“拒绝权”作一定限制。一方面,“拒绝”应当是“明确”的,即个人需要以明示的方式作出拒绝二次利用的意思表示。譬如,在社交媒体上发布照片并注明禁止盗用,则应理解为数据主体仅反对其他用户冒名使用该照片。当个人没有明确禁止利用公开信息训练人工智能大模型时,解释上应当采取一种更为宽容的态度,允许研发者抓取公开个人信息训练大模型。另一方面,拒绝的意思表示理应在信息公开时或者被二次处理前作出。如果信息主体在发现公开个人信息被二次处理后作出拒绝的意思表示,由于公开系处理公开个人信息的合法事由,个人信息处理者已经进行的处理行为并不违法,但应当按照信息主体的意愿停止后续的处理行为。公开信息处理的严格限制,则是指处理公开个人信息应当在合理的范围内进行,不得对个人权益有重大影响。第27条规定的“合理的范围”与第6条第1款规定的“合理目的”“采取对个人权益影响最小的方式”以及第6条第2款规定的“最小范围”,在判断标准上应当保持一致,具体考察处理的目的、处理的方式、产生的不利后果、是否采取了必要保护措施等因素。而为了预防数据滥用产生的风险,对生成式人工智能数据处理活动是否合理的考察还需要进一步结合整体的企业管理体系、基础模型架构展开,譬如是否具备健全的人工智能质量管理体系、网络数据安全管理制度、科技伦理审查制度等方面。
(二)强化处理者的说明义务
透明性是提升人工智能安全的重要因素,其涉及处理活动的可追溯、可解释和可沟通,可以理解为知情同意规则在人工智能领域的升级版:一方面,透明性规则要求生成式人工智能服务提供者按照《个人信息保护法》的相关规定向用户提供数据获取和数据处理方面的相关信息;另一方面,透明性规则扩大了负有说明义务的主体范围、增加了需要说明的事项。就说明义务的主体而言,生成式人工智能产业链涉及众多主体,包括设计者、研发者、提供者、合作者等,这些主体可能并不直接与用户发生法律关系,然而他们的商业活动却会使用到个人信息并引发风险。因而,透明性规则下的说明义务主体不仅包括服务提供者,还应当包括设计者、研发者等全部生成式人工智能产业链上的主体。就说明的内容而言,由于生成式人工智能的数据处理几乎完全借助算法自动完成,因此相关主体除需要对获取的个人信息种类、范围、数据处理后果等事项进行说明外,还需要进一步说明大模型的结构及算法机制,以便监管者掌握生成式人工智能的基本情况,并对其风险等级作出判断。具体来说,涉及的说明事项应当包括算法代码、决策树、解释算法决策是如何作出的、输出结果、感知与目标等方面的机制、如何开发和部署算法等方面。
透明性还意味着大模型数据处理和内容生成机制的可理解,这涉及向谁说明以及如何说明的问题。有学者指出,如果缺乏算法信息公开的受众和公正的批判,法律要求的透明性措施只会是空洞的象征。在生成式人工智能引发的个人信息风险不断向公共领域外溢的情况下,政府和行业组织需要与个人携手承担控制个人信息风险的责任,而充分了解和切实掌握生成式人工智能大模型结构、算法机制、数据保护措施等信息则是有效监管的前提。因此,透明性规则下说明义务的受众除了用户之外,还应当包括监管部门以及相关社会组织。一方面,服务提供者应当完善用户协议中的信息收集和处理条款,尽可能详细准确地告知信息处理相关事项。当用户行使查询权时,生成式人工智能设计者、研发者、提供者等主体应当遵循《个人信息保护法》第44、48、50条等规定向用户提供详细的信息,并以明确易懂的语言进行解释。尤其是数据处理活动对个人产生的影响、潜在风险、数据处理者采取的保护措施等问题,应当作出详细说明。拒绝提供相关信息的,需要具备充分的理由。另一方面,《个人信息保护法》第58条第4项要求提供重要互联网服务、用户数量巨大、业务类型复杂的个人信息处理者,定期发布个人信息保护社会责任报告,接受社会监督。进一步结合第55、56条确立的个人信息保护评估制度来看,生成式人工智能研发者、提供者等企业不仅应当对处理目的和处理方式等的合法性、正当性、必要性,个人权益的影响及安全风险等事项进行内部评估记录,同时应当在最大程度上披露评估结果。
(三)注重个人信息处理的过程控制
受资本意愿、设计者偏好、数据污染等因素影响,算法中立性被打破,不再扮演纯粹工具性角色,数据的自动化处理成为生成式人工智能的风险源头。因而,仅关注个人信息获取和结果输出并不足以保护个人权益和控制风险,同样需要聚焦生成式人工智能中的个人信息处理过程。
人们普遍希望人工智能是无伤害的,但事实上只要个人信息被收集处理即意味着风险开启,因而更为理性的政策应当是合理控制数据处理对人类、环境和社会的伤害。《个人信息保护法》第6条要求,数据处理者应当采取对个人权益影响最小的方式处理个人信息。该规定是数据处理目的合法的延续,也是实现数据处理风险可控的有力措施。从域外经验来看,为明确欧盟《通用数据保护条例》(General Data Protection Regulation,以下简称GDPR)第5条的“数据最小化”原则,欧洲数据保护专员公署(European Data Protection Supervisor)发布了《评估限制个人数据保护基本权利措施的必要性工具包》(Assessing the Necessity of Measures that Limit the Fundamental Right to Protection of Personal Data:a Toolkit)和《评估限制基本隐私权与个人信息保护措施的比例性指南》(Guidelines on Assessing the Propportional of Measures that Limit the Fundamental Rights to Privacy and to the Protection of Personal Data)。两份文件将比例原则引入到个人信息保护领域,为监管数据自动化处理提供了有益借鉴。在比例原则下,处理个人信息除应当具备合法目的外,处理者还应当进一步对处理行为的必要性和合比例性进行检验,以减少数据处理行为的风险。具体而言,首先,考察数据处理行为是否会损害个人隐私、信息权益或者其他人身财产权益,是否存在损害国家安全和其他公共利益的风险,如果不存在则为合法。其次,如果数据处理会对个人利益或者其他利益产生危害,则需要考察处理方式的合理性,包括是否采取了加密技术、去标识化技术、数据匿名化措施等必要的保护措施及其有效性。最后,进一步考察数据处理措施与损害之间的均衡性,以避免数据处理造成的损害与目的之间的比例失衡,进而修正数据处理技术或者增加保护手段,以降低数据处理的影响范围和强度。
(四)扩充“个人信息保护义务”内容
生成式人工智能具有强大的信息处理能力,在显化碎片化信息的可识别性、描绘用户画像方面远远超出以往数字技术。这有利于充分发挥个人信息的利用价值,增加数字红利,但也引发了更大的信息处理和泄露风险。基于此,生成式人工智能开发应用的相关主体应当在获取个人信息后,更积极地采取个人信息安全保障措施。《暂行办法》第9条要求生成式人工智能服务提供者履行个人信息保护义务,明确该项义务的具体内容,可对生成式人工智能中的个人信息处理活动形成更为有效具体的规制。应当认为,此义务内容至少包含以下方面:一是遵守个人信息处理规则、保护个人信息权益的义务;二是积极采取安全保障措施、防范个人信息安全风险或及时消除个人信息安全事故的义务。生成式人工智能的开发者在处理训练数据过程中,同样应当承担个人信息保护义务。
此外,在人工智能技术变革阶段,个人信息保护义务的落实,有赖于数据安全技术更新和相关规则的具体细化。一方面,先进的数据安全技术,如区块链、隐私计算等新技术可有效辅助处理者履行个人信息保护义务;另一方面,细化数据安全监管制度与规则亦为保障义务有效履行的重要支撑。当前,无论是数据分类分级要求,还是风险评估规则,抑或是安全审查制度,均有失明确,尚不足以对个人信息处理者产生明确的行为指引效果。以分类分级制度为例,《个人信息保护法》第51条要求个人信息处理者根据信息种类、对个人权益的影响、可能存在的风险等标准对个人信息进行分类管理,但上述区分标准却并不明确。生成式人工智能用户的姓名、电话号码、输入的文档等信息的风险等级以及对个人的重要性应当如何划分,需要清晰的行业标准。因而,在个人信息保护的国家责任下,未来需要进一步出台人工智能领域的行业法规、指导文件和技术标准等规范来引导产业完善数据存储措施。同时,在以风险预防为导向的个人信息保护框架中,行政监管应当与企业内部的数据合规相配合,通过明确法律责任等方式激活《个人信息保护法》第54条确立的数据合规审计、第55条确立的数据保护评估、第57条确定的风险报告等制度,以及时发现数据安全风险。
(五)优化个人信息权益救济规则
明确个人数据处理规则和监管制度可以有效降低生成式人工智能中的个人信息风险,但违法处理行为仍有可能发生,因而完善个人信息的侵权救济规则仍然至关重要。
第一,个人信息侵权私益诉讼。行政监管等公法措施可以督促生成式人工智能设计者、研发者以及提供者等主体履行个人信息保护义务,但现阶段人工智能法规、行业行为标准不完善以及公共执法资源有限等因素导致公法在防范个人信息风险方面仍然力有不逮,企业违规处理个人信息、侵犯个人信息权益现象并不鲜见。侵权责任制度则可以在救济受害人的同时产生一定的社会治理和公众教育效果,促使市场主体在面对新技术可能引发的未知风险时作更多调查研究,提升注意水平和行为标准。作为数字时代的新型问题,个人信息侵权的样态包括:个人信息权能无法正常行使,譬如企业不配合导致用户无法查询、变更或者删除自己的信息;经由个人信息导致的下游损害,譬如电信诈骗等。对于个人信息权能无法正常行使情形,依据《个人信息保护法》第50条,处理者不履行法定义务,致使用户的查询、更正补充、删除权等权利无法正常行使时,用户可以通过诉讼的方式维护自己的权益。但有疑问的是,此种情形下被侵权人是否有权就其非物质性损害请求赔偿。本文认为,个人信息与个人的自由、尊严、自主等基本人权紧密相连,故而有必要承认个人信息权能受阻时的非物质损失损害,进而更好地保障个人利益。至于如何判定这种非物质损害,则可参照精神损害赔偿的规定,结合侵权人的故意、侵权给受害人造成的影响等方面进行综合考量。
对于经由个人信息产生的下游损害,部分法院认为利用个人信息侵害其他人身财产权益属于个人信息侵权损失,但这种观点也遭到了学者的质疑。本文认为,在肯定个人信息侵权物质性损害的前提下,受害人与处理者之间的举证责任规则应作进一步利益平衡,采取盖然性证明标准。由受害人初步证明数据泄露系数据处理者的违规行为导致,但数据处理者可以举证证明自己并不存在过错而免责。
第二,个人信息侵权公益诉讼。生成式人工智能中的违规数据处理、信息泄露等侵权行为会直接侵害大规模用户利益,并进一步影响公共安全和社会秩序,故而有必要引入公益诉讼制度来填补私益诉讼的不足。《个人信息保护法》第70条规定,违规处理个人信息侵害众多个人权益的,人民检察院、消费者组织等可以提起公益诉讼。不过该条仅从事后救济角度出发,规定了个人信息侵权的民事公益诉讼,即只有在违规数据处理行为同时涉及多人且造成一定现实损害后,相关部门才可以提起公益诉讼。就规范生成式人工智能数据处理行为和预防侵权行为发生而言,现有个人信息侵权民事公益诉讼规则的作用有限,可从以下方面予以完善:其一,拓展民事公益诉讼的适用范围。个人信息侵权损害是不可逆的,对个人和社会的影响将持续存在,譬如泄露的数据可能永远存在于互联网中无法删除。因而,个人信息侵权的民事公益诉讼不应以损害现实发生为启动要件,而应当在风险评估框架下,结合生成式人工智能个人数据处理行为的风险等级展开。如果数据处理行为存在较高的风险或者侵害个人信息权益之虞时,相关部门也可以提起个人信息侵权民事公益诉讼,避免违规数据处理行为产生现实损害。数据处理者的责任承担方式则为停止侵害、排除妨害、消除危险等预防性措施。其二,行政公益诉讼的引入。我国公益诉讼同时涵盖民事公益诉讼和行政公益诉讼两类,其中行政公益诉讼针对的是行政机关违法行政行为或不作为行为,引入个人信息侵权行政公益诉讼制度可以有效督促相关部门履行法定职责。现行法规定了履行个人信息保护职责的国家机关及其职责范围,但相关部门是否依法履行个人信息保护职责以及是否正确履职需要都法律监管,人民检察院依照行政公益诉讼程序提出检察建议或者提起公益诉讼,一定程度上可以起到监督效果。
结 语
以小数据时代经验为基础的个人信息保护制度与大数据和人工智能的技术原理多有冲突。未来的个人信息保护制度不仅应当关注个人权益保护,更需要防控违法数据违法引发的社会风险。因此,国家需要更多地承担起生成式人工智能治理和个人信息保护职责,进一步细化现有制度,完善行业标准和强化监管,真正实现人工智能的“负责任”和“可信任”。
本文原载《法学家》2025年第4期。