姚佳：人工智能的训练数据制度——以“智能涌现”为观察视角

文章摘要：人工智能训练数据制度的构建，应置于“智能涌现”的观察视角之中。“涌现现象”和“涌现论”在不同学科都是传统命题，而在人工智能时代“智能涌现”又成为新的关注焦点。对于训练的数据，应注重著作权保护和个人信息保护，但同时亦应在合法框架之下尽可能采集大体量数据和高质量数据，多元数据采集主体负有一系列义务。对于数据的训练，则旨在突出数据的利用规则，通过价值嵌入与技术支撑，防止“智能叛变”，实现数据训练目标，并直接影响人工智能的“输出端”。训练数据制度的构建内嵌于人工智能治理之中，在遵循人工智能伦理准则的基础上，“好的数据”原则应成为一个新视角与新范式，通过涵盖“伦理”之内与之外的实践，使人工智能中的数据制度超越抽象性而更具实践性。

一、引言：智能何以“涌现”

人工智能尤其是生成式人工智能的出现，标志着人工智能进入一个变革时代，其在文本、图像、音频和合成数据的创建方面展现出前所未有的进步。通过数据、算法和算力之三大人工智能要素的叠加协同，在训练参数和数据量达到一定阈值（threshold）之时，甚至可能会出现不可预测的涌现能力。这种“智能涌现”现象，十分值得关注。

“涌现现象”与“涌现论”在不同学科如哲学、生物学、物理学、系统科学、复杂科学、经济学等领域都受到关注和系统研究。就“涌现论”（Emergentism）的研究而言，“刘易斯（George Henry Lewes）于1875年提出了‘涌现’一词。他区分了涌现和结果。这种区分是从密尔（John Stuart Mill）那里学到的。密尔在其1843年的《逻辑体系》（System of Logic）一书中区分了‘原因的两种联合作用模式，即机械和化学’。根据密尔的观点，当两个或两个以上的原因以机械方式结合在一起产生某种结果时，这种结果就是每个原因单独作用时的结果的总和。”此后关于涌现的研究，经历了从英国涌现主义学派的经典涌现论到以复杂性科学为标志的复杂系统涌现研究的发展。涌现研究重点关注的是由小的部分结合成的大系统（复杂系统）形成的整体现象，“总体大于部分之和”是其通俗的表述。

涌现与复杂系统紧密相关。“遗传算法之父”霍兰德（John H. Holland）认为，像涌现这么复杂的主题，不太可能用一个简洁的定义来完整地解释，当然也就无法给出这样一个定义。但是霍兰德也在反复证明，少数规则和规律就能产生极其错综复杂的系统。比如棋类游戏中多种多样的棋局，或者遵循万有引力定律的棒球、行星和星系的运行轨迹，都说明了这一点：少数规则或定律能够产生复杂的系统，而且以不断变化的形式引起恒新性（perpetual novelty）和新的涌现现象。实际上，在大多数情况下，我们只有理解了与系统相伴的涌现现象，才能真正理解这些复杂系统。涌现研究中的关键术语主要包括：机制（积木块、生成器、主体）和恒新性（大量不断生成的结构）、动态性和规律性（在生成的结构中，持续并重复出现的结构或模式）、分层组织（由生成器构成的构件成为更高层次组织的生成器）。但凡可能存在复杂系统，涌现现象就可能发生，而涌现的意义恰在于其出现了一种超乎人们想象的现象或结果，推进了人类的认知水平。

人工智能作为一个复杂系统，已体现出“涌现能力”。尽管人工智能何以出现涌现现象，以及“涌现”是否属于大模型智能出现的标志，仍未有定论，但是人们至少就大量数据训练、复杂算法以及超强算力的综合应用能够出现“智能涌现”现象，并成为一个值得研究的命题，则具有一定共识。本文拟撷取其中的数据维度，探讨如何构建人工智能的训练数据制度，以进一步回应并更好解释“智能涌现”何以增强人们的认知能力和洞察力。当然，在问题分野上，人工智能的数据制度究竟应偏向于人工智能制度还是更相对聚焦于数据制度，实际上较难明确区分。就训练数据本身而言，在规则和制度层面基本上偏向于数据制度，但是就如何更科学地建构训练数据制度以及这一制度如何与人工智能的功能与价值等方面相互影响与匹配，则必然要切入人工智能的技术特性和宗旨目标。故此，二者无法作制度层面的区分。作为人工智能三大要素之一的数据制度，“无数据，不智能”，训练数据制度之建构居于重要地位，如何从各向度研究训练数据制度，是当下的重要且紧迫的任务之一。

二、训练的数据：合法采集规则

大型自然语言模型的训练需要高量级的数据“喂养”。在可能出现“智能涌现”的大背景之下，如何尽可能在保障数据安全的基础上将更多数据加以采集和利用，正是在“输入端”的训练数据制度中应当考虑的问题。以ChatGPT为例，人们总结其具有一系列特性，比如强交互性，能进行多轮对话，可以对过往聊天内容进行再学习，不断改进输出文本的质量；同时具有强理解能力，即能够分析用户模糊语言，理解用户意图，辨别对话中不正确的提问；还具有强生成能力，可以按照要求，生成用于不同场景、不同形式的文字，包括论文、邮件、图文和代码等。从某种意义上讲，这种大力出奇迹的“暴力美学”，必然建立在大量数据输入的基础之上。当然，人们对于人工智能具有如此强大的分析能力也保持警惕，有论者认为，生成式人工智能亟需规制的安全风险分别是准备阶段的数据安全风险、运算阶段的算法偏见风险与生成阶段的知识产权风险。在此意义上，就训练数据而言，尽管可能存在一定数据安全风险，但是在符合现行数据法律制度的基础之上，是否应在输入端尽可能考虑构建一种以提升人工智能决策质效多重目标的训练数据制度，尚值探讨。

（一）数据采集的来源

数据的量级对于大模型训练而言是一个十分重要的维度。对于“深度学习模型来讲，训练数据的不断增加能够带来性能的提升”。大模型采集数据的来源较为广泛，通常根据具体需求和场景选择合适的数据源。根据需求、质量与可获得性等主要影响因素，人工智能等大模型的数据来源大致分为以下几个方面：

第一，企业自身所有、控制的数据。任何企业均有依据自身业务历史积累的数据，即根据业务特性和场景积累的自身可以利用的一系列数据。

第二，公开渠道爬取的数据。由政府组织、科研学术机构或企业公开发布，涵盖各种类型的数据，如图像、文本、音频、视频等。例如，ImageNet是一个广泛用于图像识别任务的大规模图像数据集；Common Crawl则提供了大量的网页抓取数据以供自然语言处理模型训练。另外，还有一些开源数据集如WikiQA、EXEQ-300K、Arxiv等。

第三，数据资源共享。有一些机构、学者等拥有较为独特的数据资源，并愿意以各种形式合作共享这些数据资源，支持不同领域的研究和应用，尤其是针对能够共同提高人类福祉的一些领域。例如，在医疗领域，医疗机构通常会收集大量的医疗影像数据，这些数据可以用于训练图像分析或者特定疾病检测等任务。

第四，互联网上的公开资源。互联网本身就承载大量信息和数据，如UGC平台、社交媒体、论坛、新闻网站等，以及用户发表的内容、回复、评论等等内容，都可以成为大模型训练的数据源。

另外，在有的情形下，用户使用生成式人工智能服务之时，用户输入的内容和服务提供者输出的内容也是训练数据的来源。在OpenAI官网的《使用协议》（Terms of Use）中约定，关于“您的内容。您可以向‘服务’提供‘输入’，并根据输入从‘服务’接收‘输出’。输入和输出统称为‘内容’。您对内容负责，包括确保其不违反任何适用法律或本条款。您声明并保证您拥有向我们的‘服务’提供输入所需的所有权利、许可证和权限”。同时用户享有“选择退出”的权利，该协议条款中约定，“如果您不希望我们使用您的内容来训练我们的模型，您可以按照本帮助中心中的说明选择退出。请注意，在某些情况下，这可能会限制我们的‘服务’更好地解决您的特定的使用案例的能力”。从选择退出的条款中可知，服务提供者会利用用户的对话内容训练模型。但是在有一些生成式人工智能服务提供者的用户协议中，对此却并未明确约定，其是否利用用户的对话内容来训练模型，尚未可知。

（二）数据采集行为的合法性

训练数据的来源多重，针对数据来源本身应具有合法性，相应采集行为应具有合法性。国家网信办等七部委于2023年7月颁布的《生成式人工智能服务管理暂行办法》第7条规定了生成式人工智能服务提供者的训练数据处理活动要求，即：“生成式人工智能服务提供者（以下称提供者）应当依法开展预训练、优化训练等训练数据处理活动，遵守以下规定：（一）使用具有合法来源的数据和基础模型；（二）涉及知识产权的，不得侵害他人依法享有的知识产权；（三）涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形；（四）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性；（五）《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。”基于该条规定，训练数据在来源上应具有合法性。涉及知识产权的，应在知识产权的法律制度框架内遵守相关规定；涉及个人信息的，应遵守个人信息保护相关规定。对于版权和个人信息保护而言，若违反合法性要求，则可能会承担相应侵权责任。针对其中第（四）项提高数据质量而言，是否引致侵权责任则存在一定争论。针对这几个问题，如下分述之：

其一，未经许可使用相关作品版权作为训练数据颇具争议。美国近年来几起诉讼，无论是针对OpenAI、GitHub的集体诉讼，针对Stability AI，美国万名作家签署作家协会信函呼吁人工智能行业保护作者权益，还是《纽约时报》诉OpenAI，这些诉讼和事件均指向利用未经授权使用作品训练人工智能产品或者在开源社区中可能侵害他人版权等问题。就训练数据中能否使用公开的但未经授权的作品，讨论颇多。美国《著作权法》第107条采取了“四要素分析法”，通过衡量使用目的和性质；被从事使用、具有著作权的作品性质；相对于被使用的作品整体，所使用的数量和程度以及其使用对受到著作权保护的作品的潜在市场或价值产生的影响等内容进行综合判断。赞成者认为以含有著作权的作品作为训练数据应构成合理使用，而且只要其不是将特定作品的全部或相当部分原封不动地重新呈现，同样构成合理使用；反对者则认为，这种“自我学习”并非合理使用，其仍然是对原作品进行“续写”或“改编”，而非真正的转化性使用，而且若令人工智能从事“仿真”之作，则会对消费者造成困扰，也与原作者构成直接竞争。亦有论者从机器学习的类型化角度出发，认为机器学习可分为非表达型、大众表达型和个人表达型三种。非表达型机器学习，系指没有表达性内容输出的机器学习，即从作品中提取的有价值信息是非表达性的事实或思想，如从作品中提取出的人脸要素、场景要素等等，其对作品的使用属于非作品性使用。而其他两种机器学习，则要么符合受限制的合理使用规则，要么构成侵权。尽管上述分析视角和理论框架有所不同，但是在目前世界范围之内的学术讨论中，底层逻辑依然是——在训练数据使用中，应尊重在先的著作权，不得侵害他人依法享有的著作权，除非其符合其他例外规则，由于这一问题关涉用户是否享有人工智能生成物的著作权等问题，因此也并非仅靠前端的训练数据就能解决，仍有待人工智能发展全貌下的综合研判。

其二，个人信息作为训练数据，应符合现行法对于个人信息保护的相关规定。在“告知—同意”规则的框架中，同意的性质已毋庸讳言，其仅为个人信息处理活动的合法性基础，即合法根据或正当理由之一，而非个人授权他人使用自己的个人信息。大模型服务提供者也通常在隐私政策中就个人信息保护进行规定。对于已公开个人信息的使用，也应本着“采取对个人权益影响最小的方式”使用。总体上，作为训练数据的个人信息，仍应在个人信息保护的基本框架下有限度使用。

其三，对于数据质量保障义务的违反，并不必然承担侵权责任。有论者认为，即便要求生成式人工智能服务提供者对生成式人工智能的预训练数据、优化训练数据来源的合法性负责，保证数据的真实性、准确性、客观性、多样性，如此对于防范虚假信息能够起到很好的作用。但是目前现有现有技术尚难以达到这一目的。故此，将防范虚假信息作为一种倡导性的行为是有意义的，但是作为一种严格的法定义务，要求在人工智能服务提供者违反该义务时科以侵权责任，则未免过于严苛，而可能不利于鼓励技术创新。本文赞成此观点，对于上述知识产权、个人信息保护相关义务的违反，服务提供者应承担相应侵权责任，但是对于违反数据质量保障义务，显然不能一概而论，本文容后再论。

（三）数据采集主体的法律义务

数据采集阶段涉及不同采集主体的法律义务。通常而言，在数据采集阶段涉及的主体包括人工智能开发者、云服务提供商、数据标注提供商以及数据经纪人或数据商。概括而言，这些主体均应承担隐私保护、个人信息保护以及知识产权保护等义务，同时还应承担一系列公法上的数据治理义务。就开发者而言，应承担数据安全保障义务、数据质量保障义务、数据公平治理义务、数据透明义务和数据委托监督义务等。就云服务提供商而言，应承担数据安全保障义务。就数据标注提供商（相对于开发者而独立的主体）而言，应承担数据质量保障义务。就数据经纪人或数据商而言，应承担数据质量保障义务等等。不难发现，就训练数据而言，其质量至关重要，因此各主体均应承担相应的数据质量保障义务。因为有论者发现，在后续的开放领域对话系统中，对话数据有的从社交网络中收集，不可避免地存在大量错误和噪音，高质量的对话数据相对缺乏。故此，对于高质量数据的需求，无论是就大模型自身服务的目标还是“智能涌现”的目标，其均比较重要。当然，此种数据质量保障义务更多是一种数据治理义务，与上文提及的是否承担相应侵权责任，并不是一个问题。

三、数据的训练：“价值—技术”双重视角下的数据利用规则

数据的训练旨在实现人工智能最终可以更好为人类服务的目标。但是显然人们也意识到了人工智能可能带来的一些问题。2023年11月，中国、美国等28个国家和欧盟共同签署了《布莱奇利宣言》（Bletchley Declaration），大家对一些问题达成共识，认为人工智能带来发展机会的同时也带来一定风险。诸如，由于内容操作或生成欺骗性内容的能力，可能会出现未预见的风险；由于可能的有意误用或与人类意图对齐的无意控制问题，可能会出现实质性的风险。这些问题部分是因为这些能力还没有被完全理解，因此很难预测。同时，在诸如网络安全和生物技术这样的领域，以及前沿人工智能系统中，都可能产生被放大的风险，如假信息。如何应对这些问题，在数据训练这个阶段尤为重要。技术和认知视角的“智能涌现”显然是需要更好的数据训练，以及好数据能被更好利用。

（一）数据利用与训练目标

“涌现最初是一种具有耦合性的相互作用的产物。在技术上，这些相互作用以及这些作用产生的系统都是非线性的：整个系统的行为不能通过对系统的各个组成部分进行简单求和得到。”能否出现涌现，人们无从预判。但是当数据达到足够体量，通过一定训练之后，能够出现人们意想不到的认知能力，这一点已具有共识。有论者亦认为，解析生成式人工智能的“涌现”现象，应在认知、行为和知识的互构之中理解知识生态系统下的涌现逻辑，以及知识生产将体现为“从暗知识到显知识的涌现”的新模式。

数据训练的关键在于选择合适的训练数据集、算法和模型。数据集应具有代表性，能够充分反映出待解决问题的特征和规律。数据集的时效性偏差可能会引发可信度危机。算法选择之时，则需要考虑问题的性质和数据的特点，以及算法本身的复杂度和效率。同时也需要考虑算力消耗之性价比的问题。只有既在宏观上认识到数据训练能增强人们的认知能力，又在微观技术实践中能够实现预定目标，才能理解如何更好利用数据，以及如何更好实现人工智能应用之目标。

（二）价值嵌入与技术支撑

数据训练之时，既存在传统问题也存在新问题。有论者从新闻传播角度进行实证研究后发现，人工智能开发者群体在日常生活与一线工作过程中触达的风险边缘类型主要包括数据泄露/冒用作假、隐私贩卖/侥幸心理、算法偏见/个人主观、干扰社会事务及心理伤害，但个人道德、协议约束、法律与媒介监督等因素警示人工智能开发者在使用训练数据时对于数据边界问题应保持清醒与冷静。这些问题彼此交织，使得数据训练只有在价值与技术融合维度之下，才能实现数据训练的最终效果。

在个人信息利用之时，生成式人工智能的场景和问题更为复杂。个人信息保护是个传统问题，但是随着科技的发展，其也在不同时期呈现出不同问题。在欧盟《一般数据保护条例》之中，在数据收集限制方面，应遵循合法、公平、透明、最小化等原则，并且受目的限定原则等限制。我国《个人信息保护法》也确立了个人信息处理的合法、正当、必要和诚信原则，对个人权益影响最小等方式，遵循公开、透明原则以及保证数据质量等原则规则。

人工智能技术的应用，使得个人信息保护等问题变得更为复杂。信息的广泛收集，可能会使非个人信息转化为个人信息。这一问题在此前的诸多场景中就已存在。就敏感个人信息而言，比如，因网络活动而产生的行为数据、从社交网站上搜集的数据、生活智能设备收集用户行为而产生的数据、人工智能技术的运用而可能产生的可以关联至个人的数据以及基于数据分析技术（比如撞库）等，可能会不断出现敏感个人信息，进而识别、关联至具体个人。匿名化的个人信息可能会被重新识别以及机器学习可能超出人类可以控制的范围。在此基础上，生成式人工智能就会产生更多问题。本文致力于从“智能涌现”的角度观察训练数据问题，认为应尽可能实现大体量数据的运用，但是在价值上仍未有任何偏差，仍强调隐私保护等方面的基本要求。当技术发展至生成式人工智能之时，通过分析个人信息可能会产生新的虚假个人信息，产生“幻觉”（hallucination）；由于强交互性，进入模型的信息都可能被输出；训练数据中因为包含大量个人信息，可能无法被删除，并可能进一步产生数据泄露等数据安全风险。故此，如何防止“智能叛变”，将“有意识滥用”和“无意识控制”等问题放在同一场景、维度下考虑，显然就变得更为重要。也即，如何从多向度在智能时代既保护个人信息，又能更好利用个人信息，就成为一个关键议题。

个人信息匿名化等技术的运用，是激活个人信息利用的密钥。《个人信息保护法》明确规定，匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程。在信息化时代，对于信息安全的落实方式正经历“简单加密—算法加密—多元加密”的变化。与此相联系，即便是个人信息在数据训练中合法被使用，但其能否通过技术实现一种非明码的使用，对于保护信息安全也十分重要。类比一个计算法学的原理，所谓的“不可计算”，只是证明我们还没为这个系统建立完整的模型，在计算理论上只有当前算力、算法、数据尚无法承担的计算任务，并没有理论上不可计算的绝对任务。故此，在数据训练过程中，应全程嵌入相应价值导向，同时亦应通过技术支撑而实现对个人权益的全方位保障。

（三）模型训练主体的法律义务

在模型训练阶段，主体较为单一，但是义务却呈现出全方位、体系化等特征。对于开发者主要是模型训练者而言，应承担隐私保护、个人信息保护等义务、数据安全保障义务、数据质量保障义务等等。通常而言，在模型训练之前都会针对训练数据进行预处理，这一阶段的义务实则与前续采集和后续模型训练之间都会产生一定关联，居于“中间地带”。由于其已在采集阶段之后，故更接近于模型训练之时对于数据的使用。就开发者的法律义务的具体定位而言，与前述数据采集主体的义务体系相类似，对于隐私保护、个人信息保护和知识产权保护等方面的义务，可能会直接引致侵权责任的承担。但是对于其他一些义务，可能多为公法上的义务。

四、“好的数据”原则（Good Data Principle）：人工智能治理的新范式

人工智能时代的治理极具复杂性，人们不仅要面对不同问题的横截面，比如克服风险与驱动发展之间的关系，同时也需要面对“科学—技术—社会”的存在论情境而产生的问题。如英国技术哲学家科林格里奇（David Collingridge）从技术的社会控制角度揭示技术发展与社会之间的协同问题时提出的，“技术的社会后果是很难在技术发展的早期做出准确预测的”。因为“当技术的改变相对容易时，其影响却是难以完全预见的；而当对技术需要变动的要求变得强烈时，这种改变却已经变得非常昂贵、困难和费时了”。这一现象与理论即“技术控制的困境”（dilemma of control）。不同国家和地区都面对这些抽象出来的共同问题，同时又面对自身的具体问题，如何在自身制度体系框架内安排最适合自身发展的制度，显然成为一道难题。囿于论题限制，本文并未聚焦探讨人工智能治理这一问题，而是在人工智能治理这一框架之下探讨训练数据制度的问题。故此，针对训练数据制度的建构，当然也是人工智能治理制度中的子制度或者至少有较多重叠交叉的部分。

（一）训练数据制度的价值衡量

训练数据的采集、输入与利用规则，面对着一系列价值衡量。在数据质量、数据体量与外部治理之间似乎形成了一个彼此具有弹性缩胀、此消彼长的关系。数据质量在采集、输入和利用全程都十分需要；数据体量也是高量级优于低量级，但相伴而生的则是可能虚假信息、错误信息也会影响数据质量。外部治理则在数据质量要求、负面风险或高风险方面予以治理。另外，有论者认为，针对训练数据，应构建以“数据”为客体的数据财产权制度。从本文的分析框架可知，训练数据通常涉及前端的数据采集规则以及中端的数据利用规则，较难涉及到后端输出的数据集的权益归属判断问题。若输出的数据集已成为公开数据，可从公开渠道爬取，这就意味着其上很难分配和承载相应排他性权益。另外，OpenAI的《使用协议》中也约定，输入和输出的内容均归用户所有，但同时服务提供者也会将用户对话内容用以训练模型。故此，作为工具意义上的训练大模型的数据，除在前端采集之时需具有合法性并应对相应权利冲突之外，其他并不会过多涉及需要在训练数据之上设定财产权的问题，而更多还是在数据质量、体量与治理之间予以衡量。

技术往往伴随着试错的过程而逐步发展，若不试错，可能也未必能出现极具偶然性的“智能涌现”。因而如何进行价值衡量并制定更为完善的制度，始终是一个重要议题。尤其是近年来，世界范围内各国各地区都在伦理、技术、治理、经济、社会等不同向度进行考量协调，也是考量各国各地区“治理平衡术”的历史时刻。

（二）人工智能伦理准则

人工智能治理的总体准则之一即伦理准则。有论者认为，在技术层面，随着平台企业突破并扩展了原有边界，从之前的单一资源整合者转变为通过插件和应用程序接口实现多维度赋能的资源调配者，故而形成了基于API、基于插件和基于模型垂直部署三种模式的治理架构。在社会层面，当前阶段，人工智能既承继了之前信息技术的伦理问题，又因为深度学习等一些人工智能算法的不透明性、难解释性、自适应性、运用广泛等特征而具有新的特点，而可能在基本人权、社会秩序、国家安全等诸多方面产生一系列伦理风险。人工智能治理路径选择上主要有两种理论：一是“对立论”，即着眼于人工智能技术与人类权利和福祉之间的对立冲突，进而建立相应的审查和规制制度；二是“系统论”，强调人工智能技术与人类、其他人工代理、法律、非智能基础设施和社会规范之间的协调互动关系。我国主要以“系统论”为治理路径，旨在逐渐形成多元主体参与、多维度、综合性的治理体系。

在世界范围内，各国各地区都试图在伦理框架之下治理人工智能。《布莱奇利宣言》承诺以安全、以人为本、值得信赖和负责任的方式设计、开发、部署和使用人工智能。欧盟委员会于2021年4月提出《人工智能法案》提案，经过多轮讨论，欧盟27国已于今年2月投票一致支持《人工智能法案》文本，标志着欧盟向立法监管人工智能迈出重要一步。美国近年来陆续推出《人工智能权利法案蓝图》《人工智能风险管理框架1.0》《关于安全、可靠和可信的人工智能行政令》等等。中国近年来发布陆续发布《新一代人工智能治理原则——发展负责任的人工智能》《新一代人工智能伦理规范》等，积极引导全社会负责任地开展人工智能研发和应用，同时发布《生成式人工智能服务管理暂行办法》等，对生成式人工智能服务实行包容审慎和分类分级监管。这一系列伦理治理理念也将嵌入训练数据制度之中。

（三）“好的数据”原则之提出

尽管人工智能伦理原则和框架在世界范围内形成普遍共识，但也可在此基础上有更多观察维度和视角。尤其是针对训练数据制度，可输入更多视角，使一些原则超越抽象，更具可执行性。有论者提出，数据是人工智能的燃料，提供价值和力量。人工智能伦理原则往往以相同的价值观（公平、问责、透明度、隐私等）为中心，不足以应对人工智能在社会中带来的司法挑战。在域外，人工智能的能力有时可能是由地位具有优势的主体设计、资助、开发、部署和监管的（如果真的有），这些具有优势地位的主体可能也正在推进利润、权力和主导地位的价值观。而希望提出“好数据”[21]这个概念，作为一个更广泛的概念，以阐明人工智能的开发和部署以及其他数字技术的价值观和相关权益。“好数据”应具有四大支柱：社区、权利、可用性和政治，它们是公正的数字社会和经济的前沿。“好数据”是一个更广泛的概念，旨在涵盖“伦理”之内、外的实践，以及围绕数据产生的人权、环境和社会正义问题，这可能涉及到超越迄今为止对“人工智能伦理”的关注，以及对“人工智能法律”的关注，以解决“人工智能道德”的不足。这一观点极具启发性。或许在我们通常讨论数据质量之时，已经输入了“好的数据”之理念，这一原则与理念比具象意义上的数据质量涵盖更广，也更能补足抽象的伦理要求的不足。故此，在人工智能伦理的基础上，尤其是在训练数据制度建构方面，“好的数据”原则亦应成为人工智能治理中的一个重要切入视角与新范式。

五、结论

“科学—技术—社会—法律”的存在论情境，不断给人们带来跨越式发展，同时也带来一系列难题。“智能涌现”作为人工智能时代可能相伴而生的一类新现象，如何认识以及如何从不同维度的制度层面促成“涌现智能”，成为人们十分关注的问题。训练数据制度作为人工智能制度中的重要构成之一，在“训练的数据”这一维度，应遵循合法采集规则，但同时为了充分实现“质—量—效”几者的统一，应尽可能在合法性框架之下扩大数据采集范围，如此才能为可能的“智能涌现”奠定基础。对于“数据的训练”这一维度，应当尽可能更好利用数据，通过价值嵌入和技术支撑，以实现训练目标。从治理维度而言，在传统的人工智能伦理准则维度和范式之下，“好的数据”原则更以其涵盖广、可执行性强而具有优势。在数据、算法、算力三个基本要素的协同支撑下，人工智能才得以更好发展。但同时也给我们留下诸多未竟难题，比如“智能涌现”是否是大模型的特征之一，或者说是否所有的更高级别的人工智能发展都需要“涌现”而提升人们的认知；“好的数据”原则应以何种标准予以构造，凡此种种，都给我们留下更多讨论空间。

作者：姚佳，中国社会科学院法学研究所编审，中国社会科学院大学教授，博士生导师。

来源：《贵州社会科学》2024年第2期。

姚佳：人工智能的训练数据制度——以“智能涌现”为观察视角

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏