作者:郑玉双,中国政法大学法学院教授。
来源:《法制与社会发展》2026年第3期(第207-224页)。
摘 要:人机价值对齐是应对人工智能技术伦理挑战的积极姿态,但其在概念内涵上存在争议。对人机价值对齐的内涵目前存在技术路径和伦理路径两种理解。技术路径强调保障人工智能技术应用的安全,伦理路径强调人与机器的价值互动,这两种路径都未能充分展示人机价值对齐作为创造性和制度性实践的属性。既有研究针对人机价值对齐的对象、方式和方法论框架已经进行了一些有益的探索。在此基础上,应当从伦理学视角转向法哲学建构。在人工智能技术的冲击下,社会规范发生了物理学转型,亟需规范空间的再造。从法哲学视角出发,可以建构人机价值对齐的可能规范框架,即人机价值对齐的主要实践机制在于构建计算规范。计算规范是价值表达,具有建构性和解释性。计算规范表达了社会基本善,可以参照法律作为价值实践的丰富经验,通过制度性累积而不断完善自身的实践机制,实现实质的人机价值对齐。
关键词:人机价值对齐;人机关系;人工智能;计算规范
在科技治理体系中,人机价值对齐(Human-AI Value Alignment)是人工智能伦理建构的一种新兴理念。这个概念是近几年才被提出的,随后获得了学界的广泛关注,也成为产业发展和政策制定的一项要求。然而,关于人机关系或者人机伦理的议题并非新鲜事物。在人工智能技术的发展历程中,理论界始终面对着如何让人机关系变得可控这个基础性问题。“阿西莫夫定律”的提出为机器人的行为设置了虽然抽象但看似可靠的边界。在过去十几年间,人工智能技术的发展取得了实质性突破。借助于Transformer架构,大模型的出现反映出人工智能技术具备了自主的知识生成能力,推动了人工智能时代的社会认知革命。人工智能体(AI Agent)的出现更是大大提升了人工智能技术的自主决策能力以及具身化程度。人工智能技术发展每推进一步,新的伦理和价值争议便会产生。
在人工智能技术发展不断取得突破的情况下,人机价值对齐的呼声日益强烈。基于对人机共生的伦理期待和人文关注,科技研发和应用的各个环节都不断被融入价值因素。在此过程中,与之相关的理论问题也开始显现。虽然人机价值对齐的提出表达了人们对隐藏在科技背后的社会价值体系的重视,但这个概念本身存在诸多含混之处。对齐是个虽形象但缺乏具体指向的语词,人机关系更是一种复杂的新兴社会关系。应该对齐哪些价值?答案并非一目了然。人际实践是一种受历史、文化和社会理解共同影响的价值实践,但人和机器属于两个范畴,因此,对于在人机之间的实践中如何进行价值关联的问题,尚没有成熟的价值理论作出回答。
如果人机价值对齐只是表达了人们想将人工智能技术发展纳入伦理约束框架的一种美好期待,那么在飞速发展的技术面前,人机价值对齐的真正内涵并不重要,其存在甚至会显得冗余。然而,技术突破的速度越快,价值世界所面对的冲撞便会越激烈,社会所面对的伦理和法律挑战越会不断涌出。本文尝试对人机价值对齐的内涵进行挖掘,展示其对于人工智能技术伦理约束和法律治理的潜在意义。同时,借助法哲学中的经典讨论,本文将人机价值对齐的理论建构作为一项以计算规范为关键的制度化和规范化事业,来充实人工智能技术治理的理论版图。
一、人机价值对齐的技术路径和伦理路径
人机关系的价值实践方式不同于人际之间的沟通和互动方式。机器不是实践主体,原因在于机器没有主体意识,也无法表达价值主张,其只能接受人所传达和灌输给它的价值。因此,即使人可以和机器沟通,也无法做到人与人之间那种意义交流或互动。在这种互动关系之中,人机价值对齐的要求便被提出。“对齐”的直接内涵是让机器的运行符合人类的目的。用维纳的话来说,就是:“如果我们使用机械自主体来实现我们的目的,一旦启动,我们就不能有效地干预它的运行……那么我们最好确定,机器的目的是我们真正渴望的目的,而不仅仅是看着很炫的模仿。”然而,维纳的观点在当代的技术语境中显得过于简单。如果机器的运行能够顺理成章地符合人类的目的,那么人机价值对齐就不会是一项艰难的任务。人机价值对齐在实践中的实现之所以困难重重,原因直接指向了人机价值对齐的核心难题,即在何种意义上机器能够与人类在价值上对齐?
(一)人机价值对齐的技术路径及其局限
对人机价值对齐之内涵的回答大致可以分为两种路径。持技术路径的学者认为机器是一种人工智能技术成果,让机器的价值世界与人的价值世界相符合的要求,在本质上意味着我们要调整机器参数,以使机器的运行不会偏离人的目标。技术路径的典型应用是大语言模型。通过大语言模型实现人机价值对齐的进路可分为人工反馈对齐、人机协同对齐以及机器自主对齐。大语言模型的技术原理是借助Transformer 架构来提升模型的预测能力。简言之,模型就是一种预测机制,其借助强化学习优化和提升语料质量来更好地预测。基于对技术路径的分析,我们会发现,模型本身既无法理解价值,也难以成为价值实践的主体。大语言模型的人机价值对齐无非就是通过优化算法和模型来控制预测偏差。例如,在模型训练阶段,大语言模型通过数据过滤、去偏算法和公平性约束等机制,如FairGen框架,从源头减少偏见;在部署阶段,大语言模型设置“护栏”(Guardrails)机制,实时检测并阻止有害内容的输出。大语言模型通过人类反馈强化学习来减少幻觉和知识过时问题。针对多模态大模型带来的更为复杂的挑战,很多计算科学家开始关注跨模态的安全对齐和防御技术问题。此外,为了应对隐私泄露风险,差分隐私、联邦学习等技术也被嵌入模型的训练过程。技术路径的实质目标是追求技术安全,具有后果主义导向,其忽略了人机价值对齐概念中更为丰富的内容。因此,技术路径本质上是一种技术对齐,而非价值对齐。
技术路径表达了人类对价值的尊重,但其理论野心是被克制了的。一方面,技术路径的实现并不需要过多地倚赖有争议的价值理论,而仅需抓住价值观的核心要素。在当前生成式人工智能和智能体代理阶段,最核心的价值要素是安全。因此,在技术路径支持者看来,人机价值对齐的本质就是保证模型运行的安全,以防意想不到的后果发生。然而,人工智能安全不仅是一个技术问题,其本身还包含着价值评价维度。Cappelen等人认为,对人工智能安全的执着追求可能体现了人们更深的恐惧,这反而更容易导致人工智能的失败。另一方面,人机价值对齐的落脚之处在于人工智能技术本身的自我调适,这项工作主要由计算科学家和技术研发人员来完成。技术壁垒正是在这一选择过程中产生的,原因在于只能由非常专业的特定群体来确定人机价值对齐的方案和目标。
此外,技术路径也会陷入效率困境。机器水平的提高需要技术支持,机器的运行也需要数据和算力支持,且机器在功能上并非全能。有论者认为,人机价值对齐面临不可能三角难题,即在泛化能力、数据效率和道德行动有限性之间难以实现有效平衡。机器越具有泛化能力,数据效率就会越低,道德行动有限性就越为突出。
(二)人机价值对齐的伦理路径及其局限
相比于技术路径,伦理路径是当前人机价值对齐研究的主流选择。然而,这一路径也存在较大的理论张力和现实局限性。
从理论上讲,人机价值对齐需要将存在于人机关系中的所有价值呈现出来,并探索有效的对齐方式。然而,这一目标的实现并不现实。一方面,在人工智能技术不断拓展新的疆域的同时,会涌现出大量的新兴的人机价值对齐需求,我们难以确立一个全面的价值谱系。另一方面,不同价值之间存在层次和表现形式的差异。比如,仁慈和透明就是两种差异巨大的价值要求,我们难以用统一的对齐框架来应对。因此,既有伦理路径采取两种思路:一是对价值的规范形态作出界定,并基于人机关系模式限定对齐的价值范围;二是针对特定价值进行分析,探寻人机价值对齐的路径和方式。
第一种思路关注两个要素:价值的来源和具体应用场景。价值来自人们的生活体验和反思。让机器对齐人的价值,在一定程度上,是将人的生活体验所承载的价值转化到机器身上。人的价值体验既有普遍性,也有特殊性。为了更好地让机器理解人的价值,人们只能将人的价值共识或者人的共同价值追求转化到机器的编码之中,或者采取保守路线,仍然以人为中心来处理人机关系,将人的价值作为关注重点。
人类的实践领域广泛,不同领域对应着不同类型的价值。因此,研究者也关注具体应用场景中的价值状态。在人工智能技术发展历程中,引发人们迫切进行价值关注的技术应用场景是生成式人工智能。尽管其他应用领域,比如图像识别、智能导航等,也会涉及人与机器的价值互动,但生成式人工智能是一种社会全员深入参与并不断进行知识创造的智能模型,其既为通用人工智能打下了基础,也是人工智能体和具身智能发展的知识基础。因此,目前关于人机价值对齐的研究主要是围绕着生成式人工智能展开的。人们企图在该场景的人机价值对齐实践中,提炼出可以应用于其他场景的一般性原则。
这种思路的优势在于,其没有让人机价值对齐停留在抽象的原则之上,而是指出人们所关心的价值,清楚地呈现出对齐的对象,并将这些价值转化到具体的场景和情境之中。然而,这一思路也存在局限,即确定哪些价值应当被对齐并不难,真正的难题在于如何将这些价值转化到具体应用场景之中。这一转化需要计算工程学的支持,需要将价值理解转化为模型建构中的函数、向量或者参数的调整。当然,这并不意味着我们需要退回到技术路径,将对齐视为纯工程学问题,而是意味着我们需要重视价值在技术应用过程中所对应的推理过程和运行逻辑。
第二种思路在一定程度上克服了技术路径存在的问题。人机价值对齐需要在具体场景中具有可操作性,亦即我们可以将价值要求编码进算法或模型之中。人们对价值可以形成共识,但对编码的目标或具体方式则可能会产生分歧。通过将关注重点转向如何更好地把价值理解转化为计算语言,该思路在一定程度上能缓解人机价值对齐的不确定性。然而,基于编程的复杂性和模型参数的不可测性,将具体的价值要求转化为编程指令是存在巨大挑战的。
目前,学界已有一些有益的尝试,即将特定价值进行编码。人类价值实践是复杂的,包含着不同层次的各种价值追求,比如自由、平等和正义等。正义是一种统摄性价值。因此,有学者将正义价值作为人工智能大模型对齐的主要基准。正义是人工智能技术治理的共识基准,也是价值体系的中心枢纽。因此,正义成为人们的首选。郭小伟认为,将正义纳入人机价值对齐的基准,有助于矫治大模型偏见、刺穿大模型黑箱和明确大模型责任,具有较为突出的治理意义。将正义纳入人机价值对齐的基准的方式是把它代码化。正义的代码化意味着与正义的相关要求会被转化为代码的运作。例如,将程序正义中的回避原则转化为代码,需要通过“数据层的‘关联体系建模’、规则层的‘触发条件编码’、执行层的‘自动化流程’来实现”。结合代码化程度的分级制度,可以将正义要求落到实处,同时也不会给技术提供者增加太重的伦理负担。人机价值对齐不仅是让机器自觉地理解人的价值,更是通过数据校验和人工介入等方式使得人机价值对齐的过程变得可控。
正义价值之所以可以被代码化,主要是因为程序正义具有一定的可编码性。程序是作决策的步骤,与执行命令的代码具有异曲同工之妙。因此,对正当程序的要求进行代码化转化不会有太大的障碍,但其他价值要求就难以如此顺畅地被代码化。比如,自由或者自主意味着对外在支配的排斥,而代码化本身就包含着对自由的支配。因此,针对这些价值,人们很难直接进行技术转化。
二、人机价值对齐的层次与方法论问题
(一)人机价值对齐的层次
人机价值对齐表达的是一个清晰的实践要求,即在价值意义上实现某种可期待的状态。因此,这个要求是落实人工智能伦理的重要体现。当然,人工智能伦理的建构也包含其他重要的内容,比如预防人工智能体的安全风险等。然而,价值是人类实践的一个独特维度。人们的行动通常处于意图、关系和责任相互交织的网络之中,价值是与这一网络相关联的并且帮助我们更好理解这些要素的独特视角。举例来说,当我向他人作出履行某项任务的承诺时,我和对方的关系以及我所承担的责任都受我的承诺背后的信用这一价值的影响。我可能会因为突发情况而不能履约,尽管我的违约责任可以被豁免,但信用这一价值在这个实践过程中因我的行动而受到影响。
上述例子表明,价值被嵌入并且泛化于人的实践之中。人机关系是人和机器或者人工智能技术之间的关系,对人机关系的理解应当被放置在一个更为宽广的社会语境之中。价值实践本身具有整体性,社会语境构成了理解价值之内涵和发生机制的背景。人机价值关系所附着的社会语境在智能科技的剧烈冲撞之下发生了很大变化。虽然人机价值对齐着重于对齐这项任务,但无论是对齐的价值,还是对齐的方式都与人机关系背后的社会语境密切关联。因此,尽管人机价值对齐针对的是特定的价值呈现方式和实现模式,但也应被置于一个展现人机价值互动之独特意义、机器运行之技术原理和受冲击之社会语境相互交织的立体空间之中来理解。对人机价值对齐的要求进行分层是有必要的,我们可以从三个层次来理解其任务。
首先,人机价值对齐直接面向的是技术本身。尽管人机价值对齐的很多要求是向技术开发者提出的,但最终要落脚在技术应用和运行的过程之中。以生成式人工智能为例,用户通过对话使用生成式人工智能来生成文字、图片或视频等,这个技术应用场景的核心是人机互动过程中的模型运算机制。简言之,该运算机制的底层逻辑体现在,模型基于Transformer的超大神经网络,通过在海量数据上进行自监督学习,掌握数据的统计规律和模式。在推理时,生成式人工智能根据给定的上下文,通过反复预测和采样下一个词元的方式,自回归地生成全新的、符合上下文语义的内容。技术路径追求的对齐主要针对这个底层逻辑展开,表现为调整模型、优化算法或完善数据库等。
其次,技术并非在真空之中运行,而是在人机互动关系之中实现其功能。尽管人机交互主要以人工智能技术为支撑,但在这个技术底座之上,人与机器产生了社会学意义上的互动关系。生成式人工智能已经将这种互动关系推向一种值得被结构性分析的境地之中。一方面,我们需要解释人工智能技术在人机互动中所发挥的作用。然而,人工智能技术越精深,其可解释性就会越弱,就越会给人们理解技术在人机互动中的作用造成障碍。因此,有论者认为,机器无法嵌入价值。Johnson等人提出,仅当人工智能技术被视为社会技术系统时,其才能和“价值”这一概念具有同样的本体论位置,才能具有被价值嵌入的可能。因此,作为计算性人造物的人工智能技术从一开始就不可能被价值嵌入。对于作为社会技术系统的人工智能技术来说,“嵌入”这一概念错误描述了人工智能技术与价值之间的关系:它忽略了价值所具有的在社会实践中不断被重新解释和定义的动态特征。Klenk提出了一种化解这一挑战的价值嵌入理论:某一技术制品是否具备价值,取决于它是否为主体提供了某项能力,且这种能力能为我们提供积极或消极的理由。该理论具有一些优势:其能解决技术制品之形而上学和认识论问题,允许价值变化,并能够解释价值与行为的关系。另一方面,人工智能技术逻辑与人机互动关系之间的边界也难以被区分。我们既不能把两者当成一回事,比如,把人和聊天机器人的对话当成纯粹的大模型在多层Transformer模块基础上的语义预测;也不能把两者完全区分,将属于技术的归技术,属于社会的归社会。Peterson提供了一种思路。他构造了一个依赖于外部评价的价值偏离函数。该函数是各项价值偏离度的加权和,其权重由外界评价而非技术制品自身的属性决定。在这个函数中,人们只需要预设一个所有价值都被对齐的理想机器,就可以通过测量该技术制品和理想机器的相似性,测定它的价值偏离程度。然而,这个函数忽视了技术制品在功能和价值评价上的巨大差异。
最后,人机价值对齐是一种追求特定目标的共享性实践。对齐的目标由特定应用涉及的价值所限定。在这里,我们需要区分对齐所涉及的价值和对齐的目标。二者之间存在着微妙的关联,而且对人机价值对齐的实践影响较大。人机价值对齐是人们所追求的价值的投射,但价值本身并不直接包含实践这些价值的路径和方案。价值的实现需要人们在特定的框架之中通过行动来完成。举例来说,艺术之美是一种值得被珍视和追求的价值,这种美需要在艺术家的具体创作之中体现,而艺术家是带着特定的理解和目标去创作的。人机价值对齐亦是如此,但其目标的设定并不由人与机器共同决定,而是由相互关联的主体在与机器的互动之中确定,并通过目标的不断调整和技术工程学意义上的设计来实现“对齐”的成效。因此,人机价值对齐既是共享性的,也是制度性的。共享性意味着对齐不仅是模型开发者的工程设计,而且涉及技术群体、监管部门、产业关联者和社会公众的共享事业。制度性则意味着人机价值对齐不能仅限于对特定价值的呈现,比如仁慈和善意等,而是要形成有效的运作机制,让这些价值能够在实践中可以稳定地对齐。制度性也意味着人机价值对齐必然具有法律面向,应当从法律制度建构的角度被回应。
从这三个层次来看,人机价值对齐不仅仅是一种价值理解和认知实践,而且是多维度和多层次的具有创造性和制度性的实践。由于人机关系是前所未有的社会关系,其存在冲击了传统的伦理模式和制度实践。如果人机价值对齐只是表达了对特定价值理念的重视,那么这个概念就只具有宣示意义,对科技实践不会产生实质影响。然而,在社会的数智化转型和人工智能技术全面融入生活结构的新兴社会空间之中,人机价值对齐应当是社会价值实践的实质性要求。
(二)如何对齐价值?
人机价值对齐需要确定对齐的对象,即在人机关系中与具体应用场景相关联的那些基本价值。这些价值可能以抽象观念来表达,比如公平、仁慈等;也可能以操作原则来表达,比如透明性和可责性等。人机价值对齐的要求表明,这些价值不能仅仅在技术发展过程中呈现出来,还要以特定的方式对齐出来。因此,有效的对齐理论需要展现这种对齐实践的核心结构,以及其为人机关系构建带来的意义。目前的对齐进路大概可以分为两种。
第一种对齐进路采取原则模式,主要强调人机伦理关系的原则层面。比如,由编程者将尊严和仁爱等原则纳入模型开发之中, 通过原则对齐实现人机共生。原则模式的优势在于保留较大的弹性空间,尤其是在不给技术开发者和应用者增加太重伦理负担的情况下,发挥不同主体的创造性。原则模式也存在一些弊端:一是原则模式太过笼统,在遇到实践疑难问题时,其无法提供有针对性的方案。例如,2026年1月,埃隆·马斯克旗下的生成式人工智能服务模型Grok被指控可轻易生成并传播未经当事人同意的性图像。在生成式人工智能的人机价值对齐原则中,尊重他人是一项基本的要求。然而,这一原则如果不能被落实在具体的对齐指南中,便容易与其他原则相冲突。比如,尊重他人原则与创作自由原则可能产生冲突。二是人机价值对齐的原则化不利于人工智能伦理界和产业界实现真正有效的沟通,很容易出现伦理界谈原则而产业界谈技术的尴尬局面。
第二种对齐进路采取社会参与或建构模式。该模式将视角从价值论转向社会理论,将价值视为社会所共享的观念和所追求的精神内核。人机价值对齐是将社会赖以存续的共享价值追求在机器的观念中加以强化和贯彻。以大语言模型为例,语言承载了一个社会最直接和最全面的文化理解和认同。因此,大语言模型的价值预设应当体现出社会公众的观念,并在模型设计和参数选择上体现出社会公众的文化理解。社会参与或建构模式尊重本土观念与文化,能够强化人机关系中的文化认同。通过大模型的知识生成功能,社会也能够享受知识革命带来的巨大裨益。
然而,这一进路仍然存在局限。社会观念和文化在大模型中的转化,并不是将这些文化符号嵌入大模型所生成的内容之中,而是将社会价值观念和公众认同转译到模型内部的神经网络之中,从而让大模型学习并理解这些观念。因此,公众参与依然需要通过编码的形式进入到大模型之中。社会参与进路只有采取一种强建构论立场才能实现其对齐目标,即不仅要让大模型输出符合社会观念的内容,更要让大模型真正习得这些观念。
针对人机价值对齐的价值判断困境,有论者提出了一些替代方案。例如,将人们关注的重点从作出价值判断转向建立人机信任。闫宏秀指出,人机价值对齐是对人类价值观的技术化,但并非仅仅是技术的道德化,其应在技术可信可控的情境中展开。面对已经存在于大模型中的非道德现象,我们必须以基于道德的信任校准人机价值对齐,并将人类作为信任链构建的出发点和落脚点,只有如此才能规避人机价值对齐的陷阱,确保人工智能技术的安全。然而,对技术或算法的信任更多地应该落脚在技术的能力和认知等客观方面,而非其主观方面。在一定程度上,对齐反而体现出人们对技术偏离价值风险的一种警惕,其背后隐藏着对技术的不信任。
(三)人机价值对齐的方法论问题
人机价值对齐在方式上的困境表明,我们需要从方法论层面回应人机价值对齐的需求。尽管当前多数讨论主要围绕着人机价值对齐的方法展开,但仍然有一些论者针对人机价值对齐的方法论问题进行了挖掘。比如,Gabriel提出的三种人机价值对齐的方法论立场分别是全球公共道德与人权路径、假设共识与无知之幕路径和社会选择理论路径。依据全球公共道德与人权路径,尽管世界存在多元的道德观,但仍有可能在某些核心原则上形成“重叠共识”。Gabriel借鉴政治哲学家罗尔斯的“重叠共识”概念,指出处于不同文化、宗教或哲学背景的人,可能基于不同理由共同接受某些基本原则,尤其是基本人权理念。近年来,在全球范围内出现的人工智能伦理原则(如透明度、公平性、非恶意、责任、隐私)也体现了这种趋同趋势。
假设共识与无知之幕路径源自罗尔斯的“无知之幕”思想实验。罗尔斯所设想的无知之幕消除了人们的价值偏好。这个预设与机器的技术逻辑相符合。Gabriel提出,我们可以设想一个情境:人们在不知道自己是谁、持何种价值观、处于社会何种位置的情况下,共同选择人工智能应遵循的原则。在这样的情境下,人们将无法偏袒自己,因而所选出的原则具有程序上的公平性。Gabriel认为,在这种情境下,人们很可能选择那些确保安全、保留人类控制权、优先惠及最不利者的原则。这些原则不依赖于任何一种特定的道德理论,而是基于对不确定性和风险的中立审慎而确立的。
社会选择理论路径关注的是如何将个体偏好或道德观点以公平的方式聚合为集体决策。Gabriel将其分为两种形式:一是聚合型,即通过某种机制,如偏好排序、效用函数,将个体的道德偏好加总为人工智能的行为准则;二是民主型,即通过投票、讨论、公民参与等方式,确立人工智能的基本原则。后者更强调过程的合法性与参与性,试图为人工智能的规范框架赋予民主层面的正当性。
这三种路径分别代表了人们如何理解价值以及如何建构对齐模式的三种方法论立场,各有优劣。从整体上看,全球公共道德与人权路径强调了人类价值实践的共识,假设共识与无知之幕路径和社会选择理论路径则突出了人类价值实践的分歧。无论是对共识还是对分歧的侧重,都反映出人类价值实践的复杂性。然而,这些方法论立场仍然无法突出人机价值实践的独特性。一方面,共识容易被精英所主导。曲飞帆指出,精英治理路径在目标设定、方案实施、效果监督三个环节分别面临“价值悬浮”“虚假对齐”和“黑箱系统”三大挑战:抽象价值难以具体化,单一群体偏见导致价值对齐表面化,评估过程缺乏外部监督。
我们应当承认,人机价值实践也需要回应价值分歧的问题。正如有论者提出,价值分歧会带来人机价值对齐的认识论证成问题。真正的挑战不在于如何在对齐中化解价值分歧,而在于回答:为什么致力于化解实践疑难的机器行动也会受困于价值分歧?这种价值分歧与人类实践中的价值分歧有何区别?
举例来说,我们会争论我们是否会基于道义义务向一个绝症患者告诉其真实病情,机器也会面对类似的价值分歧。如果一个人要求其陪护机器人对其进行殴打,机器人会面临着顺从和不伤害人的两难选择。我们当然可以说这取决于预先在机器人中置入的算法,比如是否将“无论在何种情况下都不能伤害人”这一指令嵌入机器人的模型之中。然而,这种预先设计仍有局限。机器人可能会自主进化,通过与人的互动而形成更高层次的道德判断能力。机器人很可能会突破这一指令限制,从而在所有权人面临外在威胁的时候对威胁者进行防范性攻击。这种道德推理过程不同于人的思路,归责问题也迥异于人的责任承担。
三、人机价值对齐的法哲学反思
人机价值对齐是人类价值实践的一个特殊切面。人类的价值实践在历史和文化的双重推动之下已经形成了丰富的经验和观念,但同时也随着社会结构的变化而不断调整。我们对公平和隐私等价值的期待已经随着数字社会的到来而区别于传统社会中的期待,同时又与传统观念存在着千丝万缕的关联。传统社会规范的分层和人机间的互动模式不能完全应对人机价值对齐的任务。在机器行为规范的不断涌现之下,社会发生了物理学转变,社会规范的结构和层次受到了实质的数据化和计算化塑造。道德和法律实践的意义空间在人工智能技术的介入之下也变得更为复杂。人机价值对齐应在这种巨大转型的背景之下得到分析。
(一)规范的社会物理学转型
无论是道德规范还是法律规范,传统社会规范均包含着人际之间的相互预期和反馈,人们对规范内涵不断进行意义搭建,增加社会互动的规范厚度。机器对人的行为反馈无法被传统规范约束,难以将人机关系放置在稳定的规范机制之中进行监督和控制。人机关系的意义空间变动不居,人机价值实践因人工智能技术的独特发展逻辑而呈现出制度化困境。基于人工智能技术对伦理和法律边界的冲击,人机价值对齐就不再是一个传统意义上由规范回应的问题。尽管人工智能技术治理和监管仍然是一项紧系于传统治理框架的规则事业,但其边界越来越模糊。既有监管理念主要适应于人际之间或者人与组织之间的利益平衡问题,在人工智能技术的发展面前表现得捉襟见肘。
为应对这种困境,人们需要在监管理念上进行革新。然而,理念革新的方向存在不确定性。价值问题在人工智能技术监管中占据着重要位置,但既有理论框架并没有针对价值问题作出有效的回应,只是强调人工智能技术发展应当向善和公平。人机价值对齐的提出,强调的不仅是人工智能技术伦理的重要性,还包括人工智能技术伦理的复杂性。这种复杂性可以展示出人工智能技术治理和监管中容易被忽视或者被简单对待的伦理空间。如果人机价值对齐是一项实质性的社会工程,而不仅是一种价值宣示符号,那么这项工程的治理就要求其被纳入法律的规则化事业之中。换言之,人机价值对齐是一项法治事业,而不仅是伦理事务。大模型价值对齐的法治逻辑依赖法律或者法治自身的独特性,比如法律的成文化、集约化以及强效化。这些特征都能够在人机价值对齐的过程之中发挥作用。
人机关系代表着社会互动模式的一次重大革新。我们可以从不同角度来理解这场革新所带来的意义,比如人的数字化生存方式的改变、就业格局面对的冲击等。从社会本体论的角度来看,人机关系表明社会物理学意义上的重大转变。一方面,人工智能技术的出现推动了社会的数据化和计算化,数据化不仅仅意味着数据的累积和数字财富的增加,更意味着社会实存方式的变化。社会在存在论意义上既包括人与人之间所形成的各种规范关系和观念互动,也包括这些规范关系和观念互动被数据化之后所形成的独特的实在状态。克劳福德指出,机器带来了“人类主体”向“数据主体”的转变,即向缺少主观性、背景信息或明确权利的数据点集合的转变。另一方面,机器的出现带来了反身性意义。人和机器并非简单的主体和客体的两分,而是在持续互动之中相互塑造的行动者。因此,两者的价值互动便不再是单向性的,而是双向协商后的价值共生。价值共生的优势在于,其不仅回应价值多元性和主体相对性的事实,而且有助于建立稳定、可持续的人机互动关系。
当前的社会物理学动力机制主要来自大语言模型。当关于世界的理解被算法和模型转化为海量的token并持续地进行知识输出时,社会实存被编码和颗粒度化。随着人工智能体的不断扩展和具身智能的广泛应用,数字生命将日益突出,“技术—人—社会”的共生范式会成为社会物理学的主要框架。
当然,社会物理学并非自然意义上的解释视角,而是建构意义上的。人们只有把握住人工智能技术对社会本体的冲击和塑造,才能更好地呈现人工智能技术所带来的全方位冲击。因此,对人工智能技术的伦理和法律回应需要建立在这一社会物理学转变的基础之上,人机价值对齐也需要以这一转变为载体构建相应的对齐机制。
既有讨论关注人机价值对齐的伦理路径,但这一路径的局限日益明显。有效的出路在于,认识到传统社会的规范分层和互动模式不足以支撑人机价值对齐在数字时代的理论抱负。如果人机实践拓展了人类实践的规范空间,那么我们可以从道德和法律等既有规范实践中寻找新的规范空间的建构原则。法律是最重要的规范实践,从关于法律的哲学反思中能够找到建立人机价值对齐之框架的线索。
(二)作为一种实践价值的法律
法律参与构建了规范世界,并成为人的行动准则中最重要的依据。法律不仅指引人们进行选择和评价,同时也改变了人对自身的理解,以及与社会互动的方式。法律的规范性具有特别的意义。法律以创造性的方式对人们的行为加以界定。无论是充满着慎议和商讨的立法过程,还是直面复杂社会互动实践的司法决策,都将人们的行为纳入法律的规范性评价之中,并借助制度化的实施机制实现法律背后的价值。因此,法律既是实现基本价值的重要工具,也是培育和充实价值的规范实践。法律中的价值问题有两个层面:一是社会价值通过法律呈现,二是法律这种规范性机制的价值存在形态。
就第一个层面来说,法律实证主义展现了一种将社会价值实践通过法律这种特殊规范加以调整和转化的制度方式。哈特展示了人们在社会实践中实现特定价值目标的规则形式,以及法律在克服传统规则弊端上的巨大优势。通过将法律视作一个体系性的规则系统,很多社会合作中的价值问题可以以制度化的形式得以化解。夏皮罗继承了哈特的实证主义传统,将法律作为解决价值冲突和分歧的最有效机制。法律通过规划的形式确定了人们的行为方式,这些方式锁定了人们应当追求的目标,也减轻了价值论辩的负担。
法律实证主义者在很大程度上淡化了作为规则的法律在确立和运行中所具有的价值色彩,也弱化了价值对于规范世界的影响。菲尼斯和德沃金弥补了这一缺憾。菲尼斯将生命、知识、实践合理性等七种基本善作为人类实践的价值基础。基本善是不证自明的,是实践推理的基本理由。为了更好地实现和促进这些基本善,人们参与到道德生活中,并通过法律这种权威性机制来化解基本善实现过程中的冲突和障碍。德沃金提供了一种更强版本的价值理论,将法律实践视为独特的价值实践。德沃金认为社会实践是一个系统性的价值工程,道德实践和法律实践都是这个系统的构成部分。法律的特殊性在于,其既保留了制度形式的稳定性,又通过解释性这个维度不断呈现法律背后的价值世界的最好状态。
从法律的价值存在形态来说,法律构筑了价值世界,也呈现出自身独有的价值状态。法律的价值一方面表达为法治理想,另一方面通过具体的法律实施形式,将社会中的价值问题以规范和制度的形式加以呈现。法治理想的厚度存在理论争议,有厚薄之分。薄的法治观将法治视为一种形式追求,法律只要满足特定的要求,比如稳定、可预期和体系性等,就可以体现出法治的意义。厚的法治观将法治视为更为实质的理想追求,与尊严、自由和正义等核心价值紧密相关,只有法律满足特定的要求,才能符合法治精神。法律实施过程中的价值问题与法治理想存在关联。薄的法治观强调价值问题的制度化解决,比如通过尊重程序性要求来保障裁判的公正进行。厚的法治观则要求将法律视为保障价值实施的制度框架。
本文的重点不在于进入法哲学关于法律价值和法治思想的广泛争议,而是在于展现这几个基础性问题与人机价值对齐之间的关系。虽然法律的价值实践是一个复杂的制度空间,但丰富的法哲学讨论呈现出价值被追求和被实现的制度方式,不论是法律自身的价值还是法律所追求的价值。在法律实践中,价值是被人们共享、论辩和追求的,而在人机价值对齐中,价值需要被“对齐”出来。关于人机价值对齐的方式,人们可以从价值在法律世界中的实现中寻找灵感。反过来,人机价值对齐也会对社会价值的法律实践产生反向重塑作用。随着社会物理学实存的变化,人所处于的规范世界将会被人工智能技术大大拓展。
人机价值对齐是将伦理世界和法律世界的规范要求向数字空间延伸的要求。人的价值实践要求我们尊重特定价值,并通过目标设定和行为选择来实现这些价值。人机价值对齐的重点在于对齐,即让人工智能技术所延伸出来的数字实存世界建构性地符合基本价值的要求。价值是属于人们的实践世界的,人工智能技术的运行本来不涉及价值,因为代码和模型有其自身的科学支撑和客观逻辑,但人工智能技术的应用结果会对规范世界产生影响。因此,我们需要让它们满足价值要求。
技术本身不是价值的源头,那么,人机价值对齐的动力来自哪里?答案在于我们所处的规范实践空间的迁移。技术运行是高度复杂和精密的,人类能够探知的非常有限,但这种技术在实践中对人的行为和观念不断地产生影响,由此打造出一个独特的规范空间。这正是人机价值对齐真正发挥作用的地方。在此背景下,我们可以呈现人机价值对齐的可能框架。
四、计算规范的理论构建
目前,已有法学研究者开始强调人机价值对齐研究的法律视角。例如,韩旭至提出,大模型对齐应当“重视利益攸关方的参与,通过动态地平衡多元利益以确保最终的伦理目标与法律治理目标的实现”。黎江虹与卢希希提出,应以法律原则为统摄将人机价值对齐纳入法治框架,通过以法律原则为导向的适度技术扩散,如导向性开源,打破头部企业的标准垄断;应以可解释性为枢纽,构建法律解释义务体系,将技术语言转化为可被法治系统评价的事实。罗有成提出,在技术层面,人机价值对齐在目标设定、有效性验证以及可解释性保证等方面存在理论难题。在我国的治理实践之中,人机价值对齐面临制度回应滞后、规则适用不明晰以及责任边界模糊等困境。对大模型人机价值对齐的法治化机制,需围绕目标确定机制、责任分配机制、可解释性保障机制以及对齐效果评估机制予以推进。
人机价值对齐涉及多方主体,也涉及伦理、社会和法律等多个维度。但基于社会的物理学转型,人机价值对齐的关键不在于构建保障机制,而在于构建计算规范。无论是对于生成式人工智能、人工智能体,还是对于具身机器人、脑机接口,计算规范都是落实人机价值对齐的主要抓手。
(一)计算规范的属性
从性质上讲,计算规范是一种沟通机制,其将传统社会的道德和法律等行为规范与人工智能技术所拓展的规范空间进行关联。在技术驱动之下,社会实体发生物理学扩展,产生了新的规范空间。由于这个空间是以模型内嵌和计算驱动的,因此我们不能仅仅以传统的规范形式加以应对,必须构建新的规范来应对社会计算化及其广泛应用所带来的新兴挑战。
首先,计算规范更强调价值,而非行为。人工智能技术对人类决策过程的介入导致了人的行为模式的改变。在基本价值的指引之下,人建构具体规范,并以此引导人的行为选择。机器或模型并不具有行为意识和选择能力,而是接受人的指令,通过复杂的模型计算来自主地执行相应任务。计算规范旨在解决机器决策中如何实现机器与基本价值对齐和匹配的标准和依据问题。机器不是真正意义上的行为主体,因此,计算规范并非针对机器的具体输入和输出行为,而是针对机器运行过程中价值得以转化和呈现的方式。
其次,计算规范是建构性规范,借助Valentini的术语来说,就是社会建构的规范(Socially Constructed Norms)。计算规范不是技术规范,也不是数学公式,而是在人机关系所处的计算空间之中建构形成的规范。计算规范的建构性体现为两个方面:一方面,在计算空间中,存在着由人机互动产生的意义关联,人的价值向模型传达,需要通过编程来实现。计算规范对编程进行价值指引,从而实现模型的价值对齐。计算规范以建构性的方式进入编程之中,并对模型的运行和输出结果进行评估。另一方面,计算规范需要实施的主体和载体。计算规范不是单纯的技术规范。Gasser等人探讨了人工智能技术治理中的专业规范,即针对人工智能的发展和风险而由社会主体所提炼的约束性规范。这种专业规范可以被视为计算规范的雏形,但内容比计算规范单薄。因此,计算规范不能由数字技术专家主导构建,而是应由科技、伦理、法律和社会公众代表共同打造。计算规范的载体体现为外在形式和内在形式。外在形式可以通过概括性价值表达体现出来,比如程序正义、公平对待、尊重隐私等。内在形式则通过价值的建构性转化体现出来,借助对需要对齐之价值的论辩和解释,将抽象的价值要求逐步呈现为更为具体的要求,并通过技术规范和算法设计加以落实。
最后,计算规范是解释性规范。计算规范不是传统意义上的行为规范,而是一种新兴的规范状态,是一种在人机之间进行价值传导和沟通的规范。人机协作或者共生是以计算化的决策方式进行的,机器决策是模型推理的结果,价值判断无法直接渗透到机器推理的过程之中,因为模型对于数据的加工和编码等技术过程本身来说是价值无涉的。人机价值对齐的技术路径强调对编码参数进行调整以实现人机价值对齐,这一思路忽略了价值生成的独特机理。计算规范的解释性意味着计算规范是在人的价值追求和机器运行之间所形成的独特规范空间中生成的。计算规范既具有弱的规范形态——不同于法律规范等强规范形态——也具有强的解释性。德沃金将法律的解释性视为对法律背后的价值世界的最好状态的阐发。计算规范的解释性可以参照这个框架,但模式也存在差异。计算规范背后不是人类实践所构建出来的价值语境,而是人与高度复杂的机器所共同形成的计算化语境。只有通过解释才能有效地进入这一语境之中,也只有通过解释才能确定计算规范的内涵。
如果计算规范是人机价值对齐的实施机制,那么计算规范如何被体现,如何被理解,以及由谁来实施是需要进一步思考的问题。借助于既有研究,本文提出,计算规范首先需要通过元框架来提升其权威性和整体协调性,而后,应通过有效的沟通机制将人们对价值的理解转化到人工智能技术应用的全过程之中。
第一,人机价值对齐需要可靠且稳定的元框架。在计算规范的解释性框架下,各方主体之间能够形成相对稳定的沟通模式来实现人机价值对齐。然而,沟通存在不确定性。人与机器的沟通毕竟不同于人际之间的沟通,机器在本质上不具有沟通能力。尤其是人机价值对齐缺乏类似于法律的权威性结构,以及稳定的执行和判断机制。人机价值对齐的元框架有助于提升其权威性,将数字技术所拓展的社会意义空间予以制度化和规范化。
第二,人工智能技术具有弥散性和涌现性。因此,计算规范的范围需要不断拓展。无论技术如何发展,其面向的价值世界是由人所理解和实践的。不同价值之间既存在重要性差异,也可能会存在冲突。计算规范虽然是传统价值世界的延展,但也契合于基本的价值重要性位序。人机价值对齐需要在沟通和累积的基础上不断形成有效的计算规范体系,提升由数字科技所拓展的社会规范空间的可控性。
(二)计算规范的生成:以生成式人工智能为例
生成式人工智能的人机价值对齐规范呈现出计算性、伦理性和法律性的融通。人机价值对齐的计算规范应当回应生成式人工智能技术对价值世界的重塑效应,面向开放动态的法价值体系,以建构性和阐释性的方法论工具,沟通法律的深层价值领域与生成式人工智能对社会世界的计算化塑造机制。当然,仅从伦理学层面构建元规范并不足够,我们必须借助科技、伦理和法律的整合。这一整合过程并不意味着伦理和法律具有了可计算性。法律是否具有可计算性,目前在法哲学上仍然存在争议。法律判断与计算思维之间存在较大差异。计算操作中天然带有以均值和概率为内涵的价值筛选,这种筛选并不完全匹配法律侧重于个案解决的价值取向。在法律与技术的沟通中,还可以形成一个额外的计算空间。借助技术、伦理和法律三种实践领域的交叉,我们能够建构出人机价值对齐的计算规范的稳定可靠生成机制,为人工智能技术的通用法律治理打造样板。
首先,生成式人工智能的人机价值对齐应当贯通技术、伦理和法律三个实践领域,实现跨学科融通,体现出计算性与规范性的贯通。这三个实践领域在价值维度上存在较大差异,但通过法律解释性空间的重塑可以实现三个实践领域的规范沟通。生成式人工智能在技术方面的对齐要求和策略应当融入伦理和法律的解释性维度。这主要包括模型的道德语境设计、模型推理与道德推理的建构性融合、模型运算的价值量化机制建造等方面。
其次,生成式人工智能的人机价值对齐借助伦理和法律的协商性互动机制而构建计算规范的价值梯度和载体。伦理和法律都是对人的行为进行具体规范化指引的规范机制,生成式人工智能的价值对齐的计算规范应当在伦理和法律规范的相互阐发之中进行建构。
最后,生成式人工智能的人机价值对齐需要对智能科技所紧密关涉的价值进行澄清和重新定位,通过计算规范重塑社会价值空间。科技重塑了基本价值的内涵,也改变了法律实现和保障这些价值的方式。大模型价值计算规范的构建和挖掘,既有助于为人机价值对齐提供具有可操作性的指南,同时也有助于赋予各种价值以基本内涵。
计算规范在特征上呈现出伦理性、法律性和计算性的融通。当然,这种规范不像法律规范那样是被预先设定好的。比如,刑法规范基于罪刑法定原则而预先确定哪些行为属于犯罪。计算规范整合了伦理规范和法律规范中的价值要求,例如要尊重用户的正当和合法权益,但需要将这一要求设计为既包含价值色彩又体现计算属性的指令。价值色彩使得计算规范并不冗余,且区别于纯粹的编程规则,从而体现出人机价值对齐的实质性。计算属性使得技术研发者能够将计算规范的要求转化成可执行的编码指令。一方面,应确立计算规范的价值空间切合度,将生成式人工智能运行中的人机价值对齐点进行价值切合度分析,确定切合度指标。另一方面,应实现计算规范与伦理规范的对接,借助伦理规范中的价值表达系统和价值递进梯度对计算规范进行转码调试,形成计算性和伦理性兼备的计算规范形态。
(三)计算规范的实践展望
生成式人工智能是数字技术应用最为成熟和最具代表性的场景,该领域的人机价值对齐实践能够为其他场景中的人机价值对齐提供参照。数字技术的应用呈现场景性,其本质上是不同社会价值在不同场景中被计算和转化的创造性实践。人机关系在本质上也是社会基本善的呈现,只不过数字技术的深度介入导致人机关系需要由新的价值理解方式来组织和建构。人机价值对齐是社会基本善的要求,计算规范能够以有效的方式将社会基本善的要求融入技术应用的具体过程之中。借鉴生成式人工智能应用中计算规范的建构机理,我们可以从三个方面对计算规范进行理论展望。
第一,计算规范表达了社会基本善,同时在具体应用场景之中转化为特定的价值,并呈现出价值重要性程度的位序和梯度。举例来说,生成式人工智能是实践知识之善的创造性应用,医疗人工智能服务于生命这种善,而脑机接口技术则致力于恢复特定疾病患者的能动性和行动力。其他一些技术应用在价值重要性程度上会有所降低。比如,扫地机器人的价值在于提供家政服务,智能导航系统的价值在于道路交通决策。这些应用形式主要体现为工具性价值,最终服务于社会基本善。
在具体应用中,计算规范表达了相关价值的重要性。生成式人工智能应当在其应用中彰显知识价值的重要性,并让用户在互动中获得知识的提升,避免知识幻觉。医疗人工智能则需要彰显对生命价值的重视和保护。人工智能体尽管能够自主决策,但仍然需要充分尊重用户的自主性。随着人工智能技术的自主性不断提升,人机价值对齐所涉及的价值群也更为复杂。例如,人工智能体呈现出强烈的涌现性,智能体可自我复制、分化、协作,形成递归的社会结构。一个复杂任务可递归地生成“子社会”,形成嵌套式的集体思辨结构。人工智能体的价值对齐不仅涉及自主性这种价值,同时需要处理效率、目标复杂性和普遍性等更为复杂的人机价值对齐要求。
第二,计算规范需要将价值转化到人机关系的建构之中,更具体地说,需要在技术设计中体现出人机价值对齐的要求。人机价值对齐不是普通的设计伦理,而是建构性和解释性的价值实践。法律的价值实践通过法律规范的制定和具体实施得以实现,而计算规范具有很大不同。例如,在聊天机器人应用中,人机关系体现为受语料和模型驱动的创造性情感互动。机器人通过学习人的对话机制和情感表达,为用户提供情感支持和辅助。机器人并不真正理解人的情感,而且在应用中会产生对人的情感操控。人机价值对齐要求它们将对人的尊重和重视融入服务过程之中。
在法律实践中,对人的尊重通过行为调整和语言制约等义务性规范得以实现。在人机关系中,尊重需要转化为具体的编程和模型设计。当然,仅有编程是不够的。基于计算规范的解释性,我们不仅要在编码过程中将具体的价值要求融入各种参数和变量之中,如在聊天机器人的模型设计之中将对人的尊重写入参数,同时也要在价值转化中实现解释性的跃升,即实现人的价值世界与机器应用场景之间的勾连。这项事业当然会受制于各种因素,如参与主体、价值实践的难度和技术设计情况等。
第三,计算规范是建构性和解释性规范,需要在实践中得到落实。计算规范不同于法律规范,没有权威性结构,但我们可以通过制度性累积而不断完善其实践机制,从而让人机价值对齐越来越具有实质性。科技创新是不可阻挡的趋势,人机价值对齐不应成为科技创新的绊脚石和科技企业的紧箍咒,但科技向善原则要求产业界、学界和社会公众形成有效的沟通机制。基于德沃金的理论,法律作为解释性规范能够实现其背后的价值世界的统一性和整合性。数字科技背后的价值世界更为复杂,且不同价值会相互冲突,但通过对不同应用场景中的价值的解释性跃升,我们可以实现其背后的各种价值表达的整合。例如,不管是在教育、就业还是金融领域,都应当贯彻平等这一价值,防止歧视。这些领域中的人工智能应用都有算法歧视的风险,但风险形态不同。在教育领域可能出现对身体参数的区别对待,在就业领域则可能在性别或身份背景中产生歧视。对平等这一价值在不同场景中的计算规范的整合和解释性跃升,能够促进充分平等的计算规范的建构。
此外,计算规范的元层次也在实践中建构性地不断完善和充实。虽然元层次与法律的权威性框架存在差异,但由于人机价值对齐是一项法治事业,因此,对计算规范的元层次的构建是推动数字法治的有益选择。例如,人工智能初创公司Anthropic创建的人工智能伦理与安全原则“AI宪法”,虽然名为“宪法”,但实质上就是为计算规范的构建确立元框架。在具体法律实操阶段,一些人机价值对齐的学理建议也体现出将计算规范融于法律规范的尝试。例如,在将人工智能技术应用于法官司法裁判的具体场景中,需要实现人工智能技术推理和公正裁判之间的价值对齐。借助贝叶斯语言方法打造一种适于法官思维的心智计算模型,可以提升法官判案的智能化程度。此外,引入复杂推理框架与知识建模,能够使司法人工智能具备情境感知等能力;基于人类反馈的强化学习或“宪法AI”路径,能够使司法人工智能的推理结论在形式上“与法官的思考对齐”。当然,这种司法性计算规范的建构和塑造过程必须受人机价值对齐的元框架的限制和指引,否则会过度强调人工智能技术的主导性,导致司法裁判与法律的整体性价值追求相偏离。
结 语
科技哲学家史密斯曾言:“对于人或机器而言,伦理的基础是主体的(半自主的)判断的道德品性,是面向世界的意向取向、尊崇和参与,而不在于是否拥有一个明确的(伦理)理论。”这句话揭示了关于人机关系的伦理判断的一半真相。的确,无论是人还是机器,都要以负责任的态度面向我们所处的世界,并致力于让这个世界变得更加符合善的要求。然而,既有理论还未能有效回应这个问题。但是,这并不意味着理论是无用的。人工智能科技对社会实践的冲击,以及由此引发的价值对齐、算法规制、风险防范等各种挑战,使得理论变得更为重要。本文对人机价值对齐框架的构建并未因循传统思路,而是直面人工智能科技所带来的社会物理学变革,以及社会规范空间的再造,从而让人机价值对齐成为整体社会工程的组成部分。面向科技革命的理论反思或人机价值对齐建构当下可能会存在争议,但其存在是必要的。为了社会基本善的人机价值对齐或许会带来局部压力,比如增加产业的论辩负担,但其根本目标是实现“人工智能向善”。