[摘 要]价值对齐致力于使人工智能的目标、行为和意图与人类的价值观保持一致,是智能时代关乎技术安全与社会稳定的关键议题。价值对齐能否实现取决于人工智能能否学会人类价值观以及人类价值观是否具有统一标准,然而,机器语言的转译鸿沟与机器学习的技术黑箱等技术限制以及人类价值观的模糊性、多元性与动态性等规范疑难的存在,共同决定了价值对齐无法在绝对意义上得以实现。故此,价值对齐应当是相对意义上的对齐,其价值基准是多元共识而非整齐划一的,其权力归属是协同参与而非精英垄断的,其方法选择聚焦双向塑造而非单向规训,其伦理边界聚焦安全可控而非性能至上,其实现进程是动态推进而非一劳永逸的。这种相对对齐本质上是一个不断超越实然困境并趋近理想状态的渐进式过程,对未来价值对齐实践提出了合作共赢、厚德载物与久久为功的新要求。
[关键词]人工智能;价值对齐;大语言模型;价值错位;机器学习;机器语言;技术黑箱
人工智能技术致力于创造能够像人一样思维的机器。半个多世纪以来,人工智能历经符号主义与联结主义两派技术路向的进步,在大语言模型领域取得了突破性进展,使机器首次展现出接近人类水平的认知能力。目前,以大语言模型为代表的新一代人工智能正以前所未有的速度重塑全球政治经济秩序与文化生态,并逐步构成现代社会生活的底层逻辑。然而,任何一种技术的繁荣都同时伴随着机遇与挑战。人工智能的广泛应用,使算法歧视、智能依赖与劳动剥削等技术风险问题日益凸显,对传统伦理规范形成严峻挑战。人工智能的权力寻求、奖励欺骗等自主行为特征不断涌现,致使人工智能威胁论愈加昭彰,人类面临着深刻的存在主义困境。在此背景下,如何确保人工智能按照人类的价值观行事、实现人机之间的价值对齐,已经成为当下关乎人工智能技术安全与人类社会发展稳定的关键议题。本文从人工智能价值对齐的问题缘起、实然困境与应然逻辑出发,致力于回答三个问题:第一,什么是价值对齐?第二,能不能实现价值对齐?若能对齐,对齐的可能性为何;若不能对齐,原因又何在?第三,如何实现价值对齐?实现何种程度的价值对齐?通过探讨这三个问题,旨在将价值对齐议题引向纵深,为未来切实推进该项工作,实现人工智能技术的向善向好发展提供一定的理论指引与决策参考。
一、价值对齐的问题缘起
价值对齐聚焦于怎样实现人工智能的目标、行为和意图与人类的价值观相一致,对该问题的探讨源于人类对人工智能脱离自身掌控的担忧。在迈入智能化社会的进程中,价值对齐既是人工智能技术进步的内在需要,也是确保该技术安全可靠的必然要求。
(一)价值对齐的概念
学界一般认为,价值对齐这一概念由斯图尔特·罗素(Stuart Russell)正式提出,即“如何构建与人类价值观一致的自治系统”[1]。与之相关的概念可以追溯至诺伯特·维纳(Norbert Wiener)、布莱恩·克里斯汀(Brain Christian)以及弗吉尼娅·迪格纳姆(Virginia Dignum)等学者。维纳在他的著作中指出:“我们最好确保赋予机器的目标就是我们真正想要的目标。”[2]克里斯汀认为的价值对齐即“如何确保这些模型捕捉到我们的规范和价值观,理解我们的意思或意图,最重要的是,以我们想要的方式行事”[3]。迪格纳姆所认为的价值对齐是指人工智能“以人类福祉为中心,并与社会价值观和伦理原则保持一致”[4]。据此,价值对齐简单来说就是创造与人类价值观相一致的人工智能。我们也可以从三个层面进一步明确其内涵要义:首先,目标层面的对齐。人工智能本质上是一种工具体系,价值对齐要求作为工具的人工智能能够出色地完成使用者为其指派的任务目标,而不是非指定的其他任务目标,这是价值对齐的基本要求。其次,行为层面的对齐。作为复杂的自治系统,人工智能不仅要完成指定的任务,更要以“我们想要的”方式完成指定任务。这要求人工智能在执行指令时的行为表现符合人类社会的道德规范,不能为了追求结果而做出违背人类价值观的行为。最后,意图层面的对齐。推进价值对齐的最终目的是让人工智能技术真正服务于人类社会的发展稳定及人类文明的整体进步,这要求人工智能在未来某个阶段,依靠着某种功能机制实现对人类意图、认知习惯乃至德性的复刻,从而做到真正从人类主体的利益角度出发思考问题并生成决策与行为。
(二)价值对齐的缘由
价值对齐不是无中生有的,对该问题的探讨源自人类对人工智能技术可能超出自身控制范围的担忧。在人工智能技术自主性与风险性愈发突显的当下,价值对齐有其正当性与必要性。
1.价值对齐的正当性
人工智能的主动性揭示出价值对齐的正当性理由。人工智能技术的发展进步指向“通用人工智能”的目标,而价值对齐是人工智能技术进步的内在需要。在人工智能科学的奠基人阿兰·图灵(Alan Turing)看来,通用人工智能的实现方式在于将纪律性与主动性两种属性同时赋予机器。根据他的理论,纪律是指“一种有效计算的方法或程序”[5]。当下的人工智能是将精确的数理运算逻辑实现于计算机平台的程序,是复杂且有组织的工具系统,我们可以称其已经具备了相当程度的纪律性。所以,这里的纪律性并非当前价值对齐工作所聚焦的核心。价值对齐之所以被提出,主要是出于对人工智能主动性的考量。人工智能的主动性指的是在没有人类操作者介入的情况下,系统能够根据环境信息的变动自发调整自身行为的能力。作为智能的本质属性,主动性与纪律性同样不可或缺,一个拥有主动性的智能体是与其生活环境高度耦合的,可以根据适应性需要做出有利于自身利益的价值决策行为。正如图灵指出的,设计机器智能要求我们“发现这种在人类中出现的残余本质(即主动性),并尝试在机器中进行复制”[6]。价值对齐的核心要义是使人工智能在目标、行为与意图三个层面向人类价值观对齐。人工智能的纪律性要求最基本的目标层面的对齐,其主动性则要求更高层次的行为乃至意图层面的对齐。人工智能只被动地响应人类指令是其纪律性的体现,还谈不上具有主动性,只有当人工智能能够模拟人类的认知习惯及行为模式时,我们才能说它具有主动性。因此,价值对齐作为一种应许提升人工智能主动性的工作,是当下人工智能技术向着“通用人工智能”目标发展的内在需要。同时,作为服务于人的工具,当前阶段的人工智能虽不具有完备的通用性,但已进化成能够自主影响人类社会的系统性力量,无论该技术未来能否完全具备人类的智识能力,我们都应当对其自主功能予以规范,引导其行为符合人类预期。
2.价值对齐的必要性
人工智能的风险性揭示出价值对齐的必要性,价值对齐是确保人工智能技术安全可靠的必然要求。人工智能是计算机硬件、算法模型以及数据等技术要素构成的集合体,是汇聚性的技术,其功能运作具有复杂性与不确定性,这使得人无法完全预测并控制其行为和发展趋势。当人工智能做出了人类预期之外的事,我们将遭遇价值错位的风险,包括算法歧视、就业替代以及隐私侵犯等。价值错位会对人类社会的发展稳定造成严重冲击,甚至消解人类文明的主体性,引发存在主义风险。关于人工智能的这一风险属性,可以从尼克·波斯特洛姆(Nick Bostrom)所提出的正交性理论与工具收敛论中得到证明。首先,正交性理论(orthogonality thesis)指出:“智能和最终目标是正交性的;原则上,几乎任何水平的智能都能与几乎任何最终目标相结合。”[7]该理论意味着,在原则上,机器智能可以具有任意目标,即便是像“数沙粒”和“最大限度地制造回形针”这样的目标也不足为奇,且这些目标的存在与人类价值观无必然联系,它既可以是拟人的,也可以是非人的。其次,工具收敛论(instrumental convergence thesis)认为,机器智能在发展过程中可能会收敛于某些服务于自身利益的工具性目标,如电力和数据等特定资源的获取、自我保护以及自我增殖等,进而与人类的利益产生冲突。据此,人工智能的价值错位风险有其原则上的必然性,未实现价值对齐的人工智能会在一定条件下展露出不符合人类价值规范的行为,具备制造社会风险的能力。若不对人机价值错位予以规制,随着人工智能主动性的提高与复杂性的叠加,其潜在的社会风险将会不断加剧,乃至威胁到人类文明的存续。因此,价值对齐是确保智能时代技术安全与人类文明发展进步的必然要求。
二、价值对齐的实然困境
机器价值观与人类价值观的完全对齐是价值对齐工作的理想图景。在现实中,人机之间能不能实现价值对齐?这取决于两点,即人工智能能不能学会人类价值观,以及人类价值观能不能找到统一标准。然而,当下人工智能的种种技术限制以及围绕人类价值观的规范疑难等现实困境,共同决定了价值对齐无法在绝对意义上实现。
(一)价值对齐的技术限制:人工智能能不能学会人类价值观?
在罗素看来,价值对齐的方法有两种选择,使人工智能系统“可以明确地从人类获取道德价值观的方式中得到启发”或者“通过观察另一个理性或近乎理性的行为体的行为来推断其偏好”[8]。简单来说,一种选择是直接向机器传授人类的道德准则,而另一种选择则是让机器模拟人类的行为偏好。相应地,有两类价值对齐比较突出,基于逻辑的对齐与基于机器学习的对齐[9]。然而,由于事实与价值之间具有鸿沟,机器价值观与人类价值观之间亦存在不可通约性,这使得人工智能总是有着功能上的局限,无法真正学会人类价值观。
1.机器语言的转译鸿沟
就基于逻辑符号的价值对齐而言,其大致思路是将人类价值观转译成可用于机器编程的逻辑符号表征,并落实为人工智能系统运行的底层代码,从而使价值规范和道德准则直接实现于系统的功能模式中。显然,该思路需要处理自然语言与机器语言之间的转译问题。人工智能所使用的机器语言是经由计算机程序编码过的技术语言,而不是人类日常使用的自然语言。自然语言是自我意识的外衣,始终与人的社会实践相统一,既包含着抽象普遍的形式逻辑,也包含着大量与日常生活相关的常识经验,是事实表征与价值表征、命题知识与非命题知识的集合;技术语言则只是符号逻辑关系的推演,本身不指示任何语义,它至多可以表征自然语言体系中可被命题化的部分。然而,人类价值观必然存在大量非命题知识作为人们行使价值决策与道德判断时的前置性参考,人工智能要想理解并习得人类价值观,就不可避免地需要这些知识。换言之,基于符号逻辑的价值对齐必须解决人工智能“如何存储和访问人类似乎知道的所有事实”[10]的问题,也就是休伯特·德雷福斯(Hubert Dreyfus)所谓的常识性问题。
目前,常识性问题很难被形式逻辑的方式解决,这是因为一方面,大部分常识是不可形式化的。日常生活经验中大量存在的常识是以默会的方式被把握(例如察言观色、共情等社交技巧),这些常识缺少现成的文字记载和数据表征,难以提炼为可嵌入系统的公理。若强行对这些常识事无巨细地命题,必然会给编程工作以及后续的系统更新带来巨大成本,最终使得由此产生的系统缺乏实践上的用处。另一方面,即便常识存在可被形式化的内容,其习得和运用的规律也很难被形式逻辑所复现出来。首先,常识习得过程是基于具身认知的。主体对常识的获取过程必须处在多种身体感官与环境的实时交互中,通过不断观察与试错才能完成,这种连续且动态的认知过程难以被计算机程序完美复刻。其次,常识运用过程是情境嵌入的。常识指导实践的过程无法脱离主体的具体实践场域进行抽象建模,而围绕公理的建模工作却依赖单调稳定的实验室环境,这必然要求智能系统与现实情境做切割,此类系统一旦遭遇现实情境中繁杂且陌生的信息就会“束手无策”。此外,常识判断过程依赖非演绎的启发式推理。人类在复杂情境中所展现出的直觉判断能力,是对其整个生活史中所积累经验的非反思性调用,对过往经验的熟悉使得人在接触到问题时能够通过某种直接的领悟即刻“跃迁”到结论上,这种能力远超出当前物理符号系统所能实现的范畴。总之,人类的这种具身性与模糊性的认知机制与机器严格的逻辑演算之间存在根本冲突,将价值对齐简化为形式逻辑问题的思路显然是行不通的。德雷福斯也指出,只有构造一个人类式的身体模型,才能克服这一常识性问题[11]。而做到这一点,必然要对当前的人工智能范式(不论这种范式是基于形式逻辑的还是基于机器学习的)予以重构。
2.机器学习的技术黑箱
就基于机器学习的价值对齐而言,大致思路是收集并整理足够多的有关人类行为偏好的样本数据,将之投喂给机器学习系统,通过无监督和有监督的训练,让系统自行拟合出人类行为习惯中的“套路”,从而模仿人类的行为偏好,在行为层面体现人类的价值观。不同于将价值对齐转换为一个形式逻辑问题的第一种思路,此种思路将价值对齐转换为一个统计学问题。作为大语言模型等人工智能底层技术基础的机器学习算法,本质上是基于人脑神经元网络结构高度简化后的一种数学模拟,通过模拟神经元的连接机制,构建包含输入层、中间层和输出层于一体的计算模型。经过海量数据训练和人工校准,人工神经网络能够建立输入信息与目标信息之间的非线性映射关系,从而实现类似人类的模式识别与内容生成功能。信息之间的映射规则很难被提炼为人类可理解的句法,只是体现为网络中不同节点的激发模式所构成的数量矩阵。从哲学层面看,这种思路隐含“行为主义”的智能观预设,即把智能归结为可以被观察到的行为体的外部表现。这种路数凭借可观测的外部行为来定义和评估人工智能的“好坏”与否,却忽略了对模型内在认知机制的考察。由于人工神经网络中间层所固有的黑箱特性,模型内部决策过程不透明,导致系统的价值推理过程难以被人类理解并验证。由此,对于基于机器学习的价值对齐而言,必然面临机器价值表征的可解释性难题。当前以基于人类反馈的强化学习和逆强化学习等针对大语言模型的主流对齐方法,虽然在行为或效应层面能够引导系统输出符合人类偏好的结果,但其本质仍是一种统计优化策略,而非真正的道德推理。
具体而言,机器学习的黑箱性质给价值对齐带来两大困境。一是,人工智能价值决策的结果呈现出事实与价值的脱节。与物理符号系统不同,机器学习系统从训练数据中提取并习得的价值表征仅反映数据分布的统计相关性,而非人类道德判断的规范性依据。某些情况下,即便人工智能经过训练后所表现出的行为符合统计最优,但是模型算法却拟合于与价值规范不相干的指标上。同时,“数据的代表性会影响模型的输出结果,如果训练数据没有平衡考虑各个群体的代表性,将生成歧视内容”[12],而人类编程专家自身道德水平与知识储备的局限也会影响模型的数据归类方向,致使模型固化某些偏见。二是,人工智能价值决策的因果链条难以追溯。人工神经网络的多层非线性变换使得输入与输出之间决策路径的解析工作极为困难,价值判断的合理性难以被逻辑回溯或伦理审查。当模型输出有害内容时,即便是工程师本人也很难定位其根源是数据偏差、架构缺陷还是优化目标的不完善,从而只能抱着“试试看”的态度对系统予以调试。这种黑箱性质,决定了机器学习系统被应用于某些需要“以理服人”的社会场景时(如医院导诊系统、虚拟法律顾问等)会与既有道德准则发生冲突。因此,尽管现有方法能够在行为或效用层面实现一定程度的价值对齐,但机器学习的底层机制仍与人类的道德认知逻辑存在本质差异,无法确保人工智能的价值推理过程是合乎道德的。
(二)价值对齐的规范疑难:人类价值观能不能找到统一标准?
2023年,OpenAI成立“超级对齐”(superalignment)团队,致力于研究如何用人工智能来监督人工智能,其预期目标是花4年的时间和20%的算力资源实现大语言模型的价值对齐。然而,该团队却在次年就宣布解散,其计划也宣告失败。从媒体披露的消息看,“超级对齐”的失败源于OpenAI公司的内部资源分配问题,但更为深层次的原因是该团队一味地关注对齐的技术性工作,忽视了对人类价值观自身种种矛盾的反思,企图在高级伦理法则的指导下,依靠某种完美技术设计方案和足量的算力资源一劳永逸地解决对齐问题。事实上,价值对齐不仅是技术问题,同样也是规范问题,其实现前提在于确定人工智能所应对齐的目标价值观。迈克斯·泰格马克(Max Tegmark)认为,“如果我们在教给强大的智能机器基本伦理之前,在某些标准上达成了共识,那一切就会变得更好”[13]。那么,在决定向人工智能引入何种价值观共识之前,首先得回答一个问题:人类自身能否实现价值对齐?换句话说,是否存在超越一切个体差异、民族特性以及时空界限的普遍价值标准?罗曼·亚姆波尔斯基(Roman Yampolskiy)指出:“人类并不认同共同的价值观,甚至认同的部分也会随着时间推移而变化。”[14]显然,价值观作为人们关于价值本质的认识以及对人和事物的评价标准、评价原则和评价方法的观点的体系,具有鲜明的模糊性、多元性和动态性,这些特性决定了无论是在理论上还是现实中,我们都很难寻找一个普遍的、共同的价值基准。
1.价值观的模糊性
“价值对齐需要以人类的良知和情感作为指导。”[15]然而,价值观本身并非先验统一,而是具有正确与错误、先进与落后以及积极与消极等多重面相。评判价值观良善与否的标准也不是绝对的,其合理性深深植根于社会实践,受制于主体的现实需要与实践条件。在专用人工智能阶段,由于应用场景高度分化,不同领域对人工智能的功能要求和价值预期存在显著差异。即便在同一种应用场景中,用户的意愿与诉求也呈现出多样甚至冲突的情况。专用人工智能缺乏跨领域的知识迁移与泛化能力,因而必须依赖人为设定的、针对具体领域的价值标准。这虽然在一定程度上可以指导特殊场景内的价值对齐,但也会造成不同领域之间的价值冲突。例如,对算法透明性的诉求通常有助于减少算法歧视,增强系统可信性与可控性,然而在网络安全领域中,高度透明反而会扩大系统遭受恶意攻击的风险。更深刻的挑战在于,人类的道德标准在很多情况下并不明确甚至是“无解”的。在“电车难题”等伦理困境中,价值观并不是非黑即白的,而是留给人们权衡善与恶的空间,并在其中起到了指引作用。价值观的模糊性对价值对齐工作提出了挑战:如果作为对齐目标的价值观本身无法被清晰界定,甚至在不同语境中彼此矛盾,那么我们应如何构建出一套稳定的、可推广的价值准则?如果人类自己也常陷入道德困境,又该如何教导人工智能作出“正确”的判断?这要求我们在技术层面推进对齐的同时,也须进行价值层面的反思,寻求有限但可共享的伦理基础。
2.价值观的多元性
价值观的主体是人类,而人类并非一个整齐划一的种群。现实中,不同人类之间存在明显的文化与价值观差异。受特定地域文化、民族传统和社会制度等因素的影响,价值观呈现出鲜明的多元性。全球化背景下不同文明的核心价值观既存在共通之处,也存在差异与分歧,一旦价值观差异较大的用户参与同一种人工智能产品的使用,价值对齐便会“失焦”。诚然,在全球人工智能治理中,各个国家和地区在一些重要伦理原则上达成了共识,如包含问责制、责任制、透明度原则在内的“ART原则”[16],以及曾有学者对全球范围内84个人工智能伦理规范框架和准则进行梳理,发现透明、公正和公平、不伤害、责任和隐私等是最常被提及的原则[17]。但在这背后,不同国家与地区围绕人工智能伦理原则依旧存在“假定性共识”[18],就是说,即便各类文件法案在某些一般原则上有重叠或趋同,但各国原则在具体的价值选择、价值阐释和价值排序上又怀有或隐性或显性的差别甚至对立。不同文明往往会依据自身独特的意识形态,对共识性原则进行转译和重构,形成迥然不同的价值对齐话语。有实证研究表明,中美两国在大语言模型的价值对齐实践中存在明显的“在地化差异”:在中国大模型所呈现的原生价值中,“公平”被置于最高优先级,而美国大模型最为重视的价值观则是“民主”[19]。当不同文明的价值观之间形成冲突时,价值对齐就需要一个统领性标准。然而,资本逻辑与霸权主义对科技产品的驾控给全球人工智能治理带来了阻力。美西方国家凭借其技术优势,正通过主流人工智能产品输出带有强烈西方中心主义色彩的价值观,这种做法实质上是在技术层面强化其意识形态的传播。在前沿人工智能技术仍由西方国家主导的当下,国际社会亟须形成能够包容不同文明价值诉求,同时防范价值观殖民风险的新型人工智能伦理规范。
3.价值观的动态性
价值观的动态性为目标价值观的更新工作带来挑战。“随着每一次社会制度的巨大变革,人们的观点和观念也会发生变革”[20],价值观会随着社会存在的发展而不断演进,这种演进不是某种崭新价值观对陈旧价值观的线性替代,而是积极的前见性价值观与消极的偏见性价值观在矛盾转化中的辩证发展历程。物质生产实践拓展了人对世界的探索范围,使越来越多的信息涌入生活世界,认知负担不断加重。人是有限存在的认知主体,为了减轻庞大信息量所带来的认知负担,主体需对经验事物的价值表征予以标签化处理,形成一种稳定的认知“前结构”用以快速评价新事物,即前见,是“认知主体在处理陌生信息时对其进行简易分类化处理后的产物”[21]。然而,前见对事物的标签化处理容易流于主观臆断,当新经验与既有认知发生冲突时,被固守的价值前见就可能转变为价值偏见,偏见是“‘前见’中相对有害的一种,其特点是在关于周遭环境的信息与既有前见产生巨大矛盾的时候,相关‘前见’依然被主体所坚持”[22]。价值偏见阻碍适应性行为的生成,长期看来不利于社会进步。为防止前见僵化,人必须依据新经验修正成见,发展出更具适应性的新前见。因此,价值观是动态演进的,总是根据经验的变化不断更新前见、过滤偏见。这表明,除非人工智能能依据环境变化自发生成价值观,否则价值对齐将是一个人为介入的永续调适过程,就是说,对齐必须兼顾目标价值观的动态与静态两种面相。我们既要随时应对新经验的涌入,及时调整目标价值观以防偏见固化,保持价值体系的开放;又需审慎判别哪些新经验应沉淀为前见,以维护核心价值观的稳定。然而,当前的价值对齐难以把握这种“动”与“静”的平衡。现有大语言模型的价值前见大多依据预先植入的互联网数据,很难不受整个互联网环境的影响。在特定推荐算法的助推下,当下互联网环境恰恰利于偏见的发生。面对模型可能生成的偏见内容,主流的对策是过滤这些偏见,如在生成内容中屏蔽某些歧视性的语素,并标榜模型的“客观中立”。这种做法实际上是通过构建一种剥离现实语境的静态价值观,将价值偏见与价值前见一并否定掉,从而无视了价值观的动态性,难以适应快速变迁的社会现实。这也是为什么许多大语言模型在发布之初的表现与普及一段时间后相比有着明显差别的原因,其背后正是模型的价值前见随着低质量对话及其附带数据的叠加,逐步转变为价值偏见的过程。
三、价值对齐的应然逻辑
价值对齐的技术限制与规范疑难决定了人机之间无法达成绝对意义上的对齐,但这并不意味着我们应当放弃这项工作。恰恰相反,在人工智能迅猛发展的当下,持续推进价值对齐对于确保技术发展的安全性与可控性具有极其重要的现实意义。受制于当前的技术发展水平和社会文化差异,我们只能追求一种动态的、相对意义上的价值对齐,这种相对对齐本质上是一个不断超越实然困境、趋近理想状态的渐进式过程。在此进程中,须思考两个关键问题,即如何实现价值对齐,以及实现何种程度的价值对齐。对此的思考将指引我们在技术实践与伦理规范之间找到平衡点,推动人机价值对齐朝着更加安全可靠的方向发展。
(一)价值对齐的价值基准:多元共识而非整齐划一
在价值对齐实践中,若强行为人工智能植入单一的价值标准,不仅会加剧其偏见,还可能引发深层的文化冲突与社会矛盾,侵蚀人类文明的文化多样性根基。从文明演进角度看,多元价值观不论是对全人类还是特定民族国家的繁荣都具有重要意义。“一个能够生产更为丰富种类的文艺作品的文化共同体,在价值上要优于一个文艺作品种类单一的文化共同体。”[23]同一文化共同体内部,不同成员对同一价值理念可能存在不同理解,形成多样价值观,并导出不同的行为选择。多样行为的竞争与融合又推动集体价值认知的迁移或分化,从而不断丰富物质文化产品的形态,维持社会的创新活力。与之相反,某种单一价值观的固化会导致社会成员形成单调的思想观念与行为模式,从而削弱社会产品的种类丰富性,甚至造成“文化荒漠”。若将人工智能改造为某种单一价值观的传播载体,会加速消耗既有的人文资源,抑制社会发展活力。由此,价值对齐需尊重人类文化与价值观的多样性,处于不同文化传统中的人工智能应向不同群体的价值共识与道德规范对齐。电气与电子工程师协会(IEEE)在《伦理对齐设计》中强调,自主系统的价值设计应充分考虑文化多样性,“避免只以西方影响下的伦理基础为考量标准。其他文化传统中的伦理道德观念、宗教理念、企业准则及政治传统也需要得到重视,因为它们同样塑造并影响着信息通信技术与自主系统的价值取向和偏见”[24]。当来自不同文明的人工智能产生分歧时,对分歧的处置不应堕入“弱肉强食”或“混沌无序”状态,而应诉诸更高层次的统领性框架。目前许多学者提出,全人类共同价值可作为当前阶段全球人工智能价值对齐的重要参照系[25-26]。全人类共同价值在尊重世界各国家、各民族文化多样性基础上,致力于寻求全球文明的“最大公约数”,具有整合共识与管控分歧的显著优势。各国家和地区的主流人工智能系统可在尊重各自文化主权的前提下,将全人类共同价值作为现阶段的高层次价值观框架,在不违背此框架的前提下,保持各自智能系统的文化差异性并协商出多元包容的对话机制。在具体情境中,人工智能需优先考虑全人类层面的道德规范和价值取向,而后再考虑不同区域文化系统层面的道德规范和价值取向,这是推进价值对齐的重要价值基准。此基准不仅有利于提升人工智能技术在不同社会语境中的可接受度,更是对人类文明多样性的一种保护,为人类文明的演进预留了必要的创新空间。
(二)价值对齐的权力归属:协同参与而非精英垄断
西方科技巨头主导下的人工智能技术生态呈现出明显的权力垄断倾向,资本集团与技术精英通过构建专业壁垒并掌控关键资源(如ChatGPT系列产品的闭源策略),牢牢把控着前沿人工智能产品研发与应用的话语权。受此影响,价值对齐可能沦为某些利益集团的价值输出工具。对于物理符号系统来说,价值对齐体现为形式化规则的约束,不了解这些较高门槛的科技知识的公众群体很难对这些规则予以深刻反思,所以规则本身的不公正性与不完备性很可能因资本权力的介入而被固化且难以动态修正。对于机器学习来说,这一问题则更为严重。价值对齐依赖于数据分布的函数设计以及基于人类反馈的数据投喂训练,而互联网数据的低质、反馈来源的片面以及模型黑箱特性都可能加剧偏见的嵌入和叠加,使弱势群体的意见在社会智能化进程中被进一步边缘化。“在一个不平等的社会里,技术进步的受益者主要是强势群体(弱势群体无法支付技术费用),因此技术进步的一个可能的附带后果是扩大了强势群体与弱势群体的差距,而间接加深了政治问题。”[27]当人工智能的发展被少数精英控制时,价值对齐反而偏离其初衷,使该技术异化为维系权力不平等的压迫性力量。因此,价值对齐的技术设计方案与伦理规范目标应当由谁来参与制定和监督,是一个涉及权力分配的技术治理议题。人工智能作为重塑社会运行方式的颠覆性技术,其研发应用链路上涉及政府监管部门、技术研发机构、产品运营企业、终端用户群体以及各类社会组织等多种多样的主体,每个利益相关方都承载着不同的价值诉求与技术愿景。要构建真正具有社会包容性的价值对齐权力归属方案,就必须打破由技术精英主导的封闭决策模式。要求配套建立权责明晰的参与规则、透明高效的信息共享机制以及科学的争议调解程序,使各利益相关方能够在技术发展与公共价值之间找到平衡点。只有通过多元共治,才能确保人工智能的价值取向既符合技术理性,又体现社会整体利益,最终规避技术异化的风险。
(三)价值对齐的方法选择:双向塑造而非单向规训
不论是基于逻辑符号的对齐方法还是基于机器学习的对齐方法,其思路都是人对机器的单向规训。该思路“在本质上属于传统的人类控制论,是传统人—物关系在数字智能时代的延续”[28],是一种“人类控制论的幻觉”[29]。从技术发展史的角度看,技术最初是作为人的实践中介而存在,是人的“本质力量的外化”,人与技术是“主人”与“奴仆”之间控制与被控制的关系,但是这一关系并非一成不变。人工智能的迭代已使技术从最初的工具性存在,逐步发展为具有自主决策能力和认知特征的智能体,这种转变正在重塑人与技术之间的关系结构。智能技术在不依赖于人的前提下,能够自主做出价值决策,使人类自主性与技术自主性之间形成一种张力。面对这一深刻变化,传统处理人机关系的控制论话语已显露出局限,不仅忽视了智能系统日益增强的自主性和涌现性特征,更遮蔽了人机互动中价值体系的动态演化本质。实际上,价值对齐应当被理解为一个人机之间的双向塑造过程。一方面,人类将经由文明积淀和社会共识形成的价值规范嵌入人工智能系统;而另一方面,人工智能的广泛应用又在重构社会生产生活方式的过程中不断形塑人类既有的价值规范。以学术研究领域为例,大语言模型的迭代升级和广泛普及在挑战着传统的学术规范的同时,也推动着学界重新思考并确立新的知识生产的价值标准。因此,有效的价值对齐方法必须超越人机对立的控制论逻辑,构建能够容纳人机双向塑造的协同框架。这意味着人们既要将当下社会具有共识性的价值观赋予人工智能,同时也要看到人类自身价值观体系随着人工智能的发展所实时产生的变动,并根据具体情况动态调整价值对齐的结果。
(四)价值对齐的伦理边界:安全可控而非性能至上
价值对齐不是无节制的,而是有限度的。原则上,向人类智能对齐的技术设计能够提高人工智能的智识性与通用性,从而更好地服务于人。但是,价值对齐的程度并不是越深越好。人工智能本质上是以服务人类文明为终极价值目标的技术物,我们不能接受它的自主性和智识性强大到足以脱离人类的掌控。因此,价值对齐的伦理底线在于防止人工智能技术违背人类价值观并威胁到人类文明的存续。正如田海平教授所言,价值对齐需要明确人工智能“类人化”的“绝对伦理限度”[30]:在价值对齐的伦理构想中,人的进步始终是对齐的目的,无论人工智能的自主性发展到何种高度,其角色都应当被严格限定为智能工具,而不能取代人类成为价值主体或目的本身。这一伦理底线要求我们对人工智能的“社会生态位”作出规范。竞争排除原理(competitive exclusion principle)告诉我们,“当两个物种占据相同的生态位的时候,它们之间的资源竞争可能导致其中一个物种的消亡”[31]。因此,价值对齐应当遵循“相互受益原则”[32],要求人与人工智能在社会分工体系中占据不同的生态位,基于两者之间的先天差异(例如,由于身体物理基质的差异,人类与人工智能对工作环境的要求是不同的),互相提供对方所不能独立生产的生存资源,从而使两者在各自的生存活动中受益。这意味着,人工智能无法掌握全部资源的生产,自然也不能成为比人类更通用的智能体,以免它完全脱离对人类的依赖甚至取代人类。
(五)价值对齐的实现进程:动态推进而非一劳永逸
价值对齐不是一次完成的,而是循序渐进的。价值对齐的技术设计工作要求“类人化”的人工智能,而规范工作则要求此类人工智能更好地融入人类社会,这代表价值对齐不是仅通过某种技术设计流程就能一劳永逸的,包括人工智能产品投入应用之后的整个生命周期都属于对齐的过程。相对于技术设计阶段的数据筛选、模型调试和框架重构等问题,技术应用阶段所暴露出的问题尤其是价值错位问题将会更多、更复杂,这就需要我们为价值对齐设置全过程动态演进的实施步骤。王伯鲁等教授提出,价值对齐的工作主要包含人工智能技术研发层面的“一次对齐”与用户层面或推广应用层面的“二次对齐”两个阶段[33];学者宋保林认为,“人工智能大模型价值对齐的伦理建构,需要在持续不断的人机合作中展开”[34]。可以说,价值对齐的效果是在阶段性推进的人机交互中不断深化的。在技术设计的阶段,价值对齐应以技术精英群体的内部共识为基础,以社会大众认同的法律和公序良俗为底线,以伦理秩序或道德原则为方向,赋予人工智能技术相关价值规范或评价标准。而到了技术的推广应用阶段,应通过人工智能的实时反馈机制捕捉不同使用者的价值偏差,结合社会伦理评估结果与技术调参实现价值观的渐进式对齐。最终,使人工智能在开放社会场景中完成价值观的持续校准,形成技术发展与人类价值的动态平衡。
四、余论:价值对齐的未来路向
价值对齐问题的实质内容是透析人工智能技术与人类价值观之间的矛盾并给出消解这一矛盾的要求,价值对齐的实现是一个不断超越实然困境、趋近应然状态的渐进式过程。通过怎样的路径让此过程落地,是今后推进价值对齐实践亟待解决的问题。结合当下价值对齐面临的种种挑战与理想图景,我们至少对其未来的实践路径提出如下期望。
第一,坚持合作共赢,为未来价值对齐实践营造交流与合作的“主旋律”。当下价值对齐在不同文化语境和使用场景中的效果并不理想,不同的国家、民族、科技与文化圈子以及个人对人工智能的一般伦理原则各持己见,因而我们最首要的任务就是弥合不同文化传统、学科领域与治理主体之间的屏障,推动跨文化、跨领域、跨主体的对话交流,为未来价值对齐营造交流与合作的氛围,以便为相关技术设计工作提供可靠的价值指引。就跨文化而言,“在大国科技博弈加剧的背景下,国际人工智能治理呈现多极化竞争与碎片化合作并存、技术标准争夺与伦理价值博弈交织的复杂态势”[35]。价值对齐作为全球性挑战,亟须国际社会携手应对,应摒弃依靠技术霸权塑造全球人工智能发展领导权的道路,坚持独立自主与开放合作的统一,促进不同人工智能系统之间的开源共享与价值互译,使对齐过程不再局限于单一系统或特定文化语境,而是在全球范围内实现互通与协作。就跨领域而言,科技愈加发展,人文学科的价值指引意义就愈发明晰,哲学、社会学以及法学等人文研究成果必须更深入地融入人工智能的技术研发与创新,实现理论指导与工程应用的有机结合。就跨主体而言,未来应推动建立多主体的协商机制,涵盖技术开发者、政策制定者、伦理学者以及公众代表等多方利益相关者。在技术标准制定环节,应确保政府监管部门、行业组织和公民团体等主体的实质性参与;在伦理审查层面,需要构建跨学科、跨领域的合作评估机制;在应用反馈阶段,则要完善用户意见的常态化采集与响应渠道。最终,通过持续的意见交换与价值磋商,逐步形成具有广泛接受度的价值规范框架。
第二,坚持厚德载物,将各民族的德性力量打造为未来价值对齐事业的核心竞争力。人工智能时代,若各国一味追求科技实力的竞争(如算力规模和性价比优势的比拼),而将价值对齐视为技术升级与算力堆积之后的附加性任务,那么就偏离了该项工作的根本旨归。盲目投入大量的社会资源以争夺某一技术的领先地位,不免会忽视社会各单元之间的协调发展,进而可能加剧人工智能的价值错位风险(如大语言模型的市场化应用所导致的失业现象),最终阻碍社会的长期进步。在此意义上,价值对齐与其说是人工智能科技竞赛中的“加时赛”,不如理解为“各个民族德性力量的竞争,或者说,是对各民族在多大程度上能用德性力量驾驭科技产品的考验”[36]。智能时代社会的发展应超越对政治与经济利益的片面追求,转向对人本身价值的发现与德性的培育。正如《全球人工智能治理倡议》中“以人为本,智能向善”的发展方向那样,我们今后不但要重视人工智能科技实力在量和形式上的积累,还应将重点放在如何将科技发展的需求内化到对于德性与价值的实现上,着力开发那些能够明显有助于实现诸如公平、正义、和谐、仁爱等价值目标的人工智能产品。
第三,坚持久久为功,以“持久战”为导向设计未来价值对齐的实践方案。面对人工智能技术的加速迭代以及价值观念演变的不确定性,需从长远视角出发,设计具有持续性与前瞻性的对齐方案。人机交互中所生成的价值观的动态性与不确定性无法被彻底消除,因而高效率、低损耗的经性原则成为推进价值对齐的一项基本追求,相应的可行方案是构建兼具静态与动态的价值观“母本”体系。在遵循全人类共同价值等共识性价值基准的前提下,依据既有的人文数据资源形成一套框架大致稳定、内容较为完备的价值观“母本”。在保持“母本”核心结构稳定的同时,预留一定的调适空间,既能应对常规语境下的对齐需要,又可通过小规模修正适应人工智能产品的渐进式发展。由此,我们可以应对短期内的价值对齐任务,而当价值对齐的长期效果遭遇新技术的挑战时(如某种新型人工智能产品的出现足以复现ChatGPT最初问世时所带来的全球性科技治理难题),由于“母本”的稳定性,我们不必再耗费大量资源对目标价值观“大动干戈”,只需要在已有体系基础上进行局部更新,从而避免无休止的系统更新成本,减少价值对齐对社会资源的耗费。
总之,价值对齐不仅是一项技术层面的“修缮”工作,更是一场围绕人与智能技术如何协同演进的全社会层面的“变革”。该目标未来实现与否,对国际的开放合作、各民族德性力量对科技的引导以及实践方案设计上的前瞻性与适应性都提出了新的要求。唯有在对话中凝聚共识、在价值内化中提升驾驭技术的能力、在技术演进中不断创新实践,才能让人工智能真正与人类共融共生,走向一个更加美好的未来。
[参考文献]
[1] Russell, S. , Dewey, D. , Tegmark, M. : “ Research Priorities for Robust and Beneficial Artificial Intelligence ” , AI Magazine, Vol. 36, No. 4, 2015, pp. 105-114.
[2] Wiener, N. : “ Some Moral and Technical Consequences of Automation” , Science, Vol. 131, No. 3410, 1960, pp. 1355 -1358.
[3] Christian, B. : The Alignment Problem: Machine Learning and Human Values, New York: W. W. Norton & Company, 2020,pp. 12-13.
[4] Dignum, V. : Responsible Artificial Intelligence: How to Develop and Use AI in a Responsible Way, Switzerland: Springer Nature, 2019, p. 2.
[5] 邓克涛、张贵红:《机器智能何以可能:图灵的智能概念研究》 ,《自然辩证法通讯》2025 年第 8 期,第 20—27 页。
[6] Turing, A. , Copeland, J. : The Essential Turing: Seminal Writings in Computing, Logic, Philosophy, Artificial Intelligence, and Artificial Life plus the Secrets of Enigma, New York: Oxford University Press, 2004, p. 429.
[7] [英]尼克·波斯特洛姆:《超级智能:路径、危险性与我们的战略》,张体伟、张玉青译,中信出版社 2015 年版,第 132 页。
[8] Tae, K. , John, H. , Thomas, D. : “ Taking Principles Seriously: A Hybrid Approach to Value Alignment in Artificial Intelligence” , Journal of artificial intelligence research, Vol. 70, 2021, pp. 871-890.
[9] 赵伟:《人工智能价值对齐现有方法的批判与生成性认知路径分析》 ,《 科学技术哲学研究》 2025 年第 2 期,第 49—56页。
[10] Drerfus, H. , Drerfus, S. : Mind over Machine: The Power of Human Intuition and Expertise in the Era of the Computer, NewYork: The Free Press, 1986, p. 78.
[11] Drerfus, H. : Skillful Coping: Essays on the Phenomenology of Everyday Perception and Action, New York: Oxford University Press, 2014, pp. 272-273.
[12] 曾雄:《人工智能大模型价值对齐的现状考察、问题检视与规范进路》 ,《电子政务》2025 年第 2 期,第 34—44 页。
[13] [美]麦克斯·泰格马克:《生命 3. 0》 ,汪婕舒译,浙江教育出版社 2018 年版,第 444 页。
[14] [美]布莱恩·克里斯汀:《人机对齐:如何让人工智能学习人类价值观》 ,唐璐译,湖南科学技术出版社 2023 年版,第246 页。
[15] 林爱珺、常云帆:《人工智能大模型价值对齐的人文主义思考》 ,《新闻界》2024 年第 8 期,第 24—33 页。
[16] Dignum, V. : “Responsible Artificial Intelligence: Designing Al for Human Values” , Computer Science, Political Science, Philosophy, No. 1, 2017, pp. 1-8.
[17] Jobin, A. , Ienca, M. , Vayena, E. : “ The Global Landscape of Al Ethics Guidelines” , Nature Machine Intelligence, No. 9,2019, pp. 389-399.
[18] 白钧溢:《全球人工智能伦理治理的文化逻辑与实践理路》 ,《科学技术哲学研究》2025 年第 4 期,第 103—110 页。
[19] 胡正荣、闫佳琦:《生成式人工智能的价值对齐比较研究——基于 2012—2023 年十大国际新闻生成评论的实验》 ,《新闻大学》2024 年第 3 期,第 1—17+117 页。
[20] 中共中央马克思恩格斯列宁斯大林著作编译局编译:《马克思恩格斯全集》第 10 卷,人民出版社 1998 年版,第 253 页。
[21] [22] 徐英瑾:《 “人机对齐问题”对 DeepSeek 提出的哲学挑战——以“前见—偏见” 关系为切入点》 ,《 江海学刊》 2025年第 3 期,第 108—119+256 页。
[23] 徐英瑾:《人工智能哲学十五讲》 ,北京大学出版社 2021 年版,第 64 页。
[24] IEEE: Ethically Aligned Design: A Vision for Prioritizing Human Well-being with Autonomous and Intelligent Systems,https: / / ieeexplore. ieee. org / stamp / stamp. jsp? tp = &arnumber = 9398613.
[25] 沈湘平:《价值对齐与人类价值共识及其生存理性》 ,《自然辩证法研究》2024 年第 12 期,第 3—11 页。
[26] 张逸霄、蓝江:《价值对齐的现实问题与中国方案》 ,《思想理论教育》2025 年第 5 期,第 29—36 页。
[27] [美]迈克尔·桑德尔:《反对完美——科技与人性的正义之战》 ,黄慧慧译,中信出版社 2013 年版,第 XVII 页。
[28] 李志祥、潘逸:《从“单向控制” 走向“ 人机共生”——人机关系模式的伦理反思》 ,《 道德与文明》 2025 年第 4 期,第137—146 页。
[29] 吴静:《价值嵌入与价值对齐:人类控制论的幻觉》 ,《华中科技大学学报(社会科学版) 》2024 年第 5 期,第 11—19 页。
[30] 田海平:《人工智能“类人化”的伦理限度》 ,《东南大学学报(哲学社会科学版) 》2025 年第 3 期,第 5—18+154 页。
[31] Hardin, G. : “ The Competitive Exclusion Principle” , Science, Vol. 131, No. 3409, 1960, pp. 1292-1297.
[32] 夏永红:《人工智能伦理治理范式:从价值对齐到价值共生》 ,《自然辩证法通讯》2025 年第 1 期,第 1—8 页。
[33] 王伯鲁、史少春:《人工智能价值对齐困难及其实现路径探析》 ,《国家治理》2025 年第 3 期,第 51—60 页。
[34] 宋保林:《人工智能大模型价值对齐的伦理建构》 ,《伦理学研究》2025 年第 3 期,第 94—99 页。
[35] 苟护生:《关于人工智能发展的几点思考》 ,《求是》2025 年第 17 期,第 55—57 页。
[36] 徐英瑾、马赛知远:《算法迷恋症:形式主义宰制及其德性出路》 ,《探索与争鸣》2025 年第 7 期,第 147—155+180 页。