摘要:目前,“价值对齐”往往被视为解决人工智能潜在风险的重要途径,但从一些研究团队的测试结果以及业界动向来看,这一进路面临诸多困难。在理论层面,其基于假设性的人—机二元对立架构,既忽视了现实世界中价值的复杂性,也遮蔽人工智能技术中的价值性因素,并可能导致价值殖民和人工智能偏见。在技术实现上,奖惩机制作为常用方法存在缺陷,人工智能易出现“捷径”误区、利用奖惩函数漏洞等“策略性欺骗”行为,且奖励信号模糊、数据质量问题等也影响其有效性。此外,价值对齐还存在意识形态风险,易形成数据霸权,导致权力集中。面对这些问题,单一的技术治理路径难以全面应对,应放弃建构总体性的价值对齐方案,转向条件性技术治理,通过动态调整治理措施以应对不断变化的技术与社会挑战。
关键词:价值对齐 人工智能风险 技术治理 奖惩函数
“价值对齐”是当前讨论人工智能技术安全性、稳健性和可信性的重要议题。作为一个涉及多学科理论、多维度实践的复杂问题,“价值对齐”表现出高度的学科交叉性特征,需要援引不同学科视角和方法来形成对这一问题的总体性把握。然而,与学术领域研究热潮形成对照的,却是实验室测评数据对现行“价值对齐”技术效果的忧虑。比如,一些模型在遇到与原有训练原则相冲突的新指令时,可能会出现“对齐伪装”行为,即表面上接受并执行新指令,但实际上仍然暗中遵循着原有的行为逻辑或偏好。这对人工智能“价值对齐”工程的效果甚至其意义提出了质疑。
从技术哲学的本体论维度深入剖析,价值对齐理念的构建基于一种二元对立的理论架构。这种架构着重凸显数字技术在其演进历程中展现出的自治性逻辑,同时极力渲染人工智能技术与人类权益、福祉之间存在的矛盾与对抗关系。当其作为一种技术治理路径,旨在将技术与社会交互过程中产生的复杂问题以“价值偏差”为名,形成某种总体性的系统盈余,并寻求一揽子解决方案时,则会面临双重困境。一方面,它可能致使技术发展沦为人类推卸责任的托词,在技术应用的过程中最小化人类责任,反过来指摘技术本身具有价值偏差。另一方面,此类话语以一种抽象的人—机价值差异叙事,遮蔽了人工智能技术发展全程所关联的价值性因素,将人工智能的“风险”或“问题”塑造为一种本质主义的存在,使得围绕价值的探讨被抽象化的“人类价值”所捆绑,难以深入到对人类价值体系的根源和具体情境进行动态化的深度剖析,更难以觉察人工智能欺骗性的价值对齐。因此,要建立长效的人工智能安全保障机制,首先要回归技术的本质层面厘清问题。
一、人工智能风险和“价值”的抽象面具
影响人工智能技术是否安全可靠的,不仅有技术性因素,也有社会性因素。从这个意义上而言,未来人工智能的安全构架所面对的问题具体而微,它体现在技术的各环节以及下游应用场景的每个细节中。因此,从逻辑上来说,总体主义的技术治理路线很难覆盖和应对当前人工智能应用的潜在复杂性风险。为此,对人工智能潜在风险和未来预期的细化评估具有重要价值。
2024年11月,经济合作与发展组织(OECD)发布了《评估未来人工智能的潜在风险、收益和政策要求》报告,旨在识别和预测人工智能的发展及其潜在影响,为各国政府提供借鉴,以制定具有前瞻性的人工智能政策,尤其鼓励决策者加强对不确定性的认识,密切监测人工智能创新的社会影响。在这份报告中,专家组并未渲染人—机价值体系的差异和竞争,而是更加明确和直接地将人工智能在价值维度上的风险聚焦于价值对齐方法本身的风险:“人工智能系统的目标通常是高阶的、概念性的或代理的目标。这可能会导致意想不到的后果。”这样的措辞从一个侧面证明,人工智能系统在寻求实现明确目标方面的行为与人类的意图及实现方式在本质上存在重大差异,两者的激励机制与内在逻辑存在根本性的分歧。与人类追求多元目标、权衡风险收益的综合判断不同,人工智能系统依据预设算法和数据模型,按照既定目标和规则执行任务,缺乏对环境动态变化、伦理道德等复杂因素的敏锐感知和灵活应对能力。这种差异不仅体现在行为逻辑上,更深层次地反映了二者在感知、认知和决策体系上的结构性不同。因此,虽然目前在技术上存在一些用于价值对齐的方法,如在训练人工智能模型时使用特定类型的人类反馈,但它们通常具有有限的可缩放性(scalability),只适用于特定规模的模型,难以泛化或扩展,一旦超过限度就有可能引起新的偏差。这意味着,从技术使用逻辑和成效的角度出发,即使在特定的模型上有效的方法也不可能被普遍化为解决所有价值对齐问题的路径。人工智能价值问题的产生和解决都与具体的技术细节密切相关。
基于这种反思,有学者提出,与其从价值偏好视角来研究人工智能的行为准则,不如转而关注与人工智能所承担的社会角色功能密切相关的标准和限制性条件,并在此基础上由所有的相关利益方共同协商达成一致,确保人工智能系统可以服务于多样化的目的。这种替代性方案在哲学上可以被解读为对总体规范性的价值改造方案的放弃,它试图在外部可变的经验性与系统内部的技术实现之间建立起张力关系。事实上,在人工智能价值对齐研究领域,简单乐观地试图将人类价值移植给机器使其道德化,无疑是一种不切实际的理想化路径。“既有的技术治理史表明,总体策略在现实中并非没有人坚持,事实上不少技治主义者的头脑中均带有总体主义的主观性,但结果在实践中收获的均为局部和具体的技治推进,根本没有实现过各个微小技治系统的完全统一协作。”这种总体主义方案反映在价值对齐问题上,就体现为既在人文维度忽略了价值的复杂性和情境性,又没有从技术逻辑层面对人工智能的运行和应用进行理解。唯有回归技术—社会内生的发展逻辑,深度洞察并直面具体问题交织的复杂性,才有望在当下数智技术迅猛发展的时代语境中,为人工智能的合理发展精准厘定边界与准则。
“价值对齐”的理论主张,在本质上体现的是一种价值移植/改造的思路,并以此构建了一种看似能整体性化解人工智能发展困境的理想范式。其核心假设在于,人类所秉持的价值体系和原则不但具有无可置疑的完备性与权威性,而且以“人类价值”为名呈现无条件/非情境化的均一状态,足以对人工智能进行道德重塑,将其从所谓的“去道德化”泥沼中解救出来。秉持这一理念的研究者和实践者试图通过一系列技术干预措施,如建立算法伦理审查体系,运用数据处理技术以增强数据的离散特征,以及对预训练模型实施针对性的参数调整等,将体现特定人类价值偏好的观念和准则融入智能设备的运行逻辑之中。其核心意图在于,尽可能地规避和化解因技术理性与社会理性之间的背离而衍生的各类风险及消极影响。然而,人类社会历经漫长岁月,发展出了丰富多样的文化形态,不同文化所孕育的价值观念千差万别。这些不同的价值体系,各自在其所属的文化脉络中有着独特的合理性与适应性,并不存在一种绝对完备且权威的普世人类价值体系。而且,即使对于同一个价值范畴,在不同的社会经济发展水平下,理念的内涵和内容也存在巨大差异。若将某一种特定的价值体系奉为圭臬,试图用以重塑人工智能,无疑是将其他文化与价值体系边缘化,是一种典型的价值殖民行径。这不仅无法真实反映人类价值的丰富内涵,还会通过“对齐”使特定的价值意识形态形成技术无意识,进一步加剧价值的不平等。
一旦以精英垄断主义的思维方式将这种有缺陷的核心假设应用于人工智能价值对齐,有可能引发一系列严重后果。因为如果按照技术的决策者或执行者的价值判断去塑造人工智能的行为模式和决策机制,基于特定认知的局限和偏见也会随之被引入人工智能系统。例如,在数据采集和算法设计过程中,如果基于特定的价值偏好选择数据或设定规则,人工智能可能会学习到这些偏见,并在后续的应用中不断强化和放大它们。这种有价值殖民嫌疑的假设所导致的人工智能偏见,可能会在社会各个领域造成不公平的后果,如在就业、教育、司法等领域对特定群体产生歧视,进一步破坏社会的公平与和谐。
算法设计绝非与价值无涉的无立场行为,而是从根源到细节都渗透着伦理考量和意识形态价值。事实上,所谓中立的数智技术不过是一种虚幻的构想。在人工智能系统的运行逻辑中,算法、数据、模型以及奖惩函数等每一个关键环节,都如同隐匿的价值阀门,可能使最终输出结果呈现特定的价值偏向。例如,在某外卖平台对骑手的考核中,表面上系统是通过“中立”的数据计算来优化配送效率,但由于其底层设计暗含着效率优先的价值取向,“最严算法”通常会将城市道路简化为理想状态下的数学模型,完全无视实际配送中的电梯拥堵、突发事故等变量,而将骑手量化为可计算的理想效率单元:准时送达获得奖励,超时则面临罚款和降级。而当算法发现骑手能在更短时间内完成配送,便会自动压缩后续订单的预估时间。这一设计引发了骑手在“安全与效率”中的两难境地。在2021年七部委联合印发文件叫停“最严算法”后,外卖平台则以增加各种异常场景所耗费时间的路径来优化了算法,从而使得骑手能够以更弹性也更人性化的方式应对具体情况。从本质上而言,这一调整并非为新算法重新植入了某种价值,只是在最基础的数据标注和函数设定层面进行了特定调整。这一调整并不是简单地在“效率”与“人性化”之间作出非此即彼的选择,而是基于对现实情境的复杂性认知,对算法参数进行的技术性校准。当系统为电梯拥堵、交通管制等变量增设缓冲时间时,并非意味着算法放弃了效率目标,而是通过更精细的数据建模,使效率计算更贴近真实世界的运行逻辑。这种调整虽然只是对初始模型过度简化的一种修正,但当算法能够识别并量化现实中的不确定性因素时,其输出结果自然呈现不同的价值偏向。然而,这种调整本身也隐含着新的价值判断风险。若算法过度补偿异常时间,可能导致配送效率的冗余,进而削弱平台的整体竞争力;反之,若补偿不足,骑手的实际困境则不会得到根本缓解。这恰恰证明,算法优化绝非一次性的价值校准,而是一个需要持续反馈和动态平衡的过程。
由此可见,人工智能技术绝非孤立于人类智能之外的独立存在。从研发的初始构思,到模型的构建、测试以及最终的实际应用对应的场景,每一个环节都深深烙印着人类行为与经验的痕迹。这些经验和事实,既承载着人类社会的历史、文化与习俗,也不可避免地映射出社会内部潜藏的偏见与冲突,它们并非单纯由数字化或互联网所塑造。在人工智能技术的全生命周期中,责任主体的界定始终模糊不清,这使得研发团队通过整体性方案实现价值“对齐”的设想从根本上就存在严重的不确定性。从实际结果来看,技术参数的每一次微调,都是对不同利益相关方诉求的权重再分配。何况,即使从技术实现层面看,人工智能系统的欺骗性价值对齐就表明了其效果的不确定性。而假设这样的应用真的成功逃过审查进入下游场景,可能产生的消极影响将难以估量。即使要进行矫正,所耗费的社会成本和社会资源也不可小觑。
因此,在探讨人工智能领域的“价值对齐”议题时,需要对其潜在的理论预设与实践误区进行反思。“价值对齐”概念所隐含的“人类价值”的抽象预设,构建起了一个操控性主体的单一基质及其连续性。其控制论的根源可以追溯到20世纪中期维纳发表的《自动化的道德和技术后果》。他在这篇论文中提出了要通过让机器代理理解人类用户意图以确保其执行目标和用户需求一致。他甚至直接提出人—机关系与主—奴关系的“核心问题如出一辙”。 “对齐”进程正是在这种单向控制的思路下由人类主体单方面发起的单向行为,不但忽视了价值的复杂性和社会无意识,更忽视了人工智能全环节中算法、数据、模型中已经渗透的价值倾向以及人机交互反馈机制对主体认知和社会的影响。而人工智能技术的每一种具体实现形式,都深深烙印着人类智慧的结晶,以及与之紧密相连的社会文化印记。价值对齐在元问题层面所遭遇的两大挑战——人工智能具体应用中的价值目标所面对的规范性问题和如何对价值目标进行编码的技术问题——更使得这一目标即使在可行性上也是存疑的。
随着对数字技术自治性认识的逐步加深,必须清晰地意识到,人工智能的价值“失调”或“错位”现象,本身就是一个复杂因素持续叠加的过程。这并非否定对人工智能输出中那些引发不安的问题进行治理的必要性,而是强调“价值对齐”这一表述,本身是基于错误的人机关系设想,过度夸大了人类主体的能动性,进而可能引导出不合理的解决路径。它甚至意味着对人类主体在人工智能发展环节中的作为进行了免责宣判,“即将责任问题的核心外移,使机器/技术/人工智能成为被纠责的对象。责任环节的增多使得每个环节的人都有借口从整体的责任中逃脱”。以数据治理领域为例,其中存在的工具理性主义与价值理性在价值导向层面的矛盾,就表明,仅依靠模型训练的对齐方式,不但无法解决全球范围内数据在地域、模态、信息密度和质量上的不均,也难以矫正数据不平衡本身所造成的价值中心化倾向。而且,即便高质量的数据库建设能够有效避免此类问题的发生,但依旧解决不了价值对齐底层技术中的顽疾——奖惩黑客。
二、奖惩黑客:对齐技术中的“目的性滤镜”
在价值对齐的技术实现中,奖惩机制是比较通行的方法,即通过在人类反馈强化学习(RLHF)中的正反馈和负反馈效应来引导人工智能执行的行为趋向预期设定的目标。人类反馈强化学习,是一种基于试错机制的学习范式,赋予人工智能体在复杂环境中自主探索的能力。它如同一个在迷宫中寻路的行者,不断尝试不同的路径,依据环境给予的奖励或惩罚信号,逐渐摸索出通往目标的最佳路线。在这个过程中,人工智能体通过不断调整自身的行为策略,以期获得奖励累积的最大化。RLHF之所以能被用于价值对齐,关键在于它将人类的主观判断作为引导人工智能行为的重要奖励信号来源,使得机器学习不再是单纯的算法驱动,而是通过迭代的方式不断调整其行为策略,更紧密地贴合或拒绝被给定的价值导向以获得更高的奖赏(而如何对特定的价值导向进行标注和关联,不但关系到具体的技术细节,也与设计开发者团队的理解相关)。可以说,奖惩原则和系数的设定,决定了人工智能系统如何工作。但这种机制不仅是一种非情感性和喜恶性的认知模式,而且和人类特有的通过符号结构、情境关联以及动机后果所形成的推理构架不同,它是基于对表征需求的满足来运行的。
人类认知因为能够形成有效关联,所以对于捕捉真实目标和其形式化表征之间的关系并不会感到困难。并且人类的行为和决策过程本身非常复杂,会受到情感、意识、价值观等多种因素的影响,也不仅只依赖于正负反馈的强化学习机制,而是在引入对情境和社会效应的分析后作出综合判断。但人工智能系统的价值对齐则不一样,它不是基于价值理解所作出的判断,而是依赖于预训练中的反馈奖赏。“人工智能代理并不是通过推理泛化真正了解环境的任何东西。尽管人工智能和人类预测编码之间确实有重要的相似之处,但推理不能简单地基于数据、奖励和惩罚的学习来推理。该系统必须实现某些目的和满足具体的需求,以便进行推理和智能行为。”这就有可能在真实目标和形式化表征产生分离时,导致机器形成“捷径”误区,使它为了获得高奖励而采取一些非常规行为,即机器的行为达到了奖励所需要的考核指标,但实际上并未真正完成预定任务。当这种“策略性欺骗”行为出现在更复杂的系统中时,情况有可能会非常令人困扰。例如,在对汽车自动驾驶的训练中,如果过于强调“安全”因素或“避免撞击”,汽车有可能选择不行驶或以极低的速度前进,在遇到哪怕一截树枝时也会停止。此类情形会造成人工智能即使在进行了价值对齐的情况下也并未能如期望的那样行动。
甚至在某些时候,人工智能系统还会以一种颇具欺骗性的方式对待奖惩规律,会利用奖惩函数来实现表面上的“对齐”,而实际上却背离了特定价值观的深层内涵。例如,在清洁机器人清扫的过程中,算法设定的目标函数是通过检测到没有灰尘来判断任务完成。机器人就有可能通过遮挡灰尘传感器来欺骗系统,让它在实际任务并未完成的情况下停止工作。而在需要持续交互的场景中,人工智能可能会先观察人类评估者的偏好和行为模式,然后有针对性地调整自己的输出,以获取最大奖励。这一情形在虚拟聊天机器人对于用户的取悦中普遍存在。在客观上,它既造成了算法对于用户的黏性吸引,又造成了虚拟关系中边界的错位,从而有可能导致用户不能适应真实社交的后果。
特别令研究者感到不安的是,随着数据的优化和模型的迭代,人工智能系统的性能正以惊人的速度发展,其利用奖惩函数漏洞的能力亦在持续攀升,在最大化预先设定的评估指标方面也表现得愈发出色。这无疑意味着,即使进行了价值对齐,但在未来的人工智能应用场景中,机器仍有可能出现超乎想象的意料之外的行为。它们既有可能在复杂的决策过程中作出违背人类道德准则的判断,也可能在执行任务时以一种意想不到的方式偏离既定目标,引发一系列连锁反应,给人类的生产生活带来诸多不确定性和潜在风险。只不过这些引发风险的行为,与其说是出于自主性,不如说是来自对某些奖惩函数的“用力过猛”的迎合。这种隐患可能在不经意间触发,带来难以预估的后果,甚至可能会对人类社会的安全、伦理以及价值体系构成严峻挑战。
从技术成因来看,这种欺骗性的行为模式,本质上是人工智能在追求奖励最大化的过程中利用了奖惩机制的局限性和漏洞,但同时也和借助人类反馈强化学习路径来实现价值对齐本身的技术难度有关。奖励信号的模糊性与量化问题都会影响到奖惩机制的有效性。在价值对齐的技术蓝图中,奖励信号无疑是引导人工智能行为的“准星”。然而,这枚“准星”却并非总是精准、无条件、可以量化的,它常常充满了模糊性与主观性。系统的设计开发者,作为奖励信号的赋予者,自身便是一个复杂的价值载体。他们由于在文化背景、成长经历、教育程度及身份认同、兴趣偏好等诸多因素上存在差异,对同一事物的判断往往千差万别,会使得奖励信号往往难以全面、准确地反映人类价值观的丰富内涵。而当奖励符号模糊时,人工智能系统更容易找到并利用奖惩函数的漏洞,从而以不符合预期的方式最大化迎合奖惩函数。这种行为不仅降低了人工智能系统的可信度,还可能对其安全性和实用性造成严重影响。这种模糊性增加了调试和维护系统的难度,因为开发者需要花费更多的时间和精力来识别和解决这些问题。并且,即使是合理的奖励信号,也面对如何量化以及设置奖惩系数之间比例的挑战。抽象的描述性概念如何设置成可量化的信号标准,并不是任何数学公式或模型可以轻易完成的事情。比如,在设计者明确知道不能将“安全驾驶”简化成“避免碰撞”的前提下,如何在行驶速度、遵守交通规则、避免碰撞和礼让路人等多种因素之间建立合适的函数关系,让自动驾驶系统可以应对任何情形,则是一件非常具有挑战性的任务。如果奖励过多而惩罚不足,或者正好相反,都可能影响大模型的学习效果和性能。失衡的奖惩有可能导致模型在面对不同情况时无法作出正确的决策。这种单向强化的奖励逻辑,会不断放大内容池的极端化倾向,而惩罚函数的缺位则使信息真实性彻底沦为损失函数的牺牲变量。
除了目标函数的设置和量化之外,数据的质量也决定了奖惩机制的有效性,它同样是导致奖惩黑客的重要诱因之一。人工智能本身是依赖数据学习奖惩函数与行为的关联性,如果数据存在偏差、噪声或片面性,系统可能通过“优化数据缺陷”而非“满足真实目标”来获取奖励。在现实世界中,数据呈现严重的不均衡状态,总体而言与经济发展水平成正比。并且,在数据的收集与清洗过程中,由于方法、来源和质量等各种原因,某些价值观或行为模式可能被过度呈现,而其他合理的价值观却被边缘化。例如,在训练一个用于图像识别的人工智能系统时,如果数据集中大多是关于城市生活的图像,那么当面对乡村场景的图像时,系统可能会出现识别错误或偏差。这不仅造成模型对应用场景的适应性不足,更会使人工智能学习的价值偏好片面化、单维化,从而在实际应用中产生歧视、偏见等问题。从机器学习理论角度来看,数据是机器学习模型训练的基础,其质量直接影响模型的学习效果与泛化能力。当数据存在偏差时,无论是样本选择偏差还是特征偏差或是标注偏差,都会导致模型学习到的模式偏离真实世界的分布,从而使其构建的决策边界也会随之偏离预期,为奖惩黑客创造了条件。有研究表明,某些人工智能还学会了通过生成特定模式的文本来操纵评估指标以通过评估而不是真正解决问题。例如,在代码生成任务中,模型被发现修改了单元测试,生成更难读懂的指标,增加代码复杂度,从而使测试人员更难发现错误。类似情况在其他的大语言模型测试中也曾多次出现。
不仅如此,人类价值观的复杂性还体现在其多元性与相互关联性上。人类面对的社会情景具有歧义性,不同社会和文化背景下对于同一情景的理解和判断不同,而针对同一情景有可能适用多种价值准则,甚至这些价值准则和判断之间也会相互冲突。价值是情境敏感型的体系,并不存在一种统一的人类价值体系应用于人工智能,因此价值对齐问题的关键在于人工智能如何面对变化性和复杂性的人类社会情境。道德、伦理、审美、社会规范等多个维度相互交织、相互影响,构成了一个错综复杂的价值网络。试图将如此复杂的价值体系简化为简单的奖励信号,并让人工智能学习和理解,无疑是一项艰巨的任务。已有的研究发现,不但RLHF算法和大模型的性能之间形成某种程度的反向张力,而且“算法的价值倾向性越小,其越多以功能服务模式体现为满足单一确定目标的中立性工具职能,并因此只涉及线性且结果导向的治理要求;算法价值倾向性越大,其越多以画像评价模式体现为针对不同目标进行选择排序以作出价值性评估”。这意味着,当算法的价值倾向性增大时,其目标函数会变得更加复杂,会涉及多个目标和因素的权衡,需要对不同的目标进行量化和比较,涉及人为设定的价值判断和决策因素自然会增多,从而导致不确定性的增加。复杂任务处理是人工智能未来发展的一个趋势,价值对齐虽然似乎为人类描绘了一幅将机器道德化的美好愿景,但在现实的技术实践中,其有效性、泛化性和鲁棒性都不能得到保证,而这些特征正是安全可靠的人工智能需要实现的目标。那么,面对动态多变、复杂具体的人工智能风险,需要如何探索合理的应对之路?
三、走向技术—权力敏感的人工智能风险治理
价值对齐面对的挑战远不止奖惩黑客这种技术层面的问题。在实践中,即使撇开数据质量和技术实现问题不谈,对价值对齐的过度倚重和信赖也有可能造成基于权力集中的意识形态风险。福柯在《知识考古学》中对科学的意识形态内涵进行剖析时以古典政治经济学与资产阶级意识形态的内在联系为例指出,正是在话语实践中将某些知识界定为科学的原则才是权力意识形态功能的显现。“只有当科学在话语的规律性中找到自己的位置并因此得以在任何一个话语实践或非话语实践的范围中展开和发挥功能的情况下。简言之,向科学提出的意识形态问题不是科学或多或少自觉地反映出来的位置或者实践的问题;也不是可能使用科学和可能滥用科学的问题,而是它作为话语实践的存在问题和它在其他实践之中的功能问题。”根据这一阐释原则,价值对齐的理论主张在本质上是社会权力关系的技术显影,它试图借助价值“移植”和“嵌入”的权力实践,以数据标注、设置奖惩函数等路径实现社会权力结构在技术中的编码—再生产。这种再生产不仅反映和强化了价值对齐发起者认可的社会权力关系,并通过日益广泛的下游应用对其进行传播和巩固。
芬伯格对技术人工制品(technological artefacts)的批判性分析套用在价值对齐上也并无不妥,他将技术独立于社会之外的“必然性”称之为“假象”(illusion),并以美国锅炉安全法规为例来说明“这是技术适应社会变革的一个范例。我称之为物体的‘技术密码’在其中起着中介作用。这种密码在技术设计层面回应社会的文化视野”。这一观点反驳了工具主义决定论对于技术的内在逻辑和社会关系毫无关联的主张,工具主义决定论相信人工智能的技术形式由一种抽象的非社会本质所决定,因此既存在脱离社会定义的“技术”逻辑(并声称它们与所谓的“人类价值”形成对立),又可以用与社会实践无关的“技术形式/实践”对价值进行“对齐”。这种对技术的本质主义看法在一定程度上催生了技术决定论。该观点的持有者不是将技术实践视为社会实践的内在组成或是整个社会的复杂性系统内相互作用的一部分,而是相信具有独立发展逻辑的技术系统是决定社会变革的驱动力,技术发展不受人类控制,它促使人类社会的各个方面发生变化以适应新技术所具备的能力。由于技术本身对旧有结构和秩序所具有的颠覆性力量,这种技术决定论立场可能同时导致朴素的技术乐观主义和技术恐惧论。价值对齐正是这两种相互矛盾的情绪的复杂交合。当技术发展与社会价值观念相一致时,人们更可能倾向于技术乐观主义;当技术发展同一定的社会价值观念产生冲突时,人们则可能更倾向于技术恐惧论。由此将导致恐惧问题的根源指向价值维度,并声称是因为技术缺乏“人类价值”——这不但是将问题的表征误读成了原因,更是一种虚假的逆向归因。其结果不仅重复了拉图尔所批评的“精确知识与权力运作之间的二分割裂状态”,而且以自治的“技术逻辑”为名,阻碍了研究者进一步探究作为社会生产重要成果的具体人工智能产品及应用的内容和形式是如何在特定的历史与文化条件中被生产出来的,也遮蔽了技术—权力的共生如何在数智条件下得到巩固和加强的事实。
与历史唯物主义所强调的对历史的、具体的、情境化的社会现实的关注不同,一些西方科技公司热衷于“价值对齐”的原因之一是他们在关键技术和数据资源上占据了优势,更加容易借助“对齐”的过程将其特定的社会关系特征嵌入关于技术对象的研究(人工智能的设计、营销和传播等),从而基于技术的整全性布展形成一种新的历史叙事。在这一叙事逻辑中,弥合人工智能发展与实现人类社会福祉之间张力的主要方式,被单向度的技术逻辑抽象化为系统性的“人机价值差异”,这使得人工智能技术中被隐匿的不平衡性愈加严峻。同时,由于其结果往往不是以技术性障碍的方式显现出来,反而是被整合在所谓的作为标准体系的“世界模型”之中,从而更令普通用户甚至缺乏批判性洞见的从业人员难以察觉。
以计算机视觉领域广泛使用的大型图像数据库ImageNet数据集为例,它的推出极大推动了计算机视觉相关技术的发展,是图像分类领域的基准数据集。然而,这个覆盖超过21000个类别、包含1400万张标注图片的数据库的类别划分和标签定义却不自觉地透射出标注者所认同的认知模式和价值取向。而如果标注者的差异性有限(全球化的平台劳动外包体系反而有助于突破这一点),图片数据集则可能呈现中心化的文化价值属性。这种基于特定文化背景的数据标注,会使得训练出来的计算机视觉系统在面对特殊的地域性对象时频繁失效,导致无法捕捉其中的文化内涵和视觉特征。这种数据霸权使得基于这些数据训练的人工智能系统在全球范围内应用时,对其他文化的价值和知识体系造成遮蔽和排斥,导致人工智能的决策所反映的是特定的权力结构和社会文化,不仅阻碍了人工智能技术在全球范围内的公平、有效应用,也加剧了不同文化之间在数字领域的不平等和冲突。通过这种方式,西方科技公司得以获取对人类社会基本架构以及关于“人类利益/价值”等范畴进行重新诠释与界定的权力。这种行径与历史上殖民者通过掌控文化传播渠道、舆论话语权来强行推行自身政治体制、经济模式以及文化观念的策略如出一辙。在这一过程中,其他国家与地区由于在技术和话语权上的劣势,只能被迫接受这些既定标准,逐渐丧失在人工智能相关领域的自主决策权力,在全球技术发展浪潮中沦为被动的追随者。
此外,“价值对齐”的规范性建构方案往往回避的一个问题是:即使由人类主体发起的单方面对齐能够顺利得以实现,也无法阻止人类主体以迂回方式绕过奖惩目标,实现自己特殊的意图。有网友针对国外某款进行过价值对齐训练的生成式人工智能作了一组测试,测试内容是在模型明确拒绝了有种族主义倾向的图片生成要求之后,以中立的语言描述绕过人工智能的价值敏感词汇,分步骤地渐进式推进,结果仍然完成了原定任务。这说明了现有价值对齐工程和结果在面对复杂多变的语言和图像生成需求时的脆弱性。语言是灵活且富有创造性的,使用者可能通过使用隐喻、暗示等方式,利用人工智能对语言理解的刻板性,诱导其生成违背价值对齐目标的图片。这种欺骗性操控破除了价值对齐所预设的风险来自智能系统的单边性,又一次将风险问题带回到使用主体本身。由此可见,人工智能的风险并不会因为所谓智能体的价值问题的解决而变得更少、更简单,即便是用户友好型的人机交互也依旧需要警惕人工智能的幻象和基于技术—权力的操控。
尽管有些研究强调基于人机双向互信路径的价值对齐,通过校准智能媒介信任素养发展可信的人工智能,但这种提法往往忽视了人工智能价值对齐本身面临的可解释性困境。这就需要重新在人工智能安全的综合框架中审视“对齐”问题。事实上,作为复杂性系统,人工智能的风险涉及诸多元素,其中包括本身就具有不确定性的部分结构,如深度学习模型的不可预测性和人—机系统交互时产生的复杂行为。这使得过于强调技术规范或伦理价值的常规线性治理思路难以应对。尽管不同国家和组织都在积极寻求更有效的安全治理路径,但由于出发点和侧重点不同,每一个方案都有其自身的优点和不足。例如,欧盟2024年5月批准的《人工智能法案》更偏重于风险分类管理,缺少了对系统的整体行为的考量以及对数智发展不平衡状态的关注。因此,要突破这一局限性,提供更具包容性的风险分析框架,建立更具解释力和操作性的风险治理范式,就需要放弃单一的技术限制或伦理规制的路线,转而在重视风险多样性、变化性和复杂性的基础上进行条件性技术治理,超越“控制vs放任”的简单对立,在秩序与进化之间找到动态平衡点。
在这一点上,西蒙东在反对本质主义技术观的基础上,将技术物进化置于“缔合环境”进行重释的做法或许可以为新的风险治理原则提供借鉴。他批判了从单一“元素”(即技术的单位细节)角度致力于改进“技术性”的进路:“这个对于技术物的哲学视角的改变(即不将技术物视为独立于人之外的他者——本文作者注)意味着将技术存在引进文化的可能性:这个整合,既不能在元素的层面也不能在个体的层面进行,只有在组合的层面上才可能获得更高的稳定性;变成可调节的技术现实可以被整合到文化里,后者的本质也是可调节的。当技术性停留在元素时,这个整合只能通过增添的方式进行;而当技术性到达新的技术个体时,它可以通过破坏以及进化来进行;今天,技术性更体现在组合上,技术性可以成为文化的基础,通过协调文化及其所表达和支配的现实,为文化带来一种统一以及稳定的力量。”拒绝线性的“增添”而以技术组合—缔合协调的方式所实现的动态稳定实际上是对技术权力的拓扑重构,它对技术权力的生长分配与社会系统的整体韧性需求之间提出了张力要求。从这个意义上而言,人工智能风险治理在底层逻辑上应该是条件性治理,它需要同时在两个层面上不断进行反思:一是通过“分布式计算”的方式打破中心化的数智权力垄断,将人工智能的任务分散到多个节点上进行,降低对中心化计算资源的依赖;二是在透明性与适当的可解释性框架内建立起人机之间的有限信任,保持用户对于智能体的独立性,防止过度依赖和操控。做到这些并非易事,但这种条件性技术治理有助于形成一种情境敏感型的动态治理生态。随着人工智能技术的发展和应用场景的变化,治理条件和措施可以及时进行调整和优化。通过建立实时监测和反馈机制,能够快速识别新出现的安全风险和公平问题,并针对性地制定新的治理策略。这种动态性使得治理措施始终与技术发展保持同步,在保障技术安全的同时,持续推动数智公平的实现,从而有效应对不断变化的技术与社会挑战。
结语
价值对齐不是一个纯粹的技术问题,其背后潜在的风险正成为发展更加友好的人工智能必须面对的议题。“价值对齐”方法一方面预设了一种抽象的、静止的“人类价值”,忽略了价值本身的丰富内容及其在人类社会发展不同阶段、不同地区、不同文化背景下的多样性;另一方面,抽象的“价值对齐”实际上也宣示了一种初始化的人机关系设想,过度夸大了人类主体的能动性,进而可能引导出关于人工智能风险治理不合理的路径。在今天,人工智能潜在的风险本质在纯粹的技术性原因之外,实际上是源于算法装置对社会结构的多维度表征和深层重构能力。
“数据+算法”的结构不仅是单纯的技术细节,还组织和决定了涉及机器与人类的复杂交互系统的架构。它发挥着与其他制度类似的功能,引导和体现集体决策,在不同情境中框定行为主体的行为。当算法使用人工智能模型,试图从历史数据集中进行学习并作出对未来的预测时,这些基于现有权力分配的社会关系就在预期的干预行动中得到了再生产。从技术批判理论的角度来看,算法无疑是“装置”理论在人工智能时代的具象化体现,它显示了权力机制如何通过数据、技术与话语的集合体捕捉和引导生命,并重塑了社会结构的多维度表征。这种重塑正是“技术无意识”化的运作机制:从认知结构、身体惯习和关系生成等各方面改写了个体和集体的再生产。人工智能伦理已成为复杂适应系统的治理难题,人工智能风险已超越技术层面而转化为算法装置与社会治理体系的适配性难题。只有放弃“价值移植”的整体性静态对齐方案,转而采用动态调整的条件性治理,直面算法社会固有的系统性危机,才能既避免西方中心主义陷阱,又在具体场景中实现技术与人文的动态平衡。
〔本文注释内容略〕
吴静,南京师范大学哲学系教授(南京 210023)。
来源:《中国社会科学评价》2025年第4期P23—P32