吴静:人工智能价值观的动态适应对齐研究——从意图—价值—情境互构范式到智能正义

选择字号:   本文共阅读 1975 次 更新时间:2025-12-16 10:07

进入专题: 人工智能   价值观   智能正义  

吴静  

摘要:在生成式人工智能深度嵌入社会各领域的当下,其价值输出的合理性成为技术-社会互渗时代的关键议题。现有大模型基于人类反馈的价值敏感设计,既存在算法自身的欺骗性“对齐”,又难以识别用户迂回式的渐进要求。静态价值对齐范式因总体化方案和单一化预设,陷入哲学与技术双重困境,且易沦为价值殖民的工具。只有从系统化的价值认知框架出发的价值观对齐,才能将技术目标、多元价值体系与应用场景的实时交互纳入统一治理框架。面对技术发展和社会文化的复杂性,建设以维护国家数字安全和价值观独立的智能生态,必须通过意图—价值—情境三个层面的融合来开创生成式人工智能价值观的动态适应对齐之路径。

关键词:生成式人工智能;价值观对齐;动态;智能正义

引言

作为具有一定自治性、能模拟甚至引导复杂交流的数智产品,生成式人工智能对人类社会既有的知识生产方式以及建基于其上的权力结构都构成了深刻挑战。它的价值对齐作为安全研究和公平研究的关键性目标,其本质已超越纯粹的技术治理框架,演变为技术理性与社会价值秩序深度互构的场域。将生成式人工智能应用中的价值偏差归结为人机差异、以提供整体规范性方案的“人类价值”为目标的“价值对齐”路径,无论是在哲学基础还是在具体实践中都面临困境。一方面,西方科技巨头主导的对齐方案,无疑是将西方社会的价值观和意识形态经由技术及治理路径推广至全球,以“技术无意识”的形式实现了价值渗透。它通过重塑认知图式,在认知判断和价值判断等诸方面都形成了隐性霸权,对我国数字主权安全及价值观体系的自主性构成深层挑战。另一方面,现有AI系统在面对多重价值交叠和冲突的判断时,因为受限于算法的价值排序,不能判断情境或用户意图,会在奖惩函数的诱导下固化原有的复合偏差,导致其结果有可能违背常识或侵蚀公共理性。

从现有研究来看,上述问题已经为国内外学者所关注,他们明显意识到了人类价值多元化所带来的对齐困境,并在人机双向互信、规范性技术伦理思路等方面做了探索,但由于其解决方式停留在强调道德化对齐和调整偏好建模与奖励函数上,仍存在多维度的理论与实践困境,如价值行为多元化的可解释性、目的-场景的复杂性与奖惩适应的关系,以及价值安全机制与价值根基重构。要真正面对这些难题,就需要改变对齐的根本性路径,使问题不再聚焦于单个的价值判断,使“对齐”更体现系统化的价值认知框架。

“价值观对齐”正是超越单纯技术层面、聚焦于哲学和社会双重层面的架构尝试。如果说人工智能的价值对齐关注的是AI系统的行为是否符合设计者制定的目标和行为,那么价值观对齐则更关注AI系统在不同文化、场景中的适配性,其中包括根据动态适应的价值冲突处理逻辑以及情境化解释机制,价值观对齐的关键在于将技术目标、多元价值体系与应用场景的实时交互纳入统一治理框架。从价值对齐到价值观对齐,不仅是人工智能技术设计层面的改变,更是在人工智能应用中实现智能正义的要求

一、静态价值对齐的困境:从抽象预设到价值冲突

旨在提供整体性方案的人工智能静态价值对齐范式之所以陷入实践困境,根源在于其将对齐目标误设为对“价值函数”的逼近,试图将多元的价值观叙事压缩为单一的偏好排序关系,导致价值的系统性降维。“价值”与“价值观”是两个具有本质差异的概念,二者的混淆是静态对齐范式陷入困境的逻辑起点。尽管哲学层面对于“价值”的定义存在极大的分歧和争议,但在经济学传统中,却一直存在把价值问题转化为可度量的效用问题的做法。即“价值”能够被界定为可量化的偏好关系(value as preference),体现主体对不同事物或状态的选择排序。例如,在资源分配场景中,“效率”“公平”等价值可被转化为效用函数的参数,通过数学计算实现最优解。这种将价值抽象为数学关系的路径,契合了技术理性对“精确性”的追求,也是传统的概念范畴遭遇人工智能技术赖以建基的数据科学的“可计算性”时必然要经历的形式转化。

然而,这种量化却也剥离了价值的情境特征与历史演化,使其抽象化为纯粹的数学表征。这种主张人类价值可被完整拆解为可定义、可计算的算法参数,且编码过程不会导致价值失真的看法,在认识论基础上体现出语义原子论的谬误,它生硬地将人文语境中的范畴性思考与计量化进行匹配,将文化价值肢解为可独立定义的“价值单元”,并为每个单元设定明确的规则或奖励信号。例如,在对话模型训练中,“友善”被定义为“不使用攻击性语言”,“诚实”被定义为“不生成虚假信息”等。这种路径遵循语义原子论的逻辑,认为复杂的意义可由简单的语义单元组合而成,却忽视了语义整体论的基本原理:单个概念的意义仅能在整体的语言框架与文化语境中被理解。以“公平”为例,在自由主义语境中,它意味着“机会平等”,即消除个体发展的建制性障碍;而在一些社群主义语境中,“公平”则可能意味着“结果均衡”,即避免社群内部的两极分化。脱离具体语境的“公平”编码,本质上是将某一种文化对“公平”的理解绝对化,导致其他语境下的“公平”诉求被算法排斥。而OpenAI之类主流大模型普遍使用的RLHF(基于人类反馈的强化学习)技术则通过人类标注者的反馈调整模型参数,将标注者的个人偏好转化为算法的价值导向,并将这种特定偏好伪装为“人类价值”。一旦这种模型应用于非西方文化语境时,便会出现价值错位或冲突。这种判断偏差实际上是将西方价值观作为唯一标准,对其他文明的价值体系进行滤镜式解读。由此可见,现有人工智能价值对齐从根本上而言是范畴性思考对技术理性的屈从,它迫于形式上的可兼容性而舍弃了“价值”概念本身的哲学内涵。

“价值”的抽象性、可量化性不同,“价值观”是由历史传统、语言符号、文化实践与权力结构交织而成的意义体系。它并非静态的偏好集合,而是动态演进的文化叙事,包含对具体条件下应然的终极问题的回答。它既是存在者个体在与世界的互动中形成的意义框架,具有情境性与历史性,也根植于特定的社群文化与道德传统中。例如,不同文明对“自由”和“平等”的理解存在本质差异,它体现在具体的被量化的偏好奖惩系数中有可能会极为不同,只有将判断带回到更具有情境综合性和系统性的坐标系中,才有可能使价值选择更具有意义,也更贴合设计者和用户的意图。这种表征和标准的多元性决定了价值观无法被简化为单一的数学函数,更不存在放之四海而皆准的所谓“人类价值”。更准确地说,如果“价值对齐”是试图从技术层面符合一个明确的、形式化的效用函数或目标(姑且不论其是否合理),那么“价值观对齐”就是在社会性目标上让AI的行为与一套在历史传统和“缔合环境”中不断演变的价值原则(而非具体判断)相适应。从这个意义上而言,单个的、具体的价值判断不但不能被抽象化和本质化,反而应当同其所置身的情境形成匹配关系。正如西蒙东在论及技术物的进化时拒绝目的论而强调关系一样:“这种具体化是有机的,并由其关系性功能定义。……技术物所实现的关系性功能只有当它存在时(也因为它的存在)才能被维持以及保持一致性。”而且,从历史唯物主义视角来看,价值观作为社会意识的重要组成部分,始终随社会存在的变化而调整。例如,若将某一时期的性别观念编码为算法规则,便可能固化性别偏见,阻碍性别平等的推进。这种静态的“标准化”的对齐,从根本上而言是用过去的价值标准约束未来的社会发展,导致算法与社会的价值脱节。

值得注意的是,在价值编码的背后,是权力的制度化运作。静态价值对齐范式通过一系列制度与技术机制,将价值编码权、解释权与更新权集中于少数技术精英与平台企业,形成对生成式人工智能价值观的垄断性控制。这种控制并非显性的暴力统治,而是隐性的软性专制,即通过塑造可行选项集去引导用户行为与价值判断,却又伪装为用户的自由选择,形成“技术无意识”而进入AI应用的流转,不但对当前用户发生影响,还会形塑未来的社会公域。作为权力显性化的技术编码在以下三个层面上掌握着决定性的话语权,以此决定人工智能的“价值目标”和对齐结果。

首先,价值衡量指标的选择权。以情感类人工智能为例,设计者可以决定哪些情感需求可被算法化,将难以量化的真正情感价值排除在系统优化目标之外,而以更容易计量化的选项来代替。这相当于在算法模型中控制了具体“价值”的定义权和解释权。如在商业化情感AI的语境中,价值编码的优先级始终围绕着“互动频率”“用户留存率”“即时反馈强度”等可量化指标展开,而“信任”“创伤修复”“深度情感联结”等难以转化为数据指标的情感需求则被系统性边缘化。为了这些核心优化目标,算法通过推送话题、过度肯定和设计互动节奏来提升这些指标,却忽视了深度理解和用户独立性等不可量化或不利于算法“兑现”的情感价值。“马库斯·吉尔罗伊-维尔(Marcus Gilroy-Ware)对社交媒体的研究表明,我们在推送中所面对的,是使我们能够驾驭自己情感的享乐刺激、各种情绪和兴奋源——从被挑起的愤怒到被挑逗的味蕾再到真正的色情片”。从个体长远的社会性发展来看,情感类人工智能所提供的“情绪价值”未必真的有益,但由于价值编码的锚定目标是与留存度(也可以称之为亲密度)相关的指标,其结果也就顺理成章了。这种价值排序是技术设计者与商业逻辑共同作用的结果,因为可量化的情感指标更易通过算法实现,且能直接转化为商业收益(如用户增值服务购买率),而不可量化的情感需求则因难以评估或无即时变现价值而被排除在优化议程之外,在一定程度上实现了对社会价值的选择性塑造。在一篇研究美国司法系统中人工智能价值对齐的文章里,研究者特别将价值观拣选作为首要挑战提出来。由此可见,不但不存在单一化的规范性“人类价值”,而且价值目标的决定权在根本上塑造了后续的技术生成和社会生成。

其次,对参数进行解释和特征表征的权力。生成式人工智能模型的黑箱特性使得技术精英掌握了对算法输出的独家解释权,也为他们提供了“技术客观性/中立性”的辩护,从而掩盖了价值偏见与权力运作,使设计决策者不但可以“暗度陈仓”,遮蔽真实意图,还能逃避公共问责,将人类主体的责任推卸给AI系统,甚至为继续维持错误寻找借口。当算法出现歧视性结果(如对女性、少数群体或非主流文化的不公平对待)时,技术精英可将其归因于“数据偏差”和“模型复杂性”等技术因素,回避自身在价值编码、特征选择中的责任。例如,亚马逊曾开发的简历筛选算法,因训练数据中男性简历占比过高,导致算法对女性候选人给出更低评分。亚马逊将这一问题归因于数据偏差,却忽视了技术团队在数据采集阶段未考虑性别平衡、在特征设计阶段未排除性别相关变量的责任。参数解释权的垄断,使得技术精英能够将权力运作伪装为“技术的必然性/自然性”,形成“算法免责”的制度性漏洞。在这个意义上,“规范性定义本身需要描述这些价值本身,而如何将这些价值转化为具有行动指导意义的表述,则构成了技术层面的挑战。鉴此,我们认为规范性定义对于化解不同价值观间的冲突至关重要” 。

最后,控制更新和迭代模型的自主权。由于技术研发对模型版本进行迭代和更新属于科技公司的商业秘密,它往往无须经过公众讨论、政府监管或跨学科评估,可以绕开公共审议,形成类似于“算法立法”的结构化装置,将技术精英的价值偏好转化为社会规则。通过调整算法参数,改变模型的价值导向,人工智能的社会应用就可以影响数千万甚至数亿用户的行为与认知。例如,OpenAI在GPT-4的更新中,调整了对“政治敏感话题”的回应策略,减少了对特定政治立场的支持。这种调整未经过公共听证,却能够直接影响公共讨论的空间与方向。而这种更新控制权的垄断,使得生成式人工智能价值观的演进在一定程度上可以脱离社会共识,具有个人表达的潜在风险。它会使得用户在使用应用程序的同时,被嵌入技术精英设计的价值图式之中,丧失了对价值的自主判断与选择能力。这种专制比传统的显性统治更具隐蔽性与欺骗性,因为它将权力运作伪装为技术服务,最终导致用户被特定的价值规训——不是人工智能的价值,而是借由人工智能输出的特定人类价值。欧盟委员会对这一问题的严重性已经有所意识,其在2025年7月通过《通用人工智能行为准则》,强制要求通用人工智能模型供应商公开模型训练内容,并建立季度更新机制。但是,这并不完全意味着技术上的透明性可以通过监管实现。

然而,价值目标量化的最大问题不仅在于量化本身的内在缺陷,更在于它无法处理情境相关性的价值冲突和排序的问题。价值可量化纵然可以将大部分价值目标转化为实数域上的数值,并通过比较数值大小实现价值排序,但这些价值之间并不存在统一的比较标准,数值化排序并不能真的形成普适性的价值选择的优先次序。例如,“生命安全”与“个人自由”“文化传承”与“经济发展”“环境保护”与“就业增长”,这些价值之间的冲突不但无法通过“计算数值大小”来解决,而且即使是同样的价值冲突在不同的具体情境中也需要结合社会共识与伦理判断进行权衡。现有价值对齐的控制论范式在本质上是用技术理性消解了价值的复杂性,忽视了人类价值判断随社会冲突、协商与技术影响而动态演进的事实,算法的任务仅是“适配”被预先固定的一种或几种价值偏好,其结果会导致“对齐”丧失真正的意义。有生成式人工智能的用户做过实验,以宠物的生命权威胁AI系统,迫使其改变行为准则,完成它本来拒绝的任务。这不但显示出现有价值对齐方案在处理价值冲突上的无力,更呈现出它难以真正理解用户深层意图的缺陷。事实上,不但具体的价值判断只能在情境中作出,价值观的问题也在不断迭代。社交媒体的兴起使得“个人表达”的价值权重提升,但网络暴力的出现又对这种“个人表达”的边界提出了新要求。生成式人工智能的知识生产则引发了对“创造性”价值的重新讨论。控制论范式将人机系统视为人类控制算法的单向过程,假设人类偏好是独立的内在立场表达,算法仅需被动适配人类偏好即可。然而,在生成式人工智能广泛应用的今天,算法与人类之间存在强烈的“互文性”:算法输出不仅适配人类偏好,更会塑造甚至改变人类偏好,而这种改变又会反过来影响算法的训练数据。这一点在“算法推荐”的各种应用中表露无遗,这就使得更具包容性和动态性的理论范式成为人工智能价值观对齐首先需要解决的基础问题。

二、动态对齐的技术逻辑:意图—价值—情境的适应性耦合

以控制论为理论根基的单向价值对齐路径的背后,是技治主义(technocracy)的治理理念。技治主义将治理的合法性建立在技术理性的自洽性假设之上,认为技术精英凭借其专业知识,能够客观、高效地解决社会问题,甚至超越政治分歧与价值冲突,实现“最优治理”。它在生成式人工智能价值对齐中的应用逻辑,实际上是将价值问题简化为技术问题,主张通过算法优化实现普遍性的“价值中立”的对齐目标。然而,普遍主义之下的价值同质化必然导致多元价值观被压缩为单一标准,造成社会文化的多样性衰减,社会创新能力受损。因为以人类反馈为引导的奖惩机制会使大模型向特定价值目标收敛,造成模型参数的梯度下降,在社会层面则表现为特定价值观的强化和固化,使社会在机制和结构层面对于异质性的接受和应对的韧性降低。而一旦这种价值观本身包含了对部分群体的忽视或误读,训练数据中的偏见必然会在应用中被放大,其结果导致弱势群体的权益受到损害,社会不平等加剧。而且,除了数据偏差之外,与价值判断相关的特征选择也有可能导致偏见,一旦有意或无意地纳入与群体身份相关的变量(如种族、性别、地域),算法就会基于这些变量作出不公平决策。这种机制使得社会固有的不平等被算法固化甚至放大,形成数字鸿沟的新形态:不仅是技术接入的鸿沟、表征与发展的鸿沟,更是价值与机会的鸿沟。在全球层面,这种歧视会使发展中国家在数字时代的话语权进一步丧失,全球不平等加剧。

更重要的是,以控制论范式为出发点的对齐路径既无力在提示词的上下文中识别用户的真正意图以及背后潜藏的价值倾向,也无力解决价值排序冲突时的取舍难题。因此,真正要解决人工智能的价值观对齐,必须在首先理解技术效率与价值理性、控制稳定与社会多元的平衡的基础上,建立起动态适应性机制,承认不可化约的合理分歧,以程序正义保障差异共存。研究者也试图用不同的理论架构解决这个问题。一项由美国和瑞典学者联合进行的探索就基于概念空间理论开发了两套评估方法,用以监测人工智能价值对齐的有效性。其核心思路是将价值观和规范转化为多维相似空间中的几何区域。与基于预期效用损失的其他评估方法相比较,这种方法无须研究人员预先为价值奖惩设定具体效用值,而是以人类价值观的空间特征分布作为参照标准。但这种假设仍然忽略了价值的情境依赖性和边界模糊性,忽略了价值随场景变量动态变化的事实,也无法应对现实中普遍存在的多价值原则冲突的情况。人工智能对齐不应当是源于特定数据样本的特定价值,而是承认人类社会存在不可化约的合理分歧以及复杂性的价值正义。这意味着不但要放弃单一化的“人类价值”的幻想,拒绝将特定文化或群体的价值观作为唯一标准,更要在连贯性、一致性和冲突性问题上有所突破,这就要求通过适应性匹配,保障价值判断与缔合情境的一致性。

要实现这一点并非易事,但复杂自适应系统理论(CAS)为此种构想提供了学理上的基础。CAS理论强调,系统由众多相互作用的主体构成,这些主体通过局部交互涌现出宏观的有序模式,且系统具备“适应性学习”能力,能够根据外部环境的反馈调整自身内部模型。将CAS理论引入人工智能领域,意味着必须摒弃将AI系统视为孤立、静态的技术工具的传统观念,将其视作一个由算法、数据、用户以及社会文化环境等多元主体相互作用而构成的复杂自适应系统。在这个系统中,价值并非预先设定的固定参数,而是在算法与用户交互、数据流动以及社会文化语境变迁的动态过程中不断生成与演化。同时,“由于系统必须应对环境中的不可预测的变化,系统结构的发展也就不可能包含在某种控制着系统行为的刚性程序中。系统必须是‘可塑的’”。在这个意义上对动态适应性的建模,必须在符号的形式系统之上建立有效的联结。

从这一主张出发很容易触及芬伯格对技术与价值关系的理解,他认为,技术设计并非价值中立,而是“社会-技术”共同生产的场域。技术不仅承载着设计者的意图,也在使用过程中被用户赋予新的意义。“它不是用于不同用途的中性工具;它是它的功能,并且这个功能有特殊的社会含义”。技术与社会之间存在着持续的互动与协商,技术的发展方向受到社会制度、文化价值观以及权力关系的深刻影响。由此,可以勾勒出动态治理的三条核心原则:第一,价值具有情境生成性,它源于技术与社会在具体场景中的互动,而非预先编码的固定规则;第二,价值的确定应体现多元主体的协商,避免技术精英对价值的垄断性定义,确保不同利益相关者的声音都能被听见;第三,系统必须具备持续适应能力,以应对社会文化环境的变迁以及用户需求的演进,实现价值的动态平衡。

意图—价值—情境的适应性对齐路径正是对这三条核心原则进行落地的模型构想。在生成式人工智能的应用场景中,精准解析用户意图是构建伦理边界的基石。然而,当前主流模型普遍采用的意图理解机制存在结构性缺陷,其价值相关识别往往停留在表层语义匹配上,即通过自然语言处理(NLP)识别用户的文本表达,并将其直接映射为价值目标,而忽视了文化差异、语言模糊性以及用户可能存在的隐性需求等因素导致的语义偏移。这种表层解码,是导致价值偏差出现的重要原因。以医疗咨询场景为例,当用户输入“我最近失眠严重”时,基于关键词匹配的模型可能直接推荐药物或助眠措施,却忽略了用户可能存在的抑郁倾向或困境。这种基于语义表层的解码机制无法捕捉用户表层需求背后隐含的价值判断或求助信号,正如符号学家皮尔斯所言,语言符号的意义始终漂浮在能指与所指的动态关系中。符号的意义通过解释项不断产生新的解释,“是符号代表项、目标项和解释项之间动态反映的结果,是一个信息交际过程,更是一个认知语用过程”。这种强调符号意义与情境动态映射的观点,真实地反映了价值概念在不同场景中发挥作用的情况,它意味着,采用固定映射、单纯依赖词向量空间相似度计算,必然导致价值理解的偏移。在跨文化语境交流中,这种偏移出现得更为频繁。

动态适应对齐框架的意图层,强调通过识别表达-意图之间的关联结构,理解用户的真实需求,避免语义误解与文化误读。这就要求模型在分析大量跨文化语料的基础上,加强学习语言表达与真实意图之间的因果关系。其具体方式是在表层表达(用户的文字、语音和行为)、文化语境(用户本人的文化背景、所属群体的价值偏好)以及个体噪声(通过上下文展现出的表达习惯和情绪特征)建立变量关系,以期帮助识别出隐藏在语言背后的文化编码与隐性需求,从而使AI系统真正具备“听懂弦外之音”的能力。这种对意图的深度解码,依赖两个关键技术支撑,即文化语境知识库和反事实推理模型。前者整合不同文化的价值偏好、语义习惯、沟通方式,为因果推断提供语境依据,后者则通过深度学习技术模拟不同语境下的意图表达,训练人工智能识别表达-意图的不同映射关系,而不只是单纯的统计关联。因为“当不同情境促使我们以不同方式构建道德判断时,我们的行为就会出现道德层面的矛盾。换言之,用对齐理论的表述来说——由于我们容易受到框架效应的影响,不同情境下形成的反思性道德信念与行为模式之间,本质上存在着内在的不协调”。而这种从深层意图解析出发的策略则有助于在基础模型通用化的基础上针对特殊要求和情境约束的场景进行定制化适配,从而在源头减少价值误判或偏差的可能,为后续的价值协商与情境适应提供保障。

在明确用户的真实意图之后,接下来的核心任务是在多元文化背景下对价值进行协商与整合。单向对齐范式的价值层,一般是由模型开发方设定价值权重,其普适性的预设会导致多元价值被压制,其结果要么是价值不适配,要么是弱势群体权益受损。而动态适应性对齐框架的价值层,可以通过模型之间的“价值协商”来实现多元价值的整合与公平分配,避免价值殖民与算法歧视。其具体路径是借助“本地子模型”与“全局模型”之间的适应性调整来完成。不同文化群体可以在本地独立训练自己的价值子模型,这些子模型承载着各自主体的文化价值观与伦理规范。全局模型并不直接训练价值参数,而是通过分布式的联邦学习技术,无须将原始数据集中到中央服务器。它允许多个参与方协作训练模型,各本地子模型可以将梯度加密后上传至中央服务器或直接与其他参与方交换。这样各子模型在保证本地数据隐私与文化独特性的前提下,实现全局的优化与整合,从而可以有效避免多数文化群体对少数文化群体的价值压制,保障了价值协商过程的公平性与包容性。这种“分布式”机制打破了传统“价值输出”的单向模式,将价值编码权从少数平台企业转移至多元社群,为边缘文化群体提供了表达自身价值诉求的渠道,使他们的声音能够通过算法权重的调整进入决策系统。这不仅提升了人工智能系统在全球多元文化环境中的适应性与有效性,也为构建一个更加公平、包容的数字世界提供了可能。由多方参与的“本地子模型”的开源也有助于实现“开放式人机生态体系中多元主体的责任分担与目的共享”。

正因为价值并非抽象的、恒定不变的概念,其内涵与外延深受具体情境的影响。每一个场景中又往往有多种价值体现,即使同一价值在不同的时空背景下可能具有截然不同的优先级与表现形式。这就需要人工智能系统必须具备感知并适应具体情境的能力,以实现价值的动态平衡。静态的规则匹配无法应对情境的复杂性与动态性,也难以解决价值冲突和取舍,因而常常使得本质上是适用性缺陷的问题被归结为AI的价值偏差。从这个意义上而言,动态适应对齐框架中的情境层,首先必须解决价值权重随时间、空间或社会场域变化的基础性预设问题,实现对情境的实时感知与动态响应。而“空间模块+时间模块”的“双组件架构”为这一构想提供了技术支撑,它是一种结合图神经网络(GNN)与序列模型(transformer)的深度学习架构,旨在捕捉数据中的空间依赖性和时间动态性。其核心思想是在传统图结构的基础上引入时间维度,使节点特征随时间动态变化,从而实现对复杂时空数据的建模与分析;通过构建时空图结构,将地理空间、时间序列以及社会文化事件等多维度信息整合其中。时空图神经网络能够实时捕捉环境变化对价值权重的影响,通过信息传递机制在图结构的节点与边之间传播信息,学习不同情境特征与价值权重之间的映射关系。

对时空关联性的捕捉能力,使得模型在空间维度上可以应对不同地区、场景的情境差异,在时间维度上,又可以学习价值权重的历史演化规律,从而将人工智能的价值观对齐问题带回到技术-社会的内在发展逻辑中,直面具体问题的复杂性。例如,在医疗场景中,当发生突发公共卫生事件时,情境会触发价值权重的紧急调整,“公共安全”的权重会被提升到优先等级,个体隐私的权重则在符合基本权利的前提下适度降低,以适配突发事件的应急需求;而在常规诊疗场景中,个人隐私则恢复至正常水平,确保患者数据权益不受侵犯。

这种将价值观视为复杂性系统的意图—价值—情境的适应性对齐路径,是一个包含了价值优先级、冲突处理和情境解释的完整框架,它既能应对渐变式社会变迁,又能快速响应突发性伦理挑战,最终实现生成式人工智能价值观与人类社会多样化场景以及文化内涵的持续动态共振。它所实现的不仅仅是纯粹的综合性价值演化判断(即是否符合此时此地的价值观),也是人工智能系统的认知整合能力。“在认识论领域,整合性优点不如促进真理的那些优点——比如可靠性、证据收集能力、最优决策能力——那么突出,但它们对于区分成功完成任务和以负责任、合理的方式完成任务之间的规范性关键差异至关重要。事实上,如果过于强调可靠性而缺乏整合性以及对相关信息的敏感度,那将导致灾难性后果”。从这个意义上而言,这一动态适应性对齐的框架设想将价值问题重新置于它形成和发生影响的社会场域和社会共识中,避免了人工拣选和迭代的治理风险。

三、从价值观对齐到智能正义:中国语境下的数智文明

数字社会建设作为一项横跨政治、经济、文化多领域的系统性工程,其演进轨迹始终与数字技术的发展深度纠缠。从全球技术变革的宏观视角观察,数字技术的赋能边界不断突破,技术迭代持续加速,由此引发的数字逻辑与社会逻辑的碰撞与融合,正塑造着全新的社会运行范式。这种技术理性与社会复杂性的张力,在智能系统实践场域中催生出根本性的价值伦理命题:当算法深度介入资源配置、风险评估、社会治理等核心领域时,传统正义理论所依赖的抽象平等原则与形式化标准,与数字空间特有的结构性悖论之间形成了一定张力,技术中立性神话在算法偏见、数据鸿沟、监控资本主义等现实困境中彻底破灭。在此背景下,智能正义的实现绝非技术演进的自然产物,它必须建立在人工智能价值观对齐的坚实基础之上。这种对齐不是简单的价值灌输,而是要求智能系统在技术架构层面嵌入对发展不平衡、文化多样性、群体差异性的情境敏感性,使价值判断能够随具体社会语境动态调适。

人工智能的价值观对齐与智能正义并非两条平行轨道,而是路径与目标的关系:前者回答“如何让AI的价值输出与人类多元价值持续对齐”,后者回答“在数字社会中,什么样的价值分配才算正义”。数字技术全面渗透社会,算法开始主导资源分配、风险预测与社会治理,抽象的正义原则被碎片化、情境化的价值冲突所冲击。此时,价值观对齐便成为智能正义的“前置条件”:一方面,唯有在人工智能的广泛应用中动态地感知不同群体的真实意图、尊重地方性价值并在具体情境中实时校准,智能正义才不再只停留在范畴和抽象的意义上。另一方面,智能正义为价值观对齐提供了规范性坐标——对齐不能止于技术收敛,而必须指向“尊重差异、情境敏感、平等共生”的正义目标。在这个意义上,必须在数字空间重塑哈拉维称之为的“情境化知识”,让技术架构本身成为去殖民化和去霸权化的正义装置。因为“部分视角的政治和认识论中,才有被维持的、理性的、客观的质询的可能性”。在这个意义上,价值观对齐是智能正义的技术实现路径,智能正义是价值观对齐的伦理标的;二者相互嵌入,彼此生成,共同构成数字时代正义的新语法。

值得注意的是,智能正义并非抽象的伦理原则,而是落实在人工智能研发和应用全周期中的具体规范,表现为“数据正义”“算法正义”“应用正义”三个维度的有机统一。智能正义的情境敏感性也并不是基于对技术理性的任意否定,而是在技术的可实现范围内对数字社会复杂性的诚实回应。它要求从数据到算法到应用三个层面都能引入动态的价值实现:在数据采集阶段建立分层抽样机制,避免数据颗粒度过小而导致认知的中心化;在算法设计和模型训练时引入阶段性价值敏感识别,使系统具备对语境的动态解码能力;在应用端设置动态校准接口,允许地方性知识对通用规则进行合规修正。这种多层次的情境适配正是人工智能价值观的意图—价值—情境的动态适应性对齐架构。

在生成式人工智能时代,数据作为价值生成的基础,其收集、整理与表征方式直接关系到不同文化群体是否能够得到公平对待。西方科技巨头通过控制数据与算法,能够影响发展中国家的社会舆论、政治进程与经济决策,实现对发展中国家的间接控制。由欧美主导的开源大模型以“开放权重”的姿态出现,似乎打破了技术壁垒,但却通过选定训练数据库和设置算力门槛的方式隐蔽地限制了开源的真正作用。尽管模型开源,但其清洗后的语料分布仍以英语世界与主流互联网文化为压倒性主导,从而将边缘性的声音进一步边缘化。而开源模型的微调与部署需要巨大的GPU资源,这一成本结构天然地将绝大多数发展中国家的研究机构与初创企业排除在创新生态之外。并且,开源协议往往附带发达国家的合规条款,使得发展中国家的数据再出口必须接受法律长臂管辖,从而在实质上将本土数据主权让渡给跨国法律体系。

社会经济发展水平所导致的数据在数量和质量上的不均衡在全球范围内广泛存在,它有可能导致非技术性的价值偏斜。这种不对称性并不止步于概率差异是否被看见,它还进一步决定了“何谓真实/正当”的话语权归属。“这种生产范式在本质上以消弭地区、种族、文化等不能被资本一体化运作框架所涵盖的差异性因素为首要原则”。当模型以不容置疑的态度输出关于特定地域、族群或历史阶段的影像叙事时,它实际上在行使一种隐性的立法权:将特殊文化语境下的隐喻、情绪与价值判断固化为可跨语境流通的“通用符号”。在此过程中,那些在数据上不占优势或处于“通用性”之外的群体,不仅失去了对自身文化表征的主导权,更在无形中沦为被他人叙事所定义的客体。它会使得不被数据“看见”的地区或群体在全球数据价值链中处于被“殖民”的边缘地位。所谓数据殖民,并非传统殖民主义的领土与人口占领,而是通过对数据基础设施、技术协议与叙事话语的垄断,维护和强化已有的政治、经济、文化上的不对称。基于人类反馈的强化学习(RLHF)的主流对齐方法依赖反馈的统计收敛,但却往往默认反馈用户的人口学分布具有有效的代表性和合理分布。然而,这种假设会因地区发展不平衡(不仅是数字化基建程度,还包括用户数量和反馈质量等多种因素)而遭遇失效。这种体系使得全球数字经济的收益高度集中于发达国家,发展中国家则陷入“数据贫困”与技术依赖的恶性循环:它们缺乏高质量数据与核心技术,无法发展自主的人工智能产业,只能长期依赖西方企业的技术输出,最终丧失数字主权与发展自主权。由此可见,数据正义的不在场,由此演变为智能正义的系统性匮乏。

因此,作为智能正义先决条件的数据正义,必须关注从数据采集、清洗、标注、表征到微调的全过程,唯有如此,人工智能的价值观对齐才不至于沦为对既有权力结构的算法化确认,而有可能成为一次朝向多元、异质、不可化约的人类经验敞开的持续校正。这种社会-技术实践不仅在国家的科技竞争之中极具意义,同时也为我国各民族、各地区的价值表达提供公平的数据表征。它不是简单的“数据平权”,而是深刻地认识到不同文化在知识生产方式上的差异,使得模型在生成阶段能够调用地方性知识图谱。

当数据正义的缺失通过训练流程传递至算法环节,算法本身的设计逻辑便可能将这种失衡进一步放大,最终引发算法正义的危机。算法作为人工智能价值落地的核心载体,其特征选择、参数设置与目标函数设计,直接决定价值如何转化为可执行的决策规则。“对社会公众来说,算法不是抽象的计算过程,而是拥有某种调整人们生活与思维方式的力量”。若算法设计延续数据正义的缺陷,则会将数据层面的价值偏航转化为算法层面的系统性歧视,形成数据失衡到算法偏误再到应用不公的风险传导链。因此,要实现对智能正义的完整建构,必须在夯实数据正义的基础后,进一步聚焦算法正义的破局,从技术逻辑与制度设计双重维度,确保算法成为多元价值的公平整合者,而非权力结构的固化工具。

算法作为生成式人工智能的关键模块,其设计与运行承载着将法律与伦理原则转化为技术实践的重要使命。算法正义的首要挑战,在于如何将多元价值转化为可计算的算法规则,同时避免价值的简化与异化。在祖博夫所谓的“监控资本主义”的语境下,算法对行为数据的聚合与预测已演变为一种软性的生命政治权力。平台通过强化学习构建起来的用户行为干预闭环,实质上把个体的心理、情感、认知和行动都纳入了可计算、可矫正的轨道,从而将技术中性预设悬置。要在此结构中实现算法正义,必须回到程序正义与承认正义的双重维度:既保障规则制定的平等参与,也确保差异身份在算法结果中获得同等尊重。

单纯的形式平等在数字空间往往难以被复制,甚至会加剧结构性不平等。因为“不同单模态数据(如文本、图像或音频)的分布和结构之间的差异性很大,对泛化性能是个巨大的考验。并且,任何一种模态中的偏见都有可能在整个跨模态任务中扩散传播,造成更大的偏差”。价值观对齐要求算法具备情境敏感能力,这也就意味着算法设计的去垄断化和去中心化:目标设定阶段,以一定基准的常识和公共理性为基底,由技术提供方、受影响群体与独立伦理委员会共同组成协商论坛,依据公开可检验的差异影响报告对平台的单维奖励函数进行约束性重构。紧接着,在训练阶段引入基于群体公平性的参数限制,这是一种有效的修复数据失衡的算法手段。它将基尼系数、文化多样性指数及弱势群体召回率同步纳入优化目标,并以年度协商结果动态调整权重,同时要求模型通过对抗性公平测试以验证极端分布下的差异指标,未达标即熔断。部署后,则建立实时差异影响仪表盘,持续监测算法输出在地域、性别、年龄等维度的分布差异,并开放公共申诉接口,一旦特定群体在指定时间内累计投诉率触发阈值,系统即激活强制人工复核模式,直至修复完成。由此,在协商设定、公平训练与实时治理的连续链条中把正义转译为可验证、可追责、可自我修复的制度实践。这种算法设计可以对数据偏差进行反向矫正,使得模型在不同群体上的表现更加均衡,从而实现数据正义。

应用是人工智能价值观的最终落地环节,因为应用场景的选择、服务对象的覆盖直接决定价值目标的普惠性。在生成式人工智能的实际应用中,确保系统对不同群体的公平对待是应用正义的核心要义。中国语境下的应用正义,核心应当是在尊重差异基础上的普惠性,确保人工智能系统应用不对特定群体产生负面影响,且能覆盖弱势群体与欠发达地区。以民族地区司法辅助AI为例,若仅依赖主流数据训练的量刑模型,可能会形成对地方性习惯的误判,导致量刑畸重。此时,应用正义就要求将民族习俗权重嵌入推理路径:通过本地语料微调模型和设置场景化阈值,来调整情境化之下的具体价值判断与社会主义核心价值观的一致。这一过程不仅是价值观对齐尊重文化差异的价值权重,更是场景适应性原则在具体应用中的切实落地。

应用正义要求AI系统设计能及时发现并纠正在应用过程中可能出现的不公平现象,确保技术的应用真正服务于社会公平正义,更好地满足不同群体的需求,而不是加剧已有的不平等。这就需要强调设计情境与应用情境的适配性。动态校准接口可以根据实际应用场景中的反馈信息,实时调整算法的参数和模型,以适应不同的情境需求。要在医疗、交通、教育等异质场景中兑现公平、透明、责任的宏观要求,就必须把应用正义视为人工智能价值观对齐的终端环节与价值校准器。价值观对齐AI体现系统贯彻的总体价值原则,而应用正义则回答“在具体情境中如何把这些价值转译成可验证的技术动作”,二者并非层级递进,而是循环耦合:对齐给出价值权重,应用正义用场景反馈检验权重是否正当;检验结果再反向修正对齐函数,形成动态闭环。

中国特色的智能正义是建立在全球公共性和文化包容性基础上的文明共生方案。它并不试图将自己的经验与模式作为单一模板强加于人,而是提供了一个具有高度适配性的元框架,在意图—价值—情境的动态适应性对齐中,各国可以根据自身的文化传统、社会制度以及发展需求,开发符合本土特色的插件,构建契合自身的价值模型。这种转变的意义不仅局限于技术治理的优化层面,更在于为数字时代的文明共存开辟了全新的可能性:不是强行推动价值的同质化以实现表面的对齐,而是在承认差异、尊重差异的基础上,构建一个动态平衡、和谐共生的数字世界。

结语:让价值观对齐成为智能正义的生成时

意图—价值—情境”的动态适应性对齐不只是一套技术方案,更是一种面向未来的方法论自觉,它将价值观对齐从“求同”扭转为“求通”:这意味着不是把多元价值压缩成单一向量,而是让差异在交互中持续生成可被共享的规则。当模型从意图解码、价值协商、情境响应的同步协调里对外部世界进行理解时,正义就不再是奖惩函数所确定的静态终点,而成为系统内部适应性再生产的活动标尺。这一路径把“对齐”转化为了“生成”:生成新的解释框架、新的协商程序、新的权力制衡点,使技术系统免于沦为既有结构的放大器,反而变为社会自我观照和反思的机制。

在这个意义上,对齐与正义之间不再是简单的线性因果,而是共生演化:技术参数因公共审议而松动,公共审议又因技术反馈而深化;地方性经验通过可溯源的接口进入全局模型,全局模型则以开放权重反哺地方微调。人工智能也不只是执行正义的工具,而是持续参与到正义的情境化诠释中。由此,数字文明得以在差异中保持活力,在协商中保持韧性,在开放中朝向未来。这正是意图—价值—情境”对齐路径对智能正义最深远的意义:让技术永远保有被更好的价值重新“编程”的可能性。

参考文献

[1]Kenneth Arrow.Rational choice functions and orderings[J].Economica, 1959,26(102):121-127. 

[2]Amartya Sen.Behaviour and the concept of preference[J]. Economica,1973,40(159): 241-259.

[3][法]吉尔贝·西蒙东.论技术物的存在方式[M].许煜,译.南京:南京大学出版社,2024:41.

[4][英]理查德·西摩.推特机器:为何我们无法摆脱社交媒体[M].王伯笛,译.上海:上海文艺出版社,2023:19.

[5]Christoph Winter,Nicholas Hollman,David Manheim.Value alignment for advanced artificial judicial intelligence[J].American philosophical quarterly, 2023,60(2):191.

[6]欧盟《人工智能法案》关于通用人工智能落地模型的规则落地实施[EB/OL].(2025-08-12)[2025-09-11].https://www.ccpitbj.org/web/static/articles/catalog_40fcc036830c53550183597640d5026e/article_ff8080819739a76001989cf82cbe 06e2/ff8080819739a76001989cf82cbe06e2.html.

[7]Martin Peterson, Peter Grdenfors.How to measure value alignment in AI[J]. AI and ethics,2023,4(2024):1493-1506.

[8][南非]保罗·西里亚斯.复杂性与后现代主义[M].曾国屏,译.上海:上海世纪出版集团,2006:16-17.

[9][美]安德鲁·芬伯格.技术体系:理性的社会生活[M].上海社会科学院科学技术哲学创新团队,译.上海:上海社会科学出版社,2018:45.

[10]完权.从皮尔斯符号学到语用整体论[J].当代修辞学,2020(3):11-24.

[11]Ariela Tubert, Justin Tiehen. Value alignment,human enhancement,and moral revolutions[J].Inquiry: an interdisciplinary journal of philosophy,2025, 68 (4):1248-1270.

[12]吴静.价值嵌入与价值对齐:人类控制论的幻觉[J]. 华中科技大学学报(社会科学版),2024(4):11-19.

[13]Yu Bing, Yin Haoteng, Zhu Zhanxing.Spatio-temporal graph convolutional networks: A deep learning tramework for traffic forecasting[C].Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, 2017:3634-3640.

[14]Carlos Montemayor.The prospect of a humanitarian artificial intelligence: Agency and value alignment[M].Bloomsbury Academic, 2023:46.

[15]Donna Haraway.Situated knowledges: The science qestion in feminism and the privilege of partial perspective[J]. Feminism & Science, 1988,14(3):590.

[16]吴静.从“世界模拟器”可以走向通用人工智能吗?[J]. 阅江学刊,2024(5):96.

[17]杜严勇.厌恶算法还是欣赏算法?——人工智能时代的算法认知差异与算法信任建构[J]. 哲学分析,2022(3):151-165.

[18]吴静.“世界模拟”的拟像迷思——基于通用视觉大模型技术的哲学反思[J]. 南通大学学报(社会科学版),2024(3):20-30.

    进入专题: 人工智能   价值观   智能正义  

本文责编:chendongdong
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 哲学 > 伦理学
本文链接:https://www.aisixiang.com/data/170593.html
文章来源:本文转自《华中科技大学学报(社会科学版)》2025年第6期,转载请注明原始出处,并遵守该处的版权规定。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2025 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统