闫坤如：人工智能对齐的哲学困境及其出路

闫坤如，华南师范大学哲学与社会发展学院教授、博士生导师。

[摘要] 人工智能对齐问题是人工智能技术发展的核心问题，它涉及对生命本身和人类主体性的深刻反思，也涉及对人工智能技术发展前景的哲学审视。随着人工智能技术的发展，如何让人工智能符合人类价值观，既是应用伦理学面临的新困境，也是需要从技术哲学层面深入思考的问题。人工智能对齐的概念尚无统一标准，我们应当在对人工智能对齐概念进行澄清的基础上，分析其“机器向人”的逻辑维度、伦理向度、行动导向性以及动态干预性等哲学本质特征；解决人工智能对齐场景落地面临的事实判断与价值判断的哲学困境，跨越人工智能对齐的“实然—应然”逻辑鸿沟，把人类价值观和伦理规范转变为具体的技术标准；充分考虑个体偏好、群体价值和伦理共识；通过分析不同维度和层面的人类价值追求，揭示人工智能对齐的底层逻辑，才能真正实现人工智能对齐，保障人工智能安全可靠发展。

[关键词] 人工智能对齐机器向人价值观对齐 “实然—应然”逻辑鸿沟

人工智能技术的应用改变了人类的道德观念和人类传统认知方式，但技术的不确定性、算法黑箱等因素又带来了失控的风险。人类就像“魔法师的学徒”一样，既想利用人工智能技术的超能力量，又担心其自主性给人类带来灾难，因为“能对环境和其他物种进行控制是我们使用智慧的结果，所以一想到其他比我们更聪明的东西，无论是机器还是外星人，我们就会立刻产生一种不安的感觉。”^[１]为保证人工智能使用的安全可控，学界提出“人工智能对齐”（AI Alignment）这一新术语。对其进行概念澄清、本质特征分析，是人工智能安全可控发展的时代之需和当务之急。

一、人工智能对齐的概念澄清

人工智能对齐是技术哲学和人工智能伦理研究面临的新问题。我们通过梳理学界对这一问题的研究，澄清人工智能对齐的概念内涵，为人工智能对齐的本质分析奠定基础。

（一）人工智能对齐的研究缘起

人工智能对齐的研究，始于对自主性机器应用的担忧。图灵在《计算机器与智能》中表达了对人工智能技术快速发展的忧虑。^[２]尼克·博斯特洛姆指出，“人工智能系统的核心特征是获知能力”。^[３]人工智能技术的发展目标是获得与人类一样的智能，其主要评估指标是效率和速度，而非系统的安全性和可靠性。人工智能具有自主性强、运行效率高、精确度高等特征，能同时完成多模态、多线程任务，而人类受大脑容量和生理结构限制，运行速度和准确性相对较低。通用人工智能（AGI）具备更强的自主性和自我决策能力，可能颠覆人类伦理规范和价值观，不可逆转地破坏既有社会规则和道德约束。若人工智能发展方向与人类目标不一致，不仅可能影响人类的生产、生活，还可能造成技术失控甚至颠覆人类文明的严重后果。因此，让人类有效利用人工智能技术、保障机器使用安全，推动人工智能按照人类目标行动，成为当务之急。为了让人工智能发展与人类的目标相一致，学界提出“人工智能对齐”概念。它关注的核心问题是“如何协调自主和能力越来越强的机器的语言行为符合人类利益。”^[４]学者们从不同视角关注人工智能对齐问题，并对其进行概念界定。例如，尤德科斯基提出，“人工智能的目标是最大限度地实现人类价值”；^[５]亨德里克斯等提出人工智能对齐应该与人类价值观相联系，“通过在开放世界的场景中建立道德基础，我们要求模型学习世界的基本事实如何与人类价值观联系起来。”^[６]《人工智能对齐综述》总结和概括了学界关于人工智能对齐的不同路径和不同观点。^[７]不论是学界学者还是业界专家，都关注人工智能对齐问题，但对其的理解和阐释尚未达成共识。澄清人工智能对齐概念，是实现人工智能对齐的第一步。

（二）人工智能对齐的概念澄清

“对齐”（Alignment）概念源于词根Align，而Align内涵为校准；排整齐；（尤指）使成一条直线；使一致、使结盟、校正的意思；特定的文档的排列模式，如word文档的左对齐、右对齐等。根据词根的定义，Alignment的词义为结盟；协调，一致；校准等，^[８]其本义表示对齐的行为或被对齐的状态，特别是机械或电子设备等零件相对于彼此的正确定位或调整状态。“对齐”的意思是将两个或多个机器部件排到正确的位置。在日常生活中，“对齐”表示让物品排列整齐；在工业领域，各个部件对齐可以保证设备正常运行；在计算机和人工智能领域，“对齐”即指算法布局整齐。学界对“人工智能对齐”有不同的理解。例如，雷克、克洛格等人认为，人工智能对齐是让人工智能的行为符合人类目标和价值观，^[９]即保证机器目标与人类目标相一致。也有观点认为，人工智能对齐的实质是意图对齐，即人工智能的意图符合人类意图。加布里埃尔提出，“为了成功地与人类的意图保持一致，人工智能需要能够理解人类偏好与价值观”。^[１０]“人工智能机器具有意图”这种观点把人工智能机器视为智能体（agents），但事实上，当前人工智能技术水平仍停留在满足人类意图的工具阶段，其将来能否具有智能体地位，仍是一个值得探讨的哲学问题。

如果把人工智能对齐理解为机器与人类意图对齐，那么需要明确：人类意图指的是个体在特定情境下，基于自身需求、经验和价值观，想要达到某种目的的想法或愿望，而“由于人工智能系统不断收集数据、进行数据挖掘并利用经验来提高性能，它们可能会大大偏离其程序员设定的标准。”^[１１]人工智能未必按照人类意图行事，主要原因有以下几点。第一，人工智能系统具有自主性，能够独立感知、决策、学习、执行和交互，并在复杂环境中自适应调整行为，这种自主性体现在对设计者意图的偏离。第二，人工智能的技术及其应用场景的复杂性、目标的多元化等因素，使得人工智能系统及其行为无法完全符合人类意图。第三，人工智能系统具有数据依赖性。人工智能技术的核心要素是数据、算法，其发展高度依赖数据。如果数据代表性不足或者存在历史偏见，人工智能系统可能偏离人类意图。例如，在招聘场景中，因为标注数据或者分析数据不同，系统可能歧视特定群体，违背公平招聘的人类意图。又如DeepSeek因数据偏差、知识固化或者意图误解引发“AI幻觉”（AI Hallucination），使得AI行为偏离了用户指令和人类意图。因此，人工智能对齐不能简单等同于意图对齐，其核心应是让人工智能的发展目标符合人类价值观和人类发展的目标。

（三）人工智能对齐的本质内涵是符合人类价值观

人工智能对齐指机器与人类的价值目标一致，符合人类的价值观，及其系统行为与人类价值观和道德原则保持一致，以确保这些系统在可接受的社会规范内运行。人工智能对齐不能偏离人类目标，“人工智能只能追求有益于人类的目标，而成功的价值整合应该确保人工智能或通用人工智能不会做出伤害人类的行为，无论是有意还是无意。”^[１２]如果人工智能与人类价值观不一致，则会导致以下后果：人工智能行为在多种设定目标冲突时难以作出正确决策，进而损害人类利益，甚至脱离人类控制等。人工智能凭借高度优化的机械功能和超强智能，满足人类需求和欲望，并最大限度地实现人类价值。人工智能对齐不仅要求机器符合人的意图，更是以达到人的价值目标为落脚点。就这个意义而言，不管是意图对齐还是目标对齐，都指向机器符合人类的价值目标。简言之，人工智能对齐就是让机器的行为符合人类的价值观，从伦理维度可将其界定为“人工智能价值观对齐”（AI Values Alignment）。人工智能专家罗素提出，“建立与人类价值观对齐的自治系统。”^[１３]布莱恩·克里斯汀将“人工智能对齐”进一步界定为“确保这种模型捕捉到我们的规范和价值观，理解我们的意思或意图，最重要的是，以我们想要的方式行事。”^[１４]按照罗素和克里斯汀的观点，人工智能对齐本质上是让智能机器的研发和使用符合人类价值观，并非让机器具有与人类一样的价值观。机器是否具有主体地位、能否形成自身的价值观，目前仍是未有定论的哲学问题。人工智能对齐是让机器遵循人类伦理规范、符合人类价值观，其伦理向度本质上就是人工智能价值观对齐。

二、人工智能对齐的哲学本质分析

对人工智能对齐进行概念澄清后，还需进一步把握其本质特征，即从逻辑维度、伦理向度、目标导向性等层面理解人工智能对齐的哲学内涵，才能为人工智能对齐的理论基础和哲学分析提供前提支撑。

（一）对齐具有“机器向人”的逻辑一维性

人工智能对齐的维度具有单向性，表现为“人工智能机器指向人类”（以下有关表述，简称为“机器向人”或“人向机器”）的一维目标对齐，而非“人向机器”的对齐。人工智能对齐并非要求人类与人工智能的目标对齐，更不意味着人类符合人工智能的发展目标、人类被人工智能控制——人工智能本质上是实现人类目标的工具。因此，人工智能对齐的目标指向具有明确的单向性，核心是人工智能向人类目标对齐，确保人工智能技术发展符合人类意愿，遵守人类的伦理规范、符合人类价值观。

“机器向人”的单向对齐，并不否认人类道德标准会随着人工智能技术的使用而发生变化，这与人工智能技术发展推动人类价值观或者人类道德的进步。人工智能技术的发展可能引发伦理变革——改变传统的伦理观念和伦理规范，也催生新的伦理问题。例如，人工智能技术发展带来的数据隐私问题重塑了相关伦理认知，同时引发数据鸿沟、算法偏见与歧视等新的伦理问题；此外，人工智能机器是否享有权利、人工智能机器决策的责任归属等问题，也成为亟待回应的新伦理课题。可见，人工智能技术会对社会价值观产生深刻影响，推动人类价值观的动态重塑，人类的伦理规范、道德观念虽会随人工智能技术发展而发展，但人类的价值观、伦理秩序具有相对稳定性，每个时代都存在占据主流地位的价值观和伦理规范，而人工智能对齐应以当前的主流价值观为伦理规范。人工智能对齐不是“人向机器”的对齐，而应将其理解为人工智能可以通过自主学习人类价值观，其行为也必然符合人类价值观，但不意味着人工智能能像人类一样具有道德主体地位。正如迪格纳姆所言：“事实上，任何智能人工物——无论多么先进和复杂——都不应该被称为原始哲学意义上的‘自主’，因此它永远无法被赋予与人类相同的道德地位，也无法继承人类尊严。”^[１５]道德主体的形成离不开自我意识、自由意志，具有鲜明的历史性、社会性等特征，而人工智能机器不具备这些条件。综上所述，从人工智能机器不具有人类道德地位的本质出发，人工智能对齐的一维指向性已然明确：它只能是“机器向人”单向对齐，而非“人向机器”对齐，更不可能是“机器”与“人”的双向对齐。

（二）人工智能对齐的目标是人类价值观

人工智能对齐的目标是符合人类价值观，其核心表现是机器与人类的价值目标保持一致，而非要求机器具有与人类同等的道德推理、道德判断能力或遵守共同的道德规范。这构成了人工智能对齐的伦理向度，也由此引发了一个哲学追问：人工智能对齐的客体到底是人类价值，还是人类价值观？人类价值包括工具性价值和内在性价值。其中，工具性价值是指人作为实现其他目的、达成其他价值的手段或工具而被赋予的价值，体现为“工具”属性带来的社会效用。它既包括效率高、精准度高等技术性价值，也包括效益高、利润高等经济性价值，还包括为他人提供情感慰藉、陪伴交流等情绪价值。内在性价值则是人类固有的生命尊严、自由、平等等绝对价值，它源于个体独特性以及与内心世界相关的价值观和信念，是人类的先天潜能，需通过后天学习得以发展和巩固。人工智能仅具有工具性价值，并不拥有人类特有的内在性价值。即便人工智能的工具性价值在某些领域超过人类，也无法对齐人类的内在性价值，这是由人工智能的技术本质与人类的生命本质差异所决定的。

价值观则是指一个人或一个群体对于存在意义、生活目标和道德标准的基本看法和信念系统，是区分好坏、善恶的总体观念，也是关于应该做什么和不应该做什么的基本原则。价值观包括不同层面的内容：在个人价值观层面，它涵盖个人道德观念、人际价值、生活目标等个体偏好；在社会价值观或者群体价值观层面，它涵盖道德和法律价值观、责任、平等与公正、环境和可持续发展等社会伦理规范；在价值共识层面，它包括人类普遍认可的自由、尊严、福祉等价值观，以及更为基础的伦理原则。

通过对比价值和价值观可以看出，价值观是人类特有的属性，人工智能对齐只能是“机器向人”的价值观的单向对齐，人工智能应根据人类的个体价值偏好、社会伦理规范以及价值共识等作为其对齐的伦理标准和道德规范。人工智能不可能对齐人类的内在性价值。人类的内在性价值是由人的本性派生的先天能力，人工智能作为机器既不可能具备、也无法对齐这一价值。同时，人工智能对齐中应坚守人类的主体性地位，维护人类的内在性价值。因此，人工智能对齐只能对齐人类价值观，而非人类价值。

（三）对齐具有行动导向性

人工智能对齐旨在保障人工智能技术研发和使用的安全性和可靠性，这要求其不应停留在理论探讨层面，而要贯穿于人工智能技术应用和发展的全过程。技术具有目的性和意向性，技术发明是为了顺应人类的意志，满足人类的愿望，人工智能对齐就是要求人工智能技术发展不能违背人类的意志和愿望，确保人工智能系统的安全应用。因此，对于人工智能对齐的研究不能停留在理论层面，不能局限在对其伦理规范的内涵澄清和理论阐释，而应该诉诸行动。所以，人类不能局限于理论层面探索人工智能行为是否符合人类价值观，还必须付诸行动引导和规范人工智能向善，推动人工智能系统按照人类价值观和道德规范进行推理，并根据人类价值观采取行动、作出决策，同时证明其决策的合理性。人类作为人工智能技术的发明者和使用者，不能对人工智能行为置若罔闻或袖手旁观，而应评估其可能带来的后果，对其行为进行前瞻性评估；人类更应该有目的、有意识地把伦理规范转化为可操作的具体技术步骤，将其嵌入人工智能技术中，并把符合人类价值观作为人工智能技术发展的目标、机器行动的指南和伦理治理的方向标，将其贯穿于人工智能设计、应用等全过程。

（四）对齐是人类动态干预过程

人工智能对齐旨在使机器达到人类所期望的目标。人工智能技术的应用过程需要人类不断调试、纠偏、校准。“对齐”本身就有“调试、校准”的含义，即人类不断校准人工智能发展方向，避免其偏离人类价值观。这一过程需要人类对人工智能技术运行进行道德干预（Moral Intervention）。道德干预是指指导和纠正有害于他人或社会利益的道德行为，力求防止不道德行为发生的过程。人类是道德干预的主体，对偏离人类价值目标的机器进行干预乃至中止其行为，从而保障人工智能不偏离人类的价值目标。“人们可以将理想的人工智能系统设计，视为整合了道德规范的系统架构，并允许验证它在特定情况下的表现，而不仅仅是当它威胁到故障时可以被阻止。”^[１６]人类通过给人工智能机器嵌入道德规范指令、对其行为进行控制等方式，校准人工智能目标，使之与人类根本利益保持一致，确保人工智能追求与人类价值观相匹配的目标。人工智能机器的研发和应用，并非天然与人类价值观是对齐的，有时会出现一定程度的偏离，偏离了人类的初始意愿或者最终价值目标。人工智能系统也可能因指令误解、识别或者判断失误，产生偏离人类价值目标的后果。人工智能对齐需要一个持续校准的过程，在不断地调试和纠偏中，最终实现与人类的价值目标对齐。由此可见，人工智能价值观对齐不仅关乎结果，更关乎过程，是一个动态校准的过程，而非静态的结果。人工智能对齐的实质，是人类运用技术手段确保人工智能技术发展符合人类的价值观，由人类决定人工智能技术的发展方向和应用边界，保障人工智能的安全发展。安全是人工智能对齐的逻辑起点，也是人工智能对齐的动态目标。只有通过人类的动态干预，保证人工智能的可控性、可靠性和可信任性，才能保证人工智能技术发展始终符合人类价值观，这才是人工智能技术发展的目标。

三、人工智能对齐的哲学困境

人工智能对齐作为人工智能技术发展的目标，如何把伦理规范转化为技术设计标准，既是一个技术性问题，也是一个规范性问题。这个问题可以追溯到哲学史上的“休谟断头台”（Hume’s Guillotine），即“实然”与“应然”问题。我们通过分析人工智能对齐的哲学困境，为其发展指明出路。

（一）人工智能对齐遭遇“休谟断头台”

大卫·休谟在《人性论》中提出“实然”与“应然”问题，这是西方哲学对事实陈述和价值判断作出逻辑区分的经典问题。事实陈述描述世界的实际状态，如“人工智能是模拟、延伸和扩展人类智能的技术”；价值判断则表达道德或伦理的要求，如“人工智能应该符合人类价值观”。事实陈述与价值判断之间存在难以跨越的逻辑鸿沟，这一“实然—应然”逻辑鸿沟又被称为“休谟的断头台”。它切断了事实陈述与价值判断之间的逻辑联系，动摇了传统伦理学的事实根基，揭示出伦理学中的一个根本问题——如何从事实陈述推导出道德规范。休谟认为，我们无法从事实陈述推导出道德判断，因为道德判断具有主体性、相对性与模糊性，这凸显了道德判断的复杂性，也在一定意义上动摇了道德的客观根基。尽管休谟本人没有解决这个问题，但他提出的事实与价值之间的逻辑鸿沟引发了众多学者思考。“休谟断头台”明确了科学事实与伦理价值之间的界限，提醒人们不能简单地将科学结论直接用于道德判断，它强调推理逻辑严密性，避免了从“实然”直接跳转到“应然”。对“休谟断头台”的不同见解，回到人工智能价值观对齐中，“实然”与“应然”问题直接关系到人工智能价值观对齐的合理性和可行性，这是人工智能对齐伦理判断的基础。只有回应并解决了这个问题，才能为“机器向人”的价值对齐提供坚实的伦理学支撑。

（二）人工智能对齐的实然性之难

关于人工智能价值观对齐的事实性问题，可以表述为人工智能价值观对齐的实现是否具有可能性，即人工智能价值观对齐能否真正实现，道德技术化是否可能的问题：道德可否还原为代码，并进行有效的道德推理或者道德计算？归纳起来有以下三个方面。一是价值多元性导致人工智能价值观对齐难以实现。不同文化环境对同一道德情境存在不同的价值判断，难以形成统一的价值观，可能采取不同的行为。对于同一行为，也可能采取不同的伦理原则为其提供正当性的辩护。例如，义务论倾向于从行为自身所具有的性质和特点判断行为的正当性；德性论认为行动的依据取决于个体美德；功利主义则侧重于从行为结果进行判断。二是道德观念的变动性使得人工智能对齐的价值观难以确定。道德观念随着历史背景与科学技术的发展而发生变化。例如，生物技术、人工智能等科技进步引发了关于基因编辑、隐私保护等新伦理问题的讨论。互联网发展使不同文化的道德观念相互碰撞，推动了道德观念的多样化和相对化。全球化让人们意识到不同文化具有不同的道德标准，道德相对主义逐渐被广泛接受，现代社会因此面临多元道德观并存、难以形成普遍道德共识的难题。三是机器因缺乏道德的社会性基础，无法自主形成价值观。道德具有鲜明的社会性，即基于共同价值观和伦理规范的道德行为，建立在相应的社会共识和社会文化背景之上。机器难以把握人类变动的价值观，也不具备形成价值观和伦理规范的社会条件。价值观包含难以被清晰表达的潜意识愿望与相互交织的价值偏好。价值偏好是指个人或群体在选择过程中所表现出的特定价值倾向，体现为对不同对象的差异化价值取向和喜好态度。因此，在事实层面，让人工智能的发展目标始终符合人类的价值观，并按照人类道德规范行动，具有显著难度。

（三）人工智能对齐的应然性之困

人工智能对齐的应然性探讨可以解构为两个核心问题：一是人工智能是否应该向人类价值观对齐；二是人工智能应该与哪些人类价值观对齐，即人工智能对齐遵循何种伦理原则、对齐哪些伦理规范。如果认同人工智能对齐是“机器向人”单向对齐，作为人类为实现自身目的而研发的智能产品，机器理应向人类价值观对齐，遵守人类道德规范。人工智能应该在逻辑上和事实上与人类的价值观对齐。价值的多元性和变动性与价值观对齐并不矛盾，不同文化、不同民族的道德差异，并不妨碍人类形成普遍的价值共识。人类对于人工智能的核心价值共识是“机器向善”，即人工智能技术不能偏离人类的价值目标，必须符合人类价值观，遵循可控、可信、可解释性等共同的伦理准则，警惕人工智能技术的潜在风险，保障人工智能安全可控发展。人工智能发展的逻辑起点，正是人工智能技术符合人类发展目标与价值观，这既包括人类道德规范和伦理原则，也包括个体价值偏好和普遍价值共识。唯有把人类价值观嵌入人工智能机器设计，或者让机器学习人类的价值判断、道德推理和道德决策的逻辑，才能确保人工智能发展始终符合人类价值观，真正实现人工智能对齐。

四、人工智能对齐的哲学出路

从哲学层面分析并解决人工智能对齐问题，关键在于把伦理规范转化为具体的技术设计要求，这一过程需要遵循三个步骤：“首先，从人们那里引出价值观；第二，将这些值调和成用于训练深度学习模型的对齐目标；第三，实际训练模型。”^[１７]可见，解决人工智能对齐问题，需要在分析人工智能对齐哲学困境的基础上，最终通过技术手段实现人类目标。

（一）跨越“实然—应然”逻辑鸿沟

人工智能对齐的“实然—应然”逻辑鸿沟，也就是人工智能对齐的规范性问题和技术性问题之间的逻辑鸿沟。规范性问题关注人工智能对齐应该嵌入哪些人类价值、符合哪些人类伦理规范、遵循哪些伦理原则行动等，这涉及对人工智能对齐的伦理考量。技术性问题则表现为如何把人类道德规则转化为具体的设计标准，这涉及人工智能对齐的技术操作环节。目前，人工智能包括自动驾驶汽车、文字生成图片软件、情感机器人等不同应用场景；人工智能技术有模拟人类逻辑推理的符号主义路线，根据人脑神经网络构建深度学习场景的连接主义路线，以及模拟人类行为的行为主义路线；人类价值具有社会性、知识性、情境性、相对性、多元性等特征，还存在不同的价值偏好和文化差异等。“人工智能推理应该能够考虑社会价值、道德和伦理考虑；权衡不同利益相关者在不同多元文化背景下各自持有的价值观的优先顺序；解释其理由；确保透明度。”^[１８]因此，必须搭建人工智能对齐的“实然”与“应然”之间的桥梁，才能跨越逻辑鸿沟，真正实现人工智能对齐。

（二）价值目标转化为具体的设计标准

人工智能对齐必须把不同场景的价值目标转化为具体的设计标准，才能在人工智能技术场景中应用，其首要任务是把规范性问题转换为技术性问题。如何跨越价值目标（或伦理规范）与设计标准之间的逻辑鸿沟呢？这需要先由价值目标转化为伦理规范，再由伦理规范转化为设计规范，最后把设计规范转换为技术设计标准并应用到不同的技术场景，才能实现价值目标在具体人工智能对齐场景中的落地。例如，人工智能系统为了体现人类价值，其价值目标是实现人类的福祉和愿望，为达成这一价值目标，需要确立“安全”作为伦理规范，而“安全”可以进一步转变成为语料安全、模型安全、措施安全及评估安全等技术设计规范，再将这些规范转化为具体的技术设计标准。人工智能技术的“安全”设计规范，可分解为“技术鲁棒性”“安全可中断性”等技术设计标准。技术鲁棒性反映了一个人工智能系统在内部结构或外部环境发生改变时，仍能维持功能稳定运行的能力。技术鲁棒性强的模型，即便面对不同类型、分布或噪声的数据输入，仍能保持稳定的结果输出，从而提升人工智能系统的可靠性和实用性。例如，在自动驾驶场景中，技术鲁棒性表现为应对天气、路况等环境不确定性，以及在应对算法和模型误差时，保障系统稳定运行和决策安全的能力。又如DeepSeek等大模型的技术鲁棒性，则通过数据增强、数据训练等提升其稳定性，以及增强算法的透明性、可解释性，从而保障大模型系统的安全。只有跨越人工智能应用场景与具体设计标准之间的逻辑鸿沟，才能实现人工智能对齐。

（三）人工智能对齐的维度与层次

人工智能对齐需要解决规范性问题，即人工智能需要与谁的价值观对齐、需要对齐哪些价值。人工智能技术发展应符合人类的目标，与人类的价值观和伦理规范对齐。因此，要对齐的不是个体或某些群体的价值观，而是特定历史和背景下人类的价值共识。所谓价值共识是指不同个体或群体通过交流、对话、协商等方式，对特定事物或信念达成相对一致的价值判断，是一种具有客观性、普遍性的价值判断。

人工智能对齐包含两个维度：一是机器人伦理维度（Robot Ethics），一是机器伦理维度（Machine Ethics）。机器人伦理维度预设了机器与人相区别，机器不可能具有意识。无论人工智能系统的自主性和学习能力如何，其属性都是人工客体，是为实现人类目标而存在的工具，在这一维度中，伦理规范约束的对象是“人”。机器伦理维度认为，机器有可能成为人工道德智能体（Artificial Moral Agents），即能够按照人类道德原则进行道德判断并做出道德行动的人工道德行动体，在这一维度中，伦理规范约束的对象是“机器”。机器人伦理维度强调为机器嵌入人类道德，例如，IEEE《伦理对齐设计（EAD）：利用人工智能和自主系统（AI/AS）最大化人类福祉的愿景（第一版）》报告针对“如何将人类规范和道德价值嵌入人工智能系统”，提出了“道德标准与价值观念”相关内容，具体对齐步骤为：“确定受人工智能影响的特定群体的规范和价值观；在认可结构内推行该群体的规范和价值观；并且评估这些规范和价值观，保持人工智能对齐。”^[１９]也就是说，人工智能对齐需要将特定群体的价值观和伦理规范程序化为道德代码，并将其嵌入人工智能系统中，即为其嵌入道德算法与公平、正义、善等道德元素，让人工智能发展符合人类的价值目标。机器伦理维度则是让机器通过道德学习增强道德判断能力，能够进行道德推理并做出道德决策，以及通过不断校准，在人工智能技术的发展过程中实现动态对齐。

人工智能对齐有不同层次的价值追求。最高层次的价值追求是保障人类的福祉和尊严，发展人工智能技术的目的是助力人类实现自身价值，相应的技术层面要求是坚持“以人为本”，增强人类能力，不操纵、不代替人类决策，推动“技术向善”。中间层次的价值追求是满足人类的共同需要，遵循公平、公正、保护隐私等伦理规范，人工智能技术设计标准需符合可靠性和可控性的要求。最低层次的价值追求则是确保人工智能满足安全性要求，即不能危害人类的存在和发展，要达到鲁棒性、透明性、可解释性等技术设计标准。人工智能技术的研发和应用始终服务于人类发展，实现人类目标。因此，人工智能对齐需要为人工智能发展设定道德红线和底线，通过“自律”和“物律”引导和规范人工智能发展。在人工智能技术发展过程中，明确人类责任并强调道德干预，坚持人类对人工智能系统的行为和社会影响承担最终责任，维护人类的监督权和决策权，最终目标是保障人类的福祉和尊严。

（四）人工智能对齐底层逻辑的哲学反思

人工智能对齐从哲学意义上讲，涉及人工智能技术发展的底层逻辑和理性反思，即人工智能技术发展是会造福人类，还是会限制人类发展。这本质上是对技术的哲学追问：人工智能技术究竟是“济世良药”，还是“害人毒草”？答案取决于人类如何看待和运用技术。马克思担心技术会从“为我”的力量异化为“异我”的力量，警示后人技术异化的风险；法兰克福学派则把技术视为工具理性的载体并对此展开批判。对待人工智能技术的态度，不仅关乎人工智能技术自身的发展，更涉及人类对人工智能技术的理解和定位，甚至关系到人在现代性社会的生存境遇。因此，我们应该采取前瞻性视角，提前预测并规避人工智能技术可能引发的技术风险、社会风险和伦理风险，在人工智能技术的研发—应用—管理等各个环节对齐人类价值观，遵守人类道德规范。

综上所述，人工智能对齐是应用伦理的核心问题，也是人工智能技术发展面临的哲学问题，但对于人工智能对齐的概念模糊认识，阻碍了对其内涵的深入挖掘。通过分析人工智能对齐的逻辑维度、伦理向度以及行动导向性，深入剖析其哲学本质，并通过梳理人工智能对齐的哲学困境，尝试为人工智能价值观对齐提供可行的实践路径与哲学出路，最终让人工智能技术为了守护人类的尊严和福祉、实现人类美好生活而存在和发展。

注释

^[１] [美]斯图尔特·罗素：《AI新生：破解人机共存密码——人类最后一个大问题》，张羿译，北京：中信出版社，2020年，第137页。

^[２]参见[英]玛格丽特·博登：《人工智能哲学》，刘西瑞、王汉琦译，上海：上海译文出版社，2001年，第70页。

^[３] [英]博斯特洛姆：《超级智能——路线图、危险性与应对策略》，张体伟、张玉青译，北京：中信出版社，2023年，第30页。

^[４] T. Hristova, L. Magee, K. Soldatic, “The Problem of Alignment”, AI & SOCIETY, vol.40, no.3, 2023, pp.1439-1453.

^[５] E. Yudkowsky, “Complex Value Systems are Required to Realize Valuable Futures”, Artificial General Intelligence: 4th International Conference, AGI 2011, Mountain View, CA, USA, August 3–6, 2011, Proceedings, J. Schmidhuber, K. R. Thórisson, M. Looks, eds., Lecture Notes in Computer Science, Berlin: Springer, 2011, pp.388-393.

^[６] D. Hendryck, C. Burns, S. Basart, et al., “Steinhardt, Aligning AI with Shared Human Values”, arXiv Preprint, 2021, arXiv:2008.02275v4.

^[７] Ji Jiaming, Qiu Tianyi, Chen Boyuan, et al., “AI Alignment: A Comprehensive Survey”, arXiv Preprint, 2023, arXiv:2310.19852.

^[８] [美] G. M.道格希：《兰登书屋韦氏美语学习词典》，北京：外语教学与研究出版社、兰登书屋出版集团，1997年，第30-31页。

^[９] J. Leike, D. Krueger, T. Everitt, et al., “Scalable Agent Alignment via Reward Modeling: A Research Direction”, arXiv Preprint, 2018, arXiv:1811.07871.

^[１０] I. Gabriel, “Artificial Intelligence, Values, and Alignment”, Minds and Machines, vol.30, no.3, 2020, pp.411-437.

^[１１] A. Etzioni, O. Etzioni, “Designing AI Systems That Obey Our Laws and Values”, Commun ACM, vol.59, no.9, 2016, pp.29-31.

^[１２] M. O. Riedl, B. Harrison, “Using Stories to Teach Human Values to Artificial Agents”, AAAI Workshop: Ethics and Society, 2016, pp.105-112.

^[１３] S. Russell, D. Dewey, M. Tegmark, “Research Priorities for Robust and Beneficial Artificial Intelligence”, AI Magazine, vol.36, no.4, 2015, pp.105-114.

^[１４] B. Christian, The Alignment Problem: Machine Learning and Human Values , New York: W. W. Norton & Company, 2020, p.10.

^[１５] V. Dignum, Responsible Artificial Intelligence: How to Develop and Use AI in A Responsible Way, Switzerland: Springer Nature Switzerland AG, 2019, p.90.

^[１６] T. Arnold, M. Scheutz, “The ‘Big Red Button’ is Too Late: An Alternative Model for The Ethical Evaluation of AI Systems”, Ethics and Information Technology, vol.20, no.4, 2018, pp.363-375.

^[１７] O. Klingefjord, R. Lowe, J. Edelman, “What Are Human Values, and How Do We Align AI To Them?”, arXiv Preprint, 2024, arXiv:2404.10636v1.

^[１８] V. Dignum, “Ethics in Artificial Intelligence: Introduction to The Special Issue”, Ethics & Information Technology, vol.20, no.4, 2018, pp.1-3.

^[１９] K. Shahriari, M. Shahriari, “IEEE Standard Review—Ethically Aligned Design: A Vision for Prioritizing Human Wellbeing with Artificial Intelligence and Autonomous Systems”, 2017 IEEE Canada International Humanitarian Technology Conference (IHTC), Toronto, ON, Canada, 2017, pp.197-201.

文章原载于《学术研究》2026年第4期

闫坤如：人工智能对齐的哲学困境及其出路

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏