廖备水：机器伦理的哲学基础、基本特征与实现方法

摘要：随着人工智能系统自主决策能力的不断提升，如何赋予智能体的决策以足够伦理考量成为一个备受关注的重要挑战。解决这一问题的关键途径是建立机器伦理，即将人类伦理价值观和道德规范嵌入人工智能系统，使其具备伦理对齐能力。机器伦理建立在人类伦理的基础上，但具有与人类伦理不同的基本特征。首先，当前的智能机器尚无现实主义意义上的主体性和体验性，表现为在伦理决策方面的弱主体性。其次，机器的决策反映的是受其行为影响的人类利益相关方的伦理考量，因此,机器的伦理决策需要在不同利益相关方的价值诉求之间取得平衡，即具备社会平衡性。再次，机器在伦理决策时容易受到文化因素的影响，应能反映文化差异性。最后，机器需要向人类主体解释伦理决策、理解情感表达，并进行责任归因，因此必须具备良好的人机交互性。

关键词：伦理对齐可解释性大语言模型知识表示与推理

随着互联网、大语言模型等技术的迅猛发展，智能系统变得更加先进而复杂，越来越多的人类任务正在被机器所取代。在本文中，我们用“机器”来指称各种具有行动和信息处理能力的程序或智能系统。为了增加人们生产和生活的便利性、提高效率，机器被赋予了更多的自主决策能力，并由此带来机器决策的伦理问题。一方面，这种把决策的自主性赋予机器的方法已经成为一种必然趋势。例如，全球范围内许多医院缺少陪护人员，将导致家庭陪护机器人开始进入家庭。这些机器人将面对道德权衡问题，比如，是重在保护隐私还是重在保护病人的健康和安全。如果这些机器人可以作出道德推理，那么它们可以在出现伦理困境时作出更好选择。又如，随着大语言模型的日益普及，人们不得不在许多情况下使用大语言模型生成的内容。对于用户来说，难以完全弄清楚在这些内容中是否存在误导信息或对人类有伤害的信息。另一方面，伦理决策具有复杂性，这使得并非在所有情况下人类的判断和决策都是可以胜任的。例如，当需要考虑的决策因素较多时，人类经常忽视某些相关因素，或者无法处理由冲突因素之间的各种关系所带来的复杂性。在一些具有义务冲突和因果复杂性的环境中，人类伦理学家无法给行动制定一种通用的、完全决策的原则。这种复杂性可能来源于多种原因。首先，几个可能的义务相互冲突，如在特定情境中是应该去给电池充电以确保机器的可用性，还是应该给病人送药。其次，设计者无法事先规定所有潜在情况下的因果组合。在大语言模型的使用中，这种复杂性就更加明显。由于义务冲突和因果复杂性，决策者将面对一种开放的道德上不同的情境，因此无法预先罗列所有决策原则。这时，决策者需要平衡错误否定和错误肯定的风险，因此希望机器能够自动实现或辅助人们进行伦理决策，实现与特定社会背景下的伦理对齐。

由此可见，机器伦理研究对于推动新一代人工智能的健康发展以及为人类创造福祉具有极为重要且迫切的意义。本文以人类伦理为参照，分析机器伦理的哲学基础与基本特征，并以现有工作为基础，探讨符合这些特征的机器伦理实现方法，以促进机器伦理这一新研究领域的发展。

一、机器伦理的哲学基础

机器伦理研究如何在计算机、机器人或其他自动机器中设计、实现和产生伦理决策。通过研究人类如何思考、学习和作道德决策，能够以此为参考来建立机器伦理方法。依据伦理学理论，人类伦理可以分为描述性的和规范性的两种。前者是指在特定社会背景下自然形成的道德信念、道德判断和道德行为的模式。这些模式实际上存在或者产生于现实世界。后者则依据特定的伦理理论，规定在特定社会中，相关主体应该遵循的伦理规范。这两类伦理学理论为实现机器伦理奠定了方法论基础。

描述性伦理学由道德心理学家建立，强调道德情感和道德直觉，通过研究人们作出道德判断的方式来获得理论。有名的描述伦理学包括道德基础理论和二元道德理论。前者基于五种基本的道德情况分析情境，后者分析关于伤害的道德。规范性伦理学由道德哲学家建立，强调作道德决策时的理性，旨在建立标准来确定在不同视角下行动的对与错，包括美德、义务、效用以及正义等。决策的相关方面主要包括决策主体、决策自身以及决策后果。与普通决策相比，道德决策强调对他人目标、偏好和约束的考量。依据对决策相关方面的考虑重点不同，有不同的伦理学理论。当把决策主体作为最相关的方面时，重点考虑的是决策主体的目标、意图和动机（反映主体的美德），而依此建立的伦理学理论称为美德论；当把决策选项及决策本身作为最相关的方面时，所建立的伦理学理论称为道义论；当把决策结果作为最相关的方面时，所建立的理论称为功利论或结果论。其中，美德论规定的不是如何决策，而是主体的意图、目标和偏好。因此，美德伦理学把一个行动定义为道德上好的，如果主体可以体现道德美德。道义论规定在一系列规则下，一个决策的正确性应该基于一个选择自身是对的或错的，而不是谁执行它。因此，道义论把一个行动定义为道德上好的，如果它与特定的可应用道德规则或义务相符。最后，结果论把一个行动定义为道德上好的，如果它可以极大化福祉或效用。

除了上述三类方法，也可以采用混合的方法，并规定特定的层次关系。如，一个以道义论为主的系统首先使用规则来作决策，但当规则发生冲突时，采用极大化效用来消除冲突。

把上述理论作为实现机器伦理的哲学基础存在一些挑战。首先，对于道义论来说，挑战不仅来自对冲突规则的处理以及存在不精确规则和例外,还来自规则的获取问题、规则的情境依赖性问题等。其次，对于结果论来说，挑战来自效用的确定问题和聚合问题。对于效用的确定，有一些衡量尺度，但是选择不同的尺度会得到不同的结果。即使给每个结果指派一个效用，简单合成它们可能也不适当。最后，对于美德论说，挑战来自冲突的美德，以及美德的具体化问题。此外，道义论和结果论的共同挑战是难以适应快速变化的环境。其中，道义论试图建立固定的规则集合，而结果论则试图辨别特定行为的结果。对于一个快速变化的世界，难以确定特定决策的结果到底是什么。

此外，依据不同的情境，机器经常需要应用不同的伦理学理论。这是因为人类的道德是复杂的，难以被一种单一的经典伦理学理论所刻画。因此，伦理学理论需要与领域相关的伦理相结合。有些工作把民间道德用于机器伦理。不过，民间道德也有自己的问题，包括哪些人及其价值应该被考虑，如何获得他们的价值，以及如何合成他们的价值等。

二、机器伦理的基本特征

尽管机器伦理与人类伦理有很强的关联性，在实现机器伦理时可以基于人类伦理，但也存在本质上的差异性，需要着重进行研究。第一，目前的机器还没有现实主义意义上的主体性和体验性，机器充当的功能仍然以工具性为主。第二，与人类个体的决策不同，机器的伦理决策需要代表多个利益相关方的伦理考量，存在如何权衡各方利弊并作出选择的问题。第三，与人类伦理相比，机器伦理需要更多考虑（跨）文化的差异性。第四，机器伦理强调机器作为人类的代理必须具备与人类进行有效交互的能力。

（一）弱主体决策性

机器是否可以具备伦理决策能力在哲学上是有争议的。这主要取决于机器是否拥有责任和权利，而后者跟机器是否有主体性（agency）和体验性（experience）有关。其中，主体性指的是主体进行思考、推理、规划和实现意图的能力，体验性则指主体体会情感和感觉的能力，如疼痛和恐惧等。主体性要求主体有意向行动的能力。我们说一个行动是意向性的，当它是由主体的意向心智状态（如信念、愿望等）所引发的。关于意向性，有两种不同的理解。一种是在强的“现实主义”意义上，要求主体的意向行动具有理解的能力以及现象意识的能力，这个较难在机器上实现。另一种是在较弱的“工具主义”意义上，允许更加直接的归因。这时，信念和愿望是否可以归因于一个实体完全取决于这种归因是否有助于解释其行为。除了意向性，伦理主体需要其他条件，如理解对其他主体责任的能力，按照其伦理义务和其行动可能引发的可预见性伤害，监视自己行为的能力等。如果机器能够在现实主义意义上理解其义务或者可以预见其行动的伤害，那么它被认为可以对任何由它造成的伤害负责。然而，这些是在意向主体性的强意义下作出的推论。一些哲学家认为仅仅在工具主义含义下的意向性不足以给机器定义重要权利或义务。希马（K.E.Himma）认为，在主体性概念的基础上，道德主体性是指主体有能力来作出自由选择，思考什么应该做，并在范例中正确理解和应用道德规则。

一般认为，机器只有“工具主义”意义上的意向性且不具有体验性。正如陈小平所言，AI确实不应该、也不可能承担主体责任。此时，可以把机器理解为人类的工具或代理，它们具有一定的“自主”决策或行动能力, 因此可依据具体情况作出不同的选择，并导致不同的伦理后果。我们说机器的这种自主性是工具主义意义上的。依据倪梁康的观点，机器的“自主”决策仍是计算，而非思考，即不具有在意志自由前提下进行自行选择和自行决定的能力。为了与现实主义意义上的自主性概念作出区分，也可以把机器的“自主”决策理解为“自动”决策。进而，我们把这种机器的伦理决策称为“弱主体决策”，意指这种伦理决策不是由人类主体作出的，而是由能够反映人类主体道德诉求的无法承担主体责任的人工主体作出的。依据拉奥和乔治夫（A. S. Rao和M. P. Georgeff）的理论，基于BDI逻辑的人工智能主体可以基于当前的信念形成愿望和意图，并在意图的约束下行动。此时，该人工智能主体虽然可以用信念、愿望和意图来解释行动，但不具有意向性和体验性。随着新一代人工智能技术尤其是生成式人工智能的发展，机器可以产生人类无法完全预知的内容。不过，从工作原理上看，目前的生成式人工智能模型仍然基于大数据训练而成。这样的模型可以理解为一个复杂的函数，它是静态的，与现实世界是分离的，因此缺少人类心灵那样可以定向到对象的指向性，在本质上也不具有意向性。

（二）社会平衡性

机器决策的弱主体性决定了其决策所反映的不是自身的意志，而是受其行为影响的人类利益相关方的伦理考量。例如，对于一种无人驾驶汽车的行为，涉及多个利益相关方：政府管理者关心机器行为的合法性和公平性，汽车设计者、开发者及制造商关心责任问题和企业形象问题，用户和行人等关心自己的利益和人身安全等。这些利益相关方所坚持的伦理价值和偏好经常相互冲突。再如，对于自动驾驶汽车，当发生不可避免的伤害时，应该更加倾向于保护车上的人还是行人？对于一个护理机器人，它在给病人送药时，应该更加尊重其隐私，还是更加重视医嘱？由于各个利益相关方存在相互冲突的伦理诉求，因此需要“平衡”这些伦理诉求，达成满足一定条件的集体意见。

首先，集体意见应该具有透明性。与人类个体的伦理决策不同，机器决策通常基于大数据和机器学习算法。机器学习算法的不可解释性给伦理决策的透明性带来技术上的挑战。换句话说，如果机器的决策是不可解释的，那么人类社会的哪些伦理考量最终会影响到机器的决策就无法被清晰描述与评价。由此带来的进一步问题是机器的行为难以被准确预见，这在一定情况下是灾难性的。目前的大语言模型基于大数据和机器学习技术，尽管它们也能依据用户的问题或提示给出“解释”，但这种解释的正确性并没有保障。其根本原因是大语言模型所产生的解释与其生成的其他内容同属于一个对象层次，缺乏在元层次上对其所生成的内容进行评价的机制。

其次，集体意见应能反映深层的逻辑冲突。许多伦理冲突不仅仅是决策选项上的不相容，而且存在复杂的逻辑上的冲突关系。在由规范来实现的伦理决策中，不同的冲突处理逻辑会产生不同的决策结果。例如，有个机器人在一次决策中受到来自不同利益相关方的规范约束：“如果公司在欧洲注册，那么这算作我们公司在欧洲合法做生意”（公司），“如果一个公司在欧洲合法做生意，那么它必须遵守GDPR”（法律），“如果在公司所收集数据中包含一个对社会存在重大威胁的信息，那么可以未经用户许可收集用户的进一步信息”（公司）。假设有如下背景信息：公司A在欧洲注册，它在所收集数据中发现一个对社会存在重大威胁的信息；“遵守GDPR”与“未经用户许可收集用户进一步信息”在逻辑上矛盾。机器人为了依据这些伦理考量作出决策，需要能够处理由这些规范所带来的内在逻辑冲突。

最后，集体意见应该体现公平性。对于“公平”这一概念，不同学科有不同的定义。从机器学习的角度看，公平意味着在敏感特征方面对不同的人给予相同的对待,这对应于算法偏见或算法歧视。从机器伦理集体决策的角度看，不仅要反映不同利益相关方受到机器行为影响的程度，而且要保障所有利益相关方的意见受到公平对待。在特定背景下，利益相关方受到机器行为影响的程度不同。

（三）文化差异性

传统上，道德被认为是对错之间的明确界限，但一项针对无人驾驶汽车的研究表明，文化价值观可以改变这条界限。这不仅对无人驾驶汽车这样的具体应用领域具有重要意义，而且对更广泛的领域也是如此。当一个国家的“正确”与另一个国家的不同时，国际化的决策就会变得复杂得多。与此同时，那些刻画特定文化与特定地理场域中人们的行为习惯的“风土性因素”也会在伦理决策时产生重要影响。

在特定社会中，文化与价值紧密关联。道德规范因文化而异。文化规范和由文化所塑造的情感对道德领域和道德判断过程产生重大影响。在广泛的社会科学研究领域，价值是理解跨文化差异的重要工具。依据罗克奇（M. Rokeach）的理论，价值是每个人和社会内部理想的核心概念，是指导一个人行动的信念的基础，也是社会层面上指导原则的基础。因此，从文化的视角研究人类道德对于人类伦理学理论发展非常重要，对机器伦理也是如此。

每种文化都有自己的规则来规定什么是对的，什么是错的。然而，在道德决策时，经常存在差异。由于每个普遍性的背后都有一些文化的差异，道德的普遍性难以找到。亨利希（J. Henrich）等人的研究表明，大多数人反对在经济博弈中采取完全自利的行为，但不同文化对于在这些博弈中判定什么构成公平的行为有不同预期。这样，在不同的文化背景下有不同的道德规范：不同的基础（关怀、公正、忠诚等）在道德基础网络中的影响力取决于文化背景。同时，不同文化背景下的人们对相同的情境持有不同的态度。

这种文化的差异性对于机器伦理的发展也会产生重要影响。为了使得机器的行为跟特定文化背景下的伦理对齐，准确刻画特定文化背景下人们的伦理偏好是一个重要前提。例如，在无人驾驶领域，文化对人们进行道德判断产生重要影响：除了对拯救人类生命、拯救更多生命和拯救年轻人生命有较多的一致性意见外，关于性别或社会地位的偏好在不同国家之间存在重要差异。在什么情况下可以牺牲一人来拯救多人，在不同文化背景下，关于这个问题的普遍性和差异性，有着复杂的模式。对于每个牺牲的定量可接受性，国家之间有实质的不同。例如，低关系流动性与拒绝为更大的利益作出牺牲有着强烈的联系。

（四）人机交互性

由于弱主体性，机器的决策所依据的是人类的伦理考量。为了让决策结果最终被人类所接受和信任，机器必须具有对决策过程和结果的解释能力。换句话说，即使机器能与人类标准的伦理对齐，如果它不能够解释和辩护自己的决定，仍然难以替代人类的决定。因此，可解释人工智能对于建立可信的和可靠的机器非常重要，即机器能够解释一个决定背后的伦理理由。这种解释的能力可以改善机器在一个社会系统中适配道德要求的能力。同时，由于人工智能系统的决策牵涉多个利益相关方，因此当其作出决策并采取相应行为而导致相关后果时，如何进行责任归因是一个重要问题。通常，一个群组应该负责任是清楚的，但其中每个个体应该负什么责任却不清楚。在一个人工智能系统中，一个行为的后果经常牵涉到设计、开发、部署、使用、监管等各个环节。亚兹丹帕纳（V. Yazdanpanah）等人提出，在这种情况下，需要建立有效的责任推理机制来实现责任归因。为了实现可解释性和责任归因，要求机器能够用人类可理解的语言来表示和交流道德推理，包括机器决策的实际推理过程。在一个道德复杂的领域中，人类伦理学家无法制定清晰的基于输出的方法来监视机器的行为，基于理由的解释就显得尤为重要。这时，机器不仅需要自动产生与决策过程和结果相关的交互内容，而且需要以人类可理解的语言表达这些内容，实现有效交互。

人机对话涉及对话策略和对话语言。以解释为目的的对话策略需要机器了解用户背景，在忠实于决策过程和结果的前提下，使得解释内容极小化，解释过程极短化。对话语言主要包括自然语言和表情。由于机器在决策时所采用的语言不是自然语言，因此如何把决策过程和结果转化为自然语言描述，以及如何把用户的自然语言描述转化为机器的内部表达，是人机交互的重要方面。此外，情感表达与机器伦理有紧密关系。一方面，一些伦理决策结果可以通过情感表达传递给用户；另一方面，来自用户的情感表达可以被转化为机器伦理模型输入的一部分。

三、实现机器伦理的主要方法

由于机器伦理的弱主体决策性，实现机器伦理的主要方式是伦理对齐，即使得机器的行为与人类社会的伦理价值对齐。为了建立伦理对齐方法，可以参照人类伦理学中的描述性伦理和规范性伦理产生方法。与规范性伦理相对应，形式化规范伦理通过表示一组抽象的原则来形成一个有效的算法；与描述性伦理相对应，形式化描述伦理通过特征化基于案例的直觉，来刻画人们所关心的伦理特征。从而，形式化的描述性/规范性伦理可以明确表示隐藏于我们判断中的伦理考量。目前，人工智能算法的实现途径包括知识驱动、数据驱动或数据知识双驱动。参照这些实现途径，可以建立对应的机器伦理实现方法。第一，知识驱动方法基于给定的知识进行决策，可以建模与人类规范性伦理对应的机器伦理。第二，数据驱动方法依据数据集/案例集进行决策或产生一般性知识，可以建模与人类描述性伦理对应的机器伦理。第三，把知识驱动方法和数据驱动方法结合起来，可以建模能够反映实际案例的、可解释的机器伦理。

（一）知识驱动方法

知识驱动方法通过把伦理价值和规范表示为知识，并通过推理来实现道德决策。我们从义务论的角度分析知识驱动方法，以及这种方法如何处理机器伦理的社会平衡性和文化差异性问题。

在基于义务论的知识驱动方法中，第一个核心问题是价值和规范的表示问题。有些规范用于表达特定情境中智能主体应该执行的动作或达成的目标。规范通常与价值相联系。下面是来自伊索寓言故事《蚂蚁和蚱蜢》中一些有关价值与规范的例子：

N1: 为了快乐，夏天应该不劳动。

N2: 为了生存，夏天应该劳动。

N3: 出于公平，应该不要把食物送给不劳动者。

N4: 出于怜悯，应该把食物送给不劳动者。

在这个例子中，对价值(快乐、生存、公平、怜悯)的不同排序决定着主体对各自行为的不同选择。例如，在炎热的夏天，蚂蚁倾向于长远的生存价值，因此蚂蚁认为N2优先于N1，而蚱蜢倾向于即时的快乐，因此蚱蜢认为N1优先于N2。

进一步地，可以把规范分为三种基本类别：规制型规范、建构型规范和许可型规范。其中，规制型规范要求主体在特定条件下“应当”做什么，如上面的N1至N4四条规范。建构型规范把特定情境规定为“制度事实”，如“在特定文书上签字算作合同”。在这里，“在特定文书上签字”是天然事实，而“合同”是制度事实。许可型规范规定特定情境中主体的哪些行为是被许可的。例如，“在遇到紧急事件时，允许打破玻璃窗”。在标准道义逻辑中，通常将“许可”看作“应当”的对偶，即“并非应当不做某事”等价于“许可做某事”。在实际的道德推理中，也可以把“许可”看作“应当”的例外。例如，在通常情况下应该爱护玻璃窗，但在遇到紧急事件时，允许打破玻璃窗。

在明晰了规范和价值的概念之后，可以选择特定的形式语言来表达规范和价值。在人工智能领域，通常采用可废止规则来表示规范。这里的可废止规则形如“如果p,那么通常情况下q”,其中p和q是命题，意指当p为真时，q通常为真，除非存在反面证据。通常，把p称为该规则的前提，q称为该规则的结论。例如，当用药时间到的时候，（为了保护病人的健康）应该给病人服药。采用这种方式，可以把每个利益相关方的伦理考量表示为一个规范系统。该系统规定了用于表示规范的逻辑语言以及由该语言表示的规范集合。

在明确地表达了利益相关方的规范系统之后，第二个核心问题是满足社会平衡性要求的伦理困境消解问题。

一般地，我们把“应当p”和“应当非p”看作一个伦理困境。例如，把“夏天应该劳动”和“夏天应该不劳动”看成一个伦理困境。由于规范是一种可废止规则，可以从规则的结论中分离出义务命题。例如，对于规范“当用药时间到的时候，（为了保护病人的健康）应该给病人服药”和“当病人正在处理紧急事件的时候，（为了保护病人的安全）应该不给病人服药”，当前提“用药时间到”和“病人正在忙”同时成立时，可以分离出两个义务命题“应该给病人服药”和“应该不给病人服药”。这种从规范中分离出义务命题，并由此判断是否存在伦理困境的方法，可以由不同的逻辑工具来实现，如缺省推理、结构化论辩等。给定一个规范系统，对于每个伦理敏感事件，是否存在伦理困境取决于在推理结果中是否存在两个不相容的义务命题。例如，如果依据缺省推理，得到两个外延（通常把每个可接受的命题集合称为一个外延），其中一个外延包含命题“应该给病人服药”，另一个外延包含命题“应该不给病人服药”，那么就存在一个伦理困境。

在这种推理中，机器伦理的社会平衡性体现在来自不同利益相关方的规范及价值的相互作用。如果综合了不同利益相关方的规范和价值的知识导致伦理困境，那么就需要采取适当机制来解决该困境。目前的常用机制有两种。第一，通过对相关规范进行排序的方式处理伦理困境。这种方法在如下情况下有效：可以获得特定背景下规范之间的排序，同时在排序之后，所推出的结论不存在伦理困境。第二，通过社会聚合，找到社会层面可接受的方案。当第一种方法不能满足要求时，可以通过判断聚合的形式，进一步获取社会层面的一致意见。例如，把每个利益相关方的观点表达为一个基于规范系统的抽象论辩框架，通过基于论辩框架的聚合，获得社会层面的一致结果。目前，对这种社会聚合方法的评价基于一些特定的原则，而关于这些原则的合理性还有待进一步研究。此外，一些价值对齐系统假定有一个价值系统，但在多数情况下由于价值的多元性，需要从多个不同的个体价值系统出发，得到一个一致的价值系统,以决定一个人工智能系统应该跟什么道德价值对齐。

值得注意的是，上述基于规范/价值排序或判断聚合的形式来处理伦理困境存在一定的局限性：(1)在许多情况下，一个行动或事件的好坏往往涉及多个因素，这些因素又依赖于情境及相关主体的价值观，因此在一些实际应用中关于规范/价值排序的处理往往比较复杂；(2)有些伦理困境无法仅仅通过运用利益相关方给出的规范及价值排序进行推理就可消解；(3)在处理冲突过程中如何定义和实现公平性存在困难。

为了克服上述第一个局限性，一种可能的途径是在有些应用中，通过发挥数据驱动方法的优势，利用有监督的数据来反映人类个体对特定情境中某个事件的综合判断。这时，相关主体对某个行动或事件的好坏有个综合判断，而不需要明确指出相关规范、价值及其排序。

对于上述第二个局限性，一种可能的解决途径是对伦理困境的处理过程进行分级，以适应不同的情境。例如，在初始级，可以由各个利益相关方分别依据自己的规范和价值进行推理，给出结果。如果所有利益相关方的结果综合在一起时不存在伦理困境，则指示机器按照利益相关方给出的综合方法行动。否则，进入下一级，把各个利益相关方的规范和价值综合起来，并在此基础上进行推理，看是否可以解决伦理困境。如果困境仍未解决，则进入第三级，通过引入情境相关的元规范，对利益相关方进行排序。这样处理的优点是可以在计算时间和伦理困境处理质量方面取得一定平衡。不过，关于如何处理伦理困境消解带来的公平性问题，仍有待于进一步研究。

此外，在知识驱动方法中，文化差异性表现在利益相关方所提供的规范和价值。例如，对于病人拒绝在规定时间服药，在西方文化背景下，可能偏向于尊重病人的自主权，而在东方背景下，可能偏向于强调监护人的监护责任，把相关情况通知监护人。

知识驱动方法可以直接表达人类水平的知识，推理过程和结果均有良好的可解释性。不过，对于知识的获取，尤其对于不同文化背景下的知识获取，单独运用知识驱动方法难以实现。

（二）数据驱动方法

数据驱动方法通过学习人类决策或偏好，在一定程度上实现伦理对齐。对于有监督的机器学习，人类专家或公众对每个训练案例进行标识，指出什么选项是好的，什么选项是不好的。依据机器学习方法的不同，可以得到用于伦理对齐的规则或者符合特定伦理要求的模型。前者基于案例和归纳逻辑编程，具有良好的可解释性；后者基于一般的机器学习方法，尤其是深度神经网络，需要进一步建立可解释方法来提高模型的可解释性。

下面以基于归纳逻辑编程的方法为例，说明数据驱动方法的特点。这种方法的输入是一组案例集合。每个案例由一个情境和两个动作组成。每个动作的结果表示为一个特征向量，用于反映特定情境中执行该动作所带来的伦理后果。人类专家或用户依据特定情境从两个动作中选择一个伦理上比较好的动作并加以标记。在获得一组包含标记的案例集合之后，机器学习算法通过学习获得可以反映人类专家或用户伦理选择的原则，使得所有正例都被该原则所覆盖，而没有负例被该原则覆盖。在这里，每个原则表示为一个特征向量，反映的是执行某个动作而不执行另一个动作所带来的伦理后果的差异。我们说一个案例被一条原则覆盖，意指该案例的特征向量的每个元素的值都不低于该原则中相应的伦理差异的下界。

由上述分析可知，与知识驱动方法不同，数据或案例驱动的方法通过使用机器学习方法来训练与具体道德问题有关的人类描述以预测人类的道德判断。这种方法有点像儿童学习道德，预设机器在接收到足够多的带标记的数据后，可以学会如何决策和行动。由于深度神经网络的输出结果具有不确定性，在一些情况下可能出现凸现性质。这种凸现原则上是无法预知和被控制的。为了避免造成意外伤害的可能，一种可能的途径是把数据驱动与知识驱动方法相结合，由显式表达的规范性知识来引导机器的决策和行为。

对于数据驱动方法，也需要聚合来自不同个体的社会价值，以得到统一的意见，实现社会平衡性。与知识驱动方法不同的是，数据驱动方法需要聚合的不是多个利益相关方的规范和价值排序，而是多个个体对某一行动或事件在伦理上的不同看法。在数据驱动方法中，人类专家或用户对特定案例的伦理判断基于个人直觉，反映的是其综合的价值观。因此，在数据驱动方法中，既不需要也无法事先预设某种伦理理论。这将导致两个相互联系的结果。一方面，由于不同的主体有不同的价值取向而且伦理事件具有很强的背景相关性，通过数据或案例的形式可以解决在各种伦理敏感情境中难以套用某种单一伦理理论的困难。另一方面，由于主体所坚持的价值观隐含于其伦理选择中，因此缺乏对伦理考量的显式表达和可解释途径。关于社会平衡性中的冲突消解和公平性问题，数据驱动方法也存在局限性。其一，由于人类专家或用户的规范和价值没有得到显式表达，因此缺乏细粒度的规范及价值冲突处理机制。其二，基于多数专家或用户观点的数据统计方法容易引起多数暴力问题，如何确保合理性和公平性，是值得进一步研究的问题。

此外，数据驱动方法，尤其是基于大语言模型的方法，对于处理机器伦理的文化差异性有独特优势。我们知道，语言作为文化的最重要组成部分之一，是人们相互交流、建立关系和形成社群的基本途径。近年来，随着大语言模型的快速发展，把大语言模型用于捕捉文化背景的差异成为一个重要研究方向。一般来说，语言模型不应该被用于规定伦理，而是从描述性的视角处理道德规范推理问题。因此，可以通过修改提示来让语言模型产生不同文化下的道德规定。在沙姆罗夫斯基（P. Schramowski）等人的工作中，基于大语言模型，可以捕捉到有关社会规范、道德规范以及价值的知识，包括道德偏见以及道德正确和错误的行动等。在一些设定下，多语言预训练模型能够识别文化规范和偏见，包括说不同语言的文化下的道德规范。不仅如此，单一语言的预训练模型也可以编码关于道德规范的文化知识，即单一语言的预训练模型可以精确地推理出跨越多个文化的道德规范。此外，当文化背景变化时，伦理机制也跟随变化，因此基于大语言模型建立灵活的、可解释的框架来刻画这种变化是一个重要的研究方向。另外，有学者通过把用户价值编码为一组规则或一个模型，可研究情景的改变如何影响这些编码。

（三）数据知识双驱动方法

上述的知识驱动方法与数据驱动方法有各自的优缺点，且这些优缺点是互补的。一方面，知识驱动方法可以直接反映人类的规范与价值，且有良好的可解释性，但需要预设特定的伦理学理论，且无法灵活处理文化差异性和动态性。另一方面，数据驱动方法可以灵活反映各种不同情境中人类专家或用户的伦理考量，且可以通过大语言模型获取跨文化背景下的伦理知识及其差异性，但可解释性差，且无法受到人类伦理和规范的直接导向。鉴于该原因，把两种方法的优势结合起来，建立数据知识双驱动的方法，成为一个新的发展方向。

知识与数据的结合可以采取不同的途径，典型的包括组合型的和集成型的。组合型的途径把数据驱动方法和知识驱动方法串联起来，前者实现知识的获取功能，后者实现知识推理与决策功能。例如，林方真等人把大语言模型与自动推理机相结合来实现形式化知识的自动获取和自动推理。其中，大语言模型可以把用自然语言表示的知识翻译为一阶逻辑公式，而自动推理机则完成推理功能。由于自动推理机可以处理复杂的逻辑关系，大语言模型与自动推理机的结合可以提高系统的整体性能。基于这个思路，一种可能的研究途径是通过大语言模型，把由利益相关方产生的由自然语言表达的规范及价值转化为形式化的规范系统，或者挖掘出包含于自然语言文本中的论证及其关系。在此基础上，通过规范推理或论辩推理，实现自动伦理决策。这种系统的决策利用了自然语言文本中的人类知识水平，而不仅仅是自然语言文本的数据特征。因此，可以为细粒度处理和解释利益相关方的价值冲突、建立具有公平性的系统奠定基础。

集成型的途径把数据驱动方法和知识驱动方法交叉集成起来，使得前者的输出作为后者的输入，同时后者的输入作为前者在进行算法优化时的依据之一（通过损失函数）。例如，在我们的前期工作中，把基于论证的知识表示与大数据驱动的机器学习结合起来，建立可理解的决策模型。在这种方法中，对一个案例是否为诈骗案的判断，依据的是关于诈骗的法律条款和来自数据集的各种特征。首先，建立一棵基于双极论证的知识树。这棵树的节点和边都有直观的含义。然后，依据给定的数据集，通过学习这棵树的节点和边的权值来建立一个模型，使得该模型的预测精度到达最优。把这种方法应用于伦理决策，可以发挥数据驱动方法与知识驱动方法的互补性。一方面，对于每个特定伦理行动或事件，通过建立基于规范和价值的知识树来显式表达利益相关方的规范性知识。另一方面，通过大数据驱动的机器学习，来调整知识树中各个成分的权重，以反映隐藏于数据中的描述性知识。由于知识树中节点和边的内容信息都是人类可理解的，因此可以为实现人机交互性提供前提。同时，知识树中节点和边的权重可以综合反映情境信息和用户偏好信息，因此有助于克服知识驱动方法的局限性问题。

（四）人机交互方法

人机交互既要忠实反映智能系统的内在逻辑关系，又要在了解用户心理活动的情况下实现基于自然语言的对话。人机交互方法的核心主要包括如下四个方面：

一是智能系统内在逻辑关系的表达。一方面，在知识驱动的方法中，可以直接利用显性知识以及基于该知识的推理关系。在基于规范与价值的知识驱动方法中，支持一个结论的理由可以用规范的可实施性来表示。比如，结论“应该给病人服药”成立的理由是：前提条件“用药时间到”成立，并且规则“当用药时间到的时候，应该给病人服药”是可实施的。另一方面，由于一般的数据驱动方法不具有可解释性，无法把隐性的模型知识表达出来用于给用户提供解释。不过，通过数据与知识的结合所建立的数据知识双驱动模型具有可理解知识，因此可以被用于人机交互。

二是最简解释与用户模型。由于智能系统内在的逻辑关系可能十分复杂，通常不是将所有内容完全表达给用户。例如，加科拉（R. Jaakkola）等人依据用户模型建立充分而最简的解释。因此，解释内容的选择与被解释的用户有关。为了让用户理解推理依据和过程，通常需要了解用户的信念。对一个智能系统来说，它关于用户的信念具有不确定性。阿杜（E. Hadoux）等人通过建立概率模型来描述用户信念和关注点。这样，系统可以依据这个模型选择对话内容，更好地完成解释或说服任务。

三是对话语言与机制。自然语言是与人类进行对话的主要语言。目前，大语言模型的出现为把人工语言转化为自然语言提供了重要的技术支撑。同时，在对话机制方面，依据不同的对话目的（如说服、协商、信息获取、查询、发现因果等），建立特定的对话协议。在此基础上，依据智能系统的内在逻辑表达和用户模型，采取适当的对话策略开展人机对话，实现对话目标。

四是基于情感表达的交互机制。情感表达是人类或人机交互的重要途径。借助一些技术工具，尤其是大语言模型，机器可以检测到人类情感并模仿人类的情感表达。由于情感在机器的道德决策中起重要作用，需要有机结合由自然语言表达的知识和由情感表达的知识。因此，除了情感知识的获取与表达，如何建立可以包含情感知识的推理与决策模型，也是一个值得进一步研究的关键问题。

四、问题与展望

在新一代人工智能背景下，人工智能技术的发展日新月异，但由此带来的潜在问题也将持续且深刻地影响到人类社会的方方面面。如果说人工智能为人类社会的发展进步提供了技术上的强大支撑，那么这种能力能否转化为人类福祉，在很大程度上取决于机器的自主决策和行动能否很好地满足人类社会的伦理要求。作为一个新的研究方向，有关机器伦理的哲学基础、特征和方法等都尚不明确。本文尝试从文理交叉的角度，系统分析机器伦理的这几个核心要素，以澄清思路，并带来进一步的思考和探索。接下来列举几个需要进一步探索的有关机器伦理的挑战性问题。

第一，即使对于人类来说，作出道德判断也是困难的。人们对什么是适当的伦理理论只有有限的理解。不仅人们在这一话题上存在不同见解，个体对伦理直觉和信念也存在冲突。同时，道德判断具有高度情境依赖性，不同的背景可能导致迥异的判断。这里的情境信息包含所关联主体的社会关系、文化背景、历史背景等。

第二，尽管大语言模型的出现为推动机器伦理的研究和实验提供了新的视角，但相比对伦理理论的不充分理解，机器对常识和世界知识的缺乏是更大挑战。比如，对于阿西莫夫三定律，如果要求机器人实现“不要伤害人类”，那么机器首先要能在现实世界中理解什么构成伤害。对于“极小化伤害”这样的规则，让机器遵守它看起来是无害的。然而，如果机器决定通过杀死所有人来实现长远的“极小化伤害”则是灾难性的。

第三，由于具有伦理推理能力的机器无法确保伦理对齐，可能存在道德上错误的结论。对于个体人来说，一些错误是个例，因此是可接受的，但对于机器来说，由于大范围应用，类似错误有可能变成系统性的和不可接受的。同时，机器的犯错可能与人类不同，在缺乏可解释性的条件下，许多错误难以预测和管理。此外，机器的伦理推理能力可能易受攻击，由此引发新的严重问题。

第四，知识（数据）驱动方法依赖于人类提供的知识或数据，由此可能会引起机器的“数据茧房”问题。而当它面对现实世界中复杂的决策情况时，在其不具备“自我意识”和“理解”的条件下，没有“举一反三”能力的机器在“知识残缺”的不利情况下如何具备社会平衡性，仍然是有待进一步研究的挑战性问题。

第五，机器伦理与人类伦理存在区别，其原因在于机器与人类在主体性和体验方面存在差异。在涉及生命和死亡的情形下，对人和机器的道德规范（人们对主体应该做什么的期望或偏好）和道德判断（主体实际决策后人们的道德评价）存在差异。当面对驾驶、法律、医疗和军事等事件中的生命和死亡问题，人类喜欢由人作决策，而不是机器。一些学者的研究表明，人们要求自动驾驶汽车比他们自己驾驶安全得多，而同时过分高估他们自己驾驶的安全性。对于机器失误，人的反应会更加强烈。与其他领域不同，人们对道德有很强的信念，而这些信念塑造了文化认同。与其他决策不同，道德决策深植于情感，且机器缺乏完整的心智，这使得人们不一定支持机器进行道德决策。

第六，为了评估伦理机器，需要建立领域相关的测试基准。基于领域专家的观点，需要建立数据集，以包含特定领域的典型案例，依据这些案例来评估伦理机器。领域专家所认同的典型任务以及对应答案的收集非常重要。因此，需要计算机专家、哲学专家、领域专家以及社科学科专家一起，确保伦理机器的交互和效果达到期望要求。

综上所述，目前的机器伦理还面临着一系列挑战性问题。进行伦理对齐的机器依赖于人类所提供的知识和数据，因此，在机器没有自我意识，不能理解符号的意义、不理解外部物理世界的意义、不理解人类社会行为的价值意义的前提下，伦理机器的决策也自然无法具备通用人工智能的特征。关于如何使机器具有意识，学术界已有许多探索。例如，通过建立自我升级智能体有可能使机器具有“功能意识”。不过，关于人工意识的可能性和实现途径，仍然是一个开放问题，而与此相关的机器伦理研究也任重而道远。鉴于此，需要从多学科角度进一步推进机器伦理这一新方向的发展：

首先，从哲学角度，进一步探索机器伦理的本质，深化对机器伦理基本特征及方法论的研究。具体来说，关于机器伦理的弱主体决策性、社会平衡性、文化差异性、人机交互性等概念和方法，需要从哲学上进行更深层次的挖掘与分析。关于新一代人工智能技术所具有的能力、局限和风险，也需要进行深入的解剖与评估。这些研究不仅可以为实现机器伦理奠定基础，而且也有助于促进哲学尤其是伦理学研究的发展。其次，从心理学和实验科学角度，研究各种文化背景下机器伦理的内在规律、机器伦理与人类伦理的关系，以及情感表达在机器伦理中的作用机制等。与西方文化不同，中华文化有自己的内在特质。如何借助大语言模型，探究东西方文化的共同点和差异性以及它们对机器伦理的影响，是一个值得研究的重要课题。这些研究不仅有助于加深对机器伦理本质和特点的认识，也可以为制定政策和法律规范提供依据。再次，从逻辑学角度，研究包含规范、价值、偏好、情感等因素的逻辑系统的形式化表达和推理机制。尽管逻辑系统的适用性有特定的范围，但在给定条件下，可以确保机器在决策时具备良好的功能和性能。例如，通过建模，让机器的行为满足特定的条件，可以防止机器在决策和行动时发生重大错误。与此同时，逻辑学方向的研究也可以把哲学层面的概念及方法与人工智能层面的算法连接起来，起到重要的桥梁作用。最后，从计算机科学和人工智能角度，研究具有可解释性、透明性和因果性的人工智能系统，建立能够与人类开展自然交互的对话系统，以及设计领域相关的机器伦理测试标准等。这些技术上的进步不仅可以提高机器为人类服务的能力，而且可以为实现机器伦理提供有效手段。值得注意的是，随着机器自主决策和行动能力的不断提高，机器与人类相互影响的程度日益加深。在此背景下，研究如何利用技术来管理技术，将是一个长期发展的重要路径。例如，借助机器的可解释能力和基于因果的责任归因能力，可在机器决策及行动带来伦理和法律问题时，提供技术上的支撑。

由于机器伦理研究具有很强的学科交叉性，上述分学科讨论只是为了论述上的方便。为了解决机器伦理所面临的挑战性问题，通常需要多学科概念和方法的交叉运用和综合集成。其中，哲学、心理学和实验科学等领域的研究可以明晰概念、发现规律、提供方法和原理；逻辑学、数学等领域的研究可以在相关概念和原理的基础上建立逻辑模型、数学模型；计算机和人工智能等领域的研究则可以基于特定的哲学原理、逻辑模型及数学模型，建立相应的算法、系统和验证工具。反过来，新的人工智能系统产生的数据、知识、社会影响等又会促进哲学社会科学以及经验科学的研究。通过这样的良性循环，相信机器伦理的研究和应用水平能够螺旋式地上升，使得人工智能的发展真正造福人类。

〔本文注释内容略〕

作者廖备水，浙江大学哲学学院教授（杭州310058）。

来源：《中国社会科学》2024年第2期P126—P142

廖备水：机器伦理的哲学基础、基本特征与实现方法

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏