张卫华:人工智能在军事决策中的应用及其人道法问题

选择字号:   本文共阅读 73 次 更新时间:2026-01-13 21:05

进入专题: 人工智能   军事决策   国际人道法   算法偏见  

张卫华  

 

摘要:人工智能在军事决策支持系统,尤其是在战场目标识别与定位中的深度集成,显著提升了作战效能,但其伴随的平民伤亡问题亦引发广泛批评。尽管人工智能技术蕴含提高打击精度、减少附带损害的人道潜力,但其固有的不稳定性、不可解释性与不可预测性,对国际人道法的有效遵守构成根本挑战。当前实战部署的人工智能决策支持系统已远超传统“支持”角色,实质上替代了关键的人类决策环节。这种深度自主化趋势,叠加人工智能技术内在的“语义鸿沟”和算法偏见风险,更加放大了人道风险。为有效应对此种风险,首先要确保人类具有实质控制权,保障人类在关键决策回路中拥有充分的参与、监督与最终判断权。其次应当从技术进步与法律完善两个方面采取措施。一方面,着力提升人工智能系统的可解释性与可预测性;研发并部署有效的算法偏见检测与缓解技术;建立覆盖全生命周期的严格测试与验证机制。另一方面,推动建立对于人工智能军事决策支持系统的国内法律审查制度,并启动国际法上的问责机制,追究相关国家的国际责任,以及相关行为人的刑事责任,确保此类系统部署与使用严格符合国际人道法要求。

关键词:人工智能;军事决策;人工智能决策支持系统;国际人道法;算法偏见

 

一、引言

人工智能的快速发展,正在以前所未有的速度改变着各行各业,军事领域也不例外。在过去的十余年中,关于人工智能应用于军事领域的讨论主要集中于“致命性自主武器系统”(Lethal Autonomous Weapons Systems)。这主要是因为《特定常规武器公约》缔约国对该问题进行了长期持续讨论。然而近年来,人们越来越意识到武器系统只是人工智能在军事领域应用的众多形式之一,其实际应用范围远超于此。人工智能技术能够有效提升对海量数据的快速分析能力,正被广泛应用于各类军事决策任务——从后勤补给、兵员征募到情报分析与目标锁定等不同风险层级的领域,这类系统通常被称为“人工智能决策支持系统”(Artificial Intelligence Decision Support Systems)。

事实上,美国、英国及北大西洋公约组织(North Atlantic Treaty Organization)的政策制定者已发布国防战略,明确指出在未来十年中,数据(而非机器人技术或致命性自主武器)将成为关键性的使能因素(enabler)。与此同时,在乌克兰和加沙战场,人工智能决策支持系统所发挥的重要作用,远远超过了人工智能支持下的机器人系统或者自主武器系统。而更具争议的是以色列在加沙地区军事行动中所使用的多个人工智能系统,因造成大量平民伤亡而遭致批评。尽管人工智能决策支持系统与致命性自主武器系统的底层技术非常相似,而且一些人工智能决策支持系统(如用于自动目标识别和定位的系统)也可能成为自主武器系统的一部分,但是二者的军事应用却引发了不同的人道主义关切和法律问题。战争和武装冲突的残酷性意味着,当人工智能决策支持系统在武装冲突中被用于作出使用武力的决策时,其引发的挑战与风险很可能被急剧放大。鉴于这类决策对民众生命尊严及社会群体可能造成的重大影响,其潜在隐患尤其值得警惕。

与致命性自主武器系统的情形一样,仍然是红十字国际委员会(ICRC)首先关注到了人工智能军事决策支持系统的人道风险。该委员会在2019年6月发布研究报告《武装冲突中的人工智能与机器学习:以人为本的方法》,较早地对人工智能用于军事决策领域所产生的问题进行了探讨。该委员会在2024年先后发布了专家咨询报告《人工智能及相关技术在武装冲突中使用武力的军事决策中的应用:当前发展与潜在影响》和顾问报告《决策,决策,决策:军事决策中的计算与人工智能》。这两份报告全面研究了人工智能决策支持系统在军事领域的应用情况,特别是提出了在武装冲突中对使用武力的决策保留人类判断力的必要性,以及应对人类与人工智能决策支持系统交互的现有挑战的方法。这两份报告对我们理解和研究人工智能用于军事决策所产生的各种影响具有重要价值。同时,红十字国际委员会还推出了名为“人工智能在军事决策中的应用”的法律博客。该博客发表的一系列文章对于该问题的研究也颇有助益。此外,南丹麦大学战争研究中心(Center for War Study)于2024年11月发表的研究报告《人工智能在军事决策支持系统中的应用:发展与争论综述》,回顾了截至2024年9月该报告撰写时人工智能决策支持系统的主要发展情况,重点分析了此类系统各种具体应用带来的机遇与挑战的主要争论,尤其对战争中人机交互问题进行了深入分析。该报告也是我们研究当前问题的一份重要文献。最后,一些国际人道法学者受到俄乌冲突和加沙冲突引发的人道危机触动发表的评论文章,也为研究当前问题的性质和范围提供了重要参考文献。

人工智能等新兴技术的军事化应用绝非必然。这是主权国家自主选择的结果,此类选择必须受限于现行法律规则,并充分考虑对平民及退出敌对行动的战斗员可能造成的人道影响,同时兼顾更广泛的“人性”与“公众良知”要求。近期,一些国家或其有关部门制定了人工智能原则和政策来管控人工智能的军事应用。中国外交部也先后发布了《中国关于规范人工智能军事应用的立场文件》(2021年12月)、《中国关于加强人工智能伦理治理的立场文件》(2022年11月)以及《全球人工智能治理倡议》(2023年10月),全面阐述了中国在人工智能军事应用问题上的观点和立场。这些文件不仅为中国制定相关立法和政策提供了重要指引,而且为推动当前围绕人工智能国际治理所进行的国际谈判作出了重要贡献。

人工智能用于军事决策的问题在国际社会已经引发广泛讨论,但是尚未引起中国国际法学者的充分关注。本文将首先考察人工智能军事支持系统的概念及其应用场景,接着简要介绍几种当前在武装冲突中实际部署的此类系统的代表类型,然后以这些系统的实际运行情况为依据,重点分析人工智能决策支持系统所带来的各种人道主义挑战与风险,最后尝试从技术和法律层面提出缓解人道风险的对策建议。

二、人工智能军事决策支持系统的概念和应用场景

决策支持系统(Decision Support Systems)是通过呈现决策相关信息或提供备选方案,辅助人类完成复杂决策的计算机化工具(computerized tools)。此类系统广泛应用于医疗、商业管理、物流等诸多领域,甚至日益融入日常生活。例如,旅游网站整合餐厅位置、价格及用户评价辅助用餐决策;导航软件基于实时路况(如拥堵、道路施工、测速摄像头)规划最优路线。在军事冲突中,决策支持系统在指挥链的多个层级和各种不同任务中发挥着与民用系统类似的功能。军用决策支持系统的主要目的是为各级军事决策者提供信息,帮助其作出有效、快速、合法的军事行动决策。传统非人工智能驱动的决策支持系统,在处理复杂多变的情况时存在明显的局限性,这是因为人类很难对各种变量进行编码。而新一代的决策支持系统正在利用人工智能强大的计算能力,尤其是机器学习和深度学习技术,开发技术解决方案以协助人类作出军事决策。随着人工智能技术的跨越式进步,这种趋势还在日益增强。

(一)人工智能军事决策支持系统的定义和特征

随着传感器、无人机和物联网在军事领域的应用激增,各国收集数据(情报)的能力显著提高,使得各级军事单位均需要处理大量数据,这样就增加了对自动化处理数据的技术解决方案的需求。人工智能可以汇集不同来源的数据(主要包括卫星图像、无人机图像、传感器数据、社交媒体或者手机信号),并运用其机器学习(尤其是深度学习)能力,向决策者提供分析、建议和预测。对武装部队而言,人工智能决策支持系统相较于现有指挥和控制结构,可以大幅提升军事决策效率并缩短决策周期。这将在武装冲突中产生决定性的军事优势。

简而言之,人工智能军事决策支持系统就是使用了人工智能技术的军事决策支持系统。南丹麦大学战争研究中心组织编写的一份报告将其定义为:“基于模型的程序集合,用于处理数据与研判结果,协助指挥链不同层级的决策者处理半结构化及非结构化决策任务。”红十字国际委员会的两位专家也提供了一个类似的定义:人工智能军事决策支持系统“是运用人工智能软件进行数据展示、整合与分析,并在某些情况下生成行动建议甚至战局预判的计算机化工具,旨在辅助战场环境下的人类作战决策”。从技术角度讲,人工智能技术的加入给原有的决策支持系统带来了新的特征,这些特征对于使用了此类系统的人类指挥官在作出决策时是否能够遵守国际人道法具有重大影响。其中有些方面,如加快数据处理与分析、增强态势感知、进行预测与模拟、优化资源分配、减少人为错误等,不仅可以提高军事效能,而且有助于人类指挥官遵守国际人道法,而另一些技术特征则会对人道法的遵守和适用构成挑战。人工智能军事决策支持系统具有如下特征。

第一,人工智能决策支持系统具有不确定性(uncertainty)。许多传统的决策支持系统采用基于规则的计算机模型和算法,其结果具有确定性。换言之,对于相同的输入总是产生相同的输出,因此,这类系统对用户来说是可预测且易于理解的。传统系统在处理复杂问题、考虑未观察变量、计算大量条件和参数、解决“非结构化”问题,以及处理无法“脚本化”(即以特定规则编码)到软件中的动态情况时,能力相对有限。相比之下,基于机器学习的人工智能决策支持系统采用“非确定性”模型(亦称“概率”模型或“随机”模型),此类模型由计算机基于包含输入和期望输出示例的训练数据集开发。这类系统无需编写那些可能无法完全捕捉问题复杂性的抽象规则,因此,在处理复杂任务时的表现会更优。然而由于模型引入随机性以应对环境变量,相同或相似输入可能产生不同输出。这导致难以对系统决策逻辑进行解释,且难以对在具体使用场景中的行为表现进行精确预测。这种不确定性是人工智能的技术特征所决定的,并进而产生了这种新型决策系统的另外两个特征:不可解释性(unexplainability)和不可预测性(unpredictability)。

第二,人工智能决策支持系统具有不可解释性。基于机器学习模型的人工智能系统所产生的结果通常具有不可解释性。这也被称为“黑箱”困境,即人工智能系统的开发者和使用者无法对其产生的结果进行解释。阿瑟·霍兰德·米歇尔(Arthur Holland Michel)将计算领域的“黑箱”定义为“一个我们知晓输入输出,却无法窥见其将前者转化为后者过程的系统”。他还指出,人工智能系统——尤其是军事领域应用的系统——应当做到“行为符合预期”(即可预测),且应基于可被人类理解的合理逻辑运行。由此引出一个法律难题:当人工智能系统的决策可能无法解释时,在多大程度上允许使用严重依赖此类系统的武器或作战方法。“黑箱”困境导致人类决策者更加难以恰当评估人工智能决策支持系统输出结果的质量,也难以化解自身判断与系统建议之间的潜在冲突。某些人工智能系统甚至对其创造者而言都难以破译,更不用说那些没有技术背景的使用者或受其决策影响的对象。然而,若不能解释一个系统的运作逻辑,不仅难以评估其运行状态是否正常,也难以预判系统的未来行为——这意味着增强解释能力可提升预测能力。与此同时,开发“可解释性”功能的尝试也面临艰难平衡——既要通过“解释”使机器学习系统的输出简单易懂,又要避免因过度简化而失真的风险。

第三,人工智能决策支持系统具有不可预测性。可预测性指系统输出或效果可被预见的程度,即能够回答“系统将执行何种操作”的程度。缺少可预测性(即不可预测性)包含三重具有本质差异的维度。(1)技术维度的“可预测性”通常指系统执行任务时保持与测试阶段、先前应用场景(或机器学习系统中的训练数据)相同性能表现的能力。这种可预测性具体体现为:系统输出结果的正确频率(即准确度);随时间推移维持相同准确度的能力(即可复现性与可重复性);以及系统对超出设计/训练/测试数据范围的输入数据进行“泛化”处理的能力——即适应并有效处理与原始数据存在差异的新数据。(2)操作维度的“可预测性”指向自主系统具体行动的可预见程度。即使做到零故障且行动结果大体可预判,所有自主系统依旧会存在固有的操作不可预测性。举例来说,设想一架完全自主的无人机被用于绘制地下隧道网络的内部地图。即使该无人机具有高度的技术可预测性和极高的可靠性,部署它的人也不可能准确预知它在隧道中会遇到什么,因此也无法事先知道它将采取哪些具体行动。这是因为技术上的可预测性仅关乎系统性能,而操作上的可预测性则同时受部署环境与任务特性制约。(3)技术与操作可预测性/不可预测性的交互产生了第三种一般意义上的可预测性/不可预测性:系统使用的结果或效果能够被预期的程度。

(二)人工智能决策支持系统在军事领域的应用场景

随着决策支持系统的发展,特别是通过集成机器学习等强大的人工智能技术,多个技术领先的军事强国开始在广泛的任务类型和不同的指挥层级中追求和利用这一能力。上文对人工智能军事决策支持系统给出了一个宽泛的定义,军事决策范围可以涵盖从维护保障、后勤补给、人员与武器管理直至武力使用的广泛领域,因此,此类系统在军用领域有着广泛的应用场景。

在战略层面(strategic level),人工智能决策支持系统的应用包括行动方案分析、早期预警、跟踪、指导以及用于兵棋推演模型的模拟。人工智能决策支持系统可以帮助重现潜在场景,预测对手可能的反应,并评估针对特定目标部署特定武器的可能效果和损害。在这些任务中使用人工智能决策支持系统有助于制定或调整军事战略。然而,对于在战略层面使用人工智能决策支持系统的情况,公众所知甚少。截至2024年9月,大多数报告提到的人工智能决策支持系统在武力使用决策中的案例集中在军事行动和战术层面。

在(整个)军事行动层面(operational level),战略目标和指导方针被转化为战术部队的具体任务,这一过程包括多个武力使用的关键决策,如目标的分析、选择和优先级排序,以及选择武器和评估附带损害后果。决策者可以利用人工智能决策支持系统探测物体和人员,处理数据和情报,以及评估潜在目标的合法性。尤其是那些基于机器学习的系统还能通过社交网络分析、预测个体行为特征。例如,依据目标人员在组织网络中的关联对象,推断其与恐怖组织的疑似关联度,或判定其在组织架构中的层级地位。

在战术层面(tactical level),决策者需要评估目标的性质、所使用的各种武器及其各自的影响,以及任何潜在的意外后果。与此同时,决策者还决定是否需要调整装备和军事人员的部署,以符合法律、军事原则或其他要求,并考虑战场的实际情况。在执行军事任务时,决策者会收集和评估信息及情报,以识别和跟踪目标,或进行附带损害评估,以决定是否继续攻击,或暂停或取消攻击。此时,融合了人工智能技术的决策支持系统,可实时获取战场信息并为具体战术决策提供可执行建议。指挥官借助人工智能决策支持系统,通过处理实时情报并综合评估以下要素,确定所谓“最优”武器选择:(1)目标地理位置;(2)武器打击效能;(3)平民伤亡最小化方案。

军事行动层面和战术层面的人工智能决策支持系统通常整合多源数据,包括卫星影像、地理定位信息、通信截获情报。需要特别指出的是,部分系统仅提供态势信息,而另外一些系统则具备生成情报的能力,可能对使用武力的决策产生实质影响。在军事决策体系中,人工智能决策支持系统常被整合至所谓“OODA循环模型”,即“观察(Observe)—调整(Orient)—决策(Decide)—行动(Act)”的动态决策框架。这一模型概述了随着事件发生而不断演变的军事决策过程。在“观察”阶段,涉及收集相关数据和信息,这些数据和信息在对目标进行识别和定位(targeting)的时候被分析和处理。在“调整”阶段,根据上一阶段获取的信息,对原有计划进行调整。在“决策”阶段,指挥官选择最佳行动方案,而在“行动”阶段,人员根据情况执行或重新评估行动。理论上,人工智能决策支持系统可以在整个“OODA循环”中使用。这个所谓的“OODA循环”代表了军事行动的整个决策过程。

绝大多数军事决策均可被视为与武力使用存在直接或间接关联。例如,后勤决策(如兵力部署规划、武器装备运输调度)虽不直接涉及武力使用,却通过保障作战效能对其施加间接影响。然而,当前人工智能决策支持系统在军事领域所引发的争议主要集中于使用武力的决策系统。正如有学者所言,人工智能最具战略意义的发展方向是军事情报领域,尤其是用于目标识别和定位。因此,本文将聚焦于涉及目标识别、定位与武力使用等军事决策环节的人工智能支持系统。

三、当前人工智能军事决策支持系统的典型代表

在俄乌战场上,无人机已造成七成以上伤亡,成为战场杀伤的主要来源,乌克兰与俄罗斯正深陷一场人工智能驱动的无人机对抗,双方竞相研发自主技术以夺取战场优势。在另一个战场上,以色列对哈马斯等武装组织的连续军事行动,尤其是其所导致的大量平民伤亡引起国际社会的广泛关注。以色列国防军所使用的目标识别和定位机制——尤其是在作战流程中使用的多款人工智能系统——已成为最具争议的焦点。本文接下来将选取当今世界上最具代表性的几种人工智能军事决策支持系统,简要介绍其基本功能和技术特征。

(一)美国的“梅文”计划

美国国防部长期致力于军事决策数据的自动化处理与情报分析,其近期标志性行动是所谓“算法战争跨职能团队”计划(“Algorithmic Warfare Cross-Functional Team” programme),也称为“梅文”(Maven)计划。“梅文”计划是美国国防部于2017年启动的一项计划,旨在自动化分析无人机视频片段,以帮助识别敌方目标;训练用于识别特征的算法帮助处理海量数据。作为国防部核心倡议,“梅文”计划旨在通过计算机视觉和机器学习算法,基于无人机影像等预设数据库实现实时目标识别。与多数人工智能系统相似,该计划下开发的技术可用于多种用途,包括军事行动规划和目标识别与定位。

“梅文”计划能够识别和分类物体,准确区分坦克、卡车、雷达等系统。通过将这些数据整合到战场指挥界面中,“梅文”计划不仅能识别目标,还能推荐最佳打击策略。“梅文”计划的功能类似于大规模面部识别软件,就像此类系统可以在机场分析人群以识别特定个体一样,“梅文”计划处理战场数据流以定位潜在威胁。该系统的最重大进步之一是与地面移动目标指示(ground-moving target indicator)卫星的整合,这些卫星使用雷达探测运动,即使在云层或夜间也能持续跟踪目标。这种能力使其克服了传统光学系统的局限性,确保不间断地监控和识别地面目标。

“梅文”计划现在使用更多类型的数据:不仅包括卫星图像和无人机视频,还包括红外传感器、地理位置标签和多光谱传感器等所收集的信息。处理后的信息随后在“梅文”计划中呈现,该系统界面“整合了多个数据流”,使“指挥官能够一览整个战场”。例如,一些黄色框会高亮显示潜在目标,如船只或军事基地,而其他蓝色框则会划定禁打击区域,如民用基础设施。随后,指挥官将根据潜在行动方案作出决定,可能涉及使用武力。

(二)乌克兰的“三角洲”系统和“复仇者”系统

2022年2月24日俄乌冲突爆发后,俄乌战场成为了人工智能战的“试验场”,人工智能技术在武器系统(尤其是无人机)、情报分析和网络安全等领域发挥了前所未有的作用。当前乌克兰所使用的人工智能技术中,最为知名的当属“三角洲”(Delta)系统和“复仇者”(Avengers)系统,然而,由于安全和保密的缘故,公众对于这两个系统所知不多。

“三角洲”系统是乌克兰军事部门在俄乌冲突爆发后开发的一种态势感知(situational awareness)和战场管理系统。该系统整合来自军事侦察单位、政府民事官员、外国情报伙伴等不同参与者的信息,其来源包括商业和军用无人机、传感器网络、卫星图像和伙伴国的情报。该系统涵盖了广泛的战场管理任务,包括作战任务的规划、单位间的协调以及关于敌方位置信息的加密交换。“三角洲”系统所取得的成功引起了北约的关注,已有北约成员国计划向乌克兰购买该系统。

对于“复仇者”系统公众所知更少。该系统是“三角洲”生态系统的重要组成部分,由乌克兰国防部创新中心开发,通过自动分析无人机和固定摄像机拍摄的视频实现目标识别和目标锁定。在“复仇者”系统的帮助下,操作员能够更快速、更高效地作出决策,并降低因疲劳而犯错的风险。同时,该平台不断提升对各种军事装备的探测能力,即使在复杂条件下也能有效发现隐藏在树林中的坦克,或在泥泞道路上行驶的步兵战车。据媒体报道,“复仇者”系统在视频流中检测出了70%的敌方装备,仅需22秒即可锁定单一目标。

(三)以色列的“福音”“薰衣草”和“爸爸去哪儿了”系统

虽然公众对以色列的人工智能军事决策支持系统的相关信息仍然所知不多,但是相较其他军事强国而言,媒体对以色列的报道仍然是最为详细的。而且,由于以色列与其交战对手(例如哈马斯)相比在军事技术方面具有明显的领先优势,因此它在战场上也有余力使用融合了人工智能技术的精确打击手段。目前,媒体提到以色列军方使用的人工智能决策支持系统有七八种之多,本文挑选其中最具代表性的三种进行考察,它们分别是“福音”(The Gospel)系统、“薰衣草”(Lavender)系统和“爸爸去哪儿了”(Where’s Daddy?)系统。

“福音”系统通过算法处理监控数据以生成目标清单。据媒体报道,该系统将非人员目标分为3类:军事目标(含地道等地下设施)、涉恐嫌疑人住宅以及所谓“震慑目标”——即通过攻击民用设施“制造冲击”,从而“迫使平民向哈马斯施压”。相较于下文中将要介绍的“薰衣草”系统,“福音”的运作机制公开信息要少一些,但是,二者很可能同样采用正类无标签学习技术(positive unlabeled learning)进行目标判定。该系统的实质功能是界定建筑属于民用设施抑或军事目标,这种区分正是国际人道法要求攻击方必须履行的义务。

“薰衣草”系统运用机器学习技术,对加沙居民与武装组织存在关联的概率进行量化评分。据报道,以色列军官负责设定判定阈值——超过该数值的个体即被锁定为攻击对象,以军方曾含糊其辞地承认存在类似工具,仅称其为“用于交叉验证情报来源的数据库”。根据媒体对以军情报人员的访谈,“薰衣草”系统生成的行动建议会提交给以军情报分析人员审核,审核后的建议有时会呈报军事指挥官。最终是否对目标实施打击的决定权由军事指挥官掌握。“薰衣草”系统基一种机器学习算法,其识别机制源于对多源数据的综合分析,包括目标人物的家族关系、手机通信数据以及线上线下行为监控。与仅用于区分战场物体的分类算法不同,“薰衣草”系统的目标发现功能无法通过偶尔收集标注训练数据或合成输入数据来实现。从本质而言,此类系统必须依赖持续监控目标群体的大规模监控基础设施,唯有通过这种不间断监控,系统才能检测出可能的敌对行为、需要采取安全干预(包括致命性打击行动)的异常行为模式。

“爸爸去哪儿了”系统利用了手机定位追踪技术,当被锁定为军事目标的人员进入特定地点(报道称多为家庭住所)时,该系统会实时向以军操作员发出警报,该地点随即成为可实施打击的位置。对于以色列使用人工智能在加沙“摧毁家园”的报道,联合国专家表示:“如果这一令人震惊的披露得到证实,即以色列军方确实使用了‘福音’‘薰衣草’和‘爸爸去哪儿了’等人工智能系统实施攻击,再加上以色列并未充分遵守人权尽职原则以避免或减少平民伤亡和基础设施破坏,就可以解释为何加沙的死亡人数和房屋破坏程度如此之高”,“我们尤其感到关切的是,以色列……对可能同在打击范围内或附近的平民的安危毫不关心”。

各国研发和部署各种人工智能军事决策支持系统,主要是着眼于其军事利益,然而这些系统在实现人道主义目的方面的潜力也不容忽视。从军事角度看,将人工智能决策支持系统融入武力使用决策的主要优势在于速度与规模的双重提升,其核心价值正在于运用计算科学、人工智能及机器学习技术,协助处理分析跨源情报信息流,这在作战与目标锁定环节尤为关键。这是因为速度与效率被视为战场制胜要素。采用人工智能系统加速信息处理,常与缩短“OODA循环”直接关联,使指挥官得以更快决策,进而推动其军队比对手更迅速达成作战目标。与此同时,专家们也注意到了人工智能决策支持系统蕴含的实现人道主义目的的潜力。配备高效决策工具可提升遵守国际人道法的可能性,例如可以为确保有关决策遵守比例原则、区分原则及预防原则提供关键信息支撑。正如红十字国际委员会所强调,基于人工智能与机器学习的系统“能够加速扩大可用信息的收集与分析范围”,从而“可以辅助人类在军事行动中更好地遵守国际人道法,最大限度降低平民风险”。然而,同样不容忽视的是日益复杂的嵌入式人工智能系统(尤其是基于数据驱动型人工智能系统)已引发新的特定风险。此类挑战与人工智能在其他领域的应用困境具有同源性,但在武装冲突的特殊场景与军事决策的紧迫性叠加作用下,其风险可能被显著放大。鉴于此类决策攸关民众生命尊严及社群存续,这种风险放大效应尤需警惕。

四、当前人工智能军事决策支持系统对国际人道法的挑战

根据国际人道法,任何目标定位和攻击均需遵守区分原则、比例原则,并应采取一切可行的预防措施降低对平民的伤害。因此,各国在研发各种人工智能军事决策支持系统时,除追求军事效能外,还应考虑如何遵守国际人道法。基于人工智能和机器学习的决策支持系统,或许能通过更快、更广泛地收集和分析可用信息,帮助人类在开展敌对行动时作出更优决策,从而遵守国际人道法并减少对平民的风险。然而,过度依赖算法生成的分析或预测,也可能导致更糟糕的决策或违反国际人道法的行为,并加剧平民面临的风险,尤其是考虑到当前技术存在的局限性(如不可预测性、可解释性的缺失、偏见)更是如此。

(一)人机交互中的“语义鸿沟”风险

“语义鸿沟”(semantic gap)是指人工智能系统在抽象推理任务中的一种能力缺陷,即相较于人类决策者,人工智能决策支持系统虽能在技术上识别训练过的目标,却无法理解其深层含义与情境关联。这种认知缺失将显著提升系统“误判”风险(例如对人员或物体的错误标定),而类似错误在人类决策中几乎不会发生。在武力使用决策语境下,此类标定行为攸关生死。事实上,目标识别和定位的过程可能引发一系列国际人道法问题,包括对个体受保护地位的判定,而这一判定直接决定其是否可被合法攻击。而且更深层隐患在于,国际人道法要求武力使用的法律评估必须由人类完成,且其核心规则依赖人类的价值判断,例如“存疑时推定平民地位”原则,或对“预期附带平民伤害是否过度”的裁量(需对照具体军事利益进行评估)。人类决策者在这些价值判断中面临巨大挑战,此类主观裁量本质上也无法被编码为人工智能系统的机器流程,若允许人工智能系统执行此类价值判断,不仅将对民众生命造成不可逆的影响,更可能侵蚀人类尊严的根基。例如有媒体报道,2023年冲突爆发的初期阶段,以色列军方采取了前所未有的举措:每杀死一名“薰衣草”系统标记的哈马斯初级分子,就允许杀死最多15—20名平民,而且,如果目标是哈马斯营长或旅长级别的高级官员,以色列军方曾多次授权在暗杀一名指挥官时杀死超过100名平民。然而,在哈马斯实施“阿克萨洪水”行动之前,以色列军方在暗杀低级别武装分子时,不允许造成任何“附带损害”。当前这种情况严重违反了保护平民的区分原则和比例原则,与国际人道法的宗旨背道而驰。

(二)自动化偏见的风险

自动化偏见(Automation bias)指人类过度依赖自动化系统的认知倾向。人们常将繁琐任务委托给技术系统,认为自动化分析能力具有天然优势。其典型表现为两类失误:遗漏型失误(操作员忽略系统未能识别的异常)与盲从型失误(操作员未经审慎判断即采纳系统的错误建议)。基于人工智能的决策支持系统以超高速率分析数据并提出行动方案,其准确性常优于人类,导致用户自然产生信任依赖。这可能使操作者背离专业训练与战场直觉,即使在不适用场景下仍盲从系统输出。若系统建议恰好符合操作者偏好,由于用户更倾向于接受“舒适区”内的方案,该偏见将显著加剧。加之人工智能技术的“黑箱”特性使系统局限性与偏差难以察觉,认知鸿沟进一步催生非理性信任。在军事决策中,自动化偏见将引发灾难性后果:操作员若对人工智能的建议全盘接纳,可能导致战场附带损伤与非必要毁伤,违反国际人道法的比例原则和区分原则,最终酿成不可逆的人道代价。

事实上,人工智能决策系统生成目标的速度和规模也几乎没有给人类判断留有空间。人工智能系统的运行速度和规模使得人类操作员很难真正评估是否应当遵循某一目标定位建议。因此,在使用半自主系统时,操作员对结果的控制可能流于表面,操作员的作为和不作为可能无法为归责提供充分依据。根据《+972杂志》报道,“福音”系统每天可以生成100个目标,而以色列军方以往每年只能生成50个目标;而根据《+972杂志》的另一篇报道,以色列军方在军事行动初期全面批准军官采用“薰衣草”系统提供的杀戮名单,无需彻底核实机器作出这些选择的原因,也无需审查其所依据的原始情报数据,人类操作员通常只是机器决策的“橡皮图章”(a rubber stamp)。在通常情况下,尽管人类操作员已经知道该系统存在大约10%的错误率,且偶尔会标记仅与武装组织有微弱关联或毫无关联的人员,他们在授权轰炸前仍然只会亲自对每个目标进行“20秒”左右的观察,而其作用只是为了确保“薰衣草”标记的目标是男性。

(三)算法偏见的风险

“人工智能偏见”经常是指“算法偏见”(algorithmic bias),它是当前全世界人工智能法律与政策辩论的核心议题。事实上,算法偏见通常不是由算法本身引起的,而是由数据科学团队收集和编码训练数据的方式导致的,具体原因包括如下4个方面。(1)训练数据中的偏见。有缺陷的数据是指不具代表性、缺乏信息、有历史偏见或其他“糟糕”的数据。它导致算法产生不公平的结果,并放大数据中的任何偏见。在训练阶段,如果数据分类或评估不正确,也会产生偏见。(2)算法设计中的偏见。算法设计(编程错误)也会带来偏见,例如人工智能设计师在设计过程中对相关因素的权重不公平,可能在不知不觉中转移到系统中。加权通常是一种避免偏见的技术,因为它涉及调整数据以更好地反映实际人群。然而,它可能需要设计人员作出假设,这可能导致不准确并引入偏见。开发人员还可能根据自己有意识或无意识的偏见,在算法中植入主观规则。(3)代理数据中的偏见。人工智能系统有时使用代理作为受保护属性的替代品,例如种族或性别。但是,代理可能会无意中产生偏见,因为它们可能与原本要替换的敏感属性存在错误或意外的关联。(4)评估中的偏见。如果对算法结果的解读是基于相关个人的成见,而不是客观的结果,就会出现评估偏见。即使算法是中立的、数据驱动的,个人或企业对算法输出结果的应用也可能导致不公平的结果,这取决于他们如何理解输出结果。

在武装冲突中,很难获得针对特定军事决策任务的高质量、代表性训练数据。而且,在军事领域中,这些数据集及其包含的假设缺乏透明度。因此,人工智能决策支持系统生成“杀戮清单”(kill list)的能力尤为令人担忧。事实表明,这一过程所依赖的数据输入本身就带有已存在的社会偏见。这类数据会包含各类代理标签,例如用于识别恐怖分子嫌疑人的特定特征,而这些特征很可能隐含着既有的偏见,包括显性和隐性的种族及身份刻板印象。算法偏见导致人工智能决策支持系统在识别真正目标时可能发生错误和偏差,进而削弱了依赖此类系统的人类操作员遵守国际人道法(尤其是区分原则和比例原则)的能力。

五、中国的应对策略

中国高度重视人工智能军事应用带来的安全风险,呼吁各国尤其是大国对在军事领域研发和使用人工智能技术采取慎重负责的态度,反对利用人工智能技术优势危害他国主权和领土安全。虽然人工智能决策支持系统只是一种数字工具,而不是武器,但是它一旦应用于军事领域就应当受到国际人道法的约束。正如红十字国际委员会所强调:“任何新的战争技术都必须在使用时符合现有国际人道法的规则,并且必须能够以符合这些规则的方式使用。这是最低要求。”根据国际人道法,武装冲突当事方归根结底是人类,他们负有遵守法律的责任,且必须为违法行为承担法律责任。因此,涉及攻击合法性等法律问题时,必须由人类行使最终判断权。当然,这并不意味着决策者不得借助人工智能决策支持系统等技术工具辅助武力使用决策,解决问题的关键在于,应当在国际人道法的框架下,保留人类的控制权。中国应采取如下应对策略。

(一)确保人类参与和作出判断

国际人道法的约束对象是人类,遵守和执行法律的主体是人类,因违法行为被追究责任的也必然是人类。尤其需要强调的是,作战人员肩负着国际人道法对交战规则所作要求的独特裁量义务。这项责任既不能转移给机器,也不能转移给软件程序或算法。中国明确提出,“研发主体不断提高人工智能可解释性和可预测性,提升数据真实性和准确性,确保人工智能始终处于人类控制之下,打造可审核、可监督、可追溯、可信赖的人工智能技术”。在无法解决人工智能系统不确定性、不可解释性和不可预测性的前提下,为了确保对人工智能军事决策系统的使用符合国际人道法,就只能确保适当的人类参与,保留人类发挥其应有的能动性。换言之,在开发与使用人工智能军事决策支持系统的所有考量中,各国及武装冲突当事方必须确保:当决策攸关受冲突影响民众的生命权、自由权及人格尊严时,人类控制权与判断权必须得到保留。包括基于机器学习的决策支持系统在内,所有人工智能系统均应定位为一种辅助支持工具,而非削弱或剥夺人类决策能力的手段。唯有如此,方能切实保障国际人道法得到遵守,并捍卫基本伦理准则。

(二)探索技术解决方案

中国高度重视人工智能的技术安全,呼吁“各国应不断提升人工智能技术的安全性、可靠性和可控性,增强对人工智能技术的安全评估和管控能力”。一般而言,人工智能决策支持系统输出结果必须实现一定程度的可理解性和可预测性,在对武力使用作出决策时更是如此。因此,人工智能军事决策支持系统的研发者和使用者在设计、开发和使用阶段,不仅要考虑系统算法的先进性,从而实现研发该系统的军事目的,还要考虑如何提高该系统遵守国际人道法的能力。

一方面,要确保用于训练的数据的可靠性和代表性,降低出现算法偏见的风险。开发者和使用者应确保用于人工智能决策支持系统输入的数据集可靠、来源符合伦理且经过验证,并能代表操作环境,包括该系统预期使用的人文环境和平民环境,这些数据对于区分军事目标与民用物体以及确保遵守国际人道法至关重要。与此同时,开发者和使用者还应采取措施,减轻人工智能决策支持系统设计和使用中基于性别、种族、民族、残疾等类似形式的偏见,包括底层数据集和训练方法中的偏见。

另一方面,研发人员在开发阶段要强化测试和验证环节,确保系统的可靠性。开发人员应确保人工智能决策支持系统在模拟武装冲突复杂性的环境中接受严格测试和验证,包括快速变化的操作环境、对手可能采取的行为和欺骗策略,以及现实中的平民存在、活动、行动和反应;还应确保在人工智能决策支持系统的预期用途发生变更,或进行可能导致功能及效果改变的调整时,必须重新实施系统测试。此外,当行动后评估、战斗损伤评估或实际冲突运用中的经验教训表明系统输出未达预期时,开发方同样应启动重新测试程序。

(三)建立国内法律审查制度

1977年《第一附加议定书》第36条“新武器”规定:“在研究、发展、取得或采用新的武器、作战手段或方法时,缔约一方有义务断定,在某些或所有情况下,该新的武器、作战手段或方法的使用是否为本议定书或适用于该缔约一方的任何其他国际法规则所禁止。”虽然,人工智能军事决策支持系统本身并非武器,但是,它对武器的使用具有决定性的支持作用,而且,从广义上讲它实质上已经构成了整个武器系统的一部分,因此毫无疑问应当遵守上述条款的规定。而且,还有学者认为,“第36条的适用范围可以认为涵盖不属于‘武器’类别的人工智能应用,因为这类系统符合‘战争手段或方法’的定义”。事实上,“方法和手段”涵盖了最广义的武器和使用方式,将人工智能军事决策支持系统视为广义的“武器系统”的一部分,还是“作战手段或方法”,在实践中并没有什么区别。

中国明确提出,“各国应确保新武器及其作战手段符合国际人道主义法和其他适用的国际法,努力减少附带伤亡、降低人员财产损失”。中国2010年颁布生效的《武器装备管理条例》第2条规定,“本条例所称武器装备,是指实施和保障军事行动的武器、武器系统和军事技术器材”,“武器装备以及用于武器装备的计算机软件、专用元器件、配套产品、原材料的质量管理,适用本条例”。这里的计算机“软件”是与“硬件”相对应的概念,中国法律对“计算机软件”规定的外延非常宽泛,足以涵盖人工智能军事决策支持系统,因此,中国应当将人工智能决策支持系统纳入新武器的法律审查制度,在其作为武器系统的一部分或作为武器系统设计或预期使用过程的一部分时更是如此。例如,有学者建议在国家层面立法制定出台《人工智能武器研发和使用审查条例》,以加强对人工智能武器的法律监管。这些审查必须考虑相关系统技术特性,以及用户与其交互时的认知和行为倾向,如自动化偏差,以及在武装冲突中使用这些系统所面临的特殊挑战。而且,当人工智能决策支持系统以新方式使用或被修改从而改变其功能或效果时,必须更新此类审查。

(四)加强对人类用户的培训,明确有关系统的使用场景

中国不仅重视“对操作人员进行必要的培训”,还要求“各国应加强对人工智能潜在风险的研判”。因此,研发和部署人工智能决策支持系统的国家,应确保任何使用者接受特定培训,以充分了解系统如何运作、如何生成输出及其局限性和脆弱性(例如,易受对抗性攻击的弱点)。培训还应使使用者能够识别和缓解与此类系统交互时可能出现的人类认知倾向(例如,自动化偏差)的影响。这应通过在现实环境中的持续培训、演习和模拟来补充。与此同时,人工智能决策支持系统的使用必须限于经过专门且严格测试的场景。例如,仅在晴朗天气和白天操作中训练和测试以识别坦克的计算机视觉系统,不应在夜间操作或恶劣天气条件下使用;基于同样的理由,具有持续在线学习功能的人工智能决策支持系统因其不可预测性更高,故而要格外谨慎。有学者明确表示,不仅对人工智能决策支持系统在某些领域的使用要完全禁止,例如将其纳入核武器的指挥和控制系统之中,而且,对于具有持续学习功能的人工智能决策支持系统的使用亦应受到限制。

(五)保持人类控制,确保现有国际法问责机制有效运行

中国明确宣布“各国应始终坚持人类是最终责任主体”,并且支持“建立人工智能问责机制”。对违反国际人道法的国家和个人进行问责,是确保国际人道法得到遵守的重要保障。人工智能输出的各种技术指标永远不能替代人类依法作出的判断,例如判断某人或某物是否可以成为合法攻击目标。这些法律判定的责任和问责(accountability)在于个人及其指挥官,不能转移给机器或计算机程序;因为必须由人类遵守国际人道法,所以需要人类对攻击的合法性进行判断。同时,人工智能决策支持系统的运作方式以及人类用户与其输出的交互方式可能对问责程序带来挑战,在执行个人刑事责任时更是如此。

随着人工智能决策支持系统所承担任务的数量和范围的增加,以及其操作的算法架构变得更加复杂(包括通过使用机器学习),测试系统所有潜在错误来源或识别系统遇到未专门设计或验证的情境变得更加困难,这导致对传统战争责任追究渠道可能构成难题。特别是基于机器学习的系统,由于其扩大了潜在不可追责的伤害范围,更容易出现测试阶段、先验使用和评审中无法预料的错误模式,从而更倾向于以不可预测方式发生故障。而且,当单一系统错误贯穿决策全链条时,则可能触发责任弥散效应:众多参与者相互推诿,皆以“无法为情境判断失误导致的损害负全责”为由规避责任。鉴于失误既可能源于技术缺陷,亦可能来自人机交互故障,责任认定还将延伸至系统开发商、制造商及数据供应商。但是,对远离武力实施现场的这些主体追责面临根本性困境。这些因素共同折射出与致命性自主武器系统如出一辙的“问责缺口”(accountability gap)风险。

六、结语

随着人工智能技术在军事领域日益广泛的应用,它所带来的各种人道风险应当得到高度重视。从本文的论述中可以看到,这种新技术在提高作战效能的同时,也导致了人道灾难(主要是巨大的平民伤亡)的发生。整合了人工智能技术的军事决策支持系统,已经被相关国家在冲突中广泛使用,但是并未像致命性自主武器系统那样得到国际社会的重视。本文系统梳理了人工智能决策支持系统的主要应用场景和代表类型,深入分析了它所带来的人道主义风险及其背后的技术和社会原因,并从中国的角度提出了应对策略,希望能够为我们了解、重视和解决这个问题有所裨益。

作者:张卫华,中国社会科学院国际法研究所助理研究员。

来源:《国际法研究》2025年第6期。

    进入专题: 人工智能   军事决策   国际人道法   算法偏见  

本文责编:SuperAdmin
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 法学 > 国际法学
本文链接:https://www.aisixiang.com/data/171673.html

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2025 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统