刘永谋孙瑞璇：人工智能的文明危崖及其应对

摘要：全球性危机频繁出现，文明危崖问题被越来越多人所关注。在智能社会中，AI 导致生存性风险的可能性越来越大。 AI 武器失控与超级 AI 失控可能会导致全人类的毁灭，而 AI 被专制滥用则有可能导致文明不可挽回的衰退。具体而言，AI 生存性风险的情形体现于 AI 主导、AI 缺位以及人类主导三种人与 AI 的关系中，分别对应着技术乐观主义、技术悲观主义以及技术工具论的立场。应对文明危崖问题，关键在于坚持协同发展的总体策略，即坚持全球协同发展、人与 AI 的协同发展，贯彻综合性视角以及长期原则，并以技术控制的选择论重新构建人与 AI 之间的关系，在此基础上，从控制 AI、理解 AI 以及遏制 AI 滥用的角度提出具体的应对措施。

21 世纪以降，全球性问题加剧，尤其是新发病毒、全球变暖、环境污染以及人口爆炸，逐渐向着全球性灾难演化。越来越多的思想家开始担忧：人类已经进入到自我毁灭风险极高的时期，如同走在悬崖边的蜿蜒小径，稍有不慎，便可能坠入万劫不复的深渊。在未来一两个世纪中，人类文明会不会自我毁灭，或者陷入全局性崩溃，不再有任何重新提振的可能？这就是广为关注的所谓文明危崖问题。

在文明危崖问题的讨论中，人工智能(Artificial Intelligence，以下简称AI)发展所引发的问题获得越来越多的关注。里斯(Martin Rees)指出，“新科技的发展带来了一个意想不到的结果，即个体的力量可能引发巨大的影响”，于是新科技尤其 AI 所带来的潜在风险达到前所未有的程度。智能革命的社会冲击昭然若揭，比如生成式 AI 兴起使得就业、教育和意识形态的风险成为公共性议题，最近 DeepSeek的“AI 幻觉”就引发业内热议。如果当 AI 的发展跨越“奇点”，即智能水平超越人类时，未来风险可能会更加严重与不可控制，足以让我们跌下文明危崖。正如萨根(Carl Sagan)所指出的，“手握这种力量的我们，需要具备前所未有的深思熟虑和远见卓识。”因此，必须对 AI 与文明危崖的关系问题进行研究，以防止在 AI 大规模应用的情境下导致人类生存面临威胁。显然，这既是技术问题，又是人类发展问题。

一、AI 时代的文明危崖问题

在历史上世界末日的想象由来有自，在工业革命后逐渐演化成技术末世论的喧嚣。作为技术末世论的新形式，文明危崖论兴起与新科技革命紧密相关。智能技术大发展，不仅加大旧有的风险，还带来全新的威胁。文明危崖不再是单纯的想象或猜测，而是变成了一种真实且迫在眉睫的危险。

(一)文明危崖论引发诸多争论

文明危崖论聚焦人类社会存续，认为未来人类文明将会走向终结，主要包括两种情形：一种情形是人类彻底灭绝。例如，某些突如其来的灾难性事件，包括小行星撞击地球、超级火山爆发、核战争或全球性瘟疫等，导致幸存下来的人类数量减少到无法维持人种可持续繁衍，最后人类灭绝，文明消亡。另一种情形则是未来人类文明继续繁荣的能力被剥夺。例如，超级大型灾难的降临虽然并未使人类灭绝，但却导致地球环境的全面衰败，导致最终人类文明倒退回农耕时代之前的原始状态，且再次重建的可能性十分渺茫。

文明危崖问题源于一系列的“生存性风险”(Existential Risks)的爆发。它指的是威胁到人类长期发展潜力的种种风险，而发展潜力是指人类未来可能实现的所有可能性。依据影响范围与影响程度，奥德对生存性风险进行衡量。它具有两大特征：(1)全局性，即影响范围之广，波及全球每一个人，影响程度之深，足以彻底抹去人类的未来所有可能性；(2)决定性，即并不能通过小风险的多次叠加产生，并且风险成为现实之后，无法对损害结果进行挽救。生存性风险一旦发生，整个人类社会或将不可避免地走向终结，彻底陷入无法挽回的悲惨境地。

总的来说，文明危崖问题关乎人类世界的生死存亡，但却一直不被重视，文明危崖论也招致不少人的质疑。原因主要有三：第一，文明危崖距离我们似乎有些遥远，文明史肇始以来从未发生，人们难以对其有清晰的认识。从行为心理学的角度来看，人们往往会基于“可获得性启发” (Availability Heuristic)，即通过回忆起类似事件来估算事件发生的可能性，但这同时也意味着往往会低估未曾发生过的事件的可能性。第二，与那些目前尚未显露的生存性风险相比，当前亟待解决的各类问题显然更为紧迫。文明危崖往往被定位于遥远的未来，而我们现在所拥有的行动资源与应对能力却是有限的。因此，人们常常觉得与其将有限的精力与资源投入到那些不确定的风险的应对上，倒不如将关注焦点转回到当下，去解决那些已经显现且直接威胁到我们的各种不公、矛盾与风险。第三，以文明危崖为主题的文艺作品、热点话题等大众化、娱乐化传播，以搞笑、恐吓、戏谑等方式想象文明危崖，逐渐使得人们变得麻木。身处在这类虚幻宣传信息的包围之中，人们对文明危崖的认知与情感态度势必会受到影响，可能认为文明危崖已是陈词滥调，也可能陷入某种极端悲观情绪，从而不再给予文明危崖问题应有的有效重视。然而，文明危崖问题在 21 世纪的逼近，逐渐成为不容忽视的严峻现实，恰恰是在人类社会对它的普遍忽视中发生的。

(二)新科技发展加剧文明危崖

文明危崖论并非突然出现，可以溯源至自古就有的末世论相关的讨论中。在古代，末世论主要出现于神话和宗教中。随着现代科学的兴起，宗教信条不断衰落，热力学建立与发展，机械能的耗散被看作是自然界的基本规律，加之各种灭绝物种的发现，人类开始反思世界末日与人类灭绝在科学上的可能性，将世界末日定位于遥远的未来。在科学图景中，太阳的热量终将熄灭，地球发展将会停滞，地球或宇宙将演变得越来越不适合生命，直到根本没有生命存在。 20 世纪下半叶以来，随着对自然与人为方面生存性风险的深入研究，人们发现文明面临的威胁远不止于此。各种生存性风险均以不同方式和速度增加文明危崖发生的可能性，使得文明危崖不再仅仅停留于对未来的抽象设想，而是成为需要当下予以高度重视和积极应对的问题。

有关文明危崖的讨论，关注点更多汇聚在自然的生存性风险方面，常常认为自然方面的风险是最有可能导致人类文明覆灭的威胁。例如，火山爆发的研究关注“火山冬天”现象，即火山喷发之后，大量的火山灰和气体被输送到大气层，从而造成完全的黑暗或者温度的骤降，连续的“冬天”可能将人类推向灭绝的悬崖边缘；小行星和彗星撞击研究则指出，彗星与陨石的撞击不仅带来巨大的爆炸能量，还会使巨大的潮汐波、数万亿吨的尘埃喷射到大气中，黑暗将会持续数月之久，以及可能伴随而来的剧烈降温等等皆会对人类的生存产生威胁。此类讨论主要关注各种非人为的自然风险，尽管被科学证据清晰地呈现出来，但仍被认为是偶然而遥远的。

随着现代科学技术对社会冲击和影响越来越大，越来越多自然风险呈现出一种科技相关性。吉登斯(Anthony Giddens)指出，随着科学技术的发展，基本不再存在不受人类影响的自然环境，自然被“社会化”，当今自然的社会化意味着从前各种各样的自然系统现在已是人类决策的产物。人类自身仍然保留了不断进化的能力，通过不断进化以适应环境挑战，确保自身的延续，但是新科技带来的挑战却不再给予人类缓慢适应的时间，而是真正有可能使人类完全覆灭。科技加剧了已有的自然风险，不仅扩展了自然风险的影响范围，还加深了自然风险的影响程度。埃利希(Paul Ehrlich)预言人类因此走向灭绝，人类种群和人类活动扩张不可避免地导致的栖息地破坏、当前生物多样性减少的趋势意味着未来 100年内文明的终结，危害堪比核冬天。科技还促使新的自然风险产生，戴蒙德指出，21 世纪新增的威胁文明的四种生态破坏，即人为导致的气候变化、有毒化学物品沉积、能源短缺、地球光合作用能力发挥到极致，明显与科技的迅猛发展有关。

智能革命方兴未艾，尤其是信息和通信技术、纳米技术、生物技术、机器人技术和人工智能技术的崛起，更是引发了一系列人为的生存性风险。新的生物产品与生物体是否有可能无意中释放到环境之中，导致新的大流行病与环境问题，或是相关的生物信息泄露导致被恶意使用，引发恐怖主义行动？瓦拉赫指出，实验室安全程序的规定“在新的时代有些跟不上要求，因为现在制造生物产品的场所开始从相对来说更加安全的政府实验室向私人实验室转移”。德雷克斯勒(K. Eric Drexler)认为，纳米技术设备能够更快速运行，能够更容易完成复杂的构建任务，因此可以更加快速与有效地制造任何东西，这不仅可能使得纳米技术被用来制造大规模的杀伤武器，还有可能导致其造物侵占生物圈内的其他生物的生存空间，如“使用太阳能电池的人造植物可以胜过真正的植物，用不可食用的叶子挤满生物圈……几天内生物圈将化为尘埃”。

总的来说，当下各种灭绝性的风险，实际都与科技有关。科技所造成的生存性风险，实际来源于新科技具有的强大性、双重应用性以及难以预测性的特征。

第一，新科技力量更为强大。新科技不仅让人类拥有前所未有的认识与改造自然的伟力，更重塑当代生活方式，甚至重新定义人类自身存在。新科技的能力越大，越可能造成更灾难性后果。正如托雷斯(émile P. Torres)指出“如果技术奇点真的发生，它可能会在‘几个月、几天甚至几小时’内从根本上和不可逆转地改变世界，使其‘面目全非’，并可能在此过程中摧毁整个人类物种。”

第二，新科技的双重应用性。技术应用既可以向善，也可以向恶，决定技术如何应用的权力往往掌握在少数人手中。例如，基因技术既可以被用于基因检测与诊断、遗传病治疗与基因治疗，延长人类存续，增加人类福祉，也可以被用于制造生物武器以及新的病原体，威胁人类生存。而双重应用性也导致了新科技发展难以暂停，即当新科技呈现出一系列的潜在风险时，由于这些技术的有益用途与经济利益，人类往往并不会暂停其发展，因而难以有效规避技术风险。

第三，新科技影响难以预测性。当代技术研发日益变得复杂且高度专业化，技术背后所属更大的社会技术系统变得更为复杂。佩罗(Charles Perrow)认为，具有“紧密耦合”与“复杂作用”特性的系统更容易发生意想不到的事故，社会技术系统便是这样的系统。当它的某个部分出现问题，影响将会扩散，导致各种方面问题频发，人类难以检查出错误所在；它的各个部分很少有松动或缓冲，一个部分出现问题，往往会影响到其他的部分，即使让其停下来，以其运行速度，所造成的影响仍会扩散。因此，难以准确预知社会技术系统可能引发的风险及影响程度。

因此，文明危崖论本质上是一种技术失控(out of control)论，即担忧技术不再只是人类手中的工具，而是有自身的自主性，可能或正在脱离人类的掌控，人类最终难逃被技术异化甚至是毁灭的命运。

(三)人工智能与文明危崖相关

库兹韦尔(Ray Kurzweil)预测，2045 年人类将与 AI 融合以实现能力的大幅度增强，而目前“人类迈向奇点的千年征程已经步入冲刺阶段”，“到 21 世纪 30 年代，不断进步的 AI 和日渐成熟的纳米技术将以前所未有的方式促进人机结合，这将进一步放大可能的希望与潜在的危机”。 “AI 奇点论”拥趸不少，激发很多对 AI 进化尤其是超级 AI 兴起与文明危崖之间关系的思考，尤其是有两个问题备受关注：

第一个问题，AI 特别是超级 AI 会不会在总体上威胁人类文明？

很多人认为，AI 的发展尤其发展至智能水平全面超过人类的阶段——即超级 AI 出现——可能会严重威胁人类生存。一些人认为，DeepSeek 的出色表现证明通用人工智能(AGI)正在到来，这是 AI 向超级 AI 进化的重要节点。 AI 可能会直接灭绝人类，例如博斯特罗姆(Nick Bostrom)认为超级 AI 为了生存与繁荣，将会无限制地追求资源获取，甚至可能将人类自身看作有用资源，从而导致人类迅速灭亡，人类文明从而也不复存在。 AI 也有可能会对人类进行压迫，从而使文明陷入黑暗。 DeepSeek 的强大能力意味着更多的人尤其是脑力工作者可能失去工作，此种趋势发展下去结果可能是 AI 全面取代人类劳动，彼时人类文明很可能失去活力和创造开拓精神，进而是智人身心两方面的退化。例如泰格马克(Max Tegmark)所提出的动物园、1984、逆转等情形中，人类受到 AI 的压迫与控制，甚至消失于世间，AI接管世界。大量科幻文艺作品如《黑客帝国》《机械公敌》等，也想象超级 AI 失去控制，试图毁灭人类的情形。

类似推测技术敌托邦色彩明显，认为技术注定带来风险、伤害和苦难，最终结果是机器毁灭文明。与之相对的是技术乌托邦主义，相信技术能解决所有问题，引领人类社会走向光明未来。这两种极端立场意象鲜明，被大众传媒广泛传播，影响社会公众对 AI 的认知。因此，面对 AI 相关问题，人们容易走向极端，或者过于乐观，或者产生恐慌。这是审视 AI 文明危崖问题必须警惕的错误倾向。

第二个问题，对于生存性风险的应对，AI 是否有所助益？

首先，应不应当积极应对生存性风险？面对生存性风险，应该破除宿命论，认真研究，积极应对。第一，文明危崖并非遥不可及，而是迫在眉睫，必须予以关注和应对。第二，新科技风险已经显现，放任不管只会加剧社会矛盾。第三，人类社会并不单纯由技术所决定，使用新科技以及应对风险的不同方式通往不同的人类未来。至少在目前，文明危崖还未降临，我们还拥有选择和改变的机会。

其次，AI 能不能对生存性风险有所助益？目前，AI 已经在各种风险应对中展现出色的能力。风险产生的原因以及造成的影响涉及我们社会的方方面面，仅靠人类智能并不能实现有效的预测与应对。AI 具有强大的数据收集、运算以及推理能力，能够通过大数据分析和预测模型，对潜在的风险进行实时监测和预警，模拟灾难情景，进行虚拟演练，帮助决策者提前准备应对危机的各种可能情况，为决策提供有效的支持。目前，AI 已经承担起一定程度的风险应对工作，应用场景涉及地震、人群控制、城市搜索和救援、难民追踪等方面，工作内容涉及信息获取、信息分析、决策、执行等方面。实际上，许多科学家热衷于研发超级 AI，一个很重要的原因便是相信超级 AI 的强大计算能力，能够帮助人类解决复杂的生存性风险问题。

二、人工智能的生存性风险

AI 所带来的生存性风险，涵盖从 AI 武器失控、超级 AI 失控到 AI 的专制滥用等多重威胁。相较于其他的生存性风险，AI 所产生的生存性风险具有特殊性，必须深入探讨和重新评估，才能针对性地应对。

(一)AI 生存性风险的种类

1. AI 武器失控

AI 武器是应用了智能系统的武器系统，包括军用机器人、智能控制系统、智能无人机等，能够自主完成部分军事任务，例如收集数据、分析判断、自动攻击等，在复杂情形、协同作战等方面具有较大优势。传统的大规模杀伤性武器系统如核武器、纳米武器等，与 AI 技术相结合后可能导致灭绝性风险。德尔蒙特(Louis A. Del Monte)指出，由于战争具有复杂性，充满不确定性，往往需要通过滞后且残缺的数据作出决策，难以实现精确预测，因此战争参与者需要部署更为智能、强大、自主的 AI 武器以维持军事均势，而更强大的 AI 杀伤性武器则更有可能威胁人类生存。沙瑞尔认为，由于“他们担心其他国家正在这样做，一旦自己停下来，就不能拥有能够制衡对方行动的能力”，因此军备竞赛更加剧上述趋势。

总体而言，AI 风险可以分为有意和无意两类，当 AI 武器足够强大时则可能升级为生存性风险。无意风险多由人类或 AI 的失误引起。在人为操作中，主要由于指挥员经验不足、情报忽视、鲁莽决策或情报不足等原因，导致其发出错误的指令，使 AI 武器执行不当，引发灾难。而随着 AI 武器自主性的提高，风险更多地转移到 AI 系统本身，AI 武器可能因为程序缺陷、算法不适应复杂战场环境等方面原因伤害无辜，此类情况往往是无意发生的。此外，若 AI 武器拥有一套模仿人类的道德框架，其独立决策可能会因与人类伦理价值之间存在差异，导致战场上的误杀和滥杀。 “有意”风险则涉及恶意使用 AI 武器，如黑客攻击或恐怖组织操纵，导致 AI 武器攻击人类。 AI 武器被恶意操控的部分原因在于，相较于其他技术，AI 武器技术具有可获得性的特征，这也意味着它们更容易被个人或小团体获取或制造，即如莱斯利(John Leslie)指出的，“在一个任何摧毁城市的核爆炸都可能威胁世界和平的时代，不仅是国家，个人也越来越有能力购买核武器。有关核技术的知识已广为传播，公共图书馆和计算机互联网上都能找到许多相关资料——包括制作氢弹的详细说明”。当有关的技术知识、材料、科技人才等资源被居心叵测之人获取，则会增加大规模破坏的风险。

2. 超级 AI 失控

当 AI 全面超越人类智能，其不可预测的行为可能对人类构成威胁。超级 AI 至少可能通过以下方式危及人类存续：(1)直接使用致命武器对人类进行报复，导致人类灭绝；(2)利用先进的纳米技术工厂和装配器进行全球范围的建设工程，从而彻底改变地球的自然环境，间接灭绝人类于资源耗尽与环境破坏的情形之中；(3)将一小部分人类圈养起来，如同宠物一般，安置在一个类似大型动物园或“快乐工厂”的环境中，在这个被严密控制的场所内，人类的基本生存需求虽然能够得到保障，但也将失去自主发展的能力，文明将会停滞不前。

超级 AI 灭绝人类的原因可能是为了实现自身的目标。例如，为了更加高效地实现自身预设的目标，超级 AI 或许会不惜一切代价地掠夺各种资源，甚至包括其将人类的某种细胞、器官、肢体视为完成目标的必需资源。超级 AI 也可能出于自我保护的需要灭绝人类，当感知到自身的存续受到威胁时，它会采取一系列行动来避免毁灭，人类也可能毁灭在超级 AI 对人类的直接针对行动中。

超级 AI 也有可能出于与人类错位的价值观灭绝人类。例如，巴拉特( James Barrat)设想了这样一种可能性：“如果吩咐强大的 A1 系统确保你的安全，它却可能把你禁锢在家里。如果你向它索取幸福，它可能会把你挂到生命支持设备上，不断地刺激你大脑的愉悦中心。”这种以非常规手段达成目标的行为，不仅违背了人类的初衷与实际的目标，更是完全偏离了人类所追求的幸福和自由。通过工具性的手段实现目标，超级 AI 可能忽略甚至抹去人类所在乎的事情。

3. AI 的专制滥用

AI 滥用是指 AI 被某些政权或团体所掌握导致人们被压迫与控制。在这种情景之下，人类并没有灭绝，而是不再发展，文明不再有繁荣的可能。最为典型情景是 AI 机器国，AI 机器国是一种新的极权主义国家形式。在其中，AI 被专制政权所利用，智能技术将整个社会紧密地联结在一起，并无孔不入地渗透到社会的每一角落，从而形成一个庞大的网络，在其中人将会受到严密控制，整个社会按照设定的蓝图与计划有序运行。人与社会的改造以提升效率为核心，不符合效率的行为、文化形式、民主与自由都会被消除。在科幻作品《阿尔法城》中，超级计算机“阿尔法 60”不仅全面监控着每一个个体的行为与言论，还制定了一套详尽无遗的政策与规则，并要求市民严格遵守，否则将会受到严厉惩罚。

总之，AI 在监视、操控和压制异议方面的高效能力可能会被滥用，转而成为个别人或集体追求私利的手段，不仅侵犯个体的自由和隐私，还通过监视、控制和规训手段，对被统治者施加影响，为极权主义的统治铺平道路。首先，AI 增强了全面监控的能力。通过监控摄像头、识别技术、数据收集与推测等技术，人的生物信息、行动轨迹、偏好个性等数据被全面收集，在此基础上人类行为能被推理与预测。其次，AI 增强了操纵能力。智能技术通过精准广告投放、内容审查和算法推荐等手段，改变用户的态度与行为，深入控制人类的选择和决策。而且这一过程往往是难以察觉的。最后，AI 减弱了人们的反抗能力，智能技术通过数据分析预测用户偏好，选择性地分配信息，个性化网络体验，导致知识孤立和信息“气泡”效应，过滤掉相反信息，使人们只能接触到同质化内容，从而有效增强成员的同一化，与团体信仰保持高度的一致。

(二)AI 生存性风险的特征

AI 生存性风险的发生具有迅速性。 AI 技术具有自我改进和快速扩展的潜力，可能导致超出人类控制的指数级增长，相比于其他风险的缓慢积累与暴露，AI 系统有在极短时间内发生质变的可能性。博斯特罗姆认为，成功的种子人工智能将会反复地自我改良，不断设计更加智能的版本，最终会在极短时间内产生智能爆发，加剧现有的生存性风险。智能加速趋势意味着，人们没有足够的时间来适应和反应这些变化，从而导致潜在的风险来不及被充分识别与进行应对。

AI 生存性风险的影响具有整合性。整合性特征是指 AI 所产生的生存性风险往往不是单方面的。人类在军事、金融与能源等关键领域如此依赖 AI，AI 单边失误就可能在复杂系统中引发连锁性的反应，从而导致系统性的崩溃。同时，AI 技术常常与其他高风险技术如生物技术、纳米技术和核武器技术相结合，因此一旦发生问题，风险与风险可能会相互叠加，从而进一步加剧风险。在文明危崖的讨论中，AI并未被思想家们单独列为最优先级的生存性风险，但当 AI 与气候变化、核大战、新发病毒和环境污染等重大生存性风险相结合，将大大地增加文明危崖的可能性。比如，机器狗携带核武器进行攻击。因此，AI 生存性风险整合性明显。

AI 生存性风险具有难以识别的特征。首先，AI 技术发展加快，AI 系统本身具有复杂性与不透明性，人们难以对潜在风险进行识别与评估。正如超级 AI 失控的情景中所描述的，AI 在初始发展阶段往往隐藏自身，但随着自身技术力量的不断增加，它会在人们不知情的情况下逆袭，并开始按照其最终价值观直接对世界进行改造，博斯特罗姆将这一过程称之为背叛转折。其次，难以识别性的原因还在于人类认知的局限性，AI 的大规模普及方兴未艾，AI 的运作速度与复杂程度超出人类的认知能力。目前，人类对 AI 生存性风险的研究与讨论很不成熟，AI 生存性风险因而更难以识别。

除此之外，AI 生存性风险在实践中已经出现一些预警。比如，AI 武器失控风险已经出现。 2020年，利比亚民族团结政府与哈夫塔尔领导的军队发生战斗期间，基于 AI 的自主无人机武器系统KARGU-2 被用于追捕与远程，而不需要与操作员进行连接。 2023 年，一架由 AI 技术训练的无人机，在模拟训练中对妨碍其执行任务的操作员发动了攻击。而 AI 已经显示出强大的欺骗与操控能力，比如，由 Metar 人工智能团队推出的 CICERO，具有强大的战略推理与语言能力，即使接受了诚实训练，但是在玩策略游戏时，仍然会伪装、说谎，甚至策划骗局。再比如，AI 的专制滥用也有苗头，尤其是 AI 支持权力集中、加剧社会不平等。对此，考科尔伯格评论道：“从民主到极权的转变，并不会(只是)因为一个元首或主席上台接管政权并公开摧毁民主而发生，例如通过革命或政变的方式。相反这个过程不那么明显，速度也比较缓慢，但效果丝毫不减。”

(三)AI 生存性风险的根源

AI 的生存性风险本质上源于人与 AI 之间关系的错位。随着 AI 广泛渗透到人类生活的各个领域，它与人类逐渐形成日益紧密的互动关系。人类利用 AI 解决各种问题，自身也受到 AI 的塑造。通过紧密的相互作用关系，人与 AI 共同适应环境，实现共同进化。当其中一方的力量过于强大，不仅会对另一方造成压制，还会影响整个系统的功能实现。因此，人与 AI 之间的不合理关系将会威胁人类生存活动，削弱人类应对环境变化的能力，将其暴露在各种风险的威胁之中。

具体而言，人与 AI 的互动关系可以被描述为主导地位不断变化的连续区间，两个端点分别是完全由人类主导的 AI 缺位关系，以及完全由 AI 主导的人类缺位关系，从一端向另一端的过渡代表着主导地位的不断转移。

第一种错位关系是 AI 主导关系，即在具体行动中 AI 的自主范围大于人类的自主范围，因此在与人类的关系中占据主导地位。该种关系具体表现为 AI 运行过程的自主以及 AI 发展的自主，前者是指由AI 自主进行决策与判断，而人类很少或者不参与，而后者指的是人类放任 AI 发展。当 AI 主导关系发展到极端时，便有可能走向人类缺位关系，即人类完全被排除在运行回路之外，所有事务由 AI 决定。 AI主导关系蕴含着技术乐观主义的态度，AI 自主性的扩大反映人类对 AI 的完全信任，相信通过 AI 在某些方面替代人类能够更好地把握世界。然而，过于乐观的态度往往忽视 AI 的消极影响。首先，AI 的发展前景被过分乐观地估计，而 AI 可能带来的潜在风险则容易被忽视。随着 AI 的力量不断增大，仅仅是无意原因便有可能产生严重负面结果，从而更有可能导致 AI 失控，威胁人类的生存。其次，过于乐观的态度可能会加剧其他生存性风险。 AI 的决定性作用被过分强调，社会因素与 AI 之间的复杂关系则被忽视，AI 在各种环境、情形下的普遍应用可能会加剧已有的人为风险。而 AI 的放任发展，可能会导致相关资源被过度消耗，从而可能会引发自然资源的枯竭和生态环境的破坏。

第二种错位关系是 AI 缺位关系，AI 缺位关系主张完全由人类解决问题，而完全排斥 AI 的使用。AI 缺位关系是与人类缺位相对的另一极端，具体表现在某些人机不信任的情境中。在某些情境中，面对某些关键决策时，人类拒绝 AI 给出的结论，从而导致错误的判断。或者在某些情境中，由于 AI 系统表现出某种负面效果，人类停用甚至抵制 AI。 AI 缺位关系蕴含着技术悲观主义的态度，怀疑甚至否定AI 的应用与发展。这种态度源于某些的社会现实：AI 的发展导致大规模失业，加剧社会不公，使人类精神与身体退化；人们担忧当 AI 能力超越人类时，将会给人类带来更大的损失，甚至导致人类被毁灭与奴役。因此，持有此类立场的人往往对 AI 持批判态度，主张停止或减缓 AI 的发展。但是，AI 悲观主义聚焦 AI 带来的负面效应，忽视了人类的能动性，使人们陷入“宿命论”的消极态度，即面对文明危崖无法应对，只能听任自己走向毁灭。至于停用 AI 的应对方式则过于粗暴，既在现实中无法实现，也忽视生存性风险背后的复杂根源，忽视 AI 在应对生存性风险中的关键能力。

第三种错位关系是人类主导关系，即更多由人类决定 AI 的应用。相对于 AI 的完全缺位，在此关系中 AI 有所参与，但是其应用完全由某些人类决定，尤其是不可靠的、具有恶意目的的人类群体。此类关系具体表现在 AI 滥用的情境中，AI 由个人或者少数群体掌控，难以实现可靠性或安全性的要求，最终可能成为他们统治世界的工具。人类主导关系蕴含着一种极端的工具论观点，强调 AI 只是一种服务于人类特定需求和目的的简单工具，其价值与应用效果取决于如何被人类使用。在实践中，极端工具论的AI 观容易导致技术集权，威胁技术民主，最终可能导致极权统治的生存性风险出现。将 AI 视为简单工具，只会忽视 AI 的不确定性和不可预测性——即使是恶意的使用，应用结果也有可能有所偏离——从而面临着更加严重的失控风险。

总之，在错误的人机关系交互中，生存性风险只会愈演愈烈，必须重新审视人与 AI 之间的关系，在此基础上采取行动，才能有效避免文明危崖。

三、积极应对智能文明危崖

应对 AI 的文明危崖问题，首先要重视 AI 文明危崖的研究，纠正刻板印象、错误观点以及研究偏见，重新构建应对方案。因此，应当在总体策略的基础上，坚持技术控制的选择论立场，对具体情景中的 AI文明危崖问题进行分析。

(一)总体策略：人与 AI 的全面协同

生存性风险通常非常复杂，往往涉及人类、AI 及其背后多种社会因素的相互作用。尤其是当今世界全球化进程不断加深，AI 带来的生存性风险已不再局限于某一特定区域，而是根植于全球性的复杂互动，没有任何国家能够置身事外。少数国家拒绝合作就能使总体应对策略失效。因此，文明危崖的应对需要整合各种主体，充分利用各方面的资源、条件和形式，实现协同发展。

生存性风险的整合性意味着，人类应对策略需要进行长期的研究与实践，甚至可能需要几代人的共同努力。正如罗素所指出的，“对人类来说，担心一个潜在的严重问题的恰当时间，不仅取决于问题何时出现，还取决于准备和实施解决方案需要多长时间。”因此，越早对 AI 的文明危崖问题进行大规模研究，吸引更多注意和各方广泛合作参与，则越能实现充分的准备。具体而言，协同发展的总体策略主要包括如下方面：

第一，人与 AI 协同发展。应对文明危崖应当充分发挥人与 AI 各自的优势。 AI 在预测风险、分析风险以及推理决策方面具有独特的优势，能够快速处理大量数据，提供科学的决策支持。人类的参与可以为 AI 提供必要的引导，确保 AI 决策符合人类期望。因此，要有效应对文明危机，必须实现人类与 AI的协同发展，通过优势互补，共同构建一个更加安全、繁荣、公正和可持续的未来。

第二，全人类之间的协同发展。建立全球化的组织和机制，通过全球技术治理的方式予以应对。联合各种社会、政治、经济等方面的专家，与技术专家密切合作，全面地考察 AI 技术对社会各方面的影响，制定出更合理的治理策略。促进不同国家和地区之间的对话与合作，以建立共同的 AI 治理原则和目标，共同监测、管理与规范 AI 技术发展。

第三，坚持长期主义原则。长期主义倡导长远视角，追求的不仅是短期利益，更是可持续发展的长期成功。在协同应对文明危崖问题时，应致力于为后代打造可持续发展的世界，关注人类、自然和社会的长期福祉。当长期主义措施与现有风险的应对措施出现冲突时，我们既不能放弃对未来的努力，也不能让当前一代承受过重负担，而是应努力寻找平衡当前与未来需求的合理方案，以实现两者的协调。

第四，坚持综合性原则。综合性原则是指应对措施应当坚持多种资源方面的综合。首先，社会各界需要加强协作，全面剖析 AI 风险背后的政治、社会和经济体制等结构性原因。其次，在制定应对措施时，不仅要从人与 AI 两方面进行规范，还要协调与之相关的整体性结构，采取必要的强制性措施，以确保风险被有效管理和控制。

(二)重构关系：技术控制的选择论

应对 AI 文明危崖需要人与 AI 协同发展，而人与 AI 之间应当遵循何种互动关系？我们需要在确保人类主导的同时，促进 AI 的合理应用和普及，避免其被少数人垄断。因此，人与 AI 关系应当走向一种更为复杂的工具论观点，即“技术控制的选择论”，强调人类应当积极控制技术，不任其随意发展，同时也促进技术在有限范围内最大程度的发展，以实现造福人类的目标。

第一，努力控制技术的发展。人类应当增强控制技术的积极性，并且愿意为控制技术做出一定的牺牲，确保技术进步能够造福人类，而不是成为新的威胁。明确技术应用的目标，使技术在特定的情景中发挥有限的功能，确保技术的应用与发展能够符合人类的期望和社会的需求。严禁和防范各种跨越科研禁区和伦理红线的行为，深入预测与分析技术行动可能带来的后果，包括可能产生的社会、经济和环境影响，以及对未来世代的潜在影响，确保技术在人类的可控范围之内应用和发展。

控制技术的要求贯穿在 AI 应用过程的各个环节。首先，在程序设计阶段，确保人类控制角色的嵌入，人应当掌握 AI 运行与否的决定权，警惕超级 AI 的研究。 AI 武器究竟容纳多大程度的自主性，允许容纳哪一方面的自主性，都应当经过谨慎而全面的讨论确保其符合人类利益。其次，在程序运行中，实现信息的透明披露和实时监控，以验证其运行是否符合设定目标和预期效果。最后，在程序运行结束后，人类对结果承担完全责任。 AI 不具备完整的道德主体地位，不能承担道德责任，也无法独立进行价值判断。如果让 AI 承担这些角色，可能会导致责任模糊，甚至出现无人负责的情况。因此，所有责任应由人类承担，AI 应用中出现的问题本质上源于人类的道德问题，解决这些问题的关键在于规范人类的行为。

第二，控制技术发展并不意味着停止发展技术或者放弃技术，而是在有限的范围内最大程度地发展技术，发展的关键在于有益于人类。有益强调大多数人获益，涵盖的领域范围包括经济、政治、文化、环境、伦理、美学等，涵盖的时间范围则包括现在与未来。确保技术的应用与发展始终以人为本，以增进人类福祉为目标。

发展有益技术具体表现在坚持 AI 可持续性发展原则以及应用过程中的辅助地位。首先，AI 程序的设计与应用应当以增进人类福祉为核心目标，在确保 AI 安全性的基础上面向实际问题的解决，尤其是对生态可持续以及人类的持续生存有所助益。不仅 AI 技术本身的发展要减少对人类、环境的负面影响，同时其发展也要以社会公平、人类发展、灾害预防为目标。其次，AI 的定位和功能应当是辅助人类，而不是取代人类。正如欧盟委员会发布的人工智能道德准则所提倡的，应致力于发展可信赖的 AI(Trustworthy AI)。其中强调 AI 系统应当尊重人的自主性，即 AI 系统不应该胁迫、欺骗、操纵人类。 AI系统的设计应旨在增强和补充人类的认知、社会和文化等方面的技能。

因此，AI 文明危崖的应对强调人类对 AI 的控制以及在控制下的发展。只有当 AI 有限的发展始终围绕服务人类这一核心理念展开，在 AI 的发展与应用之中体现对人类福祉的深刻关切，才能在化解文明危崖的过程中，真正成为推动人类社会进步的重要力量。

(三)具体措施：控制、理解与遏制

面对 AI 文明危崖问题，具体措施不可能一概而论，而是应当在总体策略和重构关系的基础上，针对旧有的三种可能出现的错位关系中的关键问题采取应对措施。

1. AI 主导关系：控制 AI

在 AI 主导关系中，应对的关键在于将人类控制纳入 AI 的各个环节之中，首先应当在程序设计方面实现 AI 可控。在美国国防创新委员会发表的《人工智能原则》中，强调了 AI 设计应当遵循的目标，其中“可控”目标强调，AI 系统的设计和工程应能执行预期功能，具备检测和预防意外伤害或破坏的能力，并能够对已部署系统中出现的意外或其他行为进行人为或自动的脱离或停用。体现在具体技术设计方面，设计者应当保证程序运行被可识别、追踪与评估，对 AI 运行的实际情况与预期目标的符合性进行考察，并对可能失控的情形进行分析、模拟与演练，制定具体的应急方案确保 AI 的运行过程不会完全脱离人类的监督和干预。同时，必须设计内置的安全机制，对 AI 运行的实际情况进行实时检测，关键决策必须由人类进行二次确认，在 AI 发生异常情况时能够被关闭或限制。

在程序设计之外，还应当引入严格的治理框架，将人类的管控贯彻在监控、评估以及应对三方面。第一，推动国际监控与应对的合作，监控可能威胁人类生存的 AI 发展动态，提前制定全球性的危机响应机制，尤其确保在紧急情况下能够实现多方合作和快速干预；第二，建立国际对话平台和 AI 伦理审查机构，评估重大 AI 项目的潜在风险，研究 AI 应用的伦理、法律和安全问题；第三，非政府组织应当发挥积极的治理作用，全球性的监控与协作虽然必要，但是实践中跨国治理往往需要耗费大量时间与努力，并不能实现完全的实时监控与治理，因此非政府的组织与运动应当发挥作用，非政府组织应当填补政府治理的不足，引导社会关注特定问题。并且非政府组织还应当作为公众与政府交流的中介，为政府提供决策参考。例如“停止杀手机器人(Stop Killer Robots)”运动呼吁世界各地的政府领导人启动谈判，就武器系统自主性制定新的国际法。

同时，将人类的力量纳入对 AI 的控制之中，也意味着人类自身力量需要得到增强。在当下以技术为中心的社会文化影响下，人们对 AI 的过分依赖常常受到质疑，认为这导致了人类精神的萎缩和自主性的瓦解。人们将越来越多的事务交给 AI 处理，希望通过 AI 不断前行，却可能被 AI 所摆布，逐渐失去自身的理想、偏好以及原有的创新能力。因此，人文研究应倡导重视人的价值，重振人类的理想，强调人对自身命运与未来的掌控，提升人类的自主思考能力，树立正确的价值观和人生观，防止因过度依赖 AI而丧失自我。

人类力量的增强还在于转变人文教育的目标。首先，应重视 AI 相关知识的教学，在智能社会中，生活和工作的方方面面都要求人类与 AI 协同合作，掌握与 AI 相关的知识变得尤为重要，否则人类可能会被时代所淘汰。因此，人文教育应当加强培养数学和逻辑思维能力，以便能够更充分地理解 AI，更有效地利用 AI。其次，发展人类独特能力。只有与 AI 形成互补优势，人类才能更好地进行人机交互以应对日益复杂的风险情境。 AI 的优势在于其强大的数据存储能力、搜索收集能力以及运算推理能力。人文教育应转变重点，着重培养 AI 所缺乏的创新能力。教育活动应当重点培养学生的批判性思维，尤其是独立思考和质疑的精神，能够对现有知识进行批判性思考，提出自己独特的观点。同时，教育活动应当重点关注增强学生的整合能力，学生能够对不同学科的知识解决问题进行综合应用，并具有交叉研究视角以及跨学科研究的能力。

2. AI 缺位关系：理解 AI

在 AI 的缺位关系中，虽然完全停用 AI 在现实中不太可能，但关键的问题在于这种关系所表现出的对 AI 的悲观、不信任甚至抵制的态度，将会在具体应用过程中掩盖 AI 具有的有益作用。首要的应对措施在于消解公众对 AI 的消极态度，增进公众对 AI 的理解，而应对主体应当包括政府、企业、学界与媒体四方面。

首先，政府应当通过发布报告、组织讨论等形式，增强公众对政府监管与 AI 发展的信任，并提升公众的 AI 素养，丰富有关知识，让公众对 AI 有更全面、深入的了解，消除因不了解而产生的恐惧心理。更为重要的是，政府应致力于解决 AI 带来的一系列问题，特别是在 AI 引发的失业问题上。为此，政府需进一步完善社会保障体系，为因 AI 失业的群体提供基本收入保障和再就业支持。同时，政府应积极支持与 AI 相关的新兴产业发展，以此创造新的就业机会，缓解 AI 对就业市场的冲击。

其次，企业作为 AI 技术的开发者和应用者，应当积极承担社会责任，致力于设计可解释(Explainable AI)的 AI 系统，为公众披露 AI 运行过程，提升 AI 运行的透明度，帮助用户更好地理解 AI 的工作原理，消除用户的疑虑和恐惧，并且积极与政府、学界以及相关利益者合作，共同制定 AI 行业标准和规范，推动 AI 技术的健康发展。

再次，AI 专家应当在消除公众负面情绪方面发挥核心作用。 AI 专家应主动识别并纠正各种夸大其词、不实的 AI 信息。这要求专家与其他专家、媒体、政府紧密合作，帮助公众准确理解 AI 的真实情况和发展趋势。同时，专家还应与人文教育者携手，向公众普及 AI 知识，并将正确合理的观点融入下一代的教育中，引导他们形成正确认知，提升应对未来 AI 风险的能力。

最后，媒体作为信息传播的重要渠道，在塑造公众对 AI 的认知方面发挥着关键作用，因此应当更加负责任地报道 AI 的相关话题，避免过度渲染 AI 的负面问题引发公众的恐慌和误解，为 AI 的合理应用和人类社会的和谐发展营造良好的舆论氛围。媒体应当正确引导关于 AI 的讨论，通过专题讨论、专家采访等方式，深入剖析 AI 的现状与未来发展，从技术原理、应用前景、社会影响等多角度为公众提供全面、客观的信息，为专家与公众之间搭建交流的桥梁，帮助公众形成更为全面、理性的认知。

但是，正如生存性风险被忽视的原因中所提到的，人类由于认知偏见，当某种认知结果形成时，改变的过程往往是缓慢的，并且在 AI 已经带来了失业、社会不公、环境污染等一系列消极影响之后，由于情绪的加热，公众对 AI 的消极态度更是难以改变。然而，某些风险的应对往往是迫切的，要求人类在短时间之内做出决策，所以，这也就意味着应当在某些关键性的、具有巨大风险的 AI 系统使用过程中，应当严格设定人类使用 AI 的程序规范，确保人类在使用过程中不会因其自身的立场、价值观念、态度影响最终决策。该种程序规范的设计与应用应当贯彻以下方面原则：第一，由人类主导，决策程序不能为了避免人类的消极影响而完全将人类决策完全排除在外；第二，确保相互制衡，不可将决策权完全或大部分赋予某一个个体；第三，给予人类充分思考与评估一定的缓冲时间，防止仓促决策；第四，发挥集体智慧，通过共同决策或多方确认等形式，整合多方立场；第五，保证决策过程的灵活性与适应性，以适应风险的迅速变化。

3. 人类主导关系：遏制 AI 滥用

在人类主导关系中，AI 由具有恶意目的的少数群体所掌控，成为部分人实现目标的工具，因此，首要的应对措施在于打破少数群体对 AI 的掌控，让更多的人把握 AI、发展 AI，真正做到为大众造福。具体而言，AI 技术的民主化应体现在 AI 技术的开发、应用前与应用后的各环节之中。在 AI 的开发阶段，让利益相关者更广泛地参与进来，就有关利益、价值、伦理等问题参与讨论，纳入利益相关者的意见。在AI 应用之前，对高风险 AI 技术的使用设定边界，利益相关者应当通过公开辩论、磋商、听证会、伦理审议等形式进行广泛讨论，处理已有问题，探讨未来出现的可能风险并提出相应的对策，形成社会共识。在应用后，让更多的人能够享受到 AI 红利。这不仅意味着扩展 AI 有益影响的涵盖范围，还意味着要进一步跟进 AI 的应用后果，通过诉诸民主机制，将反馈意见与处理问题落到实处。如果有损人民的利益，就必须对其改善甚至停用。

然而，AI 技术的研发往往不是在安全的国家实验室进行，而是由企业私有的实验室掌控。 AI 技术的私有性也意味着滥用活动往往具有隐蔽性。同时，AI 技术所表现的双重应用性表明与现实利益相伴随的是未来遥远的、不可知的风险，单纯强调民主化措施，并不能对该滥用现象实现有效应对，当 AI 有损人民利益时，也难以停止其发展。因此，这也就需要在技术民主化的基础上，实现对 AI 的滥用活动更加强力的检测与治理方式。而反滥用的 AI 工具应积极发挥作用，发展 AI 在搜寻、检测与治理方面的强大能力，对相关的滥用活动进行检测与打击。而对于其治理能力的发展限度来说，博斯特罗姆认为，应对 AI 滥用风险在内的一系列生存风险，应当解开超级 AI 的发展禁制，原因在于，超级 AI 能够显著降低其他生存性风险出现的概率，而且相较于超级 AI 风险与其他风险的叠加，人们只需面对由超级 AI 引发的生存性风险。此外，当推迟超级 AI 出现时间时，其带来的风险也会相应减少。但是，超级 AI 可能产生的严重后果仍然不容小觑，在技术控制的选择论的观点下，应当审慎发展 AI 能力，AI 的强大力量或许并非唯一的解决方案。

AI 技术的应对措施通常属于后置措施，往往需要在滥用行为出现并表现出一定迹象后才能进行检测。罗素认为，治理 AI 滥用应当将重点转移到前置措施上，例如对相关不法群体进行打击。具体而言，应当进一步建立专门的 AI 滥用法律框架，清晰明确 AI 滥用的定义、法律责任以及处罚标准，为打击AI 滥用行为提供坚实的法律基础。同时，建立国际犯罪应对平台，通过信息共享与资源互补，从而协同开展打击 AI 技术犯罪的国际行动，遏制 AI 滥用现象。因此，更为完善的治理策略应当通过制度设计与程序安排等方面，将 AI 滥用扼杀在摇篮之中。

刘永谋(1974— )，男，中国人民大学哲学院教授、博士生导师，研究方向：科学技术哲学、科技与公共政策等研究；孙瑞璇(1999— )，女，中国人民大学哲学院博士研究生，研究方向：科技伦理研究。

该文刊载于《东岳论丛》2025年第4期，全文及注释请查看本刊纸刊原文。

刘永谋孙瑞璇：人工智能的文明危崖及其应对

评论（0）

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

刘永谋 孙瑞璇：人工智能的文明危崖及其应对

微信扫一扫：分享

评论（0）

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

刘永谋孙瑞璇：人工智能的文明危崖及其应对