孙海波：智能司法背景下的类案同判

【摘要】类案同判是一项重要的司法原则，也是司法追求的重要价值目标。最高人民法院确立的案例指导制度以及类案检索机制，均是朝着实现类案同判作出的重要努力。即便运用案例数据平台检索到案例之后，仍需作类案相似性的判断。数字化发展给类案同判同时带来了机遇和挑战，量化或计算仅仅在一定程度上能够解决表面相似性的证立，深层相似性的判断本质上仍依赖于价值判断，通过计算证成类案的命题难以成立。司法裁判固有的复杂性、法律大数据模型的技术壁垒以及类案同判运行的内在机理，使得通过数字化精准预测裁判结果的设想最终难以实现。类案同判的甄别和实现，最终要回归司法规律、人类理性和价值判断。

【关键字】人工智能；数字化；算法；法律大模型；类案同判

最高人民法院于2010年正式确立案例指导制度，至今已发布47批总计267件指导性案例，涵盖民事、行政、刑事、国家赔偿等多个领域。遇到疑难问题检索案例，已成为司法实践中的一种惯常做法。在过去十余年间，为推进案例指导制度的实施，最高人民法院相继出台了一系列配套性机制。从最新研究数据来看，实践中法官对指导性案例的运用已初见效果。截至2024年12月31日，全年法官援引的指导性案例共计11376 例，其中有5912例明示援引、7412例隐性援引以及53例评析援引。可以说，经过十余年的努力，援引案例已经成为法律共同体的新型法律思维方式，案例在成文法适用的过程中开始发挥越来越重要的作用。类案同判作为司法的重要组织活动原则，在智能司法的背景下展现出了一些新特征，同时也经受着新的挑战。本文将揭示，无论是类案的甄别，还是同判的预测，都无法依赖数字化的计算而实现。

一、“类案同判”的数字法面向

依法裁判与个案正义是司法裁判应当兼顾的两项重要要求。个案正义包括实质正义与比较正义两个面向。实质正义直接指向法官在个案中对法律的正确运用，得到一个在实质道德层面能够证立的判决结果。如果将单个案件与其他案件作出比较，此时个案正义会获得一种新的表现形式，即类似案件应类似处理的形式正义，也称比较正义。也有学者将依法裁判作为司法的内生性要求，而类案同判是一种进一步的衍生性义务和表征性价值。类案同判并非数字法时代的新问题，也并非判例法或普通法体系中专有的事物。在传统法学和司法理论中，类案同判一直是一个关乎司法裁判性质的重要问题。只不过，数字法学的发展让这个问题展现出了一些新的特点和样貌。

（一）从“人工比较”到“计算预测”

在传统法律实践中，类案同判建立在少数个案比较的基础上。在大陆法系国家，司法裁判的样态基本上是以成文法的适用为核心，案例的地位和作用被大大忽视。只是近年来，在实践中类案不同判加剧了法律适用的不统一，伴随着案例指导制度的确立及发展，案例成了衡量和评判是否做到类案同判的重要标尺。如最高人民法院原院长周强指出的，“以案例这种群众喜闻乐见的方式推动实现法律统一适用，可极大增强群众对司法的信任和支持，促进提升司法公信力”。可以说，最高人民法院编纂案例的传统、司法案例公开的力度以及案例运用实践格局的打开，为类案的比较提供了物质载体和动力源泉。

在司法信息化和智能化欠发达的时代，案例比较主要是一个依靠人工在个案之间的对比和分析。它有以下几个鲜明的特点：其一，可供比较的样本比较少，人们主要从案例丛书、学术专著、新闻报道等渠道获取案例，能够找到的案例数量很有限，案例的类型很单一，这使得个案的人工比较成为可能。其二，案例样本的抽取具有随机性，人们的检索能力不同，检索方法不一样，很可能找到不同的个案，案例样本的不同势必会影响比较的质量和效果。由于案例样本的随机性和数量有限性，类案裁判规则出现冲突的概率不大，比较结果相对单一。其三，人工比较依赖的是人类的经验理性，两案的相似点和不同点是什么，需要通过实践经验归纳和把握，一般经过要素分解、相同点提取（类似提取公因式）和不同点归纳等过程，在此过程中比较者要将眼光在两个案件之间、规范与事实之间往返回顾。其四，小样本案例比较过程中，类案比较的层级性不分明，主要归因于不同层级法院的案例获取难度大。与此同时，由于案例参照和比较更多是纵向的，导致欠缺不同地域案例的横向比较。其五，传统人工比较过程中，待比较的案例样本少，容许法官付出较多的时间和精力对案例作深度比较和分析。比较者能够深入到案例比较的内部，通过运用价值判断来评价案件之间的相似点和不同点何者更为重要，从而作出两个案件是否具有实质相似性的终局判断。

在司法人工智能高速发展的背景下，各种法律推理大模型纷纷涌现，机器的自我学习和深度学习能力不断提高，有力地改变了传统依靠有限的人力比对案件的现状。我们已经迈入从人工比较到智能计算比较的新阶段，传统比较者个人的经验理性式微，取而代之的是技术理性和算法大模型。

新型人工智能的类案比较，较之传统基于人力的个案比较，有明显的独特之处，表现为：首先，实现了从“个案样本”到“大样本”甚至“超大样本”的迭代升级。比较的范围变得更加宽广，在“库网融合”的发展背景下，司法案例数据库以极快的方式不断提升案例的数量，截至2026年1月1日，中国裁判文书网已收录各类裁判文书163175886篇，单日新增近7万余篇。同期人民法院案例库收录5304篇参考案例，为类案的大数据分析和比较提供了坚实的基础。其次，突破传统的地域限制，案例的来源非常多样化，案例的类型也特别丰富，案例的横向比较和纵向比较往往穿插进行，使得类案同判变得更加具有立体性和层次性。进一步还会带来一个问题，类案的数量越多，针对同一个争议问题可能会形成若干个案例群，不排除案例群的类案规则产生冲突。最后，案件相似性的比较，以及同判结果的实现，一定程度上可依靠生成式的法律大模型进行计算和预测，大大突破了传统人脑的思考极限。在计算主义逻辑的推动下，类案同判似乎变成了一种可以被数字化或计算的事物了，只要有足够的数据，算法模型设计合理，便可通过计算来实现。

（二）事实判断支配价值判断

类案同判既是一个价值论主张，即在规范层面应当对类似案件作同一性评价。同时，它又是一个方法论命题，强调在结果层面类似的案件确实得到了类似的处理。类案同判的实现，从整体上可以拆分为“类案”和“同判”两个方面。一方面，我们要寻找到参照的对象，把可能的类案识别出来。另一方面，又要运用一定的法律方法来确保裁判的一致性。无论其中的哪一个环节，都涉及复杂的法律解释和判断，靠单纯的事实描述必然无法实现。但这其中蕴含着一个法治悖论，即同案同判本来意在压缩裁量、统一裁判尺度，但无论是“同案”的识别，还是“同判”的认定，都又开放出了很大的司法裁量空间。换言之，在同案同判的具体运行过程中，很难离开法律适用者的价值判断。

传统人工智能主要是基于符号主义（symbolism），侧重逻辑的推演与计算。以基于规则的推理与基于案例的推理模式为例。基于规则的推理，尝试将法律规则作逻辑变形，实际上是对规则作标准化的处理，一旦未来发生特定事实情形，只需与人工智能系统中的规则事实要素进行匹配，如果能够对应，则将特定结果归属于相应的争议事实。基于规则的推理主要适用于成文法系，而基于案例的推理广泛应用于普通法系，它以打造案例库为基础，从类案中抽取出规则，如果待决案件与案例库中的案例相匹配，则将相应的结果配置给争议案件。在以上两种推理系统中，致命的缺陷就是计算机智能系统无法像人那样作出理性的价值判断，“从技术能力角度说，一旦涉及价值选择和价值判断，法律智能系统的短板就暴露无遗”。在基于规则的推理中，具有规范性的法律规范是否都可以转化成纯粹描述性的符号表达，显然会出现将规范性判断还原为事实判断的弊病。同样的，在基于案例的推理模式中，待决案件与案例库中案件相似性的认定，不能完全通过计算来确定，对此下文会有专节加以讨论。

与符号主义的人工智能不同，连接主义（connectionism）的法律大模型在很多方面更胜一筹。它通过建模和大数据运算的优势，模拟人脑中的神经元构造，利用神经网络进行更加复杂的法律运算。有学者在研究大模型法律推理时注意到，大模型法律推理并不是基于推论得出结论，“而是源于其在训练过程中对大量人类文本的学习与模式识别。这些文本蕴含了语言中的统计关联、逻辑关系与推理模式等，使模型在预测下一个词时，能够习得人类语言所反映的结构化思考方式”。在法律大模型的建构过程中，我们面临着技术与价值的双重障碍。

法律大模型依赖数据本身的质量，如果案例数据在源头上被污染，那么类案同判便变得不牢靠了。法律大模型能够获取的高质量的法律语料很有限，法律数据资源存在可获取性和可用性双重困难，数据垄断、数据壁垒导致有些数据难以从公开的渠道获得，而公开获取的很多法律语料又暴露出了质量低、偏差大甚至存在错误的风险等问题。在对司法案例进行标注和数据化的过程中，还会面临一个较为严重的问题，即司法判决的最终形成取决于多种因素，在个别疑难案件中，判决书文本呈现的教义分析和论证不过是“表面论据”，对判决真正起决定作用的是政策、政治、经济、伦理、社会因素，甚至是法官下意识的偏见，这些“无言之知”又何以能够被数据化。

与此相关的是，即便法律大模型能够理解和学习人类的语言，运用计算方法处理法律语料库，它仍然始终无法逃避法律中必然蕴含的价值判断。法律数字化的命题在学理上已经遭到质疑，从法律的内在性质上看，包含评价要素的规范无法被还原为数字和符号化，法律规范仅仅在十分有限的范围内可以实现部分的数字化，纯粹描述性的规范或者技术性规范有可能实现标准化，并进一步被符号化和代码化。数字化依循的是一种还原论的逻辑，以事实描述取代价值判断。在处理类案同判时，法律大模型和智能化推理系统，最终无法妥当处理价值问题，“人工智能擅长‘是’的逻辑判断，但尚难以作出‘应当’的价值判断”。尤其是在疑难案件的场域中如何实现类案同判的问题上，我们还是要回归到人类的理性和价值判断，妥当平衡好司法裁量与依法裁判之间的关系。

（三）从“透明比较”到“算法黑箱”

在进入司法数字化的新背景下，类案同判的实现也经历了一个明显的转变。传统上基于对话和说理的案例比较，在运用类案的过程中，强调明示性的案例参照，无论法官决定参照类案还是偏离类案，都需给出充分的理由。这从根本上是由司法论证的对话性所决定的。在开放性的论证场域中，所有活动都是公开的，允许利益攸关者参加对话和讨论，任何辩护和驳斥都要提供理由。正如阿列克西所提出的几项理性商谈规则，包括同等地位（所有人都可以参加辩论）、普遍性（所有人都可以自由质疑和辩护）以及无强迫性（不得强迫人们说话或不说话）。前案和后案是否属于类似案件？前案中的哪一部分内容能够指导后案法官的裁判？后案裁判如何参照前案才算做到了类案同判？后案法官是否有规避或偏离前案的裁量权？在落实类案同判的过程中，所有这些问题都需要法官通过明确的说理和论证加以回答。

整体上看，传统司法推理的结构，内在地要求法官在运用案例时必须强化说理，在各方主体之间展开对话活动。从功能上看，这种公开透明的对话有助于实现妥当的裁判，有助于判决符合法治的要求，提升裁判的公众接受性，以及通过对话限制裁判者的恣意裁量。为了督促法官关注和尊重类案，最高人民法院先后通过司法文件强化法官的明确说理和回应义务。比如，《关于统一法律适用加强类案检索的指导意见》规定，相关主体在庭审过程中提交指导案例作为控（诉）辩理由的，法官应当在裁判文书说理中回应是否参照并说明理由。又比如，《人民法院案例库建设运行工作规程》作了类似规定，相关主体提交入库案例作为控（诉）辩理由的，法官同样要明确说理回应是否参考。类案在裁判过程中扮演着裁判理由的角色，也只适宜通过对话的形式在判决理由部分发挥作用。这种透明性的运作方式，也有利于接受当事人、法律共同体和社会的监督。

法律大模型依靠事先设计好的算法规则，基于海量的案例数据，能展现出远超于传统人类理性的计算和预测能力。比如，针对特定类型的犯罪，法律大模型能够精准地测算出量刑均值，COMPAS量刑系统在美国已被多个州作为法官进行量刑决策的辅助工具。在我国，不少科技公司也投入人力和财力成本，开发各种智能量刑规范化辅助系统，只不过很难在司法实践中推广运用。法律大模型依靠的算法规则到底是什么？它是怎么被设计出来的？又是依照什么样的特定逻辑运作的？这就涉及了算法的透明度问题。算法缺乏透明度导致算法黑箱，是长期以来制约法律大模型难以发挥作用的痛点。

在一项关于COMPAS量刑系统如何影响法官决策的实证研究中，指出了该系统通过代码的运算，存在算法偏见和歧视，缺乏足够的透明度，从而可能带来司法专断和不公正。算法黑箱是指人工智能机器在运行过程中会存在运算的逻辑和方法不透明，缺乏可理解性和可解释性。黑箱只是一个比喻，我们从箱子一端看到有数据的输入，从箱子的另一端看到结果的输出，对于中间的环节在箱子里究竟发生了什么，我们从外界看不出来，也无法理解其中的道理。

算法不透明和算法黑箱，直接影响了人们对决策的信赖程度，质疑这种决策结果是否足够公正。算法不可解释性的根源，“在于统计数据显示的特征并没有体现当前案件与先例特征之间的逻辑关联，而只是统计和概率意义上的特征拟合，这与人类法官基于经验和常识通过逻辑推理等方法得到判决结论的方式完全不同”。通过法律大模型所匹配到的类似案件，并没有直接说明这种匹配是如何做到的。同样的，通过算法预测配置给待决案件的结果，是否属于类案同判的应有效果，也无法给出充分的解释。算法黑箱带来的可解释性难题，在当下及未来将是制约法律大模型发挥作用的重要瓶颈。如果得不到妥当的解决，通过运算的类案同判是不稳固的。

二、“类案”是否可以计算化？

案例制度运行体系中的核心环节，就在于案件相似性的判断。在普通法系中，遵循先例的核心也同样在于相似性的比较和判断。学界和实务界，对于类案已从多个角度作了很多探讨。相似性包含表面相似性和深层相似性两个层次，表面相似性是一种外部特征在描述意义上的相似性，着眼于两个案件在事实属性上的比较，深层相似性是两个案件在结构或实质层面上相似，从整体和要素体系的角度评价案件的异或同。在人工智能的冲击下，引发我们思考的问题是，类案的识别或判断在多大程度上可以通过计算来实现。通过这一点，恰好可以反观人工智能在“类案”的判断上究竟能够给我们提供多少帮助。本部分将分别围绕“表面相似性”和“深层相似性”作出回答。

（一）表面相似性的量化可能性

在论及人工智能助力类案同判的问题时，有学者提出要件事实审判思维比较具有可操作性，也切合计算主义的逻辑，主张“要件事实所具有的单一性、具体性和特定性决定了要件事实审判逻辑呈现出强烈的要件化与格式化的外观主义特征，同时决定了以要件事实审判逻辑为依循的要件审判方法是一种最适合运用智能化技术的审判方法，因为其是一种尽可能将审理对象形式化以便计算机能够适用的方法”。要件事实可以结构化、类型化，乃至进一步地量化，在判别表面相似性时有一定的用武之地。前些年流行的要素式审判法，实际上是要件事实思维在审判实践中的贯彻和体现。将要件事实依照法律关系切割成若干个要素，对不同要素作出不同的排列组合，并配置相应的法律后果。如果待决案件具备其中的某些要素，便可与具备这些要素的类案进行精准匹配。对解决诸如交通事故侵权纠纷、劳动争议等要件事实相对简单明确的案件，能够明显地降低成本、提高效率，同时还能较好地兼顾类案同判。

正如上述要件事实思维展现的那样，在法律关系不复杂的案件中，确实能够实现要件事实的模块化。这对于没有实质法律争议的简单案件有一定的适用性，可通过量化的方式识别相似性，但这充其量只是一种表面相似性。法律关系略微复杂一点，事实要素的微妙变动，有时一点差异足以导致两个案件完全不同。所以，回到类案的表面相似性，它主要考察案件事实的相似或不同，是一个求同存异的过程。通常，两个案件如果能够找到越多的相似点，或者发现越少的不同点，通过概率的推测或验算，可以倾向于认为二者更可能是类案；相反，如果经过对比发现，两个案件之间的相似点少之又少，而不同点相较更多，此种情形下更可能判定二者是不同案件。

这种相似点和不同点数量的多少，为表面相似性的计算创造了可能。从可计算化的具体细节来看，论者们有不同的构想和论说，最单纯的设想莫过于人工智能可自动识别两个案件是类案还是异案。这里考察个别代表性的观点。由于表面相似性主要集中对比两个案件关键事实的相同点和不同点，论者提出通过计算化的方式来确定关键性事实中的相同点和不同点，“关键性事实是通过在案由制度上以中央层级法律法规构建各案由的最广泛的要件体系而得到的。基于此，计算机可以完成第一阶段的异同点的判断”。这种想法，在法律关系简单的案件中有一定的解释力，难以在疑难案件的类案裁判中推广。疑难案件不仅法律关系复杂，法律适用本身时常存在争议，仅靠计算的方式，从根本上是无法解决实质争议问题的。

在承认表面相似性存在一定量化或可计算化的同时，还应认识到通过计算判定表面相似性面临一些难以克服的问题，此处作简要讨论。

其一，关键性事实并不是纯粹描述性的事物，它兼具事实性与规范性。一个案件中的“任何事实都可能重要或不重要”，关键性事实的确定依赖于归纳者的评价或价值判断。因为，是否具有关键性本身就是一个价值判断问题。拉伦茨在讨论案件事实形成时，特别强调了评价的重要意义。正是站在法规范的立场上，我们赋予案件事实以法律意义，并评价相对于法律规范及规范目的，哪些事实对于裁判结果的形成具有关键性意义。

其二，关键性事实无法通过计算来形成。即便在普通法系国家也找不到提炼关键事实的好办法。艾森伯格曾敏锐地指出过这一点，“法院很少会把某些事实单独挑出来作为重要事实，且不存在客观标准来确定哪些事实是法院认为的重要事实”。在大陆法系国家亦是如此，法官在判决书中通常不会直接明确标明哪些事实是关键的，哪些事实是非关键的，这些问题留给后人去归纳和提炼。那种认为可以通过计算就能确定关键性事实的观点，有点过于轻视归纳事实的复杂性。

其三，即便通过各种努力，确定了案件的关键性事实，从中进一步区分出相同点和不同点，仍然并非易事；通过简单的计划有时难以胜任这一工作。相同或不同，除了靠观察和描述，也离不开深入的评价判断。比如，一个人头顶只有一根头发，另一个人完全没有头发，这两个人在是否“秃顶”的问题上究竟是相似还是不同，相对于“秃顶”这个关键点来说可能并不好评价。而且，无论是相同点，还是不同点，需要具有“相关性”，不具有相关性的事实要素没有比较的意义。主张类案可计算化的个别论者，认为相关性是一个可有可无的东西，可不予考虑。笔者不同意这一点，相关性能够缩小比较范围，真正聚焦具有可比性意义的事实，“不相关的相似性不能为类比提供恰当的根据” ，而是否具有相关性又是一个难以量化的问题。

其四，关键性事实中的相同点和不同点的区分，主要是基于妥当的比较点展开。离开了比较点，比较将会失去方向。实务界和学界目前主流观点是将关键性事实、争议焦点以及法律适用作为比较点，在表面相似性证立的过程中，对法律适用（规范）与争议焦点的观照，如何能够通过计算来实现，“争议焦点难以转换成可计算的方法，在同案认定的标准中加上这一要求会使整个同案认定的标准都不具有在类案自动检索系统中实际操作的可能”。由此一来，表面相似性的量化或计算又面临雪上加霜的困境。

（二）深层相似性的计算化难题

研究类比法律推理的学者，很早就曾指出深层相似性要比表面相似性重要得多。生活中，有时候两个人外观看起来差异挺大，实际上却是一家人。另外一些时候，两个人的样貌看起来很像，可能根本没有任何亲缘关系。表面相似性只是一种初步的相似性，很有可能在进一步的相似性证成过程中被推翻。就类案的判断而言，严格意义上的相似性一定是要符合深层相似性的要求。唯有这一维度的类案，才可以被归属于真正意义上的类案。上文已指出，深层相似性与实质相似性基本上是一回事，该判断之达成最终依赖人的理性判断和价值判断，非人工智能机器所能承担，故而计算在这一层面是行不通的。

表面相似性已初步将案件的关键事实要素，拆分出相同点和不同点，加上相似性标准的筛选，进一步将比较的范围限缩于相关相同点和相关不同点之内。第二个维度的深层相似性，靠观察和描述是无法得出准确判断的。依照伯顿的说法，实质相似性依赖于我们赋予相关相同点和相关不同点何者更重要的分量。如果经过比较，发现相关不同点具有更重要的法律意义和实质分量，则可认为它们属于不同案件；反之，如果相关相同点更加重要，则可判定两案为相似案件。

相似性的判断会复杂的多。尤其是面对疑难案件时，人们争议的不只是法律的语义内容，而是规范的实质价值。在疑难案件之间作类似对比，不亚于踩着钢丝行走，难度极大。比如，“交通肇事逃逸”通常情形是指为躲避责任、逃离现场。在一起交通事故案件中，被告人在交通肇事后找人顶包，并在现场拨打报警电话积极救人，这种情形与标准意义上的交通肇事逃逸属于类似情形吗？此时需要结合具体案件情形，对“交通肇事逃逸”作实质性的解释和认定。

邓矜婷提出将法律适用通过决策树来展示，在决策树的不同位置将关键性事实的权重、影响方向等实质评价标示出来，实现实质性评价的标准化或量化。她通过具体的案例构造了不同类型的图式，以表明如何通过计算来解决实质评价的问题。实质性评价的本质在于要深刻理解系争法律规定背后的真正要求是什么，对此问题的回答只能依照价值判断进行。法律大模型对类案的计算，只是停留在一种初步的概率层面预测；至于是否属于真正的类案，由于缺乏透明的算法规则和可解释性，经过计算得出的类案判断无法令人信服和接受。

笔者持怀疑论的基本立场，认为深层相似性的判断难以通过计算完成，根本上取决于人类理性的判断。在这个问题上，法律大模型的计算立场，只具有十分微弱的解释力，它的运行至少面临如下难题。

第一，重要性程度的判断，需要依赖对包括规范目的、法律价值以及法律原则等实质理由的通盘考量和权衡。价值如果能够量化，那么价值不可通约的难题也就解决了。现实的情况是，价值无法量化，而且也很难直接排序，并不存在一个能够一以贯之的价值权衡公式，在不同的情境下，同一个价值的分量会发生明显的变化。因此，法律大模型尝试将价值代码化，这种努力与价值内在的性质背道而驰。

第二，重要或不重要是相对而言的。同样一个相同点，在一个案件语境中被认为是重要的，赋予其重要的函数指标，而转换到另一个案件中，同样一个相同的事实要素可能对类案比较是微不足道或不相关的，此时应为其设定极低的函数指标。同样的道理，一个不同点，在前一种比较场合下可能被认为是至关重要的，到了另一个案件中则可能被认为是不重要的。由此，我们注意到一个有意思的现象，如果真的可以量化的话，重要程度的判断依赖重要或不重要的函数赋值，而这种赋值或分量本身是动态变化的，具有非常明显的相对性。如此一来，法律大模型就无法固定算法规则。它对类案的判断也会呈现出一定的随机性或偶然性，本属于类案的两个案件可能被计算为异案，而本属于异案的两个案件也可能会被错误地认定为类案。

第三，如果后案中出现了一些新的关键性事实，或者这些事实的法律意义存在争议，此时该如何赋值和计算，明显需要法官进行价值权衡和通盘判断，来综合把握新出现的关键性事实的地位和意义。主张实质相似性可以计算化的学者也承认这里遇到了难题，并提议“也许可以根据语义、语境、适用法条、争议焦点等其他信息让计算机作出大概对应的关键性事实的判断建议” ，这么做只是一种推测性的处理策略，包含着大量的不确定性和可错性，同时也难以普遍化为一种量化规则。

三、“同判”的预测及限度

“类案”是逻辑前提，“同判”是价值追求。在较长一段时间里，人们更多在争论类案的判断，没有给予同判足够的重视。有一种简单的观点认为，只要找到了类案，同判只不过是一种逻辑上的必然或自然演化的结果。实际上并非如此，从类案到同判中间还有较大的间隔。传统上对“同判”的预测，主要是基于规则和经验主义。法律大模型具有更强的运算能力，可以进行高精度链式推理，它在这方面的独特能力无疑会吸引人们的兴趣，将实现同判的理想寄托在法律大模型上。法律大模型确实能够预测简单案件的判决，节约时间、降低成本、解放法官手脚，很多人认为这已经足够了。笔者倒是认为简单案件无需运用智能机器预测，因为法官足以胜任解决此类案件。对一个法律大模型的评价，应看它在多大程度上能够解决疑难案件。如果它能用来精准地为疑难案件预测结果，那么这种法律大模型才真正改变或塑造了司法实践。然而，真实情形并不尽如人意。

（一）“同判”预测的传统进路

从概念语义上看，同判是指两个案件的裁判基本一致，并不要求完全一模一样。与类案相似，这里的同判也是在结构性意义上而言的，裁判结果一样或相似并不是唯一的评判要素。在实践中会出现这样的情形，有时两个裁判在结果上看起来一样，但实际上并不是同判。同样的，有时候两个案件在判决结果上存在一定的差异，但经过对比发现它们实际上做到了同判。学界和实务界很少有人讨论同判如何认定，笔者曾专门撰文研讨同判的证成标准，它大概包含形式和实质两个层面。形式认定标准有裁决核心问题具有一致性、裁决的事实基础具有相似性、相关法律规范的指向具有同一性以及实体裁判结果裁量幅度大体一致；实质性认定标准包括法律适用方法一致、裁量在合理性的区域之内以及与裁判的价值导向一致。在实践中，以上要素并不是选择性，两个案件的裁判必须同时尽可能满足这些要求，才可认定为同判。

传统对裁判预测主要有两种理论脉络，一种基于规则主义，强调规则的确定性和可预测性，坚持法律规范与裁判之间的拘束关系，盛行于美国的法律形式主义以及在欧陆风靡一时的概念法学大概就是持这一论点的典型代表。另一种基于心理学和社会学，探讨影响法官作出决策的各种主客观因素，通过观察裁判风格来预测法官在法庭上将会如何判决，法律现实主义走的就是这样一条道路。

我们先来看基于规则的预测进路。如果法律是不确定的，那么法律的适用也必然是不确定的，从而导致裁判结果难以提前预测。基于规则的预测进路，其立场前提是辩护法律规则的确定性。当然，法律形式主义所主张的那种法律规则是绝对确定且不存在漏洞的，法律形式主义的开创者兰德尔主张将法学院改造成实验室，通过公式计算来解决法律案件，完全否定道德推理的任何作用。这种观点过于理想了，法律真实的运作并不是这样的。较为合理的主张，是法律在多数时候是确定的，不确定是例外状态。在法律的不确定之处，所开放出的自由判断空间，给判决预测造成了障碍。

除了要求法律具有确定性这一客观条件，基于规则的预测论在法律方法上依赖形式演绎逻辑，一旦允许道德等实质性评价因素进入法律推理过程，将很难在法律与裁判之间建立线性的决定关系。每个决策者的道德观和价值观有差异，基于此预测得出的结果难免不尽相同。我们看到，一些新法律形式主义者，诸如德沃金，即便在倡导法官引入道德推理和价值判断的情况下，仍坚信任何法律问题始终都能找到唯一正确的答案，此即司法裁判的客观性。现代法治的一个基本条件就是法律稳定且要有预期性，这样类案同判的实现才有客观现实的保障。

基于规则的预测论有一个重要的优点，即在于比较容易满足依法裁判的要求，尊重法官应受法律拘束的司法教义。同为预测裁判结果，法律现实主义则走向另外一种极端。它主张法律是不确定的，很难总是能够通过演绎的方式来适用。法律现实主义对法律的概念提出了一种十分别致的界定，法律不过是对法官将要作什么裁判的预测。因此，法律随着法官的判决行为而定。法律现实主义否认法律的确定性，而是从法律之外的社会学和心理学等方面寻找法律，并预测法官的判决。

法律现实主义是一种关于法官如何裁判的描述性理论，法官依照对事实的刺激作出回应。法官根据他们认为允许的事实作出判决，而不是依赖适用法律规则得出结论。在现实主义内部，主要有以弗兰克为代表的心理学派和以卢埃林为代表的社会学派。在判决的预测上，它们有共性也有自己的特异之处。

心理学派反对传统的“神话公式”，主张在法律适用公式中增加心理学的刺激。他不仅指出法律是不确定的，而且还认为事实也是不确定的，这样一来就为预测裁判增加了难度。准确把握法官的心理刺激，才是精准预测裁判的关键所在。为此，就要了解特定法官的脾气秉性、生活背景、直觉乃至偏见等，考察这些因素对法律的确定和解释产生何种具体的影响，从而预测法官在个案判决中的走向。弗兰克的裁判预测理论，特别鲜明地表现为“后果预判”，“毫无疑问，在大多数情况下，司法判决同其他判断一样，是根据初步拟定的结论倒推而来的”。法律现实主义者中，不少追随者主张预感或直觉在裁判结果选择和预测中发挥重要作用，实际上追随的正是弗兰克的心理学进路。

卢埃林另辟蹊径，同样认为法律是不确定的。他强调法官要将眼光置于现实的社会背景中，观察行动中法观念的形成以及具体的运作方式。社会学的思考起点，要求多观察法官在运用法律判决时的行为规律性。通过考虑案件背后的社会具体情境，理解法律的社会功能，便可预测未来的判决结果。虽然法律不具有确定性，但他并未从根本上放弃法律，并不坚持一种彻底的法律怀疑论，仍然承认普通法的遵循先例原则具有一定的可估量性和可预测性。他提出司法判决有“宏大风格”（注重社会情境）与“形式风格”（强调规则演绎），并列举了可能影响判决稳定性的十余项要素，包括司法原则、公认的原则性技巧、法官职责、来自下级法院事实冻结记录、司法保障与诚实、法院的集体判决等。运用社会情境的思考方法，研究不同判决风格的差异，预测在未来特定个案社会情势下法官将会选择何种策略，形成何种判决结果，以达到裁判预测之目的。

（二）通过计算预测“同判”的限度

传统理论中对于裁判预测的讨论，与当代数字化智能推理的裁判预测，虽然并不完全相同，但仍能看到二者之间存在一种影响与延续的关系。依笔者之见，符号主义的人工智能强调形式逻辑演算，早期的基于规则的推理系统和基于案例的推理系统，以及晚近发展出来基于对话和论证的法律推理系统，实际上仍然建立在“法律具有确定性因而可以代码转译”这个前提基础上。与之相比，法律推理大模型所代表的连接主义人工智能，运用神经网络来预测判决结果，其运作机理表现为：“法律大模型从法律大数据中提取关键特征，包括案由和适用的法律法规等。然后，使用大模型算法来训练判决结果的预测模型，使其学会识别案件特征与判决结果之间的关系，从而为新案件预测结果。”生成式的法律推理大模型，在预测判决结果方面较之于以往的人工智能凸显出了一定的优势。

法律大模型对判决的预测，实际上吸纳了法律现实主义裁判预测论的某些观点。陈景辉持类似观点，他指出，“作为裁判正当化根据的，并不是或者至少不完全是法律规定，而是既有的生效判决（或从中获得的模型），因此这必然在基本属性上，属于某种现实主义式的裁判理论”。在大数据时代，我们不能否认法律大模型通过海量案例数据的处理，通过一定算法规则能够预测判决。同时，又不能用智能科技神化“类案同判”的命题。至少就当下我们法律实践的发展来看，法律大模型在法律信息处理、法律文本生成方面已有所应用，但在裁判预测方面所发挥的作用还相对有限。

之所以不能放手让法律大模型去预测判决，存在价值观念、技术方法以及司法裁判特殊性质等多方面的限制。

首先，从观念上看，人工智能代表的是技术理性，法律及裁判依赖的是人的实践理性和价值理性。不能因为人工智能的发展，在某些方面（尤其是计算）展现出超于个人的能力，就任凭技术理性宰制价值理性。司法裁判不仅是纯粹形式推理的活动，更不是数字化的计算活动。两个案件能否做到同判，它们除了共享一些形式性判断标准之外，同时还要满足一些实质评判标准。比如，都涉及对某个一般法律原则的适用，由于原则的适用具有不同的抽象程度，此时大数据的预测根本上很难解决通过价值判断将法律原则具体化的难题。在人工智能飞速发展给这个社会带来各种问题的同时，我们就更要保持理性而清醒的头脑，让我们的法学教育、法学研究以及法律实践，深深植根于人文主义和价值理性之中，莫让机器计算取代理性判断。

其次，就技术方法而论，目前的法律大模型仍处于发展之中，我们要正确认识它的“能”与“不能”。在落实预测判决的问题上，法律大模型的运作效果取决于我们投喂多少法律语料，如前文所述，目前能够公开获取的很多法律案例语料，存在这样或那样的缺陷、不足，另外还有不少重要的案例语料通过公开渠道难以获得；使得法律语料在源头上出现了“数据污染”和“数据短板”。可想而知，这种数据质量不高的情况下所作的同判的预测，很难令人信服和接受。法律大模型除了不公开透明，存在算法黑箱、算法偏见以及难以解释的缺陷，有时还会出现“幻觉”，比如编造事实、虚构法条、篡改案例、改变裁判结果。数年前，在一起乘客起诉航空公司的案件中，美国的一位律师通过ChatGPT生成了几个先例，他多次询问ChatGPT这些案例是否真实，ChatGPT都确定地回答这些是真实的案例。后来，他将这些案例提交给了法庭，结果证明这些案例都是ChatGPT虚构和编写的。这种“幻觉”其实就隐含在算法黑箱中，因为存在不透明和不可解释性，所以人们通常很难发现这种错误。可想，在预测同判的问题上，类似的现象必然会出现。基于这种计算获得的同判结果可能出错，从而严重侵害权利，造成司法不公正。

最后，类案同判是司法的重要原则和价值目标，在数字化浪潮的冲击下，既迎来了机遇也面临着挑战。无论怎样，我们最终还是要回到司法裁判事业本身上来。司法裁判最核心的内容是如何应对法律的不确定性以及由此引发的疑难案件，智能机器注定无法破解疑难案件背后争议复杂伦理和价值问题。当法律的运用存在裁量空间时，往往需要法官在多种可能的方案中进行价值抉择。如巴拉克在讨论司法裁量时强调的那样，“尽管合理性原则要求法官考虑各种系统性因素，但它并没有明确地确定必须给予这些因素多大的权重。因此，不同的法官可能会得出不同的合理结果”。类案同判有内在限度，并非只要类案就必须同判，千案一面、千案一判，并不一定就是好事。司法裁判的多样化，个案判决的差异化，才是符合客观司法规律的选择。因此，在宣扬智能科技能够准确预测未来类似案件的判决结果时，我们不要忘记多样性和差异性才是司法裁判生命力之所在。

结语

学界近年来对类案同判的争论几乎从未停止过，它在理论和实践层面都展现出了极度的复杂性。同案同判对于司法而言是重要的，值得努力追求和实现。较之于以往，类案同判在数字化时代呈现出一些鲜明的特征。不得否认人工智能在推动类案同判方面能够提供不少帮助，但这种帮助主要是边缘性和辅助性的。无论是类案的相似性判断，还是同判的预测，法律大模型都无法胜任这两项核心任务。任何夸大乃至神化数字化力量的观点，都会最终以摧毁类案同判、制造司法不公正为代价。无论何时，我们都不应容许技术理性取代人类价值理性，也不允许机器正义代替人的正义。人工能智能模型很多时候，只会给出可能的答案，而不会像法律人那样说理和推理。在实现类案同判的道路上，在广阔的司法舞台和浩瀚的案例海洋中，我们要重新发现法官的主体性地位。

孙海波，中国政法大学比较法学院教授、博士生导师。

孙海波：智能司法背景下的类案同判

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏