王禄生：ChatGPT类技术：法律人工智能的改进者还是颠覆者？

【摘要】21世纪以来，法律人工智能呈现出繁荣复兴的景象。但火热表象的背后，法律领域的语言复杂性、知识丰富性使得法律人工智能仍然面临自然语义处理与知识生成的技术瓶颈。以ChatGPT为代表的大规模语言模型与生成式人工智能技术有望破除法律人工智能的自然语言理解瓶颈，极大提升技术互动性、生成性与嵌入性，推动法律人工智能与用户形成刚需性、高频率和高黏性的联结。尽管如此，现有ChatGPT类技术的底层逻辑无法充分回应法律知识丰富性、严谨性与创造性的领域需求，流畅语言处理能力与相对较低知识生成能力错配产生的知识完满幻觉、知识权威幻觉与知识生成幻觉，制约了大规模语言模型与生成式人工智能的架构对法律人工智能的根本性颠覆。未来需要通过强化高质量多模态法律数据的供给并建构基于法律指令集的指令微调机制和基于法律人知识反馈的强化学习机制，克服“知识幻觉”以实现法律人工智能的进一步迭代。与此同时，在技术社会学意义上调适创新扩散与社会公正的张力，避免可及性与可用性两个层面的数字鸿沟，真正实现全社会围绕法律知识的新一轮赋权赋能。

【中文关键字】ChatGPT类技术；大规模语言模型；生成式人工智能；法律人工智能

尽管法律人工智能是晚近发展的技术，但其思想来源可以追溯到17世纪莱布尼茨对数学形式主义如何改进法律的讨论和韦伯关于自动售货机式现代法官的畅想。有关人工智能发展的季节性隐喻叙事也适用于法律人工智能。肇始于20世纪50年代的法律人工智能研发在经历了“初春”发展之后，在1980年迎来了“盛夏”，一批以法律专家系统为代表的法律人工智能应运而生。由于技术瓶颈无法有效突破，法律人工智能在上世纪末陷入“寒冬”。其后，在司法数字化、技术积累和风险投资的三重影响下，法律人工智能在近十年再次进入“盛夏”。尽管近年来法律人工智能发展迅速，但大范围实践应用仍然面临不同程度障碍，“凌冬将至”的悲观情绪开始在法律人工智能界蔓延。2022年11月， ChatGPT横空出世，其依托大规模语言模型与生成式人工智能的预训练技术框架，在语言理解、意图识别、逻辑推理、内容生成等方面取得令人印象深刻的跃升。从上个世纪中叶产生之初，法律人工智能就承载着通过技术提高法律服务的数量、质量与可及性的普遍期待。ChatGPT在包括法律在内的细分领域的良好表现，重燃了法律未来主义者对该技术框架给法律人工智能带来革命性变革，进而产生强法律人工智能——一种能够适应现实法律世界、解决复杂法律问题、与法律人无障碍交流协作的人工智能——的热切期待。那么，以ChatGPT为代表的大规模语言模型与生成式人工智能技术（下称ChatGPT类技术）有望在何种程度上增强当前的法律人工智能？上述增强究竟是“改进性”的亦或是“颠覆性”的？本文拟对上述问题做一简要展开。

一、法律人工智能的时代图景

从应用实践角度观察，法律人工智能是运用自动化技术，完成起诉、审判等通常由法律人借助专业知识与智慧进行的工作，是法律技术中提供实质法律服务解决方案的一类前沿内容。21世纪以来，大数据应用和智能化算法逐渐从理论走向实践，以深度神经网络为核心的联结学派智能呈现出爆炸发展趋势。法律人工智能正是在这一时代背景下重新兴盛，并在各种微观业务场景中产出一定的研究成果。尽管如此，受限于自然语义处理与知识生成的技术瓶颈，当前各类法律人工智能在可持续发展的制度化逻辑方面与既有实践成果之间尚未实现科学衔接，在功能完善、普适性、覆盖面等指标均有待进一步发展完善。对时代图景的客观描绘，有助于更加深刻的理解ChatGPT类技术对法律人工智能的变革式发展。

（一）法律人工智能的当代复兴

一般认为，关于法律人工智能的专门出版物，大致可以追溯到1957年莱曼·艾伦的著作《符号逻辑：起草和解释法律文件的锋利工具》。在七十余年的发展中，法律人工智能既经历了从符号学派到联结学派的范式转变，也曾度过数个浮浮沉沉的发展时期，或高潮迭起，或偃旗息鼓。毫无疑问，近十余年的法律人工智能总体上处于复兴状态之中，并在法律知识检索、法律文本生成、法律结果预测等关键领域取得相应进展。在我国法律界，特别是司法系统内部，也有意识地关注人工智能等新兴技术的发展，提出了“智慧法院”“智慧检务”的建设目标。法律人工智能的当代复兴，与数据、算法、算力的迅猛发展，以及人工智能基础设施的成熟完善密不可分。

首先，世界范围内普遍的司法数字化建设，为本轮法律人工智能的发展提供了可观的数据储备。在信息化浪潮中，传统的“司法公开”概念被赋予了新的时代内涵：司法机关应当推动司法文书以电子形式公开，以保障公民公正审判权与知情权的真正实现。推动司法文书的电子化公开，成为21世纪全球的普遍潮流，并形成了高度趋同的司法文书上网公开制度规范与运行实践。尽管这些司法公开大多不以法律人工智能建设为首要目的，然而在客观上，司法文书的网上公开大大增加了电子化法律语料的丰富性和可及性，这为法律人工智能，特别是本轮联结学派法律人工智能的发展提供了便捷、丰富的数据资源。

其次，专家学者在法律和人工智能交叉领域的长期耕耘，为本轮法律人工智能发展提供了技术积累。1987年，首届国际人工智能与法律会议（ICAIL）标志着法律人工智能学术共同体的正式形成。在1991年的第三届ICAIL上，国际法律人工智能协会（IAAIL）成立，进一步了促进法律人工智能研究与发展。在欧洲，由法律与计算机科学研究人员共同组成的“法律知识系统基金会”（JURIX）自1988年来每年举办一次有关法律知识与信息系统的国际会议，这与ICAIL并列成为国际法律人工智能研究的标杆。即便是在法律人工智能的寒冬期，仍有一批学者耕耘其中。这使得在符号学派到联结学派的范式嬗变中，以及机器学习、深度神经网络等联结学派技术爆发时，法律人工智能界能够迅速吸收上述最新成果，与时俱进构建新型的自动化模型。

最后，风险资本给予各类法律科技公司的投资融资，为本轮法律人工智能的发展提供了扎实的基础设施支持。根据Crunchbase的数据显示，2021年美国全年175宗法律科技领域的风险投资超过16亿美元，既远超2020年的5.22亿美元投资，也高于2019年的9.89亿美元，创造历史新高。在国内，据不完全统计，2021年法律科技公司总共获得的投资也超过15亿元人民币。总体而言，在数据与算法的长期储备积累下，法律人工智能对数据处理能力的需求显著增加，而风险资本正可以弥补这些初创法律科技企业的基础设施短板。

综上所述，随着数据、算法、算力的迅猛发展，以及人工智能基础设施的成熟完善，法律人工智能在全球主要国家蓬勃发展。这体现为，当前的法律人工智能不仅尝试面向律师、公众、企业、法官、检察官等主体提供差异化的智慧法律服务，还在法律知识问答（法律问答机器人）、类案推荐、法律文书生成与审查、判决结果预测、诉讼风险分析、同案不同判预警等不同的微观业务场景中，产出具备一定实践应用能力的研发成果。

（二）法律人工智能的技术瓶颈

尽管在数据、算法和算力的三重支撑下，法律人工智能在近年来进入复兴期。然而与法律未来主义者的畅想相比，现有法律人工智能的技术奇点尚未到来。从技术逻辑看，法律人工智能应用的实质是通过自然语言处理技术来准确识别用户的法律诉求，同时将其映射到系统中可用的最佳法律知识响应集。法律语言的复杂性与法律知识的丰富性形塑并固化了法律人工智能的技术瓶颈，提升了开发法律任务人工智能系统的难度，进而使得许多系统未能达到预期效果。

1.法律领域自然语言处理的技术瓶颈

自然语言处理是人工智能的重要研究领域之一，旨在创建一个能够理解并响应人类语音或书面文本的计算机系统。法律领域高度依赖语言运用，因此对于法律人工智能而言，自然语言处理是关键的共性底层技术，其研发程度决定了对法律领域语言理解、意图识别、逻辑推理和内容生成的精确性与专业性。然而，法律语言具有高度复杂性，即便是专业法律人也需要通过多年学习方能适应与运用法律语言。一方面，法言法语与日常用语存在“语义鸿沟”，体现为大量专业化的概念与术语，以及高度程式化与学究式的精确措辞。对于非法律专业人群而言，法律用语通常与“晦涩”“艰深”“难懂”相关联。与此同时，作为普遍适用于社会成员的行为准则，法律语言还有着不同于日常用语的统一性与规范性要求，具体体现为运用大量复杂词组、较长的句子结构，以及并列、补充、递进、转折等句群的混合使用。这也决定在法律人工智能语料训练时，对数据样本、模型参数与计算能力的需求，与一般自然语言理解技术存在明显差异。另一方面，在即便是看似精确的法律用语中，也充满了语义上的微妙差别。同一术语在法律语言中可能具有不同的、特定于上下文的含义。并且，诸多法律用语的含义并非词典所能固定，而会随着社会的利益互动和情势变化而改变。这种语义的深度和广度，往往要求与法律文本交互的自然语言处理系统中嵌入大量特定的领域专业知识。法律语言的上述特性，使得法律领域自然语义理解技术相较于一般领域而言，不仅需要大量标注好的高质量专业语料，还通常在参数量和运算规模上有更高要求。基于法律知识的专业性壁垒，大部分的数据清洗、标注任务往往需要法学学生乃至专业律师加以完成，这同样极大提升了法律知识构建的难度与成本。也正因如此，传统范式上采用有监督学习、小语言模型的技术架构，事实上难以胜任法律领域自然语言处理技术的需求。作为其结果，法律人工智能技术不仅在识别法律领域各类用户自然语言时遭遇实质困境，还在生成内容上与法律领域用语习惯存在差距。法律人工智能在人机交互过程中出现“听不懂”“说不像”的现象也就不足为奇了。然而，法律场景的自然语言处理与交互作为底层技术，直接决定了用户在使用法律人工智能的第一感观。这种能力瓶颈，意味着研发出的智能产品或多或少地陷入“人工多、智能少”的境地，这将极大影响用户的深入操作与信赖关系建立。

2.法律领域知识构建与生成的技术瓶颈

如果说自然语言处理与流畅的人机交互仅仅只是人工智能的外在能力要求，那么知识构建与生成，则是所有人工智能必须具有的核心能力。这在法律领域即体现为，充分回应法律知识丰富性、严谨性和创造性要求，集合多源异构资源，实现法律知识的自主构建与适配法律知识的自动生成。事实上，早在人工智能研究的萌芽时期，就揭示出知识在人工智能建设中的不可或缺地位。但由于知识的多样性、易变性、模糊性等特质，人工智能与知识的结合始终异常困难。在法律领域，知识的丰富性在很大程度上源自于法律渊源的多样性，除了制定法、判例以及习惯外，法律中还包含了大量法学理论、道德规范、正义观念，甚至在特定场景中宗教规则、乡规民约、哲学观念等也能发挥“法”的功能。不同的法学流派对法律的差异化认识，使得法律知识的外延进一步模糊，甚至相互冲突。不仅如此，法律中蕴含着大量的地方性知识，这些知识可能是诸如“刑事侵财类案件数额认定标准”这类相对显性的知识，也有可能仅仅是默会的、实践性的，甚至无法用语言与一般命题的形式表示。

在人工智能发展之初，知识被认为是由语言符号表示的信息，并可通过“if-then”的逻辑规则形式输入计算机系统。即便是法律、金融等领域的专业知识，也可通过法律、金融专家与技术人员的深入配合，共同完成对知识的表示与构建。以这种专家系统为代表的技术进路，被统称为人工智能的符号主义。如今，主流的联结主义方法则通过对海量数据的有效聚合、识别与分析，自动化完成知识构建与生成工作。这种新范式的兴起，一方面是由于符号学派在海量的领域知识、法律规则乃至生活常识中陷入穷举困境，另一方面也得益于数据、算法、算力发展而带来的知识建构效率与性能的双重提升。尽管如此，当前以深度学习为核心的联结主义进路，仍无法有效解决法律场景知识构建与生成的能力瓶颈。这是因为，联结学派法律人工智能主要依赖大量经过标注的高质量法律数据作为模型训练语料。然而现实却是，法律领域的数据总量十分有限，远少于金融、交通和医疗领域。并且从格式上来看，这些法律数据多以文本、音频、图片、视频等无标注、非结构化形式呈现，难以被计算机直接自动化处理。受限于法律领域数据语料的单一、匮乏，当前的法律人工智能尚无法充分回应法律知识的丰富性特征，而对于法律领域知识的创造性与严谨性要求则更是难以解决。这在外观上即体现为，当前的法律人工智能尚无法充分考虑法律场景中庞大且分散的多方需求，也无法借助知识演算、知识推理、知识过滤等方式深入构建生成复杂法律知识以实现对公众需求的精准回应。

二、ChatGPT类技术赋能法律人工智能的进化

尽管ChatGPT面世不足一年，但却可能对法律人工智能形成潜在的深远影响。自2022年底发布以来，英文世界有关ChatGPT研究最主要的领域就包括法律。与此同时，根据“职业受人工智能影响”（AI Occupational Exposure, AIOE）榜单的测算，法律行业高居与大规模语言模型联系密切的行业之首。实际上，大规模语言模型与生成式智能的技术架构与法律人工智能具有极强的内在契合性，有望破除法律人工智能在自然语言理解方面的技术瓶颈，推动法律人工智能的技术进化，极大提升互动性、生成性与嵌入性，对法律人和社会公众形成一次重大的赋权赋能。在ChatGPT类技术的赋能下，法律人工智能与法律人、社会公众的联结方式将可能由非刚需性、低频率和低黏度向刚需性、高频率和高黏度进化。

（一）赋能法律人工智能互动性的提升

在ChatGPT类技术的赋能下，法律人工智能有望突破法律领域自然语言处理的技术瓶颈，显著改善法律人机交互的用户体验。作为自然人与计算机之间的信息传播、交流接口，以及以人为中心的系统设计方法论，人机交互在人工智能的发展中起着举足轻重的作用。不同于传统范式上采用有监督学习、小语言模型的技术架构，由GPT-3迭代而成ChatGPT拥有极大的数据语料、参数量与运算量。其数据语料超过3000亿个单词，整个英语维基百科仅仅只占整个训练数据集的0.6%，占ChatGPT训练语料的3％。大多数（60%）训练语料则来自2016-2019年间的Common Crawl数据集——一个定期（若干月一次）从互联网上爬取网页数据并提取文本的大型公开数据集，且每次爬取的网页数量往往在20亿之上。得益于惊人的训练数据，ChatGPT形成了一个具有1750亿庞大参数的模型，其中储存了大量知识性内容。这些知识不仅包括我们所通常理解的各种事实性知识与常识性知识，也包括法律、金融、医疗等领域的专业知识，还包括词法、语法、句法等语言学知识。而这些语言学知识，则认为通常是自然语言处理技术突破的关键。不难想象，ChatGPT在这些海量的数据语料与模型参数的支撑下，有望突破小模型时代的法律领域自然语言处理技术瓶颈，实现自然语言与法律语言的流畅交互与体系转化。

除此之外，ChatGPT类技术通过指令微调（Instruction Tuning）和基于人类反馈的强化学习（RLHF）等技术进一步优化，进一步增强了模型的意图识别、指示遵循与多轮对话能力。这至少包括三个阶段：综合测试用户提交的各种自然语言指令，通过专业标注人员对模型答案结果的赋分与排序，以强化学习方式鼓励模型生成更加优质的回答。令人惊讶的是，当输入给模型的指令数量达到一定阈值后， GPT-3迭代产生的ChatGPT具备了泛化完成各种新任务的能力——模型在从未见过的新指令上也能够有效回应。特别是ChatGPT类技术所体现出的流畅多轮对话能力，显著有别于先前法律问答机器人只能进行单轮或个别轮次的封闭、僵硬、简短对话，开放连贯流畅的交互感能够极大提升法律人工智能的用户体验。一个直观的感受是，ChatGPT类技术不仅“听得懂”，还“交流连贯”“善解人意”。

总体而言，ChatGPT类技术已经表现出较之原有法律人工智能更加出色的法律语言语义理解、意图识别、多轮对话能力。随着其技术的进一步迭代与完善，将有望赋能法律人工智能互动性的极大提升，进而有效满足各种用户对法律人工智能人机互动性的认知和使用需求。

（二）赋能法律人工智能生成性的提升

不同于传统小模型时代的人工智能，ChatGPT类技术的另一大突出特点在于其生成性，其名称中的字母“G”，其实就是生成式（Generative）的英文缩写。根据知名咨询公司Gartner的定义，生成式人工智能是指从原始语料中自动化学习对象特征，并能够生成全新的、完全原创的、与原始数据具有相似内容的智能技术。在ChatGPT类技术兴起前，基于机器学习与深度神经网络的分析式人工智能占据研发主流，其通过从大量数据中寻找对象的隐藏模式，并对未来的内容进行分类预测。尽管ChatGPT类技术与传统的联结学派人工智能均通过学习大量数据中的模式形成规律性认识，但在模型的输出形式上存在明显差别。一个简单的例子是，传统的分析式人工智能被训练以区分图片中的动物属于何种，而以ChatGPT类技术为代表的生成式人工智能，可以生成一幅与现实世界完全不同的动物图片。也正是因为生成式人工智能在内容生产上的巨大能力，其被认为在工业设计、药物研发、材料科学与数据合成等方面具有广阔前景，乃至颠覆全球互联网内容生产的生态环境。

内容生产是法律的核心工作之一，这不仅涵盖法律咨询与问答中的各类建议回复，也包括贯穿诉讼全生命周期的起诉状、答辩状、判决书等法律文书。然而，与其他领域相似，本轮法律人工智能的复兴同样以分析式智能为核心，即通过海量的法律数据的分析、演绎或计算，挖掘其间包含的法律规律，进而用于诉讼风险评估、诉讼结果预测等特定分类任务中，而生成式智能尚未在法律领域取得实质性推进。相反，借助生成式智能的结构，ChatGPT类技术可以通过对海量语料的深度学习自主生成全新的法律专业内容，推动法律人工智能由“分析式智能”向“生成式智能”进化。测评显示， ChatGPT类技术已经具备一定的根据输入的案件信息、当事人信息、证据材料等内容，自动生成法律文书、评估法律风险、做出法律决策的能力。可以预见，随着ChatGPT类技术的持续迭代与发展，其对法律场景内容生成的技术赋能作用将进一步提升。

（三）赋能法律人工智能嵌入性的提升

ChatGPT类技术还有望提升法律人工智能的嵌入性，推动法律人工智能与法律人更加紧密的联结。本轮法律人工智能的复兴中虽产生了知识检索问答、文书审查生成、数据分析预测等应用成果，但受限于法律知识的丰富性，这些成果往往以一种碎片化、模块化的方式进行开发，即面对特定的任务采用不同的模型范式。这就导致，各应用成果间的兼容性不足，既无法满足全流程覆盖、全场景整合、集约化管理的智能化需求，也造成了重复建设与资源浪费。与之相反，ChatGPT类技术则通过一个统一的大规模语言模型，改变了传统人工智能分散化、碎片化的建设思路，其通用化的技术架构，有效提升了模型的嵌入能力。在人工智能界，一直存在着“通用人工智能”与“专用人工智能”的区分，前者意指能够像人类那样广泛胜任各种任务的人工智能系统，而后者仅仅作为特定领域、特定问题的智能化解决方案存在。按照这种分类，传统法律知识检索问答、文书审查生成、数据分析预测等，均属于专用人工智能的范畴。尽管1956年的达特茅斯会议以及最早期的人工智能研究者，致力于研发如“思维机器”一般的通用人工智能，但遗憾的是，目前主流人工智能产品均不属于通用人工智能的范畴。ChatGPT则截然不同，既不存在一个特定的意图识别模块，也不存在文书生成、摘要等传统法律人工智能的任务单元。事实上，在ChatGPT类技术的世界中，作为生成式的人工智能，其将用户指令解构于统一整体的大规模语言模型之中，并据此生成经过有人类校准的字符组合。

ChatGPT类技术通用化的人工智能技术架构，可以有效、灵活嵌入现有的各类日常应用中，为已有系统提供良好赋能。举例而言，2023年2月，微软发布的“New Bing”搜索引擎就是这种路径的典型方法，其将OpenAI公司的大规模语言模型嵌入到Bing搜索产品之中，推动更高质量、更加正确的信息检索与答案生成。与之类似，ChatGPT等技术嵌入常见办公软件提供文档校对、语法检查乃至数据表格、演示文稿的智能生成也并非难事。在法律领域，ChatGPT类技术同样可以与Westlaw、LexisNexis以及国内北大法宝等传统的法律专业知识库相结合，为法律问答与文书生成提供可验证的法律条文或者司法案例，提升大规模语言模型对于生成结果的可验证性。可以预见，运用ChatGPT类技术等大规模语言模型成果，以开放式、生成性交互能力为核心，深度嵌入现有智能法律咨询、诉讼自动导引、文书智能生成、争议焦点总结等法律人工智能各类已有系统中，为一体化、集约化法律人工智能的构建与实现创造可能。在极大的降低用户学习与交互成本的同时，嵌入性的提升将推动法律人工智能与法律人的联结方式将由低频率和低黏度向高频率和高黏度进化。

三、ChatGPT类技术赋能法律人工智能的限度

尽管以ChatGPT类技术有望突破传统法律人工智能研发过程中遭遇的语义理解与内容生成瓶颈，进而为法律人工智能的互动性、生成性与嵌入性的提升带来可能。但是ChatGPT类技术赋能法律人工智能依然存在技术限度。其原因在于，ChatGPT类技术的现有技术架构尚无法有效回应法律知识的领域化需求，优秀的自然语言处理能力与相对较低的知识生成能力间的错配关系，使得ChatGPT类技术产生系列的“知识幻觉”现象。“幻觉”（Hallucination）一词在技术界已被充分使用，旨在描述人工智能模型生成了流畅自然、语法正确，但内容上毫无意义或包含事实性错误的文本。更为通俗地说，就是在“一本正经地胡说八道”。本文所讨论的“知识幻觉”的概念外延则更加广泛，这不仅包括在技术治理维度上的错误生成，也包括基于ChatGPT类技术深度使用而导致的不合理信任与依赖。这些“知识幻觉”，将极大制约大规模语言模型与生成式人工智能对现有法律人工智能的根本性颠覆。

（一）法律知识的丰富性与ChatGPT类技术的“知识完满幻觉”

多样化的知识渊源、地域化的知识内容以及开放性的知识结构，共同形塑了法律知识的丰富性特质。首先，法律知识的丰富性来源于法律渊源的多样性。各类正式、非正式“法”规范的变迁、交织与杂糅使得法律知识呈现出纷繁复杂、变动不居的面相。此外，法律知识具有高度地域性特征也提升了法律知识的丰富性。英美法中以判例原则为核心的知识体系，就迥异于大陆法系的规则推理模式。即便是在同一法系内部，也可能潜藏着大量的地方性知识。最后，法律知识的开放性也是法律知识丰富性的重要诱因。对于法律知识的开放性，哈特通过开放结构（Open Texture）概念作出了更为经典的表达。他认为，判例或立法均是用来传递法律知识与行为标准的工具，无论它们怎样顺利地适用于大多数案件，都会在某一点上发生适用上的问题，表现出不确定性。因此，无论是法律语词、语句还是法律规则，均既具备具有“确定意义的核心”，也存在着“有疑问的半影”。更加尖锐的批评来自弗兰克，他认为法律的确定性是人类的一种幻想，是一种“基本迷思”，人们对法律确定性的渴望“不合需求”且“不可实现”。一言以蔽之，法律知识的丰富性在很大程度上决定了一直以来法律人工智能研发的技术瓶颈。

尽管采用了大规模语言模型和生成式人工智能的技术架构，ChatGPT类技术在数据、模型参数和算力要求上的飞跃，极大提升了其自然语言处理能力。然而，ChatGPT类技术尚无法充分回应法律知识的丰富性要求，输出圆满完整的回答。这是因为，ChatGPT类技术虽运用海量互联网数据作为训练语料，但这种大样本的规模性并不能充分反映丰富性。从网络数据生产的视角简单考察，青年群体与发达国家用户的贡献就显然大于老年群体与发展中国家。同时，占据主流价值理念以及霸权主义观点的人士可以轻松生产大量数据，而另一些代表性不足的人群则恰恰相反。这使得ChatGPT类技术对于知识吸收与再生产具有以下缺陷：首先，以数据化形式呈现的样本语料，无法涵盖法律领域中大量隐性知识与默会知识。其次，以网络数据为核心的样本语料，无法平等反映现实社会的真实样貌，主流价值理念与霸权主义观点可能导致法律地方性知识在模型参数中的式微。最后，尽管ChatGPT类技术通过通用化的技术架构消解了传统法律自我封闭的边界，使得法律的开放结构能够借由其他领域知识加以补足。然而，ChatGPT类技术的模型思路往往与传统法律要素相距甚远，黑箱式的知识生成将使其面临着准确性与公平性上的诘问。事实上，在法律人工智能发展的大部分时间里，对解释结果的推理建模（并为其他可能结果提供理由）远比预测结果本身更感兴趣。综上所述，尽管ChatGPT类技术能够针对用户提出的所有问题给予看似可信的回答，但在法律知识的丰富性面前，这种回答通常存在着“知识完满幻觉”——ChatGPT类技术究竟有无穷尽回答问题所需的所有背景知识，其生成的答案又能否完整回应问题？

（二）法律知识的严谨性与ChatGPT类技术的“知识权威幻觉”

法律领域高度强调知识的严谨性。这是因为，作为权威的社会规范，法律承载着明确行为方式、维护社会秩序、管理公共事务的重要作用。尽管不同法学派对法律的权威来源有着差异化的观点，例如哈贝马斯将权威归结为“交往理性”，奥斯丁归结为对主权者的服从，而哈特则归结为“承认规则”。然而，法律的权威性确实为所有法学家所一致认同，这也体现在现代法律制定的严密要求、法律实施的完备体系以及作为强制力的后盾保障等方面。在法律权威统摄下的法律知识，自然应当具备庄重严格、周全审慎的重要特质。这使得法律知识具有不同于文学、艺术学与美学的规范性要求，在特定时空地域下总是存在着“真理”与“谬误”的客观差异。

然而，基于ChatGPT类技术的架构分析可以发现，其知识的习得与生成无法保证绝对正确，这有违法律知识的严谨性要求。ChatGPT类技术采用的大规模语言模型和生成式人工智能的架构，是在已有海量语料的基础上的“知识习得”，本质上仍然是联结学派的范式。如前所述，ChatGPT类技术在模型训练与知识构建阶段，主要依赖Common Crawl这一网页数据集。这些数据体量深不可测、内容参差不齐，在缺乏人工校准与监督的学习方法下，大规模语言模型往往会将其中的错误知识与价值吸收领会。基于训练语料的缺陷，ChatGPT类技术尚无法避免出现事实错误、虚假陈述和错误数据。特别在面对专业领域较为复杂的问题时，受限于数据语料的有限性，ChatGPT类技术等大规模语言模型同样无法保证正确答案的生成。谷歌基于大规模语言模型推出的对话机器人Bard在回答与詹姆斯·韦伯太空望远镜有关的问题时就犯下事实性错误，引发广泛担忧。尽管针对上述问题，可以通过指令微调和基于人类反馈的强化学习等方式进行校准，但这仍无法保证生成内容的正确性。近日， OpenAI在发布最新一代大规模语言模型GPT-4时，仍明确指出：尽管相对于先前模型，GPT-4已经显著减轻了知识幻觉问题，但其仍不完全可靠，可能会产生错误答案。这些由训练语料造成的事实性错误，在大规模语言模型应用于法律领域时也同样会出现。一方面，互联网空间法律语料的质量参差不齐，大规模语言模型在训练时可能同时“学习”了正确与错误的法律知识。考虑到法律知识的专业性，针对具备一定复杂性的法律问题，语料中的错误知识可能远多于正确知识。另一方面，法律的修订与废止还会带来法律知识的重大更新与调整。常见的情形是法律修订前后针对同一问题的答案可能迥然差异。然而，大规模语言模型在缺乏足够新训练数据的基础上仍然只能基于已有数据进行知识生成。因此，在现有技术架构下，ChatGPT类技术出现对法律问题的“错判”或者“虚构”在所难免。例如杜撰出《中华人民共和国大学法》评价高校教师非升即走的问题，或者认为我国现行刑事诉讼法中有大数据侦查的相关条款。尽管ChatGPT类技术流畅自然的语言理解与表达能力，能够极大消除用户与智能体之间的信息交互鸿沟，增强人机间的相互信赖。然而，这种高交互能力所带来的认同性与服从性，却与不那么高的生成准确性存在错配关系。“知识权威幻觉”——将人工智能的生成视作知识权威——由此产生，严重影响ChatGPT类技术在法律领域的深度运用。

（三）法律知识的创造性与ChatGPT类技术的“知识生成幻觉”

法律领域高度强调知识的创造性，这尤其体现在司法案件、特别是疑难案件的裁判与法律论证推理的过程中。最为经典的诠释来自德沃金对“建构性解释”（Constructive Interpretation）概念的发掘。他指出，法律的解释更贴近于对文学艺术的解释，而非科学性解释。这是因为，法律与文学艺术解释的对象都是人们所创造的某种东西，而非客观存在的事物。并且，在整个解释中起决定性作用的是解释者的目的，并非纯粹的因果关系。这就使得法律解释具有了创造性的特点——旨在获得解释者主观所期望的结果而非理解法律的原意。事实上，即便是以严谨性与确定性自居的法律，也需要适应社会快速变革的现实化需求，并潜藏着各种变化的可能——尽管这种创造性的知识生成行为很少被大陆法系的法官们公开承认。

然而，基于对ChatGPT类技术的深入发掘可以发现，其尽管采用了生成式人工智能的技术架构，但此种“创造”式的生成更大程度上是一种“幻觉”。ChatGPT类技术与传统机器学习方法的联结学派法律人工智能存在相似之处——即均通过检查大量数据中的模式形成规律性认识。他们本质上都是基于过去数据推测未来的数学模型，有着共同的基本假设——模式会重复。对于量刑预测等机器学习法律人工智能而言，这种规律性的认识源自于案件情节、量刑等特定数据之间的关系；对于ChatGPT类技术而言，则是基于每一个输入字符与输出字符之间潜在对应关系。尽管这些知识建构与习得的方法可能会获得与人类认知相近似的结果，然而在本质上，这迥异于人类的高阶认知系统。一个简单的解释是，ChatGPT类技术在结果的生成与输出环节，依据的是字符串上最大化的概率分布。但在法律推理，特别是案件裁判中，几乎从不使用或然性的推断生成结论。对于概率来说，80%的概率意味着20%案件会被错误裁判，这绝非正义。另外一个简单解释是，ChatGPT类技术结果生成是基于既往数据的反思与回顾，然而以司法裁判为核心的法律知识生成，则是一个面向未来的建构性环节。在社会共同价值转变的情况下，当“模式”“规律”不再重复时，从过往数据中归纳出的法律知识，就很可能无法回应当前以及未来案件的真正需要。实际上，ChatGPT类技术所做的“工作”只能算是“信息的加工”，是一种传承式的“从有到有”的生成，即一种“有”生成另一种“有”，而非突破式的“无中生有”的生成。与量刑预测相一致，ChatGPT类技术以已经出现的信息与内容作为模型生成的核心，这意味着它将无法生成关于全新的法律理论或颠覆现有观点的文本。对既往数据的过分依赖，将从根本上限制司法场景中基于社会价值变化或法律观念调整而进行的创造性演变。

四、ChatGPT类技术赋能法律人工智能的未来

以ChatGPT为代表大规模语言模型在法律领域自然语言处理与人机交互上的显著优势，使得其与法律人工智能相结合仅仅只是时间问题。这意味着，讨论ChatGPT类技术赋能法律人工智能，绝非盲目跟风放大的“假问题”。针对法律领域数据迭代优化的大规模语言模型与生成式人工智能技术将成为未来法律人工智能的研发核心，并在预训练之上“精耕细作”以形成更加高效、精准、专业的人工智能。然而，对于这种路径也不应抱有不切实际的期待，过分强调技术的功能价值极易陷入技术至上的陷阱，并最终导致误入歧途。法律知识的丰富性、严谨性与创造性特质，导致当前的ChatGPT类技术尚无法完全满足法律人对法律科技的终极想象。展望未来，除了已有较多讨论的明确法律人工智能的介入边界以及保证“人在回路”的伦理要求外，还应通过强化法律数据供给和法律知识验证，最大限度避免知识幻觉的发生。在此基础之上，确保ChatGPT类技术传播过程中的可及性与均等性，实现全社会公众围绕ChatGPT类技术的赋权赋能。

（一）强化法律数据供给、法律指令微调与法律知识验证

目前，ChatGPT仍面临着法律知识生成的准确性、鲁棒性与可验证性上的困境，这首先体现在简单法律问题上的错误回答。流畅语言处理能力与相对较低知识生成能力的错配，使得ChatGPT类技术面临着更为复杂的“知识幻觉”现象。从技术视角来看，这应当归结于法律知识参与人工智能研发的不足。目前，法律人工智能研发依然采取“数据+算法+算力”的三维范式，并未充分体现法律知识在人工智能中的驱动作用。即便是当前ChatGPT类技术，也只是在这三个维度进一步深化的产物，即通过海量数据的挖掘利用、复杂模型参数产生出色的泛化与生成能力。然而，ChatGPT类技术智能生成的背后，则是相对低的数据利用效率——尽管已有显著进步，但大规模语言模型在训练时看到的文本比任何人在一生中看到的还要多得多。其原因在于，人类决策与生成在更多时候会运用到符号化、抽象化、理论化的知识进行推理，而大规模语言模型则尚无法准确理解语言背后的真正含义。因此，在未来ChatGPT类技术赋能法律人工智能的过程中，有必要采取特定优化与治理措施，充分发挥法律领域数据与领域知识在智能设施构建的基础性作用，在形成“数据+算法+算力+知识”四维驱动范式引领的同时，通过“全程强化”——强化法律数据供给、法律指令微调和法律知识验证——进一步提升知识构建与生成的准确率。

首先，在语料源头端，强化高质量法律数据供给，形成法律领域的多模态中文数据集。当前，域外ChatGPT类技术运用中文语料十分有限。据统计，在GPT-3的训练语料中，中文文档数、中文词语数和汉字数量分别仅占总语料数的1.1‰、1.0‰和1.6‰，在所有语种位列第15、第17和第14位。因此，要有效减少ChatGPT类技术在法律领域的知识幻觉，首要的任务是强化法律领域高质量中文数据集的供给。目前中文互联网上高质量法律语料相对有限，且主要以裁判文书的形式存在。其他的诸如法律法规、法学论文、法律咨询（法律问答）等高质量中文法律语料，仍碎片化地分布于国家机关或各类企业之中，尚无法实现有效数据统筹与共享。下一步，可以在国家数据局的统筹之下推动政务数据层面的各类非涉密法律文书和法律法规的归集汇聚。在此基础上，逐步由单一模态的法律文本数据向图文声像多模态法律数据发展，最终形成高质量、多模态、可开放的中文法律数据集。

其次，在训练过程端，增强法律指令的归集整合，并对生成内容进行领域内的指令微调。在目前的ChatGPT类技术中，在预训练模型基础上的指令微调可以显著增强模型的意图识别、指示遵循与泛化能力，具有非常重要的地位。对于法律人工智能而言，“法律指令集”的实质是法律领域所有潜在智能化需求的集合，例如要求法律人工智能撰写诉状、判决书、分析诉讼风险、预测诉讼结果等。真实、适配、丰富是法律指令集的基本要求，这体现在如下方面：其一，法律指令集应当体现用户提交的真实业务诉求与真实表达习惯，以实现对用户需求的准确模拟，提升模型的精准度与使用效率。其二，针对不同的用户群体（大众、律师、法官、检察官等）以及不同的地域环境，法律指令集应当具有差异性以准确适配不同的使用场景。其三，法律指令集的指数级积累和深度挖掘运用会带来ChatGPT类技术在法律领域泛化迁移能力的全面扩张，进而产生举一反三的效果。然而，受限于传统分析式智能事先确定任务内容的技术方案，当前对于法律场景指令集及其对应需求实例的定向积累十分有限，这将极大地制约ChatGPT类技术在法律领域的定向训练与微调。因此，在ChatGPT类技术赋能法律人工智能的过程中，需要在模型训练时充分基于法律场景的真实指令来微调模型的内容生成，进一步释放ChatGPT类技术的强大潜力，实现对法律场景的多样化需求的真实匹配与泛化处理。

最后，在结果生成端，增强法律知识的验证功能，构建基于法律人反馈的强化学习机制。通过基于人类反馈的强化学习机制（RLHF），ChatGPT能够以符合人类意图、知识观与价值观的方式回答问题，这在技术界也被称之为人机“对齐”（AI Alignment）。然而，考虑到法律场景价值观的特殊性和法律知识的严谨性，仅仅基于基本的RLHF技术尚无法有效实现与法律人常识、认知、需求与价值的对齐。此时，就需要构建基于法律人反馈的强化学习技术，以此实现对ChatGPT类技术的领域优化。一方面，借助法律人的专业知识对ChatGPT类技术生成的法律文本进行评价，修正生成错误答案的算法，使得语言模型更加符合法律领域的常识与认知。另一方面，在法律领域，本体价值尤为重要——任何值得被称之为“法律”的制度，其实都必须关注一些超越特定社会结构和经济结构相对性的基本价值。此时就更加需要借助基于法律人反馈的强化学习技术，运用法律领域知识及其背后的理论命题、价值导向对智能化技术进行伦理控制与矫正，使得其生成的内容更加符合法律人的价值追求与伦理规范。

（二）确保技术扩散的可及性与均等化

新技术扩散与社会公正的互动关系一直以来是技术社会学最为重要的议题之一。纵观人类社会的历史，技术扩散往往诱发“数字鸿沟”，移动电话、互联网亦或是社交媒体的扩散与应用概莫能外。正因如此，如何缩小技术扩散过程中的“数字鸿沟”以及解决新技术扩散带来的社会公平问题，无疑是风险社会的治理中必须关注的一个重大议题。一般认为，“数字鸿沟”（Digital Divide）是新兴技术在普及和应用方面的不平衡现象，受经济发展水平、知识发展能力、对外开放水平、通信技术引进水平的综合影响。这种不平衡不仅体现在不同地理区域、不同人类发展水平的国家之间、不同经济发展水平的国家之间，同时也体现在一个国家内部不同地区、不同人群之间。其本质是不同社会群体对新技术的拥有和应用的差别而产生的两极分化趋势。广义上讲，“数字鸿沟”包括“可及”（Have or Not Have）和“可用”（Use or Not Use）两个层面，分别代表接入可及性差异或接入后的运用差异。前者指向一个国家的公共政策和基础设施供给，后者指向用户因技术应用差异而产生的不平等。

ChatGPT类技术发展过程中所出现的垄断倾向，以及不同人群技术运用的素养差异，将使得该类技术在法律领域的创新传播面临巨大的“数字鸿沟”风险。一方面，ChatGPT类技术的“垄断倾向”将阻碍创新扩散，造成可及性层面的“数字鸿沟”。“创新扩散”是指创新通过一段时间，经由特定的渠道，在某一社会团体的成员中传播的过程。创新特征、传播渠道、时间与社会系统，是影响创新扩散的四大基本要素。按照创新扩散理论，ChatGPT类技术互动性、生成性和嵌入性的创新特征与相对优势是其获得明显优于传统法律人工智能技术扩散效果与速度的条件之一。除了创新特征之外，技术的扩散还受制于更大的社会系统差异，如商业化和市场竞争。商业化和市场竞争以及政府产业政策最终会使新技术扩散到那些在最初扩散中处于不利地位的阶层。随着次一级的技术扩散，原有在技术可及性方面的分化将会逐渐消除。然而，ChatGPT类技术对于数据、算法和算力的巨大需求使得该技术在产生之初就呈现出鲜明的垄断倾向。有数据显示，ChatGPT的总算力消耗约为3640PF- days，需要7至8个投资规模30亿元、算力500P的数据中心才能支撑运行。除开前期数以亿计的GPU设备等训练投入，ChatGPT维护成本同样高得惊人，每日开销可达70万美元。上述巨额的投入，使得ChatGPT类技术的竞争可能仅局限于少数互联网巨头之间。也正因如此，围绕该技术应用的市场将可能在较长时间内难以达到充分竞争的程度，也就难以期待通过商业化与市场竞争实现次一级的技术扩散。受垄断利益的驱动，未来的法律类ChatGPT技术在落地应用与部署过程中，将会不可避免在价格制定、地域差异乃至竞争与垄断策略等问题上有着天然的逐利性考量。如果相关产品的价格过高而使得绝大多数公众无法负担，或者免费版本与付费版本有着根本性差异，亦或者因为特定原因将产品的应用范围限制在特定主体、特定地域中，将会使得承载着均等化、可及性期望的法律人工智能，成为加剧新一轮“数字鸿沟”与“知识贫困”的重要推手，广大的社会群体将丧失参与新兴技术发展、享受优质法律服务的机遇。另一方面，技术素养的差异还将导致在接入ChatGPT类技术的群体中出现受益能力的高度分化。作为其结果，技术红利在不同接入主体之间高度非均质分布进而产生技术扩散的时滞效应，形塑可用性层面的“数字鸿沟”。正如有学者所言：我们可能正在期望一个比现有社会更不平等的社会。这种不平等是从起点到结果的全方位的不平等，这是罗尔斯、桑德尔和森合起来也无法对付的。

尽管ChatGPT类技术刚刚初显而尚未应用于法律社会的广泛实践中，但其体现出的巨大潜能，使我们必须考虑如何确保未来技术服务的可及性与均等化问题，真正回归新兴技术赋权赋能的价值追求。这同样包括可及性与可用性两个方面的内容：从可及性角度而言，“如果旧的规制工具不能适应新型用途，人类社会的进步就会迟滞而缓慢”。公共法律服务是政府公共职能的重要组成部分，推进覆盖城乡、便捷高效、均等普惠的现代公共法律服务体系则是其中的应有之义。同时，将人工智能技术与司法大数据资源深度融合，推动法律服务与法治产品的均等化、可及性，弥补城乡、区域、不同人群享受法律服务资源上的差距，是法律人工智能设计研发，特别是落地应用与部署阶段的重要价值追求。从“赋权”角度出发，通过政府购买公共服务的方式为社会公众提供ChatGPT类技术赋能的法律人工智能，以产业政策等各种治理工具推动ChatGPT类技术在法律领域的创新扩散，有助于避免其在可及性层面的数字鸿沟。更进一步，从“赋能”的角度出发，对于广大个体而言，由于能力与资源等方面不可避免的差异，数字时代个体对先进法律人工智能的使用将呈现出必然的不均衡。这其实需要广大个体在充分认识这种不均衡的前提下，自觉培养技术素养，积极拥抱科技发展，共同助力法律科技领域赋能社会治理的美好愿景，从而有效避免可用性层面的数字鸿沟。

结语

ChatGPT类技术是联结学派范式下深度神经网络在数据、算法与算力支撑下进一步跃升的产物。从效果上观察，ChatGPT类技术似乎开启了通往通用人工智能的可能。法律领域知识检索问答、文书审查生成、数据分析预测等传统法律人工智能研发中的模块化方案将会逐渐式微，取而代之的则是基于大规模语言模型之上的“精耕细作”。然而，正如学者所指出的那样，法律领域中的深度神经网络很容易让人产生“不需要技巧和努力就能解决问题”的诱人想法。作为规则之治的法律，不能将联结学派与深度神经网络视为法律人工智能的惟一发展路径，也很难接受在不具备任何法律专业知识前提下的高性能AI。ChatGPT类技术基本解决了自然语言处理与无障碍人机交互的技术瓶颈，但仍受限于法律知识的丰富性、严谨性与创造性而存在一系列的“知识幻觉”问题。这意味着，ChatGPT类技术时代的法律人工智能同样不是解决一切法律需求的“灵丹妙药”，也不是能够让法律人完全失业的“洪水猛兽”。当然，ChatGPT类技术呈现出令人惊叹的能力背后，可能预示着法律人工智能的新一轮“盛夏”即将到来。技术的显著进步已经改变了整个法律的实践运作，因此所有法律人都要与技术齐头并进。充分汲取法律人工智能发展的历史经验，将其演进规律、技术逻辑与法律精神、法治理念有机结合，方能在推动法律科技健康发展的同时，保有人类的独立人格、情感与思想。

王禄生，东南大学法学院教授，东南大学人民法院司法大数据研究基地研究员。

王禄生：ChatGPT类技术：法律人工智能的改进者还是颠覆者？

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏