江海洋:从直觉到证据:大模型法律语料库与法律解释客观化

选择字号:   本文共阅读 88 次 更新时间:2025-12-13 11:54

进入专题: 法律文本   大模型   语料库  

江海洋  

内容提要:法律文本特别是刑法的解释,原则上以词语的“通常含义”为边界。通常含义指的是大多数普通人在特定语境下对法律文本的理解,若偏离通常含义对法律文本进行解释,则要进行充分的说理论证。判断通常含义时,主要借助语言直觉、词典、法律语料库三种辅助工具。在大模型技术赋能法律语料库的背景下,大模型法律语料库通过数据驱动范式,将法律解释从依赖主观直觉转向可验证的客观分析。这一转向不仅增强了解释过程的透明度,提升了解释结论的客观性,更通过技术约束机制倒逼解释者履行论证义务。作为一种辅助解释工具,大模型法律语料库既不试图阻止解释者进行主观判断,亦不会限制或者放纵解释者的解释权。针对大模型法律语料库建构阶段的技术内生操纵风险,应公开其基础数据来源和技术处理全流程信息,并确保辅助法律解释的过程和结论可重复、可推广。针对使用阶段的人为外生操纵风险,应构建技术与制度协同治理框架,确保解释者主观选择的技术可见性与可辩驳性。

关键词:法律文本;大模型;语料库;法律解释;通常含义

一、问题之提出:法律解释边界争议与方法论困境

就法律文本的解释,尤其是刑法文本的解释而言,其边界是“被解释规范的字面可能含义”,“字面可能含义”既可能具有一般的语言使用习惯,也可能具有特殊的法律语言表达习惯。就刑法而言,根据罪刑法定原则,只要在文本可能的含义范围内,解释是否有利于被告人都是允许的。换言之,文字可能的含义构成了法律解释的边界。

 

关于“文字可能的含义”,首要问题是应厘清法律专业术语与日常语言含义的关系,即专业术语与日常语言何者优先。实际上,缺乏日常语言关联的纯粹法律专业术语的解释问题较为罕见。虽然在理论语言(如刑法解释学)中存在大量此类概念建构,但在立法语言中却不多见,因为立法者基于明确性要求自然要追求法律文本的可理解性。因此,诸如“间接正犯”“保证人地位”等表述常见于理论文献,却未进入我国立法文本。只有当某个表达既可能具有日常含义,又可能具有与之偏离的专业含义时,才可能产生问题。对此,部分学者主张法律专业用法优先于日常含义。鉴于此种观点对法律语言的通俗性缺乏关注,其能否充分保障公民基本权利是存疑的。因此,从作为刑法规范对象的公民的视角出发,刑法条文的解释边界必须依据日常语言来确定和限定,且需遵循国家共同体中基于共同社会生活的语言用法。由此,折中说的观点主张,应普遍地将通常语言用法作为解释的出发点,并要求为特殊的词语用法提供依据;也有观点认为,对于专业术语的表达,应始终优先考虑专业语言用法,而对于日常常用词汇,若未受到法律专业术语的影响,原则上应依据通常语言用法来界定。

 

相较于专业用法优先的观点,折中说更具有合理性。特别就刑法而言,根据罪刑法定原则中的明确性要求,应当从规范受众的视角来确定词语的语义范围。而当规范专门针对具备特定专业资质或实践经验的人员,且规范调整的事项与其专业知识相关时,采取专业术语优先的立场则并无问题。

 

事实上,语言之所以能够通过有限符号系统实现言说者与听者之间对无限生活世界对象或事态的指涉,并非因其精确性,而在于语言共同体成员可习得运用“不精确”的语言进行世界定向的能力。唯有符合单义性理想的人工语言才具备绝对精确性,而法律语言既不可能、也不应当任意脱离自然语言的根基。倘若认为意义沟通在大多数情况下是立法(特别是刑法)的目标,那么法律文本就应当能够被包括普通公众在内的不同群体以相同方式理解。这一目标要求,除非存在某些偏离的理由,例如具有技术或特殊法律含义的词汇,否则法律文本的语言原则上应与日常语言保持对应关系。

 

这种“与日常语言保持对应关系”的要求,本质上指向法律文本的可理解性,其不仅是立法技术层面的沟通需求,更是现代民主语境下公民权利的必然延伸。在现代社会,民主理念要求公民能够理解旨在规范行为和提供保护的法律。法律条文只有让受众明白,才能实现沟通功能,而任何需要以法律规范为行为准则的人,都必须能够理解这些规范。公民能够理解规范意味着法律确定性的实现,也意味着其能够在社会政治环境中明辨方向并参与公共事务。

 

基于此,法律解释必须以法律文本的通常含义为基准。正如学者所言,“每个法律体系都会承认‘通常含义’的重要性”,毕竟“每一个受法治约束的政体都渴望拥有公民知晓、适用可预测且官员可基于客观标准中立一致适用的法律指令”。通常含义也并非绝对不可突破,只不过当作出偏离通常含义的法律解释时,需要额外的说理论证。在此认知基础上,司法实践面临一系列方法论难题:如何判定通常含义;如何尽量限制解释者的主观性以保障解释过程的客观性;如何确保解释方法适用的客观性和准确性;是否存在辅助解释的判断工具;尤其在数字技术、人工智能深度、广泛融入司法领域的当下,能否将大模型技术运用到法律解释的过程中。

 

需要说明的是,本文探讨的“客观化”,意指方法论与程序意义上的理性化和限制任意性。其核心目的在于,通过引入可检验的技术性约束机制,将解释活动从依赖个人直觉转向透明、可辩驳的理性论辩。换言之,本文主张的法律解释客观化实为一种程序性客观或过程性客观。具体到大模型法律语料库方法,本文认为,法律文本的通常含义源于语言共同体的共识,对此可通过语料库、实证调查等手段进行检验,刑法的立法意图亦可依据立法史、体系位置等客观材料进行确认。法律解释辅助工具的意义,正在于将法律解释置于可观察的经验证据之下,迫使解释者履行论证义务,从而使法律解释过程更加理性、透明。

 

二、法律解释的现有辅助工具

在法律解释理论中,一个广为接受的共识是:文本的通常含义是其文字传达给普通人的内容,即通常含义是指语言在日常生活中的含义。基于这一前提,法官对法律文本的阐释,必须尝试以普通语言使用者的阅读与理解方式进行。这一阐释活动既受法律文本措辞的指引,也要遵循语言使用者对词语惯常用法的普遍认知。事实上,法律文本的通常含义不一定是法律起草者意图赋予的含义,也不一定是使法律文本能够实现最佳效果的含义。对通常含义的探究,核心在于确定普通语言使用者在具体语境中实际上会如何理解该法律表述。那么,如何判断大多数普通人对法律文本的理解?在理解法律文本时,又存在哪些可以借助的辅助工具?目前,主要的辅助工具有三种:语言直觉、词典定义和法律语料库。

 

(一)语言直觉及其不足

 

在法律解释中诉诸直觉既不是新方法,也不存在特别的争议,母语使用者对一个词的直观理解在很大程度上就是其通常含义。事实上,在日常交谈中,说话者不会提及语言使用的定义、规则或理由,说话者只是简单地使用词语,因为词语的使用和意义是由共同体的生活和实践构成的。简言之,词语意义是对实践的描述,而非从理性或逻辑中推导而来。根据这种观点,解释在很大程度上是一种非技术性工作:“成熟的普通语言使用者”往往能够确定一个词的含义。

 

这种解释观点得到了语言理论的支持。语言学家指出,一个有语言能力的母语使用者会知道或认识到这种语言的使用是通常的还是非典型的,是符合语法还是不符合语法。因此,确定一个词的通常含义时,最常用的方法是依托母语者对该语言的固有认知。语言学家在构建关于语言结构与功能的理论时,同样会借助自身对语法和语义的直觉,以及对语义的合理性和表达的可接受性的判断,来归纳和提炼语言的结构性规律。根据此观点,法官通常会根据自己对法律文本含义的直觉理解来解释法律,即便在某些情况下存在争议,语言直觉在大多数案件中仍能提供直接指导。

 

对于依靠语言直觉来解释法律文本的做法,存在批评的声音。个人的语言使用在很大程度上要受到使用者自身社会化、经验语境以及认知启发式的影响。质言之,语言直觉往往具有易错性、不透明性和易变性,这就导致语言直觉在很多时候无法帮助解释者找到法律文本的通常含义。事实上,一旦个人对某个问题形成了一定的立场,就很难充分关注可能推翻其直觉的事例(证实性偏差)。同时,直觉的不透明性极易引发所谓“虚假共识偏差”。由于无法在日常生活的观察中察觉人群内部的差异,个体常常误以为,其自身对语言的认知代表了普通语言使用者的共同直觉,即使其直觉实际上属于异常值。更为重要的是,法律解释是一项专门活动,需要比直觉更精确的语言数据作为解释来源,词语含义之间的细微差别往往决定司法判决结果,这类差别无法仅凭直觉来辨别,直觉只能为语言使用提供次要证据。特别是在法律文本存在歧义或者含义模糊不清的情况下,仅仅依靠解释者的个人直觉,往往无法形成有说服力的解释结论。毕竟共识是一种经验性事物,当出现争议时,更应采用某种证据或者通过某种程序来证明主张的有效性和合理性。

 

(二)词典定义及其不足

 

为避免个人语言直觉的不足,一种方法是转向中立的信息来源——词典。在德国,判例有时会参考词典和百科全书来确定词语的含义,德国联邦最高法院在审理刑事案件时就经常参考一系列词典。作为一种客观中立的语言学工具,词典记载着理性的社会公众能够认识和理解的词语用法和含义,因此词典解释通常被认为是“语词通常含义的最佳来源”。在法律解释争论中,词典也起着重要作用,其提供了一个有用的、有形的和客观的起点。如果一种解释所基于的个人直觉在某种程度上被正式的词典定义所证实,这种解释似乎就不那么武断了。

 

然而,作为解释辅助工具的词典,并不能实现确定词语通常含义的任务。这是因为,为了以易于理解的列表形式呈现词语含义,词典在界定词语含义时或多或少脱离了词语的通常语境,即词典以词语为单位解析语言,而人类以词组、短语或句子为单位理解语言。词典对更广泛的语境的考虑不周,导致其对语言的理解略显僵化。事实上,文字的含义会因语境的不同而不同,但词典通常只提供词语单位的意义,而未说明相关的语境。如果完全依赖词典定义来决定法条的通常文义,往往会失真。此外,新词语以及词语的新含义通常要在社会中使用一段时间之后才会被编入词典,因此词典的定义常有时间上的滞后性。更为重要的是,在概念的外围区域,词典难以提供有效界定,其反而可能成为扩张解释的借口,因为总能在词典含义中找到某种与扩张解释结论相契合的解释。

 

总之,由于缺乏与具体语境的关联,词典定义仅可成为帮助法官确定词语可能含义范围的工具,而无法作为一种工具来确定普通人对法律文本词语的理解。若强行赋予词典定义判断通常含义的任务,则可能出现语义排序谬误,即将语义或含义的词典排列顺序作为判断通常含义的标准,如将第一个或较早列出的含义认定为该词语的通常含义。

 

(三)作为解释工具的法律语料库的出现与理论基础

 

1.作为解释工具的法律语料库的出现

 

面对语言直觉和词典定义的不足,有观点认为,应引入法律语料库来确定法律用语的通常含义。法律语料库建立在语料库语言学的基础之上,语料库语言学通过收集自然出现的语言(语料库)来研究语言的功能和使用,其中语料库是一组语言数据,包含来自书籍、报纸文章、在线出版物和其他来源的文本。本质上,语料库分析是以自然语境中的真实语言使用为实证基础,并依托计算机技术对数据库检索结果进行定量与定性研究。语料库最初是由词典编纂者和语言学家为研究语言模式而创建,并被移植到其他研究领域。目前,在法律解释领域采用较多的是基于语料库的词典学研究范式,其通过整合大量语言材料,分析统计词语在不同语境下出现的频率、搭配和含义等信息,进而分析词语的用法和含义。

 

在过去二十年中,大型通用美式英语语料库早已作为研究工具向公众开放,并在司法活动中得到应用。例如,美国最高法院就通过查询法律语料库辅助判断“carries a firearm”(携带武器)的通常含义是否仅限于在身上携带武器,而不包括将武器置于汽车后备箱中。在德国,也有“德国语言协会德语查询库”可供司法机关进行查询。语料库中最著名的是杨百翰大学开发的“当代美国英语语料库”(COCA)和“历史美国英语语料库”(COHA),前者包含1990年至2019年五种体裁的10亿个单词,后者包含1810年至2000年杂志、小说、非小说和新闻刊物等流行书面体裁的4亿个单词。以COCA语料库为例,其是最大的免费的“带标签”的英语语料库,其每个单词都根据其特定的词性(例如名词或动词)进行了标记。这就使得COCA语料库的功能不像搜索引擎那样仅限于查询单词含义,该语料库允许用户查看数据库中收集的文本中单词或短语的使用实例。

 

语料库有多种变体,可以根据特定语言使用经验问题的需求量身定制。一般而言,语料库可分为通用型和专用型,通用语料库旨在代表广泛(通常是国家层面)语言社群的语言使用,专用语料库则限定于特定体裁、语域或方言。从时间维度看,语料库可分为监控语料库和历史或抽样语料库,监控语料库通过持续更新文本来追踪语言的使用,而历史或抽样语料库则反映特定时期的语言使用。从加工深度看,语料库可分为原始型、标注型和解析型。原始语料库几乎不包含任何语言元数据(例如包含莎士比亚全集的txt文件即为原始语料库);标注型语料库通常包含来自语法标注程序的元数据,该程序自动为每个词语标注词性;解析型语料库包含短语、从句或句子层级的注释,揭示语料库中词语间的句法关系。尽管自动标注的准确率极高,但自动解析的准确率却不尽如人意,因此解析型语料库通常需要大量人工编辑与注释,这使其制作成本显著增加。鉴于此,解析型语料库的规模通常小于标注型语料库。

 

就法律领域而言,理想的法律语料库架构应采取“通用型+监控型+融入大模型技术的解析型”的组合模式。通用型语料库可以覆盖多领域的语言数据,为法律用语的日常语义分析提供参照;监控型语料库通过实时吸收社会新词以及对已有词语的新解、新颁布的法律、司法案例等动态数据,确保语义分析与法律实践同步演进;解析型语料库则借助大模型的自然语言处理能力,优化句法分析流程,在降低人工编辑成本的同时,提升对法律文本逻辑结构的解析精度。三者协同作用,可构建更全面、更精准且具有时效性的法律语义分析系统。

 

2.作为解释工具的法律语料库的理论基础

 

语料库语言学的核心方法论,是构建能系统反映语言实践的文本语料库,并对其展开量化分析以揭示语言使用规律。基于这一方法论,语料库分析的核心价值在于,其能够依托可观察、可量化的数据,通过严格的实验设计,检验我们对语言的预先假设。换言之,基于语料库的结论具有可证伪性,批评者可以复制解释者的检索来检验其解释结论。语料库数据可以揭示自然语言中不同含义的相对频率,即一个词语或短语在给定的语境中多个潜在含义的出现频率。由此,语料库语言学能够完成多种仅凭人类语言直觉无法完成的任务,无论是特定词语的通常含义还是可能含义,语料库都能让我们根据经验确定一个争议用语的含义在该语义谱系中的位置。

 

众所周知,词语的意义通常高度依赖其出现的语境。语料库驱动的语义研究,其核心思想亦源自语境论,即要充分认识词汇语义或概念,可从词语入手,通过语境分析,由上下文语境延伸至篇章,进而达到社会文化语境的词语共现观。具体来说,就是借助词语搭配来判定语义。因此,现代语料库通常配备搭配检索功能,以显示词语通常出现的语境范围,并提供有关可能含义和语义划分范围的有用信息。以前述COCA语料库为例,其就提供了一个名为“语境中的关键词”(KWIC)的工具,用户进行检索后,KWIC将检索结果以“索引行”列表的形式显示。这些索引行允许用户查看包含用户检索单词的源文本的单词快照,即KWIC会显示这些符合检索条件的对应行,用户既可以从KWIC的显示中随机抽取100、200或1000个符合检索条件的对应行,也可以全部查看符合检索条件的对应行。

 

可以发现,语料库语言学认为应将法律词语通常含义的界定视为一个经验问题,主张通过查阅数据库中该词语在类似语境中使用的频率来确定其通常含义。这么做的原因在于:一方面,解释者有充分理由以一种普通公众理解法律的方式来解释法律(尤其是刑法)。若承认法律文本的功能之一是确保司法裁判具有相对统一性,并由此保障司法裁判的可预测性和可靠性,那么这种保障功能实际上是在认识论层面依托于所预设的解释共同体或目标受众群体在理解上的统一性。而类似语境中词语的使用频率可以告诉我们,当这些词语出现在法律中时,作为法律文本目标受众的普通人对这些词语含义的通常认知。特别对刑法而言,刑法规范应为公民提供行为指引,并向社会准确传达行为人行为的性质。一般认为,刑法规范必须采用普通人可以理解的语言来表述,法院对构成要件要素的解释不得超出其日常语义范围,立法者所意图的语义解释也应限于此范围。若对决定行为可罚性的构成要件要素作出超越普通人日常理解范围的解释,公民将无法预测其行为的可能后果。因此,为最大程度保障预测可能性,一般情况下,应对法律文本的词句,按照其在日常生活中最常被使用的方式进行解释。

 

另一方面,通常含义与类似语境中的通常用法相等同,亦符合语言学惯例。语料库语言学之所以将通常含义的界定与类似语境中的通常用法结合起来,就是因为语言仅因反映说话者与听者群体共享的实践与惯例而具有含义。事实上,语言交际依赖于共同的惯例,即语言使用者对其他语言使用者如何使用和理解语言存在共同预期。这种共同预期意味着,语言产出过程中所使用的与语言相关的知识,与语言理解过程中所使用的知识,应是相同的。因此,说话者在特定语境中使用某词语所意欲传达的含义,通常与他们在类似语境中听到该词语时所理解的含义,具有一致性。

 

语言惯例形成与维持的社会认知过程模型,对语言用法与理解的关系作出了最详尽系统的阐释。该模型将语言的用法和理解视为相互强化、反馈循环的两面,这个过程的驱动力量是反复发生的共同语义生成行为,即说话者的话语被听者理解的交流事件。随着时间的推移,通过重复使用特定的语言形式、意义及语境因素的组合,某些意义得以反复传达并被理解。这些反复出现的情况,会引发更多的共同语义生成行为,并且听者会逐渐将反复出现的意义与反复出现的语言形式、语境因素联系起来,这些联系会融入社会层面的常规化过程和个体认知层面的固化过程。常规化过程与固化过程也会形成相互强化机制:随着一种话语类型越来越常规化,它所代表的语言形式、语境和意义之间的联系,在听者的脑海中也会越来越固化。这增强了认知的可及性,使得语言表达与理解的联系更容易被激活。根据这一模型,使用频率在常规化过程与固化过程的互动中扮演了关键角色,高频出现的含义将比其他含义更具有认知固化性,在缺乏消除歧义的语境时,高频出现的含义将成为词语使用的首选含义。换言之,当词语出现在特定语境中时,人们通常会将其理解为该语境下的常规语义,即该词语在这类语境中高频传达的含义。这一结论表明,将通常含义与日常用法相等同具有合理性,因此将日常用法的语料库证据视为通常含义的间接证据亦属合理。

 

三、大模型法律语料库对法律解释客观化的作用

为破解法律语言实践中长期存在的表述模糊和适用不统一问题,我国学界和实务界早在2005年便开启了法律语言标准化建设的系统性探索。彼时,由多领域专家组成的“法律语言语料库”专项研究团队正式组建,该课题获得最高人民法院、最高人民检察院、司法部和教育部等国家机关的协同支持。历经两年攻坚,至2007年,依托司法部司法研究所等单位的专业力量,我国首个法律语言基础语料库完成框架搭建。然而,遗憾的是,我国法律语料库的建设此后未能持续深入。尽管早期基础框架已具雏形,但由于技术更新缓慢、资金投入有限等多重因素,该语料库长期处于停滞状态。时至今日,与已投入司法实践的英美语料库相比,我国尚未建立真正实用意义上的法律语料库。当前,在国家大力推动智慧司法的战略背景下,面对传统法律语料库存在的语料覆盖狭窄、成本高、门槛高、分析能力弱等固有缺陷,我们应抓住大模型技术快速迭代的历史机遇,摒弃“先建设,后升级”的发展路径,尝试以大模型技术赋能传统法律语料库,直接建设大模型法律语料库。

 

事实上,伴随着大模型技术的普及,也有观点主张单独使用大模型辅助法律解释。在2024年的斯内尔诉联合专业保险公司案中,美国联邦巡回上诉法院法官纽瑟姆(Kevin Newsom)在协同意见中就认为,应以大语言模型辅助判断本案争议的“景观美化”(landscaping)的通常含义。纽瑟姆指出,大模型在判断词语的通常含义方面具有显著优势:其以海量日常语言数据为训练基础,能反映普通人日常的实际语言习惯;且具备语境理解能力,可精准区分多义词在不同场景中的含义;同时,易获取且使用成本低,透明度较高,相比传统依赖人工调查或存在裁量权问题的传统语料库方法,更具实践优势。但是,鉴于单纯依靠大模型判断通常含义亦存在“幻觉”问题、训练数据难以覆盖线下语言、因其推理基于海量但未经筛选和标注的通用数据而难以追溯和验证等问题,理想的做法应是将传统法律语料库与大模型技术深度融合,由大模型凭借其自然语言处理能力赋能传统法律语料库。此举不仅能使传统法律语料库突破技术瓶颈,实现智能化升级,更能使大模型的分析扎根于坚实的实证数据之上,从而构建起一个既具有数据客观性又具有分析智能性的新型法律解释辅助工具。

 

从可行性的角度看,大模型法律语料库的建设具备现实基础,其并非从零开始的初创性工程,而是在传统法律语料库已有基础之上的技术迭代与功能拓展。传统法律语料库历经几十年发展,已形成相对成熟的方法论和实践经验,这为引入大模型技术提供了坚实的架构基础。同时,我国近年来大力推进智慧司法建设,已在司法大数据平台、智能辅助办案系统等方面取得显著进展,各级司法机关汇聚了海量结构化数据,加之国产大模型的迅猛发展,这些都为构建大模型法律语料库提供了充足的数据基础、技术储备与算力支撑。

 

就法律语料库语言学、法律语料库与大模型三者在推动法律解释客观化方面的逻辑关系而言,法律语料库语言学是方法论基础,法律语料库是该方法论在法律领域的实践载体,大模型则是方法论落地、传统法律语料库效能提升的重要推动力。作为法律语料库语言学的实践载体,传统法律语料库已初步展现出将通常含义的判断从主观推断转向实证检验的能力,能够基于真实语境中的语言使用数据为语义解释提供客观依据。尽管受早期技术的限制,传统语料库在语料覆盖、成本与使用门槛、分析能力等方面存在局限,导致其在司法实践中的普及适用和实际效果都有限,但其长期运行所积累的经验,恰恰为大模型技术的融入奠定了重要基础。因此,搭载大模型的法律语料库不仅能够突破传统法律语料库的技术瓶颈,实现更智能、更高效的法律解释辅助,其建设路径也具有较强的连续性和可操作性,是当前技术条件下较为务实且高效的推进路径。

 

(一)大模型技术对法律语料库的赋能路径及客观化价值

 

通常含义本质上指向被解释的词语在现实语言使用中的惯常用法,这属于实证研究的范畴。大模型建立在人类书写者数十亿词汇量的基础之上,其规模远超任何个体终其一生所能阅读或书写的文字总量。可以说,大模型前所未有的知识储备,结合算法对海量语言数据的处理能力,使其成为探究词语实际用法的新型强大实证来源。如今,大模型已经在自然语言处理(NLP)领域展现出卓越能力,其语言理解能力可以极大推进法律语料库的构建。依托覆盖科技、人文、法律等全领域的海量知识数据库和先进算法架构,大模型不仅为复杂任务提供丰富信息资源,还在NLP的语言理解、生成和知识推理维度表现突出。尤其在语言理解方面,大模型能结合上下文精准剖析文本语义,无论是日常对话的模糊表达,还是专业领域的复杂术语,其均能准确把握含义。具体到法律语言理解,大语言模型可以完成对法律大数据的文本清洗、实体及其关系的抽取、句法分析和语义分析。基于此,搭载大模型技术的法律语料库,可以整合几乎所有的刑事裁判文书、司法解释文件、学术文献等逾千万量级的结构化法律文本以及新增的达数亿量级的非结构化中文语料,构建起一个动态更新的语义分析图谱。从技术实现路径看,大模型对法律语料库的赋能主要体现在三个方面:

 

其一,大模型技术通过智能化语义解析机制,消解专业壁垒和主观理解偏差。传统法律语料库因高度依赖语言学和法学专业知识,对非专业人士的使用构成显著障碍,即使对于法律专业人士,虽然他们精通法律解释,但这并不等于其也掌握了有效运用语料库语言学所需的专业方法,后者涉及识别语义模式及通过特定实验与统计手段对抗认知偏差,这些并非法律专业人士的标准训练内容,而且要求他们额外精通语言学知识也非常不经济。对此,大模型技术可以提供解决方案。大模型的智能化语义解析机制能够替代法律专业人士进行复杂的语义识别和数据处理任务;其内置的对话式服务还允许所有用户(无论专业背景如何)通过直观的自然语言交互逐步明确需求并获取反馈,从而显著降低语料库的使用门槛。因此,大模型通过高效处理语言语义层面的复杂性,有效弥合了用户在语言学和法律专业知识上的不足,使法律信息的获取和运用得以打破专业壁垒。尤为关键的是,大模型还提供了一种易于获取的手段来对有关通常含义的主张进行实证检验——只要使用者公开所使用的提示词,新用户就能尝试复现检验过程,从而验证或证伪他人已进行的测试。

 

其二,大模型技术促使法律语料库从静态知识库向动态认知系统升级。传统法律语料库受限于技术条件,往往呈现碎片化的知识存储状态,难以不间断地反映法律规范随社会变迁所产生的语义流变。而人工智能大模型能够提供更为整全的信息,并且在信息筛选方面的效率也更高。大模型通过持续吸收覆盖全世界各领域各时期的语料数据资源,形成动态更新的知识迭代机制,自动修正语料库中的语义标注。这种动态化技术能力使法律语料库成为具有自我进化能力的认知系统,其能够持续吸收最新法律实践和社会生活的变化情况,精准呈现法律用语在不同时间节点的含义,为法律解释提供契合时代背景的语义参照,确保解释结论与法律体系的动态发展保持同步。

 

其三,大模型技术实现了法律解释的多维度语境还原。法律文本的理解高度依赖语境,同一用语在不同部门法、不同历史时期、不同规范目的下可能呈现差异化含义。大语言模型的强大之处在于其纳入数据的广度,其独特之处则在于其运用被称为“注意力”的内部机制,使模型能够考虑词语使用的语境。当解释者输入待解释的刑法条文语句时,大模型法律语料库系统可以自动运用自然语言处理技术对词语进行多维度分析:横向维度展示该词语在不同情景下的使用频次和语境分布,纵向维度呈现其在不同历史时期的语义流变轨迹。大模型法律语料库的语境还原能力,能够帮助解释者准确识别法律用语的具体所指,避免因语境误读而导致的解释偏差,从而为法律解释提供更全面、更精准的语义支持。

 

随着大数据时代的到来,人工智能技术在法律领域发挥着日益重要的作用。其司法应用,开启了从“接近正义”迈向“可视正义”的进程,引发了司法运行机制的深刻变革。其中,生成式人工智能运用深度学习算法构建预训练大模型,已经能从大数据中学习人类知识,并实现文本的自动化生成,其在法律文书写作等实际任务中已经展现出良好的应用效果。在这样的技术背景下,将融入大模型技术的法律语料库应用于法律解释过程,不仅为解释者提供覆盖更广、更新、更及时的法律知识参照,使其能够在更完整的规范体系和历史脉络中定位法律概念的通常含义,而且还通过技术手段将法律解释的思维过程转化为可追溯、可验证的显性逻辑链条,推动法律解释从基于个体经验的操作向基于数据支撑的理性论证转变。

 

(二)提升解释过程的透明度

 

大模型法律语料库实质上是一种技术规训工具,其目的是在便利司法活动的同时,促进技术对司法行为的有力监管。有学者指出,法律语料库语言学在确定通常含义方面的效用超过了词典,因为词典只提供一系列可能的含义:“必须注意的是,词典从不说明一个词在特定语境中必须具有的含义,而且词典也从不打算说明这一点。”有学者描述了一个假设的场景,其中A法官和B法官对一个词的通常含义有分歧,两位法官在不同的词典中找到了各自的依据。在没有其他证据的情况下,由于法官对该词的通常含义有不同的直觉,争议就难以解决。相反,如果A法官使用的是基于语料库的分析,那么B法官“将有大量明显的依据”来挑战A法官的语料库分析。在第一种情况下,分歧是形而上的辩论;在第二种情况下,分歧是经验性的辩论。这种经验主义是使用语料库语言学的主要好处。

 

可以发现,法律语料库的最大优势是其提升了解释过程的透明度。这里的透明度主要是指法律论证与说理过程的范式透明,而非大模型算法内部的技术透明。前者关注法律解释活动中解释依据的可见性以及论证的外部可验证性,后者则涉及模型参数和推理路径的内部可解释性,二者分属不同维度。

 

虽然大模型法律语料库尚处于构想阶段,目前还没有具体案例出现,但鉴于大模型法律语料库是大模型与法律语料库技术的融合版,其共同目标都是为了使通常含义的判断可视化和客观化,故而可以弱化版的法律语料库说明大模型法律语料库对法律解释客观化的作用。以2016年美国密歇根州最高法院判决的人民诉哈里斯案为例,该案是第一个州最高法院多数意见和异议意见同时使用前文COCA语料库的案件。该案核心争议是,《执法人员披露法》中的“信息”(information)是否涵盖虚假陈述。该法为确保州政府能够在不损害执法人员宪法性权利的情况下强制要求其在纪律听证会上作证,规定了“任何从非自愿陈述中获取的信息不得在刑事诉讼中用于指控执法人员”。密歇根州最高法院的多数意见使用COCA语料库进行了搭配分析:以“信息”为节点词检索左右四词范围,发现“准确”“虚假”等修饰词常伴随出现,故而认定“信息”包含真伪陈述,从而驳回指控。异议意见则通过COCA语料库的语境分析指出,在168187次“信息”的使用中,仅0.56%涉及真伪修饰,99.44%无修饰语境下“信息”默认指向真实内容,进而主张虚假陈述不受法律保护。虽然多数意见和异议意见对争议条文词语采取了不同的检索方法,进而得出不同结论,但其检索、解释过程是透明且清晰的。正如学者所言,“语料库语言学方法将通常含义的确定从法官心理印象的黑匣子中移除,使通常含义的讨论成为有形且可量化的现实之一”。由此可见,作为法律语料库升级版的大模型法律语料库,自然也具备使通常含义的判断过程客观化的功能。

 

事实上,搭载大模型的法律语料库不只是提升了法律文本文义解释过程的透明度,同时也提升了历史解释、体系解释等解释方法的透明度和客观性。

 

就制定法解释而言,历史解释通过专门的历史考察去阐释和发现法律规范的可能含义。在历史解释的具体适用中,仅仅根据立法史、立法资料和适用资料进行解释,还不能完全解决法律规范的理解问题。在这种情况下,还要综合运用各种历史素材对法律规范进行解释。可以发现,历史解释的关键是对立法材料的梳理与整合,而大模型法律语料库能够从多方面提升解释者对立法材料的梳理效率、理解深度以及历史解释的透明度。

 

其一,在立法原始文献的全面收录方面,大模型法律语料库能够整合立法过程中产生的各类文献资料。除传统的立法草案修改稿、立法说明外,还包括立法调研数据、专家论证材料、公众意见征集结果等辅助性资料。这种整合使解释者能够全面获取规范演变的文献基础,精准追踪法律条文在不同立法阶段的表述变化以及法律概念内涵的演进脉络。例如,通过大模型对同一规范在不同草案版本中的措辞进行自动化比对,解释者可以准确把握立法者对特定法律概念的界定的演变,突破仅基于最终颁布文本进行静态分析的局限。

 

其二,大模型法律语料库可通过智能检索功能、多维度索引系统,提升资料获取效率。大模型系统能够支持基于关键词、时间、立法阶段等参数的精准检索,改变了传统数据库单一关键词匹配的局限。解释者在研究某一法律规范时,不仅能快速定位相关的立法说明、草案修改理由等直接文献,还能通过时间轴功能梳理该规范在立法过程中的重要节点,以及不同立法参与主体在各环节提出的意见和建议。这种检索方式减少了筛选资料的时间成本,使解释者能够将更多精力投入到规范演变的逻辑分析中。

 

其三,大模型法律语料库可通过数据关联展示功能,构建立体化的立法背景信息网络。当解释者查阅某一法律条文时,系统会同步呈现与其相关的多维度关联信息,包括该条文在立法过程中面临的社会争议、不同利益主体的诉求、同期相关法律法规的规定等,这种关联展示使解释者能够在更广阔的立法背景中理解规范的内容。例如,通过分析某一劳动刑法规范制定时的经济环境数据、行业调研结果以及相关政策导向,解释者可以更准确地把握立法者在劳动者权利保护与市场调节之间的价值平衡,从而形成更全面的历史解释结论。

 

就体系解释而言,其可分为外在体系解释和内在体系解释,其不仅涉及单一部门法内的体系融贯问题,也涉及不同部门法之间乃至整个法秩序体系的协调性问题。体系解释方法的实施,要求解释者既全面掌握单一部门法的规范体系(包括法律条文、司法解释、配套规定等),又要理解不同部门法在调整对象、规则逻辑和价值取向上的分工与关联。例如,在处理跨领域的法律问题时,需同时考量多个部门法的相关规定及其内在联系。传统模式下,解释者受限于个体认知范围和信息检索能力,在体系解释中常面临两方面问题:一是单一部门法内部规范检索的完整性不足,可能遗漏同位阶或低位阶的相关规范,导致对特定条文的解释偏离其所在部门法的整体逻辑;二是跨部门法规范关联分析的效率低下,难以全面识别不同部门法之间的规范冲突或衔接,容易出现解释结论违反法秩序统一性的问题。这些问题的根源在于,解释者个体的处理能力在应对复杂的法律体系时存在一定的局限性。由于法律规范数量庞大且跨领域交叉频繁,单纯依靠人力难以实现对所有相关规范的全面、准确、系统梳理与关联分析。

 

通过融入大模型技术,法律语料库可以有效化解体系解释的上述困境。大模型法律语料库的核心优势体现在三个方面:首先是全领域法律数据的结构化整合能力。大模型法律语料库可将分散的规范,包括不同层级、不同部门的法律法规和司法解释,进行标准化处理,构建统一的知识架构,使解释者能够便捷获取某一规范在规范体系中的完整上下文信息。其次是法律用语的多语境精准识别能力。针对在不同部门法中有不同含义的用语,系统可根据具体解释场景(例如在民法语境或刑法语境下)自动匹配对应的定义,避免因用语歧义而导致的体系冲突。最后是高效的跨规范关联分析能力。当解释者检索某一法律条文中的某个词语含义时,系统能够快速生成该条文在部门法内部的逻辑关联(如上位法依据、下位法细化规定)以及跨部门法的适用关联(如刑法与其他部门法相关条文的适用冲突或衔接),并以结构化的方式呈现规范之间的层级关系、逻辑推导路径和价值关联,为解释者提供全面的体系化分析视角。

 

通过上述功能,大模型法律语料库能够提升体系解释的全面性和准确性。解释者借助大模型语料库的整合与分析功能,可突破个体认知局限,高效完成单一部门法内部的规范体系梳理和跨部门法的规范关联验证,从而确保解释结论既符合所在部门法的内在逻辑,又与整个法律体系的价值取向和规范结构相协调,从根本上降低因体系性疏漏而导致的法律适用冲突。

 

(三)倒逼解释者履行论证义务

 

将大模型法律语料库作为辅助工具引入法律解释活动,除了可以增加解释的透明度,在制度上也能倒逼解释者在解释法律的过程中履行相对应的论证义务。以刑法为例,相较于其他国家,我国刑法条文较为粗疏,存在大量的不确定法律概念,某种程度上赋予了解释者更大的解释空间。为避免司法人员的解释权过大,我国最高司法机关通过规范性的司法解释承担了很大一部分刑法解释任务。然而,即使是最高司法机关颁布的具有法律规范外观的司法解释,也经常遭受质疑,其中很大的一个争议点就是司法解释规定是否突破了刑法的规定。面对这一质疑,司法解释制定机关往往不将其解释过程予以客观展示,外界无从知晓其思考推论过程。与此同时,在司法实践中,也经常存在裁判文书缺乏说理或者说理不充分的情况。

 

事实上,解释者的“解释黑箱”问题一直备受诟病。司法解释和法律解释过程缺乏足够的透明度,使得公众难以理解法律适用的依据和逻辑,这不仅影响司法的公信力,也可能导致同案不同判等问题。为有效回应法律解释透明度不足和法律适用不统一等问题,智慧司法尝试通过人工智能和大数据技术,对法官的裁判过程进行强制性约束,促使法官依法裁判并统一法律适用标准。对此,引入大模型法律语料库成为一种极具潜力的解决方案。这是因为,大模型法律语料库通过提升文义解释环节的客观性和透明度,可以实质性倒逼解释者履行论证义务。这种倒逼效应源于语料库技术的底层逻辑与法律论证本质的契合,而大模型的数据处理能力为其提供了技术支撑。

 

凭借大模型技术强大的数据处理与分析能力,大模型法律语料库可使解释者的解释过程更加透明。通过显示词语在类似语境中的最高频含义及所有含义,为解释者提供全方位的“法律语言地图”,助其明晰词语在不同法律场景与语境下的含义分布和变化情况,这使得任何偏离通常含义(无论是扩张解释还是限缩解释)的意图,在技术层面变得清晰可见、易于识别。这种解释过程的透明性,直接触发解释者更严格、更精细的论证责任。质言之,在引入大模型法律语料库之后,最高司法机关制定司法解释以及司法人员进行个案解释时,均需对刑法文本的通常含义或可能含义进行可视化说理。

 

在适用大模型法律语料库技术的背景下,解释者对词语的解释是否超出通常含义,变得清晰可辨。由此,当语料库数据表明某种解释属于非典型用法时,解释者若坚持此结论,其必须正面回应“为何在此特定规范语境或个案情境下,不适用语料库数据所反映的‘通常含义’”这一诘难。换言之,此时若解释者要作出偏离通常含义的解释结论,就要超越简单的语义分析,清晰阐述偏离的规范理由,作出超越形式逻辑的价值论证以说服社会公众,同时将论证过程显性化,清晰展示从大模型语料库所揭示的通常含义到最终解释结论的逻辑链条和价值权衡过程。例如,在新型网络犯罪案件中,对刑法传统罪名构成要件的解释需突破通常含义以适应新的犯罪形式,解释者除了要说明构成要件的文义可以涵括该犯罪行为以外,还要详细阐述网络环境的特殊性、犯罪行为的法益侵害性和其他功利性、道德性理由。

 

可见,大模型语料库技术通过海量语料分析,能够可视化地呈现争议词语在类似语境中的高频用法及分布,将通常含义的判断从主观直觉领域拉入客观证据领域,为通常含义的界定及偏离提供了可量化、可验证的参照。基于此,大模型法律语料库的运用,使解释者无法通过模糊语义界限来规避说服论证负担,实质性倒逼其进行严谨充分的论证说理。这种倒逼机制可贯穿于不同层级的法律解释活动。在司法解释制定层面,最高司法机关若拟定偏离刑法条文通常含义的规定,需面临更严峻的论证压力和外部审查挑战。大模型法律语料库数据为备案审查机关、学界和公众提供了明确的质疑依据,倒逼最高司法机关在决策过程中进行更充分、更透明的论证,阐述偏离通常含义的正当性依据、预期效果并评估对公民预测可能性的影响。在个案裁判层面,法官解释具体条文时,若解释结论与大模型法律语料库的数据相符,则语料库可作为其文义解释结论的有力佐证;若偏离通常含义基线,大模型法律语料库则成为“沉默的监督者”,法官在撰写裁判文书时必然会意识到其偏离通常含义的解释结论可能被他人用大模型法律语料库予以识别并提出质疑。这种预见会迫使法官在形成裁判的过程中主动思考其解释结论并提出充分的论证理由。

 

综上所述,大模型技术通过智能化语义解析、推动语料库向动态认知系统升级、实现多维度语境还原,显著提升法律语料库的效能。这不仅使文义解释的过程更加透明,也增强了历史解释中对立法材料的系统梳理与理解,以及体系解释中对规范之间逻辑关联的识别能力。更重要的是,技术赋能的透明性能够实质性倒逼解释者履行其本应承担的论证义务,从而有效缓解“解释黑箱”困境。

 

四、大模型法律语料库的理论争议与风险规制

大模型法律语料库作为数字时代法律解释的新型辅助工具,在提升法律解释的客观化和透明度方面展现出显著价值。然而,任何技术应用均需直面潜在的争议与风险。当大模型法律语料库技术深度介入法律解释场景时,其是否会变相篡夺司法机关的解释权,以及技术本身可能存在的操纵风险等问题,亦引发种种忧虑。

 

(一)变相篡夺司法机关解释权之否定

 

虽然使用大模型法律语料库作为解释工具提升了解释过程的透明度,但也有观点质疑,法律语料库的使用会变相篡夺宪法赋予司法机关的解释权。这是因为,大模型法律语料库的使用可能会使法官在法律解释中不再依赖自己的判断,在解释自己的解释结论时,直接以“因为语料库是这样说的”作为理由。这就引发了法律解释退化为语料库检索的风险,最终则可能导致解释者逃避对解释结论的论证说服责任。

 

然而,大模型法律语料库的使用,并非试图阻止解释者在法律解释中依赖自己的判断,而是试图让解释者的解释过程更加透明地对外展示,并且借助这种透明化倒逼解释者履行论证义务。换言之,大模型法律语料库的使用,并非旨在消除司法自由裁量权,而是要限制法官仅凭个人断言就判定语言用法的权力,这类断言往往缺乏(甚至时常直接违背)专门用于衡量语言使用情况的工具所提供的证据支持。大模型法律语料库技术的核心价值在于使法律解释不再依赖解释者主观臆断的直觉,而是将法律解释建立在可验证的客观分析之上。语料库语言学之所以具有吸引力,即在于其契合了现代司法对科学与理性的尊崇。人类判断往往存在不透明性和争议性,甚至可能呈现逻辑紊乱的状态。因此,当解释者能够借助客观事实论证决策的合理性时,不仅能够增强结论的说服力,更能在一定程度上缓解就争议性决定进行辩护时面临的论证压力。

 

需要指出的是,大模型法律语料库的运行机制具有自身特点,它会依据解释者不同的检索方法给出多样化的答案,并不存在单一固定的检索方法对其进行限制。也就是说,大模型法律语料库不会直接给出所谓“正确答案”,最终的判断仍由解释者来完成。在运用大模型法律语料库的过程中,不仅检索方法的选择带有主观性,对检索结果的分析同样存在多种选择。诚如学者所言,使用大模型法律语料库和类似的基于经验的语言分析方法,其主要作用是帮助解释者更准确地判定语言的通常含义,语料库对最终确定解释结论并不具有决定性作用。因此,大模型法律语料库技术的真正意义是为判断法律文本中词语的通常含义提供有力参考,通过修正、调试那些不太可靠的直觉,使司法解释的制定更具有可理解性和可预测性,使个案中的法律解释结论更具有说服力。

 

至于过度使用大模型法律语料库以逃避论证义务的情况,在目前的司法制度下并不会出现。正如上述,大模型法律语料库只是解释者在解释过程中使用的一种辅助工具,其作用在于使解释过程更加透明,其并不会直接给出解释结论。以刑法解释为例,通说认为一般情况下应以刑法文本的通常含义作为解释标准,但还是存在很多情形需要在可能含义的范围内进行扩张解释,此时如果解释者欲采扩张解释,鉴于大模型法律语料库已经明确展示类似语境下该文本的通常含义,则解释者自然无法回避对扩张解释必要性的论证。若是在需要缩小解释的场景下,解释者一味以大模型法律语料库所展示的通常含义为理由,不适用缩小解释以作出有利于被告的判决,被告自然可以申辩大模型法律语料库中还存在其他有利于己的解释,并进一步论证为何要采取缩小解释。对于最高司法机关制定的司法解释,司法解释的备案审查制度决定了最高司法机关并非不受监督,在其偏离通常含义作出司法解释规定时,其也负有向立法机关进行说理论证的义务。

 

总之,大模型法律语料库本质上只是一种解释辅助工具,其目的不在于取消司法裁量权或者倡导机械司法,而是通过提供透明、可验证的客观依据,最大限度地抑制法律解释中的主观随意性,从而促进法律论证的理性化。

 

(二)操纵解释结论的风险规制

 

有观点认为,大模型法律语料库的使用很可能引发操纵解释结论的风险,例如语料库编制人员的局限性和偏见、操纵数据库类型的选择以及构建检索条件和方法,都可能产生过度暗示解释结论的操纵性结果。可见,大模型法律语料库对解释结论的操纵风险,主要来源于语料库建构阶段的技术内生风险和使用阶段的人为外生风险。除此之外,作为法律解释辅助工具的大模型法律语料库,由于其搭载了大模型技术,导致其内含了大模型“毒性”训练数据的潜在风险,容易产生“幻觉”问题,进而影响解释结论。

 

技术内生风险源于语料库从数据采集到模型训练的全流程技术设计偏差,是技术架构与算法逻辑本身可能引入的系统性风险。具体而言,在数据基础层面,语料来源的筛选标准若缺乏明确规范,可能导致原始文本中隐含的地域、阶层或行业等偏见被系统性纳入语料库,形成“数据污染”的源头风险。在技术处理层面,自然语言处理技术对法律文本的特征提取若存在简化倾向,词嵌入(即把词语转变为计算机能懂的数值的技术)等技术则可能降维简化信息,导致对法律用语规范语境的消解,而自动化标注过程中的算法偏好则可能扭曲法律关系的类型化结构。在模型训练层面,开发者为使模型符合预设目标而进行的人工注释调整,可能将主观价值判断隐性植入模型逻辑,并且模型的评分规则(即决定哪些信息会被系统优先学习的机制)等核心参数的不透明性,也会导致语料库长期运行后形成偏向特定群体的隐性认知逻辑。在技术选择披露层面,大量关键设计决策常被归入未公开的代码或附录,其对解释结论的影响缺乏可追溯性分析,使得技术偏差很难被外部识别与校正。这类技术内生风险会使语料库的语义查询结果偏离客观语言实践,进而为操纵解释结论提供技术层面的隐蔽空间。相对而言,与需要技术架构支撑的建构阶段的操纵风险不同,使用阶段的操纵风险主要通过解释者的主观选择直接实现,无论是语料库类型的筛选、检索关键词的设定,还是语境参数的调整,均可能因为解释者的倾向性操作而影响查询分析结果。

 

然而,上述可能的操纵风险并非不能控制与化解。在人参与技术系统设计、运行与维护的过程中,为避免司法决策中的技术操纵,应从信息收集、技术系统设计理念、技术系统的架构与更新等方面,遵循技术与监管相结合的理念,从技术与规范两个维度强化对操纵风险的全流程监管。就化解大模型法律语料库建构阶段的操纵风险而言,可采取以下措施:

 

一方面,针对语料库建构阶段的技术内生风险,首先要公开大模型法律语料库的基础数据来源和技术处理全流程信息。原始数据的准确性和技术处理的透明度,直接决定了语料库输出结果的客观性,而技术内生风险的核心隐患正在于数据采集、处理、训练及决策披露等环节的不透明和不规范。因此,必须通过全流程公开打破“技术黑箱”:在技术标准层面,针对数据基础层面可能出现的筛选偏差,应强制公开语料库原始文本来源的基础信息说明文档、数据筛选标准的详细记录,明确文本来源的地域分布、专业与大众文本的占比等核心参数;为校正技术处理层面可能出现的特征提取简化和标注偏差,需公开数据处理过程中使用的规则说明,同步引入多学科专家交叉验证、人工校正自动化预标注等标注偏差校正机制;针对模型训练层面可能出现的参数不透明问题,应要求模型开发者公开训练模型评分规则的设计逻辑和参数权重,防止系统形成偏向特定群体的隐性认知模式;在制度规范层面,针对技术选择可能存在的披露不足问题,应建立语料库构建的第三方合规审计机制,要求完整披露语料库建构日志,通过技术验证与法律监督的双重约束,从源头遏制技术内生风险对解释结论的隐性操纵。

 

另一方面,应确保辅助法律解释的过程与结论可重复、可推广,即使用大模型法律语料库辅助法律解释时,从语料库建构到解释结论生成的全流程技术操作与决策环节需具备可重复性,基于该流程得出的解释结论需具有可推广性。正如前述,语料库的建构过程涉及大量技术选择与决策,每一种选择与决策都可能对最终输出结果产生影响,因此全流程的技术可重复性与结论的可推广性才显得尤为关键。在大模型法律语料库辅助法律解释的范式转型中,这种全流程技术操作与决策环节的可重复性以及解释结论的可推广性,共同构成了这一辅助解释模式的正当性的双重支撑,这本质上也是对法律解释客观性理想的技术性实现。质言之,当我们将海量法律文本的计量分析结果作为解释法律规范含义的佐证时,必须确保从语料库构建到分析模型应用的每个环节都满足事后可验证标准,也即任何以语料库为辅助工具的法律解释结论,都应当能够被独立研究者通过相同路径复现,并获得具有统计显著性的趋同结果。

 

大模型固有的“幻觉”问题,同样构成了一种深层次的技术内生风险。这种风险与前述操纵风险在根源上具有同构性,均源于训练数据偏差、算法黑箱以及语义表征失真等数据与算法的结构性不可靠。正因如此,“幻觉”问题的规制与操纵风险的防控殊途同归。在技术层面,依托“通用型+监控型+解析型”语料库架构,采用“检索增强生成(RAG)+语料锚定”的方式遏制“幻觉”问题。RAG可使模型在输出语义分析结果之前,必须先从语料库中检索对应的原始文本片段(如裁判文书中的原文表述),并将检索结果作为输出的“前置附件”,由此解释者可以直接通过该附件核验模型结论与原始语料的一致性。同时,应公开数据来源与技术处理全流程、强化解析型语料库的语义精准标注,从底层限制凭空生成的空间。在制度层面,通过前述要求过程可重复、结论可推广以及技术选择可见的制度性框架,迫使潜在的“幻觉”输出在透明的检验与论辩中得到暴露和纠正,从而将这一风险纳入可控范围。

 

就化解大模型法律语料库使用阶段的操纵风险而言,应构建技术与制度协同治理框架,其核心在于通过程序性控制实现解释者主观选择的技术可见性与可辩驳性。

 

首先,应当确立解释的透明度基准,要求法律从业者在使用大模型法律语料库时,必须完整披露其选择语料库类型的原因、输入关键词与搭配词语的考量等相关事项。这种披露义务可通过规范性文件的技术附录予以明确,使每个技术选择过程都能追溯到初始选择之时,从而满足技术决策可解释性标准。

 

其次,可以引入动态校验机制制约解释者的选择性偏差。一方面,开发自动化技术工具对关键参数进行合规性预校验,例如通过自然语言处理算法分析语料库类型与案件性质的匹配度,在参数组合明显偏离常规选择时自动触发预警。另一方面,建立跨学科审查小组(由法律专家、数据技术专家、伦理学家组成),对争议性解释中的技术选择进行事后回溯,要求解释者就参数选择的合理性进行论证。

 

再次,在制度性保障方面,需重构法律职业伦理的数字化适应机制,要求利用大模型语料库进行法律解释的解释者接受基本的算法解释培训,尝试构建“基础认知—操作规范—伦理反思”三位一体的培训体系。在基础认知层面,解释者在运用大模型法律语料库证据探究通常含义之前,必须先理解大语言模型的运作机制,即要求解释者掌握大模型语料库的基本底层逻辑;在操作规范层面,通过模拟实训,使解释者熟练运用相关技术工具;在伦理反思层面,引入典型案例开展情景式教学,培训考核需设置技术伦理答辩环节。

 

最后,需重构人机协同的解释权分配范式,要求解释者在大模型法律语料库技术辅助过程中始终保持技术选择的可辩驳性。所谓技术选择的可辩驳性,是指解释者在利用大模型法律语料库辅助法律解释时,对涉及的所有技术选择环节——包括语料库类型的选定、检索关键词与语境范围的设定、参数调整标准等——均需保持过程的开放性与透明性,允许其他主体对技术选择的合理性提出质疑、反驳并参与论证。这是因为法律解释本质上是一种规范性论证活动,其正当性不仅依赖结论的准确性,更要满足程序的可参与性和理由的可辩驳性等要求。大模型法律语料库作为辅助解释工具,虽能提供数据支撑,但如果技术选择过程是封闭的,将导致解释权异化为“算法黑箱”的附庸,从而背离司法裁判的论证本质。因此,保持技术选择的可辩驳性,本质上是对司法裁判理性主义的坚守,任何解释结论的形成均需经受逻辑检验与规范审视,而非基于技术工具的权威性而被直接接受。

 

尽力抛开解释者不合理的前见,保持法律解释的客观性,一直是法律人的理想。大模型法律语料库的使用,虽然无法直接实现使法律解释更加客观的理想,但作为辅助解释工具,其可以使解释过程更加透明。在我国立法整体较为粗疏的背景下,无论是司法解释的制定,还是个案中相关法律条文的解释,都需要解释者详细阐述其解释过程。引入大模型法律语料库作为辅助解释工具,某种程度上可以倒逼解释者加强论证说理,限制、校正解释者不合理的前见。当然,技术进步始终伴随风险。当大模型法律语料库深度融入法律解释实践时,如何防范算法对司法裁判人文价值的冲击,如何平衡数据客观性与个案正义,将成为长期需要研究的理论与实践命题。对此,需持续完善技术与制度协同治理框架,明确大模型法律语料库的核心价值不在于替代人类判断,而在于为解释者提供更加透明的证据支撑和更加理性的论证依据,推动法律解释在技术赋能与风险防控的动态平衡中逐步实现从依赖直觉向基于证据的转变。

*作者:江海洋,山东大学法学院副教授。

*本文原载《法学研究》2025年第6期第186-203页

 

    进入专题: 法律文本   大模型   语料库  

本文责编:chendongdong
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 法学 > 刑法学
本文链接:https://www.aisixiang.com/data/170445.html

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2025 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统