左卫民:关于法律人工智能在中国运用前景的若干思考

选择字号:   本文共阅读 2114 次 更新时间:2018-05-10 02:35:24

进入专题: 法律人工智能   法律数据  

左卫民  
建立具体案件裁判模型,根据法官点选的关键词或提供的事实、情节,自动统计、实时展示同类案件裁判情况,预测正在审理案件的实体裁判,同时推送更为精准的相似案例,供法官参考。北京法院的“睿法官”系统便是依托北京三级法院统一的审判信息资源库,运用大数据与云计算充分挖掘分析数据资源,并依托法律规则库和语义分析模型,在法官办案过程中自动推送案情分析、法律条款、相似案例、判决参考等信息,为法官判案提供统一、全面的审理规范和办案指引。[34]所谓监督,是指对于“同判度”较高的类案,基于预测性判断,对法官制作的裁判文书判决结果与之发生的重大偏离,系统自动预警,从而防止裁判尺度出现重大偏离。如苏州法院的人工智能系统不仅能够统计类案的裁判模式与结果,还能对当下案件根据历史裁判模型模拟裁判,如果法官制作的裁判文书判决结果与之发生重大偏离,系统予以自动预警,方便院庭长行使审判监督管理职权。[35]

   四是建立统一的、电子化的证据标准,即通过法律大数据总结案件办理经验,并将其内嵌于公检法三机关的数据化办案系统中,用以规范公、检、法机关与人员的司法行为。[36]

   例如,上海公检法机关从统一证据标准、制定证据规则、构建证据模型入手构建的刑事案件智能辅助办案系统。[37]由于类似办案系统的目的在于规范司法行为,似乎还不能算是完全的法律人工智能。

  

二、法律人工智能的现实困境

  

   面对人工智能的迅猛发展,很多人都认为它在法律领域有着广阔的应用前景,并将成为一种可以起到决定性作用的重要手段。但在笔者看来,法律人工智能在中国未来可期的中短期内只可能是一种有限的辅助办案手段,难以应用于核心的司法工作——裁判。笔者的这一判断可以从以下三个方面论析:第一,法律领域并不拥有优质且海量的法律数据资源;第二,法律界并未形成合适且高效的大数据算法;第三,缺乏优秀、适格的法律与计算机人才。

   (一)匮乏且低质的法律数据

   毫无疑义,人工智能兴起的重要原因在于大数据爆炸式的增长,这为人工智能的发展提供了必须的“燃料”。其实,一切人工智能都必须基于充分的大数据,有数据方有人工智能。同理,法律领域中的人工智能无论基于何种算法,其基础都是有大量数据尤其是大量优质数据的投喂。那么,我们当下法律数据的质与量如何呢?笔者的基本判断是,我们处于数据严重匮乏的状态,且可能在中短期内依然如此。这也就意味着法律人工智能在我国可能缺乏必要的数据基础。

   1.法律数据不充分

   在棋类世界,Alphago及其后代虐遍围棋、国际象棋与日本将棋的人类高手,但却并未听闻Alphago打败中国象棋高手。原因何在?一方面,Alphago能够获得成功,很大程度上归功于其拥有一个存储了十几万份公开的人类6至9段职业棋手对弈棋谱的数据库,它实际上包括了人类迄今为止几乎所有质量上乘的棋谱,涵括了围棋世界几乎所有的历史与奥妙,悟懂便可参透,这大大方便了Alphago从中模仿人类常见的落子方式。另一方面,中国象棋只有残局棋谱,未有全局棋谱,Alphago不能获取充分的信息和数据。这个例子正反都能说明,基于充分数据的充分信息是人工智能有用武之地的基本前提。然而,中国目前并不存在这样的数据条件。如所周知,当下作为人工智能开发基础的法律数据基本来源于中国裁判文书网上的裁判文书,但上网的裁判文书数量可能只有审结案件50%,[38]也就是说,还有大约一半的裁判文书并未上网。另外,裁判文书事实上只记载了裁判结论,而反映裁判过程的决策信息并未体现在裁判文书中。这意味着基于裁判文书的人工智能获取的信息其实较为有限,也许最多十中有一。显然,依赖这些有限的裁判文书及其所记载的更有限的信息提炼普遍的裁判模式,是相当危险的。

   目前,部分法院开始建设并未对外公开自己的裁判文书全数据库。较之全国性的裁判文书网,其数据更接近于全样本、全数据,据此似乎可以构建仅适用于自己的法律人工智能。但问题在于,这些数据库只是最近几年开始建设,并没有囊括所有案件的裁判文书。也就是说,所谓的裁判文书全数据库其实也仅只是一种当下的数据。在只有当下数据而没有历史数据,只有近期数据而没有长期数据的情况下,即便基于官方全数据也很难以充分发现和总结规律性的决策模式,更无法展开有效的信息分析与建模。

   需要着重指出的是,除了对外公布的法律裁判文书,法律决策过程中的关键行为如形成决策的内部讨论往往是高度非文字化、非数据化的。无论是中国、大陆法系国家的法律决策组织如合议庭、审委会的讨论、决策过程,还是英美法系国家的法官、陪审团审判的内部讨论、裁判过程,基本上都是非公开或无记录甚至不允许记录与公开。这使得我们对法律决策过程中的博弈过程、裁判目的、考虑条件、心证形成等这些影响决策最为关键的因素缺乏普遍、充分的记载与掌握。不仅如此,中国司法决策运行赖以存在的程序过程信息也不充分。一方面,“庭审笔录不是一种公开的法律证明文书”,[39]其亦未实现充分的数据化;另一方面,大量的程序过程如警察的侦查过程、检察院的起诉过程、法院庭审前后的过程也没有公开的、正式或非正式的文字记录,更遑论在此基础之上的数据化了。因此,所谓的特别是中国的法律人工智能应用可能是不存在的。

   总之,法律数据不充分是中国目前突出的现象。虽然我们一直强调司法公开,但也仅限于庭审过程与裁判结果的公开,对包括审前程序、决策讨论、法官心证过程的公开是极为有限的。同时,法律信息也是未充分记录甚至是非记录化的。由于影响司法公开与法律信息记录的制度性因素与结构性条件将会长期存在,因而法律领域尤其是司法领域的数据信息在很长的时间内都将呈现有限性、片段化的特征。因此,所谓的法律人工智能只可能是在数据存在系统性缺失的条件下展开。这必然影响到法律人工智能基于充分性和高质性的大数据提炼出准确法律决策模式的可能性,从而也就难以据此建立起普遍适用且精确有效的法律人工智能模式。只有当法官的行为模式与决策信息被充分获得并数据化时,法律人工智能或许才会迎来灿烂曙光,否则在信息不充分的条件下,我们无法期待法律人工智能为我们稳定地提供一个真实、全面而非残缺、虚假的司法决策与行为的全息图景模式。

   2.法律数据不真实

   法律人工智能所掌握的公开信息是否真实决定了其得出的结论是否可靠,正所谓“rubbish in, rubbish out”。如果投喂给法律人工智能的数据信息存在真实性问题,我们就很难对法律人工智能抱以太高的期望。遗憾的是,目前中国法律领域的信息存在着突出的“表象性”特征,即信息是公开的,但却在某种程度上并不一定是真实的。

   就司法领域而言,这种“表象性”是指,外界所能掌握的信息是用以证明法律决策正确而按照一定标准制造出来的信息,其可能无法充分、真实地反映法院、法官在决策时所真正采用的“实质信息”。

   因此,我们需要认识到纸面上形式真实的法律信息与实践中实质真实的法律信息之间的鸿沟,进而认识到法律人工智能也无法归纳人类裁判的真实理由、普遍标准。或许可以通过人类以知识图谱的贴标签方式来尝试解决上述难题。总之,在法律数据信息不够真实的条件下,人工智能所分析得出的结论、发现的裁判模式有可能是虚假的。而要想寻求真实的数据、信息与模式,没有人类的帮助将很难完成。这又牵扯到了下一个问题:法律数据的客观性。

   3.法律数据不客观

   尽管我们期望法律是客观的,能够代表社会公平正义,但由于法律主体的利益与主张的差异性,法律往往只能代表“大多数”人所认可的行为标准与模式。从本质上来说,法律在某种程度上是一种意识形态。[40]这也就意味着任何司法裁判似乎都难做到绝对的客观。正是在这一意义上,弗兰克指出,“所谓实际发生的世俗化其实是经历了两次反应后的结果,第一次是经由证人的反应,第二次是经由那些必须‘认定’事实的人的反映。初审法官或陪审员对证词的反应充满这主观色彩。所以,认为初审法院‘认定’的事实是主观的一点也不过分。”[41]

   在中国,这主要体现在“同案不同判”上。很多时候,不同层级、不同区域甚至同一法院的不同法官对于同一法律问题往往有着不同的看法与见解。在一些所谓的“疑难”案件中,更是如此。这不仅需要精细的法律推理与法律解释,更牵扯到法律背后法官的主观意志与价值判断。很多时候,裁判结果的做出不仅是法律技术的体现,更是法律观念、社会价值的映照。因此,法律适用具有主体性、主观性与变迁性,我们很难获得一个完全没有任何意识形态与价值判断的客观化的法律信息数据,“自动售货机”式的裁判古今中外皆难以达致。从这一点来看,如何让人工智能理解当下的社会共识,理解时代共识下的观念差异并预判这一差异未来的可能变化是摆在所有法律人工智能面前的大难题。更为重要的是,由于裁判者众多且彼此在很多方面存在差异,法律人工智能如果不加区分的话,会提炼出何种裁判模式及其适用范围,这也是大问题。如同alphago主要收集与分析顶级围棋高手的棋谱而非所有棋谱,是否收集、如何收集、归纳、建模千千万万的各种裁判信息,也值得深思。似乎我们应当以一流法官的一流裁判为参数来展开此项工作,但目前却并未如此。

   总之,面对着法律信息这一掺杂着主体性、主观性、特殊性的意识形态混合体,要想通过人工智能发现规律、提炼标准、形成模式,进而预测未来判决,是一项极具挑战性与困难性的工作。

   4.法律数据结构化不足

   数据为人工智能所识别的重要前提是数据具备结构化特征。对于外人或者机器而言,识别自然语言已属不易,识别法律专业术语更是难上加难。尽管法律裁判文书对法律要素如法律主体、案件事实、法律适用等做了明确规定,但进一步细化到法律语词方面,却并未作出统一规定,也不可能作出这样的规定。以丧葬费为例,在起诉状中“丧葬”可能被称为“安葬”、“殡葬”,“停尸”的其他表达有“拉尸”、“抬尸”、“存尸”、“运尸”、“收尸”,“保存尸体”的同义词有“冷冻尸体”、“冷藏尸体”等。如此种种非结构化的数据表述为机器的学习造成了极大的障碍。当面对法律这种非客观存在物时,人工智能领域的主流方法无监督学习效果不甚理想,必须通过人工方式对法律数据进行筛选、清洗与分类。因此,当下的法律人工智能严重依赖人类事先构建的知识图谱。这意味着,如果没有人类为数据“打标签”,机器无法主动进行学习。这与我们熟悉的围棋领域的Alphago Zero式的无监督学习截然不同。然而,由于法律文书并无定法,其实践表达千奇百怪,种类繁多,这就为“打标签”制造了巨大的困难。相应的,法律人工智能也就面临着法律数据非结构化的障碍。或许当务之急是实现法律数据的结构化,让法律人在文书写作中尽可能使用统一的术语,方便机器识别、学习,然而,这又谈何容易呢?

   (二)隐秘且低效的算法

毫无疑义,在拥有“燃料”的同时,人工智能还需要强劲的“引擎”——算法作为重要支撑。在人工智能领域“监督学习”仍是主流方法的情况下,采用何种算法,由谁来执行算法完成重要标注“标签”的任务,是决定法律人工智能成败的重要环节。算法的要害在于正确认识、提炼、总结法律决策的规律,并据此归纳人类法律决策的模型尤其是成功模型,并用于预测未来裁判,为当下裁判提供参考。人工智能依赖机器学习展开分析预测,其与以回归分析为中心的统计方法不完全一致。机器学习不是分析假设,(点击此处阅读下一页)

    进入专题: 法律人工智能   法律数据  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 法学 > 理论法学
本文链接:http://www.aisixiang.com/data/109873.html

1 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统