左卫民:关于法律人工智能在中国运用前景的若干思考

选择字号:   本文共阅读 2114 次 更新时间:2018-05-10 02:35:24

进入专题: 法律人工智能   法律数据  

左卫民  
而是分析、训练数据,通过使用算法,确定连接输入数据与输出结果的“最佳”假设。机器学习本质上是通过对训练数据——输入到算法中的例子(可能是从历史记录中提取出来的)的计算,从中学到潜在的预测关系。但是,尽管机器学习由算法驱动,但没有人的参与、输入和假设,机器学习是不会发生的。[42]

   在人工智能领域,算法主要可分为符号学派、联结学派、进化学派、贝叶斯学派与类推学派五种主要类型。[43]需要指出的是,人工智能的发展是这五种派别各领风骚、起起伏伏的过程,然而每种派别的算法均与人工智能画上等号。数十年以来,人工智能领域属于联结学派的深度学习算法获得了重大突破,世人熟知的Alphago正是在结合了深度学习与强化学习后一鸣惊人。因此,许多人误以为深度学习就是人工智能,这显然存在误解。每种算法派别针对的数据领域、数据特点各不相同,在一个领域获得突破的算法不见得就能适用于其他领域。

   在中国的法律人工智能界,算法处于一种“云山雾罩”的状态,我们不清楚法院和法律科技公司到底采用了何种算法以及该算法的实际效果如何。很多时候,我们只能获取极为有限的信息。其中,或者对算法的描述语焉不详,或者过高评价,算法究竟是什么以及效果怎样,我们难以得知。这其中当然有可理解的客观原因:一方面,出于对公司核心技术成果——算法的保密需要。在竞争激烈的市场条件下,任何法律科技公司都不会对外大肆宣扬其算法的主要内容,更不可能在公开的出版物上详细介绍其算法的运作方式。[44]另一方面,出于宣传的需要。在商业利益的驱动下,法律科技公司往往将最先进的算法名词搬上自己的宣传手册,而无论其是否真正使用过。另外,还值得注意的是,使用这些法律人工智能产品的用户往往也不关注其背后的算法为何,更无动力去学习与研究,他们在乎的只是系统好不好用,能不能提高办案效率。当然,鉴于这些用户大多是法律专业出身,他们也无能力去研究那些复杂的代码与程式。这其实也在一定程度上使得法律科技公司更易宣传其算法的先进性。

   根据笔者的观察与访谈,在中国法律人工智能界特别是预测裁判方面,知识图谱+深度学习是话语层面的主流算法,几乎每家法律科技公司宣称使用了“最先进”的“神经网络深度学习”算法。但在实践中,知识图谱而非深度学习可能才是法律界运用人工智能的主流做法。所谓知识图谱(Mapping Knowledge Domain)是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是用可视化的图谱形象地把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来。[45]

   从实践来看,很多法律人和法律科技公司都在似懂非懂地使用知识图谱的话语来构建法律人工智能,并将其作为主流算法,即通过知识图谱实现知识的可视化,描摹出案件的主要构成要件和证据构成。然而,他们可能并未注意到,知识图谱对数据、模型的颗粒化程度要求较高,模型越精细,数据越详细,知识图谱的效果才越好。以酒驾类案件为例,尽管此类案件案由简单,数量庞大,但在知识图谱上的颗粒化程度仍然极高,需要考虑的因素也相当多。如果忽略了这一点,以颗粒化程度低的知识图谱进行案件结果预测,仍然无法获得期望的效果。正是因为如此,实践中法律人工智能预测裁判的效果不佳,正确率较低。这不仅表明目前流行的算法存在某种技术上的缺陷,也说明算法本身的效率不高。

   事实上,目前较为常见的关于法院的大数据分析报告,都是对特定种类案件中的某些较易区分的因素,如当事人地域、性别、年龄、是否构成犯罪、涉案金额大小、刑期长短、民事案件中哪方胜诉等内容进行标注与分析,从而得出一些较为基础、简单的结论,如民事案件中何种状况的当事人更易胜诉、刑事案件中量刑的区间、犯罪金额大小对出入罪的影响等。结合裁判文书的文本内容仔细、深入地挖掘、分析、标注信息,并构建模型、发现趋势的大数据分析乃至真正意义上的法律人工智能并不多见。之所以如此,除了前述所说的法律数据方面的原因之外,更为重要的原因在于我们目前并未形成一套高效、成熟的算法,甚至对于算法本身都还缺乏准确、恰当的理解。在这样的情况下,我们很难对法律人工智能的前景保持乐观的态度。

   在理想状态下,法律人工智能或许是一种类推学派中的知识图谱与联结学派中的深度学习相结合的机器学习方法,知识图谱与深度学习结合的算法意味着需要将法律分解为一个个小的逻辑模型,方便机器识别的同时通过专业人员给各个数据打上标签而为深度学习提供训练数据集。从本质而言,这仍是一种监督学习算法,打标签费时费力,成本非常高。即使不考虑这一点,深度学习算法仍然不能完美地适用于法律领域的任何场合,因为深度学习是一个端到端(end to end)的过程。这意味着,机器学习对与错、是与非界限十分明晰,唯有如此,机器通过学习大量带有明确标签的数据内容,自动总结、形成模型,以预测未来结果。机器需要充分挖掘法律文本,仔细分析文本中有法律意义的话语,将之标签化并在此基础上分析、建模。然而,单纯以案件结果的胜诉、败诉作为数据内容标签,可能无法充分反映法官的裁判思路与案件事实。很多时候,一个关键案件事实的不同会使案件的裁判结果迥然不同。因此,简单地以裁判文书的裁判结果为数据内容“喂养”深度学习,获得的可能只是一个无法充分反映司法裁判决策的模型。此外,深度学习算法还存在非透明性与不可解释性的缺陷。正是因为如此,人们常常将其形容成一个“黑箱”,即只能获知机器给出的答案,却无法了解答案得出的过程。然而,司法裁判的过程不仅仅是给出结论的过程,更是以一系列合乎逻辑的声明或通过引用相关的法源得出结论的过程,只有结果无法“服众”。就此而言,深度学习算法的“黑箱性”可能天然地与法律决策的“透明性”要求相冲突。这一切都告诉我们,如何通过机器学习算法发现或者充分发现裁判规律是一个漫长而未知的过程,中国法律人工智能还有很长的路要走。

   (三)薄弱的人才

   法律人工智能的发展,不仅取决于法律数据与具体算法,还要求有既懂技术又知晓法律的复合型人才作为支撑。从中国目前的情况来看,法律人工智能的人才培养与储备状况都难以为其发展提供充分的人力资源支持,甚至在未来很长一段时间内,法律人工智能的发展都可能受制于人才的匮乏。这就意味着,在法律领域使用人工智能,也许在相当长的一段时间内,我们不可能也不应该像对Alphago那样抱以巨大希望与信心。

   1.法律界对人工智能技术的疏离

   首先,法律界对数据统计与分析技术的陌生。在传统意义上文科培养模式下训练出来的法律人更习惯从定性而非定量的视角看待法律问题。即使在近年实证研究逐渐兴起的背景下,定量研究仍然为数不多。少数实证研究也多采用描述性的统计方法,即通过百分比、增长率、图形描述等方法浅显地阐释客观世界,而缺乏如相关、回归、聚类等推断型统计方法。之所以如此,一个很重要同时也很现实的原因就是我们的研究者自身对数据统计与分析的技术并不了解,更谈不上熟练运用。这一局限在大数据时代将被无限放大。大数据时代,数据量无法用传统意义上的百、千、万来指称,而是要用GB、TB等表述容量大小的标准来形容,转换成传统数字,或许是亿、千亿、万亿。面对如此海量的数据,别说法律人,即使是数据专家,亦有无从下喙之感。以e租宝与钱宝案为例,案件中涉及的数据量早已超越了人工能够处理的极限,必须依赖机器分析方能办案。遗憾的是,法律人并不精通大数据,在面对海量数据时,时常要倚仗BAT等企业的数据专家才能找到自己需要的证据。

   其次,法律界对大数据算法几乎完全外行。在“小数据”时代,法律人运用统计式“算法”,或称法律实证研究,或许尚可应付。但面对海量、巨大的数据流,这种“算法”已经不可能准确把握法律现象与司法运行规律,而是需要更为精细与技术化的算法。然而,现实是我们的法律人对于是否以及如何应用算法来处理法律大数据,整体上属于外行,更遑论建构出成功的算法模型,甚至没有真正大规模地实际使用算法来构建裁判模式。

   最后,法律界对人工智能缺乏客观的认识。在人工智能迅速勃发的背景下,越来越多的法律人开始关注人工智能,也勤于学习、研究相关知识、技术,但目前仍缺乏对法律人工智能的客观认知。部分法律人甚至不关心人工智能,在与人工智能领域的专家对话时,或将人工智能所能做的预测与人类的推理划上等号,或认为人工智能将会彻底颠覆人类社会,人类会成为机器人的奴隶。这些脱离人工智能界的幻想常常贻笑大方,让人工智能领域的专家在惊骇之余丧失了进一步对话的兴趣与勇气。

   2.人工智能界对法律行业重视不够

   首先,人工智能界对法律行业的感知不深。许多程序员尽管在编码技术上极为高超,但限于之前从未接触过法律行业,因此对法律人所提出的产品要求无法理解。这使得很多法律人工智能产品无法达到法律人所设想的预期,实际产生的作用较为有限,目前,法律人工智能的发展表面上轰轰烈烈,但真正了解、掌握人工智能技术、机器学习算法的人才其实寥寥可数,有些甚至并未投身于法律人工智能这一专业领域。

   其次,人工智能界的投入有限。目前,很多法律科技公司虽然非常重视法律人工智能的开发,并确实投入相当的资源,但相对于其他领域人工智能的开发,这些投入其实并不可观。这不论与谷歌(Google)旗下DeepMind公司研制“阿尔法狗”围棋人工智能的投入去比,还是与BAT等企业研发一般的人工智能产品相比,都相差甚远。事实上,目前中国热衷于法律人工智能的研究与运用的公司,其规模、人才与资金都较为有限,远远不如大科技公司。

   即或有大科技公司如科大讯飞介入,其核心技术也是通用型语音技术,而非专门针对法律开发人工智能。实际上,讯飞的语音技术在当下的审判实践中也未获得普遍运用,原因之一就是科大讯飞所投入的人力与资源还不够充分,未能将通用的语音技术转换、发展为专用的法律语音技术,特别是尚未能解决复杂法庭审判中多方互动及争论的情景难题,当庭化语音运用中的最后一公里技术障碍没有打通。

   再次,人工智能界过于看重眼前收益。目前的人工智能技术主要集中于金融、汽车、互联网等高收益、高薪酬的领域。这和国外情况也较为类似。彭博社在2017年12月发文称,人工智能将占领华尔街99%的投资机构;[46]在汽车业,特斯拉吸引了大量的人工智能人才。许多从高校毕业的人工智能人才,被BAT等互联网企业的高薪酬所吸引,投身其中。相较这些高收益的行业,法律行业略显寒酸,吸引力明显不足,从而也难以招揽高技术人才。这一局面或许短期内都无法改变。

   显然,人才问题构成了法律人工智能成长与运用的最大现实障碍与瓶颈。既然我们既没有人工,又没有好人工,又怎么会生产出好的“人工智能”呢?特别是,当机器学习者被要求对新知数据进行分类时,分类设计必然会引入一些归纳偏见,即机器学习者在“清洗”数据,设计何种假设及验证的问题上会存在不可避免的偏差。如果是法律领域的专业人士进行或指导计算机行业的专业人才完成上述工作或许可以将偏差降至最低,但如果没有法律专业人士参与其间,偏差可能将无法被控制在一个可接受的范围内。[47]

恰恰在此关键问题上,法律界似乎并未做好充分投入“法律人工”的准备,人工智能界尤其是科技企业界也没有做好这方面的准备。必须看到,我们缺少“人工”收集、选择法律数据的大样本甚至是全样本;我们更缺少“好”的“人工”筛选优秀的裁判文书,分析正确的裁判推理、裁判结果,并在此之上思考判断、正确归纳相应的裁判模式。或许只有当法律人与技术人紧密结合,相互理解,充分获知对方的需求与期待并实际解决法律与技术运用中的实践难题时,(点击此处阅读下一页)

    进入专题: 法律人工智能   法律数据  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 法学 > 理论法学
本文链接:http://www.aisixiang.com/data/109873.html

1 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统