梅剑华：深度学习为什么不能发展出真正的人工智能？

爱因斯坦曾说，西方科学的发展建立在两个巨大成就之上：古希腊哲学家在欧几里得几何中发现了形式逻辑系统；文艺复兴期间通过系统实验尝试发现了因果关系。长期以来，哲学家并没有找到真正的因果关系。休谟把原因归结为有另一个对象跟随的对象，所有和前一个对象相似的对象都有和后一个对象相似的对象跟随。在休谟看来，事物之间并不存在这种“因果关系”，只是人类习惯将两个事物联系起来。我们还记得他那句耳熟能详的名言：习惯是人生的伟大指南。

休谟是因果关系的怀疑论者。在统计学领域，大家都墨守相关不蕴含因果的共识。在流行病学、社会学、政治学、生物学等领域，学者都在从事相关分析而非因果分析。但哲学家、科学家并未放弃寻找真正的因果关系这一目标。2012年的图灵奖获得者朱迪·珀尔（Judea

Pearl）很早就认识到统计分析的缺陷，转向因果推断，先后出版了《因果性》（Causality: Models, Reasoning, and Inference）第一版（2000）和第二版（2009）。《因果性》一书兼具思想性和技术性，为了帮助读者理解其中的技术细节，他撰写出版了《统计中的因果：一个导论》（Causal Inference in Statistics: A Primer，2016），为了帮助读者理解其中的关键思想，随后他又撰写出版了《为什么：关于因果关系的新科学》（The Book of Why: The New Science of Cause and Effect，2018）。在《为什么》一书中，珀尔一方面从学术史的视野出发介绍人类认识因果关系的历史，另一方面又从跨学科（尤其是哲学）的角度来理解因果关系的本质，此书虽居科普之列，却实属哲学—科学著作。

因果推断在人工智能、自然科学和社会科学领域有着极为广泛的应用。珀尔认为，人的根本能力是因果推断能力，强人工智能就是让机器人具有因果推断能力。寻找事物之间的因果联系，是人类的一种自然冲动。人类涉世之初好问“为什么”：为什么天会下雨、为什么有白天黑夜……。成语“打破砂锅问（璺）到底”就形象地刻画了儿童发问的天性。追问为什么，就是追问事物之间的因果关系。

珀尔幼承庭训，熟读《圣经》。《为什么》一书多处引用《圣经》来诠释因果。《圣经·创世记》中有一段著名的对话。“上帝问亚当：你吃树上的果子吗？亚当回答：你赐给我的女人，递给了我树上的果子，我才吃的。夏娃回答：蛇引诱了我，所以我吃了。”上帝问了一个事实问题：亚当是否吃了树上的果子。亚当和夏娃的回答却给了一个因果解释。中国古籍《国语》载西周伯阳父曰：“夫天地之气，不失其序。若过其序，民乱之也。阳伏而不能出，阴迫而不能蒸，于是有地震。”伯阳父为地震也提供了一个因果解释。无论中西，人类在认识世界之初，都建立了大致相同的认知方式。

汉学家葛瑞汉（Angus C. Graham）指出，宋学里的感应思维和西学中的因果思维类似。你的照片掉在地上被人踩了一脚，你心里觉得不舒服；宫斗剧中，妃子为了争宠，雕制一个皇后形象的小木人儿，请道士做法用银针扎小人。路人的脚没有踩到你身上，道士的针没有直接扎到皇后身上，但我们仍感觉两个事件存在联系：通过做某件事改变另外一件事。感应思维和因果思维相去不远：感应和回应之间的关系与原因和结果之间的关系均可以理解为，前者导致、引起、影响了后者。人类能从感应思维过渡到因果思维，恐怕也在于这两种思维方式之间存在某种相似性吧。

近代以来对因果的理解主要有两种：规则论和反事实论。规则论源于休谟，但规则、相关并不蕴含因果。分析哲学家刘易斯（David Lewis）意识到规则论的局限，提出了因果的反事实理论：如果a，那么b；并且如果非a，那么非b。人类能够想象反事实是认知能力的一大提升，是从已知到未知的一跃。

珀尔关于因果推断的想法大概受到了刘易斯反事实论的启发。反事实推理对于人类的生存实践至关重要，因为人类不可能穷尽所有的可能性，只能基于有限的数据去推断。我们和周遭世界打交道的经验相当有限，依赖对反事实的想象可以拓展对世界的认知。理解因果推断的关键，就是理解反事实思维方式。让机器具有因果推断能力，就是让机器具有反事实思维能力。

珀尔认为攀登因果关系的三个阶梯是：观察、干预、想象。第一是观察层次，人类和动物都可以对周边环境的规律进行观测，观察世界中的联系，然后行动；第二是干预层次，通过干预某一因素，看后果的变化，从而做出相应的行为；第三是想象层次，通过想象反事实情况来获得对世界的理解，从而选择行为。要让机器人具备因果推断能力，必须解决两个问题：一是学习问题，即机器人如何与环境互动来获取因果信息；二是表达问题，即机器人如何处理从其创造者那里获取的因果信息。

珀尔主要解决的是第二个问题，他用因果图来表达因果关系，用结构方程模型给出因果的数理方程。不妨想象因果图是一张网，网中的节点表示我们关心的变元。因果网和通常的网有两点不同：第一，网中节点之间的连线是有方向的，表示了因果关系的方向性；第二，这种方向不能闭合成一个环，表示因果关系不能循环。因此，这种图被称作有向无环图（directed acyclic graph，缩写为DAG）。每一个节点表示变元，连接节点之间的线段表示变元之间的联系，线段的箭头表示因果方向。整个因果网络就是一个贝叶斯网络。结构方程模型较为复杂，我们只需要记住它是一组刻画因果关系的函数方程即可。总而言之，珀尔为因果推断提供了一套完整的形式化语言，为人工智能中的因果推断打下了坚实的基础。

在人工智能领域，虽然早期的专家推理系统取得了巨大成就，却不能像小孩一样进行常识判断、因果推断。它可以做出超越专家的事，但无法做出小孩很容易做到的事。小孩对外界环境的刺激进行回应，通过因果学习建立因果推断模式。小孩获得的数据是少的，但解决的任务是复杂的。珀尔的同事、加州大学计算机视觉研究专家朱松纯指出：人工智能不是大数据、小任务，而是小数据、大任务，即环境中的智能体通过观察操控甚至设想环境中的有限信息（小数据），建立信息和行为之间的因果关联，从而做出复杂的行为（大任务）。

朱松纯做了一个对比：大数据、小任务的典范是鹦鹉学舌，通过给鹦鹉输入固定的语音信息，鹦鹉学会相应的语句，但鹦鹉和聊天机器人都不懂得真正的说话，不能在语句之间建立真正的联系。小数据、大任务的典范是乌鸦喝水，乌鸦比鹦鹉聪明，“它们能够制造工具，懂得各种物理的常识和人的活动的社会常识”[1]。

如果要求人工智能成为真正的人类智能，人类就必须对自身的因果认知推理模式有深入的了解。机器人只有建立了真正的因果推理模式才具有真正的智能。在珀尔看来，今天的机器学习导向是错误的，因为它是以数据为导向，而不是以人类的推理特征为导向的。机器学习的倡导者认为，数据里面有真经，只要具有巧妙的数据挖掘技术，学习机器通过优化参数来改进其表现就可以了。人的大脑是处理因果关系最为先进的工具，在与环境互动的过程中，建立了系统的因果推理模式，能够回答各式各样的因果问题。让机器人拥有理解和处理因果关系的能力，是通向强人工智能道路上的核心目标，《为什么》一书为这一目标做了相当清晰通俗的讲解。

重视因果推断是珀尔的研究和其他主流人工智能研究的分野。早期的人工智能算法基于符号逻辑的演绎推理，1980年以来的人工智能算法则是基于概率（贝叶斯网络）的归纳推理。因果推理是结合了演绎推理和归纳推理两个维度的推理模式。珀尔认为，目前的机器学习、深度学习不能发展出真正的人工智能，忽视因果推断是其根本缺陷——当前的人工智能登月计划是爬树登月，而真正的人工智能登月计划要乘坐宇宙飞船。

当前，因果推断在人工智能领域尚处于理论建构阶段，“门前冷落鞍马稀”，但在社会科学领域，因果推断方法正当其时。哈佛大学统计学系教授鲁宾（Donald B. Rubin）的潜在结果模型和珀尔的结构方程模型是社会科学方法的两种主要模型。在统计学领域，因果推断已成为一种主流研究方式。在流行病学、心理学、公共管理学、社会学、政治学、经济学等领域，大量使用因果推断方法已成为业界共识。无因果推断就无推理方法，这一点不难理解，因为我们从事社会科学研究，就是要发现社会现象背后的前因后果，从而理解社会运行的机制，为制定政策的机构提供相应的依据。

例如，吸烟是否导致肺癌，通货膨胀是否会导致失业，控枪是否可以降低犯罪率，选举是否会导致动荡，加强公共卫生是否能减少流行病的传播等，这些都需要在庞大的数据中探寻真正的因果联系。通常，研究者会进行对照实验：在关于某种新药的测试上，选择一些人接受治疗，让另外一些人吃安慰剂；经过一段时间之后，观察二者之间的差异，从而发现真正的原因。但有些情况无法进行真正的实验。我们不能随机选取一组人让他们连续抽烟10年，而让另外一组人远离烟草，这既不可操作又违反伦理。我们也不能对经济、社会、政治现象进行干预控制实验。但如果我们有好的因果模型，就可以进行一种想象的实验，通过操控变元在大数据中发现真正的因果关系。如果说在人工智能领域，具有因果能力就是在小数据的基础上完成大任务，那么在社会科学领域，运用因果推断就是在大数据里发现相对小的目标。

数据自身不会给出任何论断，需要理论解释。康德有言：直观无概念则盲，概念无直观则空。我们可以把理论比作概念内容，把数据比作直观内容，那么在数据科学领域里就是：数据无理论则盲，理论无数据则空。例如，数据能够告诉我们谁服药可以恢复得比其他人更快，但不能告诉我们为什么。人的优越性就在于，人能够回答为什么的问题，比如干预问题：服用这个药物对身体康复有效吗？比如反事实问题：一个没有接受过大学教育的人，如果接受大学教育会怎么样？珀尔为盲目的数据提供了一套完备的反事实因果模型。

托马斯·库恩（Thomas S. Kuhn）在其名著《科学革命的结构》（The Structure of Scientific Revolutions）中提出科学革命，天文学领域的哥白尼革命、化学领域的拉瓦锡革命、近代物理学的爱因斯坦革命都是典型的科学革命。科学革命是一次巨大的范式转换，从地心说转变到日心说、从燃素说转变到氧气说、从经典力学转变到相对论等等。有人认为珀尔两次居于人工智能领域革命的中心，在20世纪80年代引领了从逻辑规则系统向概率推理的转变，在90年代引领了从概率推理向因果推断的转变。基于贝叶斯网络的概率推理如今已是人工智能领域的主流范式，但因果推断实践尚在探索之中，其价值尚未得到充分重视。《为什么》一书是珀尔为公众介绍因果推断的重要之作，在人工智能已经成为坊间热议话题之际，此书有着极为重要的现实意义。

珀尔之子丹尼尔（Daniel Pearl）是《华尔街日报》的记者，2002年他在巴基斯坦被基地组织的武装分子绑架杀害。为此，珀尔拿出图灵奖的大部分奖金建立了“丹尼尔·珀尔基金会”，用于化解宗教冲突。有人问珀尔何以如此，他回答说：“仇恨杀死了我的儿子，我决定与仇恨斗争。”珀尔建立的因果推断模型也许能帮助他找到凶手和丹尼尔之死的因果联系，但要弄清这种杀害源自宗教仇恨，人工智能需要更多的人类智慧而非因果模型，也许这才是未来人工智能可能遭遇的真正瓶颈吧。

《为什么》的英文书名颇有深意：The Book of Why: The New Science of Cause and Effect，副标题直接限定了追问为什么的范围——用科学方法追问因果关系。我们知道罗尔斯的《正义论》英文标题是A Theory of Justice,中译应为“一个关于正义的理论”，罗尔斯认为自己的理论不是唯一的，只是为正义提供了一种理论。回头来看，珀尔此书副标题弃用不定冠词“a”选择了定冠词“the”，显然他认为自己不仅是为因果推断提供了一种理论，而且这是唯一正确的理论。追求科学的真理似乎只有“the book”没有“a book”，但科学也许就是用一本一本的“a book”去逼近“终极真理”的“the book”。在此意义上，《为什么》离“the book”庶几近矣。

注释

[1] 《浅谈人工智能：现状、任务、构架与统一丨正本清源》，朱松纯，视觉求索微信公众号，2017-11-02。

梅剑华：深度学习为什么不能发展出真正的人工智能？

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏