徐英瑾:语境建模三大进路之哲学预设探微

选择字号:   本文共阅读 2164 次 更新时间:2016-03-25 09:41

进入专题: 语境建模   人工智能   外在主义  

徐英瑾  

【专题名称】科学技术哲学

【专 题 号】B2

【复印期号】2015年06期

【原文出处】《上海交通大学学报:哲学社会科学版》2015年2期第17~26,34页

【英文标题】Some Philosophical Remarks on Three Main Approaches to Context-Modeling

【作者简介】徐英瑾,复旦大学哲学学院教授,上海 200433

【内容提要】 语境建模乃是最近在人工智能领域内方兴未艾的一个新研究分支,其任务是用计算机建模的方式来展现那些具有语境敏感性的认知进程。由于在这个分支内出现的不同建模思路都预设了这样或那样的关于“语境”的定义,因此,对于相关预设的哲学反思,也就成为对于这些工作的概念性辩护的题中应有之义。具体而言,有这样三种关于语境的哲学预设,分别引导了业内专家提出了与之相应的建模思路:(1)“语境”乃是外在于认知主体的外部对象,需要通过某些假定的形而上学对象(特别是可能世界语义学所承诺的那些对象)来加以界定;(2)在特定语境中成立的判断也好,跨语境的推理规则也好,都可以被视为对于既存人类常识的近似化表征;(3)所谓“语境敏感性”,无非就是外部输入与内部模块之间互动之随机性特征所具有的另一种表达而已。这三种思路都各有短长,而一种更为上佳的语境建模思路则既要容纳某种一般推理机制以便通过某种整合的方式来应对常识之多样性,又必须得同时具有某种“非公理化”的特征以展现出最起码的灵活性。

Context-modeling is a recently flourishing branch of Artificial Intelligence devoted to the modeling of agents' context-sensitive cognitive processes. Since different technical approaches to Context-Modeling has taken different philosophical assumptions on what a "context" should be, these assumptions are expected to be open to philosophical scrutiny if they are also expected to be warranted on a conceptual level. Three basic assumptions of Context-Modeling to be scrutinized in this paper include: Contexts should be defined externally in terms of some putative metaphysical entities, especially those endorsed by possible-world semantics; Both contextual statements and cross-contextual reasoning rules can be represented as a form of approximation to human-beings' existing common-sense; and the contextual-sensitive feature of cognitive processes is nothing but some by-product of the contingent aspect of the interplay between acquired environmental stimuli and involved cognitive modules. The discussion of both the merits and defects of these approaches in this paper will be followed by some brainstorming ideas on what a better approach to modeling contexts should be, and the core idea is that this wanted solution should be both accommodating a general reasoning system for handling the variety of commonsensical knowledge in an integrated way and non-axiomatic for exhibiting minimal flexibility.

【关 键 词】语境/语境建模/外在主义/可能世界语义学/制限方法/提升公式/酶性计算context; context-modeling; externalism; possible-world semantics; circumscription method; lifting formulae; enzymatic computation


   中图分类号:B815.3 文献标识码:A 文章编号:1008-7095(2015)02-0017-10

   众所周知,“语境”(context)在当下的全球范围内的知识论研究和科学哲学研究中已经成为一个非常热门的词汇,很多相关领域内的专家都试图对语境因素在日常知识以及科学知识的辩护机制中所起到的规范性作用作出刻画①(请参看Rysiew 2011对于这个问题所给出的一般性介绍)。不过,对于从属于广义上的“认知科学”的认知心理学研究和人工智能研究来说,在“规范性”层面上所给出的前述研究成果,或许多少显得有点“远水不救近火”。这是因为,对于认知科学来说,更值得关心的问题是“我们当如何从无到有地构建出一个认知模型,以便再现语境因素在认知机制的运作中所起的作用”,而非在肯定语境因素存在的前提下,去追问“怎样的知识辩护机制才能够和这些既有的语境因素完美配合”。如果将“语境”比作衣裳的话,那么,此两项工作之间的差异,就可类比于“裁布制衣”和“择衣搭配”之间的差异。很显然,正如裁缝很可能会碰到穿衣的用户所无需面对的一些难题一样,认知科学语境中的“语境建模问题”,恐怕也要比广义科学哲学和认知论研究中所出现的“语境问题”来得更为复杂与微妙。

   不过,这也并不是说,在面对“语境建模”这一必然充满工程学细节的新问题时,哲学工作者就完全可以袖手旁观。正如合格的服装设计师需要对市场关于“好看的服装当如何设计”的市场观点有所回应,才能够着手进行其具体设计工作一样,语境建模工作也需要在观念层面上预设对于“语境”的此种或者彼种哲学观念,才能够在相关观念的指导下铺陈开具体的技术路线。由此看来,对于语境建模工作的哲学反思,既不能放松对于被反思对象的技术细节的把握,更需要在一个更高的层面上参悟细节背后的思想预设的得失。

   本着这一方法论原则,笔者便将海外学界目前主流的语境建模路径背后的哲学预设归类为三种。第一种是以“可能世界语义学”为技术根底,试图从外在主义的语义学角度去理解“语境”;第二种是将“语境”理解为对于常识表征方式的一种近似化的约定;第三种是将“语境灵活性”理解为智能体的内部信息处理机制和外部输入之间互动关系的某种随机性。笔者将在下文的分析中逐一分析这些思路的不足,并在此基础上对一种更富发展前景的语境建模思路进行展望。

   一、外在主义视野中的语境建模

   对于浸淫于20世纪语言哲学传统的语境建模者来说,对于语境因素的刻画往往会与对于索引词(indexicals)的刻画捆绑在一起。其相关理由如下:根据以色列哲学家巴-希莱尔(Yehoshua Bar-Hillel)在其论文《索引性表达》②中所表达的观点,所有的句子都可以被区分为“陈述”(statement)和“索引性语句”(indexical sentence)——前者的真假不受句子所处的语境的变化的影响(如“地球是太阳系的一颗行星”这句话),而后者却因为包含了索引词,其真假会直接受到其所处的语境的变化的影响(如“我爱吃寿司”这句话)。这也就是说,所谓语言表达式的“语境敏感性”,往往就是索引表达式的一个内在特征。

   顺着巴-希莱尔的思路,卡普兰(David Benjamin Kaplan)在其论文《关于指示词的逻辑》③中提出了这样一个问题:我们该如何刻画一个索引词的外延对于语境性因素的依赖呢?任何一个学过可能世界语义学的读者或许都会按照这样的思路来答题:我们可以将每个不同的语境视为一个可能世界,并将索引词在不同的语境中所获得的外延视为其在相应的可能世界中所获得的值。这里需要指出的是,对于这里所提到的“可能世界”,我们既可以给出一种“抽象主义”(abstractionism)意义上的解读(比如将其视为现实世界得以存在的不同抽象条件),也可以给出一种“具体主义”(concretism)意义上的解读(比如将其视为与具体的现实世界并列的其他具体世界)。但无论怎么看,从哲学角度看,作为“可能世界”的语境肯定都是一种独立于主体心智状态的形而上学对象,因此,索引词指称对于它们的依赖,就会很自然地将形而上学因素引入我们对于索引词外延的研究。

   那么,这种刻画的具体技术思路是什么呢?卡普兰首先提出的建议是:我们可以将每一个索引词视为某个函数结构的语言学载体。我们知道:函数的基本功能就是将每一个处在其取值范围内的输入值毫无歧义地转化为一个输出值——而在我们当下讨论中,一个可能世界就不妨被视为这样的函数的输入变量。这也就是说:只要将这些变量“喂给”作为索引词所自带的函数,由此得到的输出值也就是索引词的相关外延或指称。相应地,索引词的内涵,也可以被理解为将每个可能世界(语境)映射到索引词的外延上的方式或规则。

   不过,对于索引词内涵的刻画来说,仅仅引入“可能世界”还远远不够。比如,在谈论某个索引词的内涵或者外延时,我们不仅要确定说话人是在哪个可能世界里使用它,而且还要确定他在这个可能世界中所处的时—空坐标,特别是这个作为说话者的“他”究竟是谁。而为了更好地刻画“索引词”(用“i”表示)所自带的函数机制在变元种类方面的丰富性,卡普兰建议这样的函数机制至少得包含四个因素:可能世界(用“w”表示)、时间(用“t”表示)、地点(用“p”表示),以及能动者(用“a”表示)。考虑到或许还会有别的因素被牵涉到这种刻画之中,他还在下面的公式刻画中使用了省略号。

   i=(w,t,p,a,…)(表示:要知道一个索引词所指为何,我们就得先了解它被运用于哪个可能世界,哪个时刻,哪个地点,以及相关的能动者为谁,等等。)

   这一思路的技术成果便是卡普兰的“指示词逻辑”(Logic of Demonstratives,以下简称LD)。和可能世界语义学家或模态逻辑学家对于“必然真”的定义(即“一个命题为必然真,当且仅当其在每个可能世界中为真”)相互平行,卡普兰也认为一个LD语句为必然真的充分必然条件是:它在任何一个LD结构中都为真。不过,也正如前面我们所已经看到的,一个LD结构应当包含比模态逻辑学家眼中的“可能世界”更为丰富的内容。具体而言,任何的这样一个结构包含一个可能世界集合(简称为“集合W”)、一个语境集合(简称为“集合C”)、一个时刻点集合(简称为“集合T”),以及一个由作为说话者的个体所构成的集合(简称为“集合U”)。每一个LD结构同时也包含了一个解释性函数,以便将相关的内涵指派给形式语言中的每一个谓词或者个体常项。从这个角度看,LD结构无非是传统的可能世界语义学结构的某种拓展版本。

   不过,卡式的刻画也暴露出了这样一个哲学问题:对于索引词的函数结构所带的变元数量以及性质的界定,其背后的哲学辩护是什么?具体而言,在可能的变元数量或许非常大的前提下,为何我们要对“w”、“t”、“p”和“a”这几个参数情有独钟?对于这个问题,刘易斯(David Lewis)在《索引词,语境和内容》④中给出了一个解答:我们不妨将一个语境中的“可迁移”(shiftable)特征当作索引词的坐标参数,并由此忽略掉其余的特征。所谓“一个语境中的可迁移特征”的释义如下:如果一个语境中某个特定句例的主干部分的真,取决于另外一个语境中同一个句例的主干部分的真的话,那么,后一个语境所不同于前一个语境之处,就向我们指示了前一个语境中的“可迁移特征”。譬如,假设语境甲在时间方面的特征赋值是“现在”,并设在语境甲中有句例“世界上曾经有恐龙”,那么,这个句例便可以分析为时间修饰部分“曾有这样的事情发生过……”和句子主干“世界上有恐龙”的结合。该主干是否为真,当然取决于世界上是否真的有过恐龙,也就是“世界上有恐龙”这句话是否在“现在”之前的某个时间点为真。而在使得“世界上有恐龙”这话为真的语境中,原先句例中在时间方面的特征赋值“现在”则明显已被“移动”了——因此,我们就可以将“现在”视为前一个语境中的“可迁移特征”。换言之,时间因素也就作为一个“可迁移特征”而成为刘易斯心目中的索引词函数结构所必须加以表征的一类变元。按照同样的分析思路,他还指出“可能世界”、“地点”等参数也是这样的“可迁移性特征”,并最终通过这种方式基本完成了对于卡普兰所给出的索引词函数刻画方式的辩护。在此需要加以注意的是,在刘易斯的理论框架中,鉴别一个特征是否是“可迁移特征”的标准,乃在于该特征在被移走的情况下,一个语句的真能否依赖于另一个语句的真——而这样的评判标准显然是将我们的注意力从当下语境所讨论的事项吸引到了一个外部语境上去。而这也正是以可能世界语义学为根底的语境刻画方案所共同具有的一个哲学特征,即对于当下语境之外的某些外部对象——无论是别的可能世界或语境,还是在这些可能世界或语境中某些事态的成立——的本体论承诺。从这个意义上说,类似的刻画思路在哲学也都承诺了某种版本的“语义学外部主义”(semantic externalism)。

   这样的建模思路当然会导致对于处理语境的智能体内部的心理因素的忽视——而在常识看来,这样的心理因素(如认知能动者之所知与所欲),也往往构成了通常所说的“语境”的一部分。这就引出了一个新问题:为何我们一定要像卡普兰、刘易斯等人所建议的那样,去割舍语境的主观面相,而仅仅聚焦于其客观面相呢?刘易斯本人的解释是:语境的主观面相实在过于丰富和个人化,而难以被一种统一的语境刻画方案所把握⑤。但其实这并不是一个有力的辩护,因为这个辩护就无异于是说什么“之所以不在黑暗中寻找遗失的钥匙,仅仅是因为我们的路灯的光线照不到那里”。倘若语境刻画的关键点恰恰就在于这个遗落于黑暗之中的语境的主观面相,事情又当如何呢?

   而下面这个例子或许能够表明,语境的主观面相的确在智能体对于语境信息的处理过长中扮演了重要角色。⑥假设张三晚上有事情需要处理,计划干个通宵。但他在下午遇到了李四,并受到后者的邀请去喝下午茶。李四问张三:“你要茶还是咖啡?”张三则随口回答:“咖啡这玩意能够让我脑子兴奋”。很显然,张三的意思是想喝咖啡,因为他需要兴奋的大脑来完成晚上的工作。而李四则完全可能将这话解读为相反的意思——比如,张三不需要喝咖啡——因为他根据常识推断,晚上人们一般是需要睡觉的,而大脑太兴奋显然对睡眠无益。在这里,两个人不同的预设显然导致了对于相同语句的两种完全不同的解释,而这两种不同的解释显然又具有完全不同的语义内容。不难看出,预设也好,解释也好,都是发生在认知主体头脑里的主观性事件,而无法通过卡普拉和刘易斯的方法来加以客观化的把握。也就是说,卡普兰和刘易斯的带有浓郁外在主义气息的刻画思路,恐怕是无法对应我们在日常生活中所遭遇到的种种“语境”所具有的丰富性的。

   二、作为常识整编方案的语境建模方式

   在美国人工智能界的元老级人物麦卡锡(John McCarthy)看来,语境建模工作若要照顾到人们在日常生活中所遭遇到的种种“语境”,就必须对相关的常识进行记录和整编,然后再输入计算机,以便让计算机也能够像人那样在不同的语境中持有不同的信念。不过,这个想法虽然在直观上很容易被理解,但细究下来也还是有问题的:任何落实为可执行程序的常识整编方案,都可能会在异常丰富的常识内容面前显示出自身的贫乏性,而在这样的情况下,整编者们会不会便难免最终陷入“以有涯追无涯”的窘境。面对这个问题,编程者又将何去何从?

   对于此问,麦卡锡的解答便是:我们只需要对常识进行近似化的概括就够了,而不必抱着那种“常识表征必须无限接近于常识自身”的偏执想法。下面就是一个相关的实例。

   我们都知道,大多数东西是不会飞的,除非它在某个方面有点反常(比如长着翅膀)。若我们用“ ”表示全称量词(即“所有”或“每一个”),用“ ”表示否定,用“ab”表示“反常”,用“aspect1”表示“方面1”(譬如“是否有翼”这个方面),用“flies”表示“飞翔”(第三人称单数),表示那么这一条常识就可以被刻画如下⑦(相关的例子来自McCarthy 1986):

   1. . ab aspect1x→ flies x

   读者或许会问:本文所关心的语境刻画问题,究竟如何在这样的一个公式中得到了体现?实际上语境因素已经在上面的刻画中得到了隐含的预设。此预设即:除了“方面1”之外,事物的所有的其他方面都不在系统的兴趣范围之内。换言之,使得上式得以成立的语境也就是“当下问题求解任务仅与‘方面1’相关的语境”。这当然是一个非常一般化的语境,并完全可能随着推理系统之兴趣的改变而得到具体化。不过,依据麦卡锡的系统设计原则,只要没有新的知识输入来改变系统的聚焦点,现有一般语境的“惯性作用”就会阻止系统“不由自主地”去考虑别的因素。这个工作原则也可以被表达为“将反常性加以最小化”(minimizing abnormality)——也就是说,系统必须在最大程度上假设日常对象的正常程度——除非有额外的证据表明其在某个方面的反常。这整个刻画方案,也在人工智能文献中被称为“制限方法”(circumscription method)。

   但需要注意的是,制限方法虽然暂时回避了对于语境因素的明述表征,但在“跨语境推理”中,这种回避却往往是不可行的(这里所说的“跨语境推理”可以为理解为“从语境甲的断言中推出语境乙的另一个断言的活动”)——因为跨语境推理往往需要至少一方语境的某些因素被明述,以便为推理自身的有效性提供根据。麦卡锡及其弟子们的相关解决方案则是“将语境自身加以对象化”。这里需要注意的是,和基于可能世界语义学的卡普兰-刘易斯方案不同,在他们的方案中,语境本身不是被作为外在于认知主体的外部状态而被处理的。毋宁说,它们是认知主体内部认知状态的一种要素配置场域(只不过这些场域需要在技术上被一一加以编号和分层)。具体而言,为了夯实这个“将语境对象化”的基本想法,麦卡锡(以及其弟子古哈[Ramanathan V. Guha])引入了下述表达方式⑧(McCarthy 1993):

   c′:ist(c,p)

   其直观含义是:命题p在语境c中是真的——而这一点本身则需要在一个比语境c更为宽泛的语境(c′)中得到了断言(再提醒一次:无论是语境c还是语境c′,都处在主体的知识范围之内,而非对于世界自身的划界的结果)。下面乃是一个更为具体的实例:

   c0:ist(context-of(“Sherlock Holmcs stories”),“Holmes is a detective”)

   (读作:“福尔摩斯是一位侦探”这一点在“夏洛克•福尔摩斯的传奇故事”这个语境中是真的,而这整个断言又在“c0”这个外部语境中为真。)

   不难设想,若换一个语境(如历史研究的语境),“福尔摩斯是一位侦探”这一点就不会成真了。换言之,只有在和一个特定的语境相互捆绑时,一个断言才能够具有真值,而同一个断言会在和不同的特定语境相互捆绑时,亦会获取不同的真值。

   有了上述基本刻画之后,麦卡锡和古哈便开始着手处理跨语境推理的问题。在引入相关的具体形式刻画之前,我们不妨先来看看他们关于这个问题的直观性描述是怎样的。

   麦卡锡和古哈将语境之间的最重要关系界定为“提升关系”(lifting relations)。其相关解说如下:

   若陈述“Φ”和“Φ β”各自所依赖的语境都不同,程序本身是无法将它们简单地连接在一起以便得到推论“β”的。在将两个具有不同语境依赖关系的陈述捆绑在一起之前,程序需要对二者的语境依赖关系作出调合。这种相对化的“祛语境操作”(decontextualization),需要我们运用一系列被称作为“提升公式”(lifting formulae)的公理。⑨

   上述引文对于“提升关系”的描述,或许会让人联想其刘易斯在处理跨语境推理时对于“可迁移性”特征的强调(请参看上章介绍)。二者之间的类似处当然是不容忽视的,因为麦卡锡和古哈也好,刘易斯也好,都希望两个不同的判断所各自具有的不同的语境依赖关系,可以在一个形式系统中被加以统一。但和刘易斯不同的是,麦卡锡和古哈并不认为要实现这个目标的关键,乃在于对语境中少数被特别遴选出来的外部因素(如时间、空间、可能世界)的提取,而在于对于大量具体的“提升公式”的刻画。说得更具体一点,这些提升公式来源于程序员对于人类常识见解的抽象,并且其表征也会牵涉到被提升的命题的具体语义内容。以下就是关于“提升公式”的两个实例⑩:

   

   (读作:对于任何两个语境来说,只要其中一者包含于另一者,且任一事件在较小的语境中成立,且在“方面1”这两个语境和该事件都不是反常的,那么该事件也在较大的语境中成立。)

   示例:设“诺曼底战役”这个语境是“第二次世界大战”这个语境的一部分,而“战士需要佩戴钢盔”这一点则在“诺曼底战役”这个语境中为真。在此战役中战士之所以要佩戴钢盔,乃是因为其头部随时都有被敌弹击中的风险。如果“对于战士的头部的威胁”这个方面并非反常(即这个威胁没有被解除)的话,那么即使在“第二次世界大战”这个更大的语境中,战士依然需要佩戴钢盔。

   

   (读作:对于任何两个语境来说,只要其中一者包含于另一者,且任一事件在较大的语境中成立,且在“方面2”这两个语境和该事件都不是反常的,那么该事件也在较小的语境中成立。)

   示例:设“诺曼底战役”这个语境是“第二次世界大战”这个语境的一部分,而“战士需要和家人别离”这一点则在“第二次世界大战”这个语境中为真。而之所以战士需要在战争中和家人别离,乃是因为一般而言,一个家庭的所有成员不会都参军。如果“一个家庭的所有成员不会都参军”这个方面并非反常的话(即任何一个家庭的确只有一部分成员在部队里),那么即使在“诺曼底战役”这个更小的语境中,战士依然需要和家人别离。

   从哲学角度看,这两个公式有三点值得注意:

   第一,前文所提到的“制限方法”,显然在这两个公式中得到了保留。我们已经知道,该方法的核心哲学预设就是假定世界自身的“惯性”,也就是在反常条件未发生的情形下诸自然规律和社会规律的持续有效性。秉承着这一典型的麦卡锡式思路,古哈在“提升公式一”中也设定了较小语境的“惯性”也能在较大语境中持存,并在“提升公式二”中设定较大语境的“惯性”也能在较小语境中持存。换言之,诸语境之间共享的“惯性重叠区”,也就成为一个事件得以完成“跨语境漫游”的“绿色通道”。但需要留心的是,要寻找不同语境之间的“惯性重叠区”,就首先要对打破惯性的反常特性进行提取,并由此将“惯性”定义为对于这种反常特性的否定——这就牵涉到了如何提取这种反常特性的问题。在讨论“制限方法”时敏锐的读者或许已经发现,对于反常特性的信息提取会牵涉到作为人类的程序员对于相关语境的判断,而未必体现了程序自身的智能——而这个问题现在也已经被古哈的语境建模方式所继承。

   第二,从知识辩护(epistemic justification)的角度看,在这两个公式中,对于原语境(在“提升公式一”中,这指的是 ,在“提升公式二”中,这指的是 )的反常特性的否定,就意味着我们已经将被提升判断在原语境中得以成立的理由加以了明述——而这些理由本来只是隐含于原语境之中的。换言之,这些隐含条件一旦被剥离出来成为独立条件,对于它们的满足就能够保证我们能够合理地将相关判断移植入新语境之中(也就是说,对于这些条件的满足构成了对于这种移植之合法性的辩护)。

   第三,正如前文所提到的,要运用这两个公式,系统就必须预先知道相关语境彼此之间的包含关系。很显然,这样的宏观信息并不总是可被获取的,而这又反过来为上述两个公式的运用构成了限制。

   上述几点哲学分析,或许已足以向我们展现麦卡锡等人的语境刻画方案的先天缺陷。概而言之,此方案对于大量提升公式的依赖,实际上已经包含了对大量常识见解进行公理化的意图,但——很显然,这个做法同样会使得系统在面对崭新的问题求解语境时变得手足无措。但从哲学角度看,这种方法论只能够面对过去,而无法面向未来——因为既然有的常识见解往往并不包含关于“应当如何应付一个新问题求解语境”的有效指导。在这里我们无疑看到了按照麦卡锡和古哈的精神设计出来的人工系统和真实人类之间的重大区别:对于前者来说,当其因为某种需要而试图将某条知识从语境甲“提升”到语境乙中之时,它必须先得在自己的公理库中找到一条对应的“提升公式”才能够完成这步推理。一旦它找不到这类公式,其跨语境推理活动就会陷入瘫痪;而对于我们人类来说,即使我们在既有的经验中没有找到完全符合当下问题需求的跨语境推理的先例,我们也可以使用一些更为灵活的方法来进行跨语境推理,比如:罗列我们面对的新语境和我们熟悉的旧语境之间的类似点和不类似点,并在此基础上,构造出一些和我们熟悉的跨语境推理路径类似的新推理路径,等等。但正如我们所看到的那样,麦卡锡和古哈的工作方法论是无法容忍这种灵活性的。

   从更深的层次上看,他们的工作方案之所以无法容忍这种灵活性,又是得缘于如下两点:

   首先,麦卡锡和古哈对于弗雷格以降的数理逻辑传统的高度忠诚,使得他们不假思索地在自己的语境建模工作中采纳了“公理化方法”,即将大量的提升公式作为公理预存在系统的知识库之中。但众所周知的是,作为演绎系统之初始命题的“公理”所构成的集合,一经确定后便不可能在系统的运行历史中被修改,因此,任何一个采用公理化方法构建出来的跨语境推理系统,都无法在根本上规避这样一个难题:如何面对程序员未曾料想到的新问题?从这个意义上说,麦卡锡和古哈的工作方案的技术缺陷,其实是有着非常深刻的理论根源的。

   其次,麦卡锡对于常识见解的表征和整编工作,虽然已经触及了卡普兰-刘易斯方案所不重视的语境的主观面相,却依然并不太重视对于心理词汇的表征,更不重视对于心理活动过程的再现。这当然也使得他们的常识表征工作陷入了某种“弃本逐末”的窘境:他们只关心心智活动所产生的结果——即关于跨语境推理的法则式概括——却不关心心智机器是如何产生这样的结果的。这就使得他们所设计出来的系统,难以像真正的人类心智那样,在面对新问题时展现出足够的灵活性。(11)

   三、酶性计算模型对于语境敏感性的展示

   上面的讨论似乎在暗示我们,语境建模工作应当离数理逻辑更远一点,靠人类主体的心理实在更近一点,以便从人类心智的真实语境处理机制中找到启发。不过,这个方法论原则虽貌似有理,却已然预设了我们已经知道了人类的心智的信息处理活动是如何具有语境灵活性的——但不幸的是,在这个问题上,认知心理学家所能够提供的,至多也只是这样或那样的猜测而已。

   那么,我们能不能以一种退而求其次的姿态来追问:在这样的一些心理学猜测之中,究竟哪些或许会对人工智能中的语境建模工作具有更大的参考价值呢?

   在这里比较值得一提的假设性模型乃是巴瑞特(Clark Barrett)提出的“关于心智模块的酶性计算模型”(12)。顾名思义,这个心智模型的提出,肯定是受到了化学家所提到的“酶促反应”的启发。有初等化学知识的人都知道,要让不同的底物彼此之间发生更为高效的化学反应,就必须要有不同的酶分子分别参与其中,这就体现了所谓的“一把钥匙配一把锁”(a lock matching a key)原理。这也就是说,对于不同的酶促化学反应过程来说,底物和酶分子之间的具体匹配关系其实是“多姿多彩”的:不同的酶分子需要不同的底物作为其输入,而且不同的酶分子对于底物的加工程序也是彼此不同的。巴瑞特便沿用这种观点来看待人类认知架构中的诸模块处理信息的过程。请设想这样一个例子。一只狮子正在朝一个智能体走来,此时,其认知架构下属的各个模块开始运作,识别并标记这个狮子在各个方面的特征,如大小、颜色、尺寸、距离、速度,等等。这些表征被知觉系统捆绑为一个单一的对象表征,成为“狮子识别机制”的一个“底物”。而一个叫“LION”(狮子)的标签(tag)则成为该机制的另外一个“底物”。在该机制的“催化作用下”,这个标签和这个对象表征被处理为某种“化合物”,作为输出被递送出该机制,并由此进入了一块被所有模块“看到”的“展示板”(bulletin)。这样一来,这样的输出就会成为别的模块的潜在输入或者底物,有待别的模块来检验其与自身之间的匹配度。请参看图1的直观性展示:

   

   图1 认知模块的酶性反应机制示例图

   现在再假设“LION”这个标签和一个叫“捕猎者查找表”的新模块机制发生了关系——这个机制根据这个标签的形式特征,就像查对数表一样,找到这个输入可能具有的进一步的语义标签,并将该标签附加到原来的表征上去(这个过程也可以被视为另一个酶催化过程)。现在,假设这个被新加上去的标签乃是“PREDATOR”(捕猎者),这样一来,原来的表征现在就具有了两个标签:“LION”和“PREDATOR”。这个更为复杂的表征则重新进入“展示板”,以便和其他的模块发生进一步的“化学反应”。若其中的某些模块连接着“欲望”以及“行动”机制,我们就可以期待有机体会因为识别出了某些标签而给出某种行动(譬如,在意识到狮子是捕猎者的情况下,立即转身逃命)。

   以上说的这些,和本文所关心的语境建模问题之间的联系点又在何处?回答此问的关键乃在于上文所提到的“展示板”——在化学酶的催化作用的语境中,这指的就是大量的底物和大量的酶进行匹配尝试的“公共场所”;而在这里,它指的则是大量的语义标签和大量的认知模块进行匹配尝试的“公共场所”。由于在上一轮的标签匹配游戏中得到标注的标签,可以重新进入这个展示板成为下一轮游戏的潜在输入,因此,模块之间的信息交流也便得以完成。同样不难设想的是,由于在这一公共展示板中,没有任何一种高端的“顶层设计”可以预报哪些模块必须和哪些标签发生关系,因此,具体哪些“标签”被生产出来,则取决于很多当下的偶然性因素。这一点也就最终体现了所谓的“语境灵活性”。

   不过,巴瑞特模型对于自然认知系统的“语境灵活性”的这种处理方式是否令人满意呢?笔者的意见是比较消极的。相关理由如下:

   第一,依据卡鲁瑟斯(13))的大规模模块性假设,模块乃是一种由演化压力而演变出来的先天结构,不是有机体通过在个体层面上的后天学习而获取的。由此不难推出,模块所为之服务的可能的标签的数量,应当是一个固定的值,因为没有一种先天的机制能够处理在种类上具有无限丰富性的各种输入(这就好比说,你无法设想在物理世界中存在着一台输入键数量为无穷大的键盘)。但我们又都知道,人类的概念标签具有极大的可拓展性(请大家想想英语的词汇总量),而且,很多智力正常的成年人都可以在后天习得大量的新词汇。这就构成了一对矛盾:功能有限的先天模块组合,是怎么可能应对这些数量不断扩大,且种类也层出不穷的新语义标签的呢?

   第二,在巴瑞特的模型中,我们没有看到关于诸多模块之间层级结构的清晰描述,因此,我们也就不是很清楚他们所处理的不同语义标签之间的概念层次结构是如何产生的(顺便说一句,这样的概念层次结构是必须存在的,否则智能体将很难从关于某个表征的知识中得到一些有用的推论)。而他用以解决这个问题的唯一希望,似乎就放在不同模块对于不同标签的识别能力之上——比如,一些负责更为复杂的语义表征识别任务的模块,在识别机制上会安置更多的机关,以便保证自己不会首先处理那些过于简单的语义标签。但笔者非常怀疑这个架构的可行性。从某种角度看,这个架构实际上是把语言的句法结构转化为了各种模块的识别机制的构造,就像一个政府将自己的法律转化了大量的执法人员自身的行为倾向一样。然而,如果缺乏某种高端的“顶层设计”的指导,对于这种低层次上的语义标签识别机制的设计会变得非常繁琐和困难——而且,我们也很难相信带有很大盲目性和随机性的自然选择过程能够在这个问题上具有比人类设计员更为深邃的眼光。简言之,人类语言的丰富的句法特征是如何通过关于心智模块的酶性计算模型而得到说明的,我们似乎还是一头雾水。

   四、总结与展望

   本文目前所完成的讨论,无疑带有比较明显的悲观色彩。笔者已经指出,外在主义的语境建模思路过于忽略主体内部的信息加工过程,而整编常识的语境建模思路则亦带有“知其然却不知其所以然”之弊。巴瑞特的模型虽对信息加工机制与环境输入之间的互动关系有所关注,却又对高层语义推理活动中的语境敏感性缺乏关照(而他的这个模型的缺点却又是麦卡锡和古哈的模型优点之所在)。我们到底又该如何扬长避短,博采众长呢?

   在笔者看来,要做到这一点,不仅要做到认识到各个方案之短、长之所在,而且还要认识到它们为何会有这些短、长。就拿麦卡锡和古哈的方案来说,其长处(即能够轻松应对各个领域内的人类常识)之存在,乃是因为该方案采纳了和日常语言类似的表征方式来整编常识,而其短处(即难以后天调整对于常识的既定整编方案),则又是因为该方案所采纳的逻辑语言依然带有传统数理逻辑语言所难以摆脱的“公理化特征”——或说得更清楚一点,迄今为止所有公理化的形式推理系统,都不允许后天的经验变化对先天输入系统的公理集的有效性产生任何影响。再反观巴瑞特的模型:其长处(即能够比较好地体现出信息处理机制和外部输入信息之间交互关系的随机性)之存在,乃是因为该模型实际上是一个向外部输入开放的非公理系统,因此,它也就比较容易在输入变化时体现出自身行为的可修正性;而其短处(即难以追踪高级语义表征)的存在,则是因为其对于“语义酶性组块”的界定,既受制于生物演化论的视角而无法消化得缘于文化演进而出现的新语义加工机制,又由于其和惯常吾辈所知的推理规则迥异的信息加工机制,而对高层语义的加工处理无能为力。从上面的分析看,我们所需要的一个新的语境建模方案就得兼备这两方面的特点:首先,它必须具备非公理化的开放架构特征以便灵活地应对来自环境的新信息;其次,它又必须具备我们传统上赋予“逻辑”的一些关键特征以便更便利地刻画日常推理。

   依据笔者现有的知识,华裔美国计算机科学家王培先生发明的“非公理化推理系统”(英文简称为“NARS”,音译为“纳思系统”(14),便是目前计算机学界所能够提供的最为接近上述规范性要求的一个新技术平台。大体而言,纳思系统乃是一个具有通用用途的计算机推理系统,而且在如下意义上和传统的推理系统有所分别:纳思系统能够对其过去的经验加以学习,并能够在资源约束的条件下对给定的问题进行实时解答。同时,该系统能够以一种图灵机可计算的方式表征出日常语言的主-谓结构,并在此基础上支持对于谓述内容之概念层次结构的表征——而这样的概念层次结构反过来也会因为整个系统的经验学习能力而具备自主更新的功能。笔者已经在别的地方(15)(如Xu & Wang 2012;徐2012;徐2013)讨论了如何在纳思系统的技术平台上处理人工智能研究中的一些经典难题——如“框架问题”——因此,笔者也有信心能够在相同的技术平台上重现出智能体的信息加工过程对于语境的敏感性。不过,由于此项工作自身的技术性和复杂性,它显然已经超越了这篇小文的篇幅所能够容纳的限度了。

   收稿日期:2014-12-07

   注释:

   ①请参看《斯坦福哲学百科全书》的“知识论中的语境主义”词条对于这个问题所给出的一般性介绍。Patrick Rysiew,"Epistemic Contextualism", The Stanford Encyclopedia of Philosophy(Winter 2011 Edition), Edward N. Zalta(ed.), 2011, URL=〈http://plato.stanford.edu/archives/win2011/entries/contextualismepistemology/〉.

   ②Y. Bar-Hillel,"Indexical Expression", Mind, 1954(63): pp. 359-379.

   ③D. Kaplan,"On the Logic of Demonstratives", Journal of Philosophical Logic, 1978(8): pp. 81-98.

   ④D. Lewis, (1980)."Index, Context, and Content", in Philosophy and Grammar(edited by S. Kranger and S. Ohman, Reidel Publishing Company, 1980), pp. 79-100.

   ⑤同上文,pp. 85-86。

   ⑥这个例子来自于法国认知科学家思泊伯(Dan Sperber)和英国女认知科学家(兼语言学家)威尔森(Deirdre Wilson)的合著《相关性:交流和认知》:Dan Sperber & Deirdre Wilson, Relevance, Communication and Cognition(Second Edition), Blackwell Publishing, 1995.

   ⑦McCarthy John,"Applications of Circumscription to Formalizing Common Sense Knowledge", http://wwwformal.stanford.edu/jmc/, 1986.

   ⑧John McCarthy,"Notes on Formalizing Contexts", in Proceedings of IJCAI-93, Chambéry, France, 1993, pp. 555-560.

   ⑨Guha, R. & McCarthy, John,"Varieties of Contexts", in Modeling and Using Contexts(edited by Patrick Blackburn et al, Springer-Verlage, Berlin, 2003), p. 166.

   ⑩转引Varol Akman & Mehmet Surav,"Steps toward Formalizing Context", AI Magazine, 1996(17/3): p. 62.

   (11)这里所提出的这些批评意见,也基本适用于意大利的人工智能专家癸翁奇利亚(Fausto Giunchiglia)开发的“多重语境系统”(MultiContext System)。请参看下列文献:C. Ghidini & F. Giunchiglia, (2001)."Local Models Semantics, or Contextual Reasoning=Locality+Compatibility", Artificial Intelligence, 2001, 127(2): pp. 221-259; Fausto Giunchiglia & Paolo Bouquet(1997)."Introduction to Contextual Reasoning: an Artificial Intelligence Perspective", in Perspectives on Cognitivve Science(edited by B. Kokinov, New Bulgarian University, 1997) pp. 138-159; Fausto Giunchiglia & Paolo Bouque,"A Context-Based Framework for Mental Representation", in Proceedings of the The Twentieth Annual Meeting of the Cognitive Science Society, 1998, pp. 392-397。由于篇幅的限制,本文省略了对于他们的工作的评述。

   (12)C. Barrett,"Enzymatic computation and cognitive modularity", Mindand Language, 2005, (20): pp. 259-87.

   (13)Peter Carruthers, The Architecture of the Mind. Oxford: Oxford University Press, 2006.

   (14)Pei Wang, Rigid Flexibility: The Logic of Intelligence. Dordreeht: Springer, 2006.

   (15)请参看:Yingjin Xu & Pei Wang,"The frame problem, the relevance problem, and a package solution to both", Synthese, 2012, 187(1S): pp. 43-72;徐英瑾:《一个维特根斯坦主义者眼中的框架问题》,《逻辑学研究》2011年第2期,页93-137;徐英瑾:《心智、语言和机器——维特根斯坦哲学和人工智能科学的对话》,北京:人民出版社,2013。^NU1



    进入专题: 语境建模   人工智能   外在主义  

本文责编:gouwanying
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 哲学 > 科学哲学
本文链接:https://www.aisixiang.com/data/98079.html
文章来源:本文转自《上海交通大学学报:哲学社会科学版》2015年2期第17~26,34页,转载请注明原始出处,并遵守该处的版权规定。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2024 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统