吴小安:辛普森悖论——逻辑径路和因果径路之争

选择字号:   本文共阅读 244 次 更新时间:2021-10-28 15:15:45

进入专题: 后门准则   可交换性   可坍塌性   因果性   辛普森悖论  

吴小安 (进入专栏)  

   •  辛普森悖论的重构:

  

(1)女性和男性群体互不相容完全穷尽总体。一个人不能同时申请两个系的职位且满足辛普森悖论的两个条件。

  

   (2)在历史系中,(从数据中可看到)女性的接受率要高于男性

  

   (3)在地理系中,(从数据中可看到)女性的接受率要高于男性

  

   (4)如果(2)和(3)为真,那么女性总体的接受率就要高于男性。(根据可坍塌原则版本 1)

  

   (5)所以女性总体的接受率就要高于男性。(根据(2),(3),和(4) )

  

   (6)然而,(从数据上可看到)在总体上, 女性的录取率低于男性

  

   (7)女性总体的接受率既高于男性又低于男性(根据(5)和(6) )

  

   在整个推导过程中,(4)扮演着关键的角色。但是根据我们的推导可知可坍塌原则版本 1 并不正确。 所以在班德亚帕德耶看来,之所以会产生辛普森悖论是因为人们对于 CP 的错误认知,想当然的认为它是对的,并以此为基础做出的推论,但是数据所给出的结果却和自己以为的结果不同,才导致了辛普森悖论的产生。

  

  

  

班德亚帕德耶上述重构的目的是要证明辛普森悖论何以为悖论,但是根据我们在上面已经给出的关于悖论的定,“是从真前提出发且明显合理地推导出来的,却导致了自我矛盾或者逻辑上不可以接受的结论”,如果辛普森悖论的得出是因为我们未经反思地使用了错误的可坍塌原则,那么根据这个定义,班德亚帕德耶所证明的并不是辛普森悖论何以为悖论,恰恰相反,他证明了辛普森悖论不是悖论。如果一个悖论的产生只是因为你个人的数学能力太差所致,所以悖论也就不为悖论了。

  

   1.1.2   珀尔

   珀尔认为悖论的产生是确定性原则 [10] 所推出的结果和数据所显示的结果不一致所致。

   定理 2 (确定性原则 (STP)). 在每一个子总体中,如果行为 C 提高了事件 E 的概率,那么行为 C 也必 然在总体中提高事件  E 的概率,假如这个行为并不改变子总体的分布。

   •   我们试着按照班德亚帕德耶的方法,把珀尔的论证重构如下:

  

   (1)药物对女性有效

  

   (2)药物对男性有效

  

   (3)如果(1)和(2)为真,那么药物对于人类总体有效。(根据确定性原则)

  

   (4)然而,(从数据上可看到)在总体上,药物对总体无效。

  

   (5)药物即对人有效,又对人无效(根据(3)和(4) )

  

  

•   莱纳德·萨维奇 (Leonard J. Savage)([12], p. 21)首先引⼊确定性原则,他认为“我没有看到其他超逻辑的原则在决策方面这样地广为接受”。珀尔在书中 中把确定性原则当做定理来使用,并且认为“这个原则地独特性在于它获得了强烈而广泛的认可,尽管它并不是奠基在逻辑或者概率之上。”([13], p.181 )“任何一个声称表征人类思维的逻辑系统必然蕴涵着确定性原则作为一条定理。”([14], p.10)

  

   • 班德亚帕德耶认为我们因为相信了一个错误的原则导致了辛普森悖论,而珀尔认为我们因为一个正确的原则才导致了辛普森悖论!至少从给出的悖论定义的角度来看,珀尔成功地证明了辛普森悖论何以为悖论。

  

   1.2 在何种情形之下,这种悖论会出现?

  

   1.2.1 班德亚帕德耶

  

   班德亚帕德耶形式化的给出了辛普森悖论产生的充分必要条件。所用的方法就是从原先的例子出发,形式化数据的结构出来,以此作为辛普森悖论何以产生的定理。

  

   因为形式化例子涉及到太多的符号,使用文字来表述让人不胜其乱,所以我们用下面的图来表示我们的那个故事,以使得问题重点更加明确,而不是把耐心消磨在这些不重要的细节上:

  

  

  

  

   其中 意思是:定义为。有了上面的符号准备,班德亚帕德耶给出了一个辛普森悖论产生的定理,并也在数学上证明了这个定理的正确性。

  

   定理 3 (辛普森悖论).  一个情形是辛普森悖论当且仅当

  

  

  

   班德亚帕德耶认为只要数据满足一定的结构特征,悖论就会产生,不需要因果的考量。即没有因果的直觉,纯粹就是演绎的推理,你也能得出这样的结论。对于这个定理本身我没有任何意见,但是问题在于,首先这个定理,从珀尔的理论来看,应该只说明了辛普森反转是如何产生的。它阐述了这个反转产生的数学特征,并没有说明辛普森悖论是如何产生的。其次这个定理本身应用也过于狭窄,并不具有普遍性,比如这个数学定理应该如何处理两个以上院系反转的情形呢?比如下面这个情况,是辛普森悖论毋庸置疑,但是上面的定理却并不适用于这个例子。

  

表 1: 六个院系的数据

  

  

  

表 2:  总的数据

  

  

1.2.2  珀尔

   珀尔判定在某种情形之下辛普森悖论是否会产生的方法是:用因果图来模拟数据产生的过程,一个给定场景的科学的内容就被编码在一个有向无环图(贝叶斯网)中了。然后再根据图模型的理论,我们就可以判定,在所模拟的场景中,辛普森反转是可能的还是逻辑上不可能的。这里涉及到图模型的理论,技术的细节我并不打算在这里讨论,但是我们可以通过几个例子感受一下这个理论的应用。

  

  

  

  

  

根据图模型的理论,图 (1) 的两个情境中,辛普森反转是有可能发生的,但是图 (2) 的两个情境,辛普森反转则在逻辑上是完全不可能的。通过因果图的语言来模拟相关的情境,在通过图模型理论来判定辛普森反转产生的相关可能性,这是珀尔解决第二个问题的思路。

  

   1.3 当遇到辛普森悖论,当如何处理?

   1.3.1 班德亚帕德耶

   班德亚帕德耶没有提出任何建设性的方法来解决辛普森悖论的问题,但是他有举下面会提及到的相同数据不同解答的两个例子,似乎他想强调的是问题的复杂使得我们无由从表面的数据中得到任何的答案,为了解决问题,他认同珀尔的做法 “我们需要使用实质的背景知识, 这些背景知识本质上都是因果知识,来回答 ‘如何处理’的问题,正如做某事就是意味着‘使得’某事发生。”([3],p.68)

  

   1.3.2 珀尔

   当面对辛普森悖论的时候,我们最迫切需要得到的解答就是:正确的信息是在分离的数据中,还是在聚合的数据中?当面对一个对男性和女性都有效的药物但是对人类总体却没有效的药物的时候,一个病人应该是服用这个药物还是不服用这个药物呢?珀尔的 do-演算和后门准则已经为这样的问题提供了确切地答案。我们这里并不打算详细地阐述了do-演算,那需要一些技术的准备,我们只阐述由do-演算所得出可以用于解决辛普森悖论的后门准则背后的直觉。

  

每一个因果图都是有向无环图,我们考虑变元 X 对于变元 Y 的因果效应。关联 X 和 Y 的路径有两种,一种是直接的因果路径,即从 X 出发沿着箭头的方向最终指向 Y 的路径,还有一种是 “假路径”,需要条件化特定的协方差集合来阻塞后门路径。所谓后门路径是连接 X 和 Y 且箭头最终指向 X 的路径,所有后门路径都是假路径。(点击此处阅读下一页)

进入 吴小安 的专栏     进入专题: 后门准则   可交换性   可坍塌性   因果性   辛普森悖论  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 哲学 > 逻辑学
本文链接:http://www.aisixiang.com/data/129307.html

1 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2022 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统