孟天广:政治科学视角下的大数据方法与因果推论

选择字号:   本文共阅读 260 次 更新时间:2019-07-05 23:54:33

进入专题: 大数据     研究方法     因果推论  

孟天广  

   内容提要:伴随着科技进步和治理实践的不断演进,日新月异的组织制度环境、学科间融合和新兴方法的广泛应用,持续驱动着政治科学理论和方法创新。大数据既是新兴研究方法,为政治学研究提供丰富数据源,更是政治学研究新议题,日益为政治学的知识生产提供新动力。针对政治科学对因果性知识的严格要求,大数据方法被认为重视相关性分析而非因果性研究。近年来,伴随着大数据方法在方法论层面日趋成熟、方法技术日益丰富、研究议题逐步拓展,且与传统社会科学方法逐步融合,大数据方法推进因果推论的能力逐步完善,革新着数据采集、概念测量、相关性分析、因果性与预测性分析等因果推论的各环节,形成了大数据与统计方法、大数据与小数据分析、大数据与实验研究、大数据模拟方法等多种生产和检验因果性知识的方法路径。

   关 键 词:大数据  研究方法  因果推论  小数据  实验研究

  

   一、引言

  

   21世纪以来,人类社会进入科技突破和治理演进的新时代,世界各国在技术革新的驱动下纷纷开展了一系列制度改革,推动着国家和全球治理的发展。这对政治科学及时应用创新方法探讨新议题提出了迫切要求。国内外政治学家认为,政治学发展的前沿正在经历探究政治现象背后之因果关系的变革①,而这一变革的推进源于过去半个世纪以来政治科学理论与方法的长期积累,更源于人类社会对政治学知识生产之内容、质量和价值的重新定义②。简言之,政治学迫切需要生产兼具规范性和经验性、描述性(相关性)与因果性、解释性与预测性的政治学理论和知识,构建知识体系③,为人类社会的治理进步提供更为坚实、可行和有效的知识贡献。政治学(乃至整个社会科学)的发展始终与科技进步紧密联系,科技进步为政治学研究创造着新议程,提供了新方法,更直接介入政治过程,推动着国家或社会治理的理论与实践发展。作为互联网、ICT技术和机器学习技术革新的重要成果,大数据无论是作为新兴研究方法,还是作为新议题,都对政治科学的理论和方法更新产生了重大影响,为大数据时代政治学知识的生产和积累提供了创新途径④,《政治分析》还专门刊出“政治科学中的大数据方法”网络专刊⑤。

   尽管对政治科学研究的使命有着不同理解,金(King,G.)等学者在经典著作《社会科学中的研究设计》中尝试着对“科学研究”提出四项基本要求:其一,以(描述性和因果性)推论为研究目的;其二,采用公开的研究程序;其三,结论是不确定性的;其四,科学研究的要核是关于方法的⑥。此后,大量政治科学家围绕政治科学的知识贡献、研究议题和方法展开了激烈辩论,但几乎所有学者均认为政治科学研究的目标应该是探索有关政治现象的描述性或因果性知识⑦,为人类社会提供政治现象“是什么?为什么?怎么样?”的系统性知识。其中,“因果性(Causality)”更被视为社会科学研究的“圣杯”⑧。探究因果关系并非仅为了满足人们理解社会现象的好奇心,更重要的是通过科学研究促进知识积累,为改善或干预人类社会提供知识库。政治科学对因果性知识的追求使得研究者对政治现象(制度、组织、行为等)开展定性、定量或实验式的“科学化”研究,探求政治现象背后的特定概念、变量或因素间的因果关系,尤为重视中观和微观层面的因果关联及相应的因果机制。

   作为新兴研究方法,大数据方法传统上被认为是数据驱动的知识发现过程⑨。大数据方法是用一系列算法从海量非结构化数据中发现反映社会现象的特定模式、特定关系或特定趋势,其目标是运用机器学习把非结构化的、高维的、海量的数据,转化为结构化的、可被理解的社会知识,因此被视为探索性(相关性)分析而非因果性分析方法。譬如吉姆·加里(Jim Gray)强调大数据方法利用相关关系即可建立预测模型,满足政府、企业等知识消费者预测社会行为的知识需求,精准指导社会或经济干预⑩。因此,有学者认为大数据方法是“数据驱动”而非“理论驱动”,大数据方法在描述性(相关性)研究中具有优势,有助于对社会现象“是什么”做出更为全面、精准、实时的呈现,但在因果性(解释性)研究中却表现乏力(11)。然而,伴随着大数据方法在方法论层面日益成熟(12),方法技术层面日益多元化,大数据方法与传统社会科学研究方法的深度融合,大数据方法推进因果推论的方法功能逐步完善(13),在因果推论的数据采集、数据管理、概念(变量)测量、探索性(相关性)分析、因果性和预测性分析等各个环节均呈现出创新性,形成了大数据与统计方法相结合、大数据与小数据相结合、大数据与实验研究相结合、大数据模拟研究等多种生产和检验因果性理论或知识的方法路径。

  

   二、因果推论框架下大数据方法的方法论功能

  

   人类探求因果关系的努力自古有之,东西方哲学家老子、苏格拉底等都曾提出探究原因与结果之联系的命题。进入近代社会,科学研究从神学和哲学体系中独立出来,因果性成为科学知识的终极目标。尽管学者们在不同意义上使用因果、原因、结果等概念,但科学研究普遍相信“凡事必有因”,而因果性(Causality)即是(社会)规律,掌握因果关系就可以预测未来。学术界关于因果关系已经形成多元化理解,布雷迪(Henrry Brody)总结了政治科学构建因果关系的四种逻辑传统:1.依据充分条件来定义因果关系的休谟传统;2.反事实逻辑;3.实验(科学)逻辑;4.因果机制逻辑(14)。对因果关系的上述理解为政治科学研究创造了巨大空间,为采取多元化路径对政治现象的竞争性解释(理论猜想)的检验提供了方法论依据。

   因果性的识别与判定(因果推论)是一项系统工程,要求研究者利用规范程序采集经验资料、定义和测量抽象概念(变量)、探索原因与结果的关联模式、识别因果关系的效应(方向)与机制(过程)。在因果推论视角下,大数据方法具有这些方法论功能:第一,数据采集。帮助研究者获取既有方法无法采集或处理的海量数据,为政治科学研究提供新素材和新问题。第二,数据管理和挖掘。帮助研究者有效地管理海量的非结构化数据,比如利用数据库技术和自然语言过程对非结构化数据进行数据清洗、检索和实体识别等,为数据挖掘和统计建模做好准备。第三,测量方法。大数据方法(数据挖掘)作为概念(变量)测量的工具。数据挖掘可以将高维、复杂和非结构化数据转化为低维的结构化数据,其本质就是测量模型。以文本数据为例,对非结构化文本资料进行挖掘所获得的诸如主题、聚类或情感,就是将文本资料结构化的过程。这与传统因子分析、项目反映理论等测量方法类似。第四,描述性(探索性)推论。大数据方法可以利用分类、聚类等方法分析对政治现象开展描述性分析,为理解政治现象或行为的状态、分布或趋势变化积累描述性知识,作为因果推论的前期准备。第五,相关性推论。基于数据挖掘考察政治现象之间的相关关系。以文本数据为例,譬如利用大数据方法在识别主题和情感倾向之后,通过可视化或者相关系数以理解不同主题之间、主题与情感之间的相关关系,或者比较不同群体之间在主题偏好、情感倾向或行为模式上的差异。第六,因果推论。对基于以上方法所测量的概念(变量)、相关关系,利用大数据方法与传统统计方法、小数据方法、实验方法、定性方法等相结合,构建、检验并解释政治现象间的因果关联(15)。第七,预测性分析。考虑到社会科学日益兴起的预测性取向,通过大数据方法利用回归模型、决策树、神经网络等各类机器学习算法,在复杂社会系统中实时预测政治倾向、政府开支、政府决策等特定现象或趋势(16)。目前政治科学研究越来越多地进行预测研究以响应政府或社会政策干预的需求,而大数据基于多主体、海量数据、时效性(时间序列)数据和多模态数据,可以有效地提升预测研究的效度和效率。与此同时,大数据方法基于可视化方式呈现相关或因果关系,这在促进知识传播方面很具优势。

   伴随着大数据方法的应用,社会科学界逐步形成计算社会科学这一新兴学科,以充分利用社会现象的数字化记录,借助数据分析、模拟计算和社会实验以发现社会规律(17)。计算社会科学汇集了社会科学应用大数据方法探求因果性知识的新范式,其促进因果推论的方法进展包括:其一,算法智能化趋势。计算社会科学为算法带来革命性进步。然而,在算法变得更准确和高效的同时,其复杂程度也不断增加,其开发和应用过程的智能化趋势逐步呈现。一些高度复杂的元算法可在研究者指明研究需要和标准的前提下,根据既有案例和算法库自行推荐和部署适用的算法。其二,大数据模拟技术的广泛使用。社会科学中模拟技术的使用有赖于社会系统参数的规模化、精确化、动态化收集。目前,既有的数据收集、参数处理和数据建模手段尚难以满足此类要求。然而,随着计算社会科学的不断发展,大数据模拟研究将日益强化。其三,移动互联网和VR/AR等虚拟现实技术在社会科学实验领域的广泛使用。社会科学长期使用实验法检验因果联系。但既有实验技术受到实验干预施加、控制实验环境等限制而不得不受制于有限的物质条件。基于大数据的实验方法将对实验的灵活性、即时性、丰富性、动态性和微观性提出更高要求。譬如,VR/AR技术有助于研究者通过设定虚拟实验环境来便利地开展实验研究。其四,社会科学知识生产与扩散模式的网络化趋势。新的智能研究工具、新的知识发布方式,以及计算设施的标准化、规模化建设,驱动着“众包式”“自助式”“平台式”知识生产模式,譬如众智“立宪”(18)、比较政党“众包”研究(19)等,也扩大了社会科学知识的潜在受众(20),在与受众互动中积累社科知识。

  

   三、因果推论框架下大数据方法的创新

  

   作为新兴研究方法,大数据方法从采集数据资料、创新分析方法、改造社科研究模式和再造学术-社会互动关系四个维度深刻地影响着研究范式、议题和方法的变革,推动着描述性或因果性理论和知识的生产。

第一,大数据方法的最直接贡献是为社会科学研究提供更全面、客观和内涵丰富的研究素材(21)。这体现在如下方面:1.数据模态多元化。目前,社会科学研究中不仅可以处理结构化数据,而且越来越多地处理非结构化数据,而后者在传统社会科学研究中由于技术能力局限而被丢弃。2.“全量数据”而不是“样本数据”。大数据可以获得一个接近总量或全量的数据,相比抽样数据具有很大优势。如对某社会现象的观测可获取数万或数亿量级的数据量,会使研究者对该现象的理解更为全面和充分。3.“真实数据”而不是“设计的数据”。与传统的社会科学研究方法相比,大数据会获得更加真实和客观的行为数据(22)。传统定量或定性研究所使用的数据采集方式强调人为设计,在理论先行和研究设计基础上的有目的、有选择、有裁剪地采集研究素材,这在一定程度上妨碍了社会科学研究理解“社会真实”的努力。大数据方法所获取的是社会主体的原始行为记录,如网络行为痕迹、或地理位置移动痕迹等,是不被设计的、可信的、来自于人们真实的行为记录(23)。4.“大样本数据”为小概率事件分析提供可能。传统方法很难对社会中“小概率事件”进行系统研究,如政治科学研究社会运动、极端性政治行为或意识形态,通过抽样调查很难获得大量“小概率事件”的有效样本,因而无法做深入系统的经验分析。大数据方法可以通过扩大总样本规模而使得“小概率事件”的观测值达到一定量级,便于开展分析。5.数据蕴含丰富的时空维度信息(Spatial and Time Dynamics)(24)。大数据方法蕴含丰富的时空信息,通过数据融合将虚拟网络空间与现实物理(地理)空间整合起来形成“厚数据”,有助于对社会现象在时空上的演变趋势或异质性特征的理解,(点击此处阅读下一页)

    进入专题: 大数据     研究方法     因果推论  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 政治学 > 政治学科建设与动态
本文链接:http://www.aisixiang.com/data/117050.html
文章来源: 《政治学研究》 2018年03期

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2019 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
易康网