孟天广:政治科学视角下的大数据方法与因果推论

选择字号:   本文共阅读 158 次 更新时间:2019-07-05 23:54:33

进入专题: 大数据     研究方法     因果推论  

孟天广  
发展时间或空间政治学理论。

   第二,大数据方法对政治科学研究方法的创新。1.为研究者提供了更为丰富的方法工具箱,提升了政治科学对非结构化和结构化数据分析的综合能力(25)。大数据方法提供了从数据抓取、数据清洗、检索分析、自然语言过程处理、分类或聚类分析、主题模型、情感分析、视频/影像分析、文本分析、社会网络分析、空间模型等研究方法,丰富了社会科学学者的工具箱。2.机器学习的广泛使用不仅提升了社会科学研究的效率,更为海量数据分析提供了有监督机器学习、无监督机器学习等模式选择,而机器学习所贡献的潜在狄利克雷分布(LDA)、决策树、朴素贝叶斯等新算法有效地推动了社会科学方法创新,而且基于机器学习的新兴回归模型如岭回归(Ridge Regression)、拉索回归(Lasso Regression)促进了统计方法。3.为传统的定性-定量方法分野搭建了一个桥梁(26)。大数据方法可以让人们有能力对非结构化数据(即定性资料)进行规范化、系统化分析,即定性资料的定量化分析;同时也可以让研究者对定量分析结果开展定性化解读或诠释。

   第三,大数据方法还影响着社会科学研究模式的转变。1.相比调查或实验研究等,大数据方法采集数据(素材)的成本通常更低,但其产生的信息量却更大、时效性也更强。譬如,全国性调查研究的经济成本可能达到年均上百万,且由于人力、物力的巨大消耗,实施周期通常为一年或两年。而大数据方法获取数据并不需要如此巨额成本,其运用计算机在线不间断进行数据采集,数据记录的测量误差更低。2.驱动了政治科学对于强时效性知识的探索。大数据方法自动采集和存储时效性数据,允许研究者通过对及时性数据的分析来研究突发性事件(干预)对社会行为或偏好的短期、中长期影响,这对于分析和评估制度、政策或社会干预的影响,探究社会或经济波动的政治过程和后果,挖掘基于互联网的政治传播、信息扩散等因素对制度运行、政治行为的影响至关重要。3.推动着社会科学研究的跨学科趋势,这表现为数据采集平台化、算法开发普及化和社会科学研究(跨学科)问题导向三种趋势的持续互动和合作。

   第四,大数据方法与互联网的无缝对接再造着学术影响的模式。传统上,社会科学所产生的知识对政策或社会的影响比较有限,非专业领域人士无兴趣也无专业素养来接受或传播社会学科知识。然而,进入大数据时代,学术界与外部环境的互动日益频繁,突出表现为社会科学知识的平民化扩散、日益强化的政策或社会影响力。基于大数据方法的很多研究在与互联网的无缝对接条件下,以可视化呈现向社会各界推介或传播专业性社会科学知识,降低了知识接受的专业门槛,对社会科学知识的普及具有很大贡献(27)。传统上专业的模型和复杂的术语以可视化方式呈现,将专业化社会科学知识的受众扩大到社会各界,进而产生政策和社会影响力(28)。因而,在这一新时代,社会科学研究与社会影响之间的互动模式产生了重大变革,研究者通过专业化研究对政策制定和实施提供了依据、产生了影响,企业亦希望借助于学术研究,能够对社会实践产生积极影响。这是新的时代环境所产生的知识需求。

  

   四、大数据方法推动因果推论的方法路径

  

   在大数据时代的背景下,社会科学研究者如何探索因果性命题仍然是重要议题。伴随着大数据方法在社会科学领域应用的逐步深入,大数据方法正日益走出探索性或相关性分析的窠臼,逐步构建出若干因果推论的方法路径(29)。简言之,基于大数据方法开展因果推论不仅是可行的,而且应该是社会科学研究追求的目标。经过近年来大数据方法与传统社会科学研究方法的深度融合,逐步形成了基于大数据方法进行因果推论的四个代表性方法路径。

   (一)大数据方法与统计分析的结合

   大数据因果推论的第一个路径是将大数据方法和传统统计分析相结合,使得二者互补性地实现因果推论的研究目标。大数据方法发挥着海量非结构性数据获取、概念(变量)测量、探索性分析等功能,将高维、非结构化数据降维、结构化,帮助研究者回答“是什么(What)”描述性推论的问题,加深对研究对象之状态、分布、变化趋势的全面理解。此外,大数据方法还借助可视化、相关分析等方法开展社会现象的比较研究或社会现象间相关关系的探索等活动。统计分析则扮演着素材深加工的作用,利用各种线性或非线性统计模型在解决统计控制、内生性或选择性偏差等问题的情境下开展因果推论,回答“为什么(Why)”“怎么样(How)”等问题。

   简单地概括,大数据方法与统计方法的结合可以视为测量模型和结构模型的结合。测量模型的目标是有效地测量理论上定义的概念(变量),而结构模型的目标是在统计控制意义上检验概念(变量)间关系。大数据方法帮助研究者基于海量数据测量抽象概念(30),而定量分析解决研究者关于概念(变量)间因果关系的检验或解释的问题(31)。大数据方法所测量的概念(变量)既可以作为因变量、自变量或者混淆变量。以文本数据为例,大数据方法利用聚类分析、主题模型、情感分析等数据分析学从海量文本资料中自动挖掘出研究者关心的诸如文本主题或情感偏好等变量,然后利用统计模型估计文本主题与情感间的因果联系,或者考察文本之外的其他变量对上述变量的影响(32)。大数据方法与统计分析的结合除了常用的两步法之外,罗伯茨(Roberts)等人提出结构主题模型(Structural Topic Model)将上述两步进行有机整合,将测量模型和结构模型同时进行估计,既挖掘非结构化数据中蕴含的潜在概念,又有效地估计不同变量与元数据(Meta Data)之间的因果联系(33)。该方法被应用于比较政治和美国政治研究。当非结构化数据成为同时影响原因(自变量)和结果(因变量)的混淆变量时,即原因对结果的影响存在方法论上的内生性或选择性偏差时,研究者可以借鉴传统量化分析基于反事实框架开展因果推论。

   大数据方法与时空模型的结合可以视为一种特例。伴随着移动互联网、可穿戴设备、导航类应用的普及,近年来依托于时空信息将虚拟空间数据与现实物理空间数据进行融合的趋势日趋凸显,提供了将大数据方法与时空模型整合的新机遇。考虑到社会科学理论的时空特性,时空因素在理论建构上作用甚大,更对理论的可推广性有重要影响。基于融合数据,研究者可以使用诸如时间序列模型、面板模型、空间模型等计量方法对大数据资料进行因果性分析,寻找经济波动、科技进步与政治发展的动态关系,挖掘社会现象之间的时间或空间依赖模式。

   (二)大数据方法与小数据分析的结合

   第二个路径是将大数据方法与小数据分析有效结合。该方法目前在社会科学界较为流行,将大数据(接近“总体数据”)与小数据(抽样数据)相结合,大数据方法在总体层面描述社会现象的特征、变化趋势和相关关系;然后在大数据中随机抽取小数据开展深度(结构化)调查,以小数据分析探究因果关系。大数据方法的优势在于利用海量数据的一系列特征,如通过全样本、高密度数据流或关联性数据来进行对社会现象更全面、精准和可预测的观察和分析(34)。小数据分析的优势是在大数据中随机抽取样本进行深度调查或访谈,采集承载更多具有理论价值的更深、更厚数据。简言之,就是用小数据做因果分析,用大数据做描述或者相关的分析。当然,小数据分析也包括基于特定案例或比较案例的定性研究。

   大数据方法与小数据分析并非互相排斥,而是存在二者互补与结合的发展前景。伴随着方法论讨论的逐步深入,越来越多的学者主张在社会科学研究中结合大数据和小数据分析(35)。二者结合具有三方面方法论价值:1.功能互补性,大数据的优势在于描述性分析,而小数据方法借助统计分析或逻辑演绎在解释性分析上具有优势(36)。2.二者方法论路径迥异,大数据是数据驱动,利用数据挖掘技术来获知数据中存在的模式,小数据分析是理论驱动,重在利用统计推论或逻辑推理来建构和检验理论。新一代社会科学研究完全可以同时从理论驱动和数据驱动两个角度展开(37),将数据挖掘与理论洞见更紧密地结合起来,提升研究效率和理论深度。3.技术方法互补和融合(38)。小数据分析为大数据方法提供知识输入,如基于小数据的先验知识、训练集为大数据方法提供数据挖掘规则或参数,以提升大数据分析的效率和效度。因此,大数据与小数据分析结合可以同时推进描述性和因果性知识的积累。

   大数据和小数据分析相结合开展因果推论时存在四种可能组合:1.大数据方法在因果推论中作为研究背景,仅承担描述性推论或相关性分析的功能,因果推论主要依赖小数据分析;2.将大数据方法纳入因果模型,以大数据测量所得变量加总(Aggregating)得到宏观层面之因素(变量),然后将之作为宏观因素(变量)纳入解释模型,应用多水平模型来考察特定宏观因素对个体行为或偏好的影响;3.第三种结合将大数据测量所得变量视为制度、政策或社会干预变量,以研究干预对个体行为或偏好的影响;4.无论将大数据测量所得变量作为情景变量还是干预变量,都可以将该变量与个体变量进行交互分析,以探讨特定情景或干预水平在不同社会群体中的异质性影响,加深对复杂因果关系的理解。

   (三)大数据方法与实验研究的结合

   大数据方法与实验分析的融合是另一种行之有效的路径。实验研究被认为是探索因果关系、挖掘因果机制的金标。大数据方法的蓬勃发展为实验研究的拓展创造了新条件。二者的融合本质上反映了观察性和实验性研究融合的趋势,不仅充分利用了大数据方法具备全量数据、时效性强和数据类型多元的优势,更丰富了实验研究的工具箱。大数据方法为自然实验、现场实验和调查实验提供了良好的应用场景,二者结合有两种典型路径:

   第一种路径是大数据方法发挥观察性研究的功能,通过对海量数据的采集和挖掘,获得对研究对象之状态、特征或模式的描述性或相关关系的理解,进而设计实验检验变量间因果联系,从而提升研究的广度和深度。譬如金(39)等研究者结合参与式观察和现场实验探讨了网络舆情监管的逻辑,通过两种研究方法的交叉验证得出一致结论从而强化了其理论主张的稳健性。

   第二种路径将大数据方法直接应用于实验设计,拓展实验设计及操作化干预(原因)、随机化分配干预、控制威胁内部和外部效度之因素、测量和识别实验效应(结果)的工具箱。结合日益普及的互联网和廉价的通讯设备,随机分配干预变得更为便捷,譬如在平板电脑、智能手机中安排实验软件较传统方法更为有效;实验研究的干预施加(暴露)更具多样性,大数据方法可以通过文字、图像、视频、网络关系等非结构化信息向被试者施加干预,采取多元方式测量实验结果,如记录被试者对特定问题的答案、文本(言论)、行为和音像等资料;大数据方法推动了在线实验的兴起,即通过对海量网络用户开展大规模实验,既保障实验结果的外部效度,又保障实验场景的现实性,还记录着实验干预的短期和长期效应(40)。譬如,邦德(Bond)等研究者在2010年对6100万Facebook用户实施了政治动员的随机控制实验,来比较线上竞选动员和面对面竞选动员对投票行为的影响(41)。

   (四)大数据模拟研究

计算机发明以来,社会和行为科学家开始采取计算机模拟或仿真(Simulation)方法研究社会与政治行为。模拟方法是在虚拟空间模拟真实世界过程、行为或系统运行以生产社会知识的过程(42)。模拟方法首先要求研究者建立关于真实世界的数学(理论)模型,然后编制计算机程序,在给定参数和环境的条件下开展模拟分析,来检验理论模型或寻求特定公共问题的最优解决方案。模拟(仿真)方法充分利用了强大的计算能力和精致的数学建模,特别适用于探讨复杂系统中若干独立、互动性行为者(Agent)之间的互动过程及策略选择。(点击此处阅读下一页)

    进入专题: 大数据     研究方法     因果推论  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 政治学 > 政治学科建设与动态
本文链接:http://www.aisixiang.com/data/117050.html
文章来源: 《政治学研究》 2018年03期

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2019 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
易康网