林展 陈志武:量化历史与新史学——量化历史研究的步骤和作为新史学的价值

选择字号:   本文共阅读 657 次 更新时间:2021-06-03 21:56:11

进入专题: 量化历史   新史学   历史大数据  

林展   陈志武 (进入专栏)  

  

   内容提要:随着历史大数据时代的到来,大量历史数据库建成和向学界开放,历史研究也面临新的挑战,即如何有效利用大规模的史料。量化历史作为新史学的重要组成部分,是应对历史大数据挑战的重要方法之一。近年来,量化历史在国际学术界发展较快,形成了较为完善的分析方法,本文以基于《新教伦理与资本主义精神》展开的量化历史研究为例,详细说明其研究步骤,分析其在应对历史大数据的挑战、识别历史的长期影响、促进历史学与其他社会科学的交流与对话等方面可能发挥的作用。

   关 键 词:量化历史/新史学/历史大数据

   基金项目:本文是国家社会科学基金重大项目“清末民国社会调查数据库建设”(项目编号:15ZDB041)的阶段性成果。

  

   当代新史学的发展,引发了“史料之革命”,扩展了史料的范围,形成了多元的史料体系,进而也引发了历史资料的“大爆炸”。①这一发展的最近表现是历史数据库的大量出现。不少文章对数据库在历史研究中的价值进行了多角度的介绍,②但是很少有学者讨论如何有效利用这些历史数据库,特别是如何基于结构化历史数据库开展研究,这不利于真正发挥历史数据库的价值,也不利于史料革命的进一步深化。量化历史在如何利用大规模数据库方面,已经形成了较为完善的分析方法,但史学理论中对这些方法和具体实施步骤的介绍还比较少。③本文希望在量化历史研究步骤及其对历史研究的价值这两方面提出一些初步的想法,抛砖引玉,推动学界提供更多这方面的讨论。

   一、量化历史的含义及与新史学的关系

   量化历史研究是交叉学科,是用社会科学理论和量化分析方法来研究历史。量化历史研究目的是发现历史的规律,即人类行为和人类社会的规律。在量化历史研究中,称这些规律为因果关系,量化历史研究的过程,就是发现因果关系的过程。理解量化历史研究的含义,一般需要结合三个角度,即社会科学理论、量化分析方法、历史学。

   理解量化历史的第一个角度,是其广泛借鉴社会科学的理论。社会科学包含经济学、金融学、管理学、政治学、法学、社会学、人类学、教育学及心理学等。就研究涉及的领域而言,量化历史包含对政治、经济、思想文化、环境等历史的方方面面的量化分析。上述不同的研究领域,一个共同的特征就是需要收集数据,通过量化分析的方法来回答特定的问题,进而来理解人类行为和人类社会。基于数据的研究通常也称为经验研究(empirical analysis)。

   社会科学理论是关于人类社会某些特征的一组系统化的论断,或者是对于真实世界的系统化解释。这些理论有两个重要的特征:一是可以引申出可检验的假说或推测;二是随着支持这些假说或推测的经验证据越来越多,理论的可靠性程度也越高。④

   理论对于历史研究的价值,在于为分析、理解历史提供了一个基准和框架。这一框架能够帮助研究者从纷繁复杂的历史史料中快速梳理出一个研究的起点、参照系或者靶子,成为理解历史的重要工具。历史资料错综复杂、千头万绪,而人的认知能力有限;如果缺乏理论分析框架,既不便于认知历史规律,也不利于历史研究成为一门代际累进的学科。

   理解量化历史的第二个角度是量化分析方法,这包括统计学、计量经济学、人工智能等领域的方法。量化方法不是一个静止的概念,而是处于不断发展中,随着相关学科知识的进步、计算机技术的发展,新的量化方法不断出现,能够处理的数据量越来越多、效率越来越高,发现的结论也会越来越可靠。起初,历史研究中的“量化方法”很简单,差不多就是“用数据说话”,加上图表和一些普通的统计指标,比如均值、方差和相关系数,⑤但如今,不止如此。限于篇幅,本文仅选择三个角度来介绍量化方法,一是对历史现象的度量,二是寻找历史现象的相关性,三是发现历史对象之间的因果关系。为了发现历史规律,通常需要进行因果关系的分析,对历史现象的度量和寻找历史现象的相关性是寻找因果关系的步骤或起点,通常也可以作为一个单独的研究。这里的量化分析方法是大多数社会科学共同使用的方法,与自然科学实验方法的逻辑也是一致的。目前在社会科学中,经验研究方法正在从统计推断(statistical inference)向因果推断(causal inference)转变,这种转变被安格里斯特和皮施克称为经验研究的“可信性革命(credibility revolution)”。⑥这场革命的核心是基于随机试验的思想来获得因果关系,即规律性认识。

   需要强调的是,量化方法的本质是高效率的处理大规模信息,从中获得规律认识。其基于众多现实问题而产生,已发展成为一个内容丰富的学科,有些部分变得非常专业和高深,如何将不同的量化工具与历史研究有效结合起来,发挥量化方法的优势,需要不断尝试和探索。

   理解量化历史的第三个角度是其与历史学的关系,这在陈志武之前的研究中已有讨论,两者的关系“体现在量化方法不是要取代传统历史研究方法,而是对后者的一种补充,是把科学研究方法的全过程带入历史领域。整理考证史料、注重文献是历史学研究的传统,量化史学同样注重对历史文献的考证、确认,这一点没有区别”。⑦正如本文开篇提到的,由于新史学带来了史料革命,让史料规模爆炸式增长,这让定性方法面临挑战,而量化方法则可以较好地应对这一挑战。但仅有量化并不够,量化分析需要建立在扎实的定性研究基础之上,需要与历史学定性方法相结合,理解史料的历史背景,否则不管采用什么研究方法,得出的结论都不会可靠。只有与历史学的已有研究深度融合,量化历史才能更好地实现自身的价值。

   一项合格的量化历史研究需要同时达到上述三个学科分支的要求。这也意味着,一项好的量化历史研究并不容易实现,需要细致的工作和艰辛的努力。

   由量化历史的概念,可知其是新史学的重要组成部分,尽管新史学有不同的含义,也处在不断发展变化的过程中,但在对新史学的不同解释中,一般都强调尽可能结合人文社会科学的知识和方法来研究历史。随着人文社会科学研究方法的量化程度大大提高,量化分析已经在社会科学研究中唱主角,在人文学科中的影响也越来越大。

   二、量化历史的研究步骤

   《量化历史研究的过去和未来》一文介绍了科学研究的基本流程。这一流程大致分为五个步骤:第一是提出问题和假说;第二是寻找史料和数据;第三是对数据进行量化分析,寻找因果关系;第四是对发现的因果关系进行解释和寻找作用机制;第五是论文的写作。但该文没有对这些步骤的具体操作展开论述。⑧在此,我们以对“韦伯假说”的相关量化分析为中心,结合其他成果,讨论量化历史研究过程中的主要步骤,限于篇幅,仅针对前四个步骤,论文写作在此不作介绍。

   我们用来作为示范的例子是围绕《新教伦理与资本主义精神》展开的量化历史研究。这是马克斯·韦伯影响最大的著作之一,根据“谷歌学术”的统计,被引用超过三万次。在该书中,他认为新教地区有更为繁荣的经济,新教伦理对经济有重要的促进作用。虽然该书通常被认为是定性研究,但却建立在大量的统计数据之上,比如在书的开篇,韦伯就提出了下列基于统计数据的发现:

   在一个各种宗教信仰混杂之处,只消一瞥其职业统计,往往便会发现一个屡见不鲜的现象,此一现象在天主教的报章和文献及德国的天主教会议席上一再引发热烈的讨论,那就是:在近代企业里,资本家与企业经营者,连同熟练的上层劳动阶层,特别是在技术上或商业上受过较高教育训练者,全都带有非常浓重的基督新教的色彩。⑨

   由此开始,韦伯进一步提出了新教伦理与经济发展之间的关系,这被认为是关于文化与经济发展最重要的论断,即新教伦理越强的地方,经济可能越繁荣。⑩在余下部分,为表述方便,我们暂时称之为“韦伯假说”。(11)

   韦伯假说隐含了新教伦理可能影响经济发展的途径,一是新教徒工作更为努力,二是新教徒储蓄更多,进而投资更多,从而提高了长期的生产率。上述两种途径使得新教伦理推动了资本主义发展。

   直到今天,韦伯的著作依然是不同学科的必读书,影响很大。但这只是解释资本主义经济发展的观点之一。对于这一观点,是否应该接受?如何来检验?如果基于史料,正如韦伯所发现的,新教徒数量越多的地方,经济发展更好,如此就能断定新教伦理推动了资本主义发展吗?对上述问题的回答,构成了一项典型的量化历史研究。

   这一研究由两位经济学家贝克尔(Becker)和沃斯曼(Woessmann)完成。他们利用19世纪普鲁士(12)452个县(郡)级政区的调查数据,发现新教徒占比越高的地区,经济发展确实越好(比如有更高的人均所得税收入、教师收入,更大的非农业部门规模),这与韦伯的发现一致。但是,当他们将各地平均识字率的差别和新教徒占比的差别放到一起时,发现后者的影响消失了。他们认为,新教之所以推动了经济增长,主要是由于马丁·路德呼吁所有人自己去阅读《圣经》并直接跟上帝对话,从而(意料之外地)提高了读写能力,推动了人力资本的提升。因此,是人力资本,而不是新教的思想伦理,推动了经济的增长。(13)

   下面,我们结合贝克尔和沃斯曼的研究和其他的量化历史研究,对量化历史研究的步骤进行详细说明。

   (一)提出问题与假说

   量化历史研究的第一步是提出问题和假说,在介绍这些之前,需要先了解什么是变量和度量。

   1.变量与度量

   变量是指可能变化的对象。比如每个地区的气温、降雨量,每个地区的人均收入水平等。这些变量与定性研究中的“影响因素”“结果”等概念接近,都是从对人类社会的观察中抽取出来的考察对象,为了表述方便,称之为变量。

   在对韦伯假说的检验中,贝克尔和沃斯曼发现,普鲁士地区的教徒中大概有2/3是新教徒,1/3是天主教徒,每个地区新教徒数据之间存在较大的差别,因而可以用来检验韦伯假说。而在识字率方面,普鲁士的452个县级政区,差别也很大,比例跨度从37.4%到99.3%。

   给变量赋予一个数字,就是变量的度量。有些同时还需要一个计量单位。比如,温度是多少摄氏度,身高是多少米。这里包含三个要素,即度量的对象(即变量本身),度量的数值和度量的单位。清晰的度量对于量化历史研究非常重要。

   就度量的类型而言,可以分为直接度量和代理度量。直接度量是指度量的指标与要度量的变量之间是一致的,比如粮价,是多少两白银一石,这样的度量就是直接的,这要求变量本身的含义是确定的,能够找到一个单一的值来衡量。

   代理度量是指在没有直接度量的情况下,对关心的变量进行测量。用来度量的值与实际关心的变量之间往往不完全等同。代理变量(proxy variable)是与希望分析但无法度量的变量高度相关的变量。比如什么是新教伦理,可以从不同的角度去讨论,但从实证研究的角度,需要有一个度量,无法度量则难以验证。由于没有一个对新教伦理直接度量的指标,解决的办法是引入代理变量的概念。

   在韦伯假说中,贝克尔和沃斯曼用来衡量新教伦理的代理变量是一个地方新教徒的比例。这里隐含的假定是新教徒越多的地方,平均而言,新教伦理的影响应该越大。衡量经济发展水平的是一个地区的收入税。之所以用收入税,是因为该税种基于一个人一年的收入水平来征收。因此,人均收入税越高的地区,平均而言,人均收入也越高。

代理度量与直接度量之间可能存在差别,所以需要通过一些办法来验证代理度量的可靠性。(点击此处阅读下一页)

进入 陈志武 的专栏     进入专题: 量化历史   新史学   历史大数据  

本文责编:admin
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 历史学 > 史学理论
本文链接:http://www.aisixiang.com/data/126792.html

1 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统