陈志武:为什么我们需要量化历史研究

选择字号:   本文共阅读 2229 次 更新时间:2017-04-06 15:04:02

进入专题: 量化历史研究  

陈志武 (进入专栏)  

历史研究领域的与时俱进


   2013年,笔者与清华大学龙登高、伦敦经济学院马德斌、香港科技大学龚启圣等教授一起举办了第一届量化历史讲习班。之后,我们每年办一届。与四年前相比,报名人数越来越多,国内学界对量化历史研究的认知和兴趣也有了很大的变化。

   按照经济史学者诺斯的追溯,用量化方法研究经济史问题大致起源于1957年,当时几位学者尝试研究美国黑奴历史的经济逻辑。随后,量化方法也用到了其它历史研究领域,包括诺斯对欧洲政治制度史、西波拉对西方教育史与宗教史的研究。到1960-70年代,量化史学变得流行,后来这股风潮又有所消退。但1990年代中期后,新一轮量化历史研究热潮再度崛起,引人注目。就以国际五大量化历史数据库为例(美国整合公共微观数据库IntegratedPublicMicro-dataSeries、加拿大巴尔扎克人口数据库BALSAPopulationDatabase、荷兰历史人口样本数据库HistoricalSampleoftheNetherlands、瑞典斯堪的纳维亚经济人口数据库Scandina-vian Economic DemographicDatabase和美国犹他人口数据库U-tah Population Database),2006—2010 年间,新发表的学术论文中运用这些数据库资料的就达2360余篇(梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》,2015年第2期)。

   催生新一轮量化历史研究的经典作品主要来自经济学领域。而且,在如何利用大数据论证历史假说方面,经济史学者做了许多方法论上的创新,改变了以往社会学家、人口学家只注重历史数据描述性分析、相关性分析的传统,将历史研究进一步往科学化的方向推进。

   今天,计算机和互联网已相当普及,不仅许多历史资料的数据库化变得可能,而且使这些历史数据库的跨地区、跨国共享也成为可能。在互联网上,可以免费得到数不清的各国历史资料库,用起来方便,成本也低。这是以前的历史学者做梦也想不到的。

   过去十几年,笔者与彭凯祥、袁为鹏、林展、何石军等团队,一直致力于建立中国民间借贷利率史数据库、婚姻与妻妾交易数据库、历代皇帝与反腐数据库、契约文书数据库。此外,也有不少同仁在建立历史数据库,包括“中国历代人物传记资料库”(CB-DB,由哈佛大学、台湾中研院、北京大学合作建设)、“中国地方历史文献数据库”(由上海交通大学建设)、“清代灾荒纪年暨信息集成数据库建设”(中国人民大学夏明方主持)、“清末民国社会调查数据库”(中国人民大学黄兴涛主持)、“数据历史黄河”(陕西师范大学建立的黄河流域各地的历史地理、气候、社会、灾荒等资料库),还有中国科学院地理所、复旦大学、北京师范大学等等分别或合作建立的历代或近代气候与灾荒历史地理数据库。

   当然,众多量化历史数据库只是研究的基础,关键要看研究方法与分析框架是否跟得上。许多同仁提出,量化史学不是曾经时兴一段,但后来势头又下降了吗?这次为什么会不同呢?我们必须看到,1980年代之前电脑没有普及,更没有互联网,那时整理历史大数据很难,做统计回归分析并检验假说也很难。但是,现在没有这些问题了。

   今天“大数据”是个时髦话题,可是,很多人没有看到历史资料是真正的大数据。比如,仅清代刑科题本档案就有近60万本,平均每本大约30页手稿,加在一起就是1800万页资料。更不用说其它明清及民国期间留下的奏折、公文、实录、文书、契约、方志等史料,加在一起至少有数亿页。

   采用细读个案的传统历史方法,不仅会让我们偏重树木而忽视森林,而且,当历史资料规模超过一定水平时,这种方法很难行得通。海量历史资料带来两个现象:一是由于传统方法强调细读一手史料,近代史比远古史更难研究,因为明清资料太多而古代资料很少,只有靠引入新的研究方法才能改变这种奇怪局面;另一现象是由于传统方法强调个案细节、不强调大样本,但历史上的社会现象又错综复杂,研究者很多时候都能根据需要挑选到“合意”的历史案例。所以,在不同学者根据需要去找合意个案的习惯下,得出的结论当然各异,就有了“历史被任意化妆”的嫌疑。我们需要改变这些现象,就要靠大样本量化方法。

   因此,量化史学不是热潮不热潮的问题,而是史学研究必须探求的新方法。否则,我们难以适应新技术带来的便利和挑战。中国历史资料丰富,这是中华文明的优势,但是,要发挥这种优势、增加我们自己乃至全人类对我们过去的认知,就必须改进研究方法。量化历史方法既受益于现代互联网技术,也受益于现代社会科学分析范式的进步,是历史研究领域的与时俱进。

   接下来,本文将回答以下几个常见疑问:第一,量化历史方法跟传统历史方法是什么关系?第二,历史能够量化吗?第三,1990年代末期以来的量化历史研究方法跟之前的区别在哪里?最后,量化史学除了证明或证伪传统史学提出的假说外,能带给我们对历史的新认知吗?

  

对传统历史研究的补充


   量化历史方法不是要取代传统历史研究方法,而是对后者的一种补充,是把科学研究方法的全过程带入历史领域。

   量化史学和传统历史学研究,同样注重对历史文献的考证、确认。如果原始史料整理出了问题,不管采用什么研究方法,由此推出的结论都难言可信。两者的差别在于量化方法会强调在史料的基础上尽可能寻找其中的数据,或者即使没有明显的数据也可以努力去量化。

   不管是自然科学还是社会科学领域,科学研究方法的基本流程是一样的:第一步是提出问题和假说;第二步是根据提出的研究问题和假说去找数据,或者通过设计实验产生数据;第三步是做统计分析、检验假说的真伪,包括选择合适的统计分析方法识别因果关系、做因果推断,避免把虚假的相关性看成因果关系;第四步是根据分析检验的结果做出解释,挖掘清楚“因”导致“果”的实际传导机制甚为重要。为给出令人信服的解释,既可通过统计方法认证逻辑传导机制,也可通过简单数学模型验证传导机制的逻辑一致性;第五步就是写报告或者文章,把科学过程研究出的结果报告出来。

   传统的历史研究范式基本停留在上述科学方法的第一步和第二步,要么先提出问题或假说,觉得“历史应该是这样”,然后去找历史个案或少数几个案例,只要假说与这些个案相符,就认为假说对历史的解释是成立的;要么先通过对历史个案的透彻研究,得出关于历史现象中因果关系的假说或猜想,认为历史中就是这样由这个“因”导致那个“果”的,然后研究就到此结束。

   史料整理是建立历史数据库的基础,在没有经过大样本检验之前,这些假说和猜想还仅仅是假说,不一定真的成立。量化研究是在传统研究方法的基础上,把科学方法中的第二步(收集大样本数据)做好、做完,并且把第三步、第四步也做完。只有这样得到的历史现象背后的“历史规律”,才能避免“以偏概全”。所以,量化历史方法是对传统方法的补充,而不是取代。数据是量化研究的基础,但只是其中一个环节,同样重要的是要根据历史大数据对我们感兴趣的猜想进行统计检验,看这个猜想是否能得到大样本的支持,而这一点是传统历史方法难以做到的。

   过去,胡适先生也讲过“大胆假设,小心求证”,只不过当时他所讲的求证,还只是一般的寻求证据(主要是文献方面的),并不是统计学分析与大样本检验。比如说,到底是什么导致清朝灭亡?一种假说(仅仅为假说)是:因为晚清立宪改革所致,并据此得出结论说“不能进行宪政改革,因为宪政改革导致国家灭亡”。根据清朝的个案经历得出这样的结论,就好比“阿炳二胡拉得好,是因为他是瞎子,所以任何人要拉好二胡,必须先把眼睛搞瞎”,显然是以点带面。我们必须先收集中国与其他国家的宪政改革历史样本,进行系统统计检验,排除个案的特殊因素,让样本中的共同因素——宪政改革——突出出来,凸显“历史规律”的内涵,这样才能知道这个假说到底能否站住脚。

  

难以量化不等于不能量化

  

   在历届量化历史讲习班及其它交流中,一个经常听到的问题是:历史能够量化吗?初看,问得有道理,因为许多历史现象和因素确实难以量化。但是,难以量化不等于不能量化,尤其不等于要放弃想象力和创新的努力。

   以香港科技大学龚启圣和山东大学马驰骋最近的一份研究为例,他们的核心问题是如何测度儒家文化的影响并评估其实际贡献。我们都说儒家文化过去两千多年对中国社会贡献巨大,是中华文化的基础。但如何证明儒家文化的积极作用?其发挥作用的方式或者说机理到底是什么呢?

   儒家文化的成本很高,尤以对个人自由与权利的压制为突出,其核心原则是以君与臣、父与子、夫与妻的“三纲”为基本出发点,把每个人从出生到死都固定在一个根据辈份、年龄、性别决定的名分等级秩序之中。基于儒家名分等级秩序所实现的资源分配结构、收入分配体系,要求个人特别是女性牺牲这么多、代价这么大,带来的贡献是什么?贡献有多少?学术领域鲜有对这些问题的量化答案,原因当然是文化很难量化。

   龚启圣、马驰骋尝试用间接代理指标来量化“儒家文化影响的强弱”,亦即,用各县文庙或孔庙数量测度儒家文化的影响强弱:孔庙越多,儒家在当地的影响就越强。此外,自汉代开始,政府实施旌表节烈妇女的制度,但直到宋代以前,妇女守节、殉节的现象有但并不普遍,再嫁、改嫁行为也还经常发生。宋代理学家程颐、朱熹按照“存天理,灭人欲”、“饿死事极小,失节事极大”的思路,强调寡妇再嫁就是失节。朱元璋1368 年创立明朝后,即颁布诏书:“民间寡妇,三十以前夫亡守志,五十以后不改节者,旌表门闾,免除本家差役。”1723 年清廷规定:“节妇年逾四十而身故,计其守志已逾十五载以上,亦应酌量旌奖。”于是,清代的旌表标准缩短至守节十五年,其后又分别于1824 年和1871年进一步缩至十年和六年。正因为守节是儒家“养子防老”体系的价值延伸,一个县的烈女数量也大致能反映当地人对儒家文化看重、遵守的程度。就这样,他们找到了量化儒家文化的两个代理变量。

   龚启圣、马驰骋研究的目标是清代1644-1910年间山东107个县的农民暴动情况,看儒家文化是否会显著降低各地遭遇灾荒冲击时农民暴动的冲动。通过检索《清实录》历史档案,他们发现,这期间山东南部各县农民暴动最频、次数最多,其次是青岛周边山东东北角的这些县;而孔庙数量的分布则倒过来:中部各县孔庙数量最多,南部和北部县最少。在排除各种其它因素的影响之后(包括每个县的收入水平、起初发达程度、教育水平、社会流动性等),受儒家文化影响越深的县(即孔庙数量或烈女数量越多),即使遭遇灾荒冲击(通过粮价高低测度灾荒严重度),其在清代农民暴动的频率也更低。

而之所以有这样显著的结果,机理在于:儒家文化影响深的地区,家族宗族网络越强,在面对灾荒冲击时宗族内部互通互助的程度就越高,亦即隐性互相保险的程度就越强。这就减少灾荒迫使农民走投无路、求助于暴力的必要性。在缺乏保险市场等金融产品的社会里,(点击此处阅读下一页)

进入 陈志武 的专栏     进入专题: 量化历史研究  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 历史学 > 史学理论
本文链接:http://www.aisixiang.com/data/103888.html

7 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2018 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
易康网