陈志武:人类不平等的量化历史研究——量化历史研究与新知识革命(上)

选择字号:   本文共阅读 506 次 更新时间:2018-09-06 23:56:30

进入专题: 量化历史   大数据   新知识革命  

陈志武 (进入专栏)  

  

   “大数据”是近年的热门话题,但有一类“大数据”被忽视,那就是数据库化与互联网化带来的“历史大数据”。特别是1980年代初期个人电脑出现后,计算机容量和普及度开始突飞猛进,使基于海量历史资料的研究变得可行;但从1970年代到1980年代,这些潜力对历史研究的影响有限,因为历史档案的电子化与数据库化要到1990年代才开始。

   2000年后,不同类别的历史数据库陆续出现,并逐步形成规模,而那时热起来的互联网,又把零散的历史资料库方便地连在一起,开启“历史大数据”时代。以至于到今天,无论是历史学、经济学,还是政治学、社会学界,都出现了基于各国历史的量化研究,所研究的历史长度、广度与深度都发生了质的跳跃,快速拓展我们对人类过去与今天的认知。

   遗憾的是,这场新知识革命是发生在中国之外,国内历史和社会科学界参与甚少。而如果我们的历史研究还不接受量化方法,可能在未来几十年继续错过“历史大数据”带来的新知识革命。

   当然,国内还是有些学者注意到了历史大数据带来的研究机会,并开始建立各种历史资料库和数据库、发表研究著作,如马德斌关于明代中叶以来中国与欧洲人均收入的对比研究;夏明方《大数据与生态史: 中国灾害史料整理与数据库建设》;陈志武、林展、彭凯翔《民间借贷中的暴力冲突:清代债务命案研究》;林展、陈志武《阶级身份、互联性交易、季节性与民间借贷》;龚启圣与马驰骋关于儒家文化对山东各县在清代的农民暴动频率的影响的研究;陈志武、彭凯翔、袁为鹏《清初至二十世纪前期中国利率史初探——基于中国利率史数据库(1660-2000)的考察》,其他研究这里就不一一列出。历史数据库包括“中国历代人物传记资料库”(CBDB)、“中国地方历史文献数据库”(上海交大)、“清代灾荒纪年暨信息集成数据库建设”(中国人民大学)、“清末民国社会调查数据库”(中国人民大学),还有龙登高、马驰骋、李楠、陈硕和其他学者建立的各类历史数据库,等等。从2013年开始的年度“量化历史讲习班”也在致力于推广量化方法。

  

经济史与早期量化历史研究

  

   那么,什么是量化历史研究呢?

   起初,历史研究中的“量化方法”很简单,差不多就是“用数据说话”,加上图表和一些普通的统计指标,比如均值、方差和相关系数。由于经济研究比任何其他学科更依赖数据,所以,经济史最早引进量化方法。美国经济史学会于1940年成立,标志着经济史开始从其他学科独立出来。但那时候,由于大多数经济史学家出身于历史学,他们对经济学和数理统计很陌生,加上经济学本身也还不太成熟,经济史著作自然偏重史料考证与叙述,靠直觉猜想历史事件之间的因果关系,停留于定性分析,不在意收集大样本数据对因果关系假说做统计检验。

   跟一般科学研究方法一样,历史研究也应该分五步,第一步提出问题或假说;第二步,为了证明假说,就要找数据,既可以是历史数据、历史样本,也可以通过实验收集数据;第三步是做统计分析,检验假说是不是得到历史数据的支持,尤其是不能停留在相关性分析,而要识别因果关系是否成立;第四步就是对统计分析结果做解释;第五步是写研究报告。传统的史学研究往往只做到了第一和第二步,但在第三、第四步上有欠缺,而量化历史方法就是要通过收集大样本把第三、第四步做实。量化方法不是取代传统历史研究方法,而更多是一种补充,使历史研究尽可能完整,避免基于个案历史研究的局限性。

   在年青的经济史领域里,1957年9月是一个重要转折点,因为“新经济史革命”从此启动了。当时美国经济史学会和美国国民经济研究局(NBER)联合组织了一个研讨会,主题是“如何把经济理论与经济史结合”,或者说,如何让经济史研究走出困局?会上,哈佛大学两位经济学教授——迈耶(John R.Meyer)和康拉德(Harold Conrad)——分别作为第一作者提交了两篇论文。其中,Meyer和Conrad (1957)提出:经济学应该是一门用以解释历史过程的科学,尤其是,历史学中的因果假说是可以证明或证伪的:通过收集历史事件的资料数据,做统计推理,就能证实或证伪哪怕是定性的历史假说。也就是,量化历史研究不应该停留在简单的“用数字说话”,而是基于历史数据和理论框架检验关于历史的假说。在他们报告的另一论文中,Conrad和Meyer (1958)以美国南部历史上的奴隶制的赢利性为例,展示如何运用经济理论和量化方法研究历史话题,他们的分析让与会者深受启发。

   针对迈耶和康拉德的量化历史方法主张,参会者中反对意见不少,甚至主流立场是反对的。其中,Ros-tow (1957)论述道,由于经济理论中的静态假设和方法不适用于历史研究,历史学家应该抵制量化方法。在他看来,历史学家就像作家一样,各有各的风格,不应该千篇一律。当然,传统历史研究的这一特点也使得历史研究差不多是“每位历史学家从零开始”,各有各的做法,难以跨越代际集体积累。这些学者担心,如果那样,经济史研究会过分依赖经济理论和计量方法、过于模型化,失去传统历史研究的人文关怀。当然,也有在场的历史学家认同迈耶和康拉德的新方法,比如诺思就支持。

   那次会议之后,几位学者对推广量化方法发挥了关键作用。诺思在1963年3月《美国经济评论》发表的论文谈到,“即使粗略地研究一下美国经济史中得到承认的那些'真理',也可以发现有许多东西并不符合起码的经济学常识,而且从来没有(也经不起)用统计资料做检验。”他说,经济史研究已经出现了一场新革命,就是由经济理论与量化方法结合带来的“新史学”。次年,福格尔发表著名文章《新经济史初探》,把新史学和传统史学的研究方法作对比,说:“在使用数据信息方面,当然还有别的方面,新、旧经济史显然是一脉相通的。

   不过,就兴趣而言,以往的经济史学家主要限于阐述从标准史料中发现的数据,并或多或少保留了原来的形式,很少进一步改造这些数据,因此无法阐明'严格意义上的经济分析概念';另外,旧经济史学家几乎无一例外地限于计量那些可以直接计量的东西,至于那些只能间接计量的东西,他们常常是从定性角度、而很少从定量角度加以讨论。”(这几段原文的翻译引自隋褔民:《创新与融合——美国新经济史革命及对中国的影响(1957-2004)》)。

   紧接着那番争论,福格尔、诺斯等陆续出版经典著作,比如福格尔1964年的《铁路与美国经济增长》、诺思1966年的《美国往昔的经济增长与福利:一种新经济史》。这些著作不仅深化了对美国经济史的研究,而且展示了用经济分析框架与计量方法研究历史的魅力。也因此,“计量史学”成为一种新潮。

   但是,从1970年代后期到1990年代中期,或许由于量化方法已经被接受为经济史的基本方法,每位学者都得掌握,所以,习以为常之后,计量史学似乎不再光鲜,进入冷静期。那么,今天量化历史研究又热了,会不会重复之前的“先热、后冷”经历呢?

   答案是不会。原因在于,到1970年代,计算机的速度、容量和数据库能力都没有到位。没有便宜且容量大的计算机系统,就不能处理量化研究所要求的繁琐计算,也不会有大规模数据库。量化方法再好也受制于“巧妇难为无米之炊”。但是,1980年代之后的电脑革命、尤其互联网革命完全改变了这种局面。根据Nordhaus (2017)的估算,计算机每秒能完成的计算指令数,从1851年到1940年的90年里加快大约一百倍,从1941年到1970年加快一百万倍,而从1971年到2006年的这段时间,计算速度再加快一千万倍。也就是说,相对1850年,2006年的人造计算机速度翻了一千万亿多倍,并且,计算机成本和普及程度更是经历了翻天覆地的变化。

   从这些变化中看到,1990年以前,并没有很多大学和档案机构把历史资料数据库化,量化历史研究难以大范围进行,就不足为奇。但是,1990年左右开始,世界范围内,特别是一些欧美大学与历史档案机构,陆续将历史档案电子化,同时把能够量化的历史指标建立数据库。就这样,到十几年前,互联网上能免费或者低成本访问的历史资料库已经具备相当的数量规模。这就为量化方法在历史研究中的广泛应用奠定基础,也客观上造成量化历史成果在过去十几年出现爆发式增长。

   今天,量化历史数据库很多,其中,社会学家引用广泛的五个数据库分别是美国整合公共微观数据库(Integrated Public Microdata Se-ries)、加拿大巴尔扎克人口数据库(BALSA Population Database)、荷兰历史人口样本数据库(Historical Sample of the Netherlands)、瑞典斯堪的纳维亚经济人口数据库(Scandi-navian  Economic  Demographic Database)和美国犹他人口数据库(Utah Population Database)。这些历史数据库公开后,大大推动了社会史、人口史的量化研究。

   在2006-2010年间的五年里,就有2360多篇发表于不同国际期刊的论文使用了这些数据库。由此可见历史数据库对历史研究的推动作用。数据库越来越多,机器计算能力越来越强,历史研究者很难继续回避量化方法。

   基于个案研读的传统历史方法还面对两个实质性挑战。一是“古代史比近代史好研究”的悖论,原因在于古代历史资料少,可以很快读完并能准确把握,而近代史资料多,不好把握。本来,资料多应该让近代史更好研究,可是,由于研究方法的局限性,反而是古代史更好研究。

   其次,即使只从近代史而言,研究方法也必须革新,否则就无解。就以清朝刑科题本为例,国家第一历史档案大约保留了60万件刑科题本,整个档案大约有1800万页手稿。假如史学者一天读550页,那么,要花90年时间才能读完刑科题本档案。所以,如果只有读一手个案资料才是做历史研究,那么,刑科题本一辈子也读不完。此外,还有奏折、实录、契约文书、地方志等海量历史资料,让传统研究方法难以应对。

  

为什么发明定居农耕

  

   我们不妨看一个具体的量化研究实例。今天大家都关注转基因食品的话题,怀疑这种粮食与肉食对人体有害。其实,这个问题在人类历史上不是第一次。人类当初放弃游牧狩猎而进入定居农耕,不再吃野外打回来的动物和果实,而是吃在家圈养的动物和粮食;当时的人肯定也争论过:这些东西怎么可以呢?人养的肉能吃吗,健康吗?农业革命是好事吗?尤其是著名学者戴蒙德(Jared Diamond)发表好多著作,说“发明农业是自从有人类以来所犯的最大错误,而且至今还没纠正!”为什么这么断言?

   在长达20万年中,世界各地人类几乎无例外地遵循“狩猎”加“采集”的生活模式。直到一万两千年前,人类从来没有真正“安定”下来;大约11500年前,先在今天中东的新月沃地开始定居农业,大约9000年前中国长江与黄河中下游,8500年前墨西哥的玛雅地区、4500年前秘鲁、北美东部和非洲撒哈拉以南,共7个地方分别独自发明定居农耕,并逐渐向四周扩散。最迟到4000年前,除大洋洲以外的所有陆地,都基本完成了农业革命。

也就是说,相比漫长的狩猎采集时代,世界各地的人在很短时间内转变了生活方式:驯化并播种植物、驯养动物、仓储食物和建立复杂的社会分层。(点击此处阅读下一页)

进入 陈志武 的专栏     进入专题: 量化历史   大数据   新知识革命  

本文责编:frank
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 历史学 > 史学理论
本文链接:http://www.aisixiang.com/data/112167.html
文章来源: 经济观察报观察家 公众号

1 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2018 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
易康网