李伯重:大数据与中国历史研究

选择字号:   本文共阅读 3846 次 更新时间:2017-06-25 13:12

进入专题: 大数据   中国历史研究  

李伯重 (进入专栏)  

编者按

“资料爆炸,必将引起旧史学研究方法的革命,反过来说,研究方法的变革也会引起史料的重大变化。很多材料原来不被视为史料,可现在变成了重要史料。”

本文为作者2016年2月24日于华中师范大学逸夫国际会议中心所做演讲,收入本书时略有修改。作者从历史研究为何需要大数据、大数据从何而来、怎样运用大数据以及大数据对史学研究的意义这几个方面讲述大数据与中国历史研究的关系。本次选文主要谈的是历史研究需要大数据的原因、大数据的来源及其成果。本文出自新书《大数据与中国历史研究》第1辑。作者李伯重,香港科技大学人文社会科学院教授;整理者李帅飞,华中师范大学人文社会科学高等研究院大数据历史专业研究生。


我今天讲的题目是“大数据与历史研究”。我想在座的同学,可能历史系的比较多。我们中国学者过去做历史研究,不管是做哪一方面的题目,很少会涉及“数据”这个概念,涉及“大数据”的就更少了。我相信在我这个年纪很多学者就觉得它是一种洋玩意儿,没有多少意义,值不得一提。也可能有一些比较年轻的学者觉得这是时代潮流,应当努力追赶。不管怎么样,这是一个谁也绕不过去的问题。我自己在最近一些年的研究中,总是力图探索和努力学习一些新的办法。所以现在有一点心得体会,和大家一起交流。有些同学等会儿提问的时候,如能给我一些启发、批评、指正,那就最好了。

我今天要讲的内容主要有几个。在国外,你要做研究,总要问几个问题:什么(what)、为什么(why)、在哪里(where)、怎么样(how)等等。首先要把这些问题搞清楚,才能展开研究。说到大数据,它究竟是什么?对于研究历史,特别是中国历史有什么意义?怎么使用它来进行研究?要把这些问题搞清楚。其次,我们还要回答:在历史研究中,大数据到底是万能的灵药还是江湖骗子?这是很多学者特别是人文学者心里始终存在的一个绕不过去的问题。不把这个问题搞清楚,就不会对用大数据研究历史有一个正确的看法。

首先,什么是大数据?若问什么是大数据,就先要问什么是数据。按许多人的理解这就是数字。从前我在清华大学教书的时候,一提到数据,总有一些非常好的文史学生,说我不做经济史、社会史研究,只是做文本研究或者思想史研究,跟数字无关,所以不需要“数据”。但是这个看法是错误的。数据,在英文中是data,大家从我演示的PPT中可以看到学界对于这个概念的一些最普通的解释。简单来说,数据就是信息或知识经过表达、经过一定的加工或者变成编码。制作数据的目的是什么呢?是让你更好地使用。数据包括各种字母、符号、语音、图像、图形等等,所以只要你做研究,你就一定要学会使用数据,哪怕你不叫它数据,它还是存在于你的研究当中。那么什么叫大数据呢?从数据的来源可以看到,它包括各种各样的形式的材料。就这些材料自身来说,它们并没有意义,要对你的研究有用时,才成为一种有用的东西。道理很简单:一本古书放在那里,本身不会产生作用,当你把里面的资料提出来加工、使用时,才会有意义。

什么叫大数据?就是大的数据,但怎么大,大家可以看PPT上的这些解释。简单说来,就是大到靠你个人不可能来收集和加工的数据。靠过去的方法,一个人再聪明,再了不起,没有办法建立大数据来搞研究。大数据必须经过计算机来处理。我们知道,有一些学者极了不起,例如陈寅恪先生,到晚年时,双目失明,他还可以完全靠记忆给学生讲课,哪一条史料在《新唐书》某卷某页,他都可以说出来。像这样的天才,全世界恐怕找不到几个。但是即使像陈先生这样的天才,他能够记住的信息还是有限的,因为人脑记忆是有限度的。更大量的信息,只有借助于现代技术,也就是说计算机才能够处理。

一般来说,大数据有五个特征,被称为5V特征,即volume(体量)、velocity(速度)、variety(种类)、value(价值)、veracity(真实)。也就是说,要体量大、速度快、种类多、价值高、真实可靠。有了这五个V的信息,才叫大数据。刚才我说了,大数据是伴随着信息技术产业和互联网行业才出现的。在过去,计算机没有出现之前,是没有大数据的。那个时候在西方发达国家有统计学,统计学家也收集了很多数据,写在纸上,但是很难使用,有时甚至就不能使用。我们中国有无数的古籍,有没有谁真正能够把它梳理一遍来使用呢?没有,因为这是不可能的。只有当计算机、通信技术、互联网出现之后,这些材料中所包含的信息才能够变成我们能够使用的信息。

为什么过去学者做研究不需要大数据,而今天我们做研究却需要大数据?这是因为时代不同了。具体来说,有两个原因:第一,今天是一个信息爆炸的时代,信息太多了;第二,历史学本身在发生变化。由于这两个原因,我们今天做历史研究离不开大数据。


第一,今天的信息爆炸需要研究使用大数据。

我们古代说一位学者“学富五车”,意思是他读的书可以装满五辆牛车。一个人能够读完五车的书,就非常了不起了。在春秋战国时代,纸还没有出现,那时的书写材料是削制成的狭长竹片(也有木片,称木简),牍比简宽厚,竹制的称竹牍,木制的称木牍。均用毛笔墨书。册的长度,写诏书律令的长三尺(约67.5cm),抄写经书的长二尺四寸(约56cm),民间写书信的长一尺(约23cm),因此人们又称信为“尺牍”。竹简很重,竹简上的字写得很大,一条竹简写不了多少字。像1953年7月湖南长沙仰天湖古墓出土的战国竹简42支,最长的22厘米,宽1.2厘米,篆文,每简2~10字。所以一本书需要几百条竹简,重量可能少则几斤、十几斤,多则几十斤。把五车竹简上面的内容印成今天的书,可能就只是五本分量较大的书而已。那时最有学问的人惠子、庄子这些人都“学富五车”,而他们从中所获得的信息量,就是我们今天几本或者十几本书所包含的信息量而已。

虽然信息量有限,但处理这些信息也不是很容易。中国历史上最勤劳的皇帝有三个,第一是秦始皇,第二是隋文帝,第三是清雍正帝。秦始皇焚书坑儒,是个暴君,但也要承认他是一个非常勤奋的人。《史记·秦始皇本纪》说:“天下之事无大小,皆决于上,上至以衡石量书,日夜有呈,不中呈,不得休息。”什么是“衡石量书”?意思是他下令各级官吏每天把天下的事都写成各种公文,亲自阅读处理。这些公文是写在竹简上的,秦始皇在御座旁边放一个大秤,他每天要看120斤重的公文竹简,要两个人才能抬得动。据今人估计,这120斤竹简有7500~10000片。按照一片竹简写10~20字计算,再除去留白,有10来万字。他要批阅完这些公文才休息,往往干到深夜。你看他够辛苦的,但实际上每天处理的事情还是有限的。因为他只能看这么多公文,所以从中获得的信息也是有限的。清雍正帝显然比秦始皇要幸福得多了,因为他批阅的公文是写在纸上的,而且形成一种很规范的书写格式。由于皇帝每天都要看的公文太多,所以从明朝开始,皇帝要看的公文,都要由内阁学士、军机大臣等秘书先看一遍,写个提要,贴在公文上,呈上皇帝。皇帝看了提要,了解大意,觉得需要更详细了解相关情况的,再读原文,大多数公文就只读提要了。皇帝的处理意见,也由秘书拟出,皇帝批个“可”字或者“否”字就行了。当然,如果皇帝不满意,还需自己写批示。即使如此,雍正帝每天只睡四个小时,平均每天都要写3000多字的批示。虽然如此勤奋,但是他处理的信息量还是有限的。

文人(即读书人)的情况也差不多。用杜甫、顾炎武的话来说,一个人读了一万卷书,下笔就如有神了;读了一万卷书,走了一万里路,就是个大学问家了。有些书篇幅很大,如《资治通鉴》就有294卷,《永乐大典》更有两万多卷。也就是说,一个人花一辈子,还不一定能够看完两万多卷的《永乐大典》。所以读书万卷,不是每个人都做得到。即使做到了,他所获得的信息还是有限的。

但是到了今天,特别是最近二三十年,情况变得太可怕了。我们经常说今天的“史料大爆炸”实际上就是文献资料大爆炸。其一,现有的文献资料数字化之后,你忽然就可以看到无数年来一直看不到的东西。我记得我写博士论文的时候是1983年,那时你们在座的还没出生。当时全国没有几个研究生,特别是博士生,全国首批毕业的博士就只有420人,还包括部队上的。因此研究生很受社会尊重,好像享有一些“特权”。我住在北京,每天清早骑自行车到北京图书馆柏林寺分馆看方志。那里的服务员非常好,一车一车地推过来给我看,从早一直到关门。我和我的一个师兄,就那么看了几个月。我的师兄做的是清代全国市场路线,他看了3500多种地方志。我做的是明清长三角经济史,看得比他少,大概看了1800多种。今天讲给学生听,大家都羡慕死了。后来我国的图书馆工作不断改进,越来越不让人去看这些书,我现在想去看也看不了。今天大家跑到图书馆里去,服务员把一车车的书推出来给你们看,恐怕是想都不用想了。但是今天你们不用去图书馆也可以方便地看书。为什么呢?因为有了大批的数字化文献,通过网络就可以得到。我现在来举一些例子让大家看一下。北京大学教授刘俊文先生的爱如生公司,建立了一个中国基本古籍库。这个数据库分4个子库20个大类100个细目,精选先秦至民国历代重要典籍,总计收书1万种,单库全文超过17亿字。目前爱如生公司已陆续推出包括中国近代报刊库、中国方志库、中国谱牒库、中国类书库等在内的大型数据库14个,包括四库系列、别集丛编系列、历代碑志系列、地方文献系列等在内的9个系列共82个专题数据库,包括明清实录、永乐大典、四部丛刊等在内的数字丛书库50个。另外还有“原文影像版数字原典”产品8个、“全文检索版拇指数据库”9类1000个产品。我近年来做军事史研究,花了6000块钱,从该公司买了一个小数据库,鸦片战争以前所有的兵书都收在里头,每一页上面是原文图像版,下面是检索版。这个数据库帮了我很大的忙,我也就不必想办法到图书馆古籍部去看一些古本珍本了。北京时代瀚堂科技有限公司推出的“瀚堂典藏”,分为古籍数据库、近代报刊、民国文献大全三大主体部分。全库共包含15000多种古籍,25000种民国报纸期刊,近4000万条记录,汉字总量超过40亿。近年来湖南青苹果数据中心有限公司提出创建“华文报刊文献数据库”计划,将从清朝嘉庆年间至今两百年的4000种报刊中挑选1/10进行数字化,形成拥有4000亿汉字和4亿篇文章的海量历史文献库。除了那些大型的数据库之外,中小型的也非常之多,如果大家有兴趣,可以看看耿元骊的《三十年来中国古籍数字化研究综述(1979~2009)》。我国在古籍数字化方面的研究进展非常迅速,在30年前根本是不可想象的,而今天早已经变成了现实,不仅如此,数据库制作的技术标准也在不断提高。到了今天,古籍数据库大多据初印原件或权威复印件,采用独有的数字化技术制作,三窗点选式页面,时间和区位自由切换,左图右文逐页对照,毫秒级全文检索,配备多功能研读平台。这就为阅读提供了极大的方便。

由于这些数据库的海量,同学们要读完一个数据库中的材料,我想活一百辈子也做不到。这些书本来都是存在的,在图书馆里都有,但是没有数字化之前,它们对绝大多数人来说是无法接触到的。现在都可以读了,所以说是大爆炸。现在我们同学做毕业论文,查地方志和各种史籍,不用跑到图书馆里。已有的文献数字化之后大家都可以看到了,就像一个世界在你面前打开了。

其二,有很多原来不被看成史料的,今天随着研究的进展,也变成了非常重要的材料、第一手资料,这数量也是海量的。山西大学中国社会史研究中心在过去的20年中,收集了数量巨大的民间文书。我问中心主任行龙教授,现在有多少件文书,他说现在有1500万件左右,涉及200个村子。那就是说,每一个村子平均下来就大约有7.5万件。这些主要是人民公社时代的材料,什么都有,包括土改、合作社、人民公社时代的各种材料,例如人民公社时代每年的工分本、分红本,各个时期的治安情况材料,人民内部矛盾检讨,等等。这些材料过去都被认为是没有史料价值的,而今天看来是极其重要的。如果你用这些材料去研究山西农村,你得出的结论会完全超乎你想象。又如上海交通大学历史系以上海郊区、苏南、浙北地区为中心兼及中西部地区的“县级档案与契约文书的收集、整理与研究”项目,已汇集8省50县约600万页档案和30多万件民间契约。还有,浙江大学地方历史文书编纂与研究中心与浙江龙泉市档案馆合作整理出版的该馆所藏晚清至民国时期地方司法档案总计17333卷宗88万余页。龙泉司法文书的整理成为国家项目,立项时请我到开幕式上去讲几句话。当时我大吃一惊,怎么这个县会有那么多文书?后来得知龙泉在浙江南部山区,交通不太方便,抗日战争和国内战争都没有波及。所以从康熙时代起,一直到1950年解放军去接管这个地方,打官司的文件全部都在这里面,对于研究社会经济史来说,材料当然是非常丰富。还有一些你想不到的那些少数民族地区,比如说清水江,贵州的一条河,大家可能听都没有听说过。这是一个苗族、侗族等族人民生活的地区。在这个地方,现在还有几十万件文书遗存在民间,即清水江文书,又称“清水江民间契约文书”,主要是指明末清初以来直至20世纪50年代共约400年的历史长河中,贵州清水江中下游地区苗族、侗族林农为了经营混林农业和木商贸易而形成的大量民间契约和交易记录。据保守估计,目前至少尚有十万件遗存于民间,也有专家推测清水江流域各县遗存的这类契约文书可多达三十余万件,主要分布和收藏在清水江流域中下游的黎平、锦屏、天柱、三穗、剑河、施秉等县苗族、侗族农户家中。中山大学陈春声、刘志伟教授他们的一个团队去那边看后,陈教授做了一个报告,大家听后都非常吃惊。大家知道,在明清时期,中国在国际贸易中处于主动的地位,中国产品风靡全世界,西方国家都来中国购买,而中国人对他们的产品不感兴趣。这就出现了巨大的贸易逆差,但是逆差需要解决。那个时候的贸易是一手交钱、一手交货,你没有货怎么办?硬通货拿来支付。当时国际贸易中的硬通货是白银,主要来自中美洲的墨西哥、秘鲁和玻利维亚三个国家,世界大概80%的白银都来自这儿。几百年来,中国好像就是一个无底的吸银器,白银不断地进来后就不出去了。这些白银到哪里去了呢?陈教授他们去看了这些文书材料发现,这就是白银沉淀在中国的一个原因。在这些交通不便的山区,每一户苗族、侗族人家,家里都有几十斤白银做成的银饰,都是从祖母的祖母、祖母的母亲、祖母、母亲一代代传下来的,到女儿出嫁的时候,母亲把传下来的东西送给女儿做嫁妆。比较富裕的人家,银饰一般在30斤以上。这个偏僻贫穷的山区,普通人民之所以有这么多的白银,是因为清代这里有一个非常繁荣的木材市场。中国东部木材匮缺,木材从哪里来?就是从长江中上游来,从清水江流域、金沙江、湘江、赣江这些地方过来。购买木材的商人是从哪里来的?主要是由徽州一带来。徽州商人到少数民族的地方,用白银向他们把一片一片的山买下来,买了之后雇人来砍树,砍了之后把木材顺着小溪拖到清水江,沿清水江而下,运到乌江,再由乌江转运到长江。我买你这一片山,我买你这一片坡,我给你几百两银子,你把它砍完。在这些文书里就有大量的买山的证据。这些银子到这个地方有什么用?在这里又不能买到什么东西,但是苗族、侗族人特别喜欢用白银做首饰。这些买卖的契约文书都保留下来,解放后土改没有触及这个少数民族地区,“文化大革命”也没有触及。这里的苗族、侗族人民大部分都不识汉字,他们认为祖宗留下来的东西很宝贵,所以每家都把它们用布包好,放在自己供神的地方搁着。中山大学的学者发现这些文书,就觉得了不得,说服了当地人民,把文书借出来,复印一份带走,而原件则还给主人。由此可以看到,这些文书改写了中国的历史。为什么这样说呢?中国偏僻边远的贵州苗、侗族山区,和隔半个地球的秘鲁、墨西哥、哥伦比亚,通过贸易联系在一起了,可见世界各地彼此关联,没有真正与世隔绝的地方。但这些材料从来都没有人知道,而今天出现了,而且类似的材料还会不断地被发掘出来。

上面说到的这些材料中,都包含了一些有用的信息。这些有用的信息就是我们史料学里面的数据。这些信息要从不同的材料中筛选出来才能应用。史料中有用信息的筛选,就是数据挖掘(data mining),即:“从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。”

我们读了很多古书,其中并不是每一句话都对我们的研究有用,可能只是某一小段被引用,因此说是史料挖掘。这个工作或许非常的辛苦。郭松义先生应该是现在我国清代社会史方面的最好的学者,他这个人非常了不起,甘于坐冷板凳,花了十年以上的时间,天天坐在中国历史第一档案馆里面看清朝的刑部档案。郭松义先生研究清代在京山西商人和司法审判中的私通行为,前者有136宗样本,后者有403宗案例,从社会科学角度来看体量并不大,但这些个案分散在“乾隆朝刑科题本”、“宗人府来文”、“内务府来文”、“八旗都统衙门档案”、“刑法部档案”、《刑案汇览》、《刑案汇览续编》等众多官方文献,以及《资政新书》、《樊山政书》等海量个人文献中。了解这些史料并找到所需研究个案是非常困难的。他筛选出来的这些信息非常重要,得来实在不容易。勤奋如郭先生,花费了多年的辛劳,从巨量的档案资料中才筛选到500多宗案例。今天我们有更多的材料,如果我们还是使用传统的方法去阅读和筛选有用的信息,可能会在海一样的文献面前投降。

有四位计算机科学专家(Paul C. Zikopoulos、Chris Eaton Dirk de Roos、Thomas Deutsch与George Lapis)写了一本《理解大数据:企业级Hadoop和流数据分析》,据说:“在‘很久以前’(出于某种原因,我们的孩子认为是我们像他们那么大的时期),矿工可实际地看到金块或金矿脉;他们能清楚地认识到它的价值,并且在以前发现金矿的位置附近挖掘和筛选,希望发一笔横财。尽管这里有更多黄金(可能位于他们旁边或数英里外的山中),但他们用肉眼看不到,所以这就成了一个赌博游戏。您疯狂地在发现黄金的地方附近挖掘,但您不知道是否会找到黄金。而且尽管历史上有许多淘金热的故事,但没有人会调动数百万人来挖掘每个角落。”同样地,过去在可以读的书有限的情况下,我们可以熟读这些书,然后从中寻找有用的信息。今天有这么大量的文献资料,而且很多是没有经过分类的,没有索引,无法检索,我们怎么去找?那只有搞人海战术了,就像20世纪50年代那样,政府组织大批学者去编各种史料汇编。

但是现在情况不同了,“如今淘金热的运作方式大不相同。对金矿的挖掘可使用需要巨额资本的设备来执行,用于处理数百万吨无用的泥土。如果要肉眼可看到金矿,通常需要30mg/kg(30ppm)的矿石品位,也就是说,现在金矿中的大部分黄金是肉眼看不到的。尽管所有黄金(高价值数据)都在整堆泥土(低价值数据)中,但通过使用正确的设备,您可以经济地处理大量泥土并保留您找到的金箔。然后将金箔集中在一起制成金条,存储并记录在安全、受到严密监视、可靠且值得信赖的地方”。大数据就是在这种背景下出现的。所以,有“大数据之父”之称的维克托·迈尔·舍恩伯格(Viktor Mayer Schnberger)说:“大数据时代带来的信息变革,比人类发明印刷机之后发生的阅读革命还要猛烈,各种形式的电子阅读及其高度普及,颇能说明这一点。”今天在座的同学,我想没有一个没有手机,有的同学甚至成了低头族。对于你们来说,没有手机,没有网络,没有微信,就活不下去。那是因为什么?因为你离不开这种互联网提供的各种资源。在这种革命的背景下,如果我们不去充分利用最新的成就,就不能更好地研究,很多问题都不能很好地解决。


第二,今天的历史学科学化需要研究使用大数据。

历史学是科学还是人文学知识?现在的趋势是越来越多的人认为是科学。2015年在山东举办的第22届国际历史科学大会是谁来组织的呢?是国际历史科学委员会(The International Committee of Historical Science)。该委员会请我在第21届国际历史科学大会开幕式上做基调报告,2000年在荷兰阿姆斯特丹。今天的历史学,虽然不像社会学、经济学那样是一门完全的社会科学,但是也越来越科学化。科学化的历史学叫scientific history,这不是科学史(history of science),而是科学化的历史学,是用科学的方法研究历史,而不是研究科学本身的历史,所以是不同的。要把历史研究变成科学,有两个方面,即史料学方面和方法论方面都要科学化。这两方面都做到科学化,历史研究才能成为历史科学。

历史学科学化的过程,不是今天才开始的。史料学的科学化,就开始得很早。北京大学的钱乘旦教授指出,在史学史上,“兰克之前的历史学著作写作比较随意,包括司马迁的《史记》和希罗多德的《历史》都是这样。你不知道这些记录的来源和出处,无法判断其真实性,也不知道它们运用了哪些史料,或者根本就没有史料而只是凭道听途说甚至想象。比如‘霸王别姬’,威武悲恸、气壮山河,后人却无法求证。英国历史学家马考莱的《英国史》写到光荣革命,也是生龙活虎,但也无法验证。中世纪的西方编年史有很多是修道院修士们所写,一部分是他们的亲身经历,但也有部分是听说的。中国古代后来编修‘正史’,倒是要用起居注这一类文字记载,不过也没有一定的规范”。确实如此,司马迁没有注出“霸王别姬”的故事的史料是从哪里来。项羽乌江自刎,离司马迁写《史记》时,已经一百多年过去了。司马迁怎么知道霸王在哪里别姬,唱了什么歌。因为没有注明出处,所以我们只能说,我们认可司马迁个人的诚信,但是再诚信的人,也有听到不实情况的时候,所以霸王别姬这件事,是无法证明的。皇帝的起居注,皇帝每天发生什么事情,都记载下来,但是皇帝有时候也拿来看的,看得不顺眼就要删掉。所以根据这个起居注写成的实录、写成的正史,你也不知道它的真实性到底怎么样,用这样的材料我们写出来的历史,它就可能会成问题了。

到了19世纪后期,德国历史学家利奥波德·冯·兰克(Leopold von Ranke,1795~1886)才开始把历史学科学化。说到兰克,我想学习历史的同学都知道。兰克被称为西方的“客观主义史学之父”。兰克对历史学的改革,被称为“兰克革命”,而他所创建的新的历史学,则被称为“科学的史学”。在兰克看来,历史学就是通过搜集、辨析原始的文献资料,并依靠这些经过考证的史料,用文字复原曾经存在的客观事实,即所谓“如实直书”原则。兰克革命的核心是用一种非常严谨的方法研究历史,规范其研究方式,把历史学当作一个专业。兰克提出写历史要非常准确、完全真实。为此他制定了一套规范,要找到非常可靠文书、档案等资料,证明是非常坚实可靠的内容,才可以当作写作素材。使用可靠史料是恢复真实历史的基本出发点,而判断史料的可靠性,就需要依靠一整套完整的科学方法。这样一来,历史研究就变成科学了,通过使用科学方法而写出真实的历史。

要准确、真实地写历史,那你要说明你用的史料是从哪里来的,要尽量运用没有经过加工的史料,即第一手史料,例如文书、档案等。但是这些材料只是素材,其中包含的信息是不是正确,还需要考证。你不能说,因为是司马迁说的,所以“霸王别姬”就是完全真实的。你要弄清楚,这个故事是谁听见的,谁记录的,为什么他会把这个故事记录下来,等等。这些,我们就要弄清,如果没有弄清,那这就是一段不可靠的史料。因此,弄清史料来源,保证史料的可靠性,是非常重要的。

由于兰克的科学化史料考证对于史学研究至关重要,所以“兰克革命”的意义也非常重大。兰克培养了一批学生,成为专业化史学的先锋。在德国,他的门生几乎垄断了各个大学的史学讲坛。还有不少外国的留学生,纷纷把他的史学理论及治史方法介绍到本国。通过阿克顿所创立的英国“剑桥学派”,通过法国的蒙诺德等人的鼓吹,兰克的名声传遍了西欧。甚至远在大西洋彼岸的美国和亚洲的日本等国,在19世纪中期以后也受到了他的影响。1884年美国历史学会成立时,他的信徒特为他呈献了唯一的“荣誉会员”的花冠。著名美国史家乔奇·班克劳夫特称他为“现犹健在的最伟大的历史学家”。所以兰克史学掀起的史学革命就是史学近代化或者科学化的第一步。

但是,所用史料全都正确无误,就能够保证研究结果正确吗?吴承明先生是我国经济史研究的泰斗,他说:“即使做到所用史料尽都正确无误,仍然不能保证就可得出正确的结论。”要得出正确的结论,研究方法也必须科学化。

历史学家也在追求怎么使历史研究变得科学化,余英时先生说:“自十九世纪末以来,西方(英、美、法)史学主流便是要把它变成一种‘科学’(即所谓‘科学的史学’,Scientific History)。二十世纪西方史学的流派多不胜数,但其中最有势力的几乎都企图从不同的角度与层面把史学化为‘科学’……二十世纪初叶美国‘新史学’继‘科学史学’之后,其目的仍然是为了扩大史学的‘科学化’,不过不是直接与自然科学接轨,而是与社会科学合流,而社会科学当然奉自然科学为最高的知识典范。这一潮流在美继长增高,至五十、六十年代而登峰造极”。

这里提到“新史学”,大家知道这个名词是美国学者鲁宾逊在1912年出版的《新史学》一书中提出来的。而实际上,早在1903年,梁启超先生在同样题目的文章中就已提出了这个口号。不过梁先生没有对此展开细致的讨论,而鲁宾逊则做了很详细的论述,讨论怎么把历史学变成一门真正的科学。鲁宾逊之后,不断有人提出要发展“新史学”,因此“新史学”到了今天已经是若干代了。“新史学”在20世纪五六十年代登峰造极。其中最有成就的就是经济史,被称为“新经济史革命”。为什么叫作革命?过去的历史都是叙述的,所以很不重视数字。例如《史记》里说项羽带8000江东子弟,打垮了秦朝。但是项羽到底有多少兵,谁也不知道。又如秦始皇讨伐南越,出兵50万,抵御匈奴出兵30万,而当时中国的人口大约只有2000万。因此这些数字到底是真的还是假的,无从考证。古代打仗喜欢虚张声势,交战的一方明明只出兵3万人,常常说是10万、20万、30万人,以壮大声势,吓唬敌人。由于这些数字不可靠,所以无从进行定量研究。到了后来,可靠的数字多了,这个时候就应当强调定量了。

在经济史研究中,传统的方法以定性研究为主,比如说研究社会制度、阶级斗争等,而后来数据多了,定量研究兴起,于是形成两个阵营。古德里奇(Carter Goodrich)说:“新经济史的出现是经济史研究历史上的一件大事。定量研究方法的采用使得传统的经济史研究正在面临一场严重的挑战,这是一次新的‘知识革命’,就好像工业革命时期机器织布对手工织布是一次革命一样。……经济史研究已经分成两个阵营,一个是以文字形式表现,一个是以数据形式表现,前者可以称之为‘经济史’,后者已经不能称之为‘经济史’了,需要另外起一个名称。”

那么,史料爆炸和方法变革之间有什么关系呢?关系非常密切。法国年鉴学派第三代领袖勒高夫说,“历史学今天正经历着一场‘资料革命’,这一革命与新史学有着千丝万缕的关系”。资料爆炸,必将引起旧史学研究方法的革命,反过来说,研究方法的变革也会引起史料的重大变化。很多材料原来不被视为史料,可现在变成了重要史料。刚才我说到各种文书,重视地方民间文书,是从谁开始的呢?是我的恩师傅衣凌先生。抗战期间,日本轰炸厦门,厦门大学师生逃难到闽北山区,傅先生那时是青年教师,看见村子里、祠堂里都有一些契约文书。傅先生在大学里念过社会学,觉得这些文书很有意思,他就把它们收集了起来,从里面搜寻有用的信息,研究中国农村社会。所以,傅先生就成了我国使用民间契约文书研究社会历史的第一人。可以说,这些史料的发现和使用促使我国农村社会史研究产生。


第三,大数据从何而来?

你如果问一个做计算机科学的人这个问题,他会告诉你,要进行以下几个步骤:(1)数据采集(data collection);(2)数据处理(data processing);(3)数据验证(data validation and verification);(4)数据格式化(data filing in a readily accessible format)。对于我们做历史的人来说,数据采集,就是收集史料。从收集来的相关文献中看看里面的史料哪些对你有用。一本书里的史料不是都有用。我1983年在北京图书馆柏林寺分馆古籍库看书时,每天要看好几车书,哪里能每一本都看过?我是查看其中对我有用的部分,比方说,地方志里的物产志、风俗志等,从中你会找到对你有用的东西。然后我们要问:这些东西是不是正确的?不见得写在纸上的都是正确的,所以我们要验证,最后,要把你获得的资料变成一定的格式,供你使用。那么有人可能要问:不是要忠于原始资料吗?经过这样的处理、加工,史料不就不是第一手的了?这种想法不对,因为在所谓的第一手材料里,你需要的是那些有用的信息、可靠的信息、真实的信息,而这些信息不是自然而然就表现出来的。我们常说,要让事实说话。但是事实自己不会说话,它只能通过一定的方式才能被表达出来。所以年鉴学派的大师菲雷(Francois Furet)说:“在确定自己的研究对象的过程中,历史学家必须‘创制’自己的原始资料”;“资料的编码是以资料的定义为前提的,资料的定义隐含着一定数量的选择和假设,而假设更是人们有意识的行为,因为人们必须按照一种程序的逻辑对它们进行思考”。在选取你需要的资料时,你要问问自己:为什么要用这些资料,而不用那些资料?你要以你的研究题目为出发点,根据一定的标准将资料选出来,然后加工、改变。因此,只重视“原始资料”或者“第一手资料”是不够的。

最后,我们来谈谈做大数据,成果是什么。这个成果就是数据库。数据库是什么?大家请一定要记住:数据库并不只是统计表,不只是若干的数字。数据库(database)是依照某种数据模型组织起来并存放在二级存储器中的数据集合。这种数据集合具有如下特点:尽可能不重复,以最优方式为某个特定组织的多种应用服务,其数据结构独立于使用它的应用程序,对数据的增、删、改和检索由软件进行统一管理和控制。从发展的历史看,数据库是数据管理的高级阶段,是由文件管理系统发展起来的。

数据库因为太大了,没有办法以传统的书刊方式放到图书馆里,放到书房里,而只能放在电脑里。不仅如此,数据库是针对特定研究题目设计出来的,比如说要做人口研究,那么就要在数据库里设立出生、死亡、年龄、性别等类别,把相关数据分门别类放在里头,同时根据你的需要,设计出一种方法,把各类信息关联、组织起来。所以说,数据库是数据管理的高级阶段。刚才我说到,我们看书,靠自己记笔记,再整理成数据,这只是初步的工作。在过去的几十年中,国外的社会科学界建设大型数据库已取得了巨大的成就。1962年,以美国密歇根大学为基地成立的跨大学政治和社会校际联合数据库(Inter-university Consortium For Political and Social Research,简称ICPSR),联合全世界600多个成员机构,存储超过17000种调查资料,是目前世界上最大的社会科学数据中心之一,对经济学、政治学、社会学、人口学以及法学等学科研究具有重要价值。1998年起,IPUMS首席科学家罗伯特·麦凯(Robert

McCaa)先后说服100多个国家的统计机构与IPUMS合作,将各自数据库连接起来并免费用于学术研究。目前,IPUMS包含19世纪以来多个国家[包括中国第三次(1982)、第四次(1990)人口普查]的微观数据。现在,IPUMS数据还在不断增长,其中最显著的是从18世纪开始到20世纪中期,以数字抄本为基础的历史人口微观数据。到2018年,IPUMS数据记录总量将扩展到20亿人次。

现在国际社会科学学界已经有五大数据库,即:(1)美国整合公共微观数据库(Integrated Public Use Microdata Series,简称IPUMS);(2)加拿大巴尔扎克人口数据库(BALSAC Population Database,简称BALSAC);(3)荷兰历史人口样本数据库(Historical Sample of the Netherlands,简称HSN);(4)瑞典斯堪尼亚经济人口数据库(Scanian Economic Demographic Database,简称SEDD);(5)美国犹他人口数据库(Utah Population Database,简称UPDB)。这些数据库是公开的,大家都可以去浏览。我们中有许多人想不到,荷兰、瑞典这些小国在大数据建设方面也很发达,一个原因是政府支持,因为这些国家的学界和政府都认为这是基础建设,所以应当投很多钱去做。这些数据库主要是供研究近代和现代的社会科学工作者使用,不过在全球范围内,用大数据研究历史也是方兴未艾。宏大的历史研究数据库也在建设中。例如美国匹兹堡大学曼宁(Patrick

Manning)教授主持的CHIA计划,旨在构建一个在空间方面横跨全球,在实践方面跨越近四五百年的全球史资料架构。这个数据库是开放的,不断扩展的,可以把新材料放进去,材料有错误可以随时改,所以是动态的。有了这个数据库,如果同学要做近四五百年中的某个问题的研究,可以直接进入数据库查找自己需要的数据。这样,你们就不必自己去苦苦搜寻、整理和验证无数的原始材料了。当然,现有的数据库(特别是大数据库),虽然已经出现了一些,但对于许多具体研究来说,还没有现成的,因为现有的数据库大多都不是为个人定制的。指望在选题写硕士论文、博士论文时,对导师说,请你给我一个数据库,这是不可能的,要你自己想办法。一方面,要充分利用现有数据库中的东西,另一方面要自己建立一个符合自己研究需要的小数据库。在这方面,我国历史学界目前还处于起步阶段。香港城市大学教授祝建华有篇文章《一个文科教授眼中的大数据》讲道:“大数据是好,但是大数据在哪里。如果我们拿不到大数据,就是一个橱窗里面的蛋糕,只能在外面看。按照我的看法,我们可以把大数据分成几种,小规模的、中型规模、巨型规模的。小规模的非常多,免费就可以得到。中规模大部分情况下也是免费的或者是低成本的。真正的大数据其实是得不到的。做应用也好,做工具服务也好,都必须考虑这个问题。这就讲到数据的分析工具,实际上大数据的分析工具并不发达,我们现在所用到的绝大部分工具都是用来解决小数据问题的,用来解决常态数据对异态数据的统计工具。”完全符合你的研究需要的大数据,其实是没有现成的。做研究时必须考虑这个问题。在中国社会史方面建立数据库并运用数据库进行研究做得最好的,目前被认为是李中清团队。

李中清(JamesZ’Lee)与康文林(Cameron Campbell)从20世纪80年代起,花费20多年时间,建立基于八旗户口册和清代皇室族谱资料的中国多代人口系列数据库(China Multi-Generational Panel Data Series,简称CMGPD)。该系列数据库包含辽宁、双城和皇族三个子数据库,其中前两个已在ICPSR网站上对全球学界免费公开。辽宁数据库涵盖1749~1909年辽东地区26万人的150余万条记录。双城数据库涵盖1866~1913年黑龙江双城县10万人的130余万条记录,并尝试与不同时段的家户地亩资料相连接。李中清-康文林研究组目前正在收集清代和民国教育与官员考核史料,以构建两个新的全国性量化历史数据库。一个是由李中清、梁晨负责的民国大学生学籍信息数据库。目前已收集、输入近10万民国大学生的学籍信息,对民国大学生社会来源问题研究很有帮助。另一个是康文林负责的清代《缙绅录》资料的数据库化和量化分析。目前已确定《缙绅录》涉及50万官员超过260万条个人记录,对系统分析清代官员人际网络和职位波动意义重大。这个大学生学籍信息数据库有将近10万人。民国时,没有像今天我们常见的动辄几万人的巨无霸大学。像北京大学、清华大学这些出名的大学,早期学生也就几百人,到了抗战时期也就千把来人。所以10万人,是一个非常庞大的数字。另外一个数据库是清朝缙绅数据库。在清朝,一个人做了官之后,都有一个介绍他的家世和简历的记录,收入《缙绅录》。李中清团队收集的数据,涉及50万官员的超过260万条个人记录。通过这个数据库进行研究,可以看出有多少官员是通过科举考试上来的,有多少是通过亲戚连带关系当官的,多少人是幕僚出身,多少人是捐纳出身。这就可以清晰地看出不同时期的情况,可以从中发现许多有趣的现象。如果你们做的研究在时间上更早一些,那么可以使用哈佛燕京学社、中研院史语所和北京大学中古史研究中心合作的“中国历代人物传记资料库”,这个数据库涉及36万人的材料,目前还在继续扩大。如果将来你要研究晚明的人物,那么你可以通过数据库,看看他们生活在当时的社会中,和什么人来往,他们之间为什么来往,从而把他们之间的人际关系放在当时的社会中去考察。


第四,怎样运用大数据?

史学界对历史数据库的理解和利用有个过程。数据库建成初期,学界对它们的利用很有限。以当前国际上最有影响的五大历史量化数据库为例,进入20世纪90年代,尤其是1995年以后,情况发生巨大转变。2006~2010年的五年间,检索五个数据库的新增学术发表成果已达2360余篇。但是使用者多数是社会学家、经济学家、人口学家,而历史学家则因为不懂,所以很少有人利用这些数据库。历史学者主要是利用数字图书馆的搜索引擎便捷地阅读书籍,作为获取资料的主要方式,利用大数据技术分析、辨别数字化文本史料的工具仅仅处于尝试性开发阶段。不仅如此,一些学者也开始使用其他方法使用数据库。例如,谷歌公司最先开发出在文本中统计词频的算法,不论在计算机中输入什么词或词组,这种算法都会输出这些词或词组的词频统计结果。谷歌公司的工程师分别输入了“黑鬼、黑人、非裔美国人”、“科学、哲学与宗教”等词组,计算机绘出了这些词组出现的时间、频次的对比图,历史学家可以通过分析这些数据阐释黑人在不同时期的美国社会受到的不同对待,以及科学、哲学与宗教在人类历史不同时期的地位,从而展开多样性研究。做美国黑人的社会变化研究,你不靠大数据库,我想你一辈子都看不完资料,因为有无数报刊、档案。刚才我说到李中清、康文林他们做辽宁道义屯的研究。他们将辽宁地区家谱、碑记中18、19世纪的人口记录和20世纪对从记录中挑选出来的农村家庭后代的回溯性调查相结合,构建出一个延续200多年的该地区大规模个人成就的追踪数据库。其中的每条记录都包含个人受教育程度和官职等衡量标准,在此基础上建立了衡量个人的父亲及其家族和家族分支总体特征的解释变量。利用这个数据库,他们写了一篇文章《中国农村传统社会的延续——辽宁(1749~2005)的阶层化对革命的挑战》。这篇文章指出清代和中华人民共和国时期辽宁地区父亲与儿子所取得成就的相关程度的差异由此得以清楚展示,并对比研究了清代和1949年以后,这些家族在政治和教育成就方面的等级变化。尽管建国以来,辽宁地方的政治、社会和经济状况发生过多次具有深远意义的变化,但很多人口行为,如社会分层、社会流动等,其惯例和范式却可能变动不大,从清朝一直延续到了今天。也就是说,经过200多年的众多变化,农村阶层结构变化不大。1949年革命成功,接着经过集体化、公社化等运动,大家觉得农村原有的社会结构已经天翻地覆,今天的情况应该和过去也截然不同了。但是从这项研究可见,经过对多代人经历的分析,可以看到这样的现象,即先辈做什么,子辈也做什么,这种概率非常高。也就是说,在清朝,做村长的人,其后代做村长的概率大大超过一般人,读书人的(“官学生”)后代成为读书人、富人的后代成为富人、穷人的后代成为穷人的概率,也都如此。到了1949年以后,农村干部的后代成为干部的概率也最高,农村有一些孩子读过中学或者大学,他们的孩子接受教育的概率也明显高出一般人。村子里面最穷的人,大多是原来的“地富分子”,他们的后代也都是穷人,也就是说,村里各种人的地位变了,但社会结构没有变。这个结论是很有震撼性的。当时李中清教授在清华大学做讲座时,有人问道:你的这个结论和我们的感觉不一样。李中清教授的回答是,你的感觉可能有道理,但是我们的结论是用大数据统计出来的,你的感觉是一些个案,个案都是个别变量,个别的变量在统计学上意义不大。所以,李中清教授的这个重要研究如果离开了数据库,是做不出来的,可见数据库确实非常重要。另外一个例子,也是李中清教授团队关于近代中国大学生来源的研究。这项研究成果已经出了一本书,书名《无声的革命》,在全国政协大会上,俞正声主席特别提到这本书,并向刘延东副总理推荐。李中清教授和他的团队(梁晨、张浩、李兰、阮丹青、康文林)认为1949年以来,中国高等教育领域出现了一场革命。新中国高等教育生源开始多样化,以往为社会上层子女所垄断的状况被打破,工农等阶层的子女逐渐占据相当大的比重。基础教育的推广、统一高考招生制度的建立以及重点中学等制度安排共同推动了这一变革的出现。这场革命虽然不及社会政治革命那样引人瞩目,却同样意义深远。受教育者本人在实现命运转变的同时,也改变了国家和地方精英的身份构成,传统社会中封闭的阶层关系和结构被彻底改变了。本书利用1949~2002年北京大学和苏州大学学生学籍卡的翔实资料,力图将这一革命及其成就呈现出来,为中国高等教育改革与发展提供借鉴。“无声的革命”最基本的表现是,仅在北大和苏大,接近8万的年轻人通过高考实现了向上的社会流动。如果其他精英大学情况也类似,那么实际上经历类似命运的年轻人可能会有百万甚至数百万。除了整体上的转变之外,在一些具体的领域,“无声的革命”体现得更加明显。例如在美国的医学界和学术界,大部分学生都出身于相关领域的世家。但是在中国,情况并非如此。

这里说一下,大学生入学,都要填写学籍卡,上面有名字、性别、家庭出身、读书多少年等信息,都相当详细,也相当确实。用这些信息制成数据库,即可进行大数据研究。据这项研究得出的结论是,在1865~1905年,即清政府废除科举之前,超过70%的教育精英是官员子弟,来自“绅士”阶层;1906~1952年,超过60%的教育精英是地方专业人士和商人子弟,尤其是江南和珠三角地区;1953~1993年,超过40%的教育精英是来自全国的无产阶级工农子弟;1994~2014年,超过50%的教育精英来自各地区的有产家庭与特定的重点高中。

由此可以看到,中国的高等教育和中国社会的变化确实是非常之大的。当然,最近有人批评说,这个结论可能还是有一些问题,比方说来自农村的“农民”子弟会不会实际上大多数是农村干部子弟,这个就很难界定了。但是这个结论依靠的是李中清、康文林领衔的“基于个人层面的、从1760年至今中国教育精英社会与地区来源的数据库”。这个数据库相当大,所以在所涉及的范围内来说,得出的结论是可靠的。而且,这个结论中谈到现今的发展趋势会不会使得中国高等教育越来越变成有钱人的孩子才能读书的情况,这也很值得重视。

刚才我说社会经济史可以进行大数据研究,可能有人觉得我不做社会经济史,所以大数据研究与我无关。但是社会经济史之外,大数据还能不能用于别的历史研究呢?大家来看看这两本书,一本是金观涛、刘青峰的《观念史研究》,另一本是黄一农的《二重奏:红学与清史的对话》。

金观涛、刘青峰,你们大概不知道,因为他们活跃时,你们都还没出生。他们后来在香港中文大学。他们做的是观念史,观念与量化似乎没有什么关联,但是他们使用数据库做关键词词频统计、语义分析与观念史研究,借助于内容达1亿2000万字的“中国近现代思想史全文检索数据库(1830~1930)”进行观念演变的探讨,并将这种方法称为“以包含关键词例句为中心的数据库方法”。他们指出:随着史学材料和研究方向的不断扩大,史学家的工作似乎走入“愈发琐碎的考证的泥潭中”,而建设大规模材料数据库可以有效地解决这个问题。他构建的跨越100年(1830~1930)的中国近现代思想史全文检索数据库,确实在解决近代观念史研究的诸多重大问题上展现了强大功能。

有的同学会说,我做不来数据,那我去做考据吧,因为考据和大数据没有关系。黄一农是中研院院士、台湾“清华大学”教授。他是学理工科出身的,获得的学位是天文物理学博士,后来转向历史学,先做天文学史,后来做军事史,但近年来专做《红楼梦》研究。大家知道,《红楼梦》是中国文学史中最难研究的作品,所以才会出现一门学问叫“红学”。从鲁迅时代开始,就有众多学者在研究“红学”,但是就《红楼梦》到底是不是曹雪芹的自传这一核心问题,到现在为止也没有获得共识。有些人说是,也有人说不是,双方都有些理由。黄一农先生在2005年提出一种“大数据时代”的文史研究方法,即“e考据”。他认为“e考据”是在e时代做考据,而并非只是用e的方法做考据。他以“e考据”的学术方法和学术态度研究《红楼梦》,为原本被认为已无多少新材料会出现的“红学”挖掘出一批过去不为人知的真实可靠的新史料,并填补诸多历史细节的隙缝,使得“红学”与“清史”之间的隐秘联系彰显出来。他做的是考据,而考据是史学的根本。过去做考据最了不起的是“乾嘉学者”了。他们从小就读古书,四书五经、十三经等都倒背如流,所以他们可以对古书里的歧异进行讨论。但是他们的精力毕竟是有限的,所以他们的精力大部分都放在了经史子集的经里面。黄一农教授把大量的文本文献扫描成PDF文本,放在数据库里,然后找相关的材料,找到之后,把相关细节部分拿出来。他依靠考据,把各种资料放在一起进行比较、分类和分析,求得某事件发生的具体时间。比方说“元妃省亲”,回到大观园,贾府迎驾使用什么礼仪,穿什么衣服,这些在清朝皇室资料中可以看到。有些东西在乾隆某一年才出现,所以这本书的写作不可能早于那一年。诸如此类,每一种细节他都细加考察,很多人认为他是“野狐禅”,因为他不是学历史出身的。但是他做的这个工作很实在,你要推翻其结论,也不是那么容易。这就是e考据的好处。黄一农教授还办过e考据的夏令营,推广这种方法。由于红学已经历了众多大家之手,要提出新见解是非常困难的。不用这种e考据的方法,恐怕就无法解决上述问题了。


第五,大数据是万能灵药,还是江湖骗术?

上面说到大数据对于史学研究的重要意义,但是学界和大众对用大数据研究历史依然意见分歧。有些人认为这是研究历史的不二法门,而另外一些人则认为这不过是一种新的江湖骗术。

就前一种意见而言,一位叫作尼克的网友在一篇题为《计算历史学:大数据时代的读书》的文章中写道:

给中国做历史的提个醒:大部分的中国哲学家翻译水平已经被谷歌或百度翻译器赶超了。历史学家要是再不上进,也快没饭了。历史学最近屡被自然科学进犯,这不,前脚遗传学刚走,大数据和计算又来了。随便一个科学家都能到这儿玩个票。

以赛亚·伯林(Isaiah Berlin)引用了英国前辈历史学家亨利·托马斯·巴克尔(Henry Thomas Buckle)的话说:历史学之所以没变成科学,主要是因为历史学家的智力不如自然科学家。他设想如果伽利略、牛顿、拉普拉斯有时间顺手玩点历史的话,历史学说不定早就变成科学的一分子了。话虽损了点,但是出自历史学家自己之口,至少诚恳。

司马迁被施以腐刑之后,中国就没人干考据了。即使人家都做好了,也懒得看。现而今,坐绿皮火车去趟莫斯科图书馆回来就算中国史学界大事儿。其实要是真不想去做实际工作,莫斯科都太远,去东莞整一山寨手机,躺床上就能指导博士生。不信?我先出个题:“女权运动五百年全球发展史”。然后在Google Ngrams里偷偷敲“penis,clitoris”,并把起始时间设在1500年。瞧好吧,您呐。所谓“秀才不出门,便知天下事”。

尼克又接着以20世纪中国哪位作家最知名为例,说大数据在史学研究中的重要作用:

中国文坛讲究排座次,鲁郭茅巴老曹,等等。前几年也不知哪个瞎起哄非要把金庸也拉入伙。二话不说,先把老哥几个的名字一顺给Ngrams,看看咋说。注意:鲁、郭的名字七十年代前的拼法分别为Lu Hsun和Kuo Mo-jo。两秒钟出结果:瞧人家画的这图,跟炒股曲线似的。可以看出鲁爷江湖地位不可动摇,八十年代末九十年代初有点技术性下滑,随后又呈上升态势。但貌似三四十年代,鲁略输郭。不明白为啥曹禺就不带玩了呢,即使输入老拼法Tsao Yu也不济。金庸按说是这老几位里英文最好的吧,但就是不受待见,把他小名路易·查良镛(Louis Cha Leung-yung)算上,也不管用。这张小图够北大复旦那啥系的博导们喝一壶吧。

他把相关结果用示意图表示出来,大家看这个图,结果马上就看出来了。如果你要写一篇中国文学史的论文,题目是:20世纪中国最有代表性的作家有哪些?他们之中的每个人在哪个时期最受欢迎、最受关注,就一目了然了。

但是,另外一批人则认为使用大数据做史学的人,连基本的史学问题方法都不懂。这种看法集中表现在潘绥铭的《批判“大数据崇拜”》一文中。在这篇文章中,作者说:

第一种方法是:研究者自己首先提出某个或者某些假设,然后去收集数据,然后进行统计检验,以便对于自己的假设做出适当的评价,主要结论应该是:该假设是否得以成立。也就是说,“没有假设,就没有研究”或者“好的假设就是成功的一半”。这对于任何一种遵循“科学主义”的研究来说,不但是金科玉律,而且根本就是不可突破的底线啊。可是,所谓的“大数据”,在收集数据之前,可曾有过任何一个假设吗?甚至,研究者究竟有没有猜测到:那些数据之间,可能存在着某种联系呢?

第二种研究方法,是从定性研究(质性研究)里的“求异法”借鉴来的,就是:不去寻找数据的“规律性”,而是通过分析,去发现“特定事物(现象)内部的多样化的存在”,或者“同一事物(现象)在不同载体中的多样化存在”。也就是说,研究者的假设是:任何事物(现象)都不可能是浑然一体,必定存在着万紫千红甚至千奇百怪的存在形式。研究者的目标,就是去发现和揭示这一点。因此研究者全神贯注的,恰恰是数据中那些小概率的、奇异的甚至缺失的情况。

大数据本身也有问题,廖颖林教授则指出:

我看到了一则有趣的报道标题为“生子不是福”。报道摘录如下:“芬兰图尔库大学的萨姆利·赫利在最近一期的《科学》杂志上发表文章指出,根据他与同事对1640年到1870年间375名妇女教堂记录的分析结果,在前工业化时代,生育儿子会显著缩短妇女寿命,而生育女儿则会对妇女的长寿起积极作用。为了保证分析结果的准确性和确定生男生女的长期效果,研究人员把考察对象限定于年过五旬的妇女。结果表明,生育子女的数目不会影响妇女寿命,但每生一个儿子,却会平均将其缩短34周。”如果你是一名女性,而且又尚未做母亲,读完这则报道之后,你会有怎样的想法呢?也许你的第一反应会同标题一样——生个女儿该有多好,毕竟34周(将近1 年)的生命是十分珍贵的。但是报道的内容是否值得信赖?支撑该报道的分析方法又是否恰当呢?

廖教授还指出:

在信息爆炸的年代,我们将随时随地成为信息的接收者,散布在报纸、杂志、电视、广播中的信息,良莠并存、真伪同在,我们该如何“借来一双慧眼”,看个清楚明白呢?

尼克和廖教授说的都有过激之嫌,但是也不乏一定的道理,今天和过去不同,今天是信息爆炸时代,无数的信息在这里,你怎么看得尽?没有办法。今天的海量数字,也有问题,有两本很有名的书,一本是《数字是靠不住的》,另一本是《统计数字会撒谎》,都是统计学家写的。所以,大数据不是万能的。

但是大数据也不是没用的。大数据不是万能的灵药,更不是江湖的骗术,它只是一个工具,在需要用它的地方,你不用,是你自己笨,若在不需要用它的地方,你用了,你傻。

历史学者和大数据之间是个什么关系呢?我们首先来看一段话,有位网友小宝写了一篇文章《大数据的进犯和历史学的进击:历史可以量化吗?》,向尼克和陈志武教授提出质疑。大家知道,过去几年,陈志武教授在清华和北大举办了几期量化史学暑期班,我也在那里讲课。这篇文章说:

(陈志武看来)之前对历史的探究要么过于意识形态化,要么又过于侧重朝代史、政治史,就如电视古装戏几乎走不出宫廷斗争的话题;还有就是过于定性,停留在史料整理和描述性层面,即使对历史事实背后的因果关系下结论,也只是猜测性的,很少从统计意义上进行严谨的逻辑推论,做排他性实证论证。

小宝在批评尼克的那篇文章最后说的话是,“中国现代史家当下的第一要务,不在学习计算机的聪明,而是要多少保持一点传统良史的愚蠢”。

从这些争论中可以看出一个问题:我们历史学家,在面对大数据、学习使用大数据时应当怎么保持我们自己的专业特点,同时积极利用大数据给我们带来的便利?在这方面,李中清和梁晨两位学者做了很好的总结:

面对“大数据”时代历史研究的大趋势,历史学者并非只能消极被动接受转变,而是有其独到的比较优势。历史学者掌握的众多史料、丰富的历史知识以及考据等研究方法等对量化研究历史资料来说都是必需的。

历史学者在研究中认识和处理史料的宝贵经验,是构建量化数据库和进行后续分析不可或缺的。量化数据库的构建与研究,必须依托于统一的制度性定义或标准化结构的信息材料才能完成,但历史材料的丰富性、多样性和复杂性成为构建系统、直观的量化数据库的障碍。

在选定和整理好原始史料后,对史料中包含的具体信息的分类与编码依然需要依赖历史学者的专业知识。由于时代背景错综复杂、史料建立和涵盖的时间长短不一,史料记录的内容可能不一致或不完整,且难以今日的常识直接理解。此外,单一历史材料也可能包含多种类型和层次的信息,比如人口户籍材料不仅包含个人信息,也可能包含家户成员关系和土地、财产构成等信息,往往需要细致、全面地理解和辨别。因此,将史料记载的复杂信息灵活妥当地分类并设计变量编码方式并非简单依靠电脑技术或其他模版即可完成。这种史料的复杂性一直是历史研究的难点,同时也是历史学者学习、训练和研究的重点。

有一位学者吴玲在其文章《大数据时代历史学研究若干趋势》中也说:

大数据将改变历史学研究的未来发展方向。然而,如同电脑永远不可能取代人脑,大数据不可能取代历史学工作者的主观思考,也不可能取代传统历史学研究的基本理论与方法,历史学研究者必须明确大数据在历史学研究中的地位。首先,历史学家必须发挥主导作用,由历史学家主导制定相关计算机数据分析指令、参数模型的基本原则,这些原则的制定必须依据历史学的研究理论与方法。其次,大数据可以从海量数据中提取、挖掘、分析、计算出趋近于全体数据的数值及其动态变迁趋势,但分析这些数值及趋势之间的本质关系,诸如原因与结果、现象与本质、个性与共性等理论性问题,还必须借助历史学家在历史学理论与方法指导下的天才思考。再次,由于历史学研究的相关参数是从成千上万的参数拟合值中通过计算机工程性操作得出的,因此,必须判断这些参数拟合值在多大程度上能够成为引出历史性结论的可靠依据;这些参数会在多大程度上展现历史发展的规律;通过这些参数对历史学研究对象做出怎样的判断等等,这些判断都需要历史学家借助历史学的研究理念与方法展开深邃思考。

总而言之,使用大数据研究历史是一种新方法,而对待新方法,我们不应当排斥。吴承明先生说得好:

就方法论而言,有新、老学派之分,但很难说有高下、优劣之别。

新方法有新的功能,以至开辟新的研究领域;但就历史研究而言,我不认为有什么方法是太老了,必须放弃。

我以为,在方法论上不应抱有倾向性,而是根据所论问题的需要和资料等条件的可能,作出选择。

美国经济史学会前主席席德(Ralph W.Hidy)也号召重在定性研究的“传统经济史学家”和重在定量研究的“新经济史学家”之间,应该在研究方法上多沟通。一方面,前者需要学习一些新的理论和方法,另一方面,后者需要学习历史学方法,需要尊重史料。他在1972年当选为美国经济史学会主席的就职演说中,特别强调计量史学家向传统史学家学习,说:“没有以往史学家所做的各种定性研究,计量史学家可能就会误解了他们用以量化研究的材料的意义;没有史学家所积累的研究成果,理论学者也很难设定各种近乎真理和实际的模型。”

最后,我用英国历史学会前主席巴勒克拉夫(Geoffrey Barraclough)的话来结束这个讲座:

历史学已经到了转折时期这个事实并不意味着它必定会沿着正确的方向前进,也不一定意味着它有能力抵制住诱惑,避免陷入歧途。

当前在历史学家当中的一个基本趋势是保守主义。历史学家不会心甘情愿地放弃他们的积习并且对他们工作的基本原理进行重新思考。

因此,对于历史学家来说,我们要敞开我们的胸怀,接受各种新事物,哪怕我们不用到,我们也要尽量去了解它,与此同时,我们也不要放弃我们自己本来的优势和传统。



进入 李伯重 的专栏     进入专题: 大数据   中国历史研究  

本文责编:陈冬冬
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 历史学 > 史学理论
本文链接:https://www.aisixiang.com/data/104839.html

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2023 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统