[提 要]数字人文的概念和诠释林林总总,并未形成统一的共识。在数字技术与传统人文学科跨界、融合研究的过程中,学术团体、学术会议和学术期刊构成了组合性的学术共同体,并推动了数字人文的兴起与发展。数字人文应用于传统人文学科研究的价值,主要体现在四个方面:一是从文献检索数据库到量化分析数据库的飞跃;二是从地图到地理信息系统和空间分析的飞跃;三是从数据化到文本挖掘研究的飞跃;四是从文本到图形图像可视化的飞跃。但数字人文应用于人文学科研究,也存在一些悖论:一是数字人文研究的大多数项目还没有产生全新的叙述,更没有出现震动学界的成果;二是某些数字人文倡导者推崇数据中心论,从而使人文研究失去人文意义,削弱甚至消解了研究者的主体性;三是在“一切皆可量化”的理想与数据获取现实之间存在较大差距。我们在享受数字人文带来的各种便利时,也要避免成为“计算”和“数字”的附庸。
[关键词] 数字人文 人文学科 学术期刊 价值 悖论
近年来,数字人文已经成为学界、业界的热点,俨然有显学之势。2011年武汉大学数字人文研究中心成立,是中国大陆首个数字人文研究中心。此后,中国人民大学信息资源管理学院成立数字人文技术实验室,北京大学成立数字人文建设与发展研究课题组,曲阜师范大学成立数字人文研究中心;南京大学更是双管齐下,历史学院成立数字人文研究中心,人文社会科学高级研究院成立数字人文创研中心。随着研究机构的成立,各种学术会议相继召开,如北京大学主办的三届数字人文论坛,主题分别是“跨界与融合:全球视野下的数字人文”、“互动与共生:数字人文与史学研究”、“孵化与实践:需求驱动下的数字人文项目”;南京大学主办的“数字人文:大数据时代学术前沿与探索”、“比较视野中的数字人文反思”;全国高等学校文科学报研究会主办、《河南大学学报》编辑部与河南大学文学院承办的“数字人文时代的文学研究”学术研讨会等等,畅抒己见,热烈争鸣,令人目不暇接。本文将围绕数字人文的发展源流、学术期刊在数字人文兴起中发挥的重要作用、数字人文应用于传统人文学科研究的价值与悖论,谈点不成熟的意见,求教于方家。
一、“数字人文”概念及其发展源流
我们正进入一个由数字技术和互联网造就的万物皆媒的全新时代,各种新兴突破性技术集中出现,正以日新月异的惊人速度和不可限量的变革潜能在不断推出其最新形态。各行各业都在发生重大转变:旧的商业模式被颠覆,新的商业模式在出现;教育、金融和交通体系被重塑,生产方式与生活方式被刷新;技术革命与知识更迭的周期不断缩短,新的学术方法和理论取代旧的学术方法和理论也将成为常态。
(一)“数字人文”的概念形成
数字人文(Digital Humanities,简称DH)这一术语,20世纪末美国弗吉尼亚大学人文科学高级研究所等机构就已经开始使用。2000年,斯坦福大学英文系教授弗兰克·莫雷蒂(Franco Moretti)在后来成为经典的《世界文学的猜想》中提出一项研究“世界文学”的方法,就是远离“细读”传统,发展出一种新的“远读”模式,通过量化的方法,对庞大的文本体系中的类别因素和形式元素作出解释。“远读”概念的提出,预言了以计算机和“文本”结合来考察文学体系的做法。这被认为是“数字人文”文学研究在21世纪发生发展的一个转折点。莫雷蒂也由此被认为是数字人文的代表性人物。大约在2001年,英国布莱克威尔出版社编辑安德鲁·麦克内利约请弗吉尼亚大学英文系教授兼大学图书馆主任约翰·安斯沃思与苏珊·施赖布曼和雷蒙德·西门斯三位领域巨擘讨论出版物《人文计算年鉴》的更名问题。雷蒙德·西门斯主张用当时比较流行的术语《人文学计算指南》作为书名;布莱克威尔出版社的编辑与销售人员从市场营销角度出发,提出一个更吸引读者眼球的书名《数字化的人文研究指南》;约翰·安斯沃思反对书名出现“简单的数字化”,建议使用《数字人文指南》。各方坚持己见,难以统一,更名的事情因此被搁置。不过“数字人文”这个新生事物,却得到众多学术会议、学术期刊和社会人士的支持。2001年,美国加州大学洛杉矶分校信息研究学院教授约翰娜·德鲁克在ACH/ALLC会议上做主题发言,标题即为《现状核实:数字人文项目与前景》。从2002年开始,“数字人文”概念的使用得到了大幅度的提升。
关于“数字人文”的概念和诠释林林总总,并未形成统一的共识。梳理目前的文献资料,大体上有四种不同的代表性观点。第一,把“数字人文”理解为一种实践。约翰·安斯沃思教授定义为“一种代表性的实践,一种模拟方式,一种推理,一种实践本体核心的思路。这种代表性的实践可分为两个方面,一方面是高效的计算,另一方面是人文与科技的沟通”。第二,把“数字人文”看作一种研究方法。“它是人文学科研究方法的补充,这一方法基于对计算机和互联网的运用,是一种更广阔意义上的‘计算’。对提出的问题采用不同的研究方法并研究一些目前尚未解决的问题,这构成了‘数字人文’。”第三,把“数字人文”视为一个研究领域。数字人文不仅发展迅捷,而且更具扩张性。它除了历史学、文学、社会学、语言学、考古与艺术学之外,有时也包括“平台研究”、“软件研究”、“媒介研究”,以及像文本编码、数据挖掘和数据分析等新领域。第四,把“数字人文”看成为一门学科。英国剑桥大学教授凯特·巴雷特在《从小册子到像素:转变中的人文学科》一文中提出了“数字人文学科”概念,是指用电子技术来处理和分析传统人文学科研究资料,并结合人文研究方法论和电子工具创建电子历史文本的人文研究。特别有趣的是巴雷特还定义了“数字人文学者”的形象:他们不仅能在计算机实验室中操作数据库和编程软件,而且能够跨越狭义人文学科定义、进入与电子技术结合的广阔人文学科研究平台。欧美许多大学已经将“数字人文学科”纳入正式教育体系,涉及语言学与语言研究、计算机科学、文学和语言研究、历史、图书馆学与信息科学、人类语言技术等学科,开设“数字文化”、“数字人文”、“大数据与社会化、文化”、“数字内容管理”、“数字人文研究”、“数字资产媒介管理”等系列课程,包括了本科、硕士、博士的整个阶段。
(二)“数字人文”的发展源流
“数字人文”概念的提出,其实才有十几年的时间。但要追根溯源到“人文计算”,已经有70年的历史。人文计算是通过引进计算机、统计学等技术与方法对传统人文学科(例如历史学、哲学、语言学、文学、艺术、考古学、音乐等)的问题进行辅助性研究的一种实践。英国伦敦艺术大学教授苏珊·霍基在《人文计算的历史》一文中,对“人文计算”的历史进行了整体性梳理,将其分为“起始”、“联合”、“新发展”和“成熟”四个阶段。
1. “人文计算”的起始阶段(1949~1970年代)
“人文计算”(Humanities Computing),可以追溯到意大利耶稣会罗伯托·布萨(Roberto Busa)神父与IBM合作,用穿孔卡和磁带存储的计算机,辅助编制意大利著名神学家、哲学家托马斯·阿奎那及相关作者作品中1,100万中世纪拉丁文词汇的索引。工作从1949年开始,先后在意大利米兰、皮萨、威尼斯和美国的科罗拉多州博尔德等地进行,团队最多时达66人。经过近30年的不懈工作,至1980年编成了56卷百科全书式的《托马斯著作索引:圣托马斯·阿奎那全集索引和语词索引》,由德国斯图加特市弗罗曼—霍尔兹柏格出版社印行。2005年,已经92岁高龄的布萨与意大利“托马斯·阿奎那基金会”合作,把托马斯著作索引数据库推上万维网,使其内容更翔实,检索更方便。布萨的贡献主要体现在三个方面:一是运用计算机将文本转化为数据的方法,具有革命性的开拓作用;二是把索引条目词目化,从而推动了词目化软件的开发,使词典编纂从中受益;三是对托马斯著作的文献数据处理程序,经过必要的技术改进,“也会适用于法律、化学、医学、工程技术等方面的文献分析和信息检索”。布萨由此成为把计算机应用于人文科学的先驱者和“人文计算”的奠基人。
2. “人文计算”的联合阶段(1970年代~1980年代中期)
这个阶段,学者思想开放,学术会议增多,学术交流活跃。英国开启的“双年系列会议”成为人文学科计算的重要焦点,北美启动的“人文学科计算国际研讨会”系列会议影响提升。在此基础上,“文学与语言学计算学会”(ALLC)在英国成立,“计算机与人文学科学会”(ACH)在北美成立。这个阶段的“联合”,主要体现在两个方面:一是学术会议促进了学术共同体的建构,学术共同体反过来又推动了学者群体的聚合、学术期刊的创办和学术论文的生产。二是人文学者和计算机技术人员之间有了联合,从而开发出了牛津语汇索引程序(OCP)和希腊语库(TLG)为代表的一系列软件程序,大大减少了人文项目在程序设计方面的费用,并促进了学科之间的交叉融合。
3. “人文计算”的新发展阶段(1980年代中期~1990年代早期)
这个阶段发生的三个事件与人文计算的发展有着密切的关系,值得一提。(1)个人计算机的出现。计算机最早应用在二次世界大战中的军事领域,1950年代计算机应用在大学里快速增长,1960年代计算机支撑的研究方法在社会科学领域得到应用,1970年代随着数据库管理系统、网络管理系统的出现,应用领域从科学计算、事务管理逐步走向人文研究领域。1981年8月12日,IBM公司正式推出了全球第一台个人计算机——IBM PC,它首创了“个人计算机”的概念,并为PC制订了全球通用的工业标准。这一具有划时代意义的发明,从此掀开了个人计算机普及的序幕。随着越来越多的纸本图书与期刊被数字化,并从图像扫描转换为文本字符,也促使更多学者依靠快速进步的计算机语义识别技术处理更大量的文本数据。(2)电子邮件的流行。虽然电子邮件是在1970年代发明的,但却是在1980年代才得以流行。随着个人计算机的兴起,电子邮件开始在学者以及大学生中广泛传播开来。当时的大多数网络运营商提供了跨国收发电子邮件的服务设施,并创建了邮件自动回应程序软件。特别是1987年邮寄清单Humanist的创建,为人文计算领域学术共同体提供了一个定期保持联系和学术交流的社区平台,其意义非同小可。(3)文本编码倡议(TEI)的贡献。TEI起源于“文本编码创始项目”,用大约400个编码标记了一个结构,可以轻而易举地向新的应用领域进行扩展。该结构由两部分构成:一是各种类型文献的标识,二是此文献的书目信息(元数据部分)。1994年5月,TEI以纸媒形式和电子版形式发布《电子文本编码和交换指南》。这被认为是“历史上第一次系统化地对所有人文学科文本进行分类和定义”。
4. “人文计算”的成熟阶段(1990年代早期~2003年)
这个阶段的所谓“成熟”主要体现在两个方面:(1)互联网的广泛应用。经过二十多年的高速发展,1991年第一个网页和基于文件内容的搜索协议诞生,1993年第一个图形浏览器出现,1994年电子商务现身网络,1995年亚马逊推出在线购物服务,1996年由微软提供的免费电子邮件服务启动,1997年博客让互联网成为私人交谈空间,1998年谷歌上线标志着网上搜索时代来临,2003年网络电话VOIP成为主流,社交网络聚友网发布。随着计算机的多媒体化及其与互联网的结合,“计算机不仅能处理文本对象,也可以处理图像、声音,同时用大规模数据库来存储和管理这些多媒体信息,更多的语料库、声音和图像数据库被建立”。历史文献数据和新近产生的研究文献大部分被数字化,整个人文计算研究的基础也发生了革命性的变化。(2)“档案馆”项目密集出现。这个时期由美国国会图书馆和美国各大学等机构资助的项目增多,有相当数量的项目与档案或历史记忆主题相关,如美国弗吉尼亚大学数字历史研究中心1993年启动的以美国南北战争时期平民生活档案为主题研究的“影谷档案”,美国弗吉尼亚大学人文高新技术研究所2001年启动的以美国传奇诗人Emily Dickinson个人档案为主题的“狄金森电子档案项目”,美国乔治梅森大学历史与新媒体研究中心2002年启动的“911事件数字档案项目”,美国弗吉尼亚大学人文高新技术研究所2003年启动的以阿根廷查科省历史档案为主题的“查科研究档案项目”。此外,还有美国女作家档案、罗塞蒂档案、威廉·布莱克档案等等。根据国外档案数字人文项目划分标准,国外档案数字人文项目主要包括五大类:GIS历史地理可视化项目、语料库建设项目、历史数据库建设项目、社会及历史场景重建项目、档案数字化项目。“数字人文研究与档案、档案工作紧密相连,目前,全世界的档案学者都已对档案在数字人文中的角色、功能和参与实践活动等进行探讨和研究。”
5. “数字人文”阶段(2004~)
1930年,陈寅恪在《陈垣〈敦煌劫余录〉序》中指出:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。”通过数字人文提供的新方法和新实践,建立数据库、发掘新材料,验证旧结论、研究新问题,正成为我们这个时代的新潮流。
(1)《数字人文指南》出版
经过几年沉淀,安斯沃思命名的《数字人文指南》在2004年出版。这标志着人文主义与技术主义的争论暂时告一段落。“但名称的转换并不仅仅是为了吸引更多人文学者加入该领域而采取的策略,它还是从内部技术的发展和学科外延的扩大而对学科内涵和外延的一种修正。”尽管该书中“人文计算”出现的频率次数是“数字人文”的大约两倍,但对“人文计算”进行总结的同时,也对“数字人文”进行了推广和前瞻,这对数字人文以后的研究与发展无疑具有里程碑的重要意义。从此,“数字人文”逐渐取代“人文计算”,成为计算机协同人文学科开展合作性研究的代名词。
2004年起,“欧洲研究基础建设策略论坛”联合英国、法国、德国、荷兰、丹麦等国的研究机构和力量,合作推动“艺术与人文的数字研究基础建设”。2008年,美国国家人文基金会设立数字人文办公室并启动“数字人文进步奖”,申请的项目内容包括:一是运用数字实验和计算等技术对人文学科开展创新研究,增强实践能力;二是分析数字文化对人类社会生活造成的影响;三是探索数字人文学科在特定领域或学科研究中的意义和作用,以及具有的哲学影响;四是振兴与恢复已损坏但依然有利用价值的数字项目,这些项目对人文学科的科研和教学有实质性帮助,并承诺可以提高公众的人文素养。这成为数字人文领域被制度化的重要标志。此后,数字人文技术创新充满了张力,许多人正在这个领域做着充满想象力的探索。“这种张力存在于那些已经进入这领域很长时间的人和那些正准备进入的人之间,存在于学科性和跨学科性之间,存在于制作和解读之间,存在于这个领域的历史和未来之间。”
(2)“数字人文”的技术体系
安妮·伯迪克、约翰娜·德鲁克等在《数字人文:改变知识创新与分享的游戏规则》中这样描述,当代数字人文寻求超越简单的数据仓储建设和编辑从而走向新的整合性实践,它包括开展统计处理(计算机语言学)、运用链接(超文本)、建模(包含结构构建与视觉呈现)、创造结构化数据(可扩张标记语言)、开展循环反复编辑并采用版本控制等。刘炜等认为数字人文的技术体系主要包括六个方面:一是数字化技术:构造数字人文的资源基础;二是数据管理技术:构造数字人文服务系统;三是数据分析技术:构造数字人文应用平台;四是可视化技术:构造数字人文的直观形象;五是VR/AR技术:构造数字人文的交互环境;六是机器学习技术:构造智能系统实现智慧服务。
总之,数字技术工具不仅是承载和处理人文科学内容的“形式”,其本身就承担了知识界面、3D建模、文本编码、数据库设计、地理空间分析、历史仿真、个性化服务与精准推送等实质性功能,可以引导、扩展甚至改变学者的研究习惯。当前由人工智能引领的新一轮科技革命方兴未艾。在大数据、数字人文、超级算法等新理论新技术的驱动下,古老的人文学科正呈现智能检索、数据分析、内容挖掘、场景模拟、跨界融合、平台协作、机器学习等新特征,这将促使传统的人文学科大量借用自然科学的技术手段进行研究,“科学性”显著增强。
(3)高校数字人文教育
近十年来,各个大学相继组建数字人文实验室、招收数字人文专业的研究生已经成为普遍现象。据国际数字人文组织联盟(ADHO)的统计,截止到2018年3月,全球有194个冠以“数字人文”的机构或项目正在运行。数字人文中心建设起源于美国,从全球的分布情况来看,绝大多数的高校数字人文中心集中在北美和欧洲国家,亚洲国家只有少数的专门研究机构。美国知名的高校数字人文中心,主要有弗吉尼亚大学人文先进科技研究所、内布拉斯加大学林肯分校数字人文研究中心、斯坦福大学数字人文实验室、加州大学洛杉矶分校数字人文中心、哈佛大学“人文2.0实验室”、伊利诺伊大学香槟分校人文艺术与社会科学计算研究所等。此外,英国伦敦大学学院数字人文中心、英国伦敦国王学院人文计算中心、英国格拉斯哥大学人文科技信息研究所、英国谢菲尔德大学数字艺术与人文专门研究中心、德国哥廷根大学数字人文中心、加拿大维多利亚大学人文计算与媒体中心、日本立命馆大学日本文化艺术数字人文中心、中国武汉大学数字人文研究中心和中国台湾大学数字人文研究中心等,也取得不俗的研究成果。这些数字人文中心建设模式体现了四个方面的特征:一是数字人文中心建设主要是由综合性大学推动的;二是绝大多数定位于“跨学科协同创新服务机构”;三是“项目制”是数字人文中心运行的基本方式;四是通过开展各种形式的活动促进信息技术和人文社会科学的融合。
数字人文教育在欧美国家起步较早,且发展迅速。早在1995年,加拿大麦克马斯特大学就开始为人文学科的学生开设“人文计算引论”、“人文领域的多媒体介绍”、“电子文本和计算语言学”课程,旨在为学生提供信息技术基本方法。2002年英国伦敦大学国王学院数字人文系正式成立,2005年伦敦国王学院率先成立了数字人文博士学位授予点。随后的十几年中,美国的马里兰大学、德国的帕绍大学、意大利的博洛尼亚大学、瑞士的洛桑大学、爱尔兰的科克大学、荷兰的阿姆斯特丹大学、加拿大的多伦多大学等几十所大学开设了数字人文课程。2018年,美国哈佛大学东亚语言与文明系开设了《东亚数字人文课程》,课程内容包括文本数据分析与处理、数据可视化、数据库技术、地理信息系统等。据欧洲语言资源与技术研究基础设施及艺术与人文数字研究基础设施合作建立的数字人文课程注册门户网站显示,截止2018年2月,在网站中注册的数字人文课程共有153个。这些课程包括了本科、硕士、博士的整个阶段。其中面向本科生的有39个,面向硕士生的有69个,面向博士生的有5个。此外,还开设了28个学分课程,4个暑期学校课程,1个继续教育课程,4个模块课程。美国与欧洲国家的数字人文课程涉及的学科种类较多,跨学科特征明显。学生除了学习专业课程之外,还在课堂上针对数字人文中遇到的实际技术问题,结合相关实用的工具类软件进行练习操作。
二、学术期刊在数字人文兴起中发挥的重要作用
综观数字人文的历史,从布萨神父与IBM在1949年的合作开始,经历人文计算的联合、新发展、成熟到数字人文,数字技术与人文研究的跨界、融合已经形成了清晰的发展脉络。其中,学术团体、学术会议和学术期刊,构成了组合性的学术共同体,并推动了数字人文的兴起与发展。
(一)学术共同体成为学术秩序的建设者、维护者
20世纪40年代,英国哲学家迈克尔·波兰尼(M. Polanyi)在文章《科学的自治》中首次提出“学术共同体”这个概念。他把具有共同信念、共同价值、共同规范的从事科学研究的科学家称为学术共同体,以区别于其他社会群体与组织。美国科学史家托马斯·库恩指出:“科学共同体是由一些科学专业的实际工作者组成。他们由他们所受教育和见习训练中的共同因素结合在一起,他们自认为也被认为专门探索一些共同的目标,也包括培养自己的接班人。”学术共同体是什么?中国科学院院士韩启德认为,所谓的学术共同体就是指一群志同道合的学者遵守共同的道德规范,相互尊重、相互联系、相互影响,共同推动学术的发展,由此而形成的群体。由此可见,学术共同体是基于某种学科、价值、理念和规范的认同而形成的结构松散的学者社群与学术团体。
从“人文计算”到“数字人文”的转变,使该研究领域逐渐获得世界人文学界的承认,从中我们看到学术共同体发挥的作用相当清晰。自1973年开始,在欧美先继成立了一些学术团体,比较重要的有文学与语言学计算学会(ALLC)、计算机与人文学科学会(ACH)、美国人文计算学会、澳大利亚数字人文协会、日本数字人文协会、欧洲数字人文协会和国际数字人文组织联盟(简称ADHO)等。这些学术共同体由学者以专业为基础自主结社和自主运作,制定规则、召集会议、创办期刊、同行评审、学术培训、发现人才,学术共同体通过学术交流、学术批评、学术评论表达“民意”和进行监督。可以说,“这种由团体、刊物和会议所构成的组合性学术共同体,不啻是一个开放的学术讨论和批评的空间,是学术秩序的建设者、维护者和监督者”。
(二)学术会议成为数字人文讨论和批评的开放空间
自从1970年在英国剑桥召开第一次ALLC人文计算会议之后,逐渐形成通过会议定期开展学术交流与批评活动的机制,以后更发展成为在欧洲和北美轮流召开的惯例。20世纪70年代,ALLC会议召开了四届,ICCH会议召开了三届。2016年开始,由密歇根大学数字人文项目发起的年度数字人文研讨会(简称GDHS)已举办三届。1977年8月,第三届人文领域计算机国际会议由加拿大蒙特利尔大学和滑铁卢大学共同主办,参加会议的有人文、计算机、数学、工程等领域的专家,跨学科交流了词典学、历史、音乐、舞蹈、文学数据管理与计算机辅助教学等领域的新研究发现,并出版了论文集。从此以后,编辑出版会议论文集,成为扩大数字人文会议影响的重要形式。有学者分析了近50年国际数字人文研究的高被引文献,在排名前十(被引频次≥10)的知识来源中,图书类文献8部,学术论文2篇,表明图书对推动数字人文知识结累和研究演化的贡献力度更大。明尼苏达大学出版社2012年出版的《数字人文学科的争论》排名第一。这本会议论文集,收录美国数字人文教育机构、高校以及图书馆领域的数十位专家发表的论文,“旨在探索数字人文理论、方法和实践,试图挖掘出数字人文的发展潜力与张力”。麻省理工学院出版社2012年出版的《数字人文研究》,排名第二。该报告不仅回答了“数字人文是什么?”这一核心问题,而且提供了一个考察数字人文领域的深邃视角。
在美国学术界,学术会议自始至终都是一个学术评价的过程。1999年和2002年,美国弗吉尼亚大学分别举办了“人文学计算是大学学科吗?”和“数字人文课程研讨班”两个重要的学术研讨会。会议由英文系教授杰罗米·麦根、约翰·安斯沃思和加州大学洛杉矶分校信息研究系教授约翰娜·德鲁克发起并组织,会前对申请参会的论文进行评审,论文质量合格的作者才有资格参会。会议中的报告、评议、问答等流程,既是对提交论文进行的学术评价,也是学术争鸣、学术批评的重要环节。来参加这两次研讨会的史蒂文·拉姆塞、马修·克申鲍姆、本特尼·诺维斯基等人,后来都成为数字人文研究领域最重要的代表人物。两次会议主题虽各有侧重,但又能看出其传承与发展的脉络,会议最终“正式将人文计算塑造为数字人文,并将目录校勘等有关文本等学术工作定义为它主要的内容”。2004年,约翰·安斯沃思与S. Schreibman、R. Siemence联合在布莱克威尔出版公司出版《相伴数字人文》(A Companion to Digital Humanities),该论文集收录37篇原创性成果,提供了一个全面而简洁的数字人文研究评述,书中明确提出要克服人文计算“单纯数字化”的倾向,从技术视角回归到研究对象相关知识体系的数字化呈现上来,建立“数字人文”新视角。2006年,许多原本属于人文计算领域的会议与研究中心纷纷更名搭上“数字人文”的快车。2007年,美国马里兰大学创建“数字人文中心网络”,依托关系网络和资源平台更加便利地与国际同行在项目共建、工具共用和知识共享等领域开展合作。目前已有两百多家一流高校的学术机构加入,成为重要的数字人文研究与协作的国际性科研组织。2009年,北美人文学科领域最重要的现代语言协会年会召开,会议上诸多讨论的主题都是围绕着数字人文展开,诸如何种研究可以算作数字人文研究,怎样的学者算作领域内的研究者,数字人文本身的目的到底是完成项目、探究理论化、研究计算技术、跨学科沟通、实践技术应用,还是单纯的科研经费需要,等等。学者们对数字人文本身存在很多不同理解、不同见解,交流、争论、批评成为常态,这既造就了开放的学术讨论和批评的空间,也彰显了数字人文独特的学术魅力。
(三)学术期刊成为传播数字人文的重要平台
人文计算的实践公认以1949年罗伯特·布萨神父为托马斯·阿奎那及相关作者的著作编制语词索引为开端。1966年由约瑟夫·雷宾主编的《计算机与人文学科》杂志创刊发行,标志著作为学科领域的人文计算正式走向学术舞台。1986年由ALLC在牛津大学出版社出版的《文学与语言计算》,被认为是数字人文领域最早的学术期刊。随着时代的发展,这本期刊也与时俱进,先改名《文学与语言计算:人文领域的数字学术》,后更名《人文领域的数字学术》,而被业界广泛熟知。2007年出版的《数字人文季刊》,直接抛弃传统的纸本模式,采取在线出版,涵盖人文学科数字媒体的各个方面。国际数字人文组织联盟,目前拥有《文学和语言计算》、《文本技术》、《人文领域计算机应用工作论文》、《数字人文季刊》四本同行评审期刊,通过召集圆桌会议、发表专题文章、组织书评和“回顾性”评论,向全球传播数字人文研究的理念、方法和成果。这些学术期刊,已经成为数字人文学术传播稳定的基本单元,成为数字人文学术共同体成员聚合、交流、监督的重要中心。“如果没有学术期刊作为组织的公共平台,那么,共同体就难以聚合,其边界也难以清晰,学术交流则难以高效地展开,共同体在研究和评价中的作用势必难以发挥。”
学术共同体的形成取决于诸多条件,其中学术期刊对于学术共同体的产生、发展有着不可替代的作用。首先,学术期刊划定了学术共同体的边界。“学术共同体主要包括学术期刊系统和专业学会系统。这二者是学者进入学术共同体、参与并建立正式学术交流网络的关键平台,在学者和‘门外汉’之间划定了一条明显的边界,因此对学者的学术生涯和学术共同体的运行至关重要。”其次,学术期刊成为学术评价的平台。由于学术期刊的办刊主体是学术共同体成员,所以其除了展示、交流和传播作者的学术发现和见解之外,还有一个重要属性就是学术评价。学术共同体是构建学术传播秩序的当然主角,它可以自主地制定评价规则、评价标准和评价程序,并且主导评价过程。在对成果本身的评价中,学术共同体采用的是复合评价的制度,即学术会议的评议和讨论、发表前的评审(包括第三方评议)、论文发表或著作出版后的评价(学术期刊组织专家发表专题文章进行评议)、组织同行专家学术评奖。在这过程中,学术期刊不仅发挥了重要的引领作用,更体现出对学术标准、学术方法、学术品质、学术评价和学术精神等方面的公信力和权威性。再次,学术期刊成为凝聚学术共同体成员的中心。学术期刊作为学术传播的中心所在,其作用的发挥离不开学术共同体的认可和支持。所以说,“一个有生命力的学术期刊背后一定站着一个思想活跃的学术团体,而这个学术团体应该是一个世界性的学术共同体的有机组成部分”。以美国历史学会为例。在学术共同体的努力下,2006年以后的学会年会上,不定期出现数字史学的讨论版块,2014年始更设置了数字史学工作坊,提供各种层次的技能培训与资源分享。《美国历史杂志》从2013年开始辟专栏“数字史学评论”。近六年来,该专栏发表了评论文章101篇,先后点评超过100多个数字史学的研究和项目,突显了数字史学在美国史学界是一个充满活力和希望的话题。
三、数字人文助力人文学科“轮廓重绘”
美国著名数字人文专家约翰·安斯沃思用七个“学术原语”概括数字人文常用的基本方法,即“发现”、“注释”、“比较”、“参考”、“抽样”、“说明”、“表现”。该理论后来被欧洲学者布兰克·托拜西和安德森·希拉等将其规范为五个基本原语,即“发现”、“收集”、“比较”、“传递”和“协作”。这种数字人文研究的“方法论共同体”,对于传统人文学科的价值在于,借助数字技术所拥有的多样性和扩张性,通过五个基本“学术原语”等手段进行跨界研究,从而扩展疆域和潜力,使学术领域实现“轮廓重绘”。对于数字技术的价值在于,“在注入人文主义价值观和方法后,其功能更加多元和强大,更符合人文学术的本质特征”。
(一)从文献检索数据库到量化分析数据库的飞跃
中国历史悠久,现存的古代文献资料浩如烟海。经过20多年的努力,历史文献的数字化已经取得了很大的进展,建成了一些可供检索的文献数据库。第一,图书馆、档案馆的古籍、档案数字化目录。第二,借助扫描、数码拍照等技术手段,将纸本转化为数码图像文件,形成了对古籍文献、档案资料、报纸期刊的图像文件进行存储和检索的图像数据库。第三,通过OCR技术与人工核对的结合,建成全文检索资料库。第四,事实型工具书被做成数据库、软件或插件。这些文献数据库,既有图书馆、档案馆、学术期刊自建的,也有商业公司生产的数据库产品。如北京大学的《中国历代典籍总目》、《中国基本古籍库》,首都师范大学电子文献国学传播中心的《古籍电子定本工程》,浙江大学与哥伦比亚大学合作开发的“甲骨文数字化项目”,国家图书馆的“华夏记忆项目”,敦煌研究院的“数字敦煌”,上海图书馆的“民国时期期刊全文数据库(1911~1949)”,南京图书馆的“中国近代文献图像数据库”,商务印书馆的“《东方杂志》期刊全文检索数据库”,瀚堂公司的“瀚堂近代报刊数据库”等为代表的古籍与专题数据库的大量出现,为学者们获得文献文本并储存提供了极大的便利。但这些文献数据库还处于比较原始的纸质替代状态,普遍只有检索功能,并且只能按原始资料的结构进行浏览,不能帮助研究者统计、分析文本。
所谓量化数据库,“统指各种搜寻能够涵盖一定地域范围、具有一定时间跨度的整体性大规模个人或其他微观层面信息的系统(一手)资料,并将这些资料按照一定数据格式进行电子化,构建成适用于统计分析软件的量化数据库并进行定量研究的方法”。美国学术界利用历史资料进行量化数据库构建与研究的实践远远超前,其中学者们利用国际微观共享整合数据库、美国犹他人口数据库研究出的很多成果与著作,产生了重大的学术和社会影响,也成为中国学术界构建量化数据库的参照座标。从1980年代起,历时20多年时间,李中清、康文林团队建立了基于八旗户口册和清代皇室族谱资料的中国多代人口数据库系列(简称CMGPD),包含辽宁、双城和皇族三个子数据库。辽宁数据库涵盖了1749~1909年间辽东地区26万人的150余万条记录。双城数据库涵盖1866~1913年间双城县10万人的130余万条记录,并尝试与不同时段的家户地亩资料相连接。这些大规模、长时段的微观历史数据包含丰富的人口和社会经济信息,具有时间上的深度和空间上的广度,对人口统计学、家与家族、亲属关系、社会分层与流动、卫生健康等多个研究领域有重要价值。再比如美国哈佛大学教授包弼德领导的与北京大学中古史研究中心以及“中研院”史语所合作的“中国历代人物传记资料库”(简称CBDB),支持各种各样的查询。“包括单个人物查询、入仕途径、官职查询,还可以查询社会关系网络、查询两个人之间的社会关系,甚至查询不同地区间人物的关系。”所以,包弼德教授又把这种数据库称之为“关系数据库”。量化数据库的开发与研究对历史学而言,至少有两方面非常重要的价值:“一是丰富了历史学研究的方法论与范式;二是能有效利用大规模材料,实现不同材料的彼此连结,推动大规模、合作化研究形式的出现。”
(二)从地图到地理信息系统和空间分析的飞跃
英国地理学家罗格·汤林森最早提出地理信息系统概念,并在1971年建立了加拿大地理信息系统。地理信息系统(Geographic Information System,简称GIS),以计算机技术为基础,通过对地理原始数据进行数据化的处理、存储、提取与管理,通过数据建模、空间分析、专题制图等手段,研究其与历史、社会、自然之间的关系,探索发展演变的规律和趋势。1990年代之后,西方发达国家相继建立了一些颇具特色的历史地理信息平台,如美国东海岸公共图书馆开发的弗吉尼亚1870~1935的铁路项目、纽约图书馆开发的纽约城市地理信息系统项目、加州大学伯克利分校开发的菲律宾文化地图、布朗大学开发的非洲史动画地图集和瑞典于默真大学开发的拜占庭帝国犹太社区项目、爱尔兰皇后大学数据数字化与分析中心开展的“爱尔兰土豆大饥荒研究”等。随着地理信息技术的快速发展,各国的学者们相继利用这项技术开展空间分析与模型建构,并取得了一系列的科研成果。1992年,美国地理学家Michael F. Goodchild教授正式提出“地理信息科学”概念。从此,地理信息系统不再仅仅是一门技术,更被广泛地视为一门科学。
地理信息系统及其相关平台和方法的利用,已成为数字人文中不容忽视的要素和不可或缺的一部分。中国在这方面的起步较晚,最初甚至要借助国外的基金、技术与人才,以寻求发展之路。(1)中国历史地理信息系统(简称CHGIS)。该项目2001年1月正式启动,由罗斯基金会资助,主要参加机构为哈佛大学与复旦大学中国历史地理研究中心等。 CHGIS项目以秦朝建立的公元前221年到清朝灭亡的1911年为时间范围,试图建立一套中国不同历史时期政区连续变化的基础地理信息库,为研究者提供GIS数据平台、时间统计以及查寻工具和模型。通过CHGIS系统的分层地图,可以看到一个县的辖区是如何与当地的地理景观产生联系的,可以看到历史信息的空间关系,从而解决了“时间—空间”维度的整合问题。(2)中国历代人物传记资料库(简称CBDB)。CBDB利用中国历史地理信息系统的数据,在人物传记资料的组织与展示上融入“空间分析法”,将历史人物的籍贯、生平、仕途、游历、关系、著作、死亡等置于多维时空架构之中,为研究者提供了全新的方法。例如,从CBDB中提取信息并映射到地图上,即可生成明代进士地理分布图。明代进士主要来自江南地区,东南以及江西远远超过其他地区。“仔细研究明代进士的地理位置,就会发现明代政治体系的空间特点。”(3)中华文明时空基础架构(简称CCTS)。该项目由台北“中研院”主持,主要内容包括基础历史地理图资、Web GIS的整合应用环境以及主体性空间信息三大部分。基础历史地理图资以谭其骧主编《中国历史地图集》为主要范本,提供中国从先秦到清朝历代的疆域,并结合丁文江1930年代所编《申报地图》,构成上下逾两千年的中国历代基本历史地理底图。以1990年代百万分之一《中国数字地图》为现代底图,同时结合历代黄河变迁、汉代古墓分布、清代粮价人口、明清江南市镇等多个图层,整合台北“中研院”汉籍全文检索系统、地方志检索系统、古今地名检索系统等,期望透过“时间—空间”的基础信息架构,提供多学科研究成果,发展出各种专题地理信息系统,进而促成多学科之间的交流。此外,“台湾历史文化地图系统”、“民国时期北京都市文化历史地理信息数据库”、“华夏民族家谱地理信息系统”、“丝绸之路历史地理信息开放平台”等也已经取得了一定的成绩。总之,GIS技术为现代历史地理学注入了新的活力,“许多过去无法解决的难题通过GIS手段得以解决,它的开发价值也越来越受到学者的重视”。
(三)从数据化到文本挖掘研究的飞跃
数字化、数据化和文本挖掘,是历史文献数据库的三种不同形态。数字化就是将许多物理形态的文献转化为可以度量的数字,再以这些数字建立起适当的数字化模型,把它们转化为一系列二进制代码的电子形态。数据化则是将电子形态的文献数据结构化,按照一定数据格式构建成适用于可制表分析的量化形式,数据分析才是其核心。文本挖掘也称之为“文本数据挖掘”或“文本知识发现”,通俗地讲就是从海量的非结构化的文本数据中发现隐含的、以前未知的、有效新颖的规律、模式和趋势。随着数据分析研究的不断发展,数据挖掘的对象己远远超出了结构化数据的范围,数据来源还可能是数据仓库、文本数据集合、数据集、文档等。面对众多半结构化或非结构化的文本,如何有效地进行文本挖掘已经成为数字人文领域研究的趋势之一。国外学者主要在文本结构分析、文本摘要、文本分类、文本聚类、文本关联、文本规则和趋势预测等方面进行了研究,比如作者的活动轨迹与归属、作品的情感分析、人物关系挖掘、人文学科本体构建等。
21世纪以来,随着互联网和数字技术的突飞猛进和迅速普及,中国的数据库建设也进入群雄并起的阶段。《2011中国数据库软件市场研究报告》显示,2007~2011年,中国整体数据库市场规模稳中增长,国产数据库软件市场每年增长的速度都在15%以上,呈现爆发式增长态势。为了摆脱约翰·内斯伯特称之为“信息丰富而知识贫乏”的窘境,文本挖掘技术应运被引介到了国内。文本挖掘理念引导了数据库建设、开发思路的转变,这使得“专题数据库”的发展呈现出与以往完全不同的面貌。例如台北“中研院”近代史所所建“胡适档案资料库”、“袁氏家藏近代名人手书”、“徐永昌日记”,北京中国社科院近代史所所建“顾维钧档案数据库”,北京大学图书馆所建“陈翰笙档案数据库”,上海图书馆所建“盛宣怀档案知识库”,浙江大学蒋介石与近代中国研究中心筹建的“蒋介石资料数据库”等,可谓百花齐放,异彩纷呈。更为重要的是,“人文学研究者不再是被动选择既有的数据库,而是参与数据库建设过程,由其自身研究需要引导数据库开发,数据库开发过程也就成为其研究的一部分”。台湾大学数字人文研究中心开发的“台湾历史数位图书馆(THDL)”,主要收录台湾地区契约文书及台湾总督府档案。THDL不仅提供词频分析、关联分析和人物关系分析,而且为用户提供研究环境并帮助发现问题。香港科技大学李中清—康文林团队建构的“财富信息数据库”,包括中国多世代人口数据库—双城部分、中国土地改革数据库—双城部分、中国四清阶级成分数据库,“这三个子数据库涵盖了从19世纪到20世纪中期150年内,国家在不同的区域、社群内对财富分配进行主导、干预,以建构不平等与平等的历史进程,为从基层出发理解中国社会的财产权利与政治权利提供了可能”。王业键不仅主持建设了“清代粮价资料库”,而且通过对清乾隆时期粮价的统计分析,发现清代官书中言之凿凿的“乾隆十三年米贵问题”很难成立。陈志武、彭凯翔等通过建立“中国利率史数据库”发现,传统借贷市场有多个层次,简单地撷取某些样本或者资料去评判整个借贷市场是不可取的。文本挖掘已经切入现代文学研究:包括现代文学版本图像史料在内的诸多文献史料研究、作家生平传记研究、文学社团与思潮流派的谱系研究、文学思想史与观念史的研究、文学文本的风格学和情感分析、现代文学的跨学科与跨语言研究等。文本挖掘进入史学领域发挥了三重功能:第一是“验证”,借由计算与分析,量化地验证过去史学研究者曾提出过的研究结论;第二是“修正”,透过巨量数据的分析挖掘,对过去史学研究结论进行补充修正;第三是“创新”,通过巨观且复杂的计算,提出新的研究问题。
(四)从文本到图形图像可视化的飞跃
近年来,把用文字符号表示的知识转化为图形、图像呈现的知识已成常态,这预示着我们已经进入读屏、读图时代。可视化是利用计算机图形学和影像处理技术,将数据转换成图形或者图像在屏幕上显示,并进行交互处理的理论、方法和技术。可视化的本质在于针对海量文本信息,最大程度地实现抽象和概括。它不仅仅是多样的图形、图像的组合,更大的作用在于发现一篇文档或者一系列文档集合中特定的、潜在的模式结构。大体上分为三类:一是以词频统计方法为基础,发现特定的词频模式来实现文本的可视化。二是基于聚类演算法比较文档的相似性来实现文本的可视化。三是基于语义的标注、计算、统计等方法,发现特定的隐含语义关系来实现文本的可视化。
数字人文的出现促进了传统人文科学与新技术的融合,为大规模古籍可视化呈现与挖掘研究提供了可能。(1)数据可视化。以词语首见年代为视角,以可视化(散点图)的形式展现字词的年代及词频分布,力求量化地呈现不同时期的词汇分布趋势与词义演变规律。(2)空间信息可视化。以古籍作者为主线,利用GLS技术,对我国庞大且分散的数字化古籍进行大数据的集成和地图展示,并呈现相关作者的地理分布与活动轨迹,以深度开发中国古籍中的多元文化价值。中南民族大学王兆鹏教授主持的《唐宋文学编年地图》,经过近10年的努力,已收入唐宋时期大多数知名作家及作品的相关史料,并根据最新的研究成果及时予以更新。通过时间、人物、地点、事件四个部分,立体、多元地创建了一份时间与空间上相互衔接的文学地图。这个项目首先带来文学呈现方式的三个变化:一是变选择性呈现为全景性呈现;二是变间断性呈现为连续性呈现;三是变未知为可知。其次是带来文学史认知方式的变化,即从限知视角到全知视角的变化。王兆鹏认为,“可视化将是未来文学研究的必然趋势,会成为文学研究中一个新的学术增长点”。浙江大学徐永明教授利用ArcGIS 、QGIS、CHGIS、CartoDB 、Worldmap等数据库和地理信息系统软件,以汤显祖为例,展示了其行迹和活动地点、社会关系地理分布、社会关系点线表达等多种可视化效果图,给人以直观明了、耳目一新之感。数据可视化呈现也为历史研究提供了新视角,如历史档案领域可视化分析研究的“淡新档案诉讼关系图”、基于符号分析法的宋代政治网络可视化研究、基于GIS的城市发展历史可视化展示等,这些探索使历史研究也可获得直观形象支持。数字历史是面向公众开放式实践项目,旨在公众与历史研究之间建立互动式的沟通机制,在线互动、可视化是主要特点。可视化方法更被应用在博物学、艺术学、文化遗产数字化保护等方面,舞蹈、音乐、语言、手稿等都是数字化的对象,目标是建设数字化的文化遗产馆藏。越来越多的机构、学者借助GIS技术进行静态和动态的可视化研究和呈现,如故宫博物院开发的“虚拟紫禁城”,就产生了很好的人文形象效果。
四、结论:数字人文应用的价值与悖论
关于数字人文的概念,目前学术界大体上存在四种不同的代表性观点,分别将其理解为一种实践,看作一种研究方法,视为一种研究领域,看成一门学科。数字人文概念的提出才有十几年的时间,但要追根溯源却有70年的历史,大体上经历了人文计算与数字人文两个阶段。数字人文的兴起不仅为人文学者提供了新的研究路径与方法,而且为科研人员跨学科研究开启了新的机遇和空间。“很多自然科学家开始关注人文社会科学中的问题,很多人文社会科学家更加注重不同研究取向和方式的结合”。在数字技术与传统人文学科研究的跨界、融合过程中,学术团体、学术会议和学术期刊构成了组合性的学术共同体,并推动了数字人文的兴起和发展。数字人文应用于传统人文学科研究的价值,主要体现在前文所述四个方面的“飞跃”。武汉大学数字人文研究中心主任王晓光教授认为,目前国际数字人文研究的前沿和典型应用包括:(1)历史学方面的基于GLS的历史地理可视化;(2)文学方面的文本挖掘与TEI标准;(3)语言学方面的基于大型语料库的语料库语言学;(4)舞蹈方面的视频捕捉、运动分析与虚拟实境实现;(5)考古学方面的图像分析、色彩还原和数字重建;(6)数字图书馆和网络数据库。研究方法的革新,研究领域的拓展,研究问题的交叉,使得数字人文的内涵与外延变得更加复杂和多样。
数字人文自诞生以来,就伴随着不断争议和批评。在美国众多反对的声音中,有三篇文章具有代表性。2014年,亚当·克思奇在《新共和》杂志发表《科技接管英文系:数字人文的虚假承诺》,直接质疑高校管理的技术化和职场化,而数字人文即是其直接表现。2016年,丹尼尔·阿林顿在《洛杉矶书评》发表《新自由主义工具(及档案):数字人文的政治史》,认为数字人文并不是其所号称的使用数字或量化方法来回答人文领域中的研究问题,只不过是将技术知识定义为一种人文知识,并认为这种知识会高于其他形式的知识,推行以计画和Lab为中心的学习和研究,以取代阅读与写作。2017年,蒂莫尼·布伦南在《高等教育纪事报》发表《数字人文的幻灭》,大胆直白地批评数字人文研究对算法的依赖,认为“与其说数字人文是一场革命,不如说数字人文为了反对主流形式,从而强行将人文从其存在原因中剥离出来的那个楔子”。这些批评提供的角度与思考,虽然另类,但颇具冲击力。倘若作理性思考,不难发现数字人文应用于传统人文学科研究,确实存在着若干悖论。一是数字人文研究的大多数项目确实没有推翻传统意义上的预设,还没有产生全新的叙述,更没有出现震动学界的成果。二是某些数字人文倡导者重数据轻思想、重图像轻文字、重印证轻发现,推崇数据中心论,从而使人文研究失去人文意义,削弱甚至消解了研究者的主体性。三是GLS建设需要相对完备、充裕与精准的空间、属性数据及规范化处理,这却是历史地理研究中最欠缺的。历史地理数据的时空关系复杂,并且具有不确定性,这将使“一切皆可量化”的理想与数据获取现实之间存在较大差距。总之,技术的每一次进步,都带着利弊的两重性,我们在享受数字人文带来的各种便利时,也要避免成为“计算”和“数字”的附庸。
数字人文与传统人文学科的联姻已成事实,是自由恋爱还是包办婚姻,已不重要。重要的是,一个幽灵,数字人文的幽灵,从欧美正向或正在中国游荡。这将预示着,新技术与古老学科的哲学关系将被重新审视,一种新的研究范式与方法不仅改变着传统人文学科的研究手段,还改变着人文学科“解释性学术”思考问题的角度和探索途径。