摘 要:
数字人文在当下中国,已经成为学术研究的热点和趋势。因此有必要对数字人文的“数字”组成部分进行比较深入的讨论。第一,“数字”是软件和算法,“数字”是技术和工具,“数字”是基础设施和研究范式。“数字”为人文学术研究带来机遇的同时,其技术困境和伦理困境也已显现。第二,从数字化生存到数据化发现,不仅带来新的思维模式和研究视角,而且实现了载体的转型进而导致意义的变迁。第三,从思辨式研究方法到数据驱动研究范式,实现了人文学术研究的“计算转向”。但问题在于“数字”一家独大,不能很好体现人文理念,影响了中国原创性学术成果的生产。如何突破数字人文的“数字困境”?加强问题导向、提升复合素养、跨界合作创新、提倡文化批评,就显得尤为重要。
关键词: 数字人文; 数字; 技术困境; 数据化发现; 数据驱动;
“数字人文”概念被提出并为该领域的多数学者所接受,不过十几年的时间,而各种相关争论却一直持续不断。有学者总结出关于数字人文的21种不同的定义,但又声明没有一个是完全令人满意的[1]。学界对数字人文之所以难有共识,首先是由于数字技术是不断变化、发展的,新的技术内容和形式随着时代的演进不断丰富和增加,因而导致数字人文概念的内涵与外延也不断地更新和拓展。其次,数字技术是一柄双刃剑,在发挥巨大的社会进步核心动力功能的同时,也引发了许多难以消除的负面效应。因此数字人文没有公认的标签,也一直处于不断被定义、被争论、被批判的过程,数字人文的版图边界还有待商榷。
数字人文在当下的中国,俨然已成为学术热点。从已有的研究看,尽管有数字技术及其相关问题的讨论,但对数字人文的“数字”组成部分却鲜有深刻认知与批判反思。因此对数字人文中的“数字”进行比较深入的讨论是完全必要的,比如“数字”是软件和算法?“数字”是技术和工具?“数字”是数据驱动的研究范式?“数字”彰显了张力和创新,是否又带来了困境与偏见?“数字”与“人文”结合,又推动了何种意义上的对话?笔者不揣冒昧,谈一些肤浅之见。
一、“数字”提供的机遇与挑战
“数字”是什么?从工具层面讲是软件和算法、技术和工具;从数字层面讲是基础设施和研究范式,“不仅包括使用编程语言进行文本计算、数据库搭建,也包括利用和开发软件开展相关研究。”[2]必须承认“数字”这个词充满了张力,这种张力存在于数字技术与网络分析之间,存在于齐一性和离散性之间,存在于现实性和虚拟性之间,存在于学科性和跨学科性之间,存在于创新和困境之间。当今时代被称为数字时代,诸如数字资源、数字工具、数字技术、数字计算、数字媒体、数字出版、数字方法、数字思维、数字文化、数字经济等等,数字已经无孔不入地融入我们的经济、商业和社会之中。在学术领域,数字技术为人文学术研究提供了全新的维度和组织介入方式。今天人文学科中凸显的许多问题的解决,计算技术已成为首要的考虑条件,几乎所有人文学科的学术工作正在越来越多地用“数字”的方式完成,这也导致技术困境与人文焦虑的产生。
我们正生活在数字技术突飞猛进的时代——电子技术、通信技术、多媒体技术、声像技术、数据库技术、人工智能技术等让人目不暇接。数字技术是一种内涵丰富的综合技术,或者说是一个技术群落。在这个技术群落里,网络技术和计算机硬件、软件是其核心。网络技术几乎克服了传播过程中可能遇到的任何障碍,这包括空间、时间上的距离障碍和文化传播意义上的语言障碍,可以说无处不在。计算机硬件如高性能计算机、便携式移动终端、3D打印机、高精度扫描仪、智能传感器、VR虚拟现实眼镜、360度超高清全景摄像机等数字工具的应用,为数字人文核心的基础活动“保管、分析、编辑和建模”,提供了快捷高效的处理[3]18。软件是一系列按照特定顺序组织的计算机数据和指令的集合,分有形和无形两个部分。有形部分指软件文档、程序代码、二进制代码、用户界面和输出报表等;无形部分指软件的技术逻辑和开发者的思想关切。数字人文研究可以利用的软件工具颇多,文献收集、管理软件有Mendeley、EndNote、Zotero等,文本编码软件有TEI、DocuSKY、GATE等,文本挖掘软件有ABBYY Fine Reader、Wordseer、ATLAS.ti等,地理空间系统分析软件有ArcGIS、Story Map、GRASS等,图像语义标注软件有文本-图像链接环境(TILE)、文档-图像链接编辑器(TBLE )、伊斯兰多拉图像标注框架 (IIAF)、数字标注与链接工具(DM)等。好的软件是人文文本研究领域的哈勃望远镜,是人文学者手中得力的技术工具,它们能给用户一种新的知识发现和文本蕴含意义揭示。
在数字人文的知识生产、知识发现过程中,人文越来越重视“数字”,而“数字”的含义越来越依赖于算法。算法通常被定义为:一种“系统的过程,可以在有限的步骤中产生问题的答案或问题的解决方案。”[4]61换言之,算法就是一种编码程序,不是单指某次计算,而是通过特定的运算把输入数据转化为输出结果,更强调解决问题的思维和高效。国外有学者把数据比作食材,算法比作食谱,只有遵循食谱所设立的步骤和指令,按照要求筛选和搭配食材,才能做出指定口味的菜肴[5]。该比喻颇为形象生动。随着计算机技术的发展,算法应用于人文学科也不乏成功的案例。2011年, 以让-巴蒂斯特·米歇尔为首的哈佛大学、麻省理工学院、大英百科全书的学者与谷歌研究团队,利用谷歌500多万种数字化图书的语料库(时间跨度500年,规模总计5 000亿个词),以自然语言处理中使用最为广泛的 N-gram模型方法,通过英语关键词或人名在历史文献中随时间变化的频率进行算法分析,由此推导出人类文化的发展趋势和演变规律。他们的研究成果《利用百万数字化书籍的文化定量分析》在《科学》杂志上发表,开创了“文化组学”(culturomics )研究的新河[6]。多伦多大学教授Gelila Tilahun团队,利用算法为历史文献划了断代。英国大约保存了100多万份没有标明年代的契据,有的是原始文献,更多的是古代原件的复制品。这些契据具有珍贵的历史记忆与文化信息,为今天人们了解10世纪至14世纪之间的英国政治、经济和社会状况提供了难得的依据。Gelila Tilahun团队开发出一套计算机统计技术,使用10 000份署有年代的契据,考察所使用的语言随时间的变化情况,以此来确定其他契据的年代。分解、抽象、自动化在计算机编程中结合一起,通过由逻辑运算符和条件语句约束的一系列机械应用程序从输入创建输出,让断代取得了有价值的实验结果[7]。“鸟枪测序法”被应用于文学研究中,用来对中世纪“英国诗歌之父”杰弗里·乔叟的《坎特伯雷故事集》手稿版本(同一作品的不同手稿版本的年表)提出假设,并且绘制出Harlequin出版的爱情小说的常见流派特征。“这种在不同问题领域之间套用算法的能力是数字人文学科开辟的令人兴奋的研究机会之一。”[4]62总之,算法是一种能力,这种能力是数字人文领域创建和处理数据的核心组成部分。算法作为重要资源,其海量数据集的计算方法使得大尺度的研究问题变得更加可行;算法作为技术方法,对于数字人文研究具有可检验与证伪性意义;算法作为竞争工具,背后其实是一种技术优势实现高效率的认知。
数字的技术、工具和媒介为数字人文学术研究与传播方式带来机遇的同时,数字的困境和痛点也已显现。第一,技术困境。首先,大量技术是根据数字人文项目实施过程中碰到的具体问题而研发的,有的成功,有的难产,更有的因为项目设计不切实际而陷入失败。我国数字人文研究因文本与语言的特殊性,要求基础技术、数据库和专业软件的研发必须匹配中文语境,由此便构成了汉字的多义性与机器分析的单一化、已知与未知、已行与未行之间错综交织的技术开发困境[8]。其次,人文学科与信息科学的研究者之间最大的问题是“互盲”[9]。一方面,多数人文学者缺乏必要的数字技术基础,不可能参与到探索底层数据库、系统数据流、跨平台数据及其体系结构,还有应用编程接口(API)、移动视觉搜索(MVS)等相关技术和问题。这与早期的数字人文学者大多具有计算机技术背景、熟知电脑语言、会编制程序的情形大相径庭。另一方面,数字技术人员多为工程师出身,相对缺乏哲学、伦理等人文方面的知识素养,导致技术系统与人文学者产生了严重疏离,形成“专业鸿沟”困境,从而影响了技术对研究的辅助作用。第二,伦理困境。首先,对数据的过度依赖,对算法的过度崇拜,造成数字人文研究人文属性被辗轧而变得异常平庸化。重图像、重制作、重编码、重量化,轻文字、轻阐释、轻洞察、轻思想,似乎已经成为数字人文研究的一股潮流。这需要高度警惕,也需要批判反思。数字人文不是在技术祭坛上牺牲人文,而是数字与人文的融合发展。在两者之间的融合发展中,技术只是工具和方法,人文才是灵魂和根本。面对已陷入困境的人文和被扭曲的数字,我们该怎么办? 借海德格尔的话来说,即“让一棵树在它站立的地方站着”。其次,对数字或数字人文缺少批判性反思,导致不少数字人文研究成为“技术决定论”的产品。一种极端数字主义的观点认为,数据就在那里,收集并完善它们,剩下的就等着学者们对其随心所欲地排列。所以研究问题之前先着手处理数据集,就变成了首要条件。数据是学术研究的基础和核心,数据仿佛也成了任人打扮的小姑娘。在这种模式中,研究主题是在没有预设观念,没有需要验证的问题、对象和模式的时候产生的,计算机通过算法读取文本(图像),只需极少的人工干预,对现象进行自由探索,实际上是废除了人文论证和阐释。这种通过假说驱动的阐释,被数字人文学家艾伦·刘批评为“白板阐释”[10]。欧美国家的学术界对数字人文的批判一直不断,其中斯坦利·费什《数字人文及其不朽》、亚当·克思奇《科技接管英文系:数字人文的虛假承諾》、蒂莫尼·布伦南《数字人文的幻灭》、笪章难《以计算的方法反对计算文学研究》等颇具代表性,批评辛辣,更具反思与祛魅意义。我国的数字人文研究虽然取得了一些成绩,但仍属于起步阶段,缺少原创,“大多数项目确实没有推翻传统意义上的预设,还没有产生完全新的叙述,更没有出现震动学界的成果”[11]。之所以如此,一个重要原因是自说自话的文章多,质疑批评的文章少。批判缺席,学术则难以进步;反思不足,学人则难以成长。
二、从数字化生存到数据化发现
数字技术与数字工具被大量引入人文科学,通过数字化、数据化、网络化,建构了大规模的研究基础设施(数据库平台、数字人文中心等)。这种研究基础设施对于传统人文研究,不仅带来新的思维模式和研究视角,而且实现了“载体的转型进而导致的意义变迁。”[12]
(一)数字化的生态环境
美国经济学家卡尔·夏皮罗和哈尔·瓦里安在《信息统治》中,把数字化界定为“对信息流进行数字化的编码”[13]。换一种说法,就是通过平面和立体扫描、智能文本识别、数字录音和摄影摄像等技术把过去遗留的文本、图像、声音、艺术品、建筑等各种各样的信息转换成一系列二进制代码,引入计算机内部统一处理。数字化在过去数年的时间里狂飙突进,其发展速度之快、数量之多、范围之广、程度之深,都远远超出了我们的想象。数字化时代,传统人文学科迎来三个最重要的变化:一是学术生产活动的核心转向数字化生存;二是人文学者检索、搜集、研究与传播学术的视野与能力得以拓展;三是传统人文学科呈现出边界模糊、交叉融合的趋势。数字化时代已经来临,我们都希望用数字化的逻辑去做今天和未来的事情。
自20世纪90年代以来,世界各国纷纷投入巨资进行数字化建设,其中美国是最早提出数字图书馆概念并从事数字化建设的国家。1993 年 9 月,美国国家科学基金会、国家宇航局和国防部高级研究计划署联合公布了《数字图书馆倡议》,开始领导、组织和资助美国数字图书馆的研究和开发工作。1995年,国会图书馆协同15家主要图书馆组建了“国家数字图书馆联盟”,意图在互联网上建立分布式的开放图书馆,动态地保存美国的历史和文化遗产。2004年谷歌发布了一个野心勃勃的计划,试图把所有版权条例允许的书本文献进行数字化。为此谷歌与密歇根大学图书馆、哈佛大学图书馆、斯坦福大学图书馆、牛津大学图书馆等达成交易,并发明了一个能自动翻页的扫描仪开始工作。在短短几年的时间里, 共扫描了大约2 500万本图书,使印刷文本上的内容变成了网络上的数据化文本,供用户通过搜索引擎查询和进行文本分析。然而谷歌的“网上图书馆”因涉嫌侵权被美国出版商和美国作家协会告上法庭。官司虽旷日持久,但谷歌因“合理使用原则”成为最终的胜利者。这仿佛是一剂猛药,令美国知识界以及更广泛的社会领域人士兴奋,并展开双臂呼唤数字化浪潮的到来。美国数字公共图书馆(DPLA)捷足先登,将美国图书馆、博物馆和档案馆的人文资料及相关资源进行数字化和网络化开发,并于2013年4月上线,免费提供给世界用户。美国各大学采用跨学科的方法,将专业知识与数据集结合起来,相继建立了大量的人文主题网站、专题数据库,从长远考虑以数据化形式储存、保护、开发手中的资源。一些非盈利组织也有计划地从事原生数字资源存档、互联网存档,开始布局数字化时代知识共享与大众化普及行动。各类基金会加大资助不同主题领域、研究方向数字化项目的力度,成为研究基础设施的重要推动力量。与此同时,英国、法国、俄罗斯、澳大利亚等国家的数字化建设也如火如荼,成为国家信息化建设的重要组成部分。
我国的数字化建设虽然起步较晚,但投入和提速较快,不仅培育了若干个数字化科技巨头,而且为各行各业进入“数字世界”、共建命运共同体创造了良好的生态环境。以数字图书馆为例,1997年7月,“中国试验型数字图书馆项目”立项,1998年以后数字图书馆在我国开始升温。“中国数字图书馆示范工程”“中国试验型数字图书馆”“教育部数字图书馆攻关计划”、中国高等教育文献保障体系(CALLS)、国家科技图书文献中心(NSTL)、国家科学数字图书馆(CSDL)相继启动,“国家图书馆文献数字化中心”、数字图书馆研究所相继成立,中国数字图书馆、中国知网、超星数字图书馆、上海数字图书馆、华东师范大学数字图书馆等相继运营与完善,进一步推动了我国数字图书馆的研究与建设工作。2008年全国图书馆标准化技术委员会成立, 围绕数字图书馆建设制订了一批相应的国家标准、行业标准。2012年《全国图书馆标准化工作“十二五”规划纲要》,将“数字图书馆”列为第一个重点领域。麦肯锡全球研究院发布的“中国行业数字化指数”显示,中国与美国之间相对应行业的数字化程度差距正在迅速缩小。2013 年,美国的数字化程度是中国的 4.9 倍,到 2016 年已缩小到 3.7 倍。在零售业和娱乐业,中国的数字化程度已明显高于欧盟和美国[14]。数量可观的年轻网民,体量庞大的数字化市场,源源不断的海量数据,不断扩张的数字化生态系统,构成了数字人文研究的生机和命脉。
(二)数据库改变了学术
数字化只是转换了传统文献资料原先的存在方式,能够让计算机存储、处理和展示,在没有被数据化之前,本身不具有数据维度上的意义。真正能够改变传统文献资料利用方式的是数据化,数据化是将电子形态的文献数据结构化,按照一定数据格式构建成适用于可制表分析的量化形式。其意义在于,让数据从静态的“原矿状态”,变为动态的可分析数据资源。
从数字化走向数据库进而走向平台化,是未来的发展方向。数据库按照数据结构来组织、存储和管理,既是一个长期储存于计算机中的有组织、可共享的、统一管理的数据集合,也是一个应用领域的通用数据处理系统。不同的用户可以按各自的需求使用数据库中的数据,多个用户可以同时共享数据库中的数据资源。数据库的类型大体有层次数据库、网状数据库、数字化文献资源库、关系型结构化数据库等。结构化数据库的数据之间可以任意重组关联,形成新知识,发现新问题,已经成为目前数字人文研究中最重要的平台。2008年,美国人文学科国家基金会推出“数字人文行动计划”,并成立了专门的数字人文办公室,推动各种类型数字人文项目的规划和实施。由此,使“数字人文”这个幽灵得以在美国和世界各国自由倘佯。近十年来,数字人文研究机构如雨后春笋般涌现,全球多个国家相继成立了数字人文研究学会和数字人文中心。数字人文中心主要分为两大类:一是以大学院系为主体成立的数字人文中心,主要依托文学、历史、艺术、考古与计算机等学科,有专职的专家与技术人员队伍,呈现出专业学术研究的特征。比如建立数字馆藏作为学术或教学资源,开展人文科学和人文计算研究,举办与专业领域相关的讲座、工作坊、会议,编辑出版专业书籍、期刊、会议报告以及博客等形式的研究成果,招收和培养研究生等。二是以大学图书馆为主体建立的数字人文中心,相当于各类数字人文项目的“孵化器”。这类中心多数定位于“跨学科协同创新服务机构”,通过具体的项目将不同学科的研究力量整合在一起,并为项目的运行提供必要的技术和管理服务。因此,这类中心集多种职能于一身:一是公共数据中心,通过数字化技术采集必要的信息资源,实现集成存储;二是技术支持中心,形成人文科学专家、计算科学专家与技术人员协同创新格局;三是在线服务中心,通过数字人文项目链接提供深层次信息服务;四是协同管理中心,围绕数字人文项目建设实现人力资源的合理配置;五是教育培训活动,强化社会大众的数字人文意识和相关工作技能[15]。截至2019年4月20日,数字人文合作组织“数字人文中心网络” (Center Net)收录的数字人文中心已达201个。据统计,数字人文中心约一半在美国,而这其中又有约一半设在图书馆,另有约四分之一和图书馆有某种程度的合作关系[16]。可见在数字人文基础设施建设中,图书馆的作用不容忽视。
在欧美国家,大学、图书馆、数字人文中心、有影响力的学术期刊、商业公司和有能力的学者个人通常是数据库和平台的构建主体。欧美国家与中国文化有关的数字人文研究项目,具有范式意义的有三个:(1)中国历代人物传记数据库(CBDB),该项目由美国哈佛大学东亚语言与文明系与北京大学中国古代史研究中心和台湾“中研院”历史语言研究所合作,由包弼德教授主持。这是目前世界上最大的中国历史人物传记资料分析数据库,功能强大,支持各种各样的查询,包括人物入仕途径、官职查询、社会关系网络等,实现了数据、平台、方法论与工具的有机整合。“这样的数据库为研究者提供了一种新的方式,基于大量数据来思考人类的过去和历史。”[17]但系统过于专业复杂,也会给普通用户的使用带来不便。(2)中国历史地理信息系统(CHGIS),由复旦大学历史地理研究中心与美国哈佛大学东亚系、哈佛燕京学社、澳大利亚格里菲斯大学亚洲空间数据中心等机构合作,由包弼德主持。项目将中国历史地名和历史地图矢量化,并且以关系型数据库的方式记录地名的层级、沿革信息及可视化的展示,试图建立一套可靠、开放的基础地理信息数据库。(3)古籍半自动标记平台(MAR KUS),由荷兰莱顿大学魏希德教授与何浩洋博士设计开发,是一个纯线上文本标记工具。该平台自身没有数据,但可利用中国历代人物传记数据库及其他数据库,使用者可以为文本标记出人名、地名、年号、职官等关键词。这些经过标记的文本导入数据库后,会成为其他数字人文学者进行统计分析的数据来源。
近十几年来,我国各个领域、各个方向统建、自建、共建的人文社科专题数据库不断涌现,但各自为政,条块分割,鱼龙混杂,参差不齐。性能比较优化的也有三个代表:(1)台湾大学DocuSKY数位人文学术研究平台,由项洁教授主持。这是台湾大学数位人文研究中心与资讯工程学系开发的平台,2018年新版页面正式上线。DocuSky提供研究者在平台中上传自己从各种不同渠道搜集来的文本资料,并且运用各式各样的新颖工具,进行文本格式转换,建置数字资料库,支持用户对自己的数据进行个性化探索,从多元的视角挖掘潜藏于资料中的议题线索及脉络。(2)《唐宋文学编年地图平台》,由中南民族大学王兆鹏教授主持开发,2017年3月上线。目前上传的唐宋诗人行迹数据已近500条,地图融时间、地点、人物、事件、作品为一体,将诗人的编年事迹和编年作品转化为关系型结构化数据,诗人一生活动轨迹都能可视化。这种支持多元素呈现的模式,不仅强化了文学史的空间维度,更改变了文学地理空间的认知方式。(3)学术地图发布平台,由浙江大学徐永明教授主持开发。自2018年3月上线以来,已发布300余幅数据地图、600多个图层、40余万条数据,涉及地学、农学、健康、环境、交通、气候气象及人文等各个领域,力求从空间维度展示中国人文与历史。
数据库已经成为一种新的文本形式,一种新的数字媒介,正在改变着学者阅读与检索、分析与研究、写作与传播的方式。从这个意义上讲,说数据库改变了学术也不为过。但我们在使用、依赖这些性能各异的数据库和平台的同时,也对伴随的挑战充满了焦虑。第一,数据库不断扩张,重复无序,各自为阵,壁垒森严。各个数据库之间,缺乏统一的标准, 互不支持,互不买账, 这与数字人文开放、多元、协作的学术氛围格格不入。第二,部分专题数据库数据不完整、数据更新慢、数据冗余、数据共享不给力,已经成为“僵尸库”和“负面标签”,亟待升级转化为关系型结构化数据库。第三,部分大型数据库出版商,通过垄断学术资源数字出版权而在市场竞争中取得了极强的优势。他们把带有公益性性质的数字学术资源进行纯商业化运作,并且采取差别定价、不断涨价、不公平高价的做法,不仅损害了消费者的合法权益,而且也使学者(也是作者)们深感切肤之痛。
三、从思辨式方法到数据驱动范式
人文学科传统研究是一种思辨式的研究方法,即“先预设问题,然后收集及整理相关材料,通过对材料的思辨和诠释而形成成果。”[18]然而,这种方法过度依赖已有的研究成果与研究者的经验性、直觉性,易导致知识发现陷入“路径依赖”和“个性依赖”,并在很大程度上影响了学术研究的科学性。而“数字”的多样性、包容性和可扩展性,数字技术的大爆发为学术研究提供了一种新的思路与范式——数据驱动的研究范式,即通过数据挖掘、算法参与、社会分析、机器学习等手段重塑和改造人文知识。数字人文之所以不同于传统人文研究之处,“正在于‘数字’的背后代表的是一批学者试图以科学方法介入人文研究,从而建立新的认知方式、新的研究范式的自觉意识和实践。”[19]
(一)文本挖掘
欧美国家的数字人文研究一般以项目为基本单位,这些项目覆盖面比较广,几乎包括了所有人文学科,常见的有数字历史研究项目、档案与文献研究项目、语言与文学研究项目、艺术研究项目、图书馆信息和博物馆研究项目、数字人文公众科学项目等。例如档案与文献研究项目就包括GIS历史地理可视化项目、语料库建设项目、历史资料库建设项目、社会及历史场景重建项目、档案数字化项目五类。虽然都是围绕特定领域建立、特定问题组织,但追求的价值是对特定主题数字资源的深度挖掘与“基于数据的研究”。文本挖掘技术在欧美的数字人文项目中已经得到了广泛应用。数字人文学者通过从文本中挖掘隐含在数据背后、先前并不知道,但存在潜在价值、能被赋予意义的信息,进而发现新的知识。文本挖掘最常用的技术,包括词频统计、特征提取、结构分析、文本摘要、文本分类、主题模型、关联分析等。文本挖掘的一个重要指向,就是学者们利用它去研究文学与社会问题之间的关系。Elson等对60部19世纪的英国著名小说和期刊进行了社会网络关系挖掘,给出了这一阶段社会网络特征的新解释,阐明了小说人物的数量与社会网络特征的相关关系以及小说的形式与背景对社会网络关系的影响[20]。
文本挖掘在文学方面的应用,越来越受到中国学者的关注。有学者“通过建立不同文本的语料库,统计分析其中所使用的语言及其特质,帮助确立作者的身份,或重新分析其中的小说情节、人物功能等等。”[21]如对中国现代作家李劼人“《大波》三部曲”的研究。有学者“对不同文类文体的语言特征及其文本功能进行分析,尤其是对声韵词句特征、格律形成演变、情感表达等作出新的探寻。利用文本深度挖掘得出的数据,对文学研究中重要的两个领域‘文体’与‘文论’中出现的重要论题进行具体而微的专题研究。”[22]还有学者基于叙事理论设计的文本挖掘和分析工具,分析数以百万字计的超长篇网络小说,实现同时对比分析成百上千部类型小说或史传叙事,析出其类型特点或叙事程式[23]。在人文学者的知识视野中融入数据驱动,无疑推动了人文学科研究的发展。
(二)量化分析
数据科学家维克托·迈尔·舍恩伯格说过,大数据时代,一切皆可“量化”。20世纪60年代起,计量史学在欧美学界颇为兴盛。经过几十年的发展,欧美出现了一些重要的大型量化史学数据库,如美国整合公共微观数据库(IPUMS)和犹他人口数据库(UPDB)、加拿大巴尔扎克人口数据库(BALSAC)和历史人口计划数据库(PRDH)、荷兰历史人口样本数据库(HSN)、瑞典斯堪尼亚经济人口数据库(SEDD)和乌米亚人口数据库(DDB),等等。这些数据库实质上是计算技术与结构数据的组合。数字人文学者“多以‘大数据’为基础,关注材料的系统性和可量化数据平台的构建,重视对长时段、大规模记录中的各种人口和社会行为进行统计描述及彼此间相互关联的分析,以此揭示隐藏在‘大人口’中的历史过程与规律。”[24]例如,法国经济学家托马斯·皮凯蒂所撰《二十一世纪资本论》,就是依据多国20世纪国民账户、收入、财产与纳税等多种系统历史数据,研究资本主义社会不平等的长期演化的畅销著作。美国经济学家克劳蒂亚·高丁等著《教育与技术的竞赛》,就是基于一个世纪以来美国教育、职业和收入的个人层面微观数据讨论美国经济不平等的历史脉络和技术革新、教育进步对收入分配结构的影响[25]。在概念史研究中,以往偏重引述文献以进行语义的铺陈和考辨。而现在借助大数据方法,则可对词频、用法和语境进行量化分析,以梳理概念含义的形成和流变[26]。
20世纪80年代计量史学被介绍到中国内地,其方法成为经济史、人口史、社会史、军事史等领域学者的一种必不可少的研究手段。例如,中山大学陈春声出版的著作《市场机制与社会变迁:18世纪广东米价分析》, 就是史学界当时唯一一部成功运用计量史学方法的力作。西安交通大学蒋正华运用数学模型方法计算新中国成立以来历年的人口出生率和死亡率,在此基础上估算出三年经济困难时期非正常死亡人数[27]。计量史学方法在显示其突出功效的同时,也呈现出统计图表抽象、函数公式难懂、演算过程复杂导致计算质量欠佳的局限。20世纪90年代中期以来,随着欧美一些重大历史量化数据库对学界开放,李中清、康文林团队“中国多代人口系列数据库”(CMGPD)、北京大学与北京爱如生公司“爱如生系列数据库”等量化数据库的相继问世,计算机辅助下的量化分析成为中国数字人文研究中的一股新风潮。量化分析给历史研究带来的改变,体现在三个方面:第一,借助量化数据库,通过计算与分析关键词的意义,并将其放到历史语境中认识过去曾经盛行过的普遍观念,发现历史真实。例如詹荃亦等著《“主义”的数位人文研究》一文,就是从量化的角度勾勒出“主义”概念的历时性发展轨迹,量化地证明了“主义化”在近代中国曾煊赫于一时。第二,“透过巨量资料的计算分析,对过去史学研究结论进行补充修正工作。”[28]史学界传统观点一般认为,《新青年》创刊的宗旨是以青年为主,教育青年。金观涛等著《统计偏离值分析于人文研究上的应用——以<新青年>为例》一文,则修正了这一说法。文章指出《新青年》第1卷的关键词是“国家”与“政府”,而并非“青年”。随着国家主义的幻灭,中国知识分子才真正走向关注青年的觉醒道路。因此,“青年”概念在第2卷成为关键词并在之后大量涌现,是有其深刻时代背景的[29]。第三,量化分析方便学者“发现数据统计与传统记述性史料不同的历史面向,或者不同数据系统之间的差异,进而以此为起点,提出新的学术问题。”[30]例如陈志武等《清初至二十世纪前期中国利率史初探——基于中国利率史数据库(1660—2000)的考察》[31]一文指出,流行观点多将中国传统民间借贷简单斥为“高利贷”,但具体情形则远为复杂。通过数据库,可以更清楚地看到这种解读的偏差之所在及其产生之缘由。量化分析发现:以往研究中“高利贷”印象的形成,实与史料运用上偏向概述资料有关,一旦运用统计手段对大量的原始材料进行系统分析,其偏差就立即呈现出来了。以往关于传统“高利贷”的讨论往往忽略商业化放贷,直接以私人间借贷的利率来讨论经济发展受到的阻碍,可以说存在严重的误读。由于信息不对称及信贷配给,平民无法跨越商户、钱庄直接向票号借贷,不同市场间的利率因此不完全受 “一价法则”的支配,呈现出的特征也很不一样。另外,文献中以中国的私人借贷利率与西欧的机构同业借贷利率相比的常见做法,也是不太得当的。
(三)地理信息系统
作为一个采集、存储、显示、管理、处理信息的计算机软件系统,地理信息系统(GIS)不仅融合和集成其他技术,而且还利用定位将海量信息整合、分析及可视化,正促成历史和其他人文学科对地理空间的重新发现。1963年,加拿大测量学家汤林森首次提出“地理信息系统”概念。20世纪90年代,欧美学者逐渐将GIS技术引入历史分析之中,为历史地理学研究注入了新鲜活力。2000年之后,伴随着计算机技术的巨大进步与互联网的飞速发展,GIS在历史和文化中的应用成了研究热点。Knowles主编的《逝去的时空:历史地理信息系统》、Knowles等主编的《定位历史:地图、空间数据和GIS改变历史学研究》,集中展示了电子地图、GIS在古代聚落、城市、交通网络、历史事件重建、人口史、土地利用等方面的应用,从而引起了历史、考古、语言、文学等人文领域学者研究的极大兴趣[32]。到目前为止,世界各国基本建立了本国的历史地理信息平台与专题历史地理信息系统,比较著名的有美国加州大学圣巴巴拉分校的空间综合社会科学研究中心、英国伦敦大学学院的高级空间分析中心等,以及瑞典于默奥大学开发的拜占庭帝国犹太社区项目、美国加州大学伯克利分校开发的菲律宾文化地图、美国布朗大学开发的非洲史动画地图集等。与此同时,欧美学术界利用GIS技术研究的问题涉及方方面面。例如19世纪二三十年代,美国风沙侵蚀区的出现是因过度农田开垦还是环境变化所导致? 伊丽莎白一世时期,伦敦城市风貌巨变对英格兰地区的文学有何影响? 19世纪德国在周边多变的政治格局中,统治者和领土间的关系是什么?空间网络对中国封建时期的行政区划有何影响? 空间如何塑造了美国州际铁路的建设发展?[33]GIS技术为这些问题的研究不仅提供了新的视角,而且突破了学科界限。
我国已开发的历史地理信息平台主要有哈佛大学与复旦大学合作的“中国历史地理信息系统”、南京师范大学虚拟地理环境教育部重点实验室开发的“华夏家谱历史地理信息系统”、中国人民大学清史研究所开发的“清史地图集与地理信息系统”等。GIS进入中国历史学研究领域,“在历史时期环境演变、河流地貌、气候变动、水利社会、乡村聚落、城市形态、传统舆图、疫病传播等方面都取得了非常重要的突破,许多过去无法解决的难题通过GIS手段得以解决,它的开发价值也越来越受到学者的重视。”[34]GIS进入中国古典文学研究领域,至少可以协助解决如下问题:中国历代作家在不同时期的地域分布状况、自先秦以来中国历代作家在不同地域的消长、历代作家的迁徙与文化重心之转移、作家群体的诞生嬗变与其地域之分布、家族文化与文学在不同历史时期的演变、具体作家在不同年月的创作情况及其作品在不同地域的分布、作家文集在不同时代不同地域的刊刻流布、精确描述文学事件作家活动与编年文学史写作、作家年谱的编纂、著名作家在不同地域不同历史时期的影响研究[35]。
(四)社会网络分析
社会网络分析受到人类学、社会学、物理学、数学、统计学、计算机科学等不同学科的影响,经历了几次起伏的发展阶段,最后相互融合成对社会主体的“属性数据”及其“关系数据”加以“结构分析”的一种新范式。社会网络分析的精髓 “在于把复杂多样的关系形态表征为一定的网络构型,然后基于这些构型及其变动, 阐述其对个体行动和社会结构的意义。”[36]20世纪90年代以来,“以网络中心度、网络密度等常规分析为基础,动态空间分析、重叠网络概念的应用、凝聚子群分析等新方法不断出现,极大提升了社会网络分析对考古学材料的多角度解读能力。”[37]考古学社会网络分析研究迎来了大发展,产生了如对古代贸易和交流路线、人群流动、文化边界和文化传播、古代政治集中化和国家起源等一系列多维度的研究成果。数字人文研究也从传记或小说类文学文本或关系数据库中提取各种人物关系构建社会网络,去分析并思考人类的过去和历史。文学研究应用社会网络分析,也出现了许多典型案例。例如,英国学者戴维·K·埃尔森等提出从文学小说对话中提取社会网络,数据获取的方式是选取60部19世纪的英国小说和连载文集,统计人物之间的对话数量,最后得出的结果是有意义的,且为研究其他类型小说的社会网络提供了参考[38]。
社会网络分析引入中国,应用最为广泛的是图书情报、网络舆情、数字图书馆、政治学与经济学等领域,近年来才有学者将其应用于数字人文,且较为集中在历史与文学研究领域。例如王涛《数字人文框架下<德意志人物志>的群像描绘与类型分析》[39],就用Python语言编写代码,对《德意志人物志》进行了结构化处理和社会网络统计分析,清晰地勾勒了历史人物迁移的图景,从而推演了德意志中心城市的生成。严程《顾太清交游网络分析视野下“秋红吟社”变迁考》[40],借助社会网络分析来考察顾太清与沈善宝等十余位诗友的往来诗作,将文献中涉及的人物、时间和事件信息转换成变动的人际网络,发现以顾太清为中心的女性诗人交游群体在诗社存续期间的两次重大结构变化,并破解这一清代满汉融合闺秀诗社的兴衰变迁之谜。
(五)可视化分析
可视化是利用计算机图形图像处理技术,将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式在屏幕上显示出来,通过图形或视角解读数据。“可视化可以作为分析和解释工具,来揭示模式、反常现象或并发事件;可视化也可用于显示新发现,或作为论证的总结。”[3]45欧美国家的许多数字人文研究成果采用了可视化分析,特别是“视觉历史研究”的盛行,让人为之眼前一亮。在历史研究方面,越来越多的学者借助数字技术对历史事件进行静态和动态的可视化展示。例如弗吉尼亚大学的“视界”项目就利用数字化手段将大量数据转化为地图、图表、图形等,从另一个角度讲述重要的历史事件,并建立庞大的数据库,供用户搜索和了解历史事件的发展。美国斯坦福大学的历史学家将美国报业发展的详细过程根据年份,以图示形式予以呈现,形成《图说美国报业发展史(1690—2011)》的研究成果,从而填补了美国新闻史的“空白”。Schich等通过获取公元前600年到公元2012年间15万名不同领域的历史杰出人物的出生和死亡地点数据,描绘了这些著名人物的迁徙模式,通过网络和复杂性理论的工具识别特征模式,确定文化和历史的关联,使用大规模可视化和定量工具从宏观的角度绘制了三千年欧洲和北美的文化史图,获得文化中心发展的历史趋势[41]。
近年来可视化技术在中国的发展很快,从概念、理论与方法介绍,到空间、地理、文献、数据库的广泛应用,人文学界越来越明显地呈现出“视觉转向”的趋势。例如,严承希等借助符号分析方法对哈佛大学“中国历代人物资料库”进行实证探索与可视化分析,从宋代政治整体网络分布特征、核心人物的地位与结构拓扑以及不同时期宋代政治网络的时序政治关系演化模式三个层次,进行变量统计与散点图比较讨论,为研究宋代党争政治格局提供了新的思考方式,同时也展现了可视化技术在历史研究领域中的可行性与巨大潜能[42]。王哲以清代南方粮价空间分布和粮食运销网络为例,说明了如何对历史空间经济数据进行可视化,分析得到清代南方地区米价从东到西的四个空间梯度,同时根据旧海关统计中的“多种粮食”贸易源汇数据,在分析其空间属性基础上定量重建了20世纪30年代的粮食贸易网络。文章认为可视化能够在原始史料“二次整理”过程中发挥较大的作用,在学科交叉和融合方面有着很好的学术前景[43]。王兆鹏认为:“可视化的意义,它不只是一种表达方式的变化,更可以带来学术研究范式的变化。”[44]
托马斯·库恩认为,新的范式可以带来“革命性”的后果,推动科学研究的飞跃。大数据的兴起,机器学习算法的迅猛发展,推动了数据驱动研究范式的拓展深化,使得数字人文研究的科学性提高和视野扩大,能够解决传统研究方法无法解决的问题,并出现了具有一定原创性的学术成果,如弗吉尼亚大学杰罗姆·麦根开创的“文本批评”、美国当代新媒体理论家列维·曼诺维奇和马克西米里安·席希提出的“文化分析学”、芝加哥大学弗朗哥·莫莱蒂提出的“远距阅读”等。2009年之前,中国国家社会科学基金几乎没有数字人文方面的项目。2016—2018年,国家社会科学基金重大项目中分别有16、22、15个数据库和平台建设项目立项,涵盖多个学科、多个主题。这些数据库和平台,有的侧重数据挖掘,有的长于平台架构,还有的注重方法论推广,但都具有人文学术研究的“计算转向”特征。
四、结论
数字人文在当下的中国,已经成为人文科学研究的学术热点和趋势。因此有必要对数字人文的“数字”组成部分进行比较深入的讨论。第一,“数字”是软件和算法、“数字”是技术和工具。数字工具和技术为数字人文研究带来机遇的同时,数字的技术困境和伦理困境也已显现。第二,从数字化生存到数据化发现,不仅带来新的思维模式和研究视角,而且实现了载体的转型进而改变了学术。第三,从思辨式研究方法到数据驱动研究范式,实现了人文学术研究的“计算转向”。数字人文研究采用了大量“数字”方法和技术手段,诸如文本挖掘、量化分析、地理信息系统、社会网络分析和图像可视化技术等,确实重塑和改变了人文研究的眼界及其路径,为学者们提供了更多差异化、开放性、趋势性研究的可能和线索,从而扩展了学术疆域和潜力。
数字人文可以拆解为“数字”和“人文”两个概念,两者既独立又连贯,倘若二者联姻就会产生聚合效应,成为一种超越历史和媒介的创建知识和意义的路径。但问题在于“数字”一家独大,技术思维导致“数字孤岛”出现,不能很好体现人文理念,影响中国原创性学术成果的生产。如何突破数字人文的“数字困境”?数字人文学者不能再满足于单兵作战,不能仅专注于学术研究的“数字”性,而应加强协同作战,加强学术研究的“人文”性。一是加强问题导向,深度介入项目研究,发现、分析、解决问题,对关键人文理念提出建议或质疑。二是提升复合素养,积极参与数据库的开发,接受计算的流程方法,学习编程语言、数据库技术和数据格式的建构过程,使自己成为既懂数字又懂人文的“刺猬狐”人才。三是跨界合作创新,不能仅满足于如何对相关数据进行人工标记、如何处理词频、使用分析软件,更重要的是尝试转换身份,用技术思维提出问题和思考问题。要与数字领域的技术专家建立密切合作关系,处理好两者的相斥相容相加问题。四是提倡文化批评,不仅针对技术工具、数据与元数据、算法和计算的批评,还应将批判性思维延伸到社会、经济和文化的范畴中去,以此包容不同形式的学术研究和批评方法,丰富数字人文的学术能力。如果没有问题导向,没有批判精神,没有独立观点,没有原创成果,那么数字人文只能是少数人圈子内的狂欢,只能沦为新技术的炫耀场。因此,“未来的数字人文研究,只能以人文为本位,以技术为手段来发现、分析和解决人文社科领域的问题,而不能仅用人文社科领域的数据来验证算法。”[45]近年来,数字人文领域内部的争论也日益加剧,面对实践者不断提出的颠覆性问题,痛苦或许是这个领域未来的标志。
参考文献
[1] GOLD M K.Debates in the Digital Humanities[M].Minneapolis:University of Minnesota Press,2012:69-71.
[2] 陈静.复数的数字人文——比较视野下的中国数字人文[J].中国比较文学,2019(4):14-28.
[3] 安妮·伯迪克,约翰娜·德鲁克,等.数字人文——改变知识创新与分享的游戏规则[M].马林青,韩若画,译.北京:中国人民大学出版社,2018.
[4] 大卫·M·贝里,安德斯·费格约德.数字人文——数字时代的知识与批判[M].王晓光,等译.大连:东北财经大学出版社,2019.
[5] WILLSON,MICHELE.Algorithms (and the) Everyday[J].Information,Communication & Society,2017,20 (1):137-50.
[6] MICHEL J B,SHEN Y K,AIDEN A,et al.Quantitative Analysis of Culture Using Millions of Digitized Books[J].Science,2011,331(6014):176-82.
[7] 用算法为历史文献断代[EB/OL].[2020-02-26].https://zhuanlan.zhihu.com/p/19753078.
[8] 王伯鲁.广义技术视野中的技术困境问题探析[J].科学技术与辩证法,2007(1):67-72.
[9] 朱本军,聂华.数字人文:图书馆实践的新方向[J].大学图书馆学报,2017(4):23-29.
[10] 克莱尔·毕夏普.方法与途径——“数字艺术史”批判[J].冯白帆,译.美术,2018(7):128-131;127.
[11] 张耀铭.数字人文的价值与悖论[J].澳门理工学报,2019(4):105-118.
[12] 胡易容,张克.从“数字化生存”到“符号的栖居”——论数字人文学的符号学界面[J].华南师范大学学报(社会科学版),2016(2):31-36.
[13] 埃里克·布莱恩约弗森,安德鲁·麦卡菲.第二次机器革命:数字化技术将如何改变我们的经济与社会[M].蒋永军,译.北京:中信出版社,2016:86.
[14] 报告|麦肯锡全球研究院《数字时代的中国:打造具有全球竞争力的新经济》[EB/OL].[2020-02-26].https://www.sohu.com/a/226861506_651625.
[15] 赵生辉,朱学芳.我国高校数字人文中心建设初探[J].图书情报工作,2014(6):65-70;101.
[16] 冯晴,陈惠兰.国外图书馆参与数字人文研究述评[J].图书馆杂志,2016(2):14-19.
[17] 包弼德.数字人文与中国研究的网络基础设施建设[J].夏翠娟,王宏甦,译.图书馆杂志,2018(11):18-25.
[18] 欧阳剑.大数据视域下人文学科的数字人文研究[J].图书馆杂志,2018(10):61-69.
[19] 陈静.数字人文知识生产转型过程中的困境与突围[J].文化研究,2018(2):171-185.
[20] 郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012(3):11-18.
[21] 王贺.“数字人文”如何与现代文学研究结合[J].现代中文学刊,2019(1):78-80.
[22] 刘石.大数据技术与古代文学经典文本分析研究[J].数字人文,2020(1):24-31.
[23] 严程.现代文学研究的“数字人文”方法刍议[J].现代中文学刊,2019(1):75-77.
[24] 梁晨.量化数据库:“数字人文”推动历史研究之关键[J].江海学刊,2017(2):162-164;239.
[25] 梁晨,董浩,李中清.量化数据库与历史研究[J].历史研究,2015(2):113-128;191-192.
[26] 李剑鸣.大数据时代的世界史研究[J].史学月刊,2018(9):12-16.
[27] 蒋正华,李南.中国人口动态估计的方法与结果[M]//中国人口年鉴(1987).北京:经济管理出版社,1988:94-106.
[28] 邱伟云.验证、修正、创新:数字史学方法的三重功能[J].南京大学学报(哲学·人文科学·社会科学),2019(2):87-90.
[29] 金观涛,梁颖谊,姚育松,等.统计偏离值分析于人文研究上的应用——以《新青年》为例[M]//东亚观念史集刊:第6期.台北:政治大学出版社,2014:327-366.
[30] 申斌,杨培娜.数字技术与史学观念——中国历史数据库与史学理念方法关系探析[J].史学理论研究,2017(2):87-95;159.
[31] 陈志武,彭凯翔,袁为鹏.清初至二十世纪前期中国利率史初探——基于中国利率史数据库(1660—2000)的考察[J].清史研究,2016(4):35-62.
[32] 陈刚.“数字人文”与历史地理信息化研究[J].南京社会科学,2014(3):136-142.
[33] BODENHAMER D J.超越地理信息系统:地理空间技术及历史学研究的未来[J].孙頔,钦白兰,吴宗杰,编译.文化艺术研究,2014(1):148-156.
[34] 张萍.地理信息系统(GIS)与中国历史研究[J].史学理论研究,2018(2):35-47;158.
[35] 郑永晓.以GIS为例看信息技术在古典文学研究中的应用[J].重庆教育学院学报,2006(5):59-62.
[36] 李林艳.社会空间的另一种想象——社会网络分析的结构视野[J].社会学研究,2004(3):66-77.
[37] 陆青玉,栾丰实,王芬.社会网络分析及其在考古学研究中的应用[J].东南文化,2019(5):14-20.
[38] 魏会洋,袁曦临.社会网络分析在文学阅读研究中的适用性问题 ——以数字人文视角下的《白鹿原》人物关系阐释为例[J].新世纪图书馆,2019(3):30-34.
[39] 王涛.数字人文框架下《德意志人物志》的群像描绘与类型分析[J].历史研究,2018(5):148-166;192.
[40] 严程.顾太清交游网络分析视野下“秋红吟社”变迁考[J].山东社会科学,2018(7):64-69.
[41] 欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016(2):66-80.
[42] 严承希,王军.数字人文视角:基于符号分析法的宋代政治网络可视化研究[J].中国图书馆学报,2018(5):87-103.
[43] 王哲.历史空间数据可视化与经济史研究——以近代中国粮食市场为例[J].中国经济史研究,2017(5):28-44;57.
[44] 王兆鹏.今后古典文学研究的可视化趋势[M]//刘跃进.古代文学前沿与评论:第一辑.北京:社会科学文献出版社,2018:10-13.
[45] 王兆鹏,郑永晓,刘京臣.借器之势,出道之新——“数字人文”浪潮下的古典文学研究三人谈[J].文艺研究,2019(9):79-88.