张耀铭:数字人文的张力与困境——兼论“数字”内涵

选择字号:   本文共阅读 185 次 更新时间:2021-01-21 15:54:26

进入专题: 数字人文   数字   技术困境   数据化发现   数据驱动  

张耀铭 (进入专栏)  

   摘    要:

   数字人文在当下中国,已经成为学术研究的热点和趋势。因此有必要对数字人文的“数字”组成部分进行比较深入的讨论。第一,“数字”是软件和算法,“数字”是技术和工具,“数字”是基础设施和研究范式。“数字”为人文学术研究带来机遇的同时,其技术困境和伦理困境也已显现。第二,从数字化生存到数据化发现,不仅带来新的思维模式和研究视角,而且实现了载体的转型进而导致意义的变迁。第三,从思辨式研究方法到数据驱动研究范式,实现了人文学术研究的“计算转向”。但问题在于“数字”一家独大,不能很好体现人文理念,影响了中国原创性学术成果的生产。如何突破数字人文的“数字困境”?加强问题导向、提升复合素养、跨界合作创新、提倡文化批评,就显得尤为重要。

   关键词: 数字人文; 数字; 技术困境; 数据化发现; 数据驱动; 

  

   “数字人文”概念被提出并为该领域的多数学者所接受,不过十几年的时间,而各种相关争论却一直持续不断。有学者总结出关于数字人文的21种不同的定义,但又声明没有一个是完全令人满意的[1]。学界对数字人文之所以难有共识,首先是由于数字技术是不断变化、发展的,新的技术内容和形式随着时代的演进不断丰富和增加,因而导致数字人文概念的内涵与外延也不断地更新和拓展。其次,数字技术是一柄双刃剑,在发挥巨大的社会进步核心动力功能的同时,也引发了许多难以消除的负面效应。因此数字人文没有公认的标签,也一直处于不断被定义、被争论、被批判的过程,数字人文的版图边界还有待商榷。

   数字人文在当下的中国,俨然已成为学术热点。从已有的研究看,尽管有数字技术及其相关问题的讨论,但对数字人文的“数字”组成部分却鲜有深刻认知与批判反思。因此对数字人文中的“数字”进行比较深入的讨论是完全必要的,比如“数字”是软件和算法?“数字”是技术和工具?“数字”是数据驱动的研究范式?“数字”彰显了张力和创新,是否又带来了困境与偏见?“数字”与“人文”结合,又推动了何种意义上的对话?笔者不揣冒昧,谈一些肤浅之见。

   一、“数字”提供的机遇与挑战

   “数字”是什么?从工具层面讲是软件和算法、技术和工具;从数字层面讲是基础设施和研究范式,“不仅包括使用编程语言进行文本计算、数据库搭建,也包括利用和开发软件开展相关研究。”[2]必须承认“数字”这个词充满了张力,这种张力存在于数字技术与网络分析之间,存在于齐一性和离散性之间,存在于现实性和虚拟性之间,存在于学科性和跨学科性之间,存在于创新和困境之间。当今时代被称为数字时代,诸如数字资源、数字工具、数字技术、数字计算、数字媒体、数字出版、数字方法、数字思维、数字文化、数字经济等等,数字已经无孔不入地融入我们的经济、商业和社会之中。在学术领域,数字技术为人文学术研究提供了全新的维度和组织介入方式。今天人文学科中凸显的许多问题的解决,计算技术已成为首要的考虑条件,几乎所有人文学科的学术工作正在越来越多地用“数字”的方式完成,这也导致技术困境与人文焦虑的产生。

   我们正生活在数字技术突飞猛进的时代——电子技术、通信技术、多媒体技术、声像技术、数据库技术、人工智能技术等让人目不暇接。数字技术是一种内涵丰富的综合技术,或者说是一个技术群落。在这个技术群落里,网络技术和计算机硬件、软件是其核心。网络技术几乎克服了传播过程中可能遇到的任何障碍,这包括空间、时间上的距离障碍和文化传播意义上的语言障碍,可以说无处不在。计算机硬件如高性能计算机、便携式移动终端、3D打印机、高精度扫描仪、智能传感器、VR虚拟现实眼镜、360度超高清全景摄像机等数字工具的应用,为数字人文核心的基础活动“保管、分析、编辑和建模”,提供了快捷高效的处理[3]18。软件是一系列按照特定顺序组织的计算机数据和指令的集合,分有形和无形两个部分。有形部分指软件文档、程序代码、二进制代码、用户界面和输出报表等;无形部分指软件的技术逻辑和开发者的思想关切。数字人文研究可以利用的软件工具颇多,文献收集、管理软件有Mendeley、EndNote、Zotero等,文本编码软件有TEI、DocuSKY、GATE等,文本挖掘软件有ABBYY Fine Reader、Wordseer、ATLAS.ti等,地理空间系统分析软件有ArcGIS、Story Map、GRASS等,图像语义标注软件有文本-图像链接环境(TILE)、文档-图像链接编辑器(TBLE )、伊斯兰多拉图像标注框架 (IIAF)、数字标注与链接工具(DM)等。好的软件是人文文本研究领域的哈勃望远镜,是人文学者手中得力的技术工具,它们能给用户一种新的知识发现和文本蕴含意义揭示。

   在数字人文的知识生产、知识发现过程中,人文越来越重视“数字”,而“数字”的含义越来越依赖于算法。算法通常被定义为:一种“系统的过程,可以在有限的步骤中产生问题的答案或问题的解决方案。”[4]61换言之,算法就是一种编码程序,不是单指某次计算,而是通过特定的运算把输入数据转化为输出结果,更强调解决问题的思维和高效。国外有学者把数据比作食材,算法比作食谱,只有遵循食谱所设立的步骤和指令,按照要求筛选和搭配食材,才能做出指定口味的菜肴[5]。该比喻颇为形象生动。随着计算机技术的发展,算法应用于人文学科也不乏成功的案例。2011年, 以让-巴蒂斯特·米歇尔为首的哈佛大学、麻省理工学院、大英百科全书的学者与谷歌研究团队,利用谷歌500多万种数字化图书的语料库(时间跨度500年,规模总计5 000亿个词),以自然语言处理中使用最为广泛的 N-gram模型方法,通过英语关键词或人名在历史文献中随时间变化的频率进行算法分析,由此推导出人类文化的发展趋势和演变规律。他们的研究成果《利用百万数字化书籍的文化定量分析》在《科学》杂志上发表,开创了“文化组学”(culturomics )研究的新河[6]。多伦多大学教授Gelila Tilahun团队,利用算法为历史文献划了断代。英国大约保存了100多万份没有标明年代的契据,有的是原始文献,更多的是古代原件的复制品。这些契据具有珍贵的历史记忆与文化信息,为今天人们了解10世纪至14世纪之间的英国政治、经济和社会状况提供了难得的依据。Gelila Tilahun团队开发出一套计算机统计技术,使用10 000份署有年代的契据,考察所使用的语言随时间的变化情况,以此来确定其他契据的年代。分解、抽象、自动化在计算机编程中结合一起,通过由逻辑运算符和条件语句约束的一系列机械应用程序从输入创建输出,让断代取得了有价值的实验结果[7]。“鸟枪测序法”被应用于文学研究中,用来对中世纪“英国诗歌之父”杰弗里·乔叟的《坎特伯雷故事集》手稿版本(同一作品的不同手稿版本的年表)提出假设,并且绘制出Harlequin出版的爱情小说的常见流派特征。“这种在不同问题领域之间套用算法的能力是数字人文学科开辟的令人兴奋的研究机会之一。”[4]62总之,算法是一种能力,这种能力是数字人文领域创建和处理数据的核心组成部分。算法作为重要资源,其海量数据集的计算方法使得大尺度的研究问题变得更加可行;算法作为技术方法,对于数字人文研究具有可检验与证伪性意义;算法作为竞争工具,背后其实是一种技术优势实现高效率的认知。

   数字的技术、工具和媒介为数字人文学术研究与传播方式带来机遇的同时,数字的困境和痛点也已显现。第一,技术困境。首先,大量技术是根据数字人文项目实施过程中碰到的具体问题而研发的,有的成功,有的难产,更有的因为项目设计不切实际而陷入失败。我国数字人文研究因文本与语言的特殊性,要求基础技术、数据库和专业软件的研发必须匹配中文语境,由此便构成了汉字的多义性与机器分析的单一化、已知与未知、已行与未行之间错综交织的技术开发困境[8]。其次,人文学科与信息科学的研究者之间最大的问题是“互盲”[9]。一方面,多数人文学者缺乏必要的数字技术基础,不可能参与到探索底层数据库、系统数据流、跨平台数据及其体系结构,还有应用编程接口(API)、移动视觉搜索(MVS)等相关技术和问题。这与早期的数字人文学者大多具有计算机技术背景、熟知电脑语言、会编制程序的情形大相径庭。另一方面,数字技术人员多为工程师出身,相对缺乏哲学、伦理等人文方面的知识素养,导致技术系统与人文学者产生了严重疏离,形成“专业鸿沟”困境,从而影响了技术对研究的辅助作用。第二,伦理困境。首先,对数据的过度依赖,对算法的过度崇拜,造成数字人文研究人文属性被辗轧而变得异常平庸化。重图像、重制作、重编码、重量化,轻文字、轻阐释、轻洞察、轻思想,似乎已经成为数字人文研究的一股潮流。这需要高度警惕,也需要批判反思。数字人文不是在技术祭坛上牺牲人文,而是数字与人文的融合发展。在两者之间的融合发展中,技术只是工具和方法,人文才是灵魂和根本。面对已陷入困境的人文和被扭曲的数字,我们该怎么办? 借海德格尔的话来说,即“让一棵树在它站立的地方站着”。其次,对数字或数字人文缺少批判性反思,导致不少数字人文研究成为“技术决定论”的产品。一种极端数字主义的观点认为,数据就在那里,收集并完善它们,剩下的就等着学者们对其随心所欲地排列。所以研究问题之前先着手处理数据集,就变成了首要条件。数据是学术研究的基础和核心,数据仿佛也成了任人打扮的小姑娘。在这种模式中,研究主题是在没有预设观念,没有需要验证的问题、对象和模式的时候产生的,计算机通过算法读取文本(图像),只需极少的人工干预,对现象进行自由探索,实际上是废除了人文论证和阐释。这种通过假说驱动的阐释,被数字人文学家艾伦·刘批评为“白板阐释”[10]。欧美国家的学术界对数字人文的批判一直不断,其中斯坦利·费什《数字人文及其不朽》、亚当·克思奇《科技接管英文系:数字人文的虛假承諾》、蒂莫尼·布伦南《数字人文的幻灭》、笪章难《以计算的方法反对计算文学研究》等颇具代表性,批评辛辣,更具反思与祛魅意义。我国的数字人文研究虽然取得了一些成绩,但仍属于起步阶段,缺少原创,“大多数项目确实没有推翻传统意义上的预设,还没有产生完全新的叙述,更没有出现震动学界的成果”[11]。之所以如此,一个重要原因是自说自话的文章多,质疑批评的文章少。批判缺席,学术则难以进步;反思不足,学人则难以成长。

   二、从数字化生存到数据化发现

   数字技术与数字工具被大量引入人文科学,通过数字化、数据化、网络化,建构了大规模的研究基础设施(数据库平台、数字人文中心等)。这种研究基础设施对于传统人文研究,不仅带来新的思维模式和研究视角,而且实现了“载体的转型进而导致的意义变迁。”[12]

   (一)数字化的生态环境

   美国经济学家卡尔·夏皮罗和哈尔·瓦里安在《信息统治》中,把数字化界定为“对信息流进行数字化的编码”[13]。换一种说法,就是通过平面和立体扫描、智能文本识别、数字录音和摄影摄像等技术把过去遗留的文本、图像、声音、艺术品、建筑等各种各样的信息转换成一系列二进制代码,引入计算机内部统一处理。数字化在过去数年的时间里狂飙突进,其发展速度之快、数量之多、范围之广、程度之深,都远远超出了我们的想象。数字化时代,传统人文学科迎来三个最重要的变化:一是学术生产活动的核心转向数字化生存;二是人文学者检索、搜集、研究与传播学术的视野与能力得以拓展;三是传统人文学科呈现出边界模糊、交叉融合的趋势。数字化时代已经来临,我们都希望用数字化的逻辑去做今天和未来的事情。

自20世纪90年代以来,世界各国纷纷投入巨资进行数字化建设,其中美国是最早提出数字图书馆概念并从事数字化建设的国家。1993 年 9 月,美国国家科学基金会、国家宇航局和国防部高级研究计划署联合公布了《数字图书馆倡议》,(点击此处阅读下一页)

进入 张耀铭 的专栏     进入专题: 数字人文   数字   技术困境   数据化发现   数据驱动  

本文责编:heyuanbo
发信站:爱思想(http://www.aisixiang.com),栏目:天益综合 > 学界动态
本文链接:http://www.aisixiang.com/data/124513.html
文章来源: 吉首大学学报(社会科学版). 2020,41(04)

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统