[摘 要] 现有的古籍著录规则、元数据规范行业标准等文件,属于通用性较强的国家标准,但在著录不同类型古典文献的时候,还需要结合其特征,进一步修正、扩展数据著录格式标准。现有古代小说文献著录有不够精细之处,探索构拟一套统一、规范、细致的数据格式标准,不仅能解决当前古籍数字化中的异构数据整合难题,更将推动古代小说研究方法的创新,为跨学科知识发现提供基础设施支持。通过建立层级化数据模型、扩展元数据字段、补充标注学界既有研究等方式,可以服务于更加理想的古代小说文献数据库。对上述架构方式的构思设计,必须首先依托于对小说文献根本问题的理论思辨,使之成为“古代小说文献学”的核心内容。
[关键词] 小说文献学 元数据 古籍著录规则 数字人文 层级化模型
一、古代小说元数据的特殊性与标注的困境
所谓“元数据”(metadata),是指定义和描述其他数据的数据。在古籍研究领域,依托《信息与文献都柏林核心元数据元素集》(GB/T25100-2010)、《古籍著录规则》(GB/T3792.7-2008,以下简称《规则》)等文件,文化部于2014年发布了《古籍元数据规范》行业标准(WH/T66-2014,以下简称《标准》),该标准“共设计了21个元素、43个元素修饰词以及5个编码体系修饰词,并对术语进行属性定义”。[1]同时,《标准》也规定了其适用性——“适用于描述由古籍原物转换为数字形态的古籍资源,也可用于描述纸本原物形态的古籍资源”,[2]在古籍著录、数字图书馆与古籍数据库建设中起到了重要作用。以“全国古籍普查基本数据库”为代表的书目数据库,及各数据平台,都在不同程度上显现相关从业者对古籍元数据的认知。《标准》提出,在某一细分垂直领域“如果没有恰当的元素可供复用,允许自行扩展元素”。[3]在数字人文技术高速发展的背景下,古典文献的数字化面临从传统文本处理向结构化数据管理转型的关键节点,而不同类型古典文献的特征存在明显差异,故其数据标准亦应不同。[4]我们在建设古代小说文献数据库的探索实践中发现,在古代小说文献这一领域,有着比较复杂的数据格式,有必要探索在现有《标准》基础上制定扩展方案。[5]而这一扩展之所以是必要的,首先与现有《标准》几乎不使用小说文献(尤其是白话小说文献)作为实例相关,[6]似乎有必要扩充不同类型书籍作为样本。更核心的原因是小说文献本身具备相当强的特殊性、复杂性,且文献复杂特征与小说阐释、研究有着强相关性。即脱离了小说文献元问题思辨的小说史探讨,有可能是空中楼阁。本文希望探讨以下问题:现有《标准》在哪些问题上可能并不完全适用于古代小说文献?在数据库著录实践层面,又是如何展开操作的?通过何种元素扩展、框架修正和技术手段可对此加以改良?在此基础上,从而使其更好地服务于相关领域的研究者与从业者。还需要进一步思辨,对古代小说文献数据格式标准的探讨,究竟有何学术价值。我们认为,以古代小说文献为切入点,探索构建一套统一、规范、细致的数据格式标准,不仅能解决当前古籍数字化中的异构数据整合难题,更将推动古代小说研究方法的创新,为跨学科知识发现提供基础设施支持。坦率而言,以往的某些数据库建设可能带有一种纸本文献思维,只是具备全文检索功能的电子化出版物,而符合程序员思维的数据库建设逻辑可能被忽略了。
传统目录学教材中,讨论古典目录的分类、体制时,通常更加注重其编纂宗旨与实际功用的不同。但实际上探索何为“一部书”,即区分其著作本体(work)、修改的版本层次(edition)和特定物质载体(item),具备同样重要的价值。以《红楼梦》为例,它作为“一部小说”著作本体明确,但存有不同的版本层次(如曹著八十回《红楼梦》可能包含“增删五次”,此外还有包含了后四十回续书的一百二十回本《红楼梦》),每一层次又由不同的版本实体(如程甲本、程乙本等)构成。具体的版本实体,还可能存在复本、残本等现象,需要进行关联记录。这些都被《标准》称为“著录单位”。在讨论版本校勘问题时,也包括了实物版本和文字版本两个层次。[7]
晚近的藏书目录与知见目录,通常都以著者所藏、所见的某一具体书籍为著录对象,因此每著录一书都对应一个具体的版本实体,今天常见的古籍善本书目及普查目录也以此作为基本的著录思路。随着古籍编目实践的日益完善,行业标准逐步确立,著录工作趋向科学化、结构化。传统目录与当代规范不同之处在于,前者主要借助自然语言形式撰写解题,并辅以编目者的个人研究结论;后者以结构化数据为主体,部分较为复杂的信息通过“附注”加以补充。在这一背景下,似可预期传统目录与当代信息的契合。但透过对古代小说文献实际情况及研究现状的考察,则可发现还有诸多问题有待解决。这些问题首先是认识层面的,即需要扩展元素,并在一定程度上探讨现有元素的著录局限性;其次才是技术层面的,即使用何种方式有可能在实践中解决这一问题。
一部书最基本的要素,通常包含作者、书名、卷数(或回数)、版本等主要信息。《标准》将其定义为题名、责任者、出版者、载体形态等元素,并制定了细化的修饰词,如题名可包括并列题名、版心题名、内封题名、书衣题名、书根题名、卷端题名、其他题名等,《规则》对具体细则做了更详尽的表述。但遗憾的是,由于上述各种“国标”在示例撰写中基本没有考虑到小说文献的情况,[8]因此处理似有简略之处。故本文将首先系统剖析现有标准的局限,继而探讨如何对其进行合理扩展与调整,以增强其变通性,更好地契合学术研究的实际需要。
二、现有题名与责任者著录体例的局限性
《规则》8.1.1.5“规定信息源以及文献中其他部位均未提供适当的正题名,而由其他资料查考得出,依查考出的题名著录”,举例为:
【梅梦缘】:四十回/风月轩入玄子著
(书中未题题名,据《中国通俗小说书目》“风月轩入玄子”条补入)[9]
通览《规则》,可见这是一个相当常见的著录方式(又见于《规则》8.1.5.6等),即据其他版本资料补入相关信息。然检孙楷第《中国通俗小说书目》,此条题“《浪史》四十回 一名《浪史奇观》,一名《巧姻缘》”,[10]三个书名均有对应版本依据,引用资料则称此书为《浪史》,故作为主名。唯“清末京报房印活字本。书名《梅梦缘》”。可见从《中国通俗小说书目》无法看出《规则》题名理由。又石昌渝《中国古典小说总目·白话卷》提及书前有《浪史叙》,则其命名似不应作《梅梦缘》。[11]这是一个值得商榷的著录细节。但更重要的是,由于小说往往具有世代累积成书的特征,除作者在著录题名时可能有不固定性外,印者、抄者、评者都有可能影响卷端题名。《规则》8.1.1.11:“原书已经加工者加工成另一著作,应按新著作题名著录,原书情况在附注项说明。”[12]其举例是清人顾瞻将明人《说文解字五音韵谱》改为《说文解字镜》。[13]此书为孤本,今存国家图书馆,“此稿本以明刻《说文解字五音韵谱》(宋李焘撰)为底本,用朱、墨笔在字侧、行间、天头等处做圈点、增删、眉批,并在卷端处圈改书名,使之成为一部以明刻做底本的新著”。[14]但此逻辑如沿用到古代小说著录,则会带来新的问题。最大的问题是世代累积型小说往往都涉及“加工者加工”并修改题名这一现象,我们通常所称的小说书名,既可能指某一物质性版本的题名(或别名),也可能指同一条“文本之河”的“文本之和”。作为对单一书籍的著录,是否认定为同一部书或是否标明附注,可能只代表具体著录者的学术观点或操作习惯。在现有“国标”中并没有对这些问题给出足够清楚的界定,而这一问题将影响到对具体小说书籍的著录模式。这一点的影响将集中于对何为“一部小说”的认定,同时亦会影响使用者的理解与检索。
以《水浒传》《红楼梦》《英烈传》等为例,可具体说明现有著录标准在处理古代小说复杂版本关系时的明显局限。《水浒传》的常见版本分为繁本、简本两个系统,回数则有七十回至一百二十四回不等。其中七十回本乃金圣叹“腰斩”并系统修改的本子,在思想宗旨和艺术风格上都较此前版本有较大变化。然而,由于多数版本保留了“水浒传”三字,且著录中又常以“(元)施耐庵”标署,易在数据检索中模糊版本差异,强化其均属“同一部小说”的认知。《红楼梦》的情况更为复杂。该书有《石头记》《红楼梦》两个常用名,仅从题名字段简单检索,难以同时涵盖二者,从而造成了检索上的困境。《脂砚斋重评石头记》和《增评补图石头记》虽同含“石头记”之名,但前者必属接近曹雪芹原稿的八十回抄本系统,后者则属百二十回系统且系下游本(即有补续四十回及加工者的修改)。若仅以《石头记》三字为题名检索词的话,具体属哪个系统则难以判断。即使对本领域有了解的研究者,也极大依赖于目验原书,这是现有字段设计的有限性。此外,以《英烈传》为代表的一系列小说,其不同的两个系统(六十回本与八十回本)之间也有复杂的版本关系。这两个系统属主题相近、文字接近、时代作者不同的两种小说,能否通过汇校等方式合成一部小说的“定本”,以及在何种程度上可以通过文字差别区分成“另一部书”,都面临比较大的争议。仅凭书名、作者等基础字段,远不足以揭示古代小说版本的内在谱系与实质差异,此为现有标准的核心局限之一。
在责任者著录层面所面临的局限,与责任者著录标准的关系密切。《规则》的基本著录方式是从原书对应著录位置(首卷卷端等)选择责任者,并照录著、编、注、订等多种责任方式。《规则》8.1.5.5指出“所题责任说明有误,照录”,8.1.5.6指出根据其他资料查考出责任说明应“置于方括号‘[]’中”,同时在附注项说明来源。以上规则是比较慎重且合乎考据逻辑的。但小说文献的特殊性在于,原书著录的责任者很有可能是化名或伪托,而相关文献资料对作者的判定、论证又充满争议。
以《金瓶梅》为例,各版本原书均署“兰陵笑笑生撰”,是根据原书署名照录了题写的笔名。学界推测作者候选人约200个,但都因文献不足,并未题为作者。事实上,在《金瓶梅》问世、传播初期,早期的明代读者即对作者身份、书中内容有相当多的“索隐”,提出了“闻此为嘉靖间大名士手笔,指斥时事”[15]等观点。至清初,则普遍认定作者为大名士王世贞,[16]但这些观点相对晚出,由于缺乏确凿的证据链,且并未体现在《金瓶梅》实物卷端题名上,故只能作为一种猜测,类似的猜测在学界还有很多。在个性化的学术论证中,研究者当然不妨有其倾向性,但在要求标准化的文献著录中,仍以题署为兰陵笑笑生则是比较稳妥可靠的选择。《西游记》同样面临作者层面的争议,却呈现了另一种取向。世德堂本《西游记》署名为“华阳洞天主人校”,尽管“校”属于整理编辑工作而非“撰”,但古代作者以“校”“编”自隐的现象实在颇为常见。依照类似标准,似乎不妨在责任者层面题写“华阳洞天主人”。目前,在“全国古籍普查数据库”等平台检索,《西游记》的责任者直接标署为“吴承恩”,这符合8.1.5.6根据其他资料查考出责任者的著录方式,而且学界也普遍认为这是一个大概率事件。但其本质上仍然是来源于后世研究者的假说,而非文献自身的直接证据。于是,这就变成了以一个仍存争议的学术推论,取代了文献原貌,实际上带有一定的误导性质,不符合古籍编目的客观著录原则,致使阅读者无法根据著录数据真正了解原书状态。《红楼梦》的作者著录则进一步解释了其复杂性。过去普遍采用曹霑、高鹗署名,是建立在长期学术共识基础上的。但近年来“高鹗续书说”存在争议,以“红研所”整理本为代表的一批版本更是认为程、高并非续书者,而将后四十回作者改为“无名氏”。这里并不拟详细讨论诸说是非,只是希望指出:文献著录标准应该注意著录文献本身,且只有在不会产生误导的情况下,才可酌情标注学界参考意见。否则,当学界文献观点存在争议时,是否要据最新观点不断更改著录数据?这既是一个数据扩展标准的问题,也是一个文献著录规范的问题。我们认为,客观记录文献的物质信息是一回事;如何判定其可靠性是另一回事。应该从底层设计就将二者清晰区分开来。
三、文献著录理念与技术解决方案
为解决现有著录体系在处理传统小说文献时所面临的困境,我们尝试回到传统文献目录的著录标准。依托于古典目录学丰厚的学术基础,并结合现代百科全书、辞典的编纂理念,近百年的小说目录编纂已经有着相当成熟的基础。如孙楷第《中国通俗小说书目》、朱一玄《中国古代小说总目提要》、石昌渝《中国古代小说总目》等总目,以及阿英《晚清戏曲小说目》、李剑国《唐五代志怪传奇叙录》、刘永文《晚清小说目录》、闵宽东等《韩国所藏中国通俗小说版本目录》等专题小说目录。除此之外,一般善本目录中涉及小说文献的也有相当大量的数据。这些目录小说的书名、作者、存佚、回数、版式、评语、内容、价值、传播、翻译等进行了详尽考辨,且其可靠性和学术性来自于专业研究学者的亲自目验。未来的电子数据著录需要对已有的目录、工具书加以更充分的利用,确保在前贤成熟研究的基础上继续推进,避免“重复发明轮子”之弊病。
然而,更核心、也更切合数字人文时代的思路在于如何给出更具规范性,且更符合学者实际需求的解决方案。既有《规则》主要针对单书的著录模式加以探讨,但在服务于学术研究的前提下,还必须考虑到专科文献的特殊情况。在数据库开发逻辑下,单一目录著录不能完全满足学者需要,而呼唤更高层次的数据库。李斌、张雨桐、韩晓晓在《古籍数据库的四个层次——国内外建设现状与应用分析》中指出,“通过分析国内外280个重要的古籍数据库后发现,古籍数字化工作开展至今,古籍数据库的演进可以大致分为四大层次,分别为包含扫描古籍原本图片的影像库、包含古籍数字化原文的全文库、包含古籍标注后语料的语料库以及将古籍内容知识化、图谱化的知识库”。[17]但事实上,如果是一个得到共同认可的数字人文基础设施,以上多层面的数据信息都是学者所需要的。在从事古代小说研究的过程中,学者既需要阅读、检索、引用某一个特定版本的文本,也需要遍览“文本之河”中的众本,并梳理各版本大致的源流脉络。当元数据著录与内容层、研究层都能产生链接之后,我们就可以清晰发现:已有数据著录的问题在于,仅能抄录原书少部分字面内容,以供初步检索,但难以全面覆盖原书的复杂情况,也因现有数据库内容的限制而不易复核。有时著录者出于便利使用者的动机,将学界相关研究成果引入著录,虽为检索使用提供了方便,但也可能治丝益棼,反而使得文献研究者无法信任著录信息本身。
在构想、设计理想小说文献数据库的前提下,笔者认为一个良好的数据库应同时包括原书影像、全文、[18]标注数据与知识图谱,应具备文献关联检索功能并可以接入其他计算工具、数据信息,形成一个良好运转的数据平台。为此必须从元数据这一根本层面进行革新。
首先,应建立层级化数据模型。技术标准必须明确区分著作本体(work)、版本层次(edition)和特定物质载体(item)三个层级,并建立关联关系,构建小说著作亲族。可使用UUID作为唯一标识符,确保每个层级的数据能够被准确识别和关联。一部现存的著作(UUID)应该≥1个版本,一个具体版本应该≥1个现存载体。如在题名层面重点加强映射关系处理。建立UUID(work)词条,并建立与别名(如《石头记》与《红楼梦》)的映射关系。对此,欧阳健、萧相恺主编《中国通俗小说总目》后附的《同书异名书目通检》《作者姓名及别号索引》就提供了比较扎实的前期研究,可以直接利用。《红楼梦》作为著作本体,包括八十回《脂砚斋重评石头记》与一百二十回《红楼梦》及诸多翻刻、衍生版本。八十回“石头记”版本体系情况复杂,已久成专门之学;一百二十回本情况相对清晰,但也有类似问题。如其中的“程甲本”现存不下十余部,且具有细微差异。元数据著录应该将作品亲族、版本系统、具体版本都纳入著录范围,并重点体现某一特定物质载体所处的家族位置,予以唯一ID编码。限于数据的复杂性及有限性,目前在著录过程中只能尽可能详细地保存其物质特征,并结合全文影像复核、数字工具辅助等方式推进研究,陆续标注学界研究成果。从设计层面应预先结合学界文献研究成果,设想好相关问题。在系统中,每一特定物质载体版本(item)可以向前、向后关联其他具体版本,并通过图谱形式生成家族树。既有小说总目提要,一般都以一部书为一条,在条目下再介绍版本情况。其缺陷是对何为“一部书”没有作出详细的规定,但在具体著录过程中我们可以看出其思路,可以此为基础初步梳理UUID数据,并结合版本研究成果进一步著录及区分单一物质载体的具体状态。由此对于中国古代小说的作品总数和版本总数,也会有更精准的计数。在数字人文环境下,我们有理由相信此类研究将会在更高效、准确的方式下展开,并营构小说文献学的基础理论命题。
其次,进一步扩展元数据字段,包括更多版本细节、物理特征和数字化信息,采取精细化方式著录版本的历史物质信息。电子数据库可以低成本保存著录全部信息,并通过筛选功能决定呈现形式。在书目数据著录与全文影像、学术成果建立有机关联的情况下,可以继续扩展细节字段。如针对同一份文献中的多处不同表达,电子数据可以全部保存。比如可增添“相关责任者标记”。如《脂砚斋重评石头记》,主要的评点责任者为脂砚斋,但书中也包含畸笏叟、松斋、梅溪等人署名批语,同时还有不同墨色、笔迹之批。对此,既有研究如周汝昌《红楼梦新证》、孙逊《红楼梦脂评初探》等已有统计论证,相关研究对部分“语言指纹”也有描述,[19]部分学者对其中涉及的笔迹异同也采取了对照鉴定的方式。当相关内容全部被标记为结构化数据时,这些内容就都可以被保存、检索、对勘,以得出更精密之结论。既有《规则》对存在修版等刊刻加工信息提供了著录示例,而理想的扩展数据还可以进一步增加对纸质、墨质、装订等情况的著录,并针对抽换、剜改等现象提供特定标注,以便学者获取更充分的数据支持。实物本身由于各种原因而存在细微差异,但传统版本著录无法深入印次层面,或者说无法精校到页的层面,个人精力也不支持熟练掌控全部文字异同信息,只有电子结构化数据才有可能系统处理这些疑难问题。从显示界面来思考,传统纸质工具书、著述无法全面呈现的内容,可以由电子数据库系统保存,并通过筛选方式呈现在使用者面前,因此也提供了文献著录的更多可能。
最后,作为综合了多种类型信息的数据库,还可以结合学界相关研究成果增补相关内容,在细致设计元数据标准的前提下,结合人工标注、模糊检索甚至AI判定加以管理。这样既可以随时更新数据以便学者了解研究动态,也可以精准区分原书实体著录与学界研究成果的不同。可考虑建立学术观点的置信度评估体系。结合学术争议点的设定,并引入学术论据关联,结合学术共识来计算置信度,并允许数据动态更新。如可增设“作者存疑标记”。将《西游记》“华阳洞天主人校”这一原题署,与(疑伪)虞集《序》中称作者为丘处机同时收录,可以标明其“待考”/“有误”,并注明学界的主流意见认为本书系吴承恩撰。上述具体结论都以超链接模式设计,使用者可通过点击链接到相关原始文献图片或代表性论著篇目。还可引入知识图谱技术,帮助用户直观理解或模拟文献之间的联系,展示版本谱系。
四、小说文献元数据的学术意义与价值
针对古代小说文献研究现状,目前学界虽对个案已有甚多考索,但从宏观理论上思辨其根本问题,并据此探讨数字标准的研究仍显不足。笔者认为,必须结合两个层面来加以思考,方能得出真正适用的数据标准。一方面,需立足于现有的数据标准,从结构化数据的角度规范既有著录方式;另一方面,必须保持对小说文献理论关键问题的思辨,探讨这些著录方式可能代表了什么、有哪些局限,以及何种程度上有助于研究者。只有做到两方面的结合,才能够催生符合当代学术需求的小说文献学。本研究的价值也体现在这两个层面。
一是数据库建设的实用层面。基于现有《规范》的扩展版,重新探索适用于小说文献的数据标准细则,以服务于古代小说数据库和学术社群的建设。传统的文献著录多依赖文献学家的个人经验、考据能力和文献学实践经验;元数据则依赖标准化的数据模型与技术实现,并可能在适当场景下使用AI赋能。二者虽异,但都服务于小说文献学者的研究,并致力于成为一个理想数据库的核心基础。我们认为,古代小说元数据可突破传统目录学的静态描述,转向“版本流变可视化”“评点网络分析”等动态研究范式,由此有可能融通古典目录提要、版本校勘与现代数据标准。其背后不仅仅只是题名数据库,应该包括基于全文比对的智能数据库。从现有技术来看,AI自动对校与辅助标引等技术已经比较成熟,有助于研究者从文字层发现、处理相关问题,只需要结合特定平台完成数据链接。此外或可考虑设计“概率区间字段”及“置信度”附注等动态调整方式,以便部分著录字段可以结合研究成果不断更新,且不影响对原书基本面貌的客观性描述。这是对已有数据规范的扩展与完善,而非根本性颠覆。
二是小说文献研究与理论建构层面。笔者致力于“古代小说文献学”的理论探索与教材编纂,[20]这一点也是学界近年颇为热门的话题。对此,首先要探讨何为“一部小说”这一根本问题,小说版本往往为“文本之河”,处于各种动态生成与变化的状态之中,缺乏清晰的“定本”概念。现有小说目录作为工具书,其内容往往侧重于小说文本自身,对于何为一部书(work)有判断但未详细论证。而专书版本研究,虽然有可能对异文系统作出极详尽的比勘、梳理,但较少从文本生成的角度宏观论证,亦未致力于归纳小说史的通例。其原因当然首先是兹事体大,难以系统解决。但通过数据标准的细化设定,容纳现有小说文献的代表成果,并引导小说研究趋于深细,却是有可能完成的任务。在此基础上,对于小说目录的重新编纂,乃至中国小说史的重构都将颇有裨益。
数字人文技术不能脱离人文根本问题而存在。在新的技术背景下,除提出新的问题外,传统文献学的重点议题也有望得到更高效率的解决,人文研究者的认知亦将随之刷新。笔者认为,梳理核心议题、更新文献认知非常重要,传统研究者虽意识到问题所在,但其结论却难以仅用传统研究方法得出,而元数据标准的设计与扩展,正是解决相关问题的重要平台。解决这些问题,亦将有裨于文献编目一线实践。
注释
[1]《古籍元数据规范》(WH/T66-2014),引言第II页。
[2]《古籍元数据规范》(WH/T66-2014),第1页。
[3]《古籍元数据规范》(WH/T66-2014),第5页。
[4]如各类出土文献、民间通俗文艺抄本等相关书籍,尽管属于“古籍”范畴,但其所涉元素与通常所说的抄本、刻本古籍存在明显差别。
[5]当然,这并不代表本文所讨论的例证仅适用于小说文献。在其他传统形式的文献中,类似情况也依然存在,只是这些问题可能同样被著录者忽略了。比如,后文所论的最小文献单位,究竟应该细化到何种层次,在诗集的整理与数字化工作中同样非常重要。
[6]由于《标准》提及《规则》作为规范性引用文件具有适用性,其中部分例证与小说著录有关(尽管可能不涉及小说文献中最特殊的那些问题),故这里称“几乎不”。
[7]陈正宏:《实物版本、文本版本与古籍稿本的整理——以陈三立早年诗集稿本〈诗录〉的整理为例》,《功标册府:顾廷龙先生诞辰百廿周年纪念文集》,上海:上海古籍出版社,2024年。
[8]除正文所引的内容外,《规则》8.1.1.8“交替题名”还有取用“三国演义,又名,第一才子书”的例子等。参见《古籍著录规则》(GB/T3792.7-2008),第8页。
[9]《古籍著录规则》(GB/T3792.7-2008),第8页。
[10]孙楷第:《中国通俗小说书目》,北京:人民文学出版社,1982年,第176页。
[11]石昌渝:《中国古典小说总目·白话卷》,太原:山西教育出版社,2004年,第194页。
[12]《古籍著录规则》(GB/T3792.7-2008),第8页。
[13]顺带一提,《规则》误将此书三十卷十二册标注为十二卷。
[14]寒冬虹:《顾瞻稿本〈说文解字镜〉》,《文献》1991年第3期。
[15]朱一玄:《金瓶梅资料汇编》,天津:南开大学出版社,2012年,第80页。
[16]宋起凤:《稗说》,《明史资料丛刊》第2辑,南京:江苏人民出版社,1982年,第103页。
[17]李斌、张雨桐、韩晓晓:《古籍数据库的四个层次——国内外建设现状与应用分析》,《南京师范大学文学院学报》2024年第4期。
[18]对古代小说文献数字化全文三个层次的分析,参见冯大建:《古代小说文献研究与数字化之思考》,《文学与文化》2023年第4期。
[19]如脂评中那些署有批书时间的批语,可认定为畸笏叟特有的批语。但本议题在学界仍存争议,部分学者认为脂砚斋即畸笏叟,因此这样的“语言指纹”可能指向对批语在抄写过程中的删改,而非不同评者观点的叠加。
[20]张昊苏主编:《古代小说文献学》,北京:高等教育出版社电子音像社,2026年,待出版。
原载于《学术研究》2026年第2期