苏杰:《三重门》作者身份的语言学分析

选择字号:   本文共阅读 4231 次 更新时间:2012-03-07 12:55:21

进入专题: 韩方之争  

苏杰  

  

  韩寒被质疑有人代笔,到现在已经快两个月了。其间断断续续,我大致看了两方的主要论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人,他们的理性和克制,也给我留下了很深的印象。质疑者有不少分析论证,有相当强的说服力。相比之下,韩寒的表现却令人大跌眼镜。由于手头的工作比较忙,一直没时间看韩寒父子的相关作品,不过,我心中的天平,已经向质疑者一方倾斜了。

  新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是textual criticism,也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个案与同学们分析讨论,于是找来《三重门》和韩仁均的有关作品,从质疑者的立场出发,进行比对分析。结果出乎我的意料。我心中的天平,开始向韩寒一方倾斜。

  

  谁都无法证明?

  

  面对代笔质疑,韩寒晒出手稿。质疑方说,手稿太干净了,不像创作稿;所以,即使笔迹是韩寒的,也不能证明文字是他撰写的。这种说法也不是没有道理。

  最近,韩寒在接受《中国新闻周刊》采访时说,这是“谁都无法证明的东西”,“如果这个事情可以成立的话,那这就意味着,全中国只要看哪个作家不顺眼,然后就可以说,你的文章不是你写的,那这个作家就百口莫辩。作家这个行业很特殊,因为他们都是在家里写,对于一个作家来说,这种质疑成立的话,那这个作家就不用混了,我觉得他就直接完蛋了,他的职业生涯就不用继续了”。

  这未免有点危言耸听。文本的作者身份,真的没有办法证明吗?

  当然不是。近几十年,欧美各国有一个方兴未艾的边缘学科,叫“司法语言学”( Forensic Linguistics)。司法语言学家的主要工作之一,就是通过语言分析、文本鉴别,确定文本的作者身份。下面我先参考马尔科姆·库尔撒德(Malcolm Coulthard)的经典论文《个人语言特点和作者身份认定》(Author Identification,Idiolect and Linguistic Uniqueness),对这一方面的理论和实践作一简单的介绍。

  

  语言指纹

  

  语言学家解决作者归属问题的理论出发点是,在操同一种语言的庞大人群中,每一个个体的言说和写作,都有其独一无二的特点,英语叫idiolect。

  每一个人都有自己多年建立起来的一个常用词汇集合(或者叫常用词表)。这个词表,与其他人所建立起来的常用词表可加以区分。这种区分,不仅表现为每个人的词表所包含的词语项不相一致,还表现为每个人对不同词语项有着不同的偏好。

  打个比方。大卖场里的货物不下几万种,理论上我们都是可以选购的,也就是说,这是open selection;但我们经常买的,也就不满一百种吧。这每一种选择(selection),都是出于我们的偏好和习惯,体现了一定的个性。单一的“选择”(selection),譬如有人每个月都会买雀巢咖啡,区分度不是很大,因为有不少人也会有同样的“选择”。可是,如果多个“选择”形成一个集合(co-selection),那么区分度就会很大,甚至是独一无二的。譬如经常买雀巢咖啡+涪陵榨菜+中华牙膏+绍兴黄酒+弥猴桃+喜跃猫粮的,整个大卖场记录里,恐怕就只有一个家庭。

  “因而虽然从理论上讲,任意说话者/书写者在任意时间可以使用任意的词语,但在实际上会有典型性的个人化的好尚拣择。这意味着应该有可能设计出一种‘语言指纹’的识别方法,换句话说,特定说话者/书写者在语言上所形成的印象是可以用来进行身份辨认的,就像签名一样。”

  把基于co-selction的个人语言的独一无二的特点(idiolect)称作“语言指纹”,这很形象。但是,我们也应注意“语言指纹”与生理指纹之间的重要不同。

  “生理指纹的价值在于,每个样品都是可以通过比对进行同一认定的,也是穷尽性的,也就是说,包含了对于个体身份进行同一认定所需要的所有信息。相比之下,语言样本,即使是很大的语言样本,也只能提供相关个人语言特点的非常局部的信息。”因而我们目前还不可能建立一个“语言指纹库”,并在此基础上对争议文本进行比对检测。

  虽说如此,但“语言指纹”的识别方法也不是全无作为。因为实际案例中常常有一些线索,可以将所要比对的文本样本局限在几个人(通常是两个人)之间,从而大大地简化了问题。实践中有一些通过“语言指纹”对作者身份做出同一认定的著名案例。

  

  UNA炸弹客案

  

  美国有一个人,在1978年至1995年之间,每年一次,向多个地方邮寄炸弹,先后炸死3人,炸伤23人。最初看不出有什么规律,几年后FBI注意到,受害人都是在大学或者航空公司工作,因而取“大学”(University)和“航空”(Airline)的首字母,称神秘人为UNA炸弹客。

  1995年,6家报刊机构同时收到自称是UNA炸弹客的人寄来的一个35000词的文章,题目是“工业社会及其未来”。该人提出,如果文章可以发表,就停止邮寄炸弹。

  1995年8月,《华盛顿邮报》增刊发表了这一文章。三个月后,有一个人联系FBI说,从文章中的一处特别措辞来看,这个文章像是他十多年未见过的兄弟写的。他以前注意到这一措辞,印象深刻。FBI通过搜索,在蒙大拿州荒野中的一个小木屋里找到并逮捕了这个人的兄弟。

  这个嫌疑人叫泰德·卡茨斯基(Ted Kaczynski),1942年生于芝加哥,极端环保分子。幼称神童,16岁考入哈佛大学,后获得数学博士学位。25岁被加州大学伯克莱分校聘为助理教授,两年后辞职,在蒙大拿州的荒野中的一个没有电没有自来水的小木屋里,过着野人一般的生活。

  FBI在小木屋里发现了卡茨斯基所写的几篇文章,其中一篇是十年前在报纸就同一主题发表的大约300词的文章。FBI分析专家认为35000词的文章和300词的文章存在语言上存在重大相似性,有相同的常用实词、虚词以及固定短语共12个:at any rate(无论如何);clearly(显然);gotten(得到);in practice(实际上);moreover(再者);more or less(或多或少);on the other hand(另一方面); presumably(大概);propaganda(宣传);thereabouts(所在);以及由词根argu(“论-”)和propos(“指-”)所派生的一些词语。于是专家认定,这两篇文章的作者是同一个人。

  被告律师也请了一个语言学专家,这个语言学专家反驳道,这些相同的词语不说明任何问题,因为任何人在任何时候都有可能使用任何词语,所以词汇的重叠不具有甄别意义。

  FBI专家用互联网搜索进行了检验。当时互联网的规模比现在要小得多,但即便如此,他们也发现了有三百万个网页包含这十二个词语中的有一个或者多个。不过,当他们搜索包含所有这十二个词语的网页,却只得到69个;经过仔细考察,这69个网页都是《华盛顿邮报》那篇35000词文章的网络版!

  这一事实充分说明个人词汇选择集合的独一无二性,证明了利用这一个人语言特点对文本的作者归属问题进行司法鉴定的可行性。

  这方面的案例还有不少,不过我觉得仅此一例已能说明问题。

  下面我以《三重门》和韩仁君作品作为文本样本,对其常用词汇集合进行初步的调查和分析。

  

  材料与调查

  

  关于《三重门》的质疑,可以概括为两句话:一,韩寒可能不是《三重门》正真的作者;二,韩仁均是嫌疑最大的代笔者。我们先来检验第二句话。我们尽量多地搜集韩仁君公开发表的文字,将其作为文本样本,与《三重门》进行比对,看两者常用词汇是否一致。

  这里列出我们所用的材料,并尽可能附上网络资源,以便大家检核。

  《三重门》,16万字。来源:http://ishare.iask.sina.com.cn/f/6938109.html?from=like

  韩仁君作品,约11万字。包括以下:

  《说说我自己》,来源:http://blog.sina.com.cn/s/blog_4701280b0102e0eu.html

  《儿子韩寒》,来源:http://msn.qidian.com/ReadBook.aspx?bookid=1338594

  《捉鸟记》、《黄主任的担心》、《暗号照旧》,来源:http://www.douban.com/group/topic/27264737/

  《难成着属》(上),来源:http://club.kdnet.net/dispbbs.asp?boardid=1&id=8107705&page=1&1=1#8107705

  《潇洒走一回》、《小康村里好事多》、《排队奇闻》、《难得糊涂》、《巧熄鞭炮声》,来源:http://www.tianya.cn/publicforum/content/free/1/2369122.shtml

  《抢夺冠名权》、《拿不出》、《笨贼》,来源:http://www.tianya.cn/publicforum/content/free/1/2368869.shtml

  《临时爸爸》、《争取》,来源:http://blog.sina.com.cn/s/blog_56e2963a010111up.html

  《从留级到休学》、《长在肚子上的西瓜秧》,来源:学术期刊网

  《压在箱底的花棉袄》、《养猪难卖》、《罚款》、《心灵感应》、《两家人和一群鸡》(即韩仁均微博所谓“鸡不可失”),来源:期刊《故事会》、《现代农村》。

  通过对以上材料的调查比对,我们发现,《三重门》和韩仁均作品在常用词语的使用频率有着非常明显的差异。以下是几个例子。

  【没想到】《三重门》13例,韩仁均作品3例(其中1例是引用韩寒的话)。

  

  《三重门》

  1.没想到林雨翔天生——应该是后天因素居多——对书没有好感。

  2.万没想到这位语文教师早雨翔一步失了节,临开学了不翼而飞。

  3.雨翔发自肺腑地“啊”一声,问:“梁梓君,没想到没想到!你现在在哪里?”

  4.雨翔望着星空, 说: “其实我不想来这里, 我也没想到会来这里。”

  5.万没想到被林雨翔先用掉,只好拼了老命跑。

  6.雨翔道:“没想到人这么少,而且虫那么多——”

  7.学生都为之一振,万没想到钱校长道:“但是,我还要强调几点……”

  8.雨翔大大地窘迫,没想到自己已经酸到这个地步。

  9.钱荣没想到 “哭妹” 真哭了。

  10.(社长)说:“好!没想到!你太行了。你比我行!”

  11.没想到万山大惊失色。

  12.我做得一点兴趣都没有,睡了一个钟头,没想到还能及格!

  13.钱荣说:“没想到啊,一个男的深情起来这么……”

  

  韩仁均作品

  1.《儿子韩寒》:“韩寒说,我只是看到它很好玩,没想到它会拉屎,要是它不拉屎多好。”

  2.《难得糊涂》:“他更没想到,通过这次照相,自己又学到了文化馆摄影老师没有传授的本事。”

  3.《小康村里好事多》:“没想到村民们怎么也不答应。”

  

  【谁知】《三重门》1例,韩仁均作品15例。

  

  《三重门》

  1.“谁知谢景渊道:‘老师凶点也是为我们好……’”

  

  韩仁均作品

  1.《儿子韩寒》:“谁知这天韩寒正好丢了钥匙,结果这天他在房门外的楼梯上蜷缩了一夜。”

  2.《儿子韩寒》:“谁知他倒是一样东西都没有丢失。”

  3.《儿子韩寒》:“谁知‘好好吃’太不易了,第二回重蹈覆辙。”

  4.《儿子韩寒》:“谁知韩寒中午放学到我的办公室时挺高兴,似乎不计‘前嫌’了。”

  5.《儿子韩寒》:“谁知护士见状说,手掌跟部会更痛。”

  6.《儿子韩寒》:“谁知韩寒竟奇迹般地走了过来,居然会走路了。”

  7.《儿子韩寒》:“谁知,韩寒向老师借来笔和纸,马上画了一幅画。”

  8.《黄主任的担心》:“谁知刚伸出一半,里面就‘呼’地窜出个什么来,差点撞上黄主任的头。”

  9.《难成眷属》:“谁知那小手用劲往回一缩,传来‘哇’地一声哭叫。”

  10.《难成眷属》:“谁知今天因为小珊失散而又和肖丽意外地想见了。”

  11.《难成眷属》:“谁知老太太好事做到底,实行一条龙服务。(点击此处阅读下一页)

    进入专题: 韩方之争  

本文责编:jiangxl
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 语言学和文学 > 文化时评
本文链接:http://www.aisixiang.com/data/50976.html
文章来源:作者长微博

22 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统