江晓原：SCI能预测诺贝尔奖吗？

前两次专栏中，指出“影响因子”游戏对于中国学界来说已成《葵花宝典》，讨论了影响因子计算公式中的两年期限问题和分母问题，揭示了加菲尔德发布SCI和影响因子的私人商业公司如何通过取名“科学情报研究所”（ISI）达到鱼目混珠的效果，从而获取惊人的商业利润。但这些还只是热身而已，SCI和影响因子的江湖游戏，固然没有“月黑杀人夜，风高放火天”之刀光剑影，却也是黑水深潭，传奇无数。

讲个故事推销产品

尤金•加菲尔德是白手起家的商业奇才，他1925年出生于纽约布朗克斯区，三个学位依次是：1949年哥伦比亚大学化学学士，1954年哥伦比亚大学图书情报学硕士，1961年宾夕法尼亚大学结构语言学博士。1956年，还在“读博”期间的加菲尔德就注册成立了他的小公司，推出的第一款信息产品是《目录快讯》（Current Contents，简称CC），一种对管理类杂志目录进行定期汇编的小册子。除了零售散卖，贝尔实验室（Bell Lab）成为他第一家企业用户。为了完成贝尔的订单，加菲尔德需要500美元的印刷费，他都拿不出来，不得不从私人银行贷款。从60年前“空手套白狼”发展到今天的“信息帝国”，在科学界乃至人文学术界俨然有君临天下之势，确实堪称科学、信息、资本三者结合的传奇。

加菲尔德多年来推销他的产品时，不仅手法高明，而且不遗余力。为了让他的信息商品能够位居高端，他早期的手法之一是讲一个动人故事——SCI可以预测诺贝尔奖。

1965年，即SCI推向市场的次年，在美国海军研究办公室主办的一次学术会议上，加菲尔德做了大会报告。当时他迫切需要打开SCI的市场，所以他的报告实际上成了一次不失时机的产品推介。

当时加菲尔德宣称，SCI有五项功能。今天看来，其中四项尚属言之成理（便于学者了解前人工作、追踪研究成果的发表来源、用于计算期刊的“影响因子”、为科学史研究提供辅助手段），但最遗害后世的是另一项——可作为评估研究成果的手段。

而在阐述这项功能时，加菲尔德选择了最能撩拨科学界敏感神经的“诺贝尔奖预测”来作论证。他利用自己1964年首次出版的1961年度SCI报告，统计了1961年257900位学者的成果被SCI论文引用的情况，又统计了1962、1963年产生的13位物理、化学和医学诺贝尔奖获得者的论文引用情况，数据表明，该13位学者在获得诺贝尔奖的前一年，他们的成果被SCI论文引用的平均次数远高于一般水平。

这确实表明优秀科学家群体有着较高的SCI论文被引用数，但能不能反过来从SCI论文引用数评估一个学者的学术水平呢？

具有讽刺意味的是，就在两年前的一篇文章中，加菲尔德还发出警告：利用论文引用次数评估科学家和科学成果可能存在风险，理由是“论文的影响和论文的重要性及意义是两码事”。他甚至非常恰如其分地引用了苏联李森科的例子，说如果引用次数最多的作者应该获得诺贝尔奖，那就会得出李森科是苏联最伟大科学家的荒谬结论。但加菲尔德在随后持续打造SCI产品“学术形象”的过程中，却完全不顾自己当初发出的警告，从1965年起他先后撰写了30多篇文章，力图证明SCI引用可以“预测”诺贝尔奖。在汤森路透（加菲尔德的商业公司“科学情报研究所”现今的主人）官网上，至今还能看到这样的说法。

加菲尔德“预测诺奖”的三个问题

事实上，加菲尔德1965年报告引用的13位诺贝尔奖获得者中，已有一个明显反例：按照他的统计，1963年度物理学奖获得者约翰内斯•詹森（J. H. Jensen）1961年3篇论文的SCI引用才4次，连引用次数的平均值（5.51次）都未达到。

在1990年的一篇综述文章中，加菲尔德力图将所谓“高引作者名录”和诺贝尔奖联系起来。仔细分析加菲尔德这篇文章所提供的数据，可以发现他对数据的处理和使用，至少存在三个问题：

第一，非常明显地对数据进行“选择性呈现”。每年新增SCI论文数以万计，这些论文产生的引用会让SCI“高引名录”各年大不相同，因此截取年限不同，结果就不一样。加菲尔德提供的6组数据中，起始年份各不相同，截止都在1990年（该文写于这年），截取年限依次为1年、1年、11年、14年、13年和15年，并无章法可循。事实上，1961～1990年30年间，所有可能截取的年限共有465种，对应的“高引名录”就应该有465份——而加菲尔德仅仅给出了其中6份，对于如此明显的选择性呈现，加菲尔德却没有交代任何理由（哪怕宣称是“随机抽取”）。

第二，没有说明“高引作者名录”人数的选取标准。因为名单越长，其中出现诺贝尔奖得主的概率也就越大。加菲尔德的6组数据，名单人数从最初的50扩大到了后来的1000，却没有给出任何理由。

第三，没有明确预测的有效年限。通常，预测事件发生是有时限要求的。加菲尔德6组数据的预测年份截止于1990年，只是因为他的文章写于这一年。如果预测的有效期限可以随意选取，这不符合“预测”的基本要求。

“高引名录”的失效

加菲尔德之后，有的学者采用相同路径加入“预测”行列，这些工作在理论上对引导学界相信SCI论文“高引”可预测诺贝尔奖起了推波助澜的作用，而客观上则是在自觉或不自觉地帮助ISI推销产品。但对于这种“预测”，学界持异议者大有人在，这里姑举一例：

学者金格拉斯（Y. Gingras）和华莱士（M. Wallace）2010年发表一项研究，对比物理和化学领域的两组数据，逐年统计1901-2007排名前500的“高引作者”的被引情况，和1901至2007年间330位诺奖得主的被引情况。统计结果显示：1900～1945年间，诺贝尔奖得主在获奖当年的平均被引用次数确实高于其他高引作者，出现一个突出的峰值；但是从1946年至2007年，这样的峰值再未出现。这意味着，1900～1945年间，成果引用数或许可以看作预测诺贝尔奖的有效风向标，但是从1946年以后，试图从“高引作者”中鉴别出诺贝尔奖得主已经没有可能。他们对这种变化给出的解释是：1950年代以来科研人数急剧增加，同时专业分支在不断细化。如果他们的研究结论成立，那就表明：早在SCI作为一种商品被销售之前大约20年，它在“预测诺贝尔奖”这件事上就已经失效了。

对金格拉斯和华莱士上述研究结论非常有利的最新证据是：“科学情报研究所”2014年公布的“高引作者名录”中，尽管包括了多达3216位科学家，但这年的诺贝尔奖“预测”命中率为零。

然而这并不妨碍“高引作者名录”继续受学界追捧，因为在“SCI引用”风行整个学界的今天，能进入该名录已被当成学术水平突出的象征。更何况，鼓吹“预测诺贝尔奖”本来只是加菲尔德当年推销SCI产品的一个手段，如今时移世易，SCI和“影响因子”声势如日中天，能不能预测诺贝尔奖早已无关紧要啦。

江晓原：SCI能预测诺贝尔奖吗？

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏