张萌萌杨雪冬：测量抑或规训：对政治评估指数的评估

内容提要：构建评估指数将复杂多样的治理问题具象化、数量化和可视化，已成为一种适用于各领域的重要治理手段。20世纪90年代以来，随着冷战结束和全球化的发展，社会生活各领域均出现了评估指数构建和使用的新浪潮，政治领域也不例外，西方国家和国际组织开发出了多种评估各国政治发展的指标体系，其中部分指标体系产生了广泛影响，也引起了较大的争议，大量发展中国家虽不满于这些指标对自身的评价，但也无力改变评价所带来的舆论和认知后果。政治发展评估指数经过三个阶段的持续发展，产生了数个具有较大影响的评估体系，其构建主体、理论框架、评估方法以及影响力都亟须进行系统性分析，以便对其贡献与缺陷进行讨论，并探索政治发展评估指数的未来发展方向。

关键词：政治发展政治评估评估指数指数比较再评估

20世纪30年代，西方社会出现了所谓的“社会指标运动”，一系列指标被开发出来，以测量社会发展程度和公共政策实施，目的逐渐明确，方法日益系统。①这种思路在1970年代扩散到国际领域。进入21世纪后，出现了各类指标与排名的繁荣，公私机构纷纷投入其中，对全球社会生活的各个方面进行评估，形成了蔚为大观的“指标产业”，吸引了大量资源，也推动了数据、方法和分析工具的迅速发展。政治类评估指数也位列其中，随之发展。“联合国发展计划”的一份调查报告表明：当前关于治理方面——如政治腐败、公民自由、性别平等、人权、经济竞争力、新闻自由、政治稳定、环境表现、人类发展——的指数共有165种之多。其中，83％的指数是在1991年到2006年间研发的，50％的指数是在2001年到2006年间研发的。②

政治评估指数是指，通过确定现代政治系统整体或某个领域运行应遵循的原则或者应达到的标准，对其进行细分和可测量化，并运用到对全球范围内多个国家(或地区)政治运行的测量和评估上，以打分或排名的形式发布评估结果的研究项目。评估内容主要可分为政治制度分类、政治规范遵守以及政治系统运行绩效。根据不完全统计，专注政治类指标并获得学界认可的评估指数约有60套，③如果将安全、政治传播、社会治理或人类发展等领域也纳入广义的政治体系，相关指数则达到上百套。

政治评估指数从需求、目标到构建的机制与影响，都迥异于经济、社会等其他类型的指标。尽管政治类评估指标被普遍认为带有明显的价值判断，有将西方体制理想化之嫌，但是依然有诸多机构先后参与其中，少数指标体系产生了全球性的影响，甚至成为测量各国乃至全球民主、法治、人权、治理等发展的标尺。这一看似矛盾的现状促使我们关注并深入探究政治类评估指数的发展、现状、构建的机制与产生的影响，进而讨论现有政治类指数存在的问题和政治发展评估遭遇的普遍困境。对这些指数的再评估，不仅有助于我们全面认识各国政治发展道路的差异性，也有利于更深入地思考中国政治发展道路的全球意义。

本文分为四个部分。第一部分简要概述政治发展评估指数的发展过程；第二部分从上百个指数中选择了10个在世界上具有较大影响的评估指数，对指数的构建主体、理论框架、评估方法以及影响力进行评析；第三部分着重讨论这些评估指数在分析政治发展的复杂现实中，所做出的贡献和存在的缺陷；第四部分是结论。

一、政治评估指数发展的三波浪潮

二战结束后，随着一大批前殖民地国家取得独立，开始现代国家制度建设，政治发展问题成为学术研究的重点。冷战激发的制度间竞争，又使得何种政治发展道路更优、哪些制度设计更好等问题，迫切需要获得理论论证。以统计方法为代表的定量研究方法的不断发展和改进，为将政治发展这个抽象而复杂的现象具象化提供了技术条件。因此，伴随着各种类型经济发展评估指数的繁荣，政治类评估指数也开始在比较政治学等学科中出现了。目前仍被视为所谓三大“民主指数”(政体指数、自由指数和民主多样性指数)中的两项始于20世纪60、70年代。

冷战结束后，西方社会陷入了“历史终结”的欣喜之中，政治发展似乎有了统一而“唯一”的衡量标准，政治评估也随之掀起了第一波浪潮。这个时期出现的评估指数致力于倡导自由民主模式，探索评价“不可评价”的社会与政治现象，④比如民主(政体指数)、自由(自由指数)或腐败(腐败感知指数)。学术界与实务界的“科学化”与“量化”热潮，以及冷战结束以后非政府组织，尤其是国际发展与援助机构影响力的不断提升，援助分配原则的可操作化改革，极大地推动了政治评价指数的发展。以民主规范为指导原则的国际组织和援助国家主体在很大程度上决定了指数的重点关注领域和评价标准。

21世纪的第一个十年是政治评价指数发展的第二波浪潮。政治评价指标更加偏向于客观评估方法，数据来源和评估维度也更加多样化，并将关注的重点转向“治理”需求。第二代指数致力于弥合评估与决策之间的鸿沟，与第一代指数相比，评估对象在政治上更加易于接受，客观性和透明度方面也都有很大的改进。20世纪末主流发展理念的挫败，发展中国家的政策反馈以及对第一代指数的批评都推动了这一阶段变革的快速发展。各种私人和公共机构加入指数评估的行列，不止覆盖了政治制度，也包括更为广义的治理以及社会发展的方方面面。在这一时期，一方面创建机构更为多样，测量对象更为多样，另一方面对于评估对象也有了更有针对性的分类。一些指数集中关注特定类型的国家，比如失败国家指数(后更名为脆弱国家指数)。相较于早期指数，这一时期的指数更具有针对性。二代指数的构建目的和诉求不仅是做出极度简化和抽象的排名，而更加致力于做出具体的诊断并提出解决的办法。⑤

21世纪的第二个十年迎来政治评估指数的第三波浪潮。这个时期出现的指数一般被称为第三代指数。基于对二代指数的全面评估与反思，评估界对第三代指数提出了更高的要求，但从结果来看，高质量新指数的产出远不及预期，一代和二代指数仍然是政治评价指数的主导。在构建方法上，由于政治发展理念的复杂化，量化技术的发展以及数据来源的进一步丰富，出现了多个复合其他指数的集成指数，其中最为引人注目的是世界银行的全球治理指数(WGI)。该指数综合大量与治理相关的指标数据，用以诠释国家间的治理水平差异。指标构成和数据来源的多元化也造成了评价标准和理念和混杂，民主制度、政治原则、绩效表现在一些指数中彼此重叠，这一特点在三代指数中尤其突出。同时，服务决策和发展实践仍然是这一阶段的首要任务。

这些评估方法和指标体系，分布已经超越了传统政治学的研究范围，横跨了整个社会科学领域。这些发展主要得益于三方面原因：首先，在理论方面，20世纪90年代以来经济学的新制度理论转向推动了制度研究的全面发展，测量制度与发展结果之间的关系成为学术热点。其次，在技术方面，测量和评估程序更加成熟，基础数据日益丰富可得；最后，在需求方面，各国政府、国际组织和商业机构对指标信息的需求不断增长。

二、十种代表性指数及其比较分析

从目前的指数版图来看，存在三大类评估框架：政治制度的类型、政治规范的遵守和制度运行的绩效(见图1)。按照数据最终呈现形式，现有指数也可以划分为排名指数和面板指数，⑥前者提供一个单一排名，而后者则对不同指标进行单独打分，这一类指数往往也称为数据集或数据库，但仍被视为广义评估指数。

本文从现有的近百种评估指数中筛选了10种，包括属于政治制度类的3种；属于政治规范类的4种；以及属于制度绩效类的3种。选择标准主要有四个：一是评估内容，指数评估的具体内容属于定义中三种主要类型的一种。二是发布周期，指数在推出以后，必须周期性连续发布。三是覆盖范围，指数必须覆盖多个国家，且以国家为评估的基本单位。四是影响力，指数在学术界、大众媒体或政策实务界有较大的传播效果或政策影响。

图1 三大类政治评估指数(来源：作者自制)

(一)政治制度类型评估指数

1.政体指数(Polity)

政体指数研究于20世纪60年代末由美国马里兰大学政治学学者发起，第一代数据发表于1975年，后续研究由“系统性和平中心”(Center for Systemic Peace)主持。项目由美国中央情报局旗下的政治不稳定工作组(Political Instability Task Force)资助(资助于2020年2月终止)。最新的“政体第五代指数”(Polity 5)由第四代指数(Polity IV)改造发展而来，记录和监测1800年以来167个国家政权模式和政权的变化。⑦第五代指数目前仍在开发和改造过程中，政治学研究中广泛使用的仍然是第四代指数。

政体指数的独特之处在于它关注制度中民主与专制相伴而非相互排斥的形式。这一观点设想了一个治理权威的谱系，从完全制度化的独裁，到混合的或不完全的威权政权，再到完全制度化的民主。政体指标的测量方法是开创性的，但同时也受到大量的质疑和批评：一是政体指数判定民主或专制的各项指标主要集中在体制设定方面，不涉及制度绩效和公民权利。二是对政治体制的评估也更为偏重行政系统。尽管指数设定中包含对选举的考察，但对于选举本身的测量是较为粗糙的。三是对美国历史的美化，比如将1842年的美国列为全世界唯一的民主国家，事实上此时的美国仍是少数实行奴隶制的国家。四是评估指数对于西方国家的殖民主义历史选择了回避，比如1900年之前的非洲地区被简单处理为“无数据”。⑧

2.民主多样性指数(Varieties of Democracy/V-Dem)

民主多样性研究所创立于2014年，总部设在瑞典哥德堡大学政治学系。民主多样性指数致力于在世界范围内测量和评估民主发展，资助机构非常多元，包括欧盟委员会等多家政府机构、世界银行、多家非政府机构以及高校、研究所等学术机构。⑨

与其他主要政治评估指标相比，民主多样性指数的创建时间较晚，但这也使得该指数在创始之初就能够利用最新的测评方法以及丰富的数据来源。其样本规模、专家数量、数据多样性和测量方法之复杂程度，都是早期政治评估指数难以企及的。指数由五个民主原则一级指标构成，包括选举、自由、参与、协商和平等。再进一步分解为82项二级指标和400多项三级指标，其中约半数为来自官方文件的客观事实指标，其余一半为专家主观评估。⑩

民主多样性指数的创始目的是建立一个比较民主政治的数据库，但在近年来逐渐向政策领域发展。民主多样性指数中的多项指标也成为其他重要治理指数的数据来源，比如世界银行的全球治理指标、“透明国际”的清廉指数和美国国际发展署的自力更生国家指数(Journey to Self-Reliance Country Roadmap)。(11)但总体来说，民主多样性指数的曝光率不及世界自由指数这样的老牌政治评估指数。

3.民主指数(Democracy Index)

英国经济学人集团旗下的经济学人智库(EIU)从2006年开始发布民主指数。民主指数测量全球167个国家和地区的民主状况，几乎涵盖了全世界的所有人口和世界上绝大多数国家(微型国家除外)。(12)民主指数包括5个一级指标下的60个二级指标，测量选举过程和多元化、政府职能、政治参与、政治文化和公民自由。

依托以《经济学人》周刊为旗帜的经济学人集团，民主指数在媒体曝光度和公众关注程度上具有明显的优势，但多年来也受到各种质疑和批评。首先，该指数并没有披露评估专家的身份，经济学人智库没有说明他们是智库的工作人员还是外部专家，也没有提供其数量、所在行业、职业或国籍的任何信息。其次，民主指数的评估与打分过程存在极大的模糊性、不确定性。为了获得一致性得分，指数对于民主相关变量进行了极简化处理，这无疑会对指数的准确性造成影响。(13)

(二)政治规范评估指数

1.世界自由指数(Freedom in the World)

世界自由指数由位于美国华盛顿特区的非营利组织“自由之家”(Freedom House)于1972年开始正式发布。尽管在官方网站上声明“(世界自由)报告是在美国国家民主基金会、美林家族基金会、谷歌公司和礼来基金会的慷慨支持下完成的。《世界自由》不接受政府资助”，(14)但“自由之家”的历年财务报告显示来自联邦政府的资助一直以来都是该组织最重要的财源，且数量和比例都在逐渐增加。2020年资助规模达到近4600万美元，超过全部资金来源的90％。(15)

世界自由指数是全球最具影响力的政治评估指数之一。无论从媒体曝光度、学术参考还是政治决策方面，自由指数都有相当的影响力。(16)与许多政治评估指数发布机构不同，“自由之家”在世界政治中非常活跃，从人员、资金到活动都与美国政府联系紧密。在理论框架方面，有学者指出世界自由指数对民主的定义过于片面，过分强调民主较为正式的方面，而未能捕捉到非正式但真实的权力关系和影响途径，并经常导致事实上的民主偏离。因此，某个国家可以“在形式上看起来自由民主，但在实际运作中可能相当不自由”。(17)此外，在测量方法上，依赖观察和主观判断的专家打分法也难以避免系统性偏见的产生。

2.法治指数(Rule of Law Index/RoLI)

世界正义项目(World Justice Project)从2008年开始发布法治指数，该项目由美国律师协会发起，旨在评估各国在法制建设及遵守法律方面的情况。该项目最初由比尔和梅琳达盖茨基金会通过美国律师协会资助，目前得到多个组织、公司和私人基金会的财务支持。

法治指数对于“法治”的定义包括四项基本原则：责任、公正法律、开放政府以及无障碍和公正的争议解决。(18)值得强调的是，法治指数是少数几个独立收集公众数据的指标之一。对普通公众的一般性调查降低了对专家的依赖以及可能产生的评估偏见。但该指数也有局限性，社会调查方法存在的一些固有问题在法治指数调查中同样难以克服，专家调查由于隔年进行一次，调查时间可能对调查结果产生一定影响。调查结果并不能体现变量之间的因果关系，也难以直接用于政策改革。

3.腐败感知指数(Corruption Perceptions Index/CPI)

腐败感知指数是由非政府组织“透明国际”建立的清廉指数排行榜，反映全球商人、学者及风险分析人员对世界各地腐败状况的观察和感受。“透明国际”总部设在德国柏林，由世界银行负责非洲地区项目的前官员于1993年成立。“透明国际”的主要资助来源包括多个国家和地区的政府机构、多边组织和基金会等。(19)从1995年开始，腐败感知指数对各国“公共部门腐败感知水平”进行排名。(20)腐败感知指数将腐败定义为“滥用委托权力以谋取私利”。由于腐败行为的隐蔽性以及难以衡量腐败的绝对程度，腐败感知指数测量的是人们对腐败的看法。

腐败感知指数是世界范围内使用最广泛的腐败指数，受到各类机构和全球媒体的广泛关注，也被国际发展和援助组织用来指导资源分配。对腐败感知指数的批评主要集中于测量方法上。比如，有学者指出，腐败是一个过于复杂的概念，不能用一个分数来衡量。通过衡量人们对腐败的看法，而不是腐败本身，指数可能只是在强化现有的刻板印象；指数只衡量公共部门的腐败程度，而忽略了私营部门。(21)此外，由于腐败感知指数的数据收集并不面向普通公众，因此被认为存在严重的精英偏见，并由此引发不当的政策反应。(22)作为对腐败感知指数的补充，“透明国际”推出了全球腐败晴雨表，面向普通公众进行社会调查。但全球腐败晴雨表的规模、曝光度和影响力都远远不及腐败感知指数。

4.全球和平指数(Global Peace Index/GPI)

全球和平指数是一套测量国家或地区和平程度的指标，由经济与和平研究所(Institute for Economics & Peace，IEP)于2007年首次发布。指标的部分数据由英国经济学人智库(EIU)的专家小组收集。研究所的创立者澳大利亚企业家兼慈善家史蒂夫·基利亚(Steve Killelea)曾两次获提名诺贝尔和平奖。目前，研究所受到包括澳大利亚政府、全球多个政府间组织和基金会的资助。(23)

全球和平指数测量国家卷入当前国内和国际冲突的程度，评估一个国家内部的和谐或不和谐程度。指标分为三个关键的主题类别：尚未平息的国内和国际冲突、国内和谐或动乱程度以及军事化水平。全球和平指数使用的数据以客观数据为主，来源广泛，包括国际战略研究所、世界银行、斯德哥尔摩国际和平研究所、联合国毒品和犯罪问题办公室等等。个别指标由于缺乏数据，会与经济学人智库合作进行定性评估。(24)

除了为学术研究提供数据和评估标准，全球和平指数也为各国政府提供决策依据，尤其在促进旅游产业和建设国家品牌方面，并为非政府组织和私营部门提供项目活动信息，帮助它们选择项目的重点领域，评估风险。因此，全球和平指数自发布以来获得新闻媒体、各国实务界和国际组织的普遍关注。也有批评指出全球和平指数结果的不合理性，这种情况主要源于定义和平以及分配指标权重的困难性。(25)

(三)制度绩效评估指数

1.国家政策和机构评估(Country Policy and Institutional Assessment/CPIA)

以世界银行为代表的国际金融机构从20世纪70年代开始着手设计针对受援国家的国别政策和体制评估。国家政策和机构评估始于1977年，在相当长一段时期内，一直是一项内部评估，指导世行国际开发协会(IDA)向发展中国家提供贷款和赠款。自2006年以来，国家政策和机构评估的数据向公众开放。(26)其每年评估借款国的经济管理、结构政策和公共部门绩效，评估结果用于指导资源分配，汇报国家援助战略和世界银行贷款活动，因此国家政策和机构评估的国家总评分被称为“世界银行国际开发协会资源分配指标”(IRAI)。

国家政策和机构评估旨在从绩效角度评估国家当前投入的政策和制度的质量，测量国家支持可持续增长和减贫的程度，从而有效吸收发展援助的能力。其中特别列出了脆弱国家这一分类，使其能够从基于绩效的援助分配中获得豁免。(27)国家政策和机构评估的评估标准和评估方法也一直受到质疑，比如各项评估标准中存在一定的重叠，专家评估的主观性问题。此外，国家政策和机构评估是在董事会国家的要求下建立的诊断性工具，由世行内部专家制定，因而反映的是所属机构对于善治的政策和机构设置偏好。(28)

2.脆弱国家指数(Fragile States Index/FSI)

总部位于美国华盛顿特区的智库和平基金会和美国《外交政策》杂志从2005年开始发布失败国家指数(Failed States Index)，对世界各国总体的社会稳定性进行排名。2014年，该指数更名为脆弱国家指数(Fragile States Index)，旨在建立一套预警机制，有效应对国家脆弱性问题。和平基金会创立于20世纪50年代，当时主要关注冷战背景下的核不扩散问题。冷战结束后，和平基金会将注意力转向弱小国家，以及更为广泛的暴力冲突、国家脆弱性、安全和人权等问题。目前，和平基金会的合作者和资助来源包括数十个教育机构、政府组织、政府间组织、私营企业以及基金会。(29)

脆弱国家指数的起源可以追溯到和平基金会的冲突评估系统工具(CAST)的创建，该工具开发于20世纪90年代，旨在为决策者和一线工作者提供理解和测量复杂环境中的冲突驱动因素和动态的框架。从2004年开始，和平基金会与《外交政策》合作，以此框架为基础，推出了失败国家指数，进一步对国家进行评估和排名。由于对理论、理念到评估方法的一系列调整，失败国家指数在更名为脆弱国家指数后，评估的重心在一定程度上由安全转向发展。

尽管脆弱国家指数自发布以来就受到广泛关注，但各种批评也一直伴随左右。“失败国家”这一名称多年来一直饱受争议。批评者指出“失败国家”暗示着无可挽救。这一争议也是2014年指数更名的原因之一。(30)此外，批评者对于脆弱国家指数作为政策工具的有效性提出质疑，认为指数只关注症状，忽视造成现状的原因或可能的治愈方法。(31)

3.世界治理指数(Worldwide Governance Indicators/WGI)

世界治理指数从2002年开始发布，该指数是衡量一国政府公共治理成效方面最为权威的指标体系。与机构内的一些其他指标数据不同，世界治理指数并不指导世界银行的资源分配。(32)其评估内容包括六个方面：言论和问责、政治稳定和暴力削减、政府效能、监管质量、法治、腐败控制。(33)

世界治理指数强调评估、理论发展和政策之间的联系，“让治理问题的相关探讨更加实证化”，(34)是当前诸多治理定量研究中严谨度最高、影响力最大、使用面最广的综合指标之一。治理指标为蓬勃的治理实证研究提供数据支持，学术界使用世界治理指数来验证治理与增长之间的关系，(35)为世界各地的决策者提供了政策改革和监测的工具，国际发展实务界也可以用其作为政策讨论尤其是对外援助方面的政策依据，比如千禧挑战公司(MCC)就使用世界治理指数的部分指标来选择援助国家。(36)对于世界治理指数的分析和批评也始终存在。比如，有学者指出其对于治理的定义过于宽泛，难以真正对政府绩效进行评估。(37)六个一级指标之间的边界并不明确，对于何为“善治”，何为“恶治”并没有明确的标准。(38)其复杂的指标来源和变量也对数据使用者造成困扰。在一些情况下，同一指标不同国家的数据可能来自多个不同的数据源，这也使得无论是时间上还是空间上的比较都存在问题。对于数据源的选择依据，指数也并没有充分的说明。虽然数据来源中既包括面向普通公众的社会调查，也包括专家评估和公司调查，但前者的权重偏低，专家偏见仍然没有得到有效克服。此外，很难使用该指数来直接指导治理实践，指数更多的是对现状的描述，对于其成因和影响，以及如何应对，并没有给出指导意见。(39)

(四)比较分析

1.构建主体

对指数构建主体及其资金来源的考察是探讨指数构建机制的开始，建构主体与指标的构建方式和影响力密切相关，但却往往受到研究者的忽略。从以上指数的发布机构来看，可以分为三大类。

第一类是政府间机构，尤其是作为“知识银行”(40)的世界银行发布了多项重要指数，以指导和援助世界各国的发展。世界银行自20世纪90年代中期重新定位为援助与发展的知识和数据银行，(41)各种量化指标的输出是出于资金分配科学化和透明度的需求，反映世界银行早期作为传统金融机构的定位，更体现出向世界，尤其是发展中地区提供经济发展知识的新的定位。一方面，作为布雷顿森林机构的重要组成部分，世界银行的发展理念以及运行机制在实践中发挥了重要作用，同时也体现在世行发布的各种数据与知识中。机构对于市场、政府与治理的态度，影响甚至决定着数据的呈现方式和深层诠释，因此，针对世界银行发布的各项指标体系，我们经常能够看到“过度反映机构偏好”的批评。尽管多边组织与属地明确的其他机构相比，更不容易受到少数主权国家的施压，但来自自身定位、发展路径甚至是股东国或核心成员的影响是难以避免的。另一方面，作为世界最大的发展援助机构，世界银行的数据和知识源自发展实践一线，也能够进一步推广应用于发展实践，形成知识的良性循环，并产生更为实在的政策影响力，这是其他类型的指标构建主体难以企及的。但从另一个角度来看，符合机构发展理念的评估对象更加可能受到机构资源的青睐，从而获得更多的发展机会，体现出指标知识背后的权力关系。

第二类组织是跨国非政府组织，比如“自由之家”和“透明国际”。这一类组织往往是某种国际规范的倡导者(Norm Entrepreneur)，因此，指标评估的内容相对单一。指数传播承载着机构倡导的理念。作为非营利机构，这些组织受到持续的外部资助。尽管各家机构都高度强调自身的独立性，但从机构建立的初衷到人员和机构运行的财务支持，都能够看到以美国为代表的西方大国的影子。一些机构与媒体集团合作，进一步保证指标的曝光度，形成对从学术界到普通公众以及政策实务界的广泛影响力。

第三类是学术研究机构，包括高校、研究所和智库。指标构建的初衷往往是学术性的探索，比如寻找民主制度与其他发展变量之间的因果关系，或者为广泛的学术研究提供基础数据。以高校为依托的指标发布主体相对具有更高的独立性，但对面向公众的大众媒体和政策实务界的影响力要远远低于学术影响力。不管从指数的呈现方式、平台用户体验还是传播途径的曝光程度来说，都往往存在多种不足。因此，有批评者担心这样的指数研究其实是“数据坟墓”。

值得注意的是，三类构建主体都集中于西方发达国家，也更多受到西方机构的资助，但其影响力绝非只局限于西方世界，而是定义着整个世界，影响着各国公众对于本国和其他国家的看法以及各种资源的流动。

2.构建方法

根据测量方法，政治评估指数可以分为两类：根据受访专家感知来构建，或使用量化数据和客观事实来构建。前者被称为感知测量，后者被称为客观测量。一些指数也会将二者结合，使用复合测量方法。使用何种方法，受到多种因素的影响，包括评估内容、评估目的、技术发展以及机构可获得的资源等。基于感知的测量方法主要优势在于灵活性，而客观测量方法的最大特点就是严谨性。

如果评估内容较为模糊，缺乏明确而广受认可的概念，且难以明确定义测量标准，比如“腐败”，那么基于专家感知的主观打分法无疑是最佳选择。如果测量内容框架明确、标准清楚，以客观数据为基础的测量方法不但可操作，也更具有可信度。从评估目的来说，提供打分，尤其是优劣排名的指数更倾向于使用专家感知方法，而数据库或与之类似的面板指数则更多依赖客观数据。从技术发展角度来看，早期指数多使用不太依赖信息技术和统计科学的专家感知打分方法，使用客观数据的评估指数则出现相对较晚，一般为二代指数。

此外，大范围收集第一手的跨国信息，对指数构建机构的财力资源和信息渠道都有很高的要求。尽管面向公众的随机抽样问卷调查受到普遍认可，但在评估指数中非常少见，在本文介绍的各大指数中，仅有法治指数使用问卷调查方法，且调查周期和样本数量都不尽如人意。出于同样的原因，集成第三方二手数据，直接越过邀请专家打分或收集统计数据，无疑能够节省大量资源，从而更大程度地拓展评估内容和对象。比如全球治理指数覆盖了与治理相关的各种指标，无论是时间跨度还是地理范围都相当可观。

总体来看，专家感知仍然是政治评估指数中最为常用的测量方法。一方面，由于政治评估指数重在“评估”，运用专家的知识和理论针对社会现实进行综合分析更能彰显“评估”的深度。另一方面，政治评估中很多内容，在不同国家不同语境内可能存在很大的事实差异，比如“腐败”在美国的表现与印度非常不同，而客观数据所要求的严谨的跨越性在这样的跨国评估难以实现，也是没有意义的。

3.影响范围与强度

一项评估指数的影响范围与强度，同样与指数构建的机构、目的和评估的内容密切相关。一般来说，学术机构发布的指数往往局限于学术界，这些指数在建设伊始就致力于理论探索。比如美国马里兰大学的政体指数明确提出指数研究的目的就是“科学研究和量化分析”，(42)而瑞典哥德堡大学的民主多样性指数极为复杂的指标体系和评估结果也使得大众媒体和公众望而却步。与此形成鲜明对比的是非政府组织发布的评估指数，这些指数本身就承载着倡导某种政治规范乃至意识形态的任务，通过大众媒体影响公众舆论，进而改变政策实践是其根本的出发点。比如“自由之家”提出世界自由指数“对学者和实践者要同样有用”。(43)以世界银行为代表的政府间组织所发布的指数由于与资源分配和发展实践密切相关，在政策实务界影响更为广泛。

指数的影响力同样也受到发布机构的影响。学术机构除了发布自己的指数外，广泛参与各种指数研究的讨论和批评，增加引用率，加入“隐性的学院”，(44)必然能够提高指数在学术界的影响力。但要超越学术范围，触及非学术受众，则更加困难。与之相比，受到大国支持和与媒体集团合作的非政府组织往往能够获得大众传播的优势。同时，指数的呈现方式也在一定程度上决定了传播的效果，与媒体产业挂钩的指数往往比学术机构更加关注用户体验，也会在公共关系和传播方面投入更多资源，借助多种平台宣传研究成果。此外，一般性的传播技巧，比如引人注目的标题，以及明显表达褒贬评价的排名都更容易受到大众媒体的青睐。如何在科学性、严谨性和传播力之间取得平衡，是所有公开发布的评估指数必须面对的挑战。

最后，要获得政策实务界的认可，引导政策制定，引起改革和政治发展，更是多数政治评估指数可望而不可即的最终影响力。政府间组织与实务界的关系相对更加直接，而非政府组织和学术机构要想影响政治实践，路线无疑会非常曲折。一套指数要在形成广泛传播和认可的前提下，形成巨大的压力，借助国际社会或本国公众的舆论，才有可能带来真正的政策改变。除此之外，只有当指数结果刚好与政治家的诉求相吻合时，才会被奉为改革的科学依据。(45)

三、评估指数的贡献与局限

政治评估指数的需求与力量何在？为什么一国政府会关注某一个排名或打分？事实上，指数只是对现有信息的重新组合和诠释，却释放出强大的规范力量。指数的魅力在很大程度上归功于其通过打分和排名制定标准，进行比较，进而构建声誉的能力，通过重新配置和诠释比较性信息来激发人们对于国家能力和地位的关注，这种关注进而转化为压力，影响和推动政策实践。这一过程始于对某个问题的命名，提出一个概念，进而设立评估标准，以象征的力量(46)通过影响话语最终影响决策。指数具有强大的议程设置功能，按照其自身偏好设定优劣标准，通过有效的政治传播，形塑公众、组织和决策者对于制度合法性的思考。

(一)政治评估指数的贡献

1.知识建构

评估指数建构了一套将各国复杂多样的政治发展具象化、可视化、可比较的知识体系。指数所使用的数据不一定是第一手的，但在数据基础上进行的评估却是全新的。政治发展领域的各种概念和标准往往缺乏普遍的共识。政治评估指数通过系统性的指标框架，将政治现象的各种性质、强度、数量进行标准化定义。尽管这种定义往往引来争议和批评，但讨论本身对于知识的形成和积累就是有意义的。对于民主、发展、廉政、法治概念的争论几乎存在于所有相关指数的讨论中，这种讨论能够进一步推动知识的发展。收集新的数据固然是重要的，但找到一个框架、整理和检验各种信息，检视各种诠释数据的角度，讨论可能的因果关系同样重要。

一套指数的形成往往借助众多专家的贡献。指数构建的过程也是相关领域的专家形成共识的过程，这种共识往往是更为广泛的社会和政治共识的基础。各国专家与决策者形成的网络能够进一步跨越地理边界，广泛影响国际政治。

指数提供了对象国家国内政治的丰富信息。公开发布意味着包括一般公众、利益团体、商业团体、治理机构等各种受众都能够利用指数提供的比较性信息，形成政策需求。指数特有的优劣比较更容易对后进者形成压力。政治评估指数能够形成系统性知识，为现实政治活动提供合法性和动员力，并最终引发政策变化。从这种意义上说，知识就是力量。(47)

2.价值倡导

在多元的世界中对一种政治价值形成共识，往往是一个缓慢而艰难的过程。政治评估指数的构建主体，尤其是非政府组织，通过测量和发布指数来倡导相应的政治规范。政府间组织同样也是推动规范形成的有效平台。民主、自由、廉政、法治等各种应当被普遍遵循、但在实践中参差不齐的价值规范，通过各种指数得以测量和比较形成道德压力。国家期望在国际社会获得声誉，因为积极的集体判断代表着稳定性和可预见性，能够增加合作的可能。(48)而“点名”和“羞辱”则是改变和降低不良行为的主要工具。政治评估指数使得这一机制更加科学化，不但有理，而且有据。

由于政治评估指数的周期性特点，每年定时发布的各类指数可以形成一种“监测”机制。指数发布者和其他主体的持续关注能够影响评估对象，逐渐内化评估标准，调整行动，形成自我规范的霍恩索效应。(49)一国评估结果的上升或下降，尤其是下降，也能提供一定的预警作用，提醒或迫使相关主体采取措施。

3.实践引导

政治评估指数，尤其是绩效表现指数，具有对最佳实践的推广和示范功能。一方面，在国际发展领域，以世界银行为代表的政府问机构发布的评估指数与援助和贷款的分配直接挂钩，以保证资金投入的有效性。指数成为重要的资源分配和援助政策的决策工具。在这种情况下，高度依赖国际援助的发展中国家尤为关注评估结果，在一定程度上将评估结果内化为本国制度建设。另一方面，在国内层面，测量政治系统运行的绩效能够明确制度安排是否能够达到其预期的效果，发现影响政策实施的障碍，并进一步通过从以往成功或失败中吸取的教训提供对策。同时，绩效测量结果也向公众和其他国内国际利益相关方提供了治理系统运行的信息，从而有助于获得进一步的认可和支持。

21世纪以来，对政策导向指标的呼吁不断增加，为政策实践提供有效依据已经成为新指数的重要目标。指标产业的发展也从关注国家排名拓展到提供系统性绩效表现评估。国际机构、非政府组织、学术机构与各种国家层面和地方或部门次级主体的合作推动了作为政策依据的指标产业，而有据可依的决策过程又可以进一步推动善治。科学化、系统性的证据对于缺乏数据采集和分析能力的发展中国家尤其宝贵。指数与国家政策部门的合作可以带来双赢，一方面指数可以获得受到评估对象认可的更为准确的一手信息，另一方面政策部门也能够得到量身定制的政策依据和决策建议。

(二)政治评估指数的局限

1.创建主体的“中心主义”偏向

尽管政治评估指数的创建主体具有多样性，涵盖了从学术机构、私人机构、国际组织到非政府组织等多种形式，但一个无法忽视的问题是，这些指数创建机构基本都位于发达国家，尤以美国和欧洲为主，来自发展中国家的价值和标准难以在主流政治评估指数中得以表达。

指数力量的一个重要来源是其创造者的公信力和权威。社会心理学研究指出合法权威的来源之一是信任，是对行为者公允、博学和能力的认可。(50)要被视为权威，行为者自己也往往要被认定为特定行为规范的典范，才能享有规范的权力。(51)同时，权威也可以来源于能力，依据则是其现有的权力和财富。反映在指数实践中，全球主要的政治评估指数，乃至于整个指数行业都集中于西方发达国家。这些国家以权威的姿态，用其设定的规范来评估他国。此外，网络中心性也与权威密切相关。在社会和政治网络中处于中心位置的行动者能够更有力地设置议程。(52)美国政府驻世界各地的组织机构与美国各大非政府组织形成一个庞大的信息网络，能够有效挖掘和传递各种信息，这无疑是美国评估指数发达的重要原因之一。此外，发达国家更为成熟的理论、方法和数据技术，以及对于评估研究的资源投入优势都在一定程度上解释了现有指数创建者的地理分布。

可以说，整个指数产业已经形成了从生产到消费的路径依赖。各类政治评估指数以西方政治理论为基础，以西方国家为理想模型，以西方专家团队为评估主体，服务于西方大国的外交与贸易战略。广大发展中国家在各种指数排名中只能担任被评估的角色，既无法对评估结果提出意见，也无法贡献具有本国特色的发展经验。以中国为代表的一些发展中国家，尤其是新兴国家，近年来也在不断尝试构建体现本国经验与价值的评估体系，但从效果来看，远远无法撼动主流评估指数的主导地位。

指数产业经过20世纪90年代开始的爆发式发展，在21世纪的第一个十年引发了针对指数体系本身的一系列思考和批评。(53)这些讨论针对评估指数的概念基础、评估方法和影响力等诸多方面都进行了反思，然而，与指标生产者和资助者相关的政治经济学分析却始终没有引起重视。评估指标由发达国家生产似乎成为一种无可争议的事实，从学术界到政策界，从指标的生产者到数据的使用者都默认其合理。显然，多数指标务求覆盖尽可能多的国家，无论发展中国家还是发达国家都是其评估的对象，甚至一些指标尤为关注发展中国家，但评估者，也就是指标的生产者却集中在发达国家一侧，这样明显的失衡却未能引起研究者的注意，可以说是一种怪现象。

一方面，西方国家的指数生产者既是裁判又是运动员，是行业的领导者、标准设定者也是市场的垄断者；另一方面，对于指标科学的评价和反思往往仍然是指标生产者，也就是说，评估指标从生产到评价再到批评，形成了一个闭环。因此，针对各大指数的分析和批评往往是技术性的，关注数据采集和评估方法，而指标生产体系中的不平等和权力关系，并不是从业者关注的话题。

指数构建机构在分布上的失衡不仅仅是价值评价和声誉问题。政治评估指数，以及更为广泛的治理相关指数，与全球治理框架密切相关，与之相关的话语权决定着全球治理的角色分配和权力关系。本国的政治体制、治理效果是否得到国际社会的认可，与贸易、合作和发展机会密切相关。可以说，指数创建机构的分布失衡是全球治理框架不平等的表现或延续。政治评估指标要获得可持续的健康发展，以开放的态度接纳来自发展中国家的经验、价值和理念本身就是一种民主化的体现。

2.对政治发展衡量的“简单化”倾向

政治发展是一个复杂的长期过程。无论指数的目的是传播理念还是制定政策，解决何为政治发展的规范性问题都是一个不可避免的先决条件。只有在确定了政治发展目标之后，才能设计指标来评估现状与目标之间的距离，或者指导实现政治发展目标的政策。如果政治发展的目标是民主制度，那么对正式制度的测量就会成为评估的核心。而如果政治发展的目标是制度高效运行，那么制度设计再完善，也不能保证其有效性，只有从制度的实际运行绩效出发，以绩效结果为导向才能评估各国的政治发展水平。

发展可以被理解为一种结果，或者一个过程。(54)基于过程或程序设定的定义是最简单的。基于制度设定的政治发展不以其结果来评价政治发展。因此，在一个制度运行低效的社会，或者一个高度依靠非正式制度的社会，对制度设定的测量既无法准确衡量其政治发展水平，也无法指导改革和政策制定。一个显示完善选举制度的民主指标并不一定表明政治昌明。同样，与西方主流民主制度迥异的政治体制，从治理结果上也可以被评估为高速发展。以中国为代表的新兴国家不断挑战甚至颠覆着现有的各类政治评估体系的理论预设和指标选取，以西方经验为基础的评估体系难以解释为什么中国依靠一套迥异于西方的制度体系，实现了经济的持续增长和社会的长期稳定。

此外，现有政治评估指数的另一个问题是从抽象概念向具体指标的转化问题。这一问题在各类指数中普遍存在，但在政治类指数中尤为突出。开展一项评估包括两个关键步骤。首先必须定义用于构建政治评估的信息来源，这是对测量内容的定义。其次再定义如何将各种信息聚合进一个指数之中，由此完成从观察到指数的投射。一套指数即使使用了受到一致认可的概念框架，但如何准确找到反映抽象概念的相关指标仍然非常困难。举例来说，本文介绍的几大民主指数，对于具体指标的选取都各不相同。显然，民主是一个复杂的概念，包括选举、法治、协商等多种元素，但并不直接等同于这些元素。因此，对于具体指标的选择必然带来质疑和争议。

同时，在指数的生产过程中，极易出现的一种情况是只选择可以直接测量的指标，忽略难以测量但实际上非常关键的指标。政治评估指标往往涉及决策过程或公众心理，此种数据的获得和测量显然是非常困难的，数据的准确性也往往受到质疑。在一些情况下，指数只能选择一些指标来间接反映概念框架中的某些要素，例如以新闻自由来反映诚信进而反映一个国家的清廉程度。一些概念虽然可以直接度量，但只能以较为粗略的方式加以度量，比如依靠专家的主观印象。

最后，概念和指标数据脱节的情况还可能出现在评估对象的单位上。政治评估指数普遍以国别为基本单位，无论是民主、和平或政府质量，其背后的理论假设都是基于国家层面的，因而相应的指标数据也往往是汇总数据。而事实上，在治理实践中，区域间、机构问和部门间的差异性是巨大的，对低层级数据的加总聚合可能会掩盖重要的因果关系和关键变化，造成数据偏差进而与现实脱节。

3.构建与测量方法的“偏颇化”倾向

专家主观感知打分是现有政治评估指数最常见的测量方法。与客观测量方法相比，这种方法能够获取更多的信息，但研究者相对难以把控信息的质量，可靠性存疑。客观指标则正相反，数据可靠，但可用信息相对有限。用感知测量方法时，研究者能够决定专家的选择，提问的内容和方式以及如何使用调查结果，但不能指定受访专家用来构建感知的信息来源，也无法控制专家的评估标准。感知测量的一个重要特点就是从研究者到受访专家的权力转移。其灵活性在很大程度上也来源于此。考虑到政治评估的许多内容或是缺乏严谨的系统性信息(尤其是跨国比较信息)，或是难以给出准确的衡量标准(比如公正或腐败)，这种灵活性无疑是一个巨大的优点。此外，感知方法的灵活性一方面使得可测量的内容范围大大拓宽，另一方面也可以借助专家的知识，超越研究者的认知局限，大规模拓展指数的信息范围。

但同时，灵活性的代价也是不可忽视的。首要问题就是偏见。偏见的产生可能基于几方面原因。首先是信息渗透，研究者无法控制专家的信息来源以及由此产生的认知。对某一具体指标的评估很可能受到一些外部信息的影响，比如对腐败的评估可能受到新闻自由相关信息的影响。信息的互相渗透可能使得指标设定失去意义，控制腐败、法治、问责等等各种信息缠结在一起，专家只是基于一个总体的印象对不同内容进行评估。这种情况对于使用评估指数进行理论验证时尤为有害。比如指数使用者想要验证民主与政府透明度之间的关系，但专家对于民主的打分正是基于政府透明度的，那么验证结果必然是二者高度相关。不过，信息渗透对于指数排名来说并不是一个严重的问题，甚至可能有一定的助益。对一个国家政治经济信息的普遍了解可能使得专家的打分更加符合实际，提高评估的准确性。此外，感知方法还存在透明度的问题。我们永远无法完全掌握专家是基于何种信息何种原则进行的评估，无法对结果进行复验，或者在复验时获得截然不同的结果。透明度问题可以通过精确问题、附加锚定信息、增加受访专家数量或使用测量模型得到缓解。

在使用客观测量方法时，研究者能够决定信息内容以及赋值标准。这无疑确保了指数的透明度和可复验性。从信息来源到评估标准，客观测量方法都是高度透明的。使用同样尺度对同样内容的评估必然产生相同的结果。但同时，这也意味着客观测量指数高度依赖研究者的理论和判断，其使用的信息往往是比较有限的，测量对象也更加狭窄，受限于研究者的知识、经验和想象力。此外，高度的严谨性对比较信息(尤其是跨国信息)完整程度要求更高，这会进一步缩小指数内容的覆盖范围。

此外，从指数构建方法来划分，除了传统的感知、客观测量及其复合指数，还有一类常见方法——集成指数。这一类指数的构建者并不采集一手数据，而是根据一定的理论框架，将第三方指数或社会调查的数据纳入自己的指标系统，经过一定的标准化程序，最终形成一个新的指数。这一类指数节省了数据搜集阶段的大量资源，相应地能够扩大指标范围和规模，因此往往覆盖较长时间跨度内多个领域的大量数据，最为典型的就是世界银行的全球治理指数(WGI)。但这样的指数构建方法同样存在一定的问题。首先，由于指标数据来自不同的信息源，要确保理论和概念的一致性是非常困难的，而在此基础上进行的比较难以克服跨越性问题。其次，在指标集成的过程中，必然要对各种变量进行标准化处理。如果指标本身就来自第三方指数，那么数据可能已经经历了多轮标准化，这可能造成数据的变形。最后，如果集成指数使用的是数据源的部分数据而非全部，就需考虑源数据的各个变量是否是独立的，将数据从原本语境中抽离是否会造成失真。总之，使用集成构建方法，需要对数据源进行非常谨慎的选择和处理。

4.评估影响的“有限性”

政治评估指数产生影响力的原因之一在于其赋予评估对象声誉和地位的能力。通过对信息的比较和诠释，指数可以广泛影响国际社会对于成功国家和有效制度的标准，形成一种社会压力，迫使评估对象接受并遵守评估结果以及其背后的价值标准。比较形成判断，赋予被比较者地位和身份。在这个过程中，公约得以形成。不同的国家根据这个共同的尺度进行比较，形成一种高度简化的世界观。

评估指数影响力可以分为传播和行为改变两种形式。在传播层面，评估指数的影响力主要存在于两个群体——学术界和包括政策制定者以及一般公众的非学术界。尽管对于传播效果的直接测量是十分困难的，但这两个方向分别可以通过学术引用和媒体曝光率进行间接的评估。从现有研究来看，(55)评估指数在学界的影响力远远高于非学术界。相较于经济或社会指数，政治类指数的这一特点尤为突出。换句说话，一些活跃于科研项目和学术文献中的指数研究在很大程度上并没有转化为政策依据和公众关注，艰深的理论探讨和复杂的测量方法可能永远不会影响非学术受众。

当然，一部分评估指数的主要构建目的就在于理论验证，本文中介绍的一些政治体制评估指数强调概念界定和制度规范，多由学术机构创建，其参与者和受众都主要集中在学术研究界，并不追求媒体曝光率，对政策实务界的影响即使存在，也往往是间接的。由于该类指标的目标受众就是学术群体，传播范围的相对有限并不算是问题。但对于关注政治系统运行、与政策密切相关的指数来说，政策实务界的关注至关重要。而对于本文总结的第二类评估指数，即以廉政、自由、法治等政治价值为测量对象的指数，以推动制度革新和社会进步为目的，尤其需要一般公众和政策界的关注。如果不能进行有效的传播，那无疑是真正的数据坟墓。通过自上而下的排名系统吸引媒体曝光正是一种有效的传播策略。

政治评估指数研究经过二三十年的发展，从概念框架到测量方法都更加精深化、复杂化，但也造成了成果与公众认知之间的鸿沟。尤其是面板指数，其结果往往无法用易于理解的语言简单概括，普通公众也难以将其与自身经验相联系。如果研究者不能够放下身段为公众阐释指标的意义，引起公众兴趣，就很难获得以受众为导向的大众媒体的青睐。而在互联网时代，虽然传播主体可以在一定程度上跨越传统媒体渠道，但如果不能搭建用户友好的数据平台，制作面向公众的传播形式，在各种新兴内容的挤压下，就会造成更为严重的传播劣势。

在传播基础上，更为有效的影响力表现在行为改变，对于评估指数来说，也就是其可以成为政策制定或改革的依据。尤其是在指数中排名落后的国家，指数通过媒体传播形成民意压力。利益团体可以利用评估指数提供的信息要求制度变革。同时，通过长期对政策和机构进行监测和评估，成功的指数可以在一定程度上使评估对象内化其评价标准，为避免评分降级而进行自我规范。此外，评估指数通过比较形成跨国压力，进而影响国际合作、投资和援助。

要真正引导政策变化，形成压力是必要条件，但不是充分条件。在压力之下，评估对象还需要具体的政策指导才能最终完成政策变革。尽管近十年来的指数研究已经注意到对政策实务的指导性，但现有指数仍然多是对现状的测量和描述。既缺乏对因果关系的挖掘，也难以直接转化为政策依据。高度抽象化的评估指标也许可以描述何为“善治”，但无法告诉实践者如何获得“善果”。例如，脆弱国家指数通过贫困、冲突等指标测量一国的脆弱程度，但这些指标难以用来指导高度脆弱国家或其他相关主体通过何种举措或干预来改善该国的脆弱性。尽管世界各国都认识到与制度运行相关的政策依据对于决策和治理的重要性，并且随着技术进步，数据的数量和质量也在不断增加，但生成、收集、合成和使用指数为决策提供信息仍然存在困难。决策者要从大量复杂的信息中识别对政策有用的数据，理解数据的意义，与自身政策环境相结合，无疑是非常困难的。

结论：善治的引导抑或政治的规训

指数以数字反映现象，数字本身是中立的，但当指标被用于揭示问题、指导决策时，这些数字就具有了价值判断和政治性，反映出指数生产者以及消费者的理念和目标。政治评估指数尤其体现了数字的客观性与指向的政治性之间的紧张关系。政治评估指数究竟揭示的是政治世界的真相和理想愿景，还是个别国家或组织规训他国的“科学化”工具？显然，在现有的指数版图中，两种性质同时存在，而其存在的合理性就在于二者微妙的平衡——以知识提供规范的权力。三十年间的迅速发展反映了世界对于政治评估指数旺盛的需求。同时，能够获得普遍认可、有效回应各种批评并指导政策实践的新型政治评估指数仍在孕育之中。

21世纪已经进入第三个十年，全球治理框架在多种力量的共同作用下正在动态中逐渐形成。虽然传统的权力主体仍然主导着国际政治，但无论学术界还是实务界，都已经意识到多种隐形权力以微妙的方式影响着国家间的权力分配。政治评估指数正是以这样一种形式影响甚至改变着全世界关于制度、规范、绩效与发展的观念，以非强制性却有效的方式规范着全世界，引导决策者的政策行为和公众舆论。这些指数不仅是对实践或现象的测量和描述，更重要的是对评估目标施加压力，施加指数背后的意识形态和价值准则。

本文介绍的三类政治评估指数，其评估内容、目的和影响范围各有侧重，发展方向也不尽相同。政治制度评估指数要拓展其影响范围，获得更为广泛的认可，应超越旧有政治理论的窠臼，关照当今世界的发展现实，以更加开放包容的标准评估全球多样化的制度设定。政治规范评估指数要避免成为“抹黑”的工具，要有效倡导政治道德，其评估专家和标准都应更加客观中立。“点名”和“批评”是政治规范指数发挥影响力的有效方法，但无论是“点名”还是“批评”，都需建立在客观事实的基础上，避免成为诋毁“他者”的托词，才能受到评估对象的接受和认可，真正将道德规范内化进制度的设定和运行中。最后，考察治理绩效的评估指数应发展更加有效的评估方法，提高数据的收集、加工和分析的技术水平，真正以高度精练的数字准确反映复杂的治理实践。

总体来说，无论是现有指数的升级发展还是推陈出新构建新一代指数，增加包容性、客观性和有效性的目的都是提高指数的影响力。在政治评估指数的主要受众，即学术界、一般公众和政策实务界中，后二者更难突破，又正是指数最重要的影响对象，可以说，指数所带来的权力正是源于对这两个群体的影响。要提高对一般公众的影响力，在不损失科学性的前提下，应注意提高指数的用户亲和性，增加对公共关系的投入，与传统媒体合作或运营新媒体传播，以多种形式提高公共曝光率。对于政策实务界，则应增加合作互动，在收集第一手信息的同时也了解实务界的需求，让数据能够更加直接的指导实践，弥合指数与政策实践的鸿沟。

中国作为全球治理的积极倡导者和推动者，在构建制度性话语权的过程中，应该更积极地参与全球政治评估指数的建构，对中国成功的政治发展经验和制度建设做法进行学理化、普遍化研究，以形成基于中国经验同时关照广大发展中国家政治发展前景的评估指数体系，推动全球政治评估指数版图的多样化。客观地说，目前，中国在全球政治评估体系中，仍然处于非常被动的状态。尽管近年来，许多中国学者进行了探索性研究，尝试建立新的政治评估体系，但效果并不理想。这在一定程度上是由于我们对现有的全球政治评估指数仍然缺乏系统的理解和充分的分析，本文正是期望能够于此做出微薄的贡献。

注释：

①Clifford W.Cobb,Craig Rixford,Lessons Learned From The History Of Social Indicators,San Francisco:Redefining Progress,1998.

②奥代德·勒文海姆著，朱剑编译：《考核国家：国际“治理指数”的福柯式视角》，《探索》2016年第4期。

③Princeton University library,"Political & Governance Indicators",https://libguides.princeton.edu/politics/indicators,2022-09-24.

④Simon Bell,Stephen Morse,Sustainability Indicators:Measuring the Immeasurable?,London:Earthscan,2008.

⑤Stephanie E.Trapnell,"Actionable Governance Indicators:Turning Measurement Into Reform",Hague Journal on the Rule of Law,Vol.3,No.2,2011,pp.317-48; Tero Erkkil,"Global Governance Indices as Policy Instruments:Actionability,Transparency and Comparative Policy Analysis",Journal of Comparative Policy Analysis:Research and Practice,Vol.18,No.4,2016,pp.382-402.

⑥Hazel Feigenblatt,"Governance Indicators and the Broken Feedback Loop Leveraging Communications for Impact",in Helmut K.Anheier,Matthias Haber,Mark A.Kayser(eds.),Governance Indicators:Approaches,Progress,Promise,New York:Oxford University Press,2018,pp.315-349.

⑦Center for Systemic Peace,"The Polity Project:About Polity",https://www.systemicpeace.org/polityproject.html,2022-08-24.

⑧Adam Johnson,"Vox's CIA-Backed 'Democracy' Standard Is OK With Slavery and Women Not Voting",Fairness & Accuracy in Reporting,https://fair.org/home/voxs-cia-backed-democracy-standard-is-ok-with-slavery-and-women-not-voting/,2022-08-24.

⑨V-Dem,"The V-Dem Project:About the Project and Methodology",https://www.v-dem.net/project.html,2022-08-24.

⑩Staffan I.Lindberg,Jan Teorell,Michael Coppedge,John Gerring et al.,"V-Dem:A new way to measure democracy",Journal of Democracy,Vol.25,No.3,2014,pp.159-169.

(11)USAID,"FY 2021 USAID Journey to Self-Reliance Country Roadmap Methodology Guide",https://roadmaps.usaid.gov/docs/FY_2021_USAID_Journey_to_Self-Reliance_Country_Roadmap_Methodology_Guide.pdf,2022-08-24.

(12)EIU,"Democracy Index 2020:In Sickness and in Health?",https://www.eiu.com/n/campaigns/democracy-index-2020/,2022-08-24.

(13)Peter Tasker,"The Flawed 'Science' behind Democracy Rankings",Nikhei Asia,https://asia.nikkei.com/NAR/Articles/Peter-Tasker-The-flawed-science-behind-democracy-rankings,2022-08-24.

(14)Freedom House,"About the Report",https://freedomhouse.org/report/freedom-world,2022-08-20.

(15)Freedom House,"Financial Statements",https://freedomhouse.org/sites/default/files/2021-05/Freedom_House_FY2020_Audited_Financial_Statements.pdf,2022-08-20.

(16)Tim Büthe,"Beyond Supply and Demand:A Political-Economic Conceptual Model",in Davis,Fisher,Kingsbury,Merry(eds.),Governance by Indicators:Global Power through Classification and Rankings,Oxford:Oxford University Press,2012,p.50; Matthias Haber,Olga Kononykhina,"A Comparative Classification and Assessment of Governance Indices",in Helmut K.Anheier,Matthias Haber,Mark A.Kayser(eds.),Governance Indicators:Approaches,Progress,Promise,pp.11-42.

(17)Wouter P.Veenendaal,"Democracy in Microstates:Why Smallness Does Not Produce a Democratic Political System",Democratization,Vol.22,No.1,2015,pp.92-112.

(18)The World Justice Project,"Rule of Law Index 2020",https://worldjusticeproject.org/sites/default/files/documents/WJP-ROLI-2020-Online_0.pdf,2022-06-21.

(19)Transparency International,"Who Support Us",https://www.transparency.org/en/the-organisation/who-supports-us,2022-06-22.

(20)Transparency International,"Our Story",https://www.transparency.org/en/our-story,2022-06-22.

(21)Dan Hough,"Here's this Year's(Flawed) Corruption Perception Index.Those Flaws are Useful",The Washington Post,2016-01-27.

(22)Alex Cobham,"Corrupting Perceptions",Foreign Policy,2013-07-22.

(23)Institute for Economics & Peace,"About",https://www.economicsandpeace.org/about/,2022-01-31.

(24)Institue for Economics & Peace,"Global Peace Index 2021",https://www.economicsandpeace.org/wp-content/uploads/2021/06/GPI-2021-web.pdf,2022-01-31.

(25)Jay Ulfelder,"The Trouble with Combining,or Why I'm Not Touting the Global Peace Index",https://dartthrowingchimp.wordpress.com/2012/06/12/the-trouble-with-combining-or-why-im-not -touting-the-global-peace-index/,2022-01-31.

(26)The World Bank,"The World Bank's Country Policy and Institutional Assessment:An IEG Evaluation",https://openknowledge.worldbank.org/handle/10986/13547,2022-01-21.

(27)World Bank,"Information Note:The World Bank's Harmonized List of Fragile Situations",https://www.worldbank.org/content/dam/Worldbank/document/Fragilityandconflict/FragileSituations_Information％20Note.pdf,2022-01-21.

(28)The World Bank,"The World Bank's Country Policy and Institutional Assessment:An IEG Evaluation",https://openknowledge.worldbank.org/handle/10986/13547,2022-02-21.

(29)FFP,"Who We are",https://fundforpeace.org/who-we-are/,2021-12-20.

(30)FFP,"From Failed to Fragile:Renaming the Index",https://fundforpeace.org/2014/06/24/from-failed-to-fragile-renaming-the-index/,2021-12-20.

(31)Lionel Beehner,Joseph Young,"Is Ranking Failed or Fragile States a Futile Business?",The Washington Post,2014-07-14,https://www.washingtonpost.com/news/monkey-cage/wp/2014/07/14/is-ranking-failed-or-fragile-states-a-futile-business/,2011-12-21; Miles M.Evers,"The Fatally Flawed Fragile States Index",The National Interest,https://nationalinterest.org/blog/the-buzz/the-fatally-flawed-fragile-states-index-10878,2021-12-25.

(32)WGI,"Introduction",https://info.worldbank.org/governance/wgi/Home/Documents#doc-intro,2021-12-26.

(33)World Bank,"Worldwide Governance Indicators",https://info.worldbank.org/governance/wgi/,2021-12-26.

(34)Kaufmann D.,Kraay A.,"Governance Indicators:Where Are We,Where Should We Be Going?",World Bank Policy Research Working Papers,https://elibrary.worldbank.org/doi/abs/10.1596/1813-9450-4370,2021-12-26.

(35)Daniel Kaufmann,Aart Kraay,"Growth Without Governance",World Bank Policy Research Working Papers,2002,https://ssrn.com/abstract=316861,2021-12-26; Daniel Kaufmann,Aart Kraay,Massimo Mastruzzi,"Governance Matters VI:Governance Indicators for 1996-2006",World Bank Policy Research Working Paper,https://ssrn.com/abstract=999979,2021-12-26; Marcus J.Kurtz,Andrew Schrank,"Growth and Governance:Models,Measures,and Mechanisms",Journal of Politics,No.69,2007,pp.538-554.

(36)MCC,"Who We Select:Control of Corruption Indicator",https://www.mcc.gov/who-we-select/indicator/control-of-corruption-indicator,2021-12-27.

(37)Anna Persson,Bo Rothstein,Jan Teorell,"Why Anticorruption Reforms Fail-Systemic Corruption as a Collective Action Problem",Governance,Vol.26,No.3,2012,pp.449-471.

(38)Laura Langbein,Stephen Knack,"The Worldwide Governance Indicators:Six,One,or None?",Journal of Development Studies,Vol.46,No.2,2010,pp.350-370.

(39)M.A.Thomas,"What Do the Worldwide Governance Indicators Measure?",European Journal of Development Research,Vol.22,No.1,2009,pp.31-54.

(40)世界银行：《我们是谁》，https://www.shihang.org/zh/what-we-do,2022-01-03。

(41)Don Cohen,Bruno Laporte,"The Evolution of the Knowledge Bank",https://web.worldbank.org/archive/website01537/WEB/IMAGES/EVOLUTIO.PDF,2022-01-03.

(42)Center for Systemic Peace,"Our Mission",http://www.systemicpeace.org/mission.html,2022-01-04.

(43)Freedom House,"About Freedom in the World",https://freedomhouse.org/report-types/freedom-world,2022-01-04.

(44)Diana Crane,Invisible Colleges,Chicago:University of Chicago Press,1972.

(45)Rush Doshi,Judith G.Kelley,Beth A.Simmons,"The Power of Ranking:The Ease of Doing Business Indicator and Global Regulatory Behavior",International Organization,Vol.73,No.3,2019,pp.611-643.

(46)Pierre Bourdieu,"Social Space and Symbolic Power",Sociological Theory,Vol.7,No.1,1989,pp.14-25.

(47)Kevin E.Davis,Sally Engle Merry,Benedict Kingsbury,The Quiet Power of Indicators:Measuring Governance,Corruption,and the Rule of Law,Cambridge:Cambridge University Press,2015.

(48)Ian Johnstone,"The Power of Interpretive Communities",in Michael Barnett,Raymond Duvall(eds.),Power in Global Governance,Cambridge:Cambridge University Press,2005,p.187.

(49)John G.Adair,"The Hawthorne Effect:A Reconsideration of the Methodological Artifact",Journal of Applied Psychology,Vol.69,No.2,1984,pp.334-45.

(50)Wendy Nelson Espeland,Michael Sauder,"Rankings and Reactivity:How Public Measures Recreate Social Worlds",American Journal of Sociology,Vol.113,No.1,2007,pp.1-40.

(51)Kathryn Sikkink,"Human Rights,Principled Issue-Networks,and Sovereignty in Latin America",International Organization,Vol.47,No.3,1993,pp.411-412.

(52)R.Charli Carpenter,"Vetting the Advocacy Agenda:Network Centrality and the Paradox of Weapons Norms",International Organization,Vol.65,No.1,2011,pp.69-102.

(53)Charles P.Oman,Christiane Arndt,Uses and Abuses of Governance Indicators,Paris:OECD,2006; Romina Bandura,"A Survey of Composite Indices Measuring Country Performance:2008 Update",UNDP/ODS Working Paper,New York:UNDP,2008; Robert I.Rotberg,On Governance:What It Is,What It Means and Its Policy Uses,Waterloo,ON:Centre for International Governance Innovation,2015; Helmut K.Anheier,Matthias Haber,Mark A.Kayser(eds.),Governance Indicators:Approaches,Progress Promise.

(54)Alan Thomas,"Development as Practice in a Liberal Capitalist World",Journal of International Development,Vol.12,No.6,2000,pp.773-787.

(55)Matthias Haber,Olga Kononykhina,"A Comparative Classification and Assessment of Governance Indices",in Helmut K.Anheier,Matthias Haber,Mark A.Kayser(eds.),Governance Indicators:Approaches,Progress,Promise,2018,pp.11-42.

张萌萌杨雪冬：测量抑或规训：对政治评估指数的评估

小程序 | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

张萌萌 杨雪冬：测量抑或规训：对政治评估指数的评估

小程序 | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

张萌萌杨雪冬：测量抑或规训：对政治评估指数的评估