严洁：政治学研究中的抽样调查

政治学抽样调查面临概念抽象、复杂，难以测量，理论家假设关系结构复杂等难点。对此，学者们提出了一些创新型的解决方案，为政治学抽样调查的精准化积累了有益经验。

政治学抽样调查的难点与问题

（一）概念抽象、复杂、宏观，产生测量误差问题

抽样调查用结构化的问卷采集数据，形成结构化的问卷需要对概念进行操作化处理。政治学研究中的概念和其他社会科学中的概念相比具有更为抽象、复杂、宏观的特点。将这些概念写成问卷题目，形成可定量测量的变量，具有非常大的难度。研究者在设计问卷时通常会遇到以下问题：

1、概念定义不明确。民主、清廉等概念用任何单一的题目都无法准确获得人们对这个概念的完整理解。

2、负担过重，难以理解或回答。专业词汇、过长量表、过长题干、逻辑复杂等带来的难以理解和难以回答等。

3、易发诱导。政治学中有争论性的观点较多，在设计上若没有提供平衡的选择，则会诱导受访者。

4、产生评价参照系偏差。政治学研究比较关注政府行为和公共政策绩效，评价类的题目如果在没有一致参照系的情况下，直接使用原始测量得来的数据进行分析会导致估计偏差。

5、产生社会期许偏差。政治学研究中诸多政治支持、政治信任等题目及敏感题目测量的内容已经形成一般社会规范，受访者迫于规范压力，倾向于回答出社会所希望的行为，造成社会期许偏差。

（二）依赖面访调查和概率抽样，产生成本高昂问题

抽样调查常用面对面访问、电话访问、网络访问、集中自填问卷等。由于政治学研究中的理论假设通常具有复杂关系结构，需要依赖成本高昂的面访调查来实现。

另一方面，由于机构统计数据、网络大数据不够丰富，所以依赖概率抽样调查，而这则需要构建地址抽样框以避免覆盖偏差问题，在此过程中会产生额外成本。

（三）受访者对政治不感兴趣，产生高比例无应答问题

多数受访者对政治话题或者政治行为不感兴趣，对政治学主题的问卷调查也相应地表现出更高比例的无应答，这通常会产生估计偏差。

在问卷设计方面的创新方法

近年来政治学者在精准测量方面做出了许多努力，包括：1、为避免多选题首位效应，将题目选项进行随机化排列；2、为解决抽象概念难以理解问题，使用虚拟情境测量法、列举法、层层递进法等；3、为解决敏感问题、社会期许偏差问题，使用列举实验法；4、为解决评价参照系偏差，使用虚拟情境锚定法等。在这些努力中，识别和控制社会期许偏差、评价参照系偏差方面取得的进展值得关注。

（一）社会期许偏差及其识别与控制

对于可能产生社会期许回答的题目，研究者在编写问卷时采用的列举实验法和随机化回答技术具有创新意义，列举实验法还在不断热议和改进中。

1、列举实验法（条目技术方法）。列举实验要求受访者报告条目（即题目中的选项）总数而非具体条目来降低受访过程中其感受到的社会压力。需将受访者随机分为实验组和对照组。研究者在问卷中给对照组提供n个条目，给实验组提供n+1个条目，请受访者直接回答条目总数，不需要回答具体是哪个条目。增加的条目就是研究者认为有可能带来社会期许回答的关键条目。

2、随机化回答技术。其基本特点是让受访者随机地在一个可能产生社会期许回答的题目和一个不会产生社会期许回答的题目中自行选择回答哪个题目，从而减少其面对访员的“社会在场”带来的回答压力，然后用两组的差异来估计真实回答的比例和标准误。除此之外，随机化回答的传统方法还有沃纳随机化模型、西蒙斯随机化模型、Fox和Tracy模型等。

（二）评价参照系偏差及其识别与控制

应对评价参照系偏差的办法是给受访者设计统一的参照系。近年出现的虚拟情境锚定法具有明显的创新价值。这种方法是将虚拟情境法和评价参照系相结合，发挥二者的优势来解决抽样、复杂概念的测量问题。这种方法在使用的过程中必须经过多轮测试调查，以便将设计者和受访者之间的理解偏差尽可能降低。

降低抽样成本的创新方法

为了避免覆盖偏差，通常采用分层、多阶段、概念与规模成比例的地址抽样，抽取县级行政单位作为初级抽样单位，再抽取次级抽样单位如村委会或居委会，之后抽取住宅地址。

（一）以空间单元代替行政区划作为抽样单位

常用的次级抽样单位有两种类型：一类是村委会或居委会/社区，另一类是以经度和纬度确定出来的空间单元。已经被使用的空间单元为“半分格”，即以空间上的30秒经度和30秒纬度构成的单元格。后者可以在不违反抽样科学性、不降低抽样精度的前提下降低抽样成本和实施难度，已在多项国际调查项目中得到采纳和推广。

（二）以夜间灯光亮度作为规模度量

DMSP/OLS夜间灯光数据是研究人类活动的良好数据源，已被应用在许多研究领域。该数据可从美国国家地球物理数据中心网站免费下载。近年，使用半分格作为抽样单位的方法以夜间灯光亮度作为半分格的规模度量，代替了以往人力估算半分格人口密度的方法，大大降低了成本。

利用并行数据提高调查质量，处理无应答的创新方法

（一）以并行数据控制访员效应

在抽样调查的数据采集过程中，如何避免访员效应至关重要。访员效应是指由访员差别带来的调查结果差异，其来源除了性别、个性特征等不可变因素外，也来源于访员的不规范访问行为，如非随机抽样、不规范访问、不规范操作等。如果不能有效消除系统性的访员效应，可能会直接危害研究者事后的统计推论和因果关系识别。

在政治学抽样调查中，应用并行数据可以有效识别访员效应，可以在调查过程中及时地纠正访员的不规范行为，从而提高调查质量。并行数据是指关于调查过程的数据，与问卷数据同期采集。计算机辅助调查模式的兴起带来了丰富的并行数据。

（二）以并行数据处理无应答

无应答在数据分析时多数被认定为缺失值。受访者“对调查的兴趣”“对题目的理解能力”等并行数据是进行缺失值多重插补的不可缺少的辅助变量，在调查过程中应该采集这些数据，从而提高推断精确度。此外，在调查过程中利用并行数据、问卷数据和相关统计数据构建应答代表性指标也可以降低无应答误差带来的不良影响。

未来五至十年面临的挑战

在未来五至十年，调查数据的因果关系识别方法将取得长足发展，而概念操作化、抽样和调查执行、数据库建设和使用等三个方面仍存在一些挑战。

在概念操作化方面，对复杂、抽样概念的精准测量，跨文化概念的可比性，本土化测量等会是比较严峻的挑战。

在抽样和调查执行方面，挑战仍来自抽样成本和无应答。对于前者，使用更为丰富的GPS、GIS地图成为新的研究方向。对于后者，受访者驱动的抽样方式在尝试打破概率抽样的界限。

最后，在数据库建设和使用方面，学界正在努力建设共享数据平台，开放数据源逐渐增多，数据的整合会存在一定挑战。这里要实现的整合不是简单地在平台上存储数据源，而是要实现多源、异构数据的整合，多主体跨库、跨平台检索与调用，以及对重复性调查数据的深度挖掘、对调查数据与并行数据的结合研究等。

本文原载于《政治学研究》2018年第3期。

严洁：政治学研究中的抽样调查

小程序 | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏