陈峥:全数据模式的幻象与网络大数据的代表性

选择字号:   本文共阅读 141 次 更新时间:2020-04-21 01:32:34

进入专题: 全数据模式   网络大数据  

陈峥  

   内容提要:大数据时代为计算社会科学的发展提供了契机。有一种观点认为,由于大数据是“样本=总体”,因此它不存在采样偏差和数据代表性问题。虽然大数据驱动下的社会科学研究取得诸多成果,但也有不少失败的案例,对这些案例进行分析可见,“总体数据”是相对于具体的研究对象和研究问题而言的,大数据时代并不能保证社会科学开展全数据模式研究。数字鸿沟、用户偏好等客观存在的问题,使网络大数据往往是用户自我选择样本。在很多情况下,“全数据模式”只是缺乏深思明辨而勾勒出的一幅幻象,社会科学研究者应对此具备清醒的认识,方能作出高质量的研究。

   关 键 词:大数据/数据代表性/数字鸿沟/用户偏好

   项目基金:国家社会科学基金重大项目(16ZDA086)。

   互联网、移动互联网、物联网产生的海量数据将人类引入大数据时代,三大网络每分每秒都在生成、采集人类的行为数据。这对于社会科学的研究(尤其是实证研究),无疑是一件令人惊喜的事情。它所获取的海量数据,用传统的方法(如问卷调查)是无法做到的。例如,社交平台脸书(facebook)每日产生100亿条信息、450亿次点赞,有3.5亿张新图片被上传[1],其数据仓库存储了超过300PB的数据,并且以每日新增600TB的速度增长[2];早在2013年,搜索引擎服务提供商——百度就称其每天处理100PB以上的数据,每天响应的请求数量在百亿级,产生的搜索日志数量达到1TB。[3]

   丰富的网络数据资源加上新的数据处理技术,使基于大数据的知识发现迅速成为社会科学中计算的核心内容。社会科学家们纷纷运用网络大数据进行创新性研究。例如,运用脸书、推特、微博等数据来探寻人类行为的规律、社会心态的变化,等等。一时间,此类研究所使用数据的体量是否巨大、所运用的数据处理技术是否新颖等问题成为大家关注的焦点。丹·博伊德与凯特·克劳福德指出:“(大家)围绕针对推特研究的讨论,集中于可供使用的推特数据的体量这一问题上。”[4]所以,虽然大数据的优势很明显,但其是否能够完美地满足社会科学研究所需数据的要求,却少有人对之深入思考。

  

   一、大数据:社会科学研究的全数据模式时代到来了吗?

   2012年,维克托·迈尔-舍恩伯格、肯尼斯·库克耶合著的《大数据时代:生活、工作与思维的大变革》提出,大数据时代的一个思维变革,是要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。过去,由于收集和分析数据受客观条件的限制,所以采用了随机采样的方法,但这只是一条捷径,是在难以收集和分析全部数据情况下的选择,它本身存在许多缺陷。而在大数据时代,在很多领域,从收集部分数据到收集尽可能多的数据的情况已经发生。如果可能的话,我们会收集所有的数据,即“样本=总体”。[5](P37)对于舍恩伯格和库克耶所讲的话,有两点需要注意:一是“在很多领域”而非“在所有领域”;二是目前还只是一种可能性,而非完全做到。因此,其合理的结论只能是:在很多领域,如果可能的话,我们要分析与某事物相关的所有数据,而不是依靠少量的数据样本。但是,舍恩伯格和库克耶接下来作了一个乐观的估计:“在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。”[5](P43)或许正是基于这种乐观的估计,他们将大数据定义为:“不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。”[5](P39)显而易见,舍恩伯格和库克耶的逻辑是不严密的,既然还只是“在很多领域”与“如果可能”的情况下,能够做到“样本=总体”,那么,在一些还不可能收集相关的所有数据的领域,是否就意味着不论其获得的数据的体量有多大,数据的模式结构有多复杂,数据的动态增加有多快,都不能算是大数据?事实上,被舍恩伯格和库克耶确定为大数据的谷歌搜索数据,也不是收集到严格意义上的所有数据,因为谷歌虽然在搜索市场占有率第一,但依然有用户在使用微软“必应”①等搜索引擎。那么,谷歌搜索数据也不能算作大数据吗?所以,舍恩伯格和库克耶的定义无疑会引起大数据概念的混乱,但百度百科、360百科、互动百科皆收录了他的定义,正持续产生广泛的影响。

   舍恩伯格和库克耶认为:“社会科学是被‘样本=总体’撼动得最厉害的学科。随着大数据分析取代了样本分析,社会科学不再单纯依赖于分析经验数据。这门学科过去曾非常依赖样本分析、研究和调查问卷。而现在,我们可以收集过去无法收集到的信息,不管是通过移动电话表现出的关系,还是通过推特信息表现出的感情。更重要的是,现在我们也不再依赖抽样调查了。”[5](P42)这样的表述,让人不得不理解其言下之意是,在社会科学领域,我们已经完全能够(至少是即将完全能够)收集、分析与某事物相关的所有数据,而不是依靠少量的数据样本。所以,尽管《大数据时代:生活、工作与思维的大变革》只是一本普通的畅销书,并非严谨的学术著作,但依然成为很多社会科学研究者的心灵鸡汤。笔者发现,近几年社会科学界对大数据的概念存在以下几种误解。

   1.随着大数据时代的到来,“一切皆可数据化”,社会科学可以获得研究所需的“总体数据”,全数据模式正在开启。

   2.由于大数据是“样本=总体”或至少是“样本接近于总体”的数据,因此,它不存在采样偏差和数据代表性问题。传统的问卷调查法将被大数据的获取方法彻底取代。

   3.信息技术的进步使计算能力得到巨大提升,因此对“所有数据”的分析将成为主导性甚至唯一的方法。

   然而,事实果真如此吗?社会科学研究的全数据模式时代真的已经全面到来了吗?抽样调查真的会像汽车时代的马匹一样退出历史舞台吗?

  

   二、挫折与反思:大数据研究的失败案例说明了什么?

   大数据驱动下的社会科学研究取得了一系列令人眼界大开的成果,但同样也有足以促人反思的问题。一个典型案例是对英国脱欧的预测。

   2016年英国脱欧公投是一件关系重大的选择,因此,有许多机构或运用传统方法或基于大数据的获取与分析,对公众态度进行研究,以预测投票结果。

   采用传统民意调查方法的研究,基本都预测投票结果将是留欧。例如,2016年初,英国市场和民意调查机构依普索·莫瑞(Ipsos Mori)对抽取的514名英国成年人进行的电话调查显示,有50%的受访者支持留欧,有38%受访者支持脱欧,有12%的人摇摆不定[6];英国政治学会针对包括学者、新闻记者、民意测验专家等在内的专家群体进行了在线问卷调查,共计发放电子问卷2,031份,回收596份。有87%的受访学者支持留欧,而支持留欧的新闻记者的比例更是达到97%,专家群体对投票结果的预测是55%的选民将投票留欧。[7]也就是说,不论是针对普通人,还是针对专家群体的抽样调查,其结果都指向留欧。但是,实际投票结果却是留欧与脱欧的得票率分别为48.1%与51.9%,宣告传统民意调查方法预测失败,那么失败的原因何在呢?

   从投票结束之后公布的支持留欧者与支持脱欧者的年龄与阶层构成来看,前者主要是年轻人、精英或者白领阶层;后者主要是中老年人以及普通劳工等蓝领阶层。围绕经济民生这一核心议题,前者认为,随着欧盟扩张而大量涌入的“穷亲戚”——东欧移民——能够带来人口红利,降低生产成本,从而带动GDP上升;而后者则认为移民会挤占就业机会,瓜分社会福利。在经济停滞不前的大背景下,就业与社会福利的蛋糕本就不大,移民的到来威胁到他们的切身利益。使用传统方法之所以预测失准,主要原因是未能充分接触蓝领阶层而导致了采样偏差,使调查样本不能很好地代表投票群体。而要避免这种采样偏差是相当困难的,因为这意味着要在调查问卷发放前就要准确判断出不同人群的投票率。既然传统方法在这项研究中难以避免采样偏差,那么,大数据的获取与分析能否有效弥补传统方法的缺陷呢?

   有学者利用大数据分析预测框架对英国脱欧公投的结果进行了预判。研究采用TRUST法(topic retrieved,uncovered and structurally tested)。具体做法是:对新闻报道进行文本挖掘与分析,析出与英国脱欧相关的主题词,譬如经济、安全、移民等,再运用谷歌对基于这些主题词的网络检索行为进行跟踪,同时结合主流民意调查机构的数据进行统计分析,最终得出留欧和脱欧阵营的得票区间分别为50.1%~53.6%与46.4%~49.7%,平均得票率分别为52%与48%。[8]该预测与运用传统方法进行的预测出现了相似的偏差,缘由为何呢?

   首先,海量的在线新闻和谷歌搜索数据虽然是大数据,但对于该项分析研究而言,它不是关于研究对象的“总体数据”。该研究的对象是可能参加投票的英国公民,但这一群体并不都是网民,非网民群体在研究中必然被排除在外。

   其次,互联网作为一种新兴媒体,其政治效能越来越被社会精英群体所认识和重视,他们中很多人必然利用互联网制造符合自己主张(留欧)的舆论态势;同时,作为互联网原住民的年轻人(尤其是大学生)更习惯于利用网络获取信息,更喜欢参与网络造势,这使得网络新闻中留欧的声音往往是主流,搜索指数也会偏向留欧。而不少中老年人、蓝领阶层往往线上沉默,线下活跃,他们较少受网络新闻、意见领袖的影响,也较少在互联网上留下行为踪迹,但这一群体中很多人投票意向笃定。这便导致了留欧在网络中的声势虽大但却在投票中失利的结果。

   可见,此研究采集的在线新闻与搜索数据只能很好地代表活跃网民,而不能代表有投票意愿的英国公民。在脱欧预测失败之后,基于大数据分析的美国大选投票结果预测也以失败告终。已有研究指出,预测失败的重要原因之一是其落入了“代表性陷阱”。虽然网络搜索数据、社交媒体数据等都是典型的大数据,若基于此而预测大选结果,却绝对不是所谓的“样本=总体”,因为网民≠选民;即便在网民中,不同的偏好、特性、体验、使用习惯等因素同样会削弱数据的代表性。[9]

   从上述案例可以看出,虽然大数据时代可以使我们获得比以往更多的信息资料,但并不能保证社会科学就可以开展全数据模式的研究。

  

   三、鸿沟难填:信息时代的数字不平等

   “总体数据”“全数据模式”是相对于具体的研究对象和研究问题而言的,舍恩伯格和库克耶的相关论述混淆了这些概念。他们举一案例解释:“艾伯特·拉斯洛·巴拉巴西和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是由一个为全美1/5的人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于‘样本=总体’的数据资料进行的网络分析。”[5](P42)在此案例中,研究对象是人,研究问题是人与人之间的互动,而移动通信仅仅是众多互动方式的一部分,因此,作者所说的移动通信记录绝不能视为人与人之间互动的总体数据;美国并不止这一家无线运营商,全美也并非只有1/5人口使用移动通信,因此,一家无线运营商提供的记录绝不能视为美国人移动通信的总体数据;更何况,只调查了四个月内的所有移动通信记录,其实连全美1/5人口移动通信互动的总体数据都算不上,怎么能把它当作总体样本呢?此案例中只表明已经收集到的数据的全部,但相对于研究对象和研究问题而言,这些数据仍然是一个样本——达到了大数据体量的样本。

(点击此处阅读下一页)

    进入专题: 全数据模式   网络大数据  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 社会学 > 社会思想与理论
本文链接:http://www.aisixiang.com/data/120947.html
文章来源:《天津师范大学学报:社会科学版》2019年第4期

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2020 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
工业和信息化部备案管理系统