陈峥:全数据模式的幻象与网络大数据的代表性

选择字号:   本文共阅读 641 次 更新时间:2020-04-21 01:32

进入专题: 全数据模式   网络大数据  

陈峥  

内容提要:大数据时代为计算社会科学的发展提供了契机。有一种观点认为,由于大数据是“样本=总体”,因此它不存在采样偏差和数据代表性问题。虽然大数据驱动下的社会科学研究取得诸多成果,但也有不少失败的案例,对这些案例进行分析可见,“总体数据”是相对于具体的研究对象和研究问题而言的,大数据时代并不能保证社会科学开展全数据模式研究。数字鸿沟、用户偏好等客观存在的问题,使网络大数据往往是用户自我选择样本。在很多情况下,“全数据模式”只是缺乏深思明辨而勾勒出的一幅幻象,社会科学研究者应对此具备清醒的认识,方能作出高质量的研究。

关 键 词:大数据/数据代表性/数字鸿沟/用户偏好

项目基金:国家社会科学基金重大项目(16ZDA086)。

互联网、移动互联网、物联网产生的海量数据将人类引入大数据时代,三大网络每分每秒都在生成、采集人类的行为数据。这对于社会科学的研究(尤其是实证研究),无疑是一件令人惊喜的事情。它所获取的海量数据,用传统的方法(如问卷调查)是无法做到的。例如,社交平台脸书(facebook)每日产生100亿条信息、450亿次点赞,有3.5亿张新图片被上传[1],其数据仓库存储了超过300PB的数据,并且以每日新增600TB的速度增长[2];早在2013年,搜索引擎服务提供商——百度就称其每天处理100PB以上的数据,每天响应的请求数量在百亿级,产生的搜索日志数量达到1TB。[3]

丰富的网络数据资源加上新的数据处理技术,使基于大数据的知识发现迅速成为社会科学中计算的核心内容。社会科学家们纷纷运用网络大数据进行创新性研究。例如,运用脸书、推特、微博等数据来探寻人类行为的规律、社会心态的变化,等等。一时间,此类研究所使用数据的体量是否巨大、所运用的数据处理技术是否新颖等问题成为大家关注的焦点。丹·博伊德与凯特·克劳福德指出:“(大家)围绕针对推特研究的讨论,集中于可供使用的推特数据的体量这一问题上。”[4]所以,虽然大数据的优势很明显,但其是否能够完美地满足社会科学研究所需数据的要求,却少有人对之深入思考。


一、大数据:社会科学研究的全数据模式时代到来了吗?

2012年,维克托·迈尔-舍恩伯格、肯尼斯·库克耶合著的《大数据时代:生活、工作与思维的大变革》提出,大数据时代的一个思维变革,是要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。过去,由于收集和分析数据受客观条件的限制,所以采用了随机采样的方法,但这只是一条捷径,是在难以收集和分析全部数据情况下的选择,它本身存在许多缺陷。而在大数据时代,在很多领域,从收集部分数据到收集尽可能多的数据的情况已经发生。如果可能的话,我们会收集所有的数据,即“样本=总体”。[5](P37)对于舍恩伯格和库克耶所讲的话,有两点需要注意:一是“在很多领域”而非“在所有领域”;二是目前还只是一种可能性,而非完全做到。因此,其合理的结论只能是:在很多领域,如果可能的话,我们要分析与某事物相关的所有数据,而不是依靠少量的数据样本。但是,舍恩伯格和库克耶接下来作了一个乐观的估计:“在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。”[5](P43)或许正是基于这种乐观的估计,他们将大数据定义为:“不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。”[5](P39)显而易见,舍恩伯格和库克耶的逻辑是不严密的,既然还只是“在很多领域”与“如果可能”的情况下,能够做到“样本=总体”,那么,在一些还不可能收集相关的所有数据的领域,是否就意味着不论其获得的数据的体量有多大,数据的模式结构有多复杂,数据的动态增加有多快,都不能算是大数据?事实上,被舍恩伯格和库克耶确定为大数据的谷歌搜索数据,也不是收集到严格意义上的所有数据,因为谷歌虽然在搜索市场占有率第一,但依然有用户在使用微软“必应”①等搜索引擎。那么,谷歌搜索数据也不能算作大数据吗?所以,舍恩伯格和库克耶的定义无疑会引起大数据概念的混乱,但百度百科、360百科、互动百科皆收录了他的定义,正持续产生广泛的影响。

舍恩伯格和库克耶认为:“社会科学是被‘样本=总体’撼动得最厉害的学科。随着大数据分析取代了样本分析,社会科学不再单纯依赖于分析经验数据。这门学科过去曾非常依赖样本分析、研究和调查问卷。而现在,我们可以收集过去无法收集到的信息,不管是通过移动电话表现出的关系,还是通过推特信息表现出的感情。更重要的是,现在我们也不再依赖抽样调查了。”[5](P42)这样的表述,让人不得不理解其言下之意是,在社会科学领域,我们已经完全能够(至少是即将完全能够)收集、分析与某事物相关的所有数据,而不是依靠少量的数据样本。所以,尽管《大数据时代:生活、工作与思维的大变革》只是一本普通的畅销书,并非严谨的学术著作,但依然成为很多社会科学研究者的心灵鸡汤。笔者发现,近几年社会科学界对大数据的概念存在以下几种误解。

1.随着大数据时代的到来,“一切皆可数据化”,社会科学可以获得研究所需的“总体数据”,全数据模式正在开启。

2.由于大数据是“样本=总体”或至少是“样本接近于总体”的数据,因此,它不存在采样偏差和数据代表性问题。传统的问卷调查法将被大数据的获取方法彻底取代。

3.信息技术的进步使计算能力得到巨大提升,因此对“所有数据”的分析将成为主导性甚至唯一的方法。

然而,事实果真如此吗?社会科学研究的全数据模式时代真的已经全面到来了吗?抽样调查真的会像汽车时代的马匹一样退出历史舞台吗?


二、挫折与反思:大数据研究的失败案例说明了什么?

大数据驱动下的社会科学研究取得了一系列令人眼界大开的成果,但同样也有足以促人反思的问题。一个典型案例是对英国脱欧的预测。

2016年英国脱欧公投是一件关系重大的选择,因此,有许多机构或运用传统方法或基于大数据的获取与分析,对公众态度进行研究,以预测投票结果。

采用传统民意调查方法的研究,基本都预测投票结果将是留欧。例如,2016年初,英国市场和民意调查机构依普索·莫瑞(Ipsos Mori)对抽取的514名英国成年人进行的电话调查显示,有50%的受访者支持留欧,有38%受访者支持脱欧,有12%的人摇摆不定[6];英国政治学会针对包括学者、新闻记者、民意测验专家等在内的专家群体进行了在线问卷调查,共计发放电子问卷2,031份,回收596份。有87%的受访学者支持留欧,而支持留欧的新闻记者的比例更是达到97%,专家群体对投票结果的预测是55%的选民将投票留欧。[7]也就是说,不论是针对普通人,还是针对专家群体的抽样调查,其结果都指向留欧。但是,实际投票结果却是留欧与脱欧的得票率分别为48.1%与51.9%,宣告传统民意调查方法预测失败,那么失败的原因何在呢?

从投票结束之后公布的支持留欧者与支持脱欧者的年龄与阶层构成来看,前者主要是年轻人、精英或者白领阶层;后者主要是中老年人以及普通劳工等蓝领阶层。围绕经济民生这一核心议题,前者认为,随着欧盟扩张而大量涌入的“穷亲戚”——东欧移民——能够带来人口红利,降低生产成本,从而带动GDP上升;而后者则认为移民会挤占就业机会,瓜分社会福利。在经济停滞不前的大背景下,就业与社会福利的蛋糕本就不大,移民的到来威胁到他们的切身利益。使用传统方法之所以预测失准,主要原因是未能充分接触蓝领阶层而导致了采样偏差,使调查样本不能很好地代表投票群体。而要避免这种采样偏差是相当困难的,因为这意味着要在调查问卷发放前就要准确判断出不同人群的投票率。既然传统方法在这项研究中难以避免采样偏差,那么,大数据的获取与分析能否有效弥补传统方法的缺陷呢?

有学者利用大数据分析预测框架对英国脱欧公投的结果进行了预判。研究采用TRUST法(topic retrieved,uncovered and structurally tested)。具体做法是:对新闻报道进行文本挖掘与分析,析出与英国脱欧相关的主题词,譬如经济、安全、移民等,再运用谷歌对基于这些主题词的网络检索行为进行跟踪,同时结合主流民意调查机构的数据进行统计分析,最终得出留欧和脱欧阵营的得票区间分别为50.1%~53.6%与46.4%~49.7%,平均得票率分别为52%与48%。[8]该预测与运用传统方法进行的预测出现了相似的偏差,缘由为何呢?

首先,海量的在线新闻和谷歌搜索数据虽然是大数据,但对于该项分析研究而言,它不是关于研究对象的“总体数据”。该研究的对象是可能参加投票的英国公民,但这一群体并不都是网民,非网民群体在研究中必然被排除在外。

其次,互联网作为一种新兴媒体,其政治效能越来越被社会精英群体所认识和重视,他们中很多人必然利用互联网制造符合自己主张(留欧)的舆论态势;同时,作为互联网原住民的年轻人(尤其是大学生)更习惯于利用网络获取信息,更喜欢参与网络造势,这使得网络新闻中留欧的声音往往是主流,搜索指数也会偏向留欧。而不少中老年人、蓝领阶层往往线上沉默,线下活跃,他们较少受网络新闻、意见领袖的影响,也较少在互联网上留下行为踪迹,但这一群体中很多人投票意向笃定。这便导致了留欧在网络中的声势虽大但却在投票中失利的结果。

可见,此研究采集的在线新闻与搜索数据只能很好地代表活跃网民,而不能代表有投票意愿的英国公民。在脱欧预测失败之后,基于大数据分析的美国大选投票结果预测也以失败告终。已有研究指出,预测失败的重要原因之一是其落入了“代表性陷阱”。虽然网络搜索数据、社交媒体数据等都是典型的大数据,若基于此而预测大选结果,却绝对不是所谓的“样本=总体”,因为网民≠选民;即便在网民中,不同的偏好、特性、体验、使用习惯等因素同样会削弱数据的代表性。[9]

从上述案例可以看出,虽然大数据时代可以使我们获得比以往更多的信息资料,但并不能保证社会科学就可以开展全数据模式的研究。


三、鸿沟难填:信息时代的数字不平等

“总体数据”“全数据模式”是相对于具体的研究对象和研究问题而言的,舍恩伯格和库克耶的相关论述混淆了这些概念。他们举一案例解释:“艾伯特·拉斯洛·巴拉巴西和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是由一个为全美1/5的人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于‘样本=总体’的数据资料进行的网络分析。”[5](P42)在此案例中,研究对象是人,研究问题是人与人之间的互动,而移动通信仅仅是众多互动方式的一部分,因此,作者所说的移动通信记录绝不能视为人与人之间互动的总体数据;美国并不止这一家无线运营商,全美也并非只有1/5人口使用移动通信,因此,一家无线运营商提供的记录绝不能视为美国人移动通信的总体数据;更何况,只调查了四个月内的所有移动通信记录,其实连全美1/5人口移动通信互动的总体数据都算不上,怎么能把它当作总体样本呢?此案例中只表明已经收集到的数据的全部,但相对于研究对象和研究问题而言,这些数据仍然是一个样本——达到了大数据体量的样本。

“可以收集过去无法收集到的信息”不等于“可以收集到社会科学研究需要的所有信息”,轻率地认定社会科学研究“现在不再依赖抽样调查了”的结论,是不严谨的。事实上,在很多情况下,可资社会科学研究的大数据并非“总体数据”,因而同样存在数据代表性问题。而在互联网普及过程中出现的网络分化,则让这种状况在可预见的未来不可能从根本上得到改变。网络分化是指不同的社会群体能够享受到的互联网资源是不同的,在互联网的使用中获益程度之异同,是一种新形式的社会不平等。[10]

全球网络指数(global web index,GWI)的报告显示,截至2017年1月,作为世界第一大经济体、互联网发源地的美国,其互联网用户占整体人口的比例为86%。[11]但从全球范围来看,其他国家和地区则远远达不到如此高的覆盖率。全球人口约74.76亿,而互联网用户为37.73亿。[11]全球互联网普及率刚刚过半。

从我国的情况看,由于经济发展不平衡,在互联网的普及方面,存在显著的地区差异、城乡差异。《第41次中国互联网络发展状况统计报告》显示,截至2017年12月,中国网民的规模达7.72亿,互联网普及率为55.8%,但非网民规模仍然高达6.11亿。[12]在中国网民中,农村网民占比27.0%,规模为2.09亿。虽然近几年农村的互联网的发展速度较快,其普及率上升至35.4%,但仍低于城镇35.6个百分点。[12]

经济发展的不平衡不仅导致城乡之间的差异,还造成了明显的地域差异。互联网普及率从东部沿海发达地区向中西部欠发达地域呈梯次递减趋势。这些差异造成了“数字鸿沟”的存在,而填平“鸿沟”并非朝夕之事。由于“数字鸿沟”的存在,使针对不同研究对象、不同研究问题的社会科学研究在使用网络大数据时,会面临不同程度的数据代表性问题。例如,如果想要研究“知识北漂”关注什么,从社交媒体上获取具有较好代表性的数据是完全可能的;而如果是研究贫困山区的留守老人和留守儿童的心理状态,那还是采用传统的“田野调查”方法为宜。

除了网民与非网民之别,网民结构与人口结构的差异也存在数据代表性问题。从我国的情况看,仅网民的性别结构与实际人口性别比例基本相符,而年龄结构、职业结构等都存在不小的差距。在网民群体中,年龄在20~39岁的占53.5%;从职业来看,学生占到了25.4%。[12]这显然与人口统计的特征不符,必然会导致网络大数据的结构性偏差,在社会科学研究中应予以充分注意。例如,在互联网舆情研究中,必须认识到这一事实,即从社交媒体所获取的数据不能很好地代表50岁以上的人群。


四、用户偏好:数据生成的不均衡

即便随着社会的进步,互联网最终实现了全球范围内的高度普及,网络大数据的代表性依然是社会科学研究中必须认真考察的问题,因为互联网用户的异质性,必然导致他们在使用频率、需求程度、技能水平、信息素养等方面存在不同程度的差异;同时,由于社会分工、知识结构、兴趣爱好等方面的不同,决定了互联网用户不同的使用偏好。

有学者对2000年美国综合社会调查(GSS)的数据进行分析后,发现在美国互联网用户中,受教育程度高、收入高、认知测试成绩优异者更倾向于利用互联网“累积资本”,而非单单为了娱乐。[13]对瑞士1997-2000年互联网数据的研究也显示,受教育程度高、收入高的用户往往通过互联网获取有价值的信息,而社会经济地位较低者则更多地把互联网用于娱乐。[14]在中国的互联网应用层面,城乡网民在商务交易、支付、新闻资讯等使用率方面差异显著。[12]

互联网上有多种多样的信息工具和平台,但任何工具、平台都不可能囊括全部用户,它们都有自己的目标群体,这就意味着任何一种工具、平台都是一个特定的数据子集。以在线社交平台为例,据在线市场营销咨询机构智慧洞见(smartinsights.com)发布的《2017年全球社交媒体研究概要》显示,截至2017年1月,脸书(facebook)已拥有18.71亿活跃用户,稳居全球社交媒体排行榜第一,有79%的美国成年网民使用它;脸书旗下的瓦次普(whats app)、脸书即时通(facebook messenger)分列第二、第三。[11]18.71亿活跃用户已经是一个相当惊人的数字,但也只占到全球网民的一半左右,某些国家的用户,例如中国用户,还特别少。

至于风靡我国的微信,社交用户管理平台奇智睿思(curiosity)根据腾讯所发布的数据制作的《2015微信用户数据报告》显示,截至2015年第一季度末,微信月活跃用户达5.49亿,范围覆盖200多个国家,使用语言超过20种[15];《2017微信用户&生态研究报告》显示,截至2016年12月,微信国内版与国际版(wechat)共有月活跃用户数8.89亿。[16]其中,中国用户占有相当大的比例。

虽然脸书与微信的普及程度都很高,但二者能够代表的用户人群显然不同。正如伊斯特·豪尔吉陶伊所言,“当大数据分析指向某特定社交网站或者服务项目时,该研究所能够展现的仅仅是决定加入并已开始使用相应网站或者服务项目的群体的行为与观点”,而“如果数据集中包含成千上万的用户的信息,就认定研究之结论可推而广之,这可能是错误的,这取决于方法体系而非数据体量”。[17]

有些用户群体(如成长于传统媒体时代的中老年人),在网络世界里的活跃度有限,他们往往是凯特·克劳福德所定义的“倾听者”[18],主要浏览页面,不更新状态、不点赞、少与他人互动,存在感较弱。2011年,推特披露,约有40%的用户登录推特,目的只为倾听。[19]

即便是活跃的用户,其关注点亦相当分散,这包含两层含义。其一,信息与某群体相关度越高,该群体的关注度就越高,在网络中的反应更为强烈。例如2016年的问题疫苗事件,关注者最多的是年轻的母亲。其二,兴趣偏好不同的群体,关注的网站、平台有所不同。德里克·鲁茨与尤尔根·普费弗的研究表明,照片墙(instagram)主要受18~29岁的成人、非洲裔美国人、拉美后裔、妇女、城镇居民的青睐;而品趣(pinterest)则更受25~34岁、年收入平均10万美元的女性的欢迎。[20]全球网络索引(global web index)2014年的数据显示,阅后即焚(snapchat)最受年轻人的偏爱,其用户群体中16~24岁者占57%,微信与汤博乐(tumblr)的这一数据分别为42%、39%,而在脸书和推特的用户群体中,16~24岁、25~34岁、35~44岁者的比例均在25%左右,45~54岁、55~64岁者的占比相对略低。[11]《2015微信用户数据报告》表明,微信用户以男性为主,男性与女性用户的占比分别为64.3%、35.7%,男女比例为1.8∶1。[15]

因此,与传统的抽样调查不同,基于社交媒体大数据的研究面对的是自我选择样本,即用户自我决定是否成为样本,这种样本在很多情况下存在系统性偏差。[9]除此之外,垃圾账户现象亦值得注意。有些人拥有多个账户;有的账户是所谓的“机器账户”,这些账户由代码控制,可自动发消息,常被用来发送广告、交友等垃圾信息,其数据生成量一般很大,这些噪音也会对网络大数据的代表性有所影响。


五、总结与展望

大数据时代,互联网、移动互联网、物联网产生的海量数据为解决更多、更细的社会问题提供了可能。然而,认定大数据就是“总体数据”,认为目前社会科学研究可以全面开启“全数据模式”时代的观点,尚缺乏严谨的科学依据。一个明显的事实是,经济社会发展的不平衡现象将相当数量的人挡在了信息社会的大门之外,数字鸿沟的客观存在使互联网缺失了约半数人群的电子踪迹;社会的结构性不平等、用户群体的异质性、社会分工等因素导致数据生成方面的不均衡,等等,这些事实都还存在。因此,将网络大数据用于社会科学研究,在很多情况下无法实现“样本=总体”的目标,这是数据代表性问题无法回避的事实。正如丹·博伊德和凯特·克劳福德所说:“抛开特定数据集的代表性,只谈其体量的大小毫无意义。”[4]

在大数据时代,社会科学传统的抽样调查方法并未终结。2017年4月24日,数据运营领域的翘楚——腾讯公司,其旗下的“企鹅智酷”公布了《2017微信用户&生态研究报告》,亦专门针对用户数据采样进行了说明。《报告》称,通过企鹅智酷网络调研平台采集到用户调研样本共19,511份,通过中国信息通信研究院采集到的用户样本为1,100份,采集到公众号运营者样本为9,018份。[16]甚至最具权威的中国互联网络信息中心,其历次的《中国互联网络发展状况统计报告》仍然采用计算机辅助、电话访问的方法获取抽样数据。[12]这些情况说明,依目前的信息采集条件,所获取的资料信息仍然是有限的,只能代表某些领域或某些方面。

其实,对于多数社会科学研究而言,网络大数据并非完美的数据。“全数据模式”是相对于具体的研究任务而言的。例如,吉拉德·罗坦与艾尔哈特·格拉夫领衔的团队对2011年突尼斯与埃及革命期间激进分子、博主、新闻记者、主流媒体及其他参与者在推特上的信息流进行了研究。他们使用了两个相应的能够覆盖两场革命时间段的推特数据集,整理出常在推特上的发声者并将其归类,然后具体分析这些信息是如何产生并在推特用户网络中扩散的。这是典型的对在特定时间段发生的特定事件中特定群体的网络行为的研究,就此类研究而言,样本具有很好的代表性。而就除此之外的多数情况而言,针对具体的研究任务,所能使用的大数据往往存在系统性偏差,如果不能矫正这些偏差(至少这在当前是极为困难的),那么,基于大数据的分析与预测就谈不上多大的可靠性。[9]因此,研究者对此应有清醒的认识,尤其在运用某特定平台的数据进行推理时,应了解研究的适用范围,避开“代表性陷阱”的干扰。正如伊斯特·豪尔吉陶伊说:“大并不总意味着更好;当涉及数据集的时候,体量并非那么重要,大数据并不对偏误免疫;在研究过程中,无论数据的大小,要根据其取样框架来审慎推导结论。”[17]

①必应是微软搜索引擎的名称。

参考文献:

[1]Avantika Monnappa.How Facebook is Using Big Data-The Good,the Bad,and the Ugly[EB/OL].

https://www.simplilearn.com/how-facebook-is-using-big-data-article,2018-05-05.

[2]梁堰波.Facebook的数据仓库是如何扩展到300PB的[EB/OL].https://www.csdn.net/article/2014-12-09/2823024,2018-05-01.

[3]王晓易.窗体底端百度大数据首席架构师林仕鼎介绍百度大数据[EB/OL].http://tech.163.com/13/1206/10/9FDG6V0H00094OB0.html,2018-06-09.

[4]Danah Boyd,Kate Crawford.Critical Questions for Big Data[J].Information Communication & Society,2012(5).

[5]迈尔-舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.

[6]Ipsos Mori."Remain" in EU Still Ahead although Lead Has Narrowed[EB/OL].

https://www.ipsos.com/ipsos-mori/enuk/remain-eu-still-ahead-although-lead-has-narrowed,2016-07-28.

[7]W Jennings,S Fisher.Expert Predictions of the 2016 EU Referendum[EB/OL].https://www.psa.ac.uk/sites/default/files/PSA%20EU2016%20Report.pdf,2016-06-27.

[8]陈晓平.大数据预测英国公投:将以4%的微弱优势选择留欧[EB/OL].http://www.sohu.com/a/85596456_202972,2016-08-20.

[9]罗俊,罗教讲.数据密集型知识发现的边界与陷阱——以美国大选预测为例[J].学术论坛,2017,40(3).

[10]Zillien N,Hargittai E.Digital Distinction:Status-Specific Types of Internet Usage[J].Social Science Quarterly,2009(2).

[11]Dave Chaffey.Global Social Media Research Summary 2017[EB/OL].

http://www.smartinsights.com/social-media-marketing/social-media-strategy/new-global-social-media-research/,2016-03-27.

[12]中国互联网络信息中心.第41次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201803/P020180305409870339136.pdf,2018-06-01.

[13]Dimaggio P,Hargittai E.From the "Digital Divide" to "Digital Inequality":Studying Internet Use as Penetration Increases[J].Current Opinion in Obstetrics & Gynecology,2001(1).

[14]Bonfadelli H.The Internet and Knowledge Gaps:A Theoretical and Empirical Investigation[J].European Journal of Communication,2002(1).

[15]奇智睿思.2015微信用户数据报告:已覆盖中国90%以上的智能手机[EB/OL].http://news.ittime.com.cn/news/news4840.shtml,2017-10-01.

[16]企鹅智酷.2017微信用户&生态研究报告[EB/OL].http://tech.qq.com/a/20170424/004233.htm#p=l,2017-10-01.

[17]Hargittai E.Is Bigger Always Better? Potential Biases of Big Data Derived from Social Network Sites[J].Annals of the American Academy of Political & Social Science,2015(1).

[18]Kate Crawford.Following You:Disciplines of Listening in Social Media[J].Continuum,2009(4).

[19]Stephens M,Poorthuis A.Follow thy Neighbor:Connecting the Social and the Spatial Networks on Twitter[J].Computers Environment & Urban Systems,2015(3).



    进入专题: 全数据模式   网络大数据  

本文责编:陈冬冬
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 社会学 > 社会学理论
本文链接:https://www.aisixiang.com/data/120947.html
文章来源:本文转自《天津师范大学学报:社会科学版》2019年第4期,转载请注明原始出处,并遵守该处的版权规定。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2023 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统