罗玮 罗教讲:新计算社会学:大数据时代的社会学研究

选择字号:   本文共阅读 4024 次 更新时间:2015-10-20 20:48:56

进入专题: 新计算社会学   大数据方法   计算机社会模拟   互联网社会实验    

罗玮、罗教讲  

   新计算社会学(new computational sociology)这一名词在2014年8月美国社会学界举办的“新计算社会学研讨会”上首次提出。在这次会议上,来自美国顶级名校不同学科的学者展示了新计算社会学领域的最新研究成果。在本文中,我们试图回答三个问题:什么是新计算社会学,其产生经历了怎样的历程?新计算社会学包含哪些重要内容?新计算社会学将对社会学研究产生怎样的影响?

  

   一、新计算社会学产生的历程

   什么是新计算社会学,目前还没有人给出一个明确的定义。新计算社会学不是一个特定的社会学理论流派,也不是某种特定的研究方法。就现在的情况来看,笔者认为新计算社会学是当代社会学界借助计算机、互联网与人工智能技术等现代科技手段,利用大数据、新方法来获取数据与分析数据,从而研究与解释社会的一种新的范式或思维方式。其目的是要克服既有社会学研究方法的局限与不足,达到对人类行为与社会运行规律的真实认知与科学解释。

   笔者认为,新计算社会学的产生是大数据时代社会学发展的必然结果。当代计算机科学、互联网与人工智能技术的发展是新计算社会学产生的基础条件,而社会学家对社会学研究新方法的不懈探索与追求,是新计算社会学产生的内在动力。

   社会学从产生、发展到现在,所走过的是一条坎坷不平的道路,正如美国社会学家柯林斯和马科夫斯基所说的,社会学并不是一门不可能的科学,但的确是一门很艰难的科学(柯林斯、马科夫斯基,2006:1-23)。所谓很艰难的科学,主要是指社会学在研究方法上经历了一个艰难探索的过程。

   社会学研究方法被作为重要问题进行探索并引起争论开始于20世纪50年代,此时西方社会学的定量研究迅速发展成为主流研究方法。随之而来的是对各种方法的争论。例如,美国纽约1956年召开了一次“社会测量大会”,聚集了一大批当时顶尖的社会科学学者,对社会科学研究方法的发展提出了多种意见与构想。心理学家史蒂文斯(S.S.Stevens)提出社会科学研究需要测量手段的更新(reinvent measurement),社会学家拉扎斯菲尔德(Paul Lazarsfeld)提出需要关注定性研究与定量研究之间的关系问题(Mohr & Ghaziani,2014),等等。这次会议对此后包括社会学在内的社会科学研究方法的发展起到了重要的推动作用,特别是进一步提高了定量方法在社会学研究中的主导地位。

   进入20世纪70年代后,由于计算机的发展与广泛使用,以及由此所带来的各种数据分析统计软件的问世,社会学研究在大样本问卷调查、数据的多变量统计建模与分析方面,达到了一个前所未有的水平。与此同时,人们也在积极探索其他研究方法,如进行社会科学实验和开展社会现象的计算机建模研究,等等。

   尽管如此,社会学研究方法所面临的问题似乎越来越多、越来越严重。社会学研究方法专家谢宇教授坦承,现在用于研究社会和社会关系的所有方法,包括定量与定性方法,都存在局限性。在他看来,社会学中最明显也是后果最为严重的矛盾是研究方法上的矛盾,社会学也因此而分化为不同的阵营(谢宇,2012:5)。

   社会学研究方法所面临的困境,实际上是人类行为研究所受时代条件限制的反映。大数据时代的到来,正在为社会学研究方法突破困境创造条件。

   20世纪90年代中后期以来,一系列技术进步使得社会学研究方法的进一步创新成为可能,其中最重要的成就表现在四个方面:其一,社会网络理论与研究方法的发展;其二,人工智能的发展带来新型文本与影音资料处理系统的问世;其三,计算机模拟领域内基于行动者模拟方法(agent-based modeling,ABM)的发展;其四,互联网的快速发展,特别是移动互联网时代的到来。1996年,经济学界先人一步,出版了《计算经济学手册》(Handbook of Computational Economics)第一卷(Amman et al.,1996),正式宣告“计算经济学”的诞生。在最近10年内,正是这些新的理念和技术推动着人们不断探寻社会学研究方法上的突破,为新计算社会学的产生做好了必要的准备,新计算社会学的孕育过程逐渐完成。

   2009年,包括哈佛大学教授拉泽尔(Lazer et al.,2009)在内的15名顶级学者在《科学》(Science)上共同署名发表论文,正式提出“计算社会科学”(computational social science)这一概念。文章预言一个以新电脑技术、互联网为基础,具有无限可能性的计算社会科学的产生正在成为现实,甚至在谷歌、雅虎这些大型企业内,已经开始了计算社会科学的研究。过去,我们只能够获取间断的、片面性的社会数据,而如今,借助视频监控、电子邮件、计算机智能命名系统等,社会科学家搜集与处理海量数据的能力得到了空前提升,这正是计算社会科学得以产生的一个重要原因。另一个原因是认知科学的发展。人类对自身认知机制的深入了解,神经生物学、计算机科学以及其他学科的融合,为人类行为研究的计算机模拟提供了条件。拉泽尔教授等人的论文列举了一系列计算社会科学可以大显身手的研究领域或研究对象,由此展示和证明计算社会科学的魅力与发展前景。这些典型例子包括:利用视频监控设备记录婴儿最初两年的所有成长数据,以此来研究婴儿的成长机制;通过收集人们的电子邮件数据研究人们的互动行为;利用“社会测量计”(sociometer,一种形状类似身份卡,可以别在胸口,能够捕捉一定范围内行为者的空间位置、互动情况等信息的电子检测仪器)和手机上的GPS记录软件进行人们行为的时空社会学研究;通过社交网站来收集数据,对每个人的健康、心情与品位及行为方式等众多变量进行测量;通过互联网收集美国政治竞选时期谣言传播的数据,分析谣言传播的模式,特别是可以利用互联网进行以前无法进行或不被允许进行的社会实验;大量的文本资料将能够被数据化……这些新技术的应用,将使得经济学、社会学、政治学等社会科学的研究进入一个新的时代。

   在2009年发表的论文中,拉泽尔等人尚认为,所谓的计算社会科学只是由一小部分顶尖的计算机专家、物理学家与社会科学家在共同推动的勇敢事业。但5年之后的今天,拥有这种勇敢精神的社会科学家已越来越多,2014年“新计算社会学研讨会”的召开就是例证。笔者相信,这个由不同学科的社会学研究者共同推动,综合运用当代计算机和互联网及其他高新技术与大数据分析手段的社会学研究方法体系,将会越来越受到社会学学者们的关注,并将有可能成为未来社会学发展的主流。“新计算社会学”中的“新”,其一是指新计算社会学在理念、方法、思路、工具应用等方面比此前的社会学研究中的“计算”都更为先进和复杂。其二是“计算社会学”(computational sociology)这个名词已在瑞泽尔(George Ritzer)2007年出版的《布莱克威尔社会学百科全书》(Blackwell Encyclopedia of Sociology)中出现(Bainbridge,2007),只是该书中“计算社会学”词条的内容与“新计算社会学”不同,为了与之区别,2014年的斯坦福会议才提出“新计算社会学”。

   从“计算社会科学”概念提出到“新计算社会学”新名词问世,中间经历了5年时间(2009-2014)。在这5年中,社会学家受到了计算社会科学的启发和影响,但鉴于社会学在社会科学中的独特性,社会学家认为社会学有必要脱离计算社会科学而自立门户。所谓社会学的独特性,是指社会学的研究对象、理论视角和研究方法的要求等与其他社会科学如经济学、政治学存在区别。“计算社会科学”与“新计算社会学”中核心内容都是“计算”,其重点都在于计算机科学、互联网与人工智能技术等的有效应用,只是二者在面对不同研究对象、不同理论解释框架和不同研究方法要求的条件下,“计算”的理路、方法与工具存在差别。

   二、新计算社会学的五大内容

   新计算社会学的目标是借助各种与社会学研究相关的新技术、新工具、新手段,克服以往社会学研究中存在的各种缺陷与障碍,提高社会学研究的科学性与有效性,开创社会学发展的新时代。要实现这个目标,必须实现社会学研究各个环节、各个方面的创新,因此新计算社会学实际上是一个全面创新的社会学研究方法体系。根据对现已发表的论文和在会议上展示的研究成果的分析,我们将其划分为五个互相关联的组成部分:大数据的获取与分析、质性研究与定量研究的融合、互联网社会实验研究、计算机社会模拟研究和新型社会计算工具的研制与开发。

   (一)大数据的获取与分析

   数据、资料的获取与分析,是社会学研究的两大关键问题,也正是在这两个环节上,社会学研究受到的批评和诟病甚多。大数据的获取与分析,有望为解决问题找到新的突破口,例如金(King,2009)提出,未来的研究可以从文本内容、选举活动、商业行为、地理位置、健康信息等数据着手,通过大规模与时序性数据的研究改变政治学乃至社会科学的基础。

   范德里特等(van de Rijt et al.,2013)关于“名气”的研究是在《美国社会学评论》(American Sociological Review)上最早发表的一篇社会学大数据研究论文。研究者发现,在名气等级体系中,处于底层名气最小的人们确实非常容易被人们遗忘,但在名气体系的上层,即便是在娱乐、电视、博客等看起来非常“健忘”的领域内,个人名气一旦建立,名气的自我增强、职业地位、纪念活动等都能保护个人名气影响力的长期存在。他的研究方法是从报纸上获取个体姓名出现的次数,出现次数越多,代表该人的名气越大(当然,作者也承认这种测量方法本身具有一定的局限性,一个人的名气也有许多是通过其他形式,例如影音资料或者民间口传的形式表现出来的)。作者借助“莉迪亚文本分析系统”(Lydia text analysis system)作为研究工具。该系统利用其“自然语言处理系统”(nature language processing)将文本变成时序化的数据并进行定量分析。作者分析了2004-2009年的2200种美国各类日报与周刊,既有全球性媒体如《时代》(Time)周刊,也有地区报纸如《萨克拉门托报》(Sacramento Bee),期刊的内容更是遍及要闻、政治、体育、时尚、娱乐等各个领域,从这些报刊中,作者提取出了10万个姓名。为保证数据的合理性,删除了大量过于常用的姓名(以保证不会有同名人士多次出现引起测量干扰),也消除了虚构人名、去世人的姓名等干扰。在这10万个姓名中,大多数的名字在媒体上只出现过几次,但也有上百人的姓名出现了1万次以上,从而形成了一份包含姓名及其每天出现次数的“大数据”。接下来,范德里特等对这些人名进行了分布分析与流动性分析,他的数据处理过程并不复杂,只用到了非常简单的社会学统计分析方法,但他的数据搜集与整理的工程却非常繁琐,从几乎全国所有杂志中提取和统计人名,在大数据时代到来之前是无法想象的。

大数据社会学研究所采用的数据量远大于传统的实证社会学研究,与上文相似,加州大学伯克利分校教授梁(Leung,2014)对求职网站进行了一次研究,分析了某求职网站上2000-2004年16569名自由职业者对119648份职业提出的964034次申请;萨韦德拉等(Saavedra et al.,2013)关于股票交易员行为模式的研究更是实时记录了2007年1月1日-2008年12月31日这两年间的30万次详尽的股票交易记录;乌兹等人(Uzzi et al.,2013)与古德和梅西(Golder & Macy,2011)的研究,其数据量达到数千万乃至数亿;米歇尔等(Michel et al.(点击此处阅读下一页)

    进入专题: 新计算社会学   大数据方法   计算机社会模拟   互联网社会实验    

本文责编:zhaoziyuan
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 社会学 > 社会研究方法
本文链接:http://www.aisixiang.com/data/93035.html
文章来源:《社会学研究》2015年第3期

1 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统