彭兰:数据与算法时代的新风险

选择字号:   本文共阅读 677 次 更新时间:2018-11-12 12:45:08

进入专题: 数据时代   算法时代  

彭兰 (进入专栏)  

  

   摘要:数据与算法的应用,扩张了人的能力,但也带来很多新问题与新风险。客观性数据可能成为后真相的另一种推手,因为数据生产环节的偏差可能导致客观性数据堆积成的假象,数据分析也可能成为客观事物的干扰因素。个性化算法虽然带来了个人信息服务水平的提升,但也可能在几个方面将人们围困:一是信息茧房的围困;二是算法中的偏见或歧视对人们社会资源与位置的限制;三是算法在幸福的名义下对人们的无形操纵。数据时代个体面临的另一个风险,是相关权利保护受到更多挑战,特别是在隐私权和被遗忘权方面。要对抗这些风险,需要完善数据方面的基础建设,包括数据素养的培养、数据的“基础设施”建设、数据质量评估体系以及信息伦理规范的建立等。

  

   近年,我们似乎进入了一个数据的大跃进时代,技术不断赋予我们新的想象力与探索能力,也打开了一些过去人的感官不能达及的新领域,基于数据的各类算法也开始在我们身边流行。但是,在这种大跃进中,又埋伏着很多新风险。对数据与算法的风险的理性分析与判断,可以帮助我们认识新技术可能带来的新陷阱。


“客观性”数据:“后真相”的另一种推手?


   “后真相(Post-truth)”这个词在近年进入中国研究者的视野,很大程度上缘于它被《牛津词典》选为2016年度词汇。在这个词里的“post”表示的是“超越”,也就是“真相”不再那么重要。根据《牛津词典》的解释,后真相意味着,“客观事实的陈述,往往不及诉诸情感和煽动信仰更容易影响民意”。

   尽管《牛津词典》在解释后真相一词时强调的是情绪等对客观事实的“超越”,但后真相成为一个显性的问题,还与2016年一些民意调查机构对美国大选等结果预测的失灵有关。因此,正如哲学研究者蓝江所指出的,后真相时代是因为原来支撑真相的两大基础都崩溃了,即作为普世性的理性原则(以及与之相伴随的演绎推理逻辑,甚至连哈贝马斯所提倡的协商和交往理性也一并被质疑),以及作为经验性数据收集、统计、分析的客观性结论。

   后真相现象提醒我们,数据与算法这些看上去客观的手段与方法,并不一定能带来更多真相,反而可能走向它的方面。

   为什么客观性数据也可能带来假象?

   数据往往被当作描述客观事物、揭示真相的一种手段,但是,数据应用本身有一整套的规范,如果不遵循这些规范,或者在数据应用中出现了漏洞而未能察觉,未来我们或许会被更多由貌似客观的数据堆积成的假象所包围。从数据生产的角度看,每一个相关的步骤,都可能存在着导致假象的因素。

   1. 数据样本偏差带来的“以偏概全”

   尽管已经进入到“大数据”时代,而大数据的卖点之一是“全样本”,但事实上,在现实中,获得“全样本”并不是一件容易的事。

   今天的数据,特别是互联网数据,被少数平台垄断,出于利益保护等因素考虑,平台通常并不愿意将数据完全公开。他人从这些平台“扒”数据时,会受到技术能力和权限等限制,这可能一定程度上影响到数据的完整性。平台本身,也可能因为各种原因,未必能保留全样本数据,例如,在社交平台,删贴必然会导致相关内容的不完整。

   大数据分析也常常要依赖行业性数据,但在中国,由于历史性的原因,很多行业本身就缺乏完整、系统的数据积累,能提供的,常常也是残缺的数据。即使是传统的小样本分析,样本的规模和代表性等方面的质量也越来越令人担忧。

   尽管今天人文社会科学都在强调问卷调查等经验性数据分析方法,今天的本科和研究生也受到了一定的方法训练,但是,在实际操作中,充斥着不规范、不严谨的现象,特别是在抽样方面。武汉大学学生会在农民工研究中问卷调查的造假事件,也许不是孤立的个案。客观的障碍是,今天的公众已经厌倦了各种问卷调查,对问卷调查的抵触、不配合或游戏心态,都会影响到问卷调查的开展。

   因此,无论是全样本数据,还是行业数据,或是传统抽样方法下的小数据等,都可能存在样本不完整的问题,这也必然对数据分析结果的完整性、代表性产生影响。

   2. “脏数据”带来的污染

   除了样本的问题外,用各种方式获取的数据,本身质量也可能存在问题。部分缺失的数据、重复的数据、失效的数据、造假的数据等,都被称为“脏数据”。尽管数据处理前都会要求数据清洗,但这未必能完全消除脏数据带来的污染。某些数据分析者也可能因为一些原因而无视脏数据的存在,甚至会制造一些脏数据、假数据。

   3. 数据分析模型偏差带来的方向性错误

   完整、可用的数据只是数据分析的前提,要利用数据来准确描述或解释客观现象,还需要有科学、合理的分析模型。但是一些基于数据的实证分析,有可能建立的模型本身是有偏差的,有些数据应用者,甚至是为了得到自己希望的结果而在分析模型的设计中进行人为的“扭曲”,这些都必然导致结果的偏差。

   4. 数据挖掘能力有限带来的“浅尝辄止”

   数据量愈大、数据种类愈丰富、数据应用目标愈多元,也就意味着对数据挖掘能力的要求愈高,然而当各种力量都在快马加鞭地涌入到数据应用领域,争做各类数据产品时,却未必都拥有相应的数据挖掘能力。特别是在媒体行业,以往数据应用传统的缺乏、技术能力的不足,都会限制其数据挖掘能力,然而外界压力却又在迫使媒体力不从心地走向数据化,因此,数据应用多流于表层,其中的漏洞也越来越多。作为“拟态环境”的构建方式,媒体生产的过于简单的、浅层的数据,也可能会误导人们对现实社会的认识。

   5.数据解读的偏差

   数据解读能力,是数据利用能力的另一个重要层面。而没有良好的数据方面的训练,对数据的解读可能会出现主观随意、简单化等种种问题,例如,将数据的相关关系过度解读为因果关系,是实践中常见的问题之一。数据解读往往也是横向或纵向比较中完成的,如果缺乏参照信息,或比较性数据出现了问题,解读自然也容易产生偏差。

   数据描述与分析偏差,不仅会给我们对环境的认识带来误导,更大的风险是,它们可能带来的决策偏差。在大数据或其他数据分析方法越来越多地用于公共决策和个人决策的指导时,这种风险将日益增加。

   这些数据的误用、滥用,一方面是因为数据应用能力的不足,另一方面则是数据应用者的价值导向和利益驱动的问题。一些数据分析的出发点,本来就不是要获得对真相的完整认知,而是为了制造符合自己需要的“真相”或结果。错误导向或利益驱动的数据滥用,成为“后真相”现象更大的背景。

   数据会成为客观性的另一种干扰因素吗?

   2016年美国总统大选,多家民调机构的预测结果的失败,让人们质疑数据的客观性与准确性。而时隔两年之后曝出的Facebook数据门事件,在某种意义上是对民调结果失灵的一个回应,从中或许可以探究当时民调结果失灵的部分原因,尽管我们并不能确定“牛津分析”对大选结果的干预究竟是否起了作用,或是起了多大作用。

   这一事件还有着更深层的寓意,它提醒我们面临的一个新挑战:一方面,数据分析的目标是追求客观地描述事物;另一方面,数据分析也可能会成为对客观事物或客观进程的干预力量。而可以预见的是,未来两者之间的博弈可能会更成常态。

   大数据的应用方向之一,就是对事物的发展趋势做出判断,从而尽早对风险进行预警,对危险进程进行干预。但实践中,对现实进行干预的边界应该在哪?对大选投票进行干预,是否属于合理的大数据应用?2012年奥巴马在美国大选中获胜,一些研究者对其中的大数据应用津津乐道,而2016年特朗普在大选中胜出后,一些媒体开始对数据分析机构对选民态度的干预进行调查,Facebook数据门事件披露后,研究者似乎更多地对“牛津分析”的做法持批评态度。这或许与人们对特朗普的态度相关,但从另一个角度看,这也表明,大数据应用进入深层后,人们对它的影响及应用伦理的认识也在深入。

   “牛津分析”等机构之所以能用数据分析影响人们的态度与立场,甚至影响人们对客观世界的认识,是因为他们可以通过数据分析判断不同人群的心理定位,以此为前提来定向推送信息,对人们感知到的信息环境进行控制,用有偏向的信息来影响人们的态度。

   哲学学者刘擎指出:

   “后真相问题有其深刻的理论背景,最为相关的哲学渊源是一个多世纪前,尼采对事实真相客观性的挑战。尼采曾在《超善恶》的序言中写道:‘视角(perspective)是所有生活的基本条件。’而在其遗稿‘札记(Nachlass)’中,他留下了著名断言:‘没有事实,只有阐释。’这个被哲学界称为‘视角主义(perspectivism)’的观点是尼采哲学的核心思想之一,也为今天的后真相时代埋下了伏笔。”

   他还认为:

   “视角主义与后真相问题还具有一个重要的关联线索,可称之为‘视角制造事实’的思路。……如果所谓‘事实’就是满足了‘恰当证据’的事务,而恰当证据的标准又是视角所创立的,那么‘没有独立于视角的真实世界’意味着,‘事实’在一定意义上是视角所制造的。”

   今天的某些大数据分析,在某种意义就是在分析甚至“制造”人们的“视角”,然后将符合视角的“事实”推送给他们,虽然推送的“事实”似乎是客观的,但是,当它们被放置在人们的“视角”下时,就成为了影响主观判断和态度的重要手段。

   对于后真相问题的破解,刘擎认为,真相的“客观性”依赖于“共同视角”,澳洲学者约翰·基恩也指出,最终关于真相的认同还是取决于人们的共识(agreement)和信任(trust)。这些看法似乎也是多数学者在“后真相”问题上的共识。

   因此,从解决“后真相”危机的角度看,今天我们更需要用数据分析来寻找人们的“共同视角”或“共识”。然而,在各种主体都在努力地寻求用数据分析和算法的力量来制造符合自己需要的信息环境和意见格局时,当数据和算法成为一种权力博弈的武器时,共识的发现与形成,必然困难重重。


算法下的个体:数据时代的“囚徒”?


   从个体角度看,目前数据应用与他们最直接的关联,是各种个性化算法。通过对与个体相关的数据的分析,来提供与之适配的内容或服务,在今天已经成为普遍现实。

早在上个世纪90年代,美国学者尼葛洛庞帝就在他的《数字化生存》一书里预言了数字化时代个性化服务的可能,并将之命名为“我的日报”(The Daily Me)。 但由于技术的限制,直到近几年,基于算法的个性化服务才变成现实,其中,(点击此处阅读下一页)

进入 彭兰 的专栏     进入专题: 数据时代   算法时代  

本文责编:limei
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 新闻传播学 > 传播学理论
本文链接:http://www.aisixiang.com/data/113361.html
文章来源:《西北师大学报(社会科学版) 》2018年第5期

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2018 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
易康网