姬德强:深度造假:人工智能时代的视觉政治

选择字号:   本文共阅读 267 次 更新时间:2021-09-09 15:19:22

进入专题: 深度造假   后真相   视觉政治   人工智能   平台化  

姬德强  

   摘要:基于对深度造假的发展简史和技术特征的梳理,本文反思了新闻专业主义危机框架内的真假二元论,提出了"深度后真相"的概念,认为视觉客观性的瓦解和新闻专业主义的自我救赎是其主要特征。然而,这都无法阻挡和改变深度造假这一技术运动,因此需要回归对传播权力关系的分析,才能看清深度造假给深度后真相社会带来的视觉控制。借助传播政治经济学的理论路径,本文分析了竞选政治和国家安全如何应对和利用深度造假来实施视觉控制,以及深度造假如何加持了更具系统性的平台控制,从而催化了政治分裂和政治冷漠,也进一步挑战了传统新闻体制的专业主义权威。随后,本文转向视觉政治的经济基础,解释了深度造假对互联网平台公司的经济价值,提出在这一技术运动中,真与假的二元对立关系被替换为渠道与内容的供需关系,复杂的政治后果背后隐藏着基于数据中心主义的平台经济的精明算计。最后,文章提出,深度造假将可能催化算法威权主义,从而进一步巩固现有的平台资本主义。

   关键词:深度造假; 深度后真相; 视觉政治; 人工智能; 平台化

  

  

人工智能时代,虚假信息和假新闻正在面临来自技术和人的双重抵制。一方面,不管技术成熟度如何,事实核查(fact-checking)技术的开发与应用在揭示部分信息虚假的同时也夯实了互联网平台公司的技术优势乃至专业权威,进一步加速了传统新闻专业主义权威的瓦解;另一方面,以数字素养教育为代表的数字赋权运动则努力在一个“平台化”(platformization)的社会中创造一群能动的数字公众,从而摆脱权威依赖。然而,后真相的社会进程并没有因为各类事实核查技术和数字赋权运动的发展而被阻止,反而借助逐渐成熟和大众化的深度学习技术应用以及以社交媒体为代表的泛在的传播设施走向新的阶段。以平台控制为核心的“后真相体制”(regime of posttruth)(Harsin,2015)得以巩固。

   值得注意的是,以多边供需机制为特征的互联网平台在自我规制或者说自我强化的过程中,也借助大数据和机器学习等自动化技术孵化新的产品形态,从而在给社会带来新的不确定性的同时,实现了更好地对社会的控制。在这个过程中,技术与人的界限正在各个层面变得模糊起来,而赛博格(Cyborg)正逐渐从想象走向现实(赵睿、喻国明,2017)。正如牛津大学研究员Miles Brundage所说:“人工智能正在开启一场猫与老鼠,也就是攻击者和防卫者的游戏,其中,攻击者看起来更像人类。”(Kishor,2018)它所俘获的已经超越了单纯的文本和图片,而是对认知更具基础性,也更具有迷惑性、煽动力和用户粘性的载体——视频和音频。这就是自2017年以来被称为“深度造假”(deepfake)的技术运动[1],因为借助“深度学习”(deep learning)技术而得此名,也有翻译为“深度伪造”。

   深度造假这一现象是政治精英、技术专家和新闻媒体话语中的又一场真假对立,还是预示了一种持续的或者新的权力结构,超越了真假二元论,从而对社会产生更深刻的影响?本文将借助传播政治经济学的分析路径,从梳理“深度造假”的简短历史和技术特征入手,分析竞选政治和国家安全如何应对和利用深度造假来实施视觉控制;深度造假如何被互联网平台所捕获,成为其政治倾向的表达和商业生态系统的重要组成部分,即在深度造假的技术运动中,平台如何利用了占据主导地位的“参与式文化”(Jenkins,2006)范式,让表面上看起来是自由的、多元主义的预设,而实际上是碎片化而单向度的公众,在加剧了平台控制的同时也成为流量经济的增长点。在分析这一权力转移之前,有必要详细梳理一下深度造假的短暂历史及其技术特征,以及它所带来的传播效应和反效应。

  

   一、深度造假简史及其技术特征

  

   一般而言,“深度造假”指的是把图片和声音输入机器学习的算法,从而可以轻易地进行“面部操作”(face manipulation)(Akhtara,Dasguptaa&Banerjee,2019)——把一个人的脸部轮廓和表情放置在其他任何一个人的脸上,同时利用对声音的逼真处理,制造出实为合成却看似极真的视频——用以躲避识别,混淆视听,娱乐用户,以及实现其他虚假宣传的目的。通俗来说,深度造假就是利用深度学习技术进行精确“换脸”。当然,这一技术并不单纯用于“换脸”,还被较少争议地应用在影视、健康和教育等其他行业之中。

   “深度造假”(deepfake)这一概念最早源自社交新闻网站Reddit的一个用户,名为deepfakes。该用户于2017年秋在Reddit发布了基于人工智能算法的换脸视频,把娱乐明星的脸换到色情视频上,得到广泛关注和转发。后来,由于当事人的举报,Reddit和Twitter等网络平台禁止了这一行为。随后,该用户将换脸算法在网上公布,成为一种开源代码供免费下载使用,由此深度造假在全球逐渐产生广泛影响。事实上,深度造假确是从色情视频发轫,随后进入政治、媒体和社会领域。

   英文语境中,“深度造假”涉及多个词汇,包括deepfake、deepfakes、deep fake、deep fakes等。其中,deepfakes是上述Reddit用户的名称,因其发布“换脸”视频和公开深度造假代码而成为热搜对象。后来,deepfake成为被更广泛使用的概念(Leetaru,2019)。根据Google Trends的统计分析,全球范围内对上述四个英文词的搜索在2017年11月至2019年5月期间发生了比较显著的变化(如图1所示)。作为发明者的deepfakes主导了初期的热度,但在2018年中以后发生明显的衰减,更具有现象学意义的deepfake一词逐渐成为最受关注的概念,并在2019年上半年掀起了另外两个搜索波峰(Leetaru,2019)。

   大多数深度造假都依托于一种深度学习技术——生成式对抗网络(GANs)[2]。中国互联网公司陌陌于2019年推出的换脸社交应用ZAO,被认为也是采用了这一算法(子江,2019)。一般而言,深度造假的算法遵循一个简单的技术逻辑,即两个个体的表达方式和面部定位是相似的。寻求最佳匹配从而可以互换两者是人工智能算法的目标。截至目前,深度造假的技术展示大致分为如下四类:换脸(faceswap),算法可以将一个人的脸无缝插入一个目标视频中的另外一个人的身上;唇形同步(lip sync),伪造者可以将一个合成的唇形移植到其他人的脸上,造成一种他/她真在说什么的假象;面部复现(facial reenactment),伪造者可以将一个人的面部表情转移到另外一个视频中,从而可以施加控制,使得对方看起来厌恶、生气或惊讶;动作转移(motion transfer),即将一个人的身体运动转移到另外一个视频中的另外一个人的身体上,比如跳舞(Marconi&Daldrup,2018)。由于有关GANs的研究和其他深度学习技术的公共可获得性,以及以社交网络为代表的互联网平台公司的渐次进入,深度造假的大众创造能力正在迅速蔓延,成为一个新的技术运动,以及造假与打假的矛盾循环。

   Britt Paris和Joan Donovan(2019)在全面梳理这一技术运动的报告中提出了一个“深度造假—廉价造假”(The Deepfakes/Cheep Fakes Spectrum)光谱,主要标准是所使用的技术的复杂性。其中,深度造假位于光谱一端,高度依赖数据和计算,较少被大众所接触;而廉价造假位于另一端,借助一些廉价乃至免费下载的软件,消费者不需要特殊的专业知识和技术能力即可通过终端加载的调整速度、摄像头效果、更换背景等实现“换脸”等操作。在这个意义上,廉价造假有两个并存的技术特征:其一是使用传统的更换背景等技术,实现视觉变化和控制;其二是借助开源的深度造假技术,提升造假的质量和效果。后者正在成为新的趋势。除此之外,廉价造假也룯씃呈现出巨大的娱乐效果,从而进一步复杂化了造假的现象及其社会效应。

   那么,如何识别深度造假的技术逻辑?Zahid Akhtara等三位学者的科学论文(如图2)提供了一个详细的分类学框架,包括:面部改动和合成的技术、识别面部操作的主客观方法,以及操控下的面部识别(Akhtara,Dasguptaa&Banerjee,2019)。这个框架所展示的是人与机器在合成面部和识别面部合成上的技术特征和博弈。为了理解深度造假的背景和原因,尤其是与人工智能的关系,斯坦福大学研究员Tom Van de Weghe(2019)联合计算机、新闻等行业的专家,成立了“深度造假研究小组”(Deepfake Research Team),以提升公众对这一现象的认知度,培养跨学科合作,以及互相交换识别深度造假的方案,形成打击深度造假的学术共同体。虽然解决问题的方法还尚不成熟,但研究小组还是总结出深度造假发展至今的一些基本趋势,并称之为“六条教训”。

   本文将“六条教训”,或者更准确的说,深度造假的发展趋势和潜能,总结和解释如下。第一,应用的大众化和终端化,即由于合成技术的快速发展,即便不具备深度学习的知识,深度造假也正变得愈加容易,从而可以让普通用户借助深度造假应用来创造合成的音视频,并借助社交媒体等平台广为传播。第二,算法的平台化,即依托大量用户数据尤其是社交媒体数据训练算法。正如该小组所揭示的,深度造假的目标既可以是有着丰富网上素材的名人们,也可以是普通人。因为社交媒体上大量的个人图片可以被深度造假者获取,并用来训练他们的算法,服务于查找、勒索和污蔑等目的,如果这一新趋势发生在记者个人和新闻媒体上,后果可能不仅仅是假新闻的问题,受到损失的可能是整个新闻业的公信力。在这个意义上,深度造假与社交媒体有着天然的技术联盟关系,后者为前者提供数据,前者为后者提供内容。这两条结合构成了本文接下来要分析的平台动能部分。如果深度造假曾经是一个技术爱好者的游戏,那么,与社交媒体为代表的互联网平台相结合,深度造假将深刻卷入不断平台化的社会之中,成为加持平台控制的新动能。当然,深度造假本身也有商品化或货币化的潜能。正如第三条所说,从学术圈到商业圈,深度造假技术正在变成一个大买卖,一个盈利的工具。好的方面可以帮助电影公司做好外语译制工作,或者把历史人物挪到当下,实现特定的艺术和教育目的,坏的方面是能够提升监视摄像头的清晰度,威胁个人隐私。后者也是围绕深度造假的伦理和法律论争的热点议题。

   接下来的两个方面与技术的自我救赎有关。第四,他们将之称为“猫鼠游戏”。迄今为止,人们并没有开发出检测深度造假的有效工具,而且在人工智能技术的基础上,打假与造假的竞争一直未曾停歇。因为都使用深度学习技术,采用同样的技术打击造假成为斯坦福大学这个研究小组的科研方向之一,也有研究者采用数字标签或数字签名技术,使得造假也无法更改原初图像。第五,区块链技术可能成为解决方案的重要组成部分,特别是得益于它所提供的不可更改的数据记录,以及去中心化分配账户间的交易方式。换句话说,区块链的关键是去中心化和消除“中介”(intermediaries)。

那么,除了技术决定论(techno-determinism)和技术专家治国论(technocracy)的精英视角,斯坦福大学的研究员们在第六条教训中将希望也寄托在公众自身的鉴别能力的提升上,(点击此处阅读下一页)

    进入专题: 深度造假   后真相   视觉政治   人工智能   平台化  

本文责编:hanzhirui
发信站:爱思想(http://www.aisixiang.com),栏目:天益学术 > 新闻传播学 > 传播学实务
本文链接:http://www.aisixiang.com/data/128460.html
文章来源:《新闻大学》2020年第7期

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统