华进苏丹：“自由而负责”的声景：AI生成声音的叙事实践与伦理规约

华进，湘潭大学文学与新闻学院副教授，硕士生导师

苏丹，湘潭大学文学与新闻学院2024级硕士生

摘要：生成式AI的不断发展，使得其生成的声音也被广泛应用于叙事作品。在叙事实践中，生成式AI不仅可以模拟自然人的声色来合成人声，让声音叙事主体变得更为复杂，同时还可塑造叙事中的声音景观，拓展声音叙事的可能性与丰富性。与此同时，这一实践也带来了叙事的伦理风险：消解了声音叙事主体的“语音独一性”，引发声音权属争议；将声音“去身体化”，导致声音阉割，扰乱叙事的真实性逻辑；对叙事接受者的倾听造成干扰，导致“叙事化”过程中的认知混乱。对此，需构建分层治理体系：在技术源头，于声音大模型中嵌入“伦理层”以预防侵权行为；在生成环节，通过引入可穿戴设备采集的生理反应数据，结合更精细的情感模型，增强生成声音的情感丰富度与叙事表现力；在接受端，依托音视频鉴伪技术的同时，提升接受者的声音素养及对AI生成声音的叙事认知能力。

关键词：生成式AI；声音叙事；声音伦理；声景；语音独一性

引言

声音，是由物体振动产生，通过空气、水等介质传播的振动波，能够被人耳或其他接收器所感知。随着生成式人工智能（以下简称生成式AI）的发展，声音不仅源于自然产生与人为制造，还可借助AI技术生成。AI生成声音是指利用人工智能技术，模拟或合成各种声音的过程，它的核心是利用算法或模型对声音数据进行处理，从而生成新的语音、音乐或音效。

AI参与声音生成后，其所产生的伦理问题也日益凸显，如利用AI克隆声音制作恶搞视频、模拟他人音色发表观点以操控舆论、利用AI生成声音实施诈骗等行为层出不穷。目前，学界关于AI生成声音的伦理探讨主要聚焦于版权风险和人格权侵权方面：陈杰指出AI歌手表演严重影响到表演者、录制者和公众等民事主体之间的利益分配问题 [1] ；焦和平、梁龙坤认为利用人工智能合成音乐存在侵害音乐作品的复制权、表演权、传播权的风险 [2] ，还有学者发现人工智能技术加速了声音与“人”的分离，这种分离使AI合成声音作品的创作主体和创作过程变得模糊，进而引发了版权归属问题 [3] ；张炎坤指出在有声书中运用AI合成语音可能造成对自然人声音权、名誉权和隐私权的侵害 [4] ，还可能引发音频制作方作品侵权、有声书出版中授权侵权、传播渠道方平台侵权等问题 [5] 。此外，赵红勋还揭示了AI有声读物存在模式化意象、机械化复刻、价值性偏差等现实隐忧 [6] 。

综上，目前学界主要聚焦于AI生成声音对版权、人格权等侵权风险的探讨，而对其参与叙事实践引发的伦理风险关注甚少。随着AI生成声音在叙事生产与传播中的深度介入，其引发的声音叙事主体的模糊化、叙事逻辑的混沌及叙事认知的困扰等问题凸显，因此有必要从声音叙事的角度对其进行更为深入而细致的思考。笔者在现有研究基础上，综合运用案例分析法和实验观察法，试图回答以下关键问题：AI生成声音如何参与叙事？AI生成声音参与叙事会引发哪些伦理问题？如何有效应对这些伦理问题？

当前致力于声音生成的大模型平台有很多，主要生成的声音类型有人声、音乐、对口型与画面音效、播客等。笔者根据主要AI声音类型，例举了若干典型平台，如表1。这些平台为AI生成声音叙事作品提供了技术基础与平台支撑，本文将基于这些大模型平台参与声音生成的叙事作品，探讨AI生成声音如何参与叙事，以及由此引发的伦理问题，并进一步思考可能的解决途径。

一、AI参与下的声音叙事实践变迁

叙事是“对于时间序列中至少两个真实或虚构的事件与状态的讲述” [7] ，事件是叙事的关键要素，且“事件即行动，行动在许多情况下是会发声的，……行动是因，声音是果，声音被聆察表明其前端一定有某种行动存在，或者说每一个声音都是事件的标志” [8] 。在传统声音叙事作品中，人的自然发声行为承载了大部分的叙事功能，随着AI生成声音的参与，叙事作品中的声音样态更为复杂，声音叙事的可能性也得到更大程度的拓展。

（一）AI生成人声：人机混合的“声音综合体”成为声音叙事主体

经典叙事学关于叙事主体的论述涉及叙事者、真实作者、暗含作者等三个不同概念。叙事者是存在于叙事作品内部的故事讲述者，是“叙事文中的‘陈述行为主体’” [9] ，是纸上的生命；真实作者是叙事作品的创作主体，存在于现实世界之中；暗含作者，又称“作者的第二自我” [10] ，其使得受叙者阅读时总能感受到有一个声音在通过故事传递某种态度。在文字叙事作品中，上述三个不同面向的叙事主体都可以“发出声音”，但并不体现为可听的声音。但在声音叙事作品中，创作者及声音素材都可能发出声音且被听见，尤其AI也能生成声音之后，人机混合的“声音综合体”出现，声音叙事主体更为复杂多变。

大模型可通过音色克隆与精细化调整技术，打破自然人声音的“独一性”，实现近似真实个体的声音效果。如图1所示，AI生成声音参与叙事的作品，至少存在以下三类声音叙事主体：一是声音作品的创作者，包括作为“人”的创作者和作为“机器”的创作者。前者在AI生成声音的过程中扮演着关键角色，他们需预先提供文本、声音样本等叙事素材，并将这些素材上传至声音模型，指导AI完成声音的合成与创作。从功能定位上看，他们类似于经典叙事学中的真实作者，是叙事内容与形式的初始设计者与提供者。后者指可生成声音的AI大模型。“人机”在协作和不断互动过程中共同完成声音作品的创作。二是声音“本体”的发出者，包括真人与AI。真人的声音作为自然人的独特生理标识，具有高度的个体独特性与辨识度；AI模拟的声音来源比较广泛，不仅涵盖现实中的自然人，还包括由演员塑造的虚拟角色等艺术形象。此外，声音大模型平台中的AI配音师也能生成高度拟真的语音，如魔音工坊平台即拥有724个AI配音师资源，提供1507种风格各异的语音选项，极大地丰富了声音叙事的可能性。三是声音故事的讲述者。它是为听众所能感知的一个讲述的主体，并不与真实作者对应，相当于一个虚拟存在的声音组织者。

在文字叙事作品中，真实作者、暗含作者与叙事者之间存在严格的区分。而AI参与叙事的声音作品，使传统意义上叙事主体的界限变得模糊。上述三类声音叙事主体可能集中体现为同一自然人的音色，也可能各有区别，其中既有自然发声，也有AI模拟生成的声音，这种人机混合的“声音综合体”的出现，为如何确定叙事作品的声音权归属带来了困境。以B站UP主“孔老三官方”利用MiniMax生成的单田芳说书系列作品 [11] 为例，从叙事主体来看，该作品存在两个关键主体：一是真实作者，即UP主“孔老三官方”，其作为作品的创作者，主导着作品的整体构思、情节架构与内容编排，是作品创作意图的源头；二是声音“本体”发出者，即作品中“单田芳”的声音，此声音同时承担叙事者功能，负责向受众讲述故事内容。但作品中“单田芳”的声音并非真实单田芳本人发出的声音，而是借助AI技术对其音色进行克隆与模拟后生成的声音。这使得传统叙事作品中的真实作者，暗含作者与叙事者之间原本清晰的界限被打破。真实作者进行创作构思，而叙事者却由AI模拟声音充当，这种人机混合的声音综合体成为生成式AI参与下的新型声音叙事主体。

（二）AI生成声景：声音叙事的可能性在较大程度上得到丰富和拓展

声景（Soundscape），是声音景观、声音风景或声音背景的简称。按照谢弗的观点，声学意义上的声景包括三个层次：一是主调音；二是信号音；三是标志音 [12] 。主调音奠定整个声音基调，如视听叙事作品中运用的背景音；信号音是在某个地方突然发出的声音，如口哨、鸣笛声等；标志音是能够代表某个地方的声音，具有明确的声音特征，如各地方言、陕西民歌、北京老胡同闲谈声等。现有AI声音大模型可以生成人声、音乐、音效等多种声音类型，并以此建构出AI生成声音参与下的声音景观，为丰富历史叙事、新闻叙事，以及打造全新的叙事者形象提供了新的可能。

2025年6月6日，@FOS发布了借助即梦、MiniMax等AI工具制作的，讲述王昭君出塞和亲故事的AI影片 [13] ，其中包含了MiniMax生成的“王昭君”和“刺客”的声音，苏诺音乐（Suno）制作的名为《离曲》的背景音，以及其他场景音效。故事简述了王昭君出嫁塞外，在途中遭遇刺客，而这位刺客正是王昭君的旧相识。从叙事时空来看，飘雪声、风声，古筝、羌笛等具有边塞与中原融合风格的乐器音色，能够快速将观众带入汉匈和亲的历史语境，强化历史场景的真实感；从情节发展与叙事节奏来看，AI旁白承担叙事“解说者”与“引导者”的角色，用以补充历史背景、交代人物动机（如王昭君的家国情怀），串联起“出塞-遭遇刺客-回忆过去-和亲”的核心情节，避免因画面跳跃导致的叙事断裂；从叙事氛围营造来看，影片采用苏诺音乐生成的《离曲》作为背景音，营造出符合史实的低沉、伤感氛围。从历史叙事来看，通过AI对多源声音数据的深度学习与合成，机器能够构建出贴合历史语境、富有空间沉浸感的声景，使观众得以“听见”一个不复存在的时空，从而为部分难以凭借传统手段还原的真实声景带来了新的可能性。2025年12月11日，@AHTV第一时间发布了一则“夜晚女生遇‘眼盲’老太太求带路”的新闻 [14] ，该报道利用剪映生成人声，还原了事件经历者廖女士的文字采访。在特定新闻叙事上运用AI人声，不仅可以保护当事人的隐私，还可以提升叙事的丰富性。

此外，生成式 AI 的参与，也为塑造全新的叙事者形象提供了可能。以抖音短视频平台账号 @Yuri 尤栗为例，该账号定位为生成式歌手，其形象、歌曲、声音等均由即梦AI等人工智能平台生成。截至11月29日，账号粉丝量达1.3万，其发布的内容包括歌曲MV、日常分享及粉丝互动等。通过这种方式，运营者成功塑造了一个完整的AI叙事者形象，丰富了声音叙事的可能性。

二、AI生成声音参与叙事的伦理风险

AI生成内容的版权归属、伦理隐患等问题，始终是悬在内容创作者头顶的“达摩克利斯之剑”。尤其当AI能够生成更为多样化的声音时，其又引发了新的声音叙事伦理问题。一方面，它虽然丰富了叙事的可能性，但也一定程度上消解了“语音独一性”，引发了对声音作品所属权的争议；另一方面，低保真度的AI生成声音对声音叙事功能造成了“阉割”式的影响；此外，听觉叙事的接受者在AI生成声音“叙事化”时，也面临着还原倾听与语义倾听的双重考验。

（一）叙事主体的“语音独一性”被消解，引发声音作品所属权争议

从声音“本体”层面，人们常常把声音与一个个鲜活的人联系起来，在“只闻其声，不见其人”的时候，也能够依靠“声音”迅速判断此人是谁。正如费孝通在《乡土中国》中提到，“如果有人在你门上敲着要进来，你问：‘谁呀？’门外的人十之八九回答你一个大声的‘我’” [15] ，因为敲门者已然认定“我的声音”就能代表“我”。“声音属于某个人，标志这个人的身份并印上他的特性。声音常常有一个名字和一张脸” [16] ，具有独一性，这种“语音独一性”指的是“独具个性的语音本身”，但如果把这个声音当作语义符号或象征，那么它的“独一性”便荡然无存。由于生成式AI的参与，具有独一性的声音逐渐变成人人可复刻、再现的声音符号，“我”的声音不再只作为“我”的叙事语言，还可以成为他人的叙事工具。2025年5月27日，B站UP主“孔老三官方”发布了单田芳（AI）评书：《凡人修仙传》的第一章，该评书中单田芳的声音是作者利用MiniMax克隆其音色后，由AI所生成的声音。就内容而言，是作者进行创作和加工后，形成的文本内容；就声音而言，其语气、俏皮话、停顿等皆模仿了单田芳本人的评书风格。如此，则形成了“是我又不是我”的混沌的声音综合体。

根据现有法律法规，自然人对自己的声音享有声音权，这是法定的人格权益。具体而言，“声音权包括声音制作专有权、声音使用专有权以及声音处分专有权。即自然人享有依法制作、使用、公开或许可他人公开使用自己声音的权利。” [17] 但AI参与声音生成后，为自然人声音的滥用提供了技术便利，这不仅容易引发叙事伦理方面的问题，还可能导致他人声音权益受到侵害。当下，全AI制作的电影、短剧、音乐MV、动画、短片等作品类型日益涌现，其中涉及众多不同平台的声音大模型生成的声音，其声音作品的归属权仍需探讨。如@雪宝纯AI制作的短剧《深宫凤鸣》，其中涉及秀儿、安然、碧珠、静妃众多人物的声音，以及各种音效与音乐。从现有AI语言技术来看，实现该类AI短剧的声音效果，需要AI平台克隆多个自然人的声音协助进行。总体而言，AI生成声音涉及多个主体，包括AI生成声音的创作者、声音本体的拥有者以及AI声音大模型本身等，这些主体均参与了AI生成声音的制作过程。在这一复杂的主体关系中，一个关键问题浮现：声音作品的著作权应归谁所有？

（二）AI生成声音的低保真与非在场性，扰乱叙事真实性逻辑

谢弗用高保真（Hi-Fi）和低保真（Lo-Fi）来描述各个社会阶段的声景。他认为农业社会的声景处于高保真（Hi-Fi）状态，人们能清楚听到和分辨各种不同的声响。工业革命之后的社会阶段充斥着各种机器声和嘈杂声，压倒了各种自然的声音，声景处于低保真（Lo-Fi）状态 [18] 。在面对面利用声音叙事时，倾听者可以清晰地感受到叙事者的语音、语调、语速，配合面部表情和身体动作等叙事语言，充分发挥声音的叙事功能与优势。随着AI生成的声音参与叙事，原本直接感知到的声音语言，转变为需经过技术手段、叙事者加工、媒介平台等复杂过程才能抵达倾听者耳朵的声音作品。在这一过程中，任何一个环节都有可能增加噪声，降低声音的保真度。这种保真度的降低正如罗兰·巴特所说的，是对声音的“阉割”：“书写文字比起口语在用字遣词方面可要经济得多，有时还经常省略连词，这在声音来讲简直不可接受，活像被阉割一般。” [19] AI生成声音的介入，将这种“声音阉割”推向新的维度。

当叙事者将文字、视频、指令等信息输入声音大模型时，算法对声音的生成遵循技术逻辑而非人类感知逻辑：音高、节奏、停顿等参数被拆解为可计算的数值，情感表达被简化为预设的“情绪标签”。这种“去身体化”的生成过程剥离了声音叙事中的即时性与偶然性，叙事者无法通过呼吸的急促、喉结的颤动、指尖的微颤传递真实情感。近期网络上涌现的AI记者穿越到古代直播的视频，如账号@AI诺诺于2025年6月21日发布的“AI记者穿越赤壁火场”视频，该视频中的AI记者全程面带笑容，并配有“瞧瞧这营帐都着火了”“也不知道曹操去哪儿了”“哈哈，他还是那么的心高气傲”“收拾残局的士兵面对这惨状也无奈”等话语。整个画面中，AI记者的神色、声音都没有体现出丝毫慌张、害怕等情绪，不符合人们在经历战争时所表现出来的真实声音状态。在AI重构声音叙事的当下，如何在技术浪潮中守护声音的“在场性”，让叙事回归身体与情感的原始联结，是需要重新思考的问题。

（三）语义倾听和还原倾听被干扰，导致听觉叙事接受者的认知混乱

法国音乐学家皮埃尔·沙费将人类倾听模式划分为三种：因果倾听（Causal Listening）、语义倾听（Semantic Listening）与还原倾听（Reduced Listening） [20] 。因果倾听是一种“警示性”倾听，用来判断附近的声响是否对自己造成威胁；语义倾听是将说话的声音当作一种能传达信息的符号，通过倾听了解说话人所要传递的意义；还原倾听强调听声音的本身，即关注一个人“正在说”，而不是被说的东西，倾听的是来自那个“唯一、无法复刻的人”的声音。从人类倾听的模式来讲，AI生成声音参与到叙事活动中，给倾听者的语义倾听、还原倾听带来了考验，从而造成倾听者认知混乱。

一是语义倾听中的“真实性”危机。倾听者依赖声音所传达的信息来理解说话者的意图。在面对面叙事中，声音的“不完美”（如口误、停顿、方言腔调）恰是叙事者真实性的证明。一些高仿真的AI声音工具能模仿特定人物的语气、语调甚至情感表达，呈现出“完美无瑕”的声音，由此导致AI生成的声音越来越难以被人们识别真伪，从而对倾听者造成误导。全球安全技术公司McAfee（迈克菲）发布的一项全球性调研显示：在接受调查的7000多人中，四分之一的受访者表示经历过AI语音克隆骗局，70%的人不能分辨克隆声音和真实声音 [21] 。小红书博主“发现好声音”利用MiniMax制作了讲述张韶涵人生故事的作品 [22] ，故事以张韶涵“自述”的形式展开，混合了张韶涵真实声音、AI克隆其音色生成的声音以及主持人、工作人员等的真实声音。故事内容围绕“母亲指控不孝”“被母亲当摇钱树”“母亲诅咒”“心脏病就医”等核心情节展开。经核查，全篇仅“其实有”这三个字来自张韶涵公开场合发言，以及“我没有指望过他们养我，可是你是一个做儿女的，你怎么可以公然地说谎，说你妈妈拿走了多少钱？”“你再蹲一下，韶涵再蹲一下”系真实声音，且没有标注声音所属人，其余声音均为通过AI工具克隆其音色后生成的虚假叙事。由于克隆语音高度还原了张韶涵的声线特质与情感基调，普通倾听者难以察觉声音的“人造属性”，极易将虚假叙事等同于张韶涵的真实表达。这种“以假乱真”的声音呈现，不仅可能给相关方带来名誉损害，还可能干扰听者对信息真实性的判断，从而误导其认知。无论是从全球性的调研数据，还是从实际案例来看，AI声音技术的发展都在不同程度上引发了“真实性”危机，对人们的信息接收与认知构成了潜在威胁。

二是还原倾听中的“错位”风险。还原倾听强调关注声音本身特质，如音色、音调、节奏以及其中蕴含的情感和个性特征，旨在捕捉说话者独特的“声音身份”。当AI生成声音模仿、克隆他人声音时，倾听者可能会误将这种声音当作真实的人，从而出现声音的“错位”识别。2024年10月，短视频平台涌现大量小米CEO“雷军”AI配音视频，内容涵盖堵车、假期、调休等众多热门话题，配音内容不仅包括辱骂和吐槽，还涉及捐款给某大学、用小米SU7撞人、远程控制小米手机进行爆炸等不当言论。此外，在网友“般画234”发布的一则张文宏医生带货的AI合成音视频中，“张文宏”口型、声音逼真，反复介绍一种产品，视频下架后，该产品的售卖页面显示销售量达1266件，可见叙事接受者已将视频中的张文宏视作他本人。这类克隆、模仿他人声音的作品比比皆是，给当事人、叙事接受者都带来了严重的困扰。

三、AI生成声音参与叙事的伦理问题应对

就声音景观而言，发声者与聆听者构成了声景的存在基础，发声者与聆听者的责任担当是完成“依托声音建构一个美好时空”这一使命的基本保证 [23] 。随着AI生成声音参与叙事，AI技术也成为“发声者”，故而，对此进行相应的伦理规约同样至关重要。

（一）声音源头治理与归属权合理判定

AI生成声音对他人声音权益的侵犯，主要是叙事者利用声音大模型克隆他人音色，达成借“他人之口”叙事的目的。对此，可针对不同对象采用相应的声音保护措施。就公众人物的声音保护而言，例如网红、企业家、学界大咖，声音大模型可提前抓取这些公众人物的声音，建立相应的声音数据库，当用户利用大模型平台生成这些知名人物的声音时，大模型平台应停止生成。就普通个体的声音保护而言，大模型平台可以为所生成的声音加入声音水印，当声音存在侵权行为时，采用事后追责的方式进行声音保护。同时，用户也可依据自愿原则提前上传个人声音，以提前防止声音被滥用。具体实现方式，就是在大模型的架构中，加入声音伦理层。以阿里巴巴公布的传统的Transform架构为例，在输入层（Input Layer）之后与输出层（Output Layer）之前加入伦理层（Ethics Layer），以确保AI生成的声音符合伦理规范。具体流程如下：伦理层1（Ethics Layer 1）位于输入层之后，用于检测用户所上传的声源是否属于数据库中的公众人物音色，若不属于公众人物的音色或上传至大模型平台的个人音色，则可正常使用音色克隆等声音功能。伦理层2（Ethics Layer 2）位于输出层之前，目的在于检测大模型平台所生成的声音作品是否违规使用平台数据库中已有的他人声音，以及声音内容是否违背公序良俗或存在敏感词等问题，若生成的声音作品符合声音伦理规范，便可输出；反之，终止输出。基于Transformer架构的伦理层工作流程，同样可以运用到其他大模型建构之中。

目前，关于“生成式AI是不是作者”仍存在争议 [24] ，对于AI生成内容的归属问题，可“借鉴和采取英国等国家关于‘计算机生成作品’的解决路径” [25] 。即将“计算机生成作品”纳入著作权法定的作品类型之中，并将权利归属于“为作品创作提供必要安排或者贡献的人”。根据《中华人民共和国著作权法》第十七条规定，“除电影作品、电视剧作品以外的视听作品著作权归属由当事人约定；没有约定或者约定不明确的，由制作者享有著作权” [26] ，AI生成的声音作品作为新型视听内容的子类，其著作权归属可参照上述规则分析。具体而言，针对具有独创性且能以一定形式表现智力成果的AI叙事或音乐类声音作品，其著作权归属可分为以下三种情形进行判定。一是包含可识别自然人声音的声音作品。“当AI生成的声音可被识别为某个自然人时，该声音所属者享有声音权益。” [16] 利用AI生成声音的创作者，在获得该声音所属者同意后，应享有该声音作品的著作权，声音大模型平台应享有对该平台生成的声音作品的署名权。二是使用AI配音师或创作者本人声音的声音作品。若AI生成的声音作品采用AI配音师的声音或创作者本人的声音，创作者应被认定为该声音作品的著作权人，而AI声音大模型平台作为技术工具的提供者，可主张对该声音作品享有署名权。三是存在事先权益约定的声音作品。AI生成声音的参与主体，即声音所属者、声音大模型平台，提前约定或协商过权益内容，则以事先约定为准。

（二）优化技术模型，重塑声音魅力

AI生成的声音缺乏情感和与身体的连接，这弱化了声音的叙事功能。对此，可以从两个方面优化技术模型，以重塑声音的魅力。一是在声音大模型中引入“可穿戴设备”，用以采集和分析身体动作、生理反应等人体数据，并将人体数据运用到声音大模型之中。在预设大模型时，通过可穿戴设备收集人体在不同情绪和状态下的呼吸频率、心率变化、肢体动作幅度等数据，以及预设叙事场景（如演讲、对话），将这些数据与叙事内容同步关联，作为AI生成声音时调整音高、节奏、停顿等参数的重要依据。在利用声音大模型进行声音创作时，同样可以使用可穿戴设备，收集能反映说者情绪、音色需求等信息，针对性地生成声音作品。例如，记者在报道灾难事件时，进入现场之前佩戴好简易的可穿戴设备，如手表、眼镜，来收集肢体动作、心率、血氧、呼吸等人体数据，在利用AI生成声音报道时，上传相关的人体数据，以此作为数据参考，生成与人体数据相匹配的声音。

二是构建更精细、复杂的情感模型。通过大量真实人类语音样本的分析，挖掘不同情感状态下声音参数的细微变化规律，如不同情绪下语音的音色变化、语调起伏模式等。例如，在表达悲伤时，除了语速变慢、音量降低外，还可能存在音色略带沙哑、某些音节的拖长等特征，将这些特征融入AI算法，使生成的声音能更自然、真实地传达情感。2025年6月17日豆包推出了“AI播客”的功能，通过上传文件和网页链接等方式，实现自动生成播客节目。笔者将一则新闻《演员马景涛直播时突然晕倒在地，发出巨大响声，现场一片混乱》的网页链接上传至豆包后，自动生成了一则1分54秒的对话类播客节目。节目以“欢迎收听豆包AI播客节目”和背景音开头，整个播客节目具有“事件引入 —— 事件现场叙述 —— 节目结束语”的完整结构。从声音内容来看，该播客节目中的男声与女声具有很强的对话感与沟通感，并且伴有“嗯”“啊”“据说呢”“是的是的”“就说”“OK了”“拜拜”等口语化的声音，生成的声音相对自然与真实，但从情感丰富性来看还有很大的提升空间。

（三）声音素养提升与声音鉴伪技术协同

由于声音内容的真实性、人与声音的“剥离”等问题，AI生成的声音可能对倾听者造成认知与情感的混乱。对此，可以根据声音作品中对声音、情节的伪造程度，按照重度、中度、轻度伪造三个等级进行分类，并对其进行针对性处理。“重度伪造”指声音与情节的深度伪造，通过精准模仿特定人物的声音特征，在叙事中以假乱真，从而对倾听者造成严重误导；“中度伪造”指对真实人物声音进行一定程度的修改和拼接，使其在叙事中呈现与真实情况不符的特征，对倾听者造成一定程度的认知困扰；“轻度伪造”是指声音与叙事情节基本符合实际情况，仅对声音进行语速、音量、美化等简单的参数调整，对叙事内容进行细微的删减、增添，不改变声音的基本特征和叙事主体的真实性，对倾听者的认知与情感影响相对较小。

AI平台不仅能够输出符合用户需求的声音内容，还可利用声画同步的口型适配技术，形成“声音+视频”的一体化输出形态，这使得音视频伪造更为逼真，影响信息传播秩序与公众认知，对此或可采用技术鉴别的方式予以应对。如中国传媒大学媒体融合与传播国家重点实验室打造的“白杨智鉴”鉴伪平台，能鉴别AIGC、局部篡改、音频仿声、拼接剪辑等多种类型音视频，为音视频真伪鉴别提供技术支撑。关于意识形态层面的风险把控，“新华较真”平台基于新华社权威报道和庞大新闻稿库，运用大数据、自然语言处理与深度学习等技术，实现对文稿、图片、视频内容的自动化、智能化差错与敏感信息检测。这类意识形态鉴别平台，对于保障AI生成声音参与叙事下的意识形态安全具有重要意义。随着这类鉴别技术的成熟，各平台可引入此类鉴别技术，对发布的音视频进行真伪与意识形态鉴别，尤其是倾听者难以依靠自身的经历或简单的技术进行鉴别的“重度伪造”“中度伪造”的声音作品，利用技术鉴别声音作品的真实性，对减少倾听者认知混乱至关重要。当作品被鉴伪技术鉴定为“重度伪造”且涉嫌侵害他人声音权益时，相关平台应对作品进行下架处理，并向内容发布者发出警示。

自广播、电视等大众媒介普及以来，公众的认知经历了从甄别和抵制大众文化的欺骗，提防大众媒介的“迷药”效应，到人们开始认识到媒介是获取信息的重要途径，不再一味地排斥与批评媒介，再到关注受众如何参与媒介内容的生产和传播等方面的转变。为了抵御伪造、错位的声音叙事作品对倾听者认知与情感的误导，倾听者的声音素养也应被充分重视。在AI生成声音的复杂声音环境中，倾听者的声音素养应当包含以下能力：获取、解读声音信息的能力；辨别声音真伪与叙事逻辑的能力；批判性评估声音价值的能力；抵御伪造声音作品对认知干扰的能力。概之，对于AI生成声音对倾听者造成的认知混乱，可以从鉴伪技术和倾听者声音素养的提升入手，规避叙事接受这一环节的伦理风险。

四、结语

从口语叙事到文字叙事、电子媒介叙事，再到当下生成式AI参与的叙事，技术的每一次跃迁都伴随着伦理的深刻反思，人类始终在探索技术与伦理的平衡之道。对AI生成声音参与叙事的伦理探讨，不仅是对当下声音侵权风险的回应，也是对视觉霸权时代视听失衡趋势的反拨。在技术与叙事的融合环境下，唯有以敬畏之心拥抱技术，以理性之思审视伦理，方能在人机共生的时代浪潮中，守护人类叙事的声音魅力与文化的根脉。

基金项目：论文系湖南省哲学社会科学基金重点项目“基于‘叙事行动者网络’的新闻伦理建构研究”（22ZDB067）的阶段性研究成果；国家社会科学基金一般项目“多元行动者参与新闻叙事的伦理风险与协同治理研究”（25BXW084）的阶段性研究成果。

参考文献：

[1]陈杰.AI表演的知识产权问题研究[J].知识产权，2023（7）.

[2]焦和平，梁龙坤.人工智能合成音乐的著作权风险及其化解[J].知识产权，2023（11）.

[3]陈笑春，李泽林.谁的声音：生成式人工智能语境下声音的主体与权益[J].西南民族大学学报（人文社会科学版），2025（3）.

[4]张炎坤.AI语音合成技术在有声出版中的法律风险及其治理策略：域外经验与中国方案[J].出版科学，2025（3）.

[5]赫明英.人工智能语音合成有声书著作权保护研究[J].中国出版，2023（1）.

[6]赵红勋，王佳慧，段艳文.声音景观视角下的AI有声读物：实践结构、现实隐忧与创新路径[J].出版发行研究，2025（3）.

[7]普林斯.叙事学：叙事的形式与功能[M].徐强，译.北京：中国人民大学出版社，2013：4.

[8]傅修延.听觉叙事研究[M].北京：北京大学出版社，2021：17.

[9]张寅德.叙述学研究[M].北京：中国社会科学出版社，1989：71.

[10]韦恩·布斯.小说修辞学[M].华明，译.北京：北京大学出版社，1987：80.

[11]孔老三官方.单田芳（AI）〈凡人修仙传〉同人有声书[EB/OL].https：//b23.tv/eCaC2gM.

[12]SCHAFFER R M.The Soundscape：Our Sonic Environment and the Tuning of the World[M].New York：Knopf，1977：9-10.

[13]@FOS.王昭君出塞和亲[EB/OL].https：//www.douyin.com/video/7512720673366707519.

[14]@AHTV第一时间.夜晚女生遇“眼盲”老太太求带路[EB/OL].https：//www.douyin.com/video/7582496794899156270.

[15]费孝通.乡土中国[M].北京：北京出版社，2004：13.

[16]宇文所安.中国传统诗歌与诗学：世界的征象[M].陈小亮，译.北京：中国社会科学出版社，2013：67.

[17]北京互联网法院课题组.AI生成声音侵害声音权益的法律认定 —— 以殷某某诉北京某智能科技公司等人格权侵权案为例[J].法律适用，2024（9）.

[18]SCHAFFER R M.The Soundscape：Our Sonic Environment and the Tuning of the World[M].New York：Knopf，1977：43-44.

[19]罗兰·巴特.罗兰·巴特访谈录[M].刘森尧，译.台北：桂冠图书股份有限公司，2004：3.

[20]米歇尔·希翁.声音[M].张艾弓，译.北京：北京大学出版社，2013：310-313.

[21]迈克菲.人为冒名頂替者 —— 网络犯罪分子转向人工智能语音克隆，以获得一种新型的骗局[EB/OL].https：//www.mcafee.com/blogs/privacy-identity-protection/artificial-imposters-cybercriminals-turn-to-ai-voice-cloning-for-a-new-breed-of-scam/.

[22]发现好声音.头号人物“张韶涵”第一人称独白[EB/OL].http：//xhslink.com/o/3kM89wCqwmS.

[23]孙琦，李雪枫.时空德性：声音景观的伦理规约[J].编辑之友，2021（5）.

[24]杨光.生成式AI是作者吗？[J].中国文艺评论，2025（1）.

[25]孙松.人工智能创作内容的作品定性与制度因应[J].科技与出版，2019（4）.

[26]中华人民共和国中央人民政府.中华人民共和国著作权法[EB/OL].（2021-10-29）.https：//www.gov.cn/guoqing/2021-10/29/content_5647633.htm.

来源：东南传播，2026年第2期，总第258期

本文引用格式：华进,苏丹.“自由而负责”的声景：AI生成声音的叙事实践与伦理规约[J].东南传播,2026(2):132-136.

华进苏丹：“自由而负责”的声景：AI生成声音的叙事实践与伦理规约

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

华进 苏丹：“自由而负责”的声景：AI生成声音的叙事实践与伦理规约

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

华进苏丹：“自由而负责”的声景：AI生成声音的叙事实践与伦理规约