孙阳:著作权视域下生成式人工智能的合法性困境及其因应

选择字号:   本文共阅读 463 次 更新时间:2025-05-21 22:50

进入专题: 著作权   生成式人工智能   合法性困境  

孙阳  

 

【摘要】作为创新性的技术应用,生成式人工智能不直接涉及著作权法的制度性评价,既可以是合法的技术过程,也可能是侵犯著作权的违法行为。生成式人工智能的合法性困境不仅造成具体法律行为后果的不确定,还对人工智能的整体技术研发和产业发展产生实质影响。因此,有必要明确生成式人工智能作为著作权合法行为或侵权行为时所产生的价值内涵与潜在影响,为生成式人工智能的治理规则提供价值参照,合理因应生成式人工智能的合法性困境。

【关键字】生成式人工智能;合法性困境;著作权侵权;实质性相似

 

一、引言

生成式人工智能(Generated AI)通过技术运行生成表达性内容如图片、视频、文本以及旋律等,为人类智力开发和生产生活带来革命性的影响,创造性地解放了人类智力劳动的全过程。生成式人工智能技术深入社会文化生产生活的方方面面,深刻影响和改变个体与组织的行为模式与权责分配。部分生成内容通过商业化开发获得经济收益,反映出生成式人工智能逐步拓展文化创意产业的需求市场。[1]同时,这种技术应用依赖大量信息或素材作为内容生成的基础,其中就包括受著作权法保护的音乐作品、美术作品、文字作品等,由此对作品的创作、传播与使用提出了制度性挑战,也为生成式人工智能的合法性埋下了法律隐患。著作权人通过传统著作权侵权之诉对生成式人工智能提出质疑和挑战。[2]生成式人工智能的相关主体如技术研发者、技术使用者以及数据训练参与者等需要厘清生成式人工智能技术运行过程中使用作品的侵权风险,以及可能承担的侵权责任。遗憾的是,著作权法在规制这一不断发展的新技术时必然存在滞后性。[3]生成式人工智能的合法性尚未得到统一、清晰且合理的制度性确认,是导致合法性困境的主要原因。有鉴于此,本文通过分析生成式人工智能的著作权合法性困境,梳理其潜在的侵权风险,对其法律属性进行价值辨析,提出契合技术发展与著作权法律制度目标的因应路径。

二、生成式人工智能的合法性困境:著作权侵权风险

生成式人工智能的合法性生成式人工智能的技术过程是否侵犯著作权,直接影响生成式人工智能参与主体的收益分配与法律责任的承担,[4]进而影响人工智能产业发展的稳定与技术革新的空间。2023年7月,国家七部门联合发布《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),明确规定生成式人工智能服务过程中“涉及知识产权的,不得侵害他人依法享有的知识产权”[5]。《暂行办法》的发布为生成式人工智能的合法性困境提供了规范基础。此外,《中华人民共和国人工智能法(学者建议稿)》将建立和完善知识产权保护作为生成式人工智能的一项基本规则。[6]生成式人工智能的技术过程模拟人脑的思维训练,要求大量、广泛且多样化的信息输入而确保内容生成的效率和质量。[7]这项技术特征不可避免地导致未经许可使用作品的侵权风险。著作权“自动保护原则”使作品权属存在较大的不确定性,加剧了生成式人工智能的合法性风险。[8]因此,分析生成式人工智能的合法性困境需要结合著作权侵权规则对技术过程的基本特征进行梳理。

(一)生成式人工智能的输入阶段:未经授权的作品复制行为

生成式人工智能在内容生成领域的技术特征有别于传统技术应用。从历史上看,自动钢琴、打印机、计算机等就技术设备而言都具有生成文本、图片与音乐等表达性内容的功能。以上技术设备的生成机制往往被动地遵循人工指令的要求,缺乏生成过程的灵活性和自主性。[9]经历多年的技术发展和产业实践,生成式人工智能得以充分地通过图灵测试。[10]不同于传统设备的生成机制,生成式人工智能采用大语言模型(Large Lan-guage Model,short for LLM)为代表的技术,将复杂的输入信息依托机器学习过程转化为类型化的表达内容。譬如OpenAI公司研发的聊天机器人程序ChatGPT可以针对简单的对话提问,通过自然语言程序(Natural Language Program)的运行生成类型相同的文本回答,并实现对话提问与文本回答之间的逻辑体系关联与前后文互动特征。[11]

大语言模型为代表的生成机制的高效性与多元性建立在大量信息输入基础上。在著作权侵权规则视角下,生成式人工智能信息输入行为等同于未经授权地大量使用著作权作品,而大语言模型为代表的技术应用则为侵权的发生提供了技术便利。在此情况下,著作权人针对生成式人工智能发起著作权侵权之诉也不难预料。2023年1月,美国艺术家与插画家群体向3家生成式人工智能研发公司发起集团诉讼,诉称被告设计研发的生成式人工智能应用未经授权使用其创作的图片训练生成式人工智能的行为,侵犯了其美术作品的著作权。[12]

生成式人工智能的技术过程发端于信息输入,而信息输入本质上属于一种复制行为。著作权权利行使的基础是作品复制行为的专有控制,作品的开发和使用也需要复制权作为前提。[13]早在1793年法国就颁布了《复制法令》明确规定作者对其作品享有“复制、发行或授权他人复制、发行的专有权”。[14]世界知识产权组织(WIPO)的《版权条约》(WCT)与《表演和录音制品条约》(WPPT)都明确规定《伯尔尼公约》中的复制权完全适用于数字环境,尤其是数字环境下使用作品的情形。[15]我国《著作权法》也规定了“数字化方式将作品制作一份或多份”作为复制权行使的方式之一。[16]因此,生成式人工智能的信息输入行为也满足数字环境下复制作品的行为特征。理论上,著作权人对于生成式人工智能可以基于作品未授权地复制性使用而发起著作权侵权之诉,主张生成式人工智能的相关主体承担著作权侵权的法律责任。这也构成了生成式人工智能输入阶段的合法性困境之一。

著作权司法实践中未经授权的复制行为需要考察被告接触作品与否以及侵权作品与受保护作品的相似程度等两方面。接触意味着被告具有实施复制行为的可能性;相似程度则指明了行为的客观结果。侵权人实施未经授权的复制行为往往比较隐蔽,即“剽窃主体很少公开实施侵权性复制行为,直接证据往往难以获得”[17]。此时,接触作品可以作为推定来证明被告实施了未经授权的复制行为。例如,在“琼瑶诉于正”案中,法院认为“被告接触作品可以是一种推定……被诉侵权人依据社会通常情况具有获知权利人作品的机会和可能,可以被推定为接触”[18]。

由于生成式人工智能以实现特定功能为运行目标,输入阶段一般以具有明确意义的内容为肇始。[19]这就导致生成式人工智能接触作品的情况是不可避免的。如果生成式人工智能相关主体以规避著作权侵权风险为目的减少输入阶段的信息要素,那么人工智能的技术运行能力和竞争性又可能受到负面影响。因此,生成式人工智能的输入阶段基于技术特征很容易导致未经授权的作品复制行为。

(二)生成式人工智能的输出阶段:实质性相似的评估

生成式人工智能在输入端面临未经许可复制的合法性困境,其在输出阶段的生成内容同样面临著作权侵权风险,即生成内容是否与输入作品构成实质性相似。“接触+实质性相似”是著作权侵权的基本构成要件。[20]实质性相似的判定规则及其理论构成发端于美国著作权的个案审理过程,成文法对实质性相似的内涵未予澄清。[21]美国学者威廉·帕特里基于作品的构成将实质性相似划分为两个层次,即“作品媒介层次的相似性与作品表达内容的相似性”[22]。媒介的实质性相似依托于作品表达的实质性相似,专属于著作权侵权诉讼中的原告,且同时出现在原告作品与被告作品中。简言之,威廉·帕特里认为实质性相似是著作权侵权诉讼中原、被告的作品出现了独创性表达重叠的情况。

由于缺少成文法的指引以及个案事实的差异,美国法院在判断原、被告作品的实质性相似时遵循的判定方法并不一致。例如,第二巡回上诉法院的“抽象检测法”(ab-straction test)即通过剔除作品表达中具有区别的部分,保留具有普遍适用性的内容,重复该步骤直到提炼后的表达不再具有实质性相似的可能。[23]第九巡回上诉法院的“整体概念与感知”方法则认为尽管部分被复制的表达性要素不能单独受到著作权法保护,但相同表达要素的使用和组合达到了相似的程度,以至于被告已经复制了原告的“整体概念和感觉”,足以建立原、被告作品之间的实质性相似。[24]

实质性相似的判定方法本质上都要求对著作权诉讼中原、被告作品进行作品媒介与作品表达之间的分离、提炼与比较之基本步骤,以此判断是否存在独创性表达之间的重叠部分。作品要素的分离是实质性相似在著作权侵权判定过程中的一项共性,也意味着通过实质性相似建立著作权的侵权判定需要结合个案事实进行区分。既然实质性相似要求侵权作品与原作品存在实质联系且围绕独创性表达形成重叠部分,那么生成式人工智能的输出内容是否与输入信息(作品)也存在符合实质性相似的类似特征?

回答这一个问题的前提在于厘清生成式人工智能的技术特征。以大语言模型为例,大语言模型通过机器学习方式“整合潜在、抽象的概念,回归模型基础上建立输入信息与输出内容之间的随机关联性,区别于自然人的认知关联学习模式”[25]。大语言模型运用自动编码(autoencoder)技术整合信息输入过程中的潜在概念而生成具体内容。[26]自动编码是从输入信息中提取抽象特征再进行特征的重构,进而生成新的特征组合的一种技术过程。[27]通过自动编码技术对输入信息进行抽取后分解相关特征,再将相关特征按照一定逻辑进行重新组合。需要说明的是,尽管从表面上看,自动编码技术过程中的“抽取—分解—重构”步骤形式类似于著作权实质性相似分析过程中的作品要素分离与整合,但其本质上并未在技术设定中要求输入信息与输出内容在逻辑层面上相互对应。

实质性相似要求侵权作品与著作权作品之间在独创性表达方面出现内容重叠,本质上是侵权人主动使用著作权作品且在独创性表达内容层面建立侵权作品与著作权作品之间的具体逻辑关联。[28]生成式人工智能基于自动编码技术在输入信息与输出内容不直接体现实质性相似相关的逻辑联系。缺乏侵权人的具体使用特定作品的指令,生成式人工智能不能保证生成侵权人意图获得的作品的独创性表达。[29]

生成式人工智能的技术特征是否可以从根本上规避著作权侵权风险,尤其是实质性相似的判定标准?答案是否定的。涉及著作权虚拟形象的侵权争议,生成式人工智能必须面对著作权保护的特殊标准与实质性相似的判定风险。受著作权保护的虚拟形象一般源自于小说、漫画、电影等艺术创作,要求“足够具体且具有独特性”。[30]虚拟形象并不需要作为小说、漫画或电影等作品的核心内容或主要部分,只需要保证以上特征可以充分识别。[31]实质性相似判定大大降低了虚拟形象的著作权人的举证难度,增加了生成式人工智能的著作权侵权风险。这一点在以图文生成为服务模式的生成式人工智能数据训练过程中尤为明显。在广州互联网法院审理的首例AIGC著作权侵权案件中,生成式人工智能平台因“生成图片与原告作品存在实质性相似”而被法院判决承担侵权责任。[32]

三、生成式人工智能的二元属性及其价值辨析

合法行为与侵权行为共同构成了生成式人工智能在著作权法层面的二元法律属性。必须承认的是,生成式人工智能无论是作为合法技术还是侵权应用都会对人工智能的整体技术研发和产业发展产生实质影响。因此,有必要明确生成式人工智能作为著作权合法行为或侵权行为时所产生的价值内涵与潜在影响,为生成式人工智能的治理提供价值参照。

(一)生成式人工智能属于合法行为

生成式人工智能属于合法行为是指,其使用作品的行为合法性得到著作权法的确认,其合法性依据或者是来自于著作权人的许可,或者是来自于法律的规定。现阶段,有部分国家或地区在著作权法中明确了生成式人工智能特定技术应用的例外情形。例如,欧盟通过增设“数据挖掘的限制与例外”(以下简称“TDM例外”)明确了未经著作权人许可的数据训练行为在一定情形下不构成侵权;美国法院在解释合理使用规则时为生成式人工智能行为创造了合法性空间;日本著作权法中规定了包含人工智能特征的“计算机信息处理”行为可以豁免著作权侵权责任。[33]

确认生成式人工智能使用作品的合法性,意味着著作权人不能通过著作权诉讼限制使用作品的行为,且作品使用者不需要承担著作权侵权的法律责任。这将对于鼓励生成式人工智能的技术发展和特定技术应用的推广产生正面影响。例如,文本数据挖掘技术通过自然语言处理(Natural Language Processing,NPL)将文本信息或数据的结构进行转化,提升数据信息的获取能力并提高科学研究效率,为商业应用模式的开发和转化奠定基础。[34]同时,文本数据挖掘技术能够为生成表达性内容提供技术支持。这一点实际上与著作权法律制度鼓励文学、艺术及科学领域独创性表达内容的创作与传播具有一定的相关性:文本数据挖掘技术过程中对作品的提取、复制、传输及使用等环节原则上属于著作权人的专有权范围。为了突破著作权专有范围的限制,部分国家或地区将文本数据挖掘技术规定为一种合法使用作品的例外情形,明确生成式人工智能的文本数据挖掘技术应用在著作权制度中的合法性,鼓励和推动生成式人工智能技术的发展和推广。[35]

确认生成式人工智能在著作权法层面的合法性,也有助于解决作品授权许可过程中存在的市场失灵问题。著作权权利行使的主要方式包括作者直接使用作品和进行作品的授权许可,后者可以增加著作权作品的使用频率、扩大作品的使用范围以及增加使用收益。[36]问题在于,授权许可条件下作为商品的著作权作品投入市场必然需要面对市场失灵的潜在问题。[37]作品授权许可的市场失灵即作品在著作权人与作品使用者之间的交易行为难以实现理想的市场结果,尤其是作品授权许可的交易成本过高导致作品使用者无法与著作权人达成一致,[38]不仅使著作权人无法通过许可市场获得收益,还妨碍了基于许可而进行的改编、演绎、注释、整理等后续使用,根本上背离了鼓励作品创作和传播的著作权制度目标。

解决著作权层面的市场失灵问题需要承认和正视作品使用的客观需求和现实价值。生成式人工智能回应了使用作品生成文本、图片、音乐以及视频等表达性内容的使用需求,拓展了生成内容的市场需求,培育了生成内容的市场价值。具有合法性的生成式人工智能可以补充传统的著作权作品授权许可模式,提供使用作品的技术支持。同时,确认生成式人工智能合法性将大大降低此项技术应用在设计研发、设备测试、推广宣传等阶段所遭遇的法律成本,为生成式人工智能的社会服务提供了议价空间。

(二)生成式人工智能属于著作权侵权行为

生成式人工智能的合法性困境存在于两个层面:其一是输入阶段可能产生的未经授权复制作品行为,其二是输出阶段的生成内容与著作权作品之间可能产生的实质性相似。换言之,生成式人工智能的整个技术运作过程都处于著作权法调整之下。这意味着生成式人工智能的技术研发与产业发展不得不受制于著作权法的规范效力。当生成式人工智能被确认为侵犯著作权的行为时,著作权人不仅可以针对某一具体行为造成的损害寻求救济,还可能对同一模式的作品使用行为产生威慑和限制效应。

根据著作权法的基本侵权原则与权利人受保护的权利关系,著作权侵权行为包括直接侵权与间接侵权。其中,直接侵权即未经著作权人许可对其作品非法行使作者专有权的行为;间接侵权则在直接侵权行为发生的基础上,行为人自觉或不自觉地参与侵权过程,为著作权侵权提供便利。[39]

由于生成式人工智能的技术过程属于复合型技术应用,参与主体一般包括人工智能技术研发者、人工智能设备所有者、训练数据提供者、数据训练操作者以及生成内容使用者。[40]上述参与主体在生成式人工智能技术过程中可能出现身份重合的情况,如技术研发者与设备所有者重合,训练数据提供者与数据训练操作者重合,或数据训练操作者与生成内容使用者重合等。当生成式人工智能属于著作权侵权行为时,上述参与主体都有可能作为直接侵权人或间接侵权人承担相应责任。

从理论上说,承担著作权侵权责任的主体越多,越有利于著作权人获得充分救济。但参与生成式人工智能技术过程的复数主体增加了著作权人筛选合理维权对象以及进行权利救济的难度。只有确定恰当的维权对象,才能有效地惩罚侵权行为人并遏制类似侵权行为,也才能够保障著作权人获得充分的损害赔偿。在充分考虑不同类型参与主体对于生成式人工智能的影响后,技术研发者和设备所有者分别从软件和硬件的两个层面对生成式人工智能技术过程产生关键影响。实践中,生成式人工智能的著作权侵权纠纷一般也以生成式人工智能的研发者和设备所有者等人工智能相关技术企业作为被告。[41]

尽管以生成式人工智能技术企业作为被告,对著作权人而言是合理的维权对象,但也不可忽视侵权责任对被告乃至相关产业带来的负面影响。生成式人工智能技术企业作为被告,最有可能面临的侵权责任形式是停止侵害和赔偿损失,这也是各国以著作权为代表的无形财产权制度中,最主要的民事救济措施。停止侵害是一种物权请求之诉,权利人既可以请求侵权人停止侵害,也可以请求法院责令侵权人停止侵害;请求停止侵害既包括“已经产生之侵害,也包括可能出现之侵害”[42]。停止侵害意味着生成式人工智能完全停止技术运行,不得继续使用侵权性技术。这对于技术企业的研发投入、人力资源消耗、产品销售推广以及市场竞争都会造成难以估量的损失。赔偿损失作为一种债权之诉,即对“权利人的损失要求侵权人以一定数额的金钱予以赔偿”[43]。赔偿责任的制度功能不仅在于充分赔偿权利人的实际损失,还兼有剥夺侵权人的侵权收益,以达到对侵权行为否定、遏制与惩罚的制度目的。[44]赔偿损失对生成式人工智能技术企业来说,是在正常的技术产品研发、测试、制造、宣传与销售推广之外承担的经济成本,在数额巨大的情况下将会干扰甚至中断企业的正常经营周期。

将生成式人工智能技术应用认定为侵权的负面影响不限于特定的被告,还将波及整个产业应用和商业开发。生成式人工智能可以提高作品输入与表达内容生成的效率,提供社会公众具有作品外在表现形式的表达内容,满足社会公众对于文本、图片、音乐以及视频等表达形式内容的多元需求。[45]根据麦肯锡公司于2023年4月的一项调查,79%的受访者表示在工作中或工作之外尝试生成式人工智能;在采用生成式人工智能的商业组织中,有40%表示将增加对生成式人工智能应用的投入。[46]如果将生成式人工智能界定为侵权,必然对已经形成规模的生成式人工智能产业应用与商业开发造成负面影响。

著作权法的政策功能之一在于鼓励文学、艺术和科学领域的作品有效的创作和传播,丰富社会层面的独创性表达。[47]生成式人工智能的二元属性及其价值辨析涉及生成式人工智能技术发展与著作权作品保护的权衡。著作权法应如何应对生成式人工智能技术应用中不可避免的作品使用?应当承认的是,生成式人工智能提高了特定条件下文学、艺术和科学领域内表达性内容生成的效率。在不受限制的情况下,生成式人工智能可以高效地处理文字、图片、音乐、视频等作品信息。当生成的表达性内容在外在形式上接近乃至超越作者创作的独创性表达,作品使用者有什么理由坚持从传统途径获得作品使用许可,而不通过生成式人工智能满足作品使用需求?[48]当技术发展使上述假设逐步实现,人工智能生成内容能够以极低的成本满足公众对作品的需求时,著作权法通过赋予作者排他性权利以促进作品创作和传播的制度设计就不具有理论层面的绝对性。

四、合法性困境的因应路径:规则设计与行业自治

梳理和分析生成式人工智能的二元属性及其价值内涵为著作权法全面有序地因应生成式人工智能的合法性困境提供了规范基础和应对参照。作为合法性技术应用的生成式人工智能可以为人工智能产业发展、作品的充分使用与生成内容的市场开拓提供技术支持,但一定程度上会压缩著作权的边界,降低授权许可的收益预期。反观作为侵权性技术应用的生成式人工智能,其面临的责任风险将给人工智能技术推广与生成内容的使用空间带来消极影响。总体而言,明确生成式人工智能的法律属性必须遵循著作权法上的利益平衡原则,兼顾作者、著作权人的利益与技术应用的创作空间,[49]通过规则设计与行业自治来协调这两方面是较为合理的路径选择。首先,著作权制度的规则设计应当有利于推动生成式人工智能技术广泛应用于表达性内容的输入、分析、处理以及生成,提高表达性内容的生成和传播,满足社会公众的精神文化需求;其次,行业自治规范应当体现对著作权的尊重和保护,引导行业成员规避著作权侵权风险,保障技术过程的合法性;还应当引导使著作权人认识到生成式人工智能对开拓新的作品市场具有重要意义,协力探寻多元化的授权许可模式以满足市场需求。

(一)规则设计路径:宏观定义与具体标准

通过著作权法明确生成式人工智能的法律属性能够为生成式人工智能技术提供稳定发展的空间和安全研发的方向,为生成式人工智能参与主体的行为模式提供明确指引,降低生成式人工智能的法律风险。现阶段,各国对于生成式人工智能的立法规定仅限于文本数据挖掘为代表的特定技术应用,不能普遍适用于生成式人工智能的不同技术类型;不同法院在个案审理中也难以形成清晰、统一的合法性标准。因此,需要通过体系化的规则设计将生成式人工智能的技术过程纳入著作权法的规制范畴。体系化的规则设计包括两个方面:首先,对合法行为作出宏观定义;其次,对合法行为设定具体标准。通过宏观定义扩大合法行为的适用范围,依托具体行为标准引导主体的行为模式,也为后续生成式人工智能的著作权立法提供方向性的指引。

1.明确合法行为的宏观定义

明确合法行为的宏观定义即明确生成式人工智能在何种情况下使用作品的行为不属于著作权侵权行为,以保证生成式人工智能的合法性。考虑到有的国家和地区已经在著作权立法实践中规定了特定生成式人工智能技术应用作为著作权的例外情形,可以围绕特定的技术应用给合法行为下定义。例如,基于类型化文本数据挖掘技术的基本特征来定义生成式人工智能的合法行为,可以表述为:一种自动处理数据化内容信息,包括文本、图片、数据、声音、图像或其他数据形式内容,或上述要素的组合的人工智能技术,以获得新功能、新信息或新知识为主要目的。

应当注意的是,以上基于类型化技术特征的定义不是合法行为定义的核心内容。通过生成式人工智能获得功能、信息与知识等区别于作品独创性表达的功能目标才是生成式人工智能合法性的主要标准。合法行为的宏观定义具有一定开放性,可以灵活涵盖生成式人工智能的主要技术类型,为技术革新保留调整的空间。以获得和使用独创性表达之外的内容作为人工智能行为合法性的评判标准,既使著作权人得以明确自身权利的边界,也有助于人工智能技术企业在技术研发、数据测试、应用推广以及商业开发等环节主动规避侵权风险。

2.确立合法行为的具体标准

体系化的规则设计还应当考虑合法行为的具体标准,为生成式人工智能参与主体的行为决策提供明确、清晰且具体的规范参照。合法性标准的明确有利于相关主体安全、充分地运用生成式人工智能技术,生成多元、高效、安全与高质量的生成内容,丰富社会公众对于表达性内容的多层次需求。[50]鉴于生成式人工智能的合法性困境包括未经授权的复制行为以及生成内容与著作权作品之间的实质性相似两个方面,因此,合法行为的具体标准应当基于这两个层面进行设计,以便更好地协调生成式人工智能技术应用与著作权保护之间的冲突。生成式人工智能使用作品行为的合法性具体标准应当包括但不限于以下几点:(1)允许基于数据训练技术运行而必须进行的复制行为,如人工智能软件、硬件设备的检测、维修等基本技术步骤和技术流程;(2)允许基于标注或注释目的的生成行为,用于清晰标识生成内容的属性和来源;[51](3)允许基于人工智能设备相关信息的暂存、缓存、验证等功能性行为。

以上标准并未就生成式人工智能应用的商业性或非商业性作出规定。这是因为,限制商业应用可能会干扰生成式人工智能的产业发展,迫使人工智能技术团队谨慎对待商用技术模式的开发和技术应用的潜在场景,限制生成式人工智能的潜在产业价值。

(二)行业自治路径:生成式人工智能的行业标准

生成式人工智能作为技术应用,其发展状态必然领先于著作权制度规则。[52]单纯通过制度规则设计解决生成式人工智能的合法性困境无法克服制度规则的滞后性问题。行业自治是对规则设计路径的必要补充,通过行业标准规范化管理生成式人工智能的技术过程,主动降低业内企业与著作权人之间发生纠纷和诉讼的几率,降低法律风险。考虑到生成式人工智能一般由研发平台进行应用推广,行业标准应基于人工智能平台的技术特征来统筹制定。

Sable Diffusion、Midjourney、SORA等人工智能平台运用大模型对文本、图片或视频进行输入和生成,以之为对象进行统筹管理更具效率。这一点已为规制网络服务提供者的实践经验所印证。[53]不同于传统的网络服务提供者的是,生成式人工智能平台一般需要大量数据内容的输入作为生成式人工智能的基本技术前提,对输入内容合法性的区分能力并不理想。此外,生成式人工智能遵循用户指令展开技术过程,一般不直接使用受保护的独创性表达,而是对信息进行提炼来完成生成式人工智能的技术过程。综上分析,不宜对生成式人工智能及其平台施加过于严格的审查义务。要求生成式人工智能在输入阶段就对作品进行严格审查,不仅可能增加额外的运行成本,也会造成过度审查的潜在风险。因此,生成式人工智能的行业标准需要结合生成式人工智能的技术特征及其平台属性来设计,尤其考虑设计著作权作品的使用情形。

行业标准可以包括以下几方面:(1)生成式人工智能应添加数据重复删除功能(de-duplication),对包括作品在内的输入信息及时予以删除。[54]数据重复删除功能可以确保人工智能平台不储存任何作品相关的数据信息,降低生成内容基于储存作品的关联而导致的实质性相似的风险,又能够降释放数据冗余,降低数据训练的储存成本。(2)利用强化学习机制在生成式人工智能技术过程中提升生成内容的多样性。例如,Open AI公司利用强化学习实现ChatGPT对话模型从用户角获取更多差异化的信息输入,实现生成内容的多样性特征。[55]基于自然人用户思维模式的独特性而实现的技术特点,可以在一定程度上避免生成内容因实质性相似产生著作权侵权风险。(3)对于侵犯虚拟形象著作权的风险,生成式人工智能应当在技术设置上排除具体描述的信息内容。图文关联的输入信息应当避免描述层面的独特性,即尽可能避免过于具体和典型的某类作品或作品内容的细节或个性化描述。将虚拟形象涉及的个性化描述转化为通用、抽象的信息表达,例如删除具体日期或时间节点、具体地理位置、虚拟人物的姓名等。(4)记录生成式人工智能使用者的相关信息。生成式人工智能的运行是基于使用者发出的具体指令而开启的、有特定目标的技术过程。生成式人工智能既不会自动运行,也无法事先判断并拒绝使用者的具体指令和使用过程。因此,在技术层面上对使用者相关信息予以记录,能够在著作权侵权风险发生后明确相关主体责任,这也是一种责任风险的防范措施。

五、结语

生成式人工智能作为技术革新和新质生产力的典型,通过技术迭代和应用创新,深刻地改变了文本、图片、音乐以及视频等表达性内容的生产方式,提供了丰富的、多元化的表达性内容以满足社会需求,显著地改变了社会生产和行为模式的底层逻辑。智力创造活动不再受限于天赋能力或资源基础等主观、客观条件,而是通过生成式人工智能降低了门槛,拓宽了表达性创造的受众范围。生成式人工智能的技术过程对作品使用与著作权保护提出了实质性的挑战。一方面,基于作品复制进行数据训练是生成式人工智能实现技术特征的主要方式,而未经许可的复制作品行为往往容易落入著作权侵权判定的范畴。另一方面,生成内容与作品的独创性表达基于大语言模型机制可能产生实质相似的部分。因此,生成式人工智能的合法性困境表现为未经许可的复制行为以及生成内容与作品的实质性相似所引发的著作权侵权风险。

生成式人工智能在著作权法层面二元属性是著作权法律制度应对生成式人工智能为代表的技术应用的制度性结果。若将生成式人工智能界定为合法行为,则生成式人工智能可以拓宽适用场景和培育市场需求,通过生成内容满足社会公众的多元化需要,并推动解决著作权作品授权许可的市场失灵问题。反之,若将生成式人工智能界定为侵权行为,则生成式人工智能的参与主体便面临侵权责任,给产业发展和技术革新造成负面影响。因此,本文通过分析生成式人工智能技术运行的合法性困境,从著作权法律规范与生成式人工智能行业自治规范两方面为生成式人工智能的合法运行搭建规范架构,以便为今后的立法、司法和行政执法提供理论参考。

(责任编辑:陈晓屏)

【作者简介】

孙阳:中国政法大学民商经济法学院副教授,法学博士。

【注释】

[1]Jeanna Bryner,Creepy AI-Created Portrait Fetches$432,500 at Auction,https://www.livescience.com/63929-ai-crea-ted-painting-sells.html,2024年10月15日访问。

[2]2023年12月《纽约时报》以著作权侵权起诉微软和OpenAI,主张ChatGPT训练数据中使用其作品的行为构成著作权侵权。又如,2024年3月,法国竞争管理局宣布对谷歌处以2.5亿欧元罚款,认为谷歌人工智能服务对受著作权保护内容的使用未能按其承诺与权利人进行谈判并合理支付许可费用。

[3]参见吴汉东:《人工智能时代的制度安排与法律规则》,载《法律科学(西北政法大学学报)》2017年第5期。

[4]参见孙阳:《人工智能生成行为的决策标准》,载《海峡法学》2024年第1期。

[5]《生成式人工智能服务管理暂行办法》第7条。

[6]《中华人民共和国人工智能法(学者建议稿)》第23条第1款。

[7]参见[美]杰瑞·卡普兰:《人工智能时代》,李盼译,浙江人民出版社2017年版,第24页。

[8]参见林雪标、陈媛滢:《论人工智能“创作物”著作权归属争议及化解对策》,载《海峡法学》2022年第4期。

[9]Paul Goldstein,Copyright’s Highway,From the Printing Press to the Cloud,Standford University Press,2019,p.132.

[10]图灵测试即一名测试者写下自己的问题,随后将问题以纯文本的形式(如计算机屏幕和键盘)发送给另一个房间中的一个人与一台机器。测试者根据他们的回答来判断哪一个是真人,哪一个是机器。所有参与测试的人或机器都会被分开。这个测试旨在探究机器能否模拟出与人类相似或无法区分的智能。

[11]参见王鹏:《ChatGPT赋能数字经济发展新模式》,https://column.chinadaily.com.cn/a/202302/18/WS63f0c245a3102ada8b22f988.html,2024年10月15日访问。

[12]Min Chen,Artists and Illustrators Are Suing Three A.I.Art Generators for Scraping and Collaging Their Work Without Con-sent,https://usaartnews.com/news/artists-and-illustrators-are-suing-three-ai-art-generators-for-scraping-and-colla-ging-their-work-without-consent,2024年10月15日访问。

[13]参见梁志文:《论演绎权的保护范围》,载《中国法学》2015年第5期。

[14]来小鹏:《知识产权法学》,中国政法大学出版社2019年版,第115页。

[15]《世界知识产权组织版权条约》第1条第4款;《世界知识产权组织表演和录音制品条约》第1条第2款。

[16]《中华人民共和国著作权法》第10条第1款第5项。

[17]Johnson v.Gordon,409 F.3d12,18(1st Cir.2005)。

[18]北京市高级人民法院(2015)高民(知)终字第1039号民事判决书。

[19]Mark Jackley,What is Large Language Model(LLM)?https://www.oracle.com/artificial-intelligence/large-language-model/,2024年10月15日访问。

[20]吴汉东:《试论“实质性相似+接触”的侵权认定规则》,载《法学》2015年第8期。

[21]参见阳贤文:《美国司法中实质性相似之判断与启示》,载《中国版权》2012年第5期。

[22]William F.Patry,Partyon Copyright,Thomson West,2007,p.59.

[23]Nichols v.Universal Pictures Co.,45 F.2d119,121(2d Cir.1930)。

[24]Roth Greeting Cards v.United Card Co.,429 F.2d1106,1110(9th Cir.1970)。

[25]Large Language Model,https://en.wikipedia.org/wiki/Large-language-model,2024年10月15日访问。

[26]See Ian Stenbit,A Walk Through Latent Space with Stable Diffusion,https://keras.io/examples/generative/random_walks_with_ stable_ diffusion/,2024年10月15日访问。

[27]参见[美]雷库兹·韦尔:《人工智能的未来》,盛杨燕译,浙江人民出版社2016年版,第171页。

[28]参见许波:《著作权保护范围的确定以及实质性相似的判断——以历史剧本文字作品为视角》,载《知识产权》2012年第2期。

[29]参见吴汉东、刘鑫:《生成式人工智能的知识产权法律因应与制度创新》,载《科技与法律(中英文)》2024年第1期。

[30]See Jani McCutcheon,Works of Fiction:The Misconception of literary Characters as Copyright Works,66 Journal of Copyright Society of the USA115,123-124(2018)。

[31]See generally DC Comics v.Towle,802 F.3d1012,1021(9th Cir.2015);also see Gaiman v.McFarlane,360 F.3d644,660(7th Cir,2004)。

[32]广州互联网法院(2024)粤0192民初113号民事判决书。

[33]欧盟规定的“数据和文本挖掘”指的是包括AI技术在内分析数字形式的文本和数据,以获得有关模式、趋势和相关性信息的任何自动化分析技术,相关规定参见《单一数字市场版权指令》(Directive EU2019/790)序言第8段及第2条第(2)项。关于美国作品合理使用规则的适用,参见Benjamin L.W.Sobel,Artificial Intelligence’s Fair Use Crysis,41 Columbia Journal of Law&Arts.45,58-59(2017)。关于日本著作权法的具体规定,参见日本《著作权法》第30条之4规定。

[34]典型的商用文本数据挖掘工具如IBM公司的Intelligent Miner,SAS公司Enterprise Miner,SPSS公司Clementine等。

[35]参见侯海军:《多国将挖掘文本与数据行为纳入著作权合理使用范围》,https://www.chinacourt.org/article/detail/2023/06/id/7335115.shtml,2024年10月15日访问。

[36]See Mark A.Lemley,The Economics of Improvement in Intellectual Property Law,75 Texas Law Review989,990-992(1997)。

[37]See Wendy J.Gordon,Fair Use as Market Failure:A Structural and Economic Analysis of the Betamax Case and Its Predeces-sors,30 Journal of Copyright Society of the USA253,254-255(1983)。

[38]参见[美]威廉·兰德斯、理查德·波斯曼:《知识产权法的经济结构》,金海军译,北京大学出版社2016年版,第45页。

[39]参见冯晓青:《知识产权法》(第6版),中国政法大学出版社2015年版,第155页。

[40]See Margaret A.Boden,AI,Its Nature and Future,Oxford University Press,2016,p.97.

[41]See e.g.Getty Images(US),Inc.v.Stability AI,Inc.,No.1:23-cv-00135-UNA(D Del.Feb.3,2023);Anderson et al.v.Stability AI ltd.et al.,Docket No.3:23-cv-00201(N.D.Cal.Jan.13,2023)。

[42]吴汉东:《无形财产权基本问题研究》,中国人民大学出版社2013年版,第133页。

[43]杨立新:《侵权损害赔偿》(第6版),法律出版社2016年版,第239页。

[44]参见王磊、赵春艳:《论完全赔偿原则的演进和方向》,载《海峡法学》2023年第1期。

[45]多元使用需求包括商业层面的聊天机器人、虚拟工作助手、音乐创作辅助等,参见《生成式人工智能概要》,ht-tps://www.accenture.cn/cn-zh/insights/generative-ai,2024年10月15日访问。

[46]See Michael Chui,The State of AI in2023:Generative AI’s Breakout Year,https://www.mckinsey.com/~/media/mckinsey/business%20functions/quantumblack/our%20insights/the%20state%20of%20ai%20in%202023%20generative%20ais%20breakout%20year/the-state-of-ai-in-2023-generative-ais-breakout-year_ vf.pdf,2024年10月15日访问。

[47]参见吴汉东:《知识产权中国化应用研究》,中国人民大学出版社2013年版,第284页。

[48]参见邓南孜、张轩:《AI绘画与原创画师:关于未来,我们依然在求解|特稿》,https://www.thepaper.cn/newsDe-tail_ forward_ 25274239,2024年10月15日访问。

[49]参见冯晓青:《著作权法的利益平衡理论》,载《湖南大学学报(社会科学版)》2008年第6期。

[50]See Amanda Levendowski,How Copyright Law Can Fix Artif icial Intelligence's Imp licit Bias Problem,93 Washington Law Re-view579,606-607(2018)。

[51]部分国家政府已经要求生成式人工智能技术公司主动对其生成内容进行标识,明确生成内容的属性和来源。SeeFACT SHEET:Biden-Harris Administration Secures Voluntary Commitments from Leading Artificial Intelligence Compa-nies to Manage the Risks Posed by Al,https://www.whitehouse.gov/briefing-room/statements-releases/2023/07/21/fact-sheet-biden-harris-administration-secures-voluntary-commitments-from-leading-artificial-intelligence-companies-to-man-age-the-risks-posed-by-ai/,2024年10月15日访问。

[52]参见张平:《人工智能生成内容著作权合法性的制度难题及其解决路径》,载《法律科学(西北政法大学学报)》2024年第3期。

[53]参见丛立先、李泳霖:《人工智能文生视频大模型的作品风险、著作权归属及有效治理》,载《新疆师范大学学报(哲学社会科学版)》2024年第6期。

[54]See Nikhil Kandpal,Deduplicating Training Data Mitigates Privacy Risks in Language Models,https://arxiv.org/abs/2202.06539,2024年10月15日访问。

[55]See John Schulman,Introducing ChatGPT,https://openai.com/index/chatgpt/,2024年10月15日访问。

    进入专题: 著作权   生成式人工智能   合法性困境  

本文责编:SuperAdmin
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 法学 > 经济法学
本文链接:https://www.aisixiang.com/data/162856.html
文章来源:本文转自《海峡法学》2025年第1期,转载请注明原始出处,并遵守该处的版权规定。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。

评论(0)

Powered by aisixiang.com Copyright © 2024 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统