邓盼.大语言模型是否真的具备创造力?[J].华中科技大学学报(社会科学版),2026(3):1-13.
摘要:大语言模型在各类基准测试中的卓越表现,往往掩盖了“技能表现”与“深层智能”之间的内在认识论割裂问题。当前学界亟须超越“高分即高智能”的表象认知,深入探析智能的本质内涵。作为“人工智能创造力”的典型代表,大语言模型既非简单的机械式“哈希表”,亦非对人类心智的完全复刻,其在动力来源、具身经验关联及创造性机制方面与人类智能存在本质差异。科尔滕巴赫等人提出的EPPE(实体—过程—命题—环境)框架,为系统解析该差异提供了重要理论范式。然而,既有研究在“智能体人工智能”与“世界模型”方面的创造力评估尚存空白,因此,为匹配大语言模型、智能体人工智能与世界模型之间的动态演进关系,构建EPPE层级化评估体系(从EPPE 1.0到EPPE 3.0)具有重要理论意义。该评估体系不仅有助于解析人工智能创造力的演化路径,也为其理论自洽性提供了系统评估依据。
关键词:大语言模型;创造力;EPPE框架;智能体;世界模型
引言
在人工智能迅猛发展的浪潮中,大语言模型于各类基准测试中不断刷新性能纪录。然而,我们必须清醒地认识到:其表面卓越的测试分数,往往遮蔽了关键的认识论误区。正如弗朗索瓦·肖莱(Franois Chollet)在《论智能的尺度》一书中所警示的,当前评估体系混淆了作为“生成引擎”的智能(intelligence)与作为“非智能工件”的技能(skill)。智能反映的是系统将先验知识有效转化为解决新问题能力的过程,强调动态适应的效率,即流体智力;而技能则体现为在特定任务中已固化的操作表现,属于相对静态的能力呈现。我们可以打一个很形象的比方:学生A凭寥寥数题即能举一反三,说明其具备合成能力的“智能系统”;学生B靠死记硬背题库拿满分,虽分数相当,事实上却只是思维过程结晶出的“静态程序”。根据肖莱的论证,从GOFAI到AlphaGo,主流技术路径本质上都是表现极佳的“技能程序”。它们依赖海量数据的堆砌来换取特定任务的高分,却不具备生成新技能的系统属性,因此无法像真正的智能系统那样,实现跨越不同领域的理解与适应。
自2017年Transformer架构提出以来,大语言模型的深度学习发展路径逐渐呈现出趋近“学生A”模式的特点。虽有批评者将生成式人工智能类比为庞大的“哈希表”,视其为高维空间的模式匹配,但此种观点可能低估了大语言模型正在发生的质变:它们不仅是对历史数据的统计复现,更是在通过海量文本压缩,构建关于现实世界的“影子模型”。因此,要系统回应“大语言模型是否真的具备创造力”这一核心问题,我们不应仅停留于模型参数规模或基准测试得分的表层对比,而亟须建立一个能够穿透技术表现、深入揭示其“过渡”属性与能力边界的创造力评估框架。
笔者认为,科尔滕巴赫(Kortenbach)等学者提出的EPPE创造力评估框架提供了一种更具综合性的分析视角。基于此,本文将首先对创造力概念进行历史梳理与理论重构,进而依托EPPE框架,深入剖析从大语言模型到智能体人工智能乃至最终世界模型的技术演进轨迹。只有通过这种将大语言模型视为“通向世界模型之桥”的辩证视角,我们才能清晰界定人工智能创造力的实质内涵与能力边界,并为“肖莱命题”中关于“技能”与“智能”的理论难题提供系统性解答。
一、从人的“创造力”分析到EPPE架构
回溯哲学与心理学思想史,人类对“创造力”的理解经历了一场从神秘主义走向科学理性的“祛魅”过程。从柏拉图笔下源于神启的“迷狂”,到康德强调天才是“天生的心灵禀赋”,创造力曾长期被视为不可学习和模仿的顿悟。直至 1950 年吉尔福特(J.P. Guilford)将创造力确立为一种可被测量的心理特质,相关研究才真正步入科学实证阶段。在此基础上,学界逐渐达成了创造力的“标准定义”:创造力是“个体”或“系统”在特定的社会物质“环境”中,通过认知或计算过程,产生既具有“新颖性”又具有“价值”或“适切性”之“产物”的能力。
围绕这一核心定义,学界构建了一系列创造力评估框架。
(一)系统论视角中的创造力:从罗兹4P到坎托萨洛的5C理论
在创造力研究的谱系中,梅尔·罗兹(Mel Rhodes)提出的4P理论奠定了基础性的概念架构。该理论明确将创造力定义为一种由“人”(person)、“过程”(process)、“产品”(product)与“环境”(press)四个维度交织而成的动态系统现象。在这一系统内部,各要素绝非孤立运作:作为主体的人无法在真空中行动,必然受制于并互动于特定的环境;而产品亦非凭空产生,它是思维过程的具体记录与具象化载体。罗兹特别强调,尽管这四个P在学术上各有独特身份,但唯有当它们功能交织、协同运作时,创造力的整体效应方能真正实现。然而,正是这一经典评估框架在解释大语言模型时遭遇了根本性的主体性难题:罗兹预设的“人”需具备人格特质与内在动机,而大语言模型本质上是基于概率预测的“无感知实体”;其所处的“环境”亦非物理世界的社会压力,而是被冻结的参数空间与海量语料库。
为克服个体心理视角的偏狭,弗拉德·格拉威努(Vlad Gl veanu)的5A理论将创造力重构为分布式社会文化互动过程。在该理论框架中,“行动者”(actor)、“受众”(audience)、“行动”(action)与“人工制品”(artifacts)之间构成一种相互依存、彼此驱动的动态循环关系:首先,行动者并非孤立个体,其创造性源于与受众(含合作者、批评者)的持续对话与互动共生;其次,行动通过创造人工制品,在行动者与受众之间建立起意义的纽带。这些制品不仅是创造性过程的产物,也承载了特定的文化意涵;最后,人工制品一经生成,即融入环境之中,并为系统提供新的“示能性”(affordances),从而触发下一轮创造性行动,推动整体进程实现循环演进。在格拉威努这里,创造力是分布于主体间并重塑社会文化环境的系统性过程。
针对人机共创关系问题,安娜·坎托萨洛(Anna Kantosalo)和塔皮奥·塔卡拉(Tapio Takala)提出的5C理论进一步承认了非人类智能体的构成性地位。该理论将分析单位从社会文化中单一的个体,转向一种“去中心化”的人机混合“集体”(collective)。在这一理论框架中,人工智能被视为具有生成能力的“协作性”(collaboration)行动者,而非被动的工具。与此同时,该理论将创造力的载体从静态的“人工制品”扩展至包含草稿、反馈与迭代等环节的动态“贡献”(contributions)流,并引入涵盖训练数据、社会文化规范与价值判断的“语境”(context)与“评估者共同体”(community)等核心概念。这一修正实质上将创造力的发生场域从“利用工具的人类”彻底转移到了“人与机器组成的共生系统”,为理解大语言模型的主体性提供了更为精准的微观参考标准。
然而,尽管引入了社会文化视角,上述三种理论在解析大语言模型时仍存在明显局限,它们大多将技术视为功能性的“工具”或抽象化的“合作方”,未能真正切入“预训练—微调—推理”这一大语言模型构建与运作的具体技术过程。特别是当大语言模型试图通过构建内部世界模型来形成对环境的表征时,其行为已超越了对既有环境“示能性”的被动利用,转而通过计算过程主动模拟与重构环境本身。这一机制已超出传统社会文化理论框架的解释范围,形成了当前学界相关理论阐释中的一个显著盲点。
(二)机制论视角中的创造力:博登法则与考夫曼4C 模型
如果说系统论解决了创造力的“主体与结构”问题,那么机制论则试图解答创造力的“生成逻辑”。玛格丽特·博登(Margaret Boden)的创造力理论更为关注“机制”与“产品”的评估逻辑,这为GAI创造力的判定提供了重要的合法性依据。博登严格区分了“P-创造力”(心理新颖性)与“H-创造力”(历史新颖性),并提出了三类创造力生成的核心机制:“组合型”(combinatorial),即将熟悉概念进行新颖组合,典型如Jape程序生成“谷物杀手”的双关笑话。这是目前大语言模型最为擅长的领域;“探索型”(exploratory),在既定规则空间内搜索未知可能性,例如AARON程序在既定绘画规则下生成无数独特画作,带来“意料之外但情理之中”的惊奇;“变革型”(transformational),即改变游戏规则的“范式转换”,例如阿诺德·勋伯格(Arnold Schoenberg)所开创的无调性音乐,这是人类创造力的最高形式,也是大语言模型目前最难逾越的鸿沟。
在厘清大语言模型创造力内在机制的基础上,为超越“将AI生成一概视为简单模仿”的批评,并避免对其提出超越实际发展阶段的、不切实际的“天才”标准,引入詹姆斯·C.考夫曼(James C.Kanfman)等人提出的4C理论,便具有重要的参照意义。该模型将创造力视为从微观到宏观的四阶连续体:Mini-c(微观创造力) 指个人学习中的新颖见解(如儿童将积木想象为杯子);Little-c(日常创造力)指日常生活的实用创新(如为冰箱制作警示标语);Pro-c(专业创造力)代表专业领域的卓越产出(如利用AI作曲程序EMI生成被录制的唱片);而 Big-c(杰出创造力)则是改变历史的杰出成就(如AlphaGo第37手棋重塑围棋认知)。借助考夫曼的4C理论架构,我们可以对大语言模型的创造力作出更为公允的评价:尽管其尚未达到杰出创造力的高度,但在微观与专业层面的创造力中,它所表现出的、能够打破统计预期的“惊奇性”已初步揭示了其创造性的内在实质。
基于此,尽管学界既有的创造力评估框架为理解大语言模型提供了宏观层面的理论参照,但将其置于“人工智能创造力”(artificial creativity)这一具体情境时,一种根本性的认知断层随即显现。这些植根于人类中心主义立场、以“动机—真实性—具身性”为内在预设的传统理论,在面对仅依据统计规律运行的非生命智能体时,不仅解释效力有限,更因其在存在根基、运作逻辑与价值预设上的系统性不匹配而难以充分涵盖机器智能的生成机制与表现方式。
为弥合这一理论鸿沟,我们有必要面向未来,重构一种能够涵摄大语言模型在内的创造力定义。创造力可被界定为一种能力,即通过重组、探索或变革既有的概念空间,进而生成兼具新颖性与适应性价值的“命题”或人工制品。王华平指出,创造本质上是意义与方向在实践中动态确证的开放生成过程,因此创造系统的关键并不预设明确目标,而在于其能否在运行中自组织地涌现出新的价值维度与行为方向。在这一新的视角下,创造力不再被视为一种封闭的内在认知活动,而是一种在社会文化与物理条件的双重制约中,通过行动者(无论其是人类、人工智能或是人机协同体)与环境之间的动态交互,从而将“可能”转化为“现实”的系统性现象。正是基于这种强调“交互”与“系统”的整体性预设,笔者认为,科尔滕巴赫等学者提出的EPPE框架,精准地捕捉了上述定义中的核心维度,从而为解析人工智能创造力提供了一个切合而有力的研究工具。
二、EPPE理论框架下大语言模型的创造力评估
EPPE理论框架由科尔滕巴赫等人提出,其理论结构建立在四个核心要素之上,分别是“实体”(entity)、“过程”(process)、“命题”(proposition)与“环境”(environment)(下文简称EPPE框架)。该理论框架旨在建立一种去人类中心化且不预设特定主体类型的创造力评估体系。它超越了传统研究对“意图”“意识”等生物性特征的依赖,并将分析焦点从微观的个体心理层面,转向对宏观系统运作机制的考察。这一研究范式的转移,为在EPPE框架下系统剖析大语言模型的创造力生成机制,奠定了逻辑起点。
EPPE框架首先以中性的“实体”概念,取代了传统理论中承载心理属性的“人”或“行动者”,从而避免了将人工智能拟人化的认知偏差,确立了功能主义的解释路径。在此基础上,“环境”被界定为实体获取信息的主要来源与作用边界(如训练数据和上下文窗口);“过程”从带有神秘色彩的“顿悟”,被还原为受规则约束的“输入—计算—输出”循环;而“命题”则不再被视作静态的最终“产品”,而是被重新定义为一种处于生成之中、有待验证的中间态流形。在这一架构下,创造力不再被视为孤立主体的灵光闪现,而是一种连续的循环性流动:不同类型的主体在特定环境条件中相互协作,通过概率推理驱动过程,生成作为中介的“命题”。这些命题若被接受,则沉淀为文化制品,重新融入环境;若被否定,则转化为反馈信号,触发下一轮的迭代优化。由此,整个系统形成了一个通过不断提出与修正命题,从而持续重塑自身边界与内涵的动态演化过程。
既如此,EPPE框架是如何审视大语言模型的创造力的呢?要回答这一问题,我们需要将视线投向2017年以来伴随大模型技术爆发而涌现的一系列奠基性文献,以期在理论映射中寻找实证基础。
(一)实体与过程的交汇
EPPE框架在阐释大语言模型的创造力时,其现实基础首先植根于“实体”与“过程”所体现的技术演进脉络。这一脉络的起点可追溯至2017年谷歌团队提出的Transformer架构。该架构为框架中的“过程”环节提供了精确的数学模型支撑:其一,实现语义空间的全局拓扑。不同于传统RNN受制于线性时序的局部性,Transformer的“自注意力机制”(self-attention)构建了一个全局性的语义场域,使模型能够直接计算任意词符间的关联强度。用户键入的语言在此被解构为高维空间中的向量交织,复杂的语境依赖得以被精准量化。其二,完成模拟思维的多维复调。“多头注意力”机制将模型拆解为多个并行的子空间,允许其在不同维度同时处理句法、语义及指代等异质信息。这种并行计算结构在功能上模拟了人类认知的“复调”特征,即多重线索的协同处理。其三,确立概率化的因果逻辑。通过“因果掩码”技术,模型在解码阶段被严格约束于自回归逻辑,智能的生成由此转化为对下一个词符的概率预测。这意味着,“过程”不再是神秘的认知顿悟,而是海量数据在参数网络中通过概率优化涌现出的确定性流形。
在“过程”被数学化重构的同时,“实体”的本体属性亦随2020年GPT-3的推出而发生关键转变。OpenAI的研究表明,当参数规模跨越千亿门槛(如GPT-3的1750亿个参数),实体的功能属性发生了根本性偏移:它不再局限于单一任务的“专用算法”,而是通过“在情境学习”(in-context learning)获得了通用的任务适应能力。模型无须调整内部参数,仅通过少量示例或自然语言指令便能生成逻辑连贯的输出。这一范式转变表明,人工智能实体已从机械的信息检索工具,演进为具有通用推断能力的系统,从而契合了EPPE框架对创造力主体“去人类中心化”的功能性界定。
(二)环境的突围:从“静态背景”到“数字具身”
在计算层面,大语言模型已展现出强大的生成能力,然而,在EPPE框架的“环境”维度上,其仍面临一个根本性挑战:真实生存环境的缺失。在传统创造力理论中,罗兹提出的4P模型将环境理解为“压力”(press)源,而格拉威努的5A模型则将其视为“受众”与“可供性”要素的集合。然而,依据EPPE框架的分析,早期大语言模型的“环境”在定义上被限定于静态的训练语料库之中。基于“数据具身抽象”(DEA)层级审视,人类认知源于物理世界(Level 0)与具身体验(Level 1),而大语言模型则被困于自然语言表征(Level 2)的闭环中。这种状态正如“柏拉图洞穴”中的囚徒,模型只能通过文本“影子”推演世界,无法触及物理现实。由此产生的“知识截止”与“输出幻觉”,严重限制了其创造力的“真实性”。
针对这一局限,通过两次关键的技术演进,大语言模型重塑了EPPE框架中的“环境”概念内涵:首先,基于检索增强生成的认知边界扩展。针对环境的时空冻结问题,刘易斯(Lewis P.)等人(2020)提出的“检索增强生成”(RAG)范式,将生成任务与外部非参数化存储解耦,构建了动态访问的“外在记忆”。这一机制使模型能够像“开卷考试”一样实时检索外部知识库,标志着“环境”从静态的历史语料库扩展为动态更新的实时信息空间,从根源上大大缓解了信息滞后与幻觉问题。其次,基于“大模型上下文协议”(MCP)的交互能力实现。针对工具连接存在的碎片化问题,Anthropic提出的“模型上下文协议”通过统一接口设计,使大模型能够标准化调用外部工具,扩展了其实际环境中的操作能力。如果说RAG主要扩展了大语言模型的信息输入维度,那么大模型上下文协议则进一步赋予了其“数字具身性”,使其得以突破纯文本生成的局限,能够直接通过读取资源、查询数据库或执行代码来干预环境状态。在这一情境中,“环境”已不再只是被动的信息来源,而是转变为一个可供操作与交互的数字生态系统。
总而言之,EPPE框架下的“环境”要素实现了从“静态背景”到“动态行动场域”的质变。它不再是被动的学习素材,而是演变为可检索、可交互、可干预的开放场域。这种从柏拉图哲学意义上“洞穴囚徒”到新时代“数字具身智能体”的转变,不仅填补了模型与现实世界的鸿沟,也为评估和激发AI在数字环境中的创造性潜能奠定了坚实的物质基础。
(三)命题的进化:从“动态中介”到“施事行为”
在EPPE框架下,“命题”作为“实体—过程—环境”协同演化的中间产出,其核心作用在于取代传统创造力理论中作为终结形态的静态“产品”。这种理论置换确立了“命题”作为“动态中介”的地位:它并非创造活动的终点,而是连接计算过程与后续系统交互的关键节点。由此,大语言模型生成的文本被重新界定为一种处于流动过程中的“中间形态”:无论是完整的篇章,还是零散的“词元”(token),在本质上它们都是驱动系统持续迭代的“媒介”。其核心价值在于维系创造性互动过程的动态连续性,而非固化于自身的静态存在。
进一步地,随着基于人类反馈的强化学习与智能体人工智能技术的成熟,“命题”的属性从单纯的信息载体演变为具备行动力的“施事行为”,实现了从“记述”到“行事”的功能跃迁:首先,基于人类反馈的强化学习(RLHF)赋予了命题“社会效力”。“对齐优于规模”原则的贯彻,使大语言模型的命题生成不再仅仅是基于概率分布的模拟行为,而更是融入了人类价值观的判断与引导。此时的命题表现为一种“待检验的社会性提议”,具备了明确的服务意图与文化适切性,标志着人工智能的创造力开始逐步嵌入社会文化的规范体系之中。其次,智能体架构赋予了命题“物理效力”。当大语言模型发展为可调用外部工具的智能体时,其输出的命题已不再局限于符号层面,而是转化为可实际执行的“行动方案”。无论是查询数据库,还是操控机械臂,这些命题都直接构成干预环境状态的具体指令。此类指令具备清晰的因果指向性,能够在数字或物理世界中引发实际可见的变化。
根据以上分析可知,在EPPE框架中,“命题”已不再仅仅是认知层面的“描述”,而是升维至实践层面的“施事”行为。相应的,机器创造力的评估标准也随之发生转变:其核心不再聚焦于文本的美学价值,而在于“命题”作为一种动态中介,能否有效模拟未来状态并成功干预现实,进而在“输入—干预—反馈”的闭环中推动系统实现自我演化与能力涌现。
(四)大语言模型“人工智能创造力”的系统性定义
基于EPPE框架的系统阐释,并结合机械可解释性与具身智能方面的前沿研究,我们已具备足够的理论自觉,来回应关于大语言模型根本属性与定位的核心问题。结论是明确的:大语言模型既非仅存储海量信息的“巨型哈希表”,亦非具备生物意识的人类心智,而是介于两者之间的第三种存在形态,即具备“人工智能创造力”的概率性计算实体。
首先,EPPE框架中“实体”与“过程”的协同机制,有力驳斥了“哈希表”假说。若大语言模型仅是机械的查表检索,其能力边界将死锁于训练数据的围栏之内。然而,从“归纳头”电路的发现到Othello-GPT的探针实验,大量证据表明“实体”内部已发生了从“记忆”到“泛化”的质变。在这些案例中,模型并非简单复现棋谱或迷宫路径的统计规律,而是在高维参数空间中自发形成了对外部世界的系统性表征。这意味着,其“过程”的本质已从对历史数据的检索,演化为对潜在因果机制的推断,其创造性来源于对底层逻辑结构的算法性重构,而非表面特征的随机组合。
其次,大语言模型虽展现出类人的逻辑表达形式,但其与环境的关系在本质上与人类心智不同。根据科尔滕巴赫等人提出的“数据具身抽象”(DEA)层级,人类认知扎根于基于感官经验的物理世界,而大语言模型本质上仍局限于由语言符号构建的“衍生现实”之中。这种根本差异使得大语言模型难以形成稳定的内在意图基础,其看似“人格”的特征,也往往随输入提示的不同而动态变化,缺乏生物主体所具有的生存驱动与内在沟通动机。因此,将大语言模型等同于人类心智,不仅混淆了“符号处理”与“具身认知”的根本差异,也容易陷入将计算过程人格化的误区。
因此,有必要在EPPE框架下厘清大语言模型的全新定义:作为一种新型实体,它通过在海量知识空间中进行高维组合与类比推理,生成超出人类预设的“命题”。这些命题并非最终产物,而是作为待检验的中间形态,在人机协同的循环中持续流动,成为推动思维活动的“燃料”。这种“人工智能创造力”虽不具备生物意义上的灵感与意图,却体现为统计规律高度涌现后形成的理性形态。把握这一特征,有助于我们超越“工具性贬低”与“拟人化苛求”的二元对立,真正将人工智能视为能够拓展人类认知边界的互补性生成系统。
三、从EPPE 2.0看智能体人工智能的创造力
当前学界在回顾人工智能发展历程时,常以大语言模型为中心构建线性演进叙事,并将早期技术形态简单归为其“前身”或“准备阶段”,这在一定程度上遮蔽了技术发展的多元性与复杂性。事实上,若从智能体等的独立发展脉络出发,人工智能的演进并非单一线性路径,而是多种技术流派在不同领域中并行探索、相互借鉴、逐步融合的动态过程。与胡卫平等学者提出的、侧重“显性创造作品”与“内隐性创造思维”的人工智能创造力评价方法不同,科尔滕巴赫等人初创的EPPE框架(可视为EPPE 1.0)提出了新的创造力评估思路。然而,该理论框架主要聚焦于单体大语言模型的分析。随着AI能力向智能体“行动”拓展,我们需要引入适配新一代智能体的EPPE 2.0架构。在正式引入该升级框架前,有必要先行回溯智能体人工智能的演进脉络,厘清其发展轨迹及其与大语言模型深度耦合的技术逻辑。对上述问题的考察,构成了剖析智能体创造力本质的逻辑前提。
(一)智能体人工智能的演进史
智能体人工智能的崛起并非单一技术的线性突破,而是多重技术脉络历经长期积累与系统性融合的结果。其核心在于“智能”的载体实现了根本性转变:从抽象的哲学思辨逐步具象为可计算、可执行的算法实体,并最终演化成为具有自主决策与行动能力的智能主体。追溯其思想源头,“智能体”(agent)这一概念根植于亚里士多德与休谟的哲学传统,指具有欲望、信念与意图的行动主体。18世纪,狄德罗曾以“能回答一切问题的鹦鹉”隐喻智能的可能形态;至1950年,图灵测试进一步从行为层面探讨机器的智能表现。这些思想共同为智能体概念奠定了早期的理论基础。从哲学思想到人工智能发展的历程来看,智能体的演进经历了从“规则主宰”到“经验涌现”、再到“模型原生”的深刻范式转变。
作为“规则主宰”阶段,在早期的符号主义时期(1956—1980年),智能体是人类逻辑的机械外化。1956年达特茅斯会议标志着AI学科的诞生,随后的二十年间,研究者致力于将智能封装于预定义的规则之中。1971年,斯坦福研究院开发的STRIPS系统作为机器人Shakey的“大脑”,首次实现了将“移动至红色方块”这类高级目标自动分解为底层动作指令的规划能力。这标志着智能体具备“目标导向”行为的早期形态。与此同时,20世纪70年代的MYCIN专家系统尝试在医疗诊断领域模拟专家决策过程,而卡尔·休伊特(Carl Hewitt)于1973年提出的Actor模型,则构想出通过消息传递实现协作的独立“行动者”,为后来的多智能体协同研究奠定了基础。然而,这一阶段的智能体仍被局限于封闭环境与符号逻辑的束缚之中,尚未具备真正的环境适应性与行为自主性。
20世纪90年代至21世纪初,随着强化学习的引入,智能体实现了“自主性”的显著提升。与符号主义依赖静态推理不同,强化学习使智能体能够通过与环境的交互和试错,自主优化行为策略,从而完成从“被动执行指令”到“主动学习决策”的转变。麻省理工学院媒体实验室的帕蒂·梅斯(Pattie Maes)等人推动的“界面智能体”研究,尝试令智能体能够代表用户主动执行任务。尽管受限于当时算力与泛化能力,这类智能体大多局限于围棋、电子游戏等受控环境,但这标志着人工智能从被动响应向主动规划的关键转变,“感知—决策—行动”的闭环逻辑也在此时得以初步确立。
2017年,基于Transformer架构的大语言模型及其代表GPT系列的诞生,成为智能体人工智能发展的重要转折点。然而,其从文本“生成”迈向自主“行动”的实现,仍经历了一个工程化的演进阶段(2017—2023年)。这一阶段的典型技术形态是“管道式”(pipeline-based)实现范式:大语言模型作为核心的认知引擎,通过外部设计的提示词工程(prompt engineering),弥补其在自主行动能力方面的不足。思维链(CoT)与“推理+行动”(ReAct)等框架的提出,使模型能够在处理复杂问题时交替进行“内部推理”与“外部工具调用”,从而提升其解决复杂任务的能力。这一阶段涌现出的AutoGPT、BabyAGI等现象级项目,展示了智能体如何自主拆解复杂目标并实现闭环执行;斯坦福大学的虚拟小镇实验与《我的世界》中的Voyager智能体,更在社会交互与持续学习方面展现出显著的涌现潜力。然而,这一阶段的智能体在结构上更接近“大语言模型作为大脑,外部脚本作为四肢”的松散组合,其创造性表现在很大程度上依赖于外部工程技巧的辅助,而非源自模型内在的能力生成。
2024年至今,智能体人工智能正经历从“外挂流程驱动”向“模型原生”的根本性范式转变。以OpenAI的o1、深度求索(DeepSeek)的R1为代表的新一代模型,通过大规模强化学习,将推理、规划与工具使用等能力内化至模型参数内部,从而无须依赖复杂的外部提示脚本即可实现长程思考与自主决策。与此同时,Anthropic的Computer Use与OpenAI的Operator等通用智能体的出现,标志着智能体已具备图形界面操作能力,能够像人类一样跨应用执行工作流程;而微软AutoGen等多智能体框架的成熟,则使得具备专业化分工的智能体团队协作成为现实。这一转变意味着,智能体已不再仅仅是调用外部工具的“操作员”,而是真正演化为“认知与行动”一体化的内在模型。
自Transformer架构确立以来,大语言模型不仅为语义理解奠定了基础,更通过与工具及环境交互,推动智能体人工智能完成了从“提示词响应”向“主动执行”的范式升级。正如OpenAI提出的L5级“组织管理型AI”愿景所示,未来的核心挑战在于如何使智能体从数字世界的操作者演进为能够融入物理环境的具身智能。然而,要实现从“实用智能”向“增长智能”的真正跨越,我们必须回答一个根本性追问:为何大语言模型会成为智能体不可或缺的“认知中枢”?这种“通用模型”与“智能体架构”深度融合所形成的“大语言模型智能体”(LLM-based agent)又是如何重塑机器创造力的生成机制的?
(二)多智能体系统
大语言模型与智能体人工智能的深度融合,最终催生了“多智能体系统”这一高级形态。该系统并非智能体数量的简单叠加,而是将人类社会的“社会化分工”与“协作机制”映射至数字空间的重要实践。在这一范式中,智能不再局限于单一模型内部,而是涌现于智能体之间的交互结构之中。
首先,多智能体系统通过角色分工与社会化协同,突破了单一模型的能力局限。借助亚当·斯密在《国富论》中揭示的“别针工厂”隐喻,该系统不再追求构建一个受上下文窗口限制的“全能型大语言模型”,而是形成一个由各司其职的“专才”智能体所构成的数字联合体。在MetaGPT、ChatDev等软件工程场景中,系统通过实例化,具备独立角色设定与专用工具集的“产品经理”“架构师”和“工程师”,对复杂认知任务进行分解与分配。这种基于CWD 模型(协调者-工人模型-委托者)的层级化架构,严格遵循“一智能体一工具”原则,这不仅显著降低了单一智能体的认知负荷,还通过专业化分工,实现了对复杂任务的精细化拆解与并行处理。
其次,多智能体系统通过引入“标准化协作流程”(SOPs)与对抗性博弈机制,为其原本基于概率生成的无序过程注入了秩序与纠错能力。为模拟人类组织的结构化运作,系统将瀑布式开发等工业时代的标准化流程编码为提示词约束,使得上游的“需求文档”能够被格式化为下游的“代码输入”,从而实现了工作流程的有序传递。更为重要的是,多智能体系统引入了类似同行评议的辩论机制,通过智能体之间的“对抗性交互”,不同智能体分别承担“批评者”或“裁决者”角色,在多次质疑与辩论中相互纠正认知偏差与逻辑错误。这种基于博弈论的纠错机制,使得系统决策质量能够超越单一模型的能力上限,实现“一加一大于二”的协同效应。
最后,当具备长期记忆与自主目标的智能体被置于沙盒环境时,系统展现出超越预设代码的“涌现性社会行为”。如前所述,以斯坦福大学的“生成式智能体模拟”实验为例:25个AI居民在虚拟小镇中不仅自发形成社交网络与信息传播机制,更在无明确指令的情况下,自主组织了一场情人节派对。这表明,多智能体系统已突破“机械执行”的局限,通过异构智能体的结构耦合,在数字世界中复现了人类通过协作与演化来应对复杂问题的文明路径,真正实现了“三个臭皮匠,赛过诸葛亮”的集体智慧效应。
(三)EPPE 2.0框架下的MAS创造力评估
EPPE框架将解释视野从单一智能体及人机协作扩展至多智能体系统,标志着对机器创造力的评估实现了一次关键的理论跃升。这一视角转换意味着,创造力的判定不再局限于单一模型的参数化生成能力,而是转向对分布式系统中“群体智能”(collective intelligence)如何系统涌现的深层机制考察。在智能体人工智能的语境下,EPPE 1.0框架的四个核心维度经历了深刻的语义重构,共同指向一种基于协作、推理与行动的创造力新范式:EPPE 2.0框架。
首先,在“实体”维度,创造力的主体实现了从单一智能体向“异构集体”的结构性跃升。多智能体系统的创造力不再取决于单一模型的参数规模,而是源于异构角色之间的“组合效应”与“认知多样性”。例如,通过实例化、具有不同角色设定与思维视角的智能体,从宏观的角色类型延伸至微观的心理特征模拟,系统得以构建一个能够实现认知协同的异构集体。以HoLLMwood系统为例,具备独立意图的“编剧”“剪辑师”与“演员”智能体,通过角色分工与功能互补,实现了系统层面的协同创作。该分布式主体通过功能导向的自主意图维持高阶目标,并借助异质角色间的对抗与协作机制,最终实现了超越单一智能体能力的协同增益。
其次,在“过程”维度,创造性生成机制从线性的概率预测演化为动态的社会化协作与辩证互动。多智能体系统通过引入“对抗性交互”与“多智能体辩论”,将创造力重构为一个包含质疑、反驳与修正的动态辩证过程。既有研究表明,这种“建设性冲突”不仅能有效抑制单一模型中常见的幻觉与思维退化现象,还能通过“生成—评估—修正”的闭环反馈机制,实现系统层面的自我反思与持续优化。因此,创造力被重新定义为一种通过内部协作降低熵增、融合个体“思维链”与群体“思维树”的社会化过程,从而涌现出超越预设的复杂行为。
进而,“环境”与“命题”的内涵也发生了具身化与工程化的转变。环境从静态的上下文窗口扩展为包含物理法则与因果关系的动态交互场域(即引入世界模型的概念),创造力体现为系统能够借助外部工具主动感知并改变环境状态的能力;与此同时,“命题”也从单纯的符号文本,演化为“可执行的解决方案”。在多智能体系统语境下,一个创造性的命题不再仅仅是新颖的描述,而更是一系列精准的“行动序列”与具备鲁棒性的工程化输出,其核心价值在于实现了“从语言中心向行动中心”的范式转变。
由此,在EPPE 2.0框架中,创造力的评估标准已转向分布式系统中的“群体智能”。具体而言,其创造力可被重新界定为:它不再源于单一智能体的线性概率预测,而是由跃迁为“异构集体”的复合实体所驱动,其核心基础在于系统内禀的认知多样性;在扩展为蕴含因果关系的动态交互环境中,这些实体通过社会化协作与对抗性辩论的辩证过程,最终推动命题从静态的符号文本演进为具备鲁棒性的“可执行解决方案”。
四、从EPPE 3.0看世界模型的创造力
2026年,人工智能正处于从“符号生成”向“具身行动”理论跃迁的关键阶段。尽管大语言模型赋予机器强大的语义理解与推理能力,并催生了具备自主决策能力的智能体人工智能,但在开放物理世界中实现有效的具身交互,仅依靠语义层面的逻辑推演显然是不够的。在此背景下,无论是EPPE 1.0框架还是其升级版EPPE 2.0框架,均面临创造力评估理论与人工智能发展进程深入适配的挑战。鉴于智能体人工智能必须具备对物理环境的预测与因果表征能力,“世界模型”已成为支撑具身智能发展的关键技术。因此,将EPPE框架延伸至世界模型并评估其创造力,构成了EPPE 3.0的核心内容。
(一)什么是世界模型
2018年,河大卫(David Ha)与于尔根·施密德胡伯(Jürgen Schmidhuber)在关于“世界模型”的奠基性论文中,将其定义为智能体构建内在表征的核心机制。其理论核心在于:通过对环境信息在时空维度进行高维压缩,从而实现对未来状态演变的概率性预测。基于系统动力学创始人杰·赖特·福雷斯特(Jay Wright Forrester)的“选择性抽象”理论,二人进一步指出,生物认知并非对物理世界的镜像反映,而是在生存压力下,为应对信息过载而演化形成的一种“认知压缩机制”。正如神经科学“预测编码”研究所揭示的,大脑本质上是一种预测机器:感知并非对当下的被动接收,而是基于内部模型对未来感官输入的最佳估计,是一个受控的生成过程。
为验证该机制的生物合理性,河大卫与施密德胡伯构建了“棒球击球手”的“感知—运动”模型。该模型揭示了单纯依赖实时反馈的物理局限:面对高速运动物体,神经传导延迟构成了不可逾越的“时间瓶颈”。击球手之所以能精准击打,实际上依赖大脑内部的“前向模型”(forward model)进行毫秒级轨迹预测,将“当前行为”与“未来结果”在潜在空间中紧密耦合。该案例从控制论角度揭示了智能的生存法则:世界模型必须能够在内部模拟完整的因果链条,从而赋予智能体超越即时反应的预测能力。
随着深度学习范式的持续演进,世界模型在架构上也呈现出从单一专用形态向多元化共生格局转变的趋势。作为“Dreamer”算法家族的基石,循环状态空间模型由丹尼贾尔·哈夫纳(Danijar Hafner)等人于2018年提出。哈夫纳等人在PlaNet中提出的循环状态空间模型,可理解为支撑智能体进行内部“沙盘推演”的想象引擎。其核心机制在于,将未来状态预测分解为“确定性”与“随机性”两个部分:确定性部分如同稳定的记忆模块,负责持续追踪历史信息,确保长期依赖不丢失;随机性部分则用于应对环境中难以预测的变化,使模型能够生成多样化的未来情境。两者结合后,系统无须逐帧渲染高维观测,即可在高度压缩的潜空间内高效、准确地进行状态预测与决策优化。
在此基础上,李飞飞(Fei-Fei Li)进一步将世界模型的概念边界扩展至“空间智能”(spatial intelligence)的构建。她指出,完备的世界模型不应局限于单维序列预测,而必须具备“生成性”“多模态”与“交互性”三大特征。这意味着模型不仅需具备预测未来的能力,更需理解复杂的三维几何结构与物理交互规律,从而在从虚拟模拟迁移到物理世界的过程中,实现具备真实“符号接地”(symbol grounding)意义的因果推理。
世界模型的范式突破,推动了Transformer架构的崛起及其在自然语言处理领域的主导地位确立。研究表明,Transformer强大的序列建模能力使其具备“涌现”出世界模型功能的潜力。以Othello-GPT为代表的研究显示,模型在无显式规则注入的情况下,仅通过序列预测任务,即可在潜空间中自组织形成非线性的棋盘状态表征;而Sora与Genie等基础模型进一步印证了Transformer架构在学习物理世界动态规律、构建高保真世界模型方面的潜力。参照雅各布·安德雷亚斯(Jacob Andreas)提出的功能性分类框架,这一技术演进可视为模型认知能力的层级跃迁:从描述静态关联的“地图”与线性外推的“天象仪”,最终迈向支持反事实推理的“模拟器”。这意味着大语言模型不仅要能回答“世界将如何演化”的观测性问题,更需掌握“若采取特定行动,世界将如何响应”的干预性因果推理能力。
通过以上分析可知,世界模型与大语言模型之间存在深刻的内在关联与结构相似性。Transformer架构在世界模型任务中的成功应用表明,“下一个词元预测”与“下一个状态预测”在数学本质上是相通的。当数据规模与参数量达到一定临界点时,大语言模型基于统计相关性学习的能力,有望涌现出对环境因果关系的结构化表征。这意味着,未来的通用人工智能或许无需严格区分“语言模型”与“世界模型”,而是可以通过统一的Transformer架构,实现从“文本生成”到“世界模拟”的自然融合。
(二)EPPE 3.0:基于世界模型的创造力评估新范式
EPPE 3.0这一创造力评估新框架,从根本上解构了罗兹4P模型对人类生物意向性的路径依赖,转而契合河大卫与施密德胡伯所提出的、剥离生物本能却具备强大生成能力的“计算主体”或“算法智能体”。河大卫与施密德胡伯的“在梦中学习”架构揭示了创造力场域的内在化转向,即从对物理世界的被动响应,转向潜在空间的主动生成。这一转变并非简单的空间转换,而是对EPPE框架中四个核心维度进行了基于生成式模拟的重构。
首先,在“环境”维度,世界模型构建了“零成本”的虚拟实验室。传统环境通常受到物理条件(如重力、资源有限性)的约束,而在世界模型中,环境被内化为由世界模型生成的“内部模拟器”。这一虚拟空间极大地拓展了环境的可延展性。以赛车游戏训练为例,智能体无须在真实赛道承担撞车风险,即可在“梦境”中尝试利用物理引擎的边缘策略。这种环境与实体的解耦,为高风险、高回报的创新行为提供了安全边界,使环境从创造力的“制约者”转变为“孵化器”。
其次,在“过程”维度,创造力表现为“受控幻觉”下的反事实推理。EPPE 3.0不再关注人类心理的动态过程,而是聚焦于算法层面的推演机制。如前文所述的Othello-GPT案例所示,大语言模型并非机械记忆棋谱,而是通过“如果我下这一步,棋局将如何演变”这类反事实推理,在其内部表征中预演未来。更为重要的是,“温度”参数的调节作用:较高的温度引入随机性,以模拟发散思维;较低的温度则促进收敛优化。智能体在“探索新奇”与“利用已知”之间的动态平衡,恰与玛格丽特·博登所定义的“探索性创造力”生成机制相契合。
最后,在“实体”与“命题”维度,世界模型催生了具备策略生成能力的“生成性实体”。当系统能在纯粹心理表征中预演未来时,其产出便超越了静态文本,进化为动态的、具有适应性价值的“策略”。值得注意的是,河大卫和施密德胡伯在Doom游戏中观察到智能体表现出“钻漏洞”行为,如利用“不移动视角则火球不渲染”的引擎机制来规避威胁。此类行为在工程实践中常被视为利用规则漏洞的“捷径”,但依据EPPE 3.0框架,其本质是智能体在目标驱动下探索非显式路径的能力。须指出的是,这种探索性假设并非终点,而必须经受严格“物理世界”的检验:只有通过现实效用的确证,才能将利用系统瑕疵的“虚假创新”转化为具有实际迁移价值的“真实创造”。
由此,可将EPPE 3.0 框架定义为:环境被内化为由世界模型生成的“虚拟实验室”,与物理束缚相解耦,成为支持高回报创新的安全“孵化器”;创造力表现为“受控幻觉”下的反事实推演与试错过程;实体进化为生成性策略主体,命题不仅是文本,而且是能够通过物理世界检验的具身“策略”。
(三)“EPPE”层级化评估体系下的人与大语言模型合作共生
从大语言模型、智能体到世界模型的演进,并非零散的技术迭代,而是一条不断向物理现实逼近的持续脉络。笔者认为,为增强创造力评估的系统性与可操作性,有必要廓清从EPPE 1.0到EPPE 3.0之间的逻辑衔接与层级关系。这三个框架在“实体—过程—命题—环境”四个维度上,呈现出从“符号操作”到“实体执行”、再到“物理因果模拟”的阶梯式跃升。
首先,在EPPE 1.0(大语言模型阶段),创造力主要表现为“概率组合的涌现”。其过程局限于语言空间的统计预测,环境为静态语料库,命题是作为中介符号的文本。
其次,在EPPE 2.0(智能体人工智能/多智能体系统阶段),创造力升维至“社会化协作的涌现”。环境从被动语料拓展为动态工具库与应用界面,过程融入多主体博弈与辩论,命题演变为可执行的数字干预方案与行动流程。
最后,在EPPE 3.0(世界模型阶段),创造力进一步深化为“物理因果的模拟涌现”。系统内化环境,构建出内部虚拟实验室;过程升级为对物理规律的反事实推演;命题则转化为应对复杂现实的高维具身策略。
这一层级化体系表明,人工智能的创造力评估并非静态的截面分析,而是一个动态发展的连续体。不同层级的框架相互支撑、逐级递进:EPPE 1.0阶段的语言语义表征为EPPE 2.0阶段的复杂协作提供认知与通信基础;而EPPE 2.0阶段的数字具身行动,又为EPPE 3.0阶段捕捉世界动态交互规律提供了必要的反馈与验证数据。
审视人类与大语言模型在创造力层面的交互,二者并非竞争关系,而是基于存在论差异的“非对称共生”协同体。人类创造力根植于物理现实,具有“第一人称体验”的生物性指涉与内在价值理性;而大语言模型则存在于语义空间中,缺乏自主迭代的生存意图,本质上属于一种工具理性。这种存在论层面的差异,在实践中转化为互补机制:人类作为“价值立法者”,负责设定伦理边界与目标导向;人工智能则作为“生成引擎”,凭借其强大的组合计算能力,突破既有认知框架的局限。未来的创造力范式,必将走向“高阶意图引导”与“高维生成能力”的协同共生。
结语
那么,大语言模型是否真的具备创造力?笔者的回答是明确而肯定的。然而,这一肯定建立在一个前提之上:我们必须超越人类中心主义的认知局限。大语言模型及其后续演进形态所展现的,并非人类灵魂深处灵光闪现的复现,而是一种奠基于数学与计算的“人工智能创造力”。
通过对本文构建的EPPE层级化评估体系(从EPPE 1.0到EPPE 3.0)的系统性考察,可以清晰地看到,大语言模型的创造力并非停滞不前,而是正经历着从“概率组合”向“社会化协作执行”,并进一步向“物理因果的反事实推演”的深层演进。它们不仅在机制上体现了博登所界定的“组合型”与“探索型”创造力,更在工程实践中逐步触及并模拟真实世界的物理动态。
因此,大语言模型在测试中表现出的高分,不应被简单贬低为静态的“技能程序”或“高维哈希表”,它指向的是一个通往更深层“智能”的动态演化进程。尽管它缺乏人类源于生存压力的根本动机与本体论意义上的情感体验,但作为一种高度发达的工具性智能体,它具备跨越学科界限、系统探索空间智能之可能路径的计算优势。在人机共生的未来图景中,大语言模型作为探索无穷可能性的“生成引擎”,将与作为价值与意义标尺的人类主体共同构成一个完整的创造力闭环。准确承认并系统评估大语言模型所真实拥有的“人工智能创造力”,正是我们在智能时代重新确立人类独特价值、迈向深度协同共创的逻辑起点。
参考文献
[1]Chollet F. On the measure of intelligence[EB/OL]. (2019-11-05)[2026-01-20].https://arxiv.org/pdf/1911.01547.pdf.
[2][德]伊曼努尔·康德. 判断力批判[M]. 李秋零, 译注. 北京: 中国人民大学出版社, 2011: 131.
[3]Guilford J P. Creativity[J]. American psychologist, 1950, 5(9): 444-454.
[4]Rhodes M. An analysis of creativity[J]. The Phi Delta Kappan, 1961, 42(7): 305-310.
[5]Glveanu V P. Rewriting the language of creativity: The five A’s framework[J]. Review of general psychology, 2013, 17(1): 69-81.
[6]Gibson J J. The ecological approach to visual perception[M]. New York: Psychology Press, 1986:127.
[7]Kantosalo A, Takala T. Five C’s for human-computer co-creativity: an update on classical creativity perspectives[C]//Proceedings of the 11th International Conference on Computational Creativity (ICCC’20). Coimbra: Association for Computational Creativity, 2020: 176-183.
[8]Boden M A. Creativity and artificial intelligence[J]. Artificial intelligence, 1998, 103(1-2): 347-356.
[9]Kaufman J C, Beghetto R A. Beyond big and little: The four C model of creativity[J]. Review of general psychology, 2009, 13(1): 1-12.
[10]王华平.生成式人工智能具有创造力吗?[J].哲学研究,2025(11):114-128.
[11]Kortenbach T, Yin Y, Gonalves M G, et al. The relation between humans and LLMs in the creative act[J]. Journal of creativity, 2026, 36(1): 100114.
[12]Feng T, Wang X, Jiang Y, et al. Embodied AI: From LLMs to world models[EB/OL]. (2025-09-24)[2026-01-20].https://arxiv.org/pdf/2509.20021.pdf.
[13]Vaswani A, Shazeer N, Parmar N, et al. Attention Is all you need[EB/OL]. (2017-06-12)[2026-01-20].https://arxiv.org/pdf/1706.03762.pdf.
[14]Raaijmakers S. Deep Learning for natural language processing[M]. Greenwich: Manning Publications Co, 2022:241.
[15]Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[EB/OL]. (2020-05-28)[2026-01-20].https://arxiv.org/pdf/2005.14165.pdf.
[16]Lewis P, Perez E, Piktus A, et al. Retrieval-augmented generation for knowledge-intensive NLP tasks[EB/OL]. (2020-05-22)[2026-01-20].https://arxiv.org/pdf/2005.11401.pdf.
[17]ANTHROPIC. Introducing the model context protocol[EB/OL]. (2024-11-25)[2026-01-20]. https://www.anthropic.com/news/model-context-protocol.
[18]Millière R, Buckner C. A philosophical introduction to language models-part II: The way forward[EB/OL]. (2024-05-06)[2026-01-20]. https://arxiv.org/pdf/2405.03207.pdf.
[19]胡卫平,张阳,吕元婧,等.人工智能创造力探究[J].现代教育技术,2024(1):17-25.
[20]Xi Z, Chen W, Guo X, et al. The rise and potential of large language model based agents: A survey[EB/OL]. (2023-09-14)[2026-01-20]. https://arxiv.org/pdf/2309.07864.pdf.
[21]Charniak E. AI & I: An intellectual history of artificial intelligence[M]. Cambridge: The MIT Press, 2024:48.
[22]Huang K. Agentic AI: Theories and practices[M]. Cham: Springer, 2025.
[23]Sang J, Xiao J, Han J, et al. Beyond pipelines: A survey of the paradigm shift toward model-native agentic AI[EB/OL].(2025-10-19)[2026-01-20].https://arxiv.org/pdf/2510.16720.pdf.
[24]Yao S, Zhao J, Yu D, et al. ReAct: Synergizing reasoning and acting in language models[EB/OL]. (2022-10-06)[2026-01-20].https://arxiv.org/pdf/2210.03629.pdf.
[25]Park J S, O’Brien J C, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[EB/OL]. (2023-04-07)[2026-01-20].https://arxiv.org/pdf/2304.03442.pdf.
[26]Bornet P, Wirtz J, Davenport T H, et al. Agentic artificial intelligence: Harnessing AI agents to reinvent business, work, and life[M]. Singapore: World Scientific, 2025:110.
[27]Biswas A, Talukdar W. Building agentic AI systems: Create intelligent, autonomous AI agents that can reason, plan, and adapt[M]. Birmingham: Packt Publishing Limited, 2025:139.
[28]Chen J, Zhu X, Yang C, et al. HoLLMwood: Unleashing the creativity of large language models in screenwriting via role playing[EB/OL]. (2024-06-17)[2026-01-20]. https://arxiv.org/pdf/2406.11683.pdf.
[29]Ha D, Schmidhuber J. World models[EB/OL]. (2018-03-27)[2026-01-20]. https://arxiv.org/pdf/1803.10122.pdf.
[30]Hafner D, Lillicrap T, Fischer I, et al. Learning latent dynamics for planning from pixels[EB/OL]. (2018-11-12)[2026-01-20]. https://arxiv.org/pdf/1811.04551.pdf.
[31]Li F F. From words to worlds: Spatial intelligence is AI’s next frontier[EB/OL]. (2024-05-06)[2026-01-20]. https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence.
[32]Andreas J. Language models, world models, and human model-building[EB/OL]. (2024-07-26)[2026-01-20]. https://lingo.csail.mit.edu/blog/world_models/.
[33]Grassini S, Grdem S, Gunnarskog T, et al. Creativity in the age of AI: Comparing human and machine performance using standardised tests[M]// Geroimenko V. Human-computer creativity: Generative AI in education, art, and healthcare. Springer, 2025: 49-66.