2026年6月10日,王仲远围绕世界模型、具身智能、智能体、Token成本等多个话题,与智能纪元AGI等进行交流。
以下为经整理后的部分对话内容:
世界模型的核心是下一个物理状态预测
问:智源的研究重点经历了从大语言模型、多模态模型到世界模型的转向。你怎么看大语言模型当前所处的发展阶段?
王仲远:
大语言模型依然还是在非常快速成长的过程中,我们早年做的“悟道”系列就是大语言模型。智源一直秉持的定位,是做高校做不了、企业不愿意做的事情。大语言模型技术路线相对成熟以后,就可以交给企业继续沿着成熟路线提升性能。
两年前,我们把重点放在多模态大模型上,现在则把重点放在世界模型。我们认为,大语言模型仍处在持续发展阶段,国产大模型性能也在持续提升。虽然客观来看,跟全球最顶尖的模型还是有一定距离,但我对此充满信心。国产大模型已经向全世界证明,在全球范围内,不管是流量、使用,还是口碑和认可度,都已经达到很高水平。
接下来更长时间里,AI Coding和大语言模型依然会有继续提升的空间和潜力。我们也乐见国内领军企业继续发力,让国产大模型成为全球最顶尖的大模型。
问:智源对于世界模型是如何分类的?
王仲远:
第一类是以语言为中心的世界模型,包含大语言模型、VLM、VLA都是归类为以语言为中心。世界模型的核心就是能够让人工智能进入物理世界,感知、理解、推理,跟物理世界交互,语言也有总结很多世界的知识,只是以文字的方式表达,VLM、VLA是把其它模态、其它能力映射到语言空间,所以以语言为中心也是属于一类世界模型。
第二类是以像素为中心的世界模型,视频生成本质上是预测下一个画面帧,过去半年一年时间最广泛地被误认为世界模型,误用的源头就是当年Sora发布的时候,OpenAI使用World Simulator,所以更像是进行世界模拟,而不是具备完备的下一个状态预测。去年我也有表达非常明确的观点,视频生成模型不等于世界模型,但跟世界模型是相关的。
第三类是以三维结构为中心的世界模型,包括3D重建就是单纯的三维世界。
第四类是以视觉表征为轴心的世界模型。
这些就是智源研究院对于世界模型的四大分类,基本可以涵盖现有的主流技术以及对于未来技术发展的研判。
四类模型距离真正面向物理世界的基座模型都有很大的距离,也就是说,世界模型现在处于早期,所有世界模型领域夺冠的模型都还不是未来真正的世界模型,因为现在对于世界模型的评测框架和评测数据集都需要进行很多迭代和建设。现在仍处于世界模型的早期,依然需要开展大量的科研探索工作。
对于世界模型的分类,事实上,我们认为将来也许会有第五个分类,或者智源尝试的很有可能是第五个分类,就是以语言为中心的分类和以视觉表征为中心的分类可能的融合,也叫做潜空间表征,同一个潜空间能够Decode不同的模态。
我们依然延续的悟界·Emu3.5模型训练的思想,就是将各种文字图像视频模态全部压缩,原生统一训练,压缩在同一个语义空间,希望有更多的模态被压缩进来,通过统一潜空间表征各种真实物理世界的状态,Decode成为Action、画面或者其它真实物理世界需要的状态。
我们认为,将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,很有可能是世界模型真正下一个可能的路径。因为这条路径没有完全走通,所以并不打算现在能够分类,期待明年和后年再分享智源最新成果。
问:今年有一些国产世界模型轮流登顶评测榜单,框架和数据集需要更新,应该怎样进一步完善?悟界·Physis v0.1除了数据面临的能力,最开始研发的过程中还有哪些挑战?
王仲远:
世界模型目前缺乏非常严谨的评测框架和体系,所以悟界·Physis不仅会有研发,下半年也会提出我们的评测框架,围绕下一个物理状态预测,对于世界模型需要有更多系统性评测。
评测的方法和框架体系都不完备,我们还是非常认同已经会有世界模型评测的数据集和方法,想要呼吁的就是现在这些评测不代表未来世界模型的能力。
现在很多世界模型的评测都是第二类,就是以视频生成评测为重点,但不代表完整的未来世界模型作为基座模型的核心能力,希望将来和行业共同共建行业体系。
悟界·Physis在训练的时候也有增加很多物理,因为需要理解真实物理世界,很多真实的物理规律、物理知识,跟真实物理相关的视频、科学的数据,能够更加贴近真实的物理世界。
问:你提到,智源可能找到多模态Scaling的新范式。你判断Scaling仍然有效的依据是什么?
王仲远:
第一,悟界·Emu3.5相比悟界·Emu3,训练数据提升约50倍、参数规模提升约4倍,模型能力和性能都有显著增强。
第二,它采用自回归架构,能够复用现有计算基础设施以及大语言模型的训练、强化学习和后训练方法,这意味着它有望沿着大语言模型的Scaling路径持续演进。
第三,悟界·Emu3.5目前参数量仍只有约320亿,使用的互联网公开视频数据不到1%,说明后续仍有很大提升空间。与此同时,进入物理世界后,还需要进一步探索包含时间、空间、物理规律和物理常识的新Scaling方式。
问:现在不少视频生成模型也会被称为世界模型。你怎么看视频数据在世界模型训练中的作用?它距离真正推动世界模型发展,还有多远?
王仲远:
视频数据仍是少数能够海量获取、同时包含时间、空间、物理因果和意图等关键要素的数据。具体到具身智能,过去两年行业主要采用VLA技术,而我判断今年World Action Model会成为热点,它通过视频生成类世界模型与动作协同训练,来解决部分具身智能场景问题。
但无论是VLA还是World Action Model,都还没有触及具身智能最核心的能力,即泛化能力,以及对真实时间、空间、物理状态、物理规律和物理常识的理解、规划与决策能力。
智源研究院也提出了对世界模型的四类划分(以语言为中心、以像素为中心、以三维结构为中心,以视觉表征为中心),并进一步认为,下一代世界模型必须是全模态的,以预测下一物理状态为核心,能够理解真实物理规律和常识,并具备主动交互能力。
问:从Next Token Prediction到Next Physical State Prediction,背后的逻辑是什么?怎么描述阶段性状态?
王仲远:
下一个Token预测是大语言模型的核心,下一个物理状态是世界模型的核心。
我们提出潜空间建模,不同程度有不同的Decoder去接不同的模态和下游的任务,确实是在尝试中的技术路线,虽然看到了一些先期的,要是路线成功的话还是要能够有些Scaling Law。
大模型的思想会被用于世界模型,数据驱动也会被用于世界模型,因为这是已经被验证的一条路。
作为科研机构,我们事实上也有布局类脑计算。
我曾经举过这样的例子,现在万亿参数大模型要消耗1座城市的电,人脑只需要十几瓦,树叶、青菜就可以产生10-20W的能量,可以实现跟大模型一样的感知理解和推理能力,这就是生物结构的神奇。
我们确实有这方面的科研探索,就是类脑的研究,但我们觉得人脑的奥秘依然非常复杂,处于相对早期的科研状态。
AGI未来在哪里?
问:行业里关于AGI何时到来的判断越来越多。你怎么定义AGI?它什么时候会到来?
王仲远:
按照传统图灵测试的定义,如今很多 AI 实际上已经达到这一水平。如果按大众理解的AGI,即具备类似人类的通用问题解决能力,那么数字世界的AGI很可能很快到来。
在我过去的研究和产品实践中,我原本认为AGI至少还要四五十年,但大模型技术的出现,让我意识到这个时间可能已缩短到四五年。对于AGI何时到来,海外不少专家预测,今年或明年就可能出现某种形式的AGI,我认同这一判断。
不过,更广义的AGI,比如真正理解现实世界、具备常识并能完成与物理世界交互的能力,可能仍需较长时间。当然,随着人工智能加速发展,这个时间也可能进一步缩短。
问:要是乐观判断一下,接下来世界模型会有哪种期待,可能是怎样的时间点?什么时候会出现让大家比较惊艳的能力?
王仲远:
我们觉得至少还需要好几年的时间,因为作为科研来说还是非常严肃的,很可能卡在一个地方三、五年都没有突破,也有可能突然就突破了。未来三到五年都会是世界模型持续演进和迭代的阶段,我们也期待随着数字世界大模型的成熟,能够加速面向物理世界人工智能基座模型、世界模型的迭代和演进。
问:当下世界模型急需解决的问题有哪些?
王仲远:
问题是相对清楚的,但没有收敛。
以具身为例,为什么现在的机器人不能像人类一样到处走,执行各种各样的任务?因为世界常识、世界物理规律是缺乏的,可以在操作台上、流水线上很好地完成一些特定的任务,但不具备泛化性和通用性。
对于真实物理规律的理解,一个杯子在桌边掉下来,可能产生的影响,对于人类来讲是So Easy的事情,非常容易解决,但对于现在物理世界AI来讲,理解感知交互并且决定决策还没法完全做到,某些模型已经展现出来了几个部分的能力。
问题是清晰的,就是现在的AI如果真正应用在物理世界的真实应用,会有很多的不足,对于时间、空间、物理规律、各种模态的物理常识不具备世界知识,不具备时间和空间这些明确的感知和决策推演,全模态的处理能力都不具备。
由于这些问题,我们推演出来的世界模型很重要,也是人工智能进入物理世界,解决日常生活更多问题必须突破的技术。到底怎么做?完成哪些能力就是世界模型?这些是没有共识的。
大家会看到一方面非常火热,另一方面概念非常混乱,代表大家对于现状的不满和对于未来的期待才会产生这样的情况。我们期望大家逐步形成一些共识,避免世界模型名词的滥用。
问:包括面壁智能、智谱在内,都是智源孵化或出去的公司,智源对于技术和产业的结合如何思考?
王仲远:
回到我们的定位,高校和企业不愿意做的科研探索和创新。做科研就有失败的可能,所以在智源还是宽容失败,愿意给年轻人试错的机会。
但同样,这其中也有可能成功,很多科研小伙伴非常兴奋,希望在产业证明自己。智源研究院非常鼓励,这些科研不仅仅是学术的突破,也能够给产业创造价值。
大家可以看到过去的几年,我们孵化了不少公司,很多公司都是在具身智能和世界模型都会是国内乃至全球非常顶尖、备受关注的公司,这些恰恰是智源研究院新型研发机构的价值所在。
我们不与高校争名,不与企业争利,不以发论文为目标,也不以孵化公司为目标,但确实发了不少论文,孵化了不少公司,更像是专注做科研,专注做出成果自然而然的结果。
这些就是基于我们的定位和科研成果本身的产业价值自然而然发生的。
智源会专注在科研和技术,产业的事情交给产业来做,可以被大公司收购,跟大公司合作,授权或者自己团队创业孵化,所以这些都是成果转化和孵化的路径。