世界模型和大语言模型有什么区别？

大语言模型主要基于文本数据，预测语言序列，适合对话和写作；世界模型依赖动态多模态数据，模拟世界变化，适合机器人和自动驾驶等任务。

为什么世界模型最近受到关注？

因为大语言模型遇到性能天花板，多模态技术和算力提升使得训练动态世界模型成为可能，满足了AI具身智能和现实交互的需求。

全面解析“世界模型”：定义、路线、实践与AGI的更近一步 — Transcript & Summary

Q: 什么是世界模型？

世界模型是AI内部构建的对现实世界的抽象表示，能够理解环境、预测未来状态并规划行动，类似人类的心智模型。

全面解析世界模型的定义、发展、技术路线及其与大语言模型的区别，探讨其对AGI和AI未来的影响。

Key Takeaways

世界模型是AI从语言模型向具身智能转变的关键。
大语言模型和世界模型在目标、数据和输出上有本质区别。
世界模型通过内部模拟未来状态，提升AI的决策和行动能力。
当前世界模型研究聚焦于构建动态、可交互的虚拟世界。
未来世界模型与大语言模型结合，将推动AGI的实现。

Summary

2026年将是世界模型爆发之年，AI虽强但缺乏对世界的理解与预测能力。
世界模型起源于认知科学中的心智模型，强调内部模拟和预测未来。
2018年Google Brain提出世界模型框架，包含视觉、记忆和控制三大模块。
世界模型核心特质包括表示世界、预测未来和规划行动。
世界模型与大语言模型区别明显，前者侧重动态世界的感知与交互，后者侧重语言生成。
Yann LeCun等专家批评大语言模型路线，强调自主学习和真实世界建模的重要性。
世界模型和大语言模型将互补，共同推动通用人工智能的发展。
世界模型的研究分为三层结构：思维范式、表现形式（如视频生成、3D建模）、智能体训练。
视频生成和3D空间生成是当前世界模型的两大技术路线，代表项目有OpenAI的Sora和谷歌的Genie。
世界模型的发展得益于多模态数据、算力提升和对真实世界交互的需求，成为AI下一轮竞赛核心。

Full Transcript — Download SRT & Markdown

00:00

Speaker A

2026年将会是世界模型全面爆发的一年。

00:03

Speaker B

World models.

00:04

Speaker C

World models.

00:05

Speaker D

World models.

00:06

Speaker A

如今的AI看起来似乎无所不能，它能写深奥的论文，复杂的代码，做出顶级的画面和视频。

00:12

Speaker A

但是它仍然缺乏理解世界、预测世界以及在世界里推演并行动的能力。

00:18

Speaker A

为了解决这个问题，OpenAI、谷歌、微软等大公司，Yann LeCun、李飞飞等顶尖学者都开始抢着研究同一件事情，那就是世界模型。

00:28

Speaker A

很多人认为啊，随着多模态走向普及和成熟，如果这条技术线完全跑通，它将彻底重塑整个AI格局。

00:37

Speaker A

但是呢，我们也注意到啊，“世界模型”的爆火也带来了新的问题，那就是仿佛整个AI圈一夜之间都变成了“世界模型”。

00:46

Speaker A

做视频生成的是世界模型，做机器人的是世界模型，做自动驾驶的是世界模型，做游戏开发的是世界模型，AR/VR是世界模型，Agent、仿真、训练环境，只要跟“世界”沾点边，几乎都是世界模型。

00:59

Speaker A

它们看起来完全不一样，但现在全都被叫做同一个名字。

01:03

Speaker E

我觉得这个也是很多人在神化世界模型的一个事情。

01:09

Speaker E

其实很多现在世界模型，它就是一个视频模型。

01:12

Speaker F

业界看到的这个世界模型呢，其实它更多的是世界模型的表现形式。

01:18

Speaker G

如果一个World Model我们真的已经Solve掉了，那我们现在科研的方向似乎就没有意义了。

01:24

Speaker A

那么世界模型到底是什么？

01:26

Speaker A

它跟大语言模型有什么样的区别呢？

01:30

Speaker A

这些看起来完全不同的路线是在做同一件事情吗？

01:34

Speaker A

世界模型的到来，又会给各行各业以及整个社会带来什么样的改变？

01:40

Speaker A

以及呢，它会是人类通往AGI的终极密码吗？

01:44

Speaker A

大家好，我是硅谷101的陈茜，那今天这期视频，就让我们一起走进世界模型。

01:48

Speaker A

什么是世界模型呢？

01:50

Speaker A

关于它的定义啊，其实目前依然还没有一个非常清晰的、被所有人都认可的说法。

01:55

Speaker A

但是呢，我们可以先来聊一聊这个概念的起源以及呢，它究竟想要去解决什么样的事情。

02:00

Speaker A

那么，先从一个再简单不过的问题开始。

02:03

Speaker A

什么是世界模型？

02:05

Speaker A

你是怎么知道一杯水放在桌边，它可能会掉下去的呢？

02:10

Speaker A

科学家们认为啊，人类之所以能够预测杯子会掉落，门往哪开，球会顺着斜坡滚，是因为从很小的时候，我们就在脑子里面构建了一个“世界怎么运作”的模型。

02:20

Speaker A

我们能够预判下一秒会发生什么，能够想象“如果我这么做，会怎么样？”

02:26

Speaker A

并且在脑海中提前排演各种可能性。

02:30

Speaker A

在认知科学中，这被称为心智模型（Mental Model）。

02:33

Speaker A

早在上个世纪，科学家们就已经开始研究人类的心智模型了。

02:38

Speaker A

1943年，Kenneth Craik在其著作《解释的本质》中就提出，人在对现实做出反应之前，会先在大脑中构建一个“小规模的世界模型”。

02:47

Speaker A

用它来模拟可能发生的过程，再据此选择行动。

02:51

Speaker A

也就是说啊，我们每个人的脑子里面都有一个看不见的“小世界”。

02:56

Speaker A

那么既然人智能依赖于这样的内部世界，很多AI研究者也开始追问说，机器要想具备真正的智能，是否也需要一个属于自己的世界呢？

03:03

Speaker A

于是，在AI和强化学习的早期研究中啊，这个思想以不同的名字反复出现。

03:10

Speaker A

比如说在1991年，Richard Sutton、Doina Precup和Satinder Singh在论文中提出了后来被称为Dyna架构的设计思路。

03:20

Speaker A

Dyna的核心在于啊，智能体在学习行动策略的同时，也要学习model of the world，也就是说，当我采取某个动作之后，世界会如何变化。

03:30

Speaker A

这也是第一次将“世界模型”明确确立为智能体内部的一项基础能力。

03:36

Speaker A

在此之后啊，世界模型并没有沿着单一路线发展，而是在不同研究领域中被不断拆解、强化和改写。

03:43

Speaker A

比如说在强化学习和机器人中，它体现为Forward Model，在自动控制和工业系统中，则是发展出了Model Predictive Control（模型预测控制）。

03:50

Speaker A

这些理论的名字虽然不同，但是背后其实共享着同一个核心假设，那就是智能体之所以能够做出更好的决策，不是因为反应更快，而是因为它能在行动之前，在内部世界中先“看到未来”。

03:59

Speaker A

在此后很长一段时间当中啊，世界模型更多停留在偏理论、偏算法的层面。

04:05

Speaker A

直到深度学习和表示学习逐渐成熟，在2018年，Google Brain的David Ha和深度学习元老级教父Jürgen Schmidhuber共同发表了论文《World Models》。

04:15

Speaker A

这篇论文正式提出了“世界模型”World Models这个精炼化的名称，同时呢，还给出了一个比较简洁的世界模型理解框架。

04:23

Speaker A

世界模型等于观察世界（V）加预测世界（M），再加在内部世界中学习行动（C）。

04:30

Speaker A

对应的是视觉（Vision）、记忆（Memory）和控制（Controller）三个核心模块。

04:35

Speaker A

我们用一个简单的例子来解释一下。

04:39

Speaker A

想象一下，你是一个从未打过乒乓球的新手。

04:44

Speaker A

当你站在球台前啊，眼睛接收到的是大量复杂的视觉信息。

04:51

Speaker A

视觉模块V并不会记住每一个像素，而是会自动地提取出对决策真正重要的部分。

04:58

Speaker A

它将原本上百万像素的画面压缩成仅有几十个数字的精华编码。

05:03

Speaker A

记忆模块M接收到这些编码之后，便立即开始内部模拟，经过多次练习啊，你的大脑已经建立起对乒乓球运动规律的理解。

05:10

Speaker A

记忆模块就像你内心的“物理引擎”，能够预测“如果我这样做，会发生什么”。

05:16

Speaker A

所以当球飞来的时候，视觉模块提取特征，记忆模块模拟方案。

05:21

Speaker A

而控制模块C就主要是在记忆模块M所创造的“内部世界”中进行训练。

05:28

Speaker A

你并不需要真的挥拍一百次试错，而是在记忆模块的“梦境”中找到最佳策略之后，再在现实中只执行一次最优解。

05:35

Speaker A

而这种“想象、规划、行动”的认知过程，正是人类智能的核心特征。

05:41

Speaker A

在这篇论文当中啊，他们也做出了一个有意思的Demo，让模型在完全虚拟的小世界当中，学会了玩一款赛车游戏。

05:49

Speaker A

证明了AI可以像人类一样，通过内部世界的想象来进行学习。

05:55

Speaker A

那么总结下来，世界模型到底是什么呢？

05:59

Speaker A

研究者们普遍认为，它们应该具有三大特质。

06:04

Speaker A

第一呢，表示世界（Representation），也就是说模型能够理解所处的环境里面有什么，物体在哪儿。

06:10

Speaker A

以及呢，物与物之间是什么关系。

06:14

Speaker A

第二呢，是预测未来（Prediction），它能够对事件进行模拟和生成。

06:20

Speaker A

如果我推一下杯子，打开一扇门，往前走两步，世界会发生什么样的改变？

06:26

Speaker A

那第三啊，是在世界里规划和行动（Planning & Control）。

06:32

Speaker A

能够预测接下来会发生什么之后，我应该如何采取行动。

06:38

Speaker F

因为它是一个把你把一个世界抽象到一个潜在的空间里，然后它是被压缩过的。

06:46

Speaker F

然后在在这个潜在空间里呢，你能够通过学到的物理规律，然后呢，去做对未来的预测，然后形成一个对真实世界的一个模拟器。

06:55

Speaker F

相当于它是一个模拟系统，有点像是一个缩小的平行宇宙。

07:00

Speaker F

这感觉就是你如果有一个真正的AI大脑，它将能够就是它有自己的一个AI的世界观。

07:06

Speaker F

然后呢，因为你可以做预测，所以你就可以去做未来的推演，然后你可以做决策。

07:13

Speaker A

世界模型的本质，就是想让AI从一个只会回答问题的语言机器，走向能够真正像人类一样，会观察、会推理、会行动的真正智能体。

07:19

Speaker A

但是问题来了，作为一个上个世纪就开始被研究的概念，为什么突然在最近一段时间火起来了呢？

07:26

Speaker A

它跟我们现在所熟悉的大语言模型，又有什么样的区别或是联系呢？

07:32

Speaker A

为什么要研究世界模型？

07:36

Speaker A

让我们把世界模型和大型模型来做个对比。

07:40

Speaker A

从主要任务和预测目标来看啊，大语言模型的目标是生成在语言维度上最合理的序列。

07:47

Speaker A

预测的是下一个词或者token，比如说你问杯子会从桌子上掉下来吗，它回答会。

07:53

Speaker A

因为这是在无数文本里面出现过的正确答案。

07:57

Speaker A

而世界模型的任务是预测“下一秒世界会变成什么样子”，预测的是下一帧画面、下一步动作、下一次的状态变化。

08:05

Speaker A

它需要理解物理规律、空间关系和动态变化。

08:09

Speaker A

从训练数据上来看啊，大语言模型主要依赖文本数据，也包括一些图像和视频。

08:16

Speaker A

数据特点是以静态内容为主。

08:20

Speaker A

而世界模型啊，则主要依赖视频等动态数据，包括摄像头看到的画面。

08:26

Speaker A

机器人的传感器反馈、动作的结果、环境的变化。

08:31

Speaker A

数据特点是动态的、时序性的。

08:34

Speaker A

从输出的结果来看啊，大语言模型输出的是语言或者图像等内容。

08:40

Speaker A

世界模型输出的是对未来状态的预测，对行为的模拟以及可执行的行动方案。

08:47

Speaker A

从学习方式来看，大语言模型是通过语言间接理解世界，更像是一个“知识容器”。

08:52

Speaker A

而世界模型是通过交互和推演直接理解世界，不仅能“看见”，还能“预测”和“干预”。

08:59

Speaker A

因此，大语言模型更适合对话、写作、翻译、问答，而世界模型对应的，则是机器人、自动驾驶、物理模拟和决策系统这些必须进入真实世界的任务。

09:09

Speaker A

此前呢，李飞飞也曾经在采访当中啊，精炼地总结过两者在目的和训练模态上的不同。

09:16

Speaker H

One is about saying things, the other one is about seeing and doing things.

09:25

Speaker H

So, so they are very fundamentally different modality.

09:30

Speaker H

The large language models, the basic unit are lexicons.

09:35

Speaker H

Whether it's a letter or a word.

09:39

Speaker H

And in our model, the world models, we use the basic units are pixels or voxels.

09:44

Speaker H

So, they are very different language.

09:49

Speaker A

虽然大语言模型和世界模型是两条不一样的技术路线，但是它们的终极目标其实是一致的，那就是要实现通用人工智能。

09:59

Speaker A

那么我们现在为什么要突然这么去关注世界模型呢？

10:05

Speaker A

是因为大模型这条路线已经走不动了吗？

10:09

Speaker A

其实呢，关于这个问题，研究界目前依然存在着不同的观点。

10:14

Speaker A

一些研究者们旗帜鲜明地提出，大语言模型是死路。

10:20

Speaker A

这派的代表人物之一就是Yann LeCun，离开工作了12年的Meta后。

10:27

Speaker A

这位65岁的图灵奖得主，深度学习先驱并没有选择退休，而是回到巴黎创立了一家名为Advanced Machine Intelligence的公司。

10:37

Speaker A

他要做的事情，与硅谷主流的大模型路线截然不同。

10:43

Speaker A

他在最近的采访当中就表示啊，AI领域的Moravec悖论一直存在。

10:50

Speaker A

所谓的Moravec悖论呢，就是指AI可以轻松地处理对人类极其困难的高智力任务，比如说下棋、微积分、读论文。

11:02

Speaker A

但是直觉性的感知、社交等人类和动物轻松能够完成的初级技能，对机器却极为的困难。

11:10

Speaker A

Yann LeCun就认为这个悖论至今未解决，就是因为我们研究AI的路线错了。

11:17

Speaker A

人类智能的核心在于不依赖海量数据就能够自主学习。

11:24

Speaker A

现在的LLM就是在拟合语言的统计相关性，对现实世界几乎没有直接建模能力。

11:33

Speaker A

如果继续沿着LLM路线去“堆量”，最多只能做出一个更会说话、更会写字的模型。

11:40

Speaker A

他甚至放言称啊，再过五年，GPT之类的大语言模型就不会再有人用了。

11:47

Speaker A

而关于大家都在憧憬AGI很快到来，他也认为是一种幻想。

11:53

Speaker A

最乐观也要5到10年，机器人的智能才能勉强接近一只狗。

11:58

Speaker I

So you have those people blowing AGI.

12:02

Speaker I

It's completely deluded.

12:04

Speaker I

It's just complete delusion.

12:08

Speaker I

Because the real world is way more complicated.

12:14

Speaker I

You're not going to get it, you're not going to get anywhere by tokenizing the world and using LLMs.

12:21

Speaker I

It's just not going to happen.

12:22

Speaker A

而除了Yann LeCun之外呢，学术界当中有不少的大佬级人物也都持有类似的观点。

12:29

Speaker A

比如说图灵奖的获得者，强化学习之父Richard Sutton。

12:35

Speaker J

So large language models are trying to get by without having a goal or a sense of better or worse.

12:41

Speaker J

That's just, you know, it's exactly starting in the wrong place.

12:45

Speaker A

李飞飞最近也在密集地发声，她说啊，大语言模型依然是“黑暗中的文字匠人”。

12:52

Speaker A

能言善辩却缺乏经验，知识渊博却脱离现实。

12:59

Speaker A

所以呢，大模型这条路线是不是真的走不通了呢？

13:05

Speaker A

严格来说，现在还没有标准的答案。

13:10

Speaker A

但是呢，有几件事啊，大家开始有了越来越多的共识。

13:15

Speaker A

首先，单纯把模型做得更大，已经不会再像过去那样带来立竿见影的突破了。

13:22

Speaker A

规模继续上去当然可以变强，但是在算力、数据、能源、成本这些硬约束下，它的性价比正在迅速地下降。

13:29

Speaker A

其次，AI需要更加直接地去接触“真实世界”，语言世界太干净了。

13:36

Speaker A

它无法提供现实世界里面那种混乱、连续、充满不确定性的因果经验。

13:44

Speaker A

AI想继续往前走，需要新的输入方式，需要多模态感知。

13:50

Speaker A

需要去和环境互动。

13:53

Speaker A

此外呢，大家普遍认为说，世界模型和大型模型将会是一个互补的关系。

14:00

Speaker A

陈羽北就在访谈当中提到说，世界模型它并不需要完全将大语言模型推翻重来，而是在为大语言模型去补上“现实世界”的维度。

14:09

Speaker G

在语言中我们有了GPT的话，就是说预训练，当预训练的好处达到一定程度的时候，它可以被快速地变成任何的downstream application。

14:17

Speaker G

那么世界模型的话，你可以认为是一个大号的GPT，它包含了感知，包含了控制。

14:24

Speaker G

然后如果我们也在这能获得根本上的成功的话，那么在未来我们所有的机器人，所有的智能体，都可能以这样预训练和后训练的方式来产生。

14:32

Speaker G

这有可能会彻底地解锁一些AI的应用场景。

14:36

Speaker A

既然世界模型如此的重要，为什么最近的一段时间，它才突然被行业普遍地讨论和关注呢？

14:44

Speaker A

第一个原因就是我们刚才所讨论的，大模型的原生能力遇到了天花板。

14:52

Speaker A

但人们对AI在现实生活中的期待却越来越高。

14:59

Speaker A

另一个原因，是随着多模态时代的到来，让我们第一次有能力训练真正的世界模型。

15:05

Speaker A

训练世界模型需要海量的视觉与动作数据。

15:11

Speaker A

多模态传感器输入，大规模视频模型能力以及足够强的算力。

15:16

Speaker A

来支持“世界推演”。

15:20

Speaker A

这些条件直到最近几年才逐步成熟。

15:24

Speaker A

总的来说，因为大模型的天花板已经显现。

15:30

Speaker A

因为全行业都在迈向具身智能，因为我们现在有了让AI看世界、理解世界的技术基础。

15:39

Speaker A

世界模型就顺理成章地成为了下一轮AI竞赛的核心舞台。

15:45

Speaker A

而这些尝试很快就在行业里面分成了几条不同的技术流派。

15:52

Speaker A

世界模型三层结构。

15:55

Speaker A

Chapter Three。

15:57

Speaker A

虽然世界模型的最终目标看起来是相对清晰的。

16:03

Speaker A

但是落实到实践探索层面，却常常会让人感到困惑。

16:08

Speaker A

比如说有的在做视频生成，有的在做3D场景，有的在做机器人，有的在做智能体。

16:15

Speaker A

它们都叫做世界模型，但是做的事情似乎完全不同。

16:20

Speaker A

那么我们究竟应该怎么去理解现在整个行业到底在做些什么呢？

16:26

Speaker F

关于这个问题啊，我们的嘉宾一起就结合世界模型的理论知识以及她在Meta的一些实践观察。

16:34

Speaker A

在采访当中提出了一个我们认为非常有帮助于大家理解的框架。

16:40

Speaker A

就是把整个世界模型领域拆成了“三层结构”。

16:45

Speaker A

在这个架构中啊，底层是世界模型的思维与范式，也就是我们之前所讨论的。

16:53

Speaker A

世界模型的抽象、预测、规划特征以及它要解决的问题。

16:59

Speaker A

这一层涉及到目前很多研究层面的创新。

17:03

Speaker A

第二层是世界模型的当前“表现形式”，是指模型到底是用什么方式来表示世界和预测世界。

17:09

Speaker A

世界应该如何被生成出来的。

17:12

Speaker A

第三层是世界模型的“目的”层，也就是智能体训练。

17:17

Speaker A

让AI最终能在这个世界里面行动，做任务，完成决策。

17:23

Speaker F

三个结合起来就是我们说的底层的世界模型核心的层级，但是它这个东西都是抽象的，也看不到。

17:32

Speaker F

那你，要让人和AI看到，你需要有一个表现形式，那么这个表现形式现在我们是需要AI去给我们生成出来。

17:40

Speaker F

所以说它就是这个生成的这个层级就是会比它这个Layer稍微高一点。

17:46

Speaker F

生成完了以后，我AI大脑里有了世界观，然后我可以看到这个世界，那接下来我这个世界里面就要有东西了。

17:54

Speaker F

我就有人，有东西，然后人和AI我都活在里面，所以我们就会有Agent，就是智能体在里面存在的方式就是。

18:02

Speaker F

我终于有了一个宇宙了，所以我要在里面玩啊，我在里面学习啊，然后我要对这个世界造成影响。

18:10

Speaker F

就我和这个世界它有一个交互，然后世界对我有影响，我世界有影响。

18:15

Speaker A

如果我们把当前产业界的主要尝试放在这个框架当中去看的话，它们其实很多都是聚焦在第二层级。

18:22

Speaker A

也就是世界生成，这也是目前整个领域最热闹的地方。

18:26

Speaker A

为什么要先做世界生成？很多研究者就认为，构建世界模型的第一步，不是让AI直接“推理”或“行动”。

18:33

Speaker A

而是让它能够去“生成世界”。

18:37

Speaker A

这看似简单，却是世界模型的根基。

18:40

Speaker A

所谓“理解世界”，本质上是理解世界如何随时间和行为变化，物体如何移动，光线如何变化。

18:47

Speaker A

风吹过的树叶会发生什么？

18:50

Speaker A

而要获得这种对“世界演化”的直觉，最直接的方式就是让模型能够先生成一个可以连续变化的世界。

18:57

Speaker A

此外，强大的世界生成模型能为智能体提供廉价的训练场。

19:04

Speaker A

比如说训练一个机器人倒咖啡，让它在现实中倒几万次。

19:10

Speaker A

打碎几千个杯子，显然性价比太低。

19:13

Speaker A

而地震、火灾、车祸这些边缘场景，也可以在虚拟世界中自由进行反事实推理的实践。

19:20

Speaker A

因此，世界生成既是世界模型的外壳，也是整个体系的入口。

19:26

Speaker A

而在世界生成这件事情上，目前主要有两大技术路线。

19:33

Speaker A

第一类是用“视频生成”的方式去重建世界，包括OpenAI的Sora、谷歌的Genie等。

19:40

Speaker A

第二类则是用“3D空间生成”的方式去显式建模世界。

19:46

Speaker A

其中的代表就是李飞飞的World Labs。

19:50

Speaker A

视频生成应该是目前最具代表性的，也是最为大众所熟悉的世界模型路线。

19:56

Speaker A

它的目标很直观，就是尝试让AI直接生成一个能动起来的世界。

20:02

Speaker A

并让这个世界随着时间流动、演化、变化。

20:07

Speaker A

OpenAI在发布Sora之初，他们就将其定义为一个“世界模拟器”。

20:15

Speaker A

Sora并不是简单地把一段视频用静态图像一张张“拼出来”。

20:22

Speaker A

而是让画面里面的事物能够随着时间连续地演化。

20:28

Speaker A

这些视频细节之所以让人震撼，是因为人们发现，模型似乎开始真的“了解”了事物变化的背后规律。

20:40

Speaker A

它知道光线在材质上如何变化，知道一个物体在受到外力之后该怎样移动。

20:46

Speaker A

而目前与Sora类似的还有Seedance、Veo、Kling等一系列视频生成模型。

20:53

Speaker A

如果说Sora等模型是能够去“播放一个世界”。

21:00

Speaker A

那么Google的Genie系列模型，则是让我们能够去“探索一个世界”。

21:06

Speaker A

Genie 3当中，模型能够根据用户的文本或者图像提示，实时生成可供用户及智能体进行互动的虚拟环境。

21:16

Speaker A

相比前代产品啊，Genie 3的核心突破在于其“实时交互性”和“长时间一致性”。

21:24

Speaker A

用户可以跟模型进行长达数分钟的互动，Genie 3和传统的视频生成模型，不同的点就在于。

21:32

Speaker A

它生成出来的内容，你是可以去跟它实时交互的，我说是黑板上写了字，然后呢。

21:40

Speaker A

我又走到别的地方去回来，这个字还在黑板上，就说明虽然说它还是有一个frame by frame的这种生成方式。

21:47

Speaker A

但是它其实是已经能够记住它世界里面的这些状态。

21:53

Speaker A

Genie 3的这种可控性意味着模型内部不再只是预测下一帧是什么，而是已经在模拟“未来的世界状态”。

22:01

Speaker A

它让视频生成从“播放”走向“交互”，开始从“电影式生成”走向“游戏式模拟”。

22:07

Speaker A

更接近一个真正的“世界引擎”。

22:12

Speaker A

也更接近智能体你将来需要使用的环境。

22:18

Speaker A

就在今年1月啊，谷歌还推出了基于Genie 3打造的实验室原型Project Genie，首次将Genie 3的能力第一次封装成了一个人人都可直接上手体验的产品形态。

22:29

Speaker A

它的强大在于多模态的深度协同，由Gemini提供逻辑支撑，生成高精度的场景与角色。

22:36

Speaker A

再由核心引擎Genie 3将静态设计“激活”为可互动的3D世界，依托TPU V5的算力。

22:44

Speaker A

Project Genie实现了720P/24fps的实时环境渲染。

22:50

Speaker A

同时允许用户对同一个世界进行“重新混剪”，具有长达60秒的强一致性记忆。

22:57

Speaker A

Project Genie的发布呢，意味着世界模型或许开始真正从PPT走进现实，它不再只是个会“变魔术”的算法。

23:06

Speaker A

而是呢，一个通过一句话就能“变”出一个可运行的小型游戏世界的生产力工具。

23:13

Speaker A

从行业视角来看，视频生成路线有一个非常明显的优势，那就是它的结果“看得见”。

23:20

Speaker A

我们能直接观察世界模型是否具备物理一致性，是否理解时空结构。

23:27

Speaker A

而且它能够快速商业化落地，影视、广告、教育、游戏都能立刻使用。

23:33

Speaker A

从技术角度上来看，视频生成的优点也也很突出，首先，训练数据相对容易获得。

23:40

Speaker A

互联网上有大量真实世界的视频，为模型学习世界规律提供了训练空间。

23:48

Speaker A

其次，它对Scaling Law非常敏感。

23:52

Speaker A

模型规模越大，数据越多，视频的一致性和物理合理性就呈指数级的提升。

23:59

Speaker A

此外，视频数据天然包含多样化场景，模型泛化能力也更强。

24:05

Speaker A

正因为这种“可观察性”和“可规模化训练”的组合，让视频生成路线在过去一两年成为了世界模型最引人注目的方向。

24:15

Speaker A

但是视频生成的局限也同样明显，最重要的一点是，虽然它的输出是“显式”的，但是内部对世界的理解是“隐式”的。

24:23

Speaker A

我们无法直接读取，也无法移植到机器人或者决策系统当中。

24:29

Speaker A

视频生成路线其实和大型语言模型很像，两者都是典型的“scale-driven模型”。

24:35

Speaker A

语言模型通过学习互联网文本掌握语言统计规律，视频模型通过学习海量视频掌握视觉统计规律。

24:44

Speaker A

那区别在于啊。

24:47

Speaker A

视频数据天然包含物理运动、加速度、重力等物理特征，因此呢，视频模型能够更加直接地看到真实世界的运作方式。

24:55

Speaker A

但是和语言模型一样，视频模型理解的世界规律依然藏在权重里。

25:02

Speaker A

比如说你让Sora生成一辆车的行驶视频，造型和光影可能很逼真。

25:10

Speaker A

但是如果你问“这辆车的长宽高是多少？被挡住的轮胎在哪里？”它答不上来。

25:17

Speaker A

因为Sora并没有构建一个3D的几何车辆模型，它只是学到了像素组合的概率分布。

25:24

Speaker A

所以呢，视频生成虽然是目前最直观，最能够应用落地的一步，但是它目前也只是画出了世界的一层皮啊。

25:33

Speaker A

它告诉我们世界可以被生成，但是还缺少有血有肉的框架。

25:40

Speaker A

那么如何才能够勾勒出世界表层下的框架呢？

25:47

Speaker A

李飞飞提出来的思路是3D生成，也就是空间智能。

25:51

Speaker A

与视频生成相比，3D生成路线走的是一条截然不同的技术选择。

25:58

Speaker A

不是把世界画出来，而是把世界建出来。

26:02

Speaker A

这也是李飞飞领导创建的World Labs目前的技术路线。

26:09

Speaker A

它们不追求画面有多逼真或电影级的连续性。

26:15

Speaker A

而是更关注世界的结构，包括物体在哪里，空间的几何关系是什么。

26:22

Speaker A

物体之间如何互相影响，生成的世界是否能够被“进入”与“操作”。

26:28

Speaker A

World Labs最新发布的模型叫做Marble，它的特点是给它一个语言指令，一张照片或者视频。

26:35

Speaker A

就能够通过高斯泼溅技术，重建出完整的3D场景结构。

26:42

Speaker A

简单来说，Marble就像是建筑师，看到图片的时候不只是看到“像素”，而是能够看到背后的三维结构。

26:50

Speaker A

比如说你同样问它图片里面汽车的长宽高，它能回答出是长4.5米，宽1.8米。

26:57

Speaker A

还能输出3D网格文件。

27:01

Speaker A

那么为什么李飞飞如此强调3D呢？

27:07

Speaker A

因为它认为啊，真实的世界就不是2D的，而是3D的，AI呢必须理解空间，才能够理解世界。

27:15

Speaker A

人类能够抓住物体，避开障碍，记住空间，是因为我们天生具备构建3D模型的能力。

27:22

Speaker A

机器人要抓取物体，需要知道形状、体积、位置。

27:29

Speaker A

自动驾驶要理解空间和距离，这些都不是二维像素能够表达的。

27:35

Speaker A

AI要真正进入现实世界，首先要知道“世界的三维结构”。

27:42

Speaker A

从技术层面上来看，3D生成路线有个巨大的优势。

27:48

Speaker A

与视频模型的“隐式物理直觉”不同，它生成的是显式结构。

27:55

Speaker A

模型知道每个物体的具体位置，因此物理模拟、规划、控制都更容易实现。

28:02

Speaker A

此外，3D生成在游戏、影视制作、室内设计等场景也能够快速落地。

28:10

Speaker A

让它能够在商业转化上具有优势。

28:14

Speaker A

不久之前，World Labs宣布了最新一轮10亿美元的融资，估值达到了50亿美元。

28:22

Speaker A

短短一年半时间，它的估值飙升了5倍之多。

28:27

Speaker A

一定程度上也反映了市场对于3D生成这条路线潜力的认可。

28:33

Speaker A

虽然3D生成对世界模型的发展有着巨大的战略意义。

28:40

Speaker A

但是它的实现难度也要比视频生成大很多。

28:45

Speaker A

首先是训练数据稀缺。

28:49

Speaker A

互联网是巨大的2D视频矿山，但是3D数据却很少。

28:54

Speaker A

高质量3D数据主要靠LiDAR、结构光扫描仪等专业设备采集。

29:00

Speaker A

不仅设备贵，流程还繁琐。

29:04

Speaker A

标注成本也比2D高出一个量级。

29:08

Speaker A

其次是几何结构难建。

29:11

Speaker A

3D模型需要确保生成的物体封闭、无穿模、无破损，而预测柔体、流体、链式碰撞等复杂3D动态交互，则难度更大了。

29:19

Speaker A

此外，3D生成对算力需求很大。

29:23

Speaker A

无论是训练中的3D渲染，还是实时物理模拟，计算量都远超2D模型。

29:30

Speaker A

直接推高了研究门槛。

29:33

Speaker E

比如说我们如果生成一张图片，那一张图片大家可能知道也就是比如说1024乘1024大概是1 million，就是100万个像素。

29:40

Speaker E

但是你如果要生成一个3D模型的话呢，最大的挑战就是你多出来一个新的维度。

29:48

Speaker E

那你不太可能直接用1024乘1024，再乘上一个1024，这样的一种表示去做3D的这种生成。

29:55

Speaker E

要不然计算量确实是太大了。

29:58

Speaker E

所以在这个里面大家就发明了很多新的创造性的方法，就比如说我们Meshy在用的技术路线。

30:05

Speaker E

还是基于diffusion或者auto-regressive model去生成这个模型。

30:10

Speaker E

可能会先生成一个比较低的分辨率的版本，然后我们再去把它upscale。

30:16

Speaker E

然后在做这个upscale的过程中呢，我们就会发现其实有一些区域，它不属于我们关心的范围。

30:24

Speaker E

所以在这种情况下呢，我们就可以把计算量集中在我们特别关心的这个区域。

30:30

Speaker A

总结来说，3D生成路线能够更加真实地去还原世界。

30:36

Speaker A

但是它实现难度更大，成本也更高。

30:41

Speaker A

不过我们以上讨论的，其实都还是如何把世界给生成出来。

30:49

Speaker A

但是光有生成还远远不够，因为世界模型真正的目标不是去生成一个世界，而是要让AI在这个世界里面行动。

30:58

Speaker A

而这，就是世界模型目的的层。

31:01

Speaker A

就是智能体训练。

31:03

Speaker A

如果世界生成是为了让AI看见世界、重建世界，那么智能体训练就是要让AI能够在这个世界里“做事”。

31:12

Speaker A

从世界长什么样，走向我能在这个世界里做什么，目前业界主要有两种探索路线。

31:20

Speaker A

那第一条路线啊，就是直接把世界生成模型当成“训练环境”。

31:27

Speaker A

让AI在虚拟生成的世界里不断去犯错、探索、总结，最终学会一套可以迁移到真实世界的能力。

31:35

Speaker A

这一类的代表就是Google SIMA。

31:40

Speaker A

SIMA的思路就非常的直接。

31:46

Speaker A

那就是既然现实世界太复杂，真实的训练太昂贵，那我们就用虚拟世界来教AI如何去行动。

31:54

Speaker A

而游戏成为了它最佳的训练场。

31:59

Speaker A

视频游戏作为复杂、可交互、实时反馈的环境，一直都是AI发展的摇篮。

32:06

Speaker A

从早期的Atari到AlphaStar在《星际争霸II》中打到世界前0.2%。

32:14

Speaker A

DeepMind一直用游戏训练更智能的AI，而SIMA的训练方式。

32:21

Speaker A

就是把AI放进很多不同类型的游戏环境中去“练级”，那最新的SIMA 2还将Gemini嵌入内核。

32:30

Speaker A

首次使用Genie 3生成的游戏世界进行了训练。

32:37

Speaker A

SIMA 2是展现出了几个令人瞩目的能力突破。

32:44

Speaker A

首先，它不仅能够“跟指令做事”，还能够“自己思考”，它能够理解复杂、多步、抽象的任务。

32:52

Speaker A

在陌生环境中自主探索、规划行动、寻找解决方案。

32:58

Speaker A

其次，它具有强大的“泛化能力”，能够在从未见过的游戏环境中表现出色。

33:05

Speaker A

此外，SIMA 2被设计为能跨游戏、跨环境执行任务的通用智能体。

33:13

Speaker A

这也为将来的具身机器人迁移奠定了基础。

33:18

Speaker A

但SIMA想做的事情，显然比玩游戏本身要更大。

33:25

Speaker A

游戏呢，只是现实世界的缩影，它最终想要实现的是让AI能够在任何3D世界里面行动、探索、推理、还有解决问题。

33:33

Speaker A

然而呢，对于这个目标，不是所有的研究者都认为“要行动，就必须先生成一个世界”。

33:40

Speaker A

比如说就以Yann LeCun为代表的另一派，就选择了一条完全不同的路线，直接学习世界的抽象结构JEPA。

33:49

Speaker A

JEPA不预测图像，不预测像素，也不重建视觉内容。

33:55

Speaker A

它做的事情是把真实世界压缩成一个抽象的、高维的潜在表示。

34:02

Speaker A

然后在这个潜在空间里进行预测。

34:06

Speaker A

预测的目标可以是空间上被遮挡的区域，也可以是时间上的后续状态。

34:13

Speaker A

哪些变化与任务和决策相关，它学习的是未来的结构，而不是未来的画面。

34:19

Speaker A

JEPA的基本结构可以拆成三件事。

34:25

Speaker A

首先，用Encoder将视觉和动作压缩成抽象表征。

34:32

Speaker A

然后用Predictor预测这些抽象状态在未来如何变化。

34:40

Speaker A

最后，将预测结果与真实未来状态的编码进行对齐，让模型学会捕捉世界的关键因果结构。

34:48

Speaker A

基于JEPA架构，Yann LeCun在Meta也先后发布了I-JEPA和V-JEPA，前者让AI理解静态图像的结构。

34:57

Speaker A

后者则是让AI学习视频中世界随时间变化的规律。

35:04

Speaker A

JEPA的路线背后啊，有非常重要的技术动机。

35:10

Speaker A

首先，生成像素既昂贵又低效，而绝大多数的像素信息与行动决策无关。

35:17

Speaker A

JEPA不画世界，因此呢，计算成本更低。

35:21

Speaker A

其次，由于只保留关键结构信息，JEPA更容易捕捉因果关系，也更具跨场景、跨任务的泛化能力。

35:30

Speaker A

更重要的是，这种抽象、结构化的世界表示，更接近机器人和具身智能真正需要的“可操作世界”。

35:38

Speaker A

比如说对于机器人来说啊，它不需要知道物体的光影纹理，它只需要知道物体的可达性。

35:46

Speaker A

跟自己的位置关系以及下一步该做什么。

35:52

Speaker A

而JEPA输出的，就是这种结构化的抽象信息。

35:59

Speaker A

其实早在几年前啊，Yann LeCun就已经在为JEPA路线摇旗呐喊了。

36:05

Speaker A

但是它至今依然没有能够成为世界模型的研究主流，背后的原因是因为JEPA路线在实际推进中面临了很多现实的问题。

36:14

Speaker A

首先，它是“不可见的”。

36:18

Speaker A

Sora能用逼真的画面震撼所有人，Genie可以生成可探索的游戏世界，World Labs能够用3D场景告诉你“我理解了的空间结构”。

36:28

Speaker A

但是JEPA学到的所有东西都藏在一个抽象的潜在空间里，这意味着我们难以直接看到和验证模型到底理解了什么。

36:36

Speaker A

其次，它的自监督目标极难设计。

36:40

Speaker A

JEPA不像视频生成那样有现成的目标，你给它一帧，让它预测下一帧。

36:48

Speaker A

JEPA想预测的是“未来的结构”，但什么才是结构？

36:54

Speaker A

哪些因素该保留，哪些该忽略，目前仍然没有统一的答案。

37:01

Speaker A

最后，缺乏统一的评估和规模化推进体系。

37:08

Speaker A

JEPA的表征质量藏在潜在空间里，研究社区多依赖下游任务或者行为表现来评估模型。

37:17

Speaker A

缺乏类似图像生成或语言模型那样统一的Benchmark，这也使得不同设计路线之间的效果比较变得更加困难。

37:26

Speaker A

而正是因为这些限制啊，JEPA更像是一个世界模型的前沿叶原型，方向很可能是对的。

37:35

Speaker A

但是距离成熟落地，还依然有一段距离。

37:40

Speaker A

到这里，我们把世界模型最核心的几条技术路线。

37:44

Speaker A

都以及梳理了一遍了。

37:46

Speaker A

有人用视频把世界“画”出来，有人用3D把世界“搭”出来。

37:52

Speaker A

有人在虚拟世界里训练行动智能，也有人干脆不画世界，想让AI直接学习世界的结构。

38:00

Speaker A

当然，还有一些我们没有展开的路线，比如说Dreamer这一类。

38:06

Speaker A

以动力学为核心的世界模型，更加专注于控制与想象。

38:13

Speaker A

有的试图从物理规律出发，用可微分模拟器去逼近真实世界。

38:20

Speaker A

也有越来越多工作正在模糊世界模型、预测模型与决策模型之间的边界。

38:27

Speaker A

这些路线看起来方向不同，但是它们正在指向同一个未来。

38:33

Speaker A

那就是让AI不再只是“输出信息”，而是真正地去理解世界、推理世界、在世界里行动。

38:40

Speaker A

一起就表示啊，因为目前世界模型在落地层面还在早期的阶段，并没有看到哪一条路线具体的商业应用形式。

38:49

Speaker A

所以包括Meta在内的大厂们，实际是在各个路线上都在做布局和研究。

38:57

Speaker F

Meta在这个世界模型的路线上，因为它不同的技术路线全部都做了，主要原因是因为用户场景啊，还有它的那个不同的这个垂直场景，它需要的不同嘛。

39:08

Speaker F

所以说为游戏服务的，我们就做了这个AI的这个游戏引擎，叫Meta Horizon Studio。

39:16

Speaker F

然后为了内容创作来服务的话呢，我们就会做这个纯视频方向的。

39:22

Speaker F

然后你说我们是为了这个数字重建，3D重建的话呢，我们就做了高斯泼溅的方式。

39:29

Speaker A

不过呢，可以预见的是，当世界模型真正成熟，对产业带来的改变，绝对不会只是让“视频生产效率更高”这么简单。

39:37

Speaker A

它将是一次横跨软件、硬件、制造、娱乐等等，众多行业的系统性冲击。

39:46

Speaker A

即将被改写的行业。

39:50

Speaker A

机器人。

39:52

Speaker A

如果说哪个行业会最直接地被世界模型撬动，那就一定是机器人行业了。

39:58

Speaker A

过去几十年，机器人的发展受制于硬件、算力和应用场景等多重因素，但更深层也更关键的瓶颈在于，它们还不“懂”世界。

40:08

Speaker A

因此难以实现跨环境的迁移和泛化。

40:15

Speaker A

今天的绝大多数机器人看起来都很厉害，但它们做的一切，本质上都是“被编程好的动作”。

40:22

Speaker A

所以只要环境稍微变化，它们就能够立刻“失能”。

40:28

Speaker A

机器人行业过去一直难以扩张的原因就在于，每一项新任务都意味着一次新的工程项目。

40:38

Speaker A

而世界模型带来的，是让机器人拥有“世界的内部模型”，它们能看到现在，也能预测未来。

40:46

Speaker A

知道物体怎么动，也能够推断自己的动作会产生什么样的后果。

40:53

Speaker A

它能先在脑子里模拟，再决定要不要执行。

40:59

Speaker A

比如说它可以模拟箱子会不会翻倒，门把的角度能否顺利地转动，路径是否足够安全，抓取是否会失败。

41:08

Speaker A

过去要花工程师几十个小时调参的任务，现在机器人在模拟世界里面自主练习就能掌握。

41:15

Speaker A

更重要的是，机器人开始具备迁移能力。

41:22

Speaker A

它不需要每次换一个物体、换一个场景、换一个任务都重新示教一遍。

41:30

Speaker A

它能把虚拟世界里学到的规律，迁移到现实世界，尽管仿真到现实的迁移至今仍是一个开放难题。

41:39

Speaker A

世界模型有望大幅降低这道门槛，让机器人面对从未见过的物品时。

41:45

Speaker A

仍能做出合理的决策，这对于机器人来说是一次范式级的改变。

41:51

Speaker A

无论是家庭服务机器人、仓储机器人、工厂协作机器人、餐饮零售机器人，还是专业级的巡检、建筑、医疗辅助手臂。

42:01

Speaker A

世界模型都可能成为它们跨过智能门槛的那把钥匙。

42:09

Speaker A

自动驾驶。

42:11

Speaker A

大约从5年前开始啊，马斯克就开始讲L5要来了。

42:19

Speaker A

但是为什么时到今日，L5级的自动驾驶依然没有全面普及呢？

42:26

Speaker A

背后原因之一就在于，系统虽然“看得见世界”，却还难以真正预测世界。

42:33

Speaker A

我们现在常说的L2、L3自动驾驶，本质上依赖的仍然是“感知、预测、规划”的分层体系。

42:41

Speaker A

识别车、人、车道线、交通灯，再通过规划系统给车辆下指令。

42:50

Speaker A

特斯拉更强调用大规模真实道路数据，通过端到端方式不断逼近人类驾驶。

42:58

Speaker A

而Waymo则是长期在高度结构化的系统中，追求可验证的安全性。

43:06

Speaker A

但是无论是哪种路线，都面临着一个共同的问题。

43:12

Speaker A

它们对“现在”的感知已经很强，但却很难稳定地理解“接下来会发生什么”。

43:18

Speaker A

再加上极端天气、突发事故、不规范行人等长尾场景，在真实道路中极其稀少，也成为制约自动驾驶规模化的关键瓶颈。

43:28

Speaker A

而这，正是世界模型开始真正进入工程体系的地方。

43:34

Speaker A

比如说Waymo在最近的技术博客中就提出啊，他们正在将自动驾驶系统的核心。

43:40

Speaker A

构建成为一个Foundation Model。

43:44

Speaker A

它采用了“分段式端到端”的架构。

43:50

Speaker A

内部可以进行端到端训练和反向传播，同时又保留了对世界的结构化表达。

43:58

Speaker A

这个模型不只是完成单一任务，而是学习“世界如何运转”。

44:06

Speaker A

它被要求输出物体、语义属性和道路结构等中间表征，让系统在出错的时候。

44:14

Speaker A

能够定位问题出在世界理解的哪一层。

44:20

Speaker A

这些结构化世界信息也支撑起更高质量的仿真系统。

44:28

Speaker A

不仅还原场景，还能够在不同假设下预设交通参与者的行为。

44:36

Speaker A

并且在内部同时推演大量可能的决策路径，从中筛选出最安全、最稳定的一条。

44:44

Speaker A

这不再只是“识别”，也不只是“反应”，而是让自动驾驶系统开始具备一种接近人类驾驶的预判能力。

44:51

Speaker A

也正因为如此，世界模型被认为是推动自动驾驶从局部可用，走向可验证、安全的、大规模商业化落地的核心技术之一。

45:01

Speaker A

穿戴设备。

45:03

Speaker A

如今我们所熟知的可穿戴设备，本质上还是停留在记录层面。

45:10

Speaker A

看上去很智能，但实际上却不能理解你周围的环境。

45:16

Speaker A

世界模型会让这一切发生质变，它能够让设备真正地读懂你的3D世界。

45:24

Speaker A

实时推断空间结构、物体关系和潜在风险，把数字内容自然融合进现实环境。

45:32

Speaker A

另一方面，它的预测和规划能力，会让可穿戴设备从工具变成你的“数字伙伴”。

45:40

Speaker A

理解你在什么环境，看什么，可能要做什么。

45:47

Speaker A

比如说提前提醒路面湿滑。

45:51

Speaker A

在厨房识别缺少的食材。

45:55

Speaker A

甚至在你开口前就意识到你需要帮助。

46:02

Speaker A

从更长远来看，这不只是设备升级，而是一种新的人机关系。

46:10

Speaker A

世界模型会让可穿戴设备从“信息终端”变成随身的“世界理解引擎”，眼镜、耳机、手机、手表都可能进化为与你共同生活、共同行动的智能体。

46:20

Speaker A

而这，也可能会是下一代计算平台的起点。

46:28

Speaker A

内容创作。

46:30

Speaker A

如果说机器人、自动驾驶等等具身智能是世界模型在现实世界的落地。

46:38

Speaker A

那么内容相关的产业，就是世界模型在“想象世界”里的爆发奇点。

46:45

Speaker A

如今我们已经看到视频生成模型所带来的一些震撼效果。

46:52

Speaker A

而世界模型的到来，可以让未来的内容创作，只需要给一个世界观、一个任务、一个初始状态。

47:00

Speaker A

模型就能自动“长出一个世界”。

47:03

Speaker A

比如说在影视行业啊，一个导演不需要去反复地搭景、重拍、做模型。

47:10

Speaker A

只要定义“这是一座被雨水淹没的城市”，AI就能够生成整个城市的状态变化。

47:17

Speaker A

而在游戏行业，世界模型带来的改变更是颠覆性的。

47:24

Speaker A

过去的游戏世界需要一砖一瓦搭建地形、天气、物理引擎、NPC行为、任务链。

47:32

Speaker A

我们需要数百人的团队，花费几年时间才能够做出一个开放世界。

47:40

Speaker A

但是世界模型意味着游戏世界不需要“制作”，而可以自动生成和进化。

47:48

Speaker A

一个设计师只需要规定规则、生态、冲突，AI就能够生长出森林、河流、生物、文化、经济系统。

47:55

Speaker A

甚至是NPC的性格、记忆和演化方向。

47:59

Speaker E

大家以前玩的游戏都是这种静止的游戏。

48:03

Speaker E

所谓静止游戏就是我这个游戏所有规则都是提前被写好的，然后有一个游戏设计师和游戏程序员去实现这些规则。

48:11

Speaker E

但是如果说我们能用现在这种生成式AI的技术，放到这种游戏场景当中去，我就可以实现我所有的内容是on the fly生成的。

48:20

Speaker E

然后每次玩都不一样。

48:22

Speaker E

然后包括像你看像谷歌的Genie 3，你就是按上下左右键，它就可以on the fly去生成你下一秒看到的东西。

48:29

Speaker E

我们现在做的事情就是。

48:32

Speaker E

我们先用3D的这个model，我们自己再做一个多模态的大模型。

48:38

Speaker E

然后这个大模型可以先去生成这个角色，它的appearance。

48:45

Speaker E

后面呢，我们其实可以给它加上它的logic，它的性格，它的各种各样的形式的逻辑。

48:54

Speaker E

我们通过这条路径，其实也可以实现一个世界模型。

48:58

Speaker A

所以对于整个内容行业来说，世界模型带来的不仅仅是制作效率的提升。

49:05

Speaker A

而是一场叙事方式、创作方式、内容形式的全面重写。

49:13

Speaker A

AI智能体。

49:15

Speaker A

世界模型的到来，还会加速AI Agent的进化。

49:19

Speaker A

当我们今天再聊AI Agent的时候呢，很多讨论其实都集中在Agent能不能更聪明，规划能力够不够强，工具调用做得够不够好。

49:28

Speaker A

但是如果我们退一步去看，会发现一个更底层的问题，一直没有被真正地解决，那就是Agent到底是在什么环境里面学“行动”的？

49:38

Speaker A

Meet ChatGPT agent。

49:40

Speaker A

从强化学习的视角看，Agent的一切能力都来自于与环境的交互。

49:46

Speaker A

执行动作、接收反馈，但是真实世界太昂贵、太缓慢、也太危险。

49:53

Speaker A

几乎不可能支撑大规模试错。

49:57

Speaker A

而世界模型解决的正是“环境”本身的问题。

50:03

Speaker A

它通过学习真实系统的数据，在模型内部构建一个可运行的世界。

50:10

Speaker A

当Agent采取行动的时候，世界模型可以直接推演这个动作可能带来的结果。

50:16

Speaker A

这样一来，Agent就可以在世界模型中进行大规模训练。

50:22

Speaker A

如果这个世界足够接近真实，那么在虚拟环境中学到的能力就可以稳定地迁移到现实系统中。

50:30

Speaker A

世界模型并不是让Agent立刻变得更聪明，而是第一次为Agent提供了一个可训练、可试错、接近真实的“内在世界”。

50:37

Speaker A

这层世界底座，才是真正决定AI Agent能否走向现实世界的关键。

50:45

Speaker A

所以世界模型它改变的，不只是某一个行业、某一个产品、某一种形态。

50:52

Speaker A

而是整套人与世界互动的方式，陈羽北在采访当中就谈到说。

51:00

Speaker A

如果世界模型真的从根本上走通了，甚至有可能创造出一种新的文明。

51:08

Speaker G

如果你能实现World Model，逻辑推演的所有问题都解决了，然后你已经包罗万象，把这个世界所有的规律都已经掌握了。

51:19

Speaker G

而且可以泛化，泛化到能产生新的数据，产生新的意识，超越人类的程度，不是简单的外延。

51:26

Speaker G

然后能够再比较根本的程度上来泛化了，那么这个模型似乎已经具备了建立一种新的文明的能力。

51:34

Speaker A

世界模型的潜在风险。

51:38

Speaker A

当然，任何足以改变技术版图的突破，都会带来新的风险。

51:46

Speaker A

而世界模型的风险，不再只是“胡说八道”那么简单。

51:51

Speaker A

首先，是更隐蔽、也更危险的模型幻觉。

51:56

Speaker A

无论哪条路线，世界模型本质上都是在给AI构建一个高度逼真的“梦境”。

52:03

Speaker A

让它在其中模拟和推演。

52:07

Speaker A

但是虚拟世界永远无法完全覆盖真实世界，始终存在Sim-to-Real Gap。

52:14

Speaker A

语言模型的幻觉是编造事实。

52:18

Speaker A

视觉模型的幻觉是画面错误。

52:22

Speaker A

而世界模型的幻觉，出现在整个“世界结构”里。

52:28

Speaker A

比如说误判物体重量、高估动作可行性、低估碰撞后果，甚至构建了错误的因果关系。

52:35

Speaker A

这些问题不一定立刻会被察觉，却会直接影响智能体的决策与行动。

52:42

Speaker A

进而导致机器人失常、自动驾驶偏离，甚至关键系统被系统性误导。

52:50

Speaker A

所以当世界模型出现幻觉、错误，将是“系统级”的。

52:56

Speaker A

这也是更难发现、更难对齐的风险。

53:00

Speaker A

其次是世界模型带来的权力集中问题。

53:06

Speaker A

未来可能只有极少数机构具备构建和运行世界模型的能力，而成熟的世界模型意味着前所未有的预测能力。

53:16

Speaker A

对市场、社会行为、群体反应的高精度推演，可能带来新的信息垄断。

53:24

Speaker A

也可能会被用于更高效的社会操纵与商业操纵。

53:31

Speaker A

而更重要的是，当世界模型越来越真实。

53:36

Speaker A

虚拟与现实的边界也会越来越模糊。

53:43

Speaker A

“自主智能体”的到来，也加大了AI不受控的风险。

53:50

Speaker A

一旦AI真正理解并且模拟世界，深度伪造和虚假场景将进入“超真实”阶段。

53:58

Speaker A

AR/VR世界可能与现实几乎无差，甚至更具吸引力。

54:05

Speaker A

与此同时，当越来越多真实系统开始依赖这些模型，现实世界本身也可能反过来对“齐”模型的假设。

54:15

Speaker A

而当世界模型变成决策底座，内部状态难以审计，推理过程不可见，我们甚至很难判断它究竟“理解”了什么，在朝什么方向演化。

54:26

Speaker A

这也意味着它所带来的监管挑战，将远高于今天的大模型。

54:34

Speaker A

所以，世界模型潜力巨大。

54:38

Speaker A

但是带来的风险，也比我们过去面对的任何AI技术都更加的危险。

54:46

Speaker A

它不只是内容层面的风险。

54:51

Speaker A

而是会真正地影响到现实世界，当AI不只是看世界、画世界，而是开始在现实中推演、行动、做决定。

55:00

Speaker A

我们需要从系统、对齐、伦理、监管所有的层面去重新地讨论这件事。

55:09

Speaker A

AI的下一段旅程。

55:13

Speaker A

在过去一两年啊，我们看到AI在语言、图像、视频上的极速爆发。

55:20

Speaker A

仿佛一夜之间AI已经无所不能了。

55:25

Speaker A

但是当你开始思考AI是否真的理解世界，能否真的预测未来，是否能够像人类一样在世界中行动。

55:34

Speaker A

你会发现，现在的模型其实依然还停留在“表层智能”的一个阶段。

55:40

Speaker A

而世界模型向我们提供了真正能够走向“深层智能”的可能性，它让AI从“看到世界”走向“理解世界”。

55:50

Speaker A

从“预测句子”走向“预测未来”。

55:55

Speaker A

从“生成画面”走向“在世界里行动”。

56:00

Speaker A

这不仅会改变机器人、制造业、自动驾驶、内容产业。

56:07

Speaker A

也会改变我们和数字世界的关系，甚至改变我们对智能本身的理解。

56:14

Speaker A

当然，世界模型的道路还很漫长。

56:19

Speaker A

它面临巨大的技术挑战，也伴随着新的风险。

56:25

Speaker A

目前，我们依然不知道哪一条路线会最终的胜出，但是我们知道的是。

56:33

Speaker A

当AI能够真正理解世界、模拟世界，在世界里面试错和行动的时候，它距离通用智能，也就是我们一直在寻找的那个终极目标。

56:42

Speaker A

又会近了一大步。

56:45

Speaker A

而这，也许就是AI时代真正的拐点。

56:50

Speaker A

而我们现在正在见证它的开端。

56:53

Speaker A

最后，我们还想补充的是，因为世界模型本身还是一个没有被学界和产业完全统一的定义。

57:02

Speaker A

所以我们这一期的内容并不是想给世界模型下一个“标准答案”啊。

57:10

Speaker A

而是希望呢，从我们的视角为大家梳理出一个理解世界模型的框架。

57:18

Speaker A

那不同的团队，不同方向的每一条路线背后，其实都牵涉到大量具体的具体细节、方法选择。

57:27

Speaker A

以及呢，仍然在快速演化的新尝试，那么接下来呢，我们也会持续地围绕着这个主题。

57:34

Speaker A

做更深入的拆解和系列内容。

57:39

Speaker A

也感谢大家收看本期视频。

57:42

Speaker A

以上就是这期的全部内容了，你们的点赞、关注和评论是支持我们硅谷101做好深度科技和商业内容的最佳动力。

57:50

Speaker A

我是陈茜，那我们就下期视频再见啦，拜。

Topics:世界模型人工智能AGI大语言模型多模态视频生成3D建模智能体强化学习认知科学

全面解析“世界模型”：定义、路线、实践与AGI的更近一步 — Transcript

Key Takeaways

Summary

Full Transcript — Download SRT & Markdown

Frequently Asked Questions

Get More with the Söz AI App

全面解析“世界模型”：定义、路线、实践与AGI的更近一步 — Transcript

Key Takeaways

Summary

Full Transcript — Download SRT & Markdown

Frequently Asked Questions

Get More with the Söz AI App

Recent Transcripts

26.03.06 | 하나님이 돌보시는 가정 | 이지훈 목사 | 범어교회 금요설교 — Transcript

YouTube → NotebookLM за 20 минут: Claude Code делает вс… — Transcript

YouTube Video — Transcript

사서가 증언하는 부여의 진짜 강역! 지도가 바뀌면 역사가 바뀐다 (한자83강-부여강역) — Transcript

[아이온2] 담당자 분들 꼭 보셔야합니다. 마도성 PVE 치명적인 문제점 정리. — Transcript

PENSAR DEMAIS ESTÁ DESTRUINDO A SUA VIDA | Marcos Lacer… — Transcript

This Hidden AI YouTube Channel Made $100,000 in 3 Months — Transcript

🔴 LA TORRE DE BABEL DEL SIGLO XXI | AP. EMERSON ESPINOS… — Transcript

Barreras no arancelarias: ¿qué exige Trump a México? | … — Transcript

IDFB 1 but it’s a VOICE OVER (funny) — Transcript

to the insecure — Transcript

does God want us to be great? — Transcript