全面解析“世界模型”:定义、路线、实践与AGI的更近一步 — Transcript

全面解析世界模型的定义、发展、技术路线及其与大语言模型的区别,探讨其对AGI和AI未来的影响。

Key Takeaways

  • 世界模型是AI从语言模型向具身智能转变的关键。
  • 大语言模型和世界模型在目标、数据和输出上有本质区别。
  • 世界模型通过内部模拟未来状态,提升AI的决策和行动能力。
  • 当前世界模型研究聚焦于构建动态、可交互的虚拟世界。
  • 未来世界模型与大语言模型结合,将推动AGI的实现。

Summary

  • 2026年将是世界模型爆发之年,AI虽强但缺乏对世界的理解与预测能力。
  • 世界模型起源于认知科学中的心智模型,强调内部模拟和预测未来。
  • 2018年Google Brain提出世界模型框架,包含视觉、记忆和控制三大模块。
  • 世界模型核心特质包括表示世界、预测未来和规划行动。
  • 世界模型与大语言模型区别明显,前者侧重动态世界的感知与交互,后者侧重语言生成。
  • Yann LeCun等专家批评大语言模型路线,强调自主学习和真实世界建模的重要性。
  • 世界模型和大语言模型将互补,共同推动通用人工智能的发展。
  • 世界模型的研究分为三层结构:思维范式、表现形式(如视频生成、3D建模)、智能体训练。
  • 视频生成和3D空间生成是当前世界模型的两大技术路线,代表项目有OpenAI的Sora和谷歌的Genie。
  • 世界模型的发展得益于多模态数据、算力提升和对真实世界交互的需求,成为AI下一轮竞赛核心。

Full Transcript — Download SRT & Markdown

00:00
Speaker A
2026年将会是世界模型全面爆发的一年。
00:03
Speaker B
World models.
00:04
Speaker C
World models.
00:05
Speaker D
World models.
00:06
Speaker A
如今的AI看起来似乎无所不能,它能写深奥的论文,复杂的代码,做出顶级的画面和视频。
00:12
Speaker A
但是它仍然缺乏理解世界、预测世界以及在世界里推演并行动的能力。
00:18
Speaker A
为了解决这个问题,OpenAI、谷歌、微软等大公司,Yann LeCun、李飞飞等顶尖学者都开始抢着研究同一件事情,那就是世界模型。
00:28
Speaker A
很多人认为啊,随着多模态走向普及和成熟,如果这条技术线完全跑通,它将彻底重塑整个AI格局。
00:37
Speaker A
但是呢,我们也注意到啊,“世界模型”的爆火也带来了新的问题,那就是仿佛整个AI圈一夜之间都变成了“世界模型”。
00:46
Speaker A
做视频生成的是世界模型,做机器人的是世界模型,做自动驾驶的是世界模型,做游戏开发的是世界模型,AR/VR是世界模型,Agent、仿真、训练环境,只要跟“世界”沾点边,几乎都是世界模型。
00:59
Speaker A
它们看起来完全不一样,但现在全都被叫做同一个名字。
01:03
Speaker E
我觉得这个也是很多人在神化世界模型的一个事情。
01:09
Speaker E
其实很多现在世界模型,它就是一个视频模型。
01:12
Speaker F
业界看到的这个世界模型呢,其实它更多的是世界模型的表现形式。
01:18
Speaker G
如果一个World Model我们真的已经Solve掉了,那我们现在科研的方向似乎就没有意义了。
01:24
Speaker A
那么世界模型到底是什么?
01:26
Speaker A
它跟大语言模型有什么样的区别呢?
01:30
Speaker A
这些看起来完全不同的路线是在做同一件事情吗?
01:34
Speaker A
世界模型的到来,又会给各行各业以及整个社会带来什么样的改变?
01:40
Speaker A
以及呢,它会是人类通往AGI的终极密码吗?
01:44
Speaker A
大家好,我是硅谷101的陈茜,那今天这期视频,就让我们一起走进世界模型。
01:48
Speaker A
什么是世界模型呢?
01:50
Speaker A
关于它的定义啊,其实目前依然还没有一个非常清晰的、被所有人都认可的说法。
01:55
Speaker A
但是呢,我们可以先来聊一聊这个概念的起源以及呢,它究竟想要去解决什么样的事情。
02:00
Speaker A
那么,先从一个再简单不过的问题开始。
02:03
Speaker A
什么是世界模型?
02:05
Speaker A
你是怎么知道一杯水放在桌边,它可能会掉下去的呢?
02:10
Speaker A
科学家们认为啊,人类之所以能够预测杯子会掉落,门往哪开,球会顺着斜坡滚,是因为从很小的时候,我们就在脑子里面构建了一个“世界怎么运作”的模型。
02:20
Speaker A
我们能够预判下一秒会发生什么,能够想象“如果我这么做,会怎么样?”
02:26
Speaker A
并且在脑海中提前排演各种可能性。
02:30
Speaker A
在认知科学中,这被称为心智模型(Mental Model)。
02:33
Speaker A
早在上个世纪,科学家们就已经开始研究人类的心智模型了。
02:38
Speaker A
1943年,Kenneth Craik在其著作《解释的本质》中就提出,人在对现实做出反应之前,会先在大脑中构建一个“小规模的世界模型”。
02:47
Speaker A
用它来模拟可能发生的过程,再据此选择行动。
02:51
Speaker A
也就是说啊,我们每个人的脑子里面都有一个看不见的“小世界”。
02:56
Speaker A
那么既然人智能依赖于这样的内部世界,很多AI研究者也开始追问说,机器要想具备真正的智能,是否也需要一个属于自己的世界呢?
03:03
Speaker A
于是,在AI和强化学习的早期研究中啊,这个思想以不同的名字反复出现。
03:10
Speaker A
比如说在1991年,Richard Sutton、Doina Precup和Satinder Singh在论文中提出了后来被称为Dyna架构的设计思路。
03:20
Speaker A
Dyna的核心在于啊,智能体在学习行动策略的同时,也要学习model of the world,也就是说,当我采取某个动作之后,世界会如何变化。
03:30
Speaker A
这也是第一次将“世界模型”明确确立为智能体内部的一项基础能力。
03:36
Speaker A
在此之后啊,世界模型并没有沿着单一路线发展,而是在不同研究领域中被不断拆解、强化和改写。
03:43
Speaker A
比如说在强化学习和机器人中,它体现为Forward Model,在自动控制和工业系统中,则是发展出了Model Predictive Control(模型预测控制)。
03:50
Speaker A
这些理论的名字虽然不同,但是背后其实共享着同一个核心假设,那就是智能体之所以能够做出更好的决策,不是因为反应更快,而是因为它能在行动之前,在内部世界中先“看到未来”。
03:59
Speaker A
在此后很长一段时间当中啊,世界模型更多停留在偏理论、偏算法的层面。
04:05
Speaker A
直到深度学习和表示学习逐渐成熟,在2018年,Google Brain的David Ha和深度学习元老级教父Jürgen Schmidhuber共同发表了论文《World Models》。
04:15
Speaker A
这篇论文正式提出了“世界模型”World Models这个精炼化的名称,同时呢,还给出了一个比较简洁的世界模型理解框架。
04:23
Speaker A
世界模型等于观察世界(V)加预测世界(M),再加在内部世界中学习行动(C)。
04:30
Speaker A
对应的是视觉(Vision)、记忆(Memory)和控制(Controller)三个核心模块。
04:35
Speaker A
我们用一个简单的例子来解释一下。
04:39
Speaker A
想象一下,你是一个从未打过乒乓球的新手。
04:44
Speaker A
当你站在球台前啊,眼睛接收到的是大量复杂的视觉信息。
04:51
Speaker A
视觉模块V并不会记住每一个像素,而是会自动地提取出对决策真正重要的部分。
04:58
Speaker A
它将原本上百万像素的画面压缩成仅有几十个数字的精华编码。
05:03
Speaker A
记忆模块M接收到这些编码之后,便立即开始内部模拟,经过多次练习啊,你的大脑已经建立起对乒乓球运动规律的理解。
05:10
Speaker A
记忆模块就像你内心的“物理引擎”,能够预测“如果我这样做,会发生什么”。
05:16
Speaker A
所以当球飞来的时候,视觉模块提取特征,记忆模块模拟方案。
05:21
Speaker A
而控制模块C就主要是在记忆模块M所创造的“内部世界”中进行训练。
05:28
Speaker A
你并不需要真的挥拍一百次试错,而是在记忆模块的“梦境”中找到最佳策略之后,再在现实中只执行一次最优解。
05:35
Speaker A
而这种“想象、规划、行动”的认知过程,正是人类智能的核心特征。
05:41
Speaker A
在这篇论文当中啊,他们也做出了一个有意思的Demo,让模型在完全虚拟的小世界当中,学会了玩一款赛车游戏。
05:49
Speaker A
证明了AI可以像人类一样,通过内部世界的想象来进行学习。
05:55
Speaker A
那么总结下来,世界模型到底是什么呢?
05:59
Speaker A
研究者们普遍认为,它们应该具有三大特质。
06:04
Speaker A
第一呢,表示世界(Representation),也就是说模型能够理解所处的环境里面有什么,物体在哪儿。
06:10
Speaker A
以及呢,物与物之间是什么关系。
06:14
Speaker A
第二呢,是预测未来(Prediction),它能够对事件进行模拟和生成。
06:20
Speaker A
如果我推一下杯子,打开一扇门,往前走两步,世界会发生什么样的改变?
06:26
Speaker A
那第三啊,是在世界里规划和行动(Planning & Control)。
06:32
Speaker A
能够预测接下来会发生什么之后,我应该如何采取行动。
06:38
Speaker F
因为它是一个把你把一个世界抽象到一个潜在的空间里,然后它是被压缩过的。
06:46
Speaker F
然后在在这个潜在空间里呢,你能够通过学到的物理规律,然后呢,去做对未来的预测,然后形成一个对真实世界的一个模拟器。
06:55
Speaker F
相当于它是一个模拟系统,有点像是一个缩小的平行宇宙。
07:00
Speaker F
这感觉就是你如果有一个真正的AI大脑,它将能够就是它有自己的一个AI的世界观。
07:06
Speaker F
然后呢,因为你可以做预测,所以你就可以去做未来的推演,然后你可以做决策。
07:13
Speaker A
世界模型的本质,就是想让AI从一个只会回答问题的语言机器,走向能够真正像人类一样,会观察、会推理、会行动的真正智能体。
07:19
Speaker A
但是问题来了,作为一个上个世纪就开始被研究的概念,为什么突然在最近一段时间火起来了呢?
07:26
Speaker A
它跟我们现在所熟悉的大语言模型,又有什么样的区别或是联系呢?
07:32
Speaker A
为什么要研究世界模型?
07:36
Speaker A
让我们把世界模型和大型模型来做个对比。
07:40
Speaker A
从主要任务和预测目标来看啊,大语言模型的目标是生成在语言维度上最合理的序列。
07:47
Speaker A
预测的是下一个词或者token,比如说你问杯子会从桌子上掉下来吗,它回答会。
07:53
Speaker A
因为这是在无数文本里面出现过的正确答案。
07:57
Speaker A
而世界模型的任务是预测“下一秒世界会变成什么样子”,预测的是下一帧画面、下一步动作、下一次的状态变化。
08:05
Speaker A
它需要理解物理规律、空间关系和动态变化。
08:09
Speaker A
从训练数据上来看啊,大语言模型主要依赖文本数据,也包括一些图像和视频。
08:16
Speaker A
数据特点是以静态内容为主。
08:20
Speaker A
而世界模型啊,则主要依赖视频等动态数据,包括摄像头看到的画面。
08:26
Speaker A
机器人的传感器反馈、动作的结果、环境的变化。
08:31
Speaker A
数据特点是动态的、时序性的。
08:34
Speaker A
从输出的结果来看啊,大语言模型输出的是语言或者图像等内容。
08:40
Speaker A
世界模型输出的是对未来状态的预测,对行为的模拟以及可执行的行动方案。
08:47
Speaker A
从学习方式来看,大语言模型是通过语言间接理解世界,更像是一个“知识容器”。
08:52
Speaker A
而世界模型是通过交互和推演直接理解世界,不仅能“看见”,还能“预测”和“干预”。
08:59
Speaker A
因此,大语言模型更适合对话、写作、翻译、问答,而世界模型对应的,则是机器人、自动驾驶、物理模拟和决策系统这些必须进入真实世界的任务。
09:09
Speaker A
此前呢,李飞飞也曾经在采访当中啊,精炼地总结过两者在目的和训练模态上的不同。
09:16
Speaker H
One is about saying things, the other one is about seeing and doing things.
09:25
Speaker H
So, so they are very fundamentally different modality.
09:30
Speaker H
The large language models, the basic unit are lexicons.
09:35
Speaker H
Whether it's a letter or a word.
09:39
Speaker H
And in our model, the world models, we use the basic units are pixels or voxels.
09:44
Speaker H
So, they are very different language.
09:49
Speaker A
虽然大语言模型和世界模型是两条不一样的技术路线,但是它们的终极目标其实是一致的,那就是要实现通用人工智能。
09:59
Speaker A
那么我们现在为什么要突然这么去关注世界模型呢?
10:05
Speaker A
是因为大模型这条路线已经走不动了吗?
10:09
Speaker A
其实呢,关于这个问题,研究界目前依然存在着不同的观点。
10:14
Speaker A
一些研究者们旗帜鲜明地提出,大语言模型是死路。
10:20
Speaker A
这派的代表人物之一就是Yann LeCun,离开工作了12年的Meta后。
10:27
Speaker A
这位65岁的图灵奖得主,深度学习先驱并没有选择退休,而是回到巴黎创立了一家名为Advanced Machine Intelligence的公司。
10:37
Speaker A
他要做的事情,与硅谷主流的大模型路线截然不同。
10:43
Speaker A
他在最近的采访当中就表示啊,AI领域的Moravec悖论一直存在。
10:50
Speaker A
所谓的Moravec悖论呢,就是指AI可以轻松地处理对人类极其困难的高智力任务,比如说下棋、微积分、读论文。
11:02
Speaker A
但是直觉性的感知、社交等人类和动物轻松能够完成的初级技能,对机器却极为的困难。
11:10
Speaker A
Yann LeCun就认为这个悖论至今未解决,就是因为我们研究AI的路线错了。
11:17
Speaker A
人类智能的核心在于不依赖海量数据就能够自主学习。
11:24
Speaker A
现在的LLM就是在拟合语言的统计相关性,对现实世界几乎没有直接建模能力。
11:33
Speaker A
如果继续沿着LLM路线去“堆量”,最多只能做出一个更会说话、更会写字的模型。
11:40
Speaker A
他甚至放言称啊,再过五年,GPT之类的大语言模型就不会再有人用了。
11:47
Speaker A
而关于大家都在憧憬AGI很快到来,他也认为是一种幻想。
11:53
Speaker A
最乐观也要5到10年,机器人的智能才能勉强接近一只狗。
11:58
Speaker I
So you have those people blowing AGI.
12:02
Speaker I
It's completely deluded.
12:04
Speaker I
It's just complete delusion.
12:08
Speaker I
Because the real world is way more complicated.
12:14
Speaker I
You're not going to get it, you're not going to get anywhere by tokenizing the world and using LLMs.
12:21
Speaker I
It's just not going to happen.
12:22
Speaker A
而除了Yann LeCun之外呢,学术界当中有不少的大佬级人物也都持有类似的观点。
12:29
Speaker A
比如说图灵奖的获得者,强化学习之父Richard Sutton。
12:35
Speaker J
So large language models are trying to get by without having a goal or a sense of better or worse.
12:41
Speaker J
That's just, you know, it's exactly starting in the wrong place.
12:45
Speaker A
李飞飞最近也在密集地发声,她说啊,大语言模型依然是“黑暗中的文字匠人”。
12:52
Speaker A
能言善辩却缺乏经验,知识渊博却脱离现实。
12:59
Speaker A
所以呢,大模型这条路线是不是真的走不通了呢?
13:05
Speaker A
严格来说,现在还没有标准的答案。
13:10
Speaker A
但是呢,有几件事啊,大家开始有了越来越多的共识。
13:15
Speaker A
首先,单纯把模型做得更大,已经不会再像过去那样带来立竿见影的突破了。
13:22
Speaker A
规模继续上去当然可以变强,但是在算力、数据、能源、成本这些硬约束下,它的性价比正在迅速地下降。
13:29
Speaker A
其次,AI需要更加直接地去接触“真实世界”,语言世界太干净了。
13:36
Speaker A
它无法提供现实世界里面那种混乱、连续、充满不确定性的因果经验。
13:44
Speaker A
AI想继续往前走,需要新的输入方式,需要多模态感知。
13:50
Speaker A
需要去和环境互动。
13:53
Speaker A
此外呢,大家普遍认为说,世界模型和大型模型将会是一个互补的关系。
14:00
Speaker A
陈羽北就在访谈当中提到说,世界模型它并不需要完全将大语言模型推翻重来,而是在为大语言模型去补上“现实世界”的维度。
14:09
Speaker G
在语言中我们有了GPT的话,就是说预训练,当预训练的好处达到一定程度的时候,它可以被快速地变成任何的downstream application。
14:17
Speaker G
那么世界模型的话,你可以认为是一个大号的GPT,它包含了感知,包含了控制。
14:24
Speaker G
然后如果我们也在这能获得根本上的成功的话,那么在未来我们所有的机器人,所有的智能体,都可能以这样预训练和后训练的方式来产生。
14:32
Speaker G
这有可能会彻底地解锁一些AI的应用场景。
14:36
Speaker A
既然世界模型如此的重要,为什么最近的一段时间,它才突然被行业普遍地讨论和关注呢?
14:44
Speaker A
第一个原因就是我们刚才所讨论的,大模型的原生能力遇到了天花板。
14:52
Speaker A
但人们对AI在现实生活中的期待却越来越高。
14:59
Speaker A
另一个原因,是随着多模态时代的到来,让我们第一次有能力训练真正的世界模型。
15:05
Speaker A
训练世界模型需要海量的视觉与动作数据。
15:11
Speaker A
多模态传感器输入,大规模视频模型能力以及足够强的算力。
15:16
Speaker A
来支持“世界推演”。
15:20
Speaker A
这些条件直到最近几年才逐步成熟。
15:24
Speaker A
总的来说,因为大模型的天花板已经显现。
15:30
Speaker A
因为全行业都在迈向具身智能,因为我们现在有了让AI看世界、理解世界的技术基础。
15:39
Speaker A
世界模型就顺理成章地成为了下一轮AI竞赛的核心舞台。
15:45
Speaker A
而这些尝试很快就在行业里面分成了几条不同的技术流派。
15:52
Speaker A
世界模型三层结构。
15:55
Speaker A
Chapter Three。
15:57
Speaker A
虽然世界模型的最终目标看起来是相对清晰的。
16:03
Speaker A
但是落实到实践探索层面,却常常会让人感到困惑。
16:08
Speaker A
比如说有的在做视频生成,有的在做3D场景,有的在做机器人,有的在做智能体。
16:15
Speaker A
它们都叫做世界模型,但是做的事情似乎完全不同。
16:20
Speaker A
那么我们究竟应该怎么去理解现在整个行业到底在做些什么呢?
16:26
Speaker F
关于这个问题啊,我们的嘉宾一起就结合世界模型的理论知识以及她在Meta的一些实践观察。
16:34
Speaker A
在采访当中提出了一个我们认为非常有帮助于大家理解的框架。
16:40
Speaker A
就是把整个世界模型领域拆成了“三层结构”。
16:45
Speaker A
在这个架构中啊,底层是世界模型的思维与范式,也就是我们之前所讨论的。
16:53
Speaker A
世界模型的抽象、预测、规划特征以及它要解决的问题。
16:59
Speaker A
这一层涉及到目前很多研究层面的创新。
17:03
Speaker A
第二层是世界模型的当前“表现形式”,是指模型到底是用什么方式来表示世界和预测世界。
17:09
Speaker A
世界应该如何被生成出来的。
17:12
Speaker A
第三层是世界模型的“目的”层,也就是智能体训练。
17:17
Speaker A
让AI最终能在这个世界里面行动,做任务,完成决策。
17:23
Speaker F
三个结合起来就是我们说的底层的世界模型核心的层级,但是它这个东西都是抽象的,也看不到。
17:32
Speaker F
那你,要让人和AI看到,你需要有一个表现形式,那么这个表现形式现在我们是需要AI去给我们生成出来。
17:40
Speaker F
所以说它就是这个生成的这个层级就是会比它这个Layer稍微高一点。
17:46
Speaker F
生成完了以后,我AI大脑里有了世界观,然后我可以看到这个世界,那接下来我这个世界里面就要有东西了。
17:54
Speaker F
我就有人,有东西,然后人和AI我都活在里面,所以我们就会有Agent,就是智能体在里面存在的方式就是。
18:02
Speaker F
我终于有了一个宇宙了,所以我要在里面玩啊,我在里面学习啊,然后我要对这个世界造成影响。
18:10
Speaker F
就我和这个世界它有一个交互,然后世界对我有影响,我世界有影响。
18:15
Speaker A
如果我们把当前产业界的主要尝试放在这个框架当中去看的话,它们其实很多都是聚焦在第二层级。
18:22
Speaker A
也就是世界生成,这也是目前整个领域最热闹的地方。
18:26
Speaker A
为什么要先做世界生成?很多研究者就认为,构建世界模型的第一步,不是让AI直接“推理”或“行动”。
18:33
Speaker A
而是让它能够去“生成世界”。
18:37
Speaker A
这看似简单,却是世界模型的根基。
18:40
Speaker A
所谓“理解世界”,本质上是理解世界如何随时间和行为变化,物体如何移动,光线如何变化。
18:47
Speaker A
风吹过的树叶会发生什么?
18:50
Speaker A
而要获得这种对“世界演化”的直觉,最直接的方式就是让模型能够先生成一个可以连续变化的世界。
18:57
Speaker A
此外,强大的世界生成模型能为智能体提供廉价的训练场。
19:04
Speaker A
比如说训练一个机器人倒咖啡,让它在现实中倒几万次。
19:10
Speaker A
打碎几千个杯子,显然性价比太低。
19:13
Speaker A
而地震、火灾、车祸这些边缘场景,也可以在虚拟世界中自由进行反事实推理的实践。
19:20
Speaker A
因此,世界生成既是世界模型的外壳,也是整个体系的入口。
19:26
Speaker A
而在世界生成这件事情上,目前主要有两大技术路线。
19:33
Speaker A
第一类是用“视频生成”的方式去重建世界,包括OpenAI的Sora、谷歌的Genie等。
19:40
Speaker A
第二类则是用“3D空间生成”的方式去显式建模世界。
19:46
Speaker A
其中的代表就是李飞飞的World Labs。
19:50
Speaker A
视频生成应该是目前最具代表性的,也是最为大众所熟悉的世界模型路线。
19:56
Speaker A
它的目标很直观,就是尝试让AI直接生成一个能动起来的世界。
20:02
Speaker A
并让这个世界随着时间流动、演化、变化。
20:07
Speaker A
OpenAI在发布Sora之初,他们就将其定义为一个“世界模拟器”。
20:15
Speaker A
Sora并不是简单地把一段视频用静态图像一张张“拼出来”。
20:22
Speaker A
而是让画面里面的事物能够随着时间连续地演化。
20:28
Speaker A
这些视频细节之所以让人震撼,是因为人们发现,模型似乎开始真的“了解”了事物变化的背后规律。
20:40
Speaker A
它知道光线在材质上如何变化,知道一个物体在受到外力之后该怎样移动。
20:46
Speaker A
而目前与Sora类似的还有Seedance、Veo、Kling等一系列视频生成模型。
20:53
Speaker A
如果说Sora等模型是能够去“播放一个世界”。
21:00
Speaker A
那么Google的Genie系列模型,则是让我们能够去“探索一个世界”。
21:06
Speaker A
Genie 3当中,模型能够根据用户的文本或者图像提示,实时生成可供用户及智能体进行互动的虚拟环境。
21:16
Speaker A
相比前代产品啊,Genie 3的核心突破在于其“实时交互性”和“长时间一致性”。
21:24
Speaker A
用户可以跟模型进行长达数分钟的互动,Genie 3和传统的视频生成模型,不同的点就在于。
21:32
Speaker A
它生成出来的内容,你是可以去跟它实时交互的,我说是黑板上写了字,然后呢。
21:40
Speaker A
我又走到别的地方去回来,这个字还在黑板上,就说明虽然说它还是有一个frame by frame的这种生成方式。
21:47
Speaker A
但是它其实是已经能够记住它世界里面的这些状态。
21:53
Speaker A
Genie 3的这种可控性意味着模型内部不再只是预测下一帧是什么,而是已经在模拟“未来的世界状态”。
22:01
Speaker A
它让视频生成从“播放”走向“交互”,开始从“电影式生成”走向“游戏式模拟”。
22:07
Speaker A
更接近一个真正的“世界引擎”。
22:12
Speaker A
也更接近智能体你将来需要使用的环境。
22:18
Speaker A
就在今年1月啊,谷歌还推出了基于Genie 3打造的实验室原型Project Genie,首次将Genie 3的能力第一次封装成了一个人人都可直接上手体验的产品形态。
22:29
Speaker A
它的强大在于多模态的深度协同,由Gemini提供逻辑支撑,生成高精度的场景与角色。
22:36
Speaker A
再由核心引擎Genie 3将静态设计“激活”为可互动的3D世界,依托TPU V5的算力。
22:44
Speaker A
Project Genie实现了720P/24fps的实时环境渲染。
22:50
Speaker A
同时允许用户对同一个世界进行“重新混剪”,具有长达60秒的强一致性记忆。
22:57
Speaker A
Project Genie的发布呢,意味着世界模型或许开始真正从PPT走进现实,它不再只是个会“变魔术”的算法。
23:06
Speaker A
而是呢,一个通过一句话就能“变”出一个可运行的小型游戏世界的生产力工具。
23:13
Speaker A
从行业视角来看,视频生成路线有一个非常明显的优势,那就是它的结果“看得见”。
23:20
Speaker A
我们能直接观察世界模型是否具备物理一致性,是否理解时空结构。
23:27
Speaker A
而且它能够快速商业化落地,影视、广告、教育、游戏都能立刻使用。
23:33
Speaker A
从技术角度上来看,视频生成的优点也也很突出,首先,训练数据相对容易获得。
23:40
Speaker A
互联网上有大量真实世界的视频,为模型学习世界规律提供了训练空间。
23:48
Speaker A
其次,它对Scaling Law非常敏感。
23:52
Speaker A
模型规模越大,数据越多,视频的一致性和物理合理性就呈指数级的提升。
23:59
Speaker A
此外,视频数据天然包含多样化场景,模型泛化能力也更强。
24:05
Speaker A
正因为这种“可观察性”和“可规模化训练”的组合,让视频生成路线在过去一两年成为了世界模型最引人注目的方向。
24:15
Speaker A
但是视频生成的局限也同样明显,最重要的一点是,虽然它的输出是“显式”的,但是内部对世界的理解是“隐式”的。
24:23
Speaker A
我们无法直接读取,也无法移植到机器人或者决策系统当中。
24:29
Speaker A
视频生成路线其实和大型语言模型很像,两者都是典型的“scale-driven模型”。
24:35
Speaker A
语言模型通过学习互联网文本掌握语言统计规律,视频模型通过学习海量视频掌握视觉统计规律。
24:44
Speaker A
那区别在于啊。
24:47
Speaker A
视频数据天然包含物理运动、加速度、重力等物理特征,因此呢,视频模型能够更加直接地看到真实世界的运作方式。
24:55
Speaker A
但是和语言模型一样,视频模型理解的世界规律依然藏在权重里。
25:02
Speaker A
比如说你让Sora生成一辆车的行驶视频,造型和光影可能很逼真。
25:10
Speaker A
但是如果你问“这辆车的长宽高是多少?被挡住的轮胎在哪里?”它答不上来。
25:17
Speaker A
因为Sora并没有构建一个3D的几何车辆模型,它只是学到了像素组合的概率分布。
25:24
Speaker A
所以呢,视频生成虽然是目前最直观,最能够应用落地的一步,但是它目前也只是画出了世界的一层皮啊。
25:33
Speaker A
它告诉我们世界可以被生成,但是还缺少有血有肉的框架。
25:40
Speaker A
那么如何才能够勾勒出世界表层下的框架呢?
25:47
Speaker A
李飞飞提出来的思路是3D生成,也就是空间智能。
25:51
Speaker A
与视频生成相比,3D生成路线走的是一条截然不同的技术选择。
25:58
Speaker A
不是把世界画出来,而是把世界建出来。
26:02
Speaker A
这也是李飞飞领导创建的World Labs目前的技术路线。
26:09
Speaker A
它们不追求画面有多逼真或电影级的连续性。
26:15
Speaker A
而是更关注世界的结构,包括物体在哪里,空间的几何关系是什么。
26:22
Speaker A
物体之间如何互相影响,生成的世界是否能够被“进入”与“操作”。
26:28
Speaker A
World Labs最新发布的模型叫做Marble,它的特点是给它一个语言指令,一张照片或者视频。
26:35
Speaker A
就能够通过高斯泼溅技术,重建出完整的3D场景结构。
26:42
Speaker A
简单来说,Marble就像是建筑师,看到图片的时候不只是看到“像素”,而是能够看到背后的三维结构。
26:50
Speaker A
比如说你同样问它图片里面汽车的长宽高,它能回答出是长4.5米,宽1.8米。
26:57
Speaker A
还能输出3D网格文件。
27:01
Speaker A
那么为什么李飞飞如此强调3D呢?
27:07
Speaker A
因为它认为啊,真实的世界就不是2D的,而是3D的,AI呢必须理解空间,才能够理解世界。
27:15
Speaker A
人类能够抓住物体,避开障碍,记住空间,是因为我们天生具备构建3D模型的能力。
27:22
Speaker A
机器人要抓取物体,需要知道形状、体积、位置。
27:29
Speaker A
自动驾驶要理解空间和距离,这些都不是二维像素能够表达的。
27:35
Speaker A
AI要真正进入现实世界,首先要知道“世界的三维结构”。
27:42
Speaker A
从技术层面上来看,3D生成路线有个巨大的优势。
27:48
Speaker A
与视频模型的“隐式物理直觉”不同,它生成的是显式结构。
27:55
Speaker A
模型知道每个物体的具体位置,因此物理模拟、规划、控制都更容易实现。
28:02
Speaker A
此外,3D生成在游戏、影视制作、室内设计等场景也能够快速落地。
28:10
Speaker A
让它能够在商业转化上具有优势。
28:14
Speaker A
不久之前,World Labs宣布了最新一轮10亿美元的融资,估值达到了50亿美元。
28:22
Speaker A
短短一年半时间,它的估值飙升了5倍之多。
28:27
Speaker A
一定程度上也反映了市场对于3D生成这条路线潜力的认可。
28:33
Speaker A
虽然3D生成对世界模型的发展有着巨大的战略意义。
28:40
Speaker A
但是它的实现难度也要比视频生成大很多。
28:45
Speaker A
首先是训练数据稀缺。
28:49
Speaker A
互联网是巨大的2D视频矿山,但是3D数据却很少。
28:54
Speaker A
高质量3D数据主要靠LiDAR、结构光扫描仪等专业设备采集。
29:00
Speaker A
不仅设备贵,流程还繁琐。
29:04
Speaker A
标注成本也比2D高出一个量级。
29:08
Speaker A
其次是几何结构难建。
29:11
Speaker A
3D模型需要确保生成的物体封闭、无穿模、无破损,而预测柔体、流体、链式碰撞等复杂3D动态交互,则难度更大了。
29:19
Speaker A
此外,3D生成对算力需求很大。
29:23
Speaker A
无论是训练中的3D渲染,还是实时物理模拟,计算量都远超2D模型。
29:30
Speaker A
直接推高了研究门槛。
29:33
Speaker E
比如说我们如果生成一张图片,那一张图片大家可能知道也就是比如说1024乘1024大概是1 million,就是100万个像素。
29:40
Speaker E
但是你如果要生成一个3D模型的话呢,最大的挑战就是你多出来一个新的维度。
29:48
Speaker E
那你不太可能直接用1024乘1024,再乘上一个1024,这样的一种表示去做3D的这种生成。
29:55
Speaker E
要不然计算量确实是太大了。
29:58
Speaker E
所以在这个里面大家就发明了很多新的创造性的方法,就比如说我们Meshy在用的技术路线。
30:05
Speaker E
还是基于diffusion或者auto-regressive model去生成这个模型。
30:10
Speaker E
可能会先生成一个比较低的分辨率的版本,然后我们再去把它upscale。
30:16
Speaker E
然后在做这个upscale的过程中呢,我们就会发现其实有一些区域,它不属于我们关心的范围。
30:24
Speaker E
所以在这种情况下呢,我们就可以把计算量集中在我们特别关心的这个区域。
30:30
Speaker A
总结来说,3D生成路线能够更加真实地去还原世界。
30:36
Speaker A
但是它实现难度更大,成本也更高。
30:41
Speaker A
不过我们以上讨论的,其实都还是如何把世界给生成出来。
30:49
Speaker A
但是光有生成还远远不够,因为世界模型真正的目标不是去生成一个世界,而是要让AI在这个世界里面行动。
30:58
Speaker A
而这,就是世界模型目的的层。
31:01
Speaker A
就是智能体训练。
31:03
Speaker A
如果世界生成是为了让AI看见世界、重建世界,那么智能体训练就是要让AI能够在这个世界里“做事”。
31:12
Speaker A
从世界长什么样,走向我能在这个世界里做什么,目前业界主要有两种探索路线。
31:20
Speaker A
那第一条路线啊,就是直接把世界生成模型当成“训练环境”。
31:27
Speaker A
让AI在虚拟生成的世界里不断去犯错、探索、总结,最终学会一套可以迁移到真实世界的能力。
31:35
Speaker A
这一类的代表就是Google SIMA。
31:40
Speaker A
SIMA的思路就非常的直接。
31:46
Speaker A
那就是既然现实世界太复杂,真实的训练太昂贵,那我们就用虚拟世界来教AI如何去行动。
31:54
Speaker A
而游戏成为了它最佳的训练场。
31:59
Speaker A
视频游戏作为复杂、可交互、实时反馈的环境,一直都是AI发展的摇篮。
32:06
Speaker A
从早期的Atari到AlphaStar在《星际争霸II》中打到世界前0.2%。
32:14
Speaker A
DeepMind一直用游戏训练更智能的AI,而SIMA的训练方式。
32:21
Speaker A
就是把AI放进很多不同类型的游戏环境中去“练级”,那最新的SIMA 2还将Gemini嵌入内核。
32:30
Speaker A
首次使用Genie 3生成的游戏世界进行了训练。
32:37
Speaker A
SIMA 2是展现出了几个令人瞩目的能力突破。
32:44
Speaker A
首先,它不仅能够“跟指令做事”,还能够“自己思考”,它能够理解复杂、多步、抽象的任务。
32:52
Speaker A
在陌生环境中自主探索、规划行动、寻找解决方案。
32:58
Speaker A
其次,它具有强大的“泛化能力”,能够在从未见过的游戏环境中表现出色。
33:05
Speaker A
此外,SIMA 2被设计为能跨游戏、跨环境执行任务的通用智能体。
33:13
Speaker A
这也为将来的具身机器人迁移奠定了基础。
33:18
Speaker A
但SIMA想做的事情,显然比玩游戏本身要更大。
33:25
Speaker A
游戏呢,只是现实世界的缩影,它最终想要实现的是让AI能够在任何3D世界里面行动、探索、推理、还有解决问题。
33:33
Speaker A
然而呢,对于这个目标,不是所有的研究者都认为“要行动,就必须先生成一个世界”。
33:40
Speaker A
比如说就以Yann LeCun为代表的另一派,就选择了一条完全不同的路线,直接学习世界的抽象结构JEPA。
33:49
Speaker A
JEPA不预测图像,不预测像素,也不重建视觉内容。
33:55
Speaker A
它做的事情是把真实世界压缩成一个抽象的、高维的潜在表示。
34:02
Speaker A
然后在这个潜在空间里进行预测。
34:06
Speaker A
预测的目标可以是空间上被遮挡的区域,也可以是时间上的后续状态。
34:13
Speaker A
哪些变化与任务和决策相关,它学习的是未来的结构,而不是未来的画面。
34:19
Speaker A
JEPA的基本结构可以拆成三件事。
34:25
Speaker A
首先,用Encoder将视觉和动作压缩成抽象表征。
34:32
Speaker A
然后用Predictor预测这些抽象状态在未来如何变化。
34:40
Speaker A
最后,将预测结果与真实未来状态的编码进行对齐,让模型学会捕捉世界的关键因果结构。
34:48
Speaker A
基于JEPA架构,Yann LeCun在Meta也先后发布了I-JEPA和V-JEPA,前者让AI理解静态图像的结构。
34:57
Speaker A
后者则是让AI学习视频中世界随时间变化的规律。
35:04
Speaker A
JEPA的路线背后啊,有非常重要的技术动机。
35:10
Speaker A
首先,生成像素既昂贵又低效,而绝大多数的像素信息与行动决策无关。
35:17
Speaker A
JEPA不画世界,因此呢,计算成本更低。
35:21
Speaker A
其次,由于只保留关键结构信息,JEPA更容易捕捉因果关系,也更具跨场景、跨任务的泛化能力。
35:30
Speaker A
更重要的是,这种抽象、结构化的世界表示,更接近机器人和具身智能真正需要的“可操作世界”。
35:38
Speaker A
比如说对于机器人来说啊,它不需要知道物体的光影纹理,它只需要知道物体的可达性。
35:46
Speaker A
跟自己的位置关系以及下一步该做什么。
35:52
Speaker A
而JEPA输出的,就是这种结构化的抽象信息。
35:59
Speaker A
其实早在几年前啊,Yann LeCun就已经在为JEPA路线摇旗呐喊了。
36:05
Speaker A
但是它至今依然没有能够成为世界模型的研究主流,背后的原因是因为JEPA路线在实际推进中面临了很多现实的问题。
36:14
Speaker A
首先,它是“不可见的”。
36:18
Speaker A
Sora能用逼真的画面震撼所有人,Genie可以生成可探索的游戏世界,World Labs能够用3D场景告诉你“我理解了的空间结构”。
36:28
Speaker A
但是JEPA学到的所有东西都藏在一个抽象的潜在空间里,这意味着我们难以直接看到和验证模型到底理解了什么。
36:36
Speaker A
其次,它的自监督目标极难设计。
36:40
Speaker A
JEPA不像视频生成那样有现成的目标,你给它一帧,让它预测下一帧。
36:48
Speaker A
JEPA想预测的是“未来的结构”,但什么才是结构?
36:54
Speaker A
哪些因素该保留,哪些该忽略,目前仍然没有统一的答案。
37:01
Speaker A
最后,缺乏统一的评估和规模化推进体系。
37:08
Speaker A
JEPA的表征质量藏在潜在空间里,研究社区多依赖下游任务或者行为表现来评估模型。
37:17
Speaker A
缺乏类似图像生成或语言模型那样统一的Benchmark,这也使得不同设计路线之间的效果比较变得更加困难。
37:26
Speaker A
而正是因为这些限制啊,JEPA更像是一个世界模型的前沿叶原型,方向很可能是对的。
37:35
Speaker A
但是距离成熟落地,还依然有一段距离。
37:40
Speaker A
到这里,我们把世界模型最核心的几条技术路线。
37:44
Speaker A
都以及梳理了一遍了。
37:46
Speaker A
有人用视频把世界“画”出来,有人用3D把世界“搭”出来。
37:52
Speaker A
有人在虚拟世界里训练行动智能,也有人干脆不画世界,想让AI直接学习世界的结构。
38:00
Speaker A
当然,还有一些我们没有展开的路线,比如说Dreamer这一类。
38:06
Speaker A
以动力学为核心的世界模型,更加专注于控制与想象。
38:13
Speaker A
有的试图从物理规律出发,用可微分模拟器去逼近真实世界。
38:20
Speaker A
也有越来越多工作正在模糊世界模型、预测模型与决策模型之间的边界。
38:27
Speaker A
这些路线看起来方向不同,但是它们正在指向同一个未来。
38:33
Speaker A
那就是让AI不再只是“输出信息”,而是真正地去理解世界、推理世界、在世界里行动。
38:40
Speaker A
一起就表示啊,因为目前世界模型在落地层面还在早期的阶段,并没有看到哪一条路线具体的商业应用形式。
38:49
Speaker A
所以包括Meta在内的大厂们,实际是在各个路线上都在做布局和研究。
38:57
Speaker F
Meta在这个世界模型的路线上,因为它不同的技术路线全部都做了,主要原因是因为用户场景啊,还有它的那个不同的这个垂直场景,它需要的不同嘛。
39:08
Speaker F
所以说为游戏服务的,我们就做了这个AI的这个游戏引擎,叫Meta Horizon Studio。
39:16
Speaker F
然后为了内容创作来服务的话呢,我们就会做这个纯视频方向的。
39:22
Speaker F
然后你说我们是为了这个数字重建,3D重建的话呢,我们就做了高斯泼溅的方式。
39:29
Speaker A
不过呢,可以预见的是,当世界模型真正成熟,对产业带来的改变,绝对不会只是让“视频生产效率更高”这么简单。
39:37
Speaker A
它将是一次横跨软件、硬件、制造、娱乐等等,众多行业的系统性冲击。
39:46
Speaker A
即将被改写的行业。
39:50
Speaker A
机器人。
39:52
Speaker A
如果说哪个行业会最直接地被世界模型撬动,那就一定是机器人行业了。
39:58
Speaker A
过去几十年,机器人的发展受制于硬件、算力和应用场景等多重因素,但更深层也更关键的瓶颈在于,它们还不“懂”世界。
40:08
Speaker A
因此难以实现跨环境的迁移和泛化。
40:15
Speaker A
今天的绝大多数机器人看起来都很厉害,但它们做的一切,本质上都是“被编程好的动作”。
40:22
Speaker A
所以只要环境稍微变化,它们就能够立刻“失能”。
40:28
Speaker A
机器人行业过去一直难以扩张的原因就在于,每一项新任务都意味着一次新的工程项目。
40:38
Speaker A
而世界模型带来的,是让机器人拥有“世界的内部模型”,它们能看到现在,也能预测未来。
40:46
Speaker A
知道物体怎么动,也能够推断自己的动作会产生什么样的后果。
40:53
Speaker A
它能先在脑子里模拟,再决定要不要执行。
40:59
Speaker A
比如说它可以模拟箱子会不会翻倒,门把的角度能否顺利地转动,路径是否足够安全,抓取是否会失败。
41:08
Speaker A
过去要花工程师几十个小时调参的任务,现在机器人在模拟世界里面自主练习就能掌握。
41:15
Speaker A
更重要的是,机器人开始具备迁移能力。
41:22
Speaker A
它不需要每次换一个物体、换一个场景、换一个任务都重新示教一遍。
41:30
Speaker A
它能把虚拟世界里学到的规律,迁移到现实世界,尽管仿真到现实的迁移至今仍是一个开放难题。
41:39
Speaker A
世界模型有望大幅降低这道门槛,让机器人面对从未见过的物品时。
41:45
Speaker A
仍能做出合理的决策,这对于机器人来说是一次范式级的改变。
41:51
Speaker A
无论是家庭服务机器人、仓储机器人、工厂协作机器人、餐饮零售机器人,还是专业级的巡检、建筑、医疗辅助手臂。
42:01
Speaker A
世界模型都可能成为它们跨过智能门槛的那把钥匙。
42:09
Speaker A
自动驾驶。
42:11
Speaker A
大约从5年前开始啊,马斯克就开始讲L5要来了。
42:19
Speaker A
但是为什么时到今日,L5级的自动驾驶依然没有全面普及呢?
42:26
Speaker A
背后原因之一就在于,系统虽然“看得见世界”,却还难以真正预测世界。
42:33
Speaker A
我们现在常说的L2、L3自动驾驶,本质上依赖的仍然是“感知、预测、规划”的分层体系。
42:41
Speaker A
识别车、人、车道线、交通灯,再通过规划系统给车辆下指令。
42:50
Speaker A
特斯拉更强调用大规模真实道路数据,通过端到端方式不断逼近人类驾驶。
42:58
Speaker A
而Waymo则是长期在高度结构化的系统中,追求可验证的安全性。
43:06
Speaker A
但是无论是哪种路线,都面临着一个共同的问题。
43:12
Speaker A
它们对“现在”的感知已经很强,但却很难稳定地理解“接下来会发生什么”。
43:18
Speaker A
再加上极端天气、突发事故、不规范行人等长尾场景,在真实道路中极其稀少,也成为制约自动驾驶规模化的关键瓶颈。
43:28
Speaker A
而这,正是世界模型开始真正进入工程体系的地方。
43:34
Speaker A
比如说Waymo在最近的技术博客中就提出啊,他们正在将自动驾驶系统的核心。
43:40
Speaker A
构建成为一个Foundation Model。
43:44
Speaker A
它采用了“分段式端到端”的架构。
43:50
Speaker A
内部可以进行端到端训练和反向传播,同时又保留了对世界的结构化表达。
43:58
Speaker A
这个模型不只是完成单一任务,而是学习“世界如何运转”。
44:06
Speaker A
它被要求输出物体、语义属性和道路结构等中间表征,让系统在出错的时候。
44:14
Speaker A
能够定位问题出在世界理解的哪一层。
44:20
Speaker A
这些结构化世界信息也支撑起更高质量的仿真系统。
44:28
Speaker A
不仅还原场景,还能够在不同假设下预设交通参与者的行为。
44:36
Speaker A
并且在内部同时推演大量可能的决策路径,从中筛选出最安全、最稳定的一条。
44:44
Speaker A
这不再只是“识别”,也不只是“反应”,而是让自动驾驶系统开始具备一种接近人类驾驶的预判能力。
44:51
Speaker A
也正因为如此,世界模型被认为是推动自动驾驶从局部可用,走向可验证、安全的、大规模商业化落地的核心技术之一。
45:01
Speaker A
穿戴设备。
45:03
Speaker A
如今我们所熟知的可穿戴设备,本质上还是停留在记录层面。
45:10
Speaker A
看上去很智能,但实际上却不能理解你周围的环境。
45:16
Speaker A
世界模型会让这一切发生质变,它能够让设备真正地读懂你的3D世界。
45:24
Speaker A
实时推断空间结构、物体关系和潜在风险,把数字内容自然融合进现实环境。
45:32
Speaker A
另一方面,它的预测和规划能力,会让可穿戴设备从工具变成你的“数字伙伴”。
45:40
Speaker A
理解你在什么环境,看什么,可能要做什么。
45:47
Speaker A
比如说提前提醒路面湿滑。
45:51
Speaker A
在厨房识别缺少的食材。
45:55
Speaker A
甚至在你开口前就意识到你需要帮助。
46:02
Speaker A
从更长远来看,这不只是设备升级,而是一种新的人机关系。
46:10
Speaker A
世界模型会让可穿戴设备从“信息终端”变成随身的“世界理解引擎”,眼镜、耳机、手机、手表都可能进化为与你共同生活、共同行动的智能体。
46:20
Speaker A
而这,也可能会是下一代计算平台的起点。
46:28
Speaker A
内容创作。
46:30
Speaker A
如果说机器人、自动驾驶等等具身智能是世界模型在现实世界的落地。
46:38
Speaker A
那么内容相关的产业,就是世界模型在“想象世界”里的爆发奇点。
46:45
Speaker A
如今我们已经看到视频生成模型所带来的一些震撼效果。
46:52
Speaker A
而世界模型的到来,可以让未来的内容创作,只需要给一个世界观、一个任务、一个初始状态。
47:00
Speaker A
模型就能自动“长出一个世界”。
47:03
Speaker A
比如说在影视行业啊,一个导演不需要去反复地搭景、重拍、做模型。
47:10
Speaker A
只要定义“这是一座被雨水淹没的城市”,AI就能够生成整个城市的状态变化。
47:17
Speaker A
而在游戏行业,世界模型带来的改变更是颠覆性的。
47:24
Speaker A
过去的游戏世界需要一砖一瓦搭建地形、天气、物理引擎、NPC行为、任务链。
47:32
Speaker A
我们需要数百人的团队,花费几年时间才能够做出一个开放世界。
47:40
Speaker A
但是世界模型意味着游戏世界不需要“制作”,而可以自动生成和进化。
47:48
Speaker A
一个设计师只需要规定规则、生态、冲突,AI就能够生长出森林、河流、生物、文化、经济系统。
47:55
Speaker A
甚至是NPC的性格、记忆和演化方向。
47:59
Speaker E
大家以前玩的游戏都是这种静止的游戏。
48:03
Speaker E
所谓静止游戏就是我这个游戏所有规则都是提前被写好的,然后有一个游戏设计师和游戏程序员去实现这些规则。
48:11
Speaker E
但是如果说我们能用现在这种生成式AI的技术,放到这种游戏场景当中去,我就可以实现我所有的内容是on the fly生成的。
48:20
Speaker E
然后每次玩都不一样。
48:22
Speaker E
然后包括像你看像谷歌的Genie 3,你就是按上下左右键,它就可以on the fly去生成你下一秒看到的东西。
48:29
Speaker E
我们现在做的事情就是。
48:32
Speaker E
我们先用3D的这个model,我们自己再做一个多模态的大模型。
48:38
Speaker E
然后这个大模型可以先去生成这个角色,它的appearance。
48:45
Speaker E
后面呢,我们其实可以给它加上它的logic,它的性格,它的各种各样的形式的逻辑。
48:54
Speaker E
我们通过这条路径,其实也可以实现一个世界模型。
48:58
Speaker A
所以对于整个内容行业来说,世界模型带来的不仅仅是制作效率的提升。
49:05
Speaker A
而是一场叙事方式、创作方式、内容形式的全面重写。
49:13
Speaker A
AI智能体。
49:15
Speaker A
世界模型的到来,还会加速AI Agent的进化。
49:19
Speaker A
当我们今天再聊AI Agent的时候呢,很多讨论其实都集中在Agent能不能更聪明,规划能力够不够强,工具调用做得够不够好。
49:28
Speaker A
但是如果我们退一步去看,会发现一个更底层的问题,一直没有被真正地解决,那就是Agent到底是在什么环境里面学“行动”的?
49:38
Speaker A
Meet ChatGPT agent。
49:40
Speaker A
从强化学习的视角看,Agent的一切能力都来自于与环境的交互。
49:46
Speaker A
执行动作、接收反馈,但是真实世界太昂贵、太缓慢、也太危险。
49:53
Speaker A
几乎不可能支撑大规模试错。
49:57
Speaker A
而世界模型解决的正是“环境”本身的问题。
50:03
Speaker A
它通过学习真实系统的数据,在模型内部构建一个可运行的世界。
50:10
Speaker A
当Agent采取行动的时候,世界模型可以直接推演这个动作可能带来的结果。
50:16
Speaker A
这样一来,Agent就可以在世界模型中进行大规模训练。
50:22
Speaker A
如果这个世界足够接近真实,那么在虚拟环境中学到的能力就可以稳定地迁移到现实系统中。
50:30
Speaker A
世界模型并不是让Agent立刻变得更聪明,而是第一次为Agent提供了一个可训练、可试错、接近真实的“内在世界”。
50:37
Speaker A
这层世界底座,才是真正决定AI Agent能否走向现实世界的关键。
50:45
Speaker A
所以世界模型它改变的,不只是某一个行业、某一个产品、某一种形态。
50:52
Speaker A
而是整套人与世界互动的方式,陈羽北在采访当中就谈到说。
51:00
Speaker A
如果世界模型真的从根本上走通了,甚至有可能创造出一种新的文明。
51:08
Speaker G
如果你能实现World Model,逻辑推演的所有问题都解决了,然后你已经包罗万象,把这个世界所有的规律都已经掌握了。
51:19
Speaker G
而且可以泛化,泛化到能产生新的数据,产生新的意识,超越人类的程度,不是简单的外延。
51:26
Speaker G
然后能够再比较根本的程度上来泛化了,那么这个模型似乎已经具备了建立一种新的文明的能力。
51:34
Speaker A
世界模型的潜在风险。
51:38
Speaker A
当然,任何足以改变技术版图的突破,都会带来新的风险。
51:46
Speaker A
而世界模型的风险,不再只是“胡说八道”那么简单。
51:51
Speaker A
首先,是更隐蔽、也更危险的模型幻觉。
51:56
Speaker A
无论哪条路线,世界模型本质上都是在给AI构建一个高度逼真的“梦境”。
52:03
Speaker A
让它在其中模拟和推演。
52:07
Speaker A
但是虚拟世界永远无法完全覆盖真实世界,始终存在Sim-to-Real Gap。
52:14
Speaker A
语言模型的幻觉是编造事实。
52:18
Speaker A
视觉模型的幻觉是画面错误。
52:22
Speaker A
而世界模型的幻觉,出现在整个“世界结构”里。
52:28
Speaker A
比如说误判物体重量、高估动作可行性、低估碰撞后果,甚至构建了错误的因果关系。
52:35
Speaker A
这些问题不一定立刻会被察觉,却会直接影响智能体的决策与行动。
52:42
Speaker A
进而导致机器人失常、自动驾驶偏离,甚至关键系统被系统性误导。
52:50
Speaker A
所以当世界模型出现幻觉、错误,将是“系统级”的。
52:56
Speaker A
这也是更难发现、更难对齐的风险。
53:00
Speaker A
其次是世界模型带来的权力集中问题。
53:06
Speaker A
未来可能只有极少数机构具备构建和运行世界模型的能力,而成熟的世界模型意味着前所未有的预测能力。
53:16
Speaker A
对市场、社会行为、群体反应的高精度推演,可能带来新的信息垄断。
53:24
Speaker A
也可能会被用于更高效的社会操纵与商业操纵。
53:31
Speaker A
而更重要的是,当世界模型越来越真实。
53:36
Speaker A
虚拟与现实的边界也会越来越模糊。
53:43
Speaker A
“自主智能体”的到来,也加大了AI不受控的风险。
53:50
Speaker A
一旦AI真正理解并且模拟世界,深度伪造和虚假场景将进入“超真实”阶段。
53:58
Speaker A
AR/VR世界可能与现实几乎无差,甚至更具吸引力。
54:05
Speaker A
与此同时,当越来越多真实系统开始依赖这些模型,现实世界本身也可能反过来对“齐”模型的假设。
54:15
Speaker A
而当世界模型变成决策底座,内部状态难以审计,推理过程不可见,我们甚至很难判断它究竟“理解”了什么,在朝什么方向演化。
54:26
Speaker A
这也意味着它所带来的监管挑战,将远高于今天的大模型。
54:34
Speaker A
所以,世界模型潜力巨大。
54:38
Speaker A
但是带来的风险,也比我们过去面对的任何AI技术都更加的危险。
54:46
Speaker A
它不只是内容层面的风险。
54:51
Speaker A
而是会真正地影响到现实世界,当AI不只是看世界、画世界,而是开始在现实中推演、行动、做决定。
55:00
Speaker A
我们需要从系统、对齐、伦理、监管所有的层面去重新地讨论这件事。
55:09
Speaker A
AI的下一段旅程。
55:13
Speaker A
在过去一两年啊,我们看到AI在语言、图像、视频上的极速爆发。
55:20
Speaker A
仿佛一夜之间AI已经无所不能了。
55:25
Speaker A
但是当你开始思考AI是否真的理解世界,能否真的预测未来,是否能够像人类一样在世界中行动。
55:34
Speaker A
你会发现,现在的模型其实依然还停留在“表层智能”的一个阶段。
55:40
Speaker A
而世界模型向我们提供了真正能够走向“深层智能”的可能性,它让AI从“看到世界”走向“理解世界”。
55:50
Speaker A
从“预测句子”走向“预测未来”。
55:55
Speaker A
从“生成画面”走向“在世界里行动”。
56:00
Speaker A
这不仅会改变机器人、制造业、自动驾驶、内容产业。
56:07
Speaker A
也会改变我们和数字世界的关系,甚至改变我们对智能本身的理解。
56:14
Speaker A
当然,世界模型的道路还很漫长。
56:19
Speaker A
它面临巨大的技术挑战,也伴随着新的风险。
56:25
Speaker A
目前,我们依然不知道哪一条路线会最终的胜出,但是我们知道的是。
56:33
Speaker A
当AI能够真正理解世界、模拟世界,在世界里面试错和行动的时候,它距离通用智能,也就是我们一直在寻找的那个终极目标。
56:42
Speaker A
又会近了一大步。
56:45
Speaker A
而这,也许就是AI时代真正的拐点。
56:50
Speaker A
而我们现在正在见证它的开端。
56:53
Speaker A
最后,我们还想补充的是,因为世界模型本身还是一个没有被学界和产业完全统一的定义。
57:02
Speaker A
所以我们这一期的内容并不是想给世界模型下一个“标准答案”啊。
57:10
Speaker A
而是希望呢,从我们的视角为大家梳理出一个理解世界模型的框架。
57:18
Speaker A
那不同的团队,不同方向的每一条路线背后,其实都牵涉到大量具体的具体细节、方法选择。
57:27
Speaker A
以及呢,仍然在快速演化的新尝试,那么接下来呢,我们也会持续地围绕着这个主题。
57:34
Speaker A
做更深入的拆解和系列内容。
57:39
Speaker A
也感谢大家收看本期视频。
57:42
Speaker A
以上就是这期的全部内容了,你们的点赞、关注和评论是支持我们硅谷101做好深度科技和商业内容的最佳动力。
57:50
Speaker A
我是陈茜,那我们就下期视频再见啦,拜。
Topics:世界模型人工智能AGI大语言模型多模态视频生成3D建模智能体强化学习认知科学

Frequently Asked Questions

什么是世界模型?

世界模型是AI内部构建的对现实世界的抽象表示,能够理解环境、预测未来状态并规划行动,类似人类的心智模型。

世界模型和大语言模型有什么区别?

大语言模型主要基于文本数据,预测语言序列,适合对话和写作;世界模型依赖动态多模态数据,模拟世界变化,适合机器人和自动驾驶等任务。

为什么世界模型最近受到关注?

因为大语言模型遇到性能天花板,多模态技术和算力提升使得训练动态世界模型成为可能,满足了AI具身智能和现实交互的需求。

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

Or transcribe another YouTube video here →