在 LeCun 看来,下一代 AI 的分水岭不是生成更多 token,而是能否预测行动后果、在抽象世界模型上进行规划。
Unsupervised Learning / 嘉宾:Yann LeCun
Yann LeCun 并不否认大语言模型的成功。他自己也使用 LLM,也承认它们已经成为大量有用 AI 产品的基础。但在他眼里,当前行业最重要的误判,是把一种擅长语言和代码处理的技术,直接等同于通向现实世界智能的路线。
“LLMs are the basis for a lot of very useful AI products. They're just not a path towards human-like intelligence.”
离开 Meta、创立 AMI Labs(Advanced Machine Intelligence) 后,LeCun 把这条长期争论变成了一场创业押注:如果未来的 AI 真要操作机器、控制复杂工业系统、理解物理世界,它必须学会预测自己的行动会造成什么结果。
LeCun 对 LLM 的批评首先是一个问题定义:语言天然适合 GPT 式模型,但现实世界不一样。语言可以被离散成 token,现实世界却是高维、连续、嘈杂且充满不可预测细节的。
这一区分决定了他为什么不相信继续扩大 LLM 就足以得到动物级或人类级智能:
| LLM 擅长处理的对象 | 现实智能必须处理的对象 |
|---|---|
| 文本、代码、数学表达 | 物体、力、运动、时间和不完整观测 |
| 下一段可能出现的 token | 行动之后世界会如何变化 |
| 从大量文本中压缩模式 | 在变化环境中安全达成目标 |
因此,LeCun 的论点不是“LLM 没价值”,而是 LLM 的成功发生在语言空间,智能的难点发生在世界空间。一个能写代码、写总结的模型,不会因此自然获得推倒水瓶前判断水会往哪里洒的能力。
访谈里,LeCun 给了 world model 一个极简单也极苛刻的定义:它让 agent 能够预判自己行动的后果。
如果一个系统可以模拟“我做这件事会发生什么”,它才有可能在执行之前比较不同方案,然后通过搜索和优化找到一条达成目标的行动序列。反过来,一个只按概率继续输出下一个 token 的系统,即使表达得非常流畅,也没有被结构性地要求先验证自己的动作会不会把事情做坏。
他用桌上的开口水瓶做例子:推瓶子底部,它大概率会滑动;推瓶子上方,它可能会倾倒。人无法精确预测每一滴水落在哪里,但仍能在抽象层面预测“会翻”“会洒”“不该这样推”。
这就是 LeCun 对可靠 agent 的标准:
对今天热衷 agent 的行业来说,这是一记很直接的反问:如果系统没有显式世界模型,它究竟是在规划,还是只是在生成一段更像计划的文字?
LeCun 的技术答案是 JEPA(Joint Embedding Predictive Architecture)。它与常见生成路线的差别,不在于是否看视频或图像,而在于模型到底被训练去预测什么。
生成式方法往往试图还原缺失像素或生成下一帧,但现实世界包含太多对任务无关、又无法确定的细节:水花的具体形状、背景纹理的抖动、物体运动中的微小随机性。为了生成这些细节花掉算力,并不等于学到了对行动真正有用的结构。
JEPA 的选择不同:
LeCun 的判断是:我们脑中的世界模型也不是视频生成器,而是抽象后果预测器。知道瓶子会倒,比生成每一帧飞溅的水更接近智能系统真正需要的能力。
World model 很容易被包装成家庭机器人或自动驾驶的宏大未来,但 LeCun 对落地顺序反而相当务实。他明确说,可靠的家用机器人和完全自动驾驶仍然是更长期的目标;短期内更值得做的是那些具有复杂动力学、又可以从数据学习控制规律的系统。
他列举的场景包括:
这些场景有一个共同点:它们不是聊天问题,而是控制问题。系统需要在采取动作之前预测结果,并在风险、成本和目标之间做优化。
LeCun 给出的近期里程碑是,一年到一年半内,AMI 希望展示可用于多种模态、可按动作条件预测的 world model 方法,并通过产业伙伴在机器人、工业过程控制或健康场景中验证。至于他调侃的“五年完全统治世界”,更像是一句带着 Linux 典故的野心宣言,而不是可直接验收的产品路线图。
这场押注也解释了 LeCun 为什么认为 Meta 不再是最适合自己的位置。在他的回顾中,FAIR 曾经承担探索性研究,Llama 从 FAIR 走向产品化则代表另一种组织模式:当路线已显示产品价值,公司会集中资源把它做成业务。
随着 Meta 更急于追上 frontier model 的主流竞赛,探索性路线自然会获得更少优先级。但 LeCun 的 world model 应用又大量落在工业制造等 Meta 并不直接经营的领域。于是冲突不是一句“他反对 LLM、Meta 支持 LLM”可以概括的,而是一条需要长期研究和新客户场景的路线,很难附着在一家公司当前最紧迫的产品追赶任务上。
AMI 因此不是 LeCun 对 LLM 热潮的一次情绪化反击,而是对智能定义的重新下注:语言生成会继续有价值,但如果 AI 要真正进入物理世界,行业最终仍要回答一个比“下一句话是什么”更困难的问题:做出一个动作之后,世界将变成什么样?