当年 DeepMind 团队 + 几百万美元的工程,现在一个人 + LLM + 几千美元租用算力就能复刻;瓶颈不再是算力或代码,而是 agent 还不会做「换条路」这种科研动作。
Dwarkesh Patel / 嘉宾:Eric Jang
2016 年 AlphaGo 击败李世石那阵,DeepMind 一个研究团队加几百万美元算力是入场费。九年过去,前 1X Technologies AI 副总裁、前 Google DeepMind Robotics 高级研究科学家 Eric Jang 在 sabbatical 期间复刻了一遍——独自一人加 LLM 编程工具加几千美元租用算力。
他在 Dwarkesh Patel 的播客上拆解了这个项目,比「AI 在变强」这种空话有意思得多——里面有 MCTS 的本质、一个跨领域的隐藏连接、以及今天用 LLM 做研究真正卡在哪里。
What took a whole team of research scientists at DeepMind and millions of dollars of research and compute can now be done for a few thousand dollars of rented compute.
中间有一个关键节点:2020 年 Jane Street 的 David Wu 开源了 KataGo——把训练强 Go bot 所需算力直接砍掉 40 倍。今天职业棋手对弈练习用的 AI 基本都是 KataGo。Eric 在它的肩膀上,叠加现代 LLM coding 工具,整个项目的算力账单只剩零头。
这条曲线背后藏着一个更大的判断:AI 突破的复刻成本正在以远超摩尔定律的速度往下走。一个研究突破从「team + millions」缩到「one person + thousands」用了不到十年。
理解 AlphaGo 的关键不在搜索本身,而在搜索和神经网络的循环:
把 MCTS 当 label provider 看,整个算法的逻辑就清晰了:它的产物不是「最优动作」,而是针对你已经走过的每一步动作的更好版本。
Eric 的本行是机器人,他在访谈里点出了一个跨领域共性。
Robotics 里有一个老算法叫 DAgger(Dataset Aggregation):机器人执行得不好时,专家在线做 intervention,把「(状态, 更好的动作)」加入数据集重训。
MCTS 的本质就是 DAgger:你跑了一局棋,最后输了;MCTS 告诉你,每一步本来都有一个严格更好的动作。这些 (状态, 更好的动作) 就是新的监督数据。
这种「在已有轨迹上替换为更好动作」的范式横跨游戏 AI 和机器人控制,背后是同一个算法心智模型。掌握这个 framing 之后,AlphaStar、OpenAI Five、Dota AI、机器人 imitation learning,全都能装进同一个解释框架。
这一段是给读者拓展思维框架的。围棋本质上是混沌系统——一颗棋子的位置变化能让整盘棋走向完全不同的终局,对初始条件极度敏感。跟天气是同一类问题。
但人类和神经网络都能预测谁会赢。这个反差怎么解释?关键在于预测目标的粒度:
| 系统 | 不可预测的 | 仍然可预测的 |
|---|---|---|
| 天气 | 某个高空点的精确风速 | 飓风走向、温度区间 |
| 围棋 | 一百手之后的精确局面 | 谁会赢、胜率 |
| 蛋白质 | 每个原子的精确运动 | 最终稳定结构 |
AlphaGo、AlphaFold、AlphaTensor 都在做同一件事:把对宏观量的预测压缩进神经网络的 forward pass,不需要真的模拟到底。
一个看上去不可解的「模拟」问题,可能只需要远小于直觉的算力——前提是你预测的是对的那个宏观量。
这个观察对未来 AI 应用范围有直接含义:很多被认为「需要超算」的问题,其实只是 framing 错了。
Eric 一开始的目标是用 scaling laws 指导设计一个 compute-optimal Go bot。失败了。
失败原因不在算力,而在顺序错了:他当时还在 debug 自训练循环里的数据问题,在「数据还没对」的状态下拟合 scaling laws,得到的曲线本身就是错的。
Scaling laws 是用来外推已知有效配方的工具,不是用来发现配方本身的。
科研生产顺序应该是:先让 baseline 真正跑起来,再用 scaling laws 做外推。颠倒了就是在错误数据上画图,越认真越偏离。Andy Jones 那篇「Scaling Scaling Laws with Board Games」是基于一个已经 work 的系统,才能漂亮地给出 scaling 曲线。
最后一段对所有想用 AI agent 做研发的人都有用。
Eric 写了一个 Claude Skill 叫 Experiment:他描述要画的图(x 轴、y 轴、想回答的问题),agent 就自己跑实验、汇总数据、生成图、写报告、猜原因。这部分今天已经很好用。
但 agent 不擅长的一件事,反差非常明显:
当前公开模型在「下一个实验应该做什么」这件事上很差。它们不会做横向思考——不会停下来说「等一下,我钻这条路已经鬼打墙了,应该跳到完全不同的方向去」。
这正是博士生和本科生的核心差别:知道什么时候放弃当前 thread。Eric 在自己的实验树上经常需要「切到完全不同的 row」——这是 agent 还做不到的科研动作。
短期内你用 LLM 做研究,可以遵循这个分工:执行交给它、方向自己把。下一代模型把横向思考补上之前,这个分工大概率仍然成立。