Eric Jang 用几千美元重建 AlphaGo：AI agent 缺的不是执行，是横向思考 - AI 深度解读与前沿技术博客集合

2016 年 AlphaGo 击败李世石那阵，DeepMind 一个研究团队加几百万美元算力是入场费。九年过去，前 1X Technologies AI 副总裁、前 Google DeepMind Robotics 高级研究科学家 Eric Jang 在 sabbatical 期间复刻了一遍——独自一人加 LLM 编程工具加几千美元租用算力。

他在 Dwarkesh Patel 的播客上拆解了这个项目，比「AI 在变强」这种空话有意思得多——里面有 MCTS 的本质、一个跨领域的隐藏连接、以及今天用 LLM 做研究真正卡在哪里。

复刻成本的崩塌曲线

What took a whole team of research scientists at DeepMind and millions of dollars of research and compute can now be done for a few thousand dollars of rented compute.

中间有一个关键节点：2020 年 Jane Street 的 David Wu 开源了 KataGo——把训练强 Go bot 所需算力直接砍掉 40 倍。今天职业棋手对弈练习用的 AI 基本都是 KataGo。Eric 在它的肩膀上，叠加现代 LLM coding 工具，整个项目的算力账单只剩零头。

这条曲线背后藏着一个更大的判断：AI 突破的复刻成本正在以远超摩尔定律的速度往下走。一个研究突破从「team + millions」缩到「one person + thousands」用了不到十年。

MCTS 不是在做决策，是在生产「事后更好的训练标签」

理解 AlphaGo 的关键不在搜索本身，而在搜索和神经网络的循环：

神经网络给一个直觉判断（policy + value）
MCTS 在直觉之上跑搜索，输出比直觉更好的动作
把 MCTS 的输出反过来当作监督信号，训练神经网络
网络变强 → 直觉变强 → 搜索起点更高 → 输出再变强

把 MCTS 当 label provider 看，整个算法的逻辑就清晰了：它的产物不是「最优动作」，而是针对你已经走过的每一步动作的更好版本。

一个跨领域连接：MCTS 就是 DAgger

Eric 的本行是机器人，他在访谈里点出了一个跨领域共性。

Robotics 里有一个老算法叫 DAgger（Dataset Aggregation）：机器人执行得不好时，专家在线做 intervention，把「(状态, 更好的动作)」加入数据集重训。

MCTS 的本质就是 DAgger：你跑了一局棋，最后输了；MCTS 告诉你，每一步本来都有一个严格更好的动作。这些 (状态, 更好的动作) 就是新的监督数据。

这种「在已有轨迹上替换为更好动作」的范式横跨游戏 AI 和机器人控制，背后是同一个算法心智模型。掌握这个 framing 之后，AlphaStar、OpenAI Five、Dota AI、机器人 imitation learning，全都能装进同一个解释框架。

围棋和天气都是混沌系统——但宏观量仍然可预测

这一段是给读者拓展思维框架的。围棋本质上是混沌系统——一颗棋子的位置变化能让整盘棋走向完全不同的终局，对初始条件极度敏感。跟天气是同一类问题。

但人类和神经网络都能预测谁会赢。这个反差怎么解释？关键在于预测目标的粒度：

系统	不可预测的	仍然可预测的
天气	某个高空点的精确风速	飓风走向、温度区间
围棋	一百手之后的精确局面	谁会赢、胜率
蛋白质	每个原子的精确运动	最终稳定结构

AlphaGo、AlphaFold、AlphaTensor 都在做同一件事：把对宏观量的预测压缩进神经网络的 forward pass，不需要真的模拟到底。

一个看上去不可解的「模拟」问题，可能只需要远小于直觉的算力——前提是你预测的是对的那个宏观量。

这个观察对未来 AI 应用范围有直接含义：很多被认为「需要超算」的问题，其实只是 framing 错了。

反常识的科研顺序：先 work，再 scale

Eric 一开始的目标是用 scaling laws 指导设计一个 compute-optimal Go bot。失败了。

失败原因不在算力，而在顺序错了：他当时还在 debug 自训练循环里的数据问题，在「数据还没对」的状态下拟合 scaling laws，得到的曲线本身就是错的。

Scaling laws 是用来外推已知有效配方的工具，不是用来发现配方本身的。

科研生产顺序应该是：先让 baseline 真正跑起来，再用 scaling laws 做外推。颠倒了就是在错误数据上画图，越认真越偏离。Andy Jones 那篇「Scaling Scaling Laws with Board Games」是基于一个已经 work 的系统，才能漂亮地给出 scaling 曲线。

LLM 跑实验已经很强，但缺一样东西：横向思考

最后一段对所有想用 AI agent 做研发的人都有用。

Eric 写了一个 Claude Skill 叫 Experiment：他描述要画的图（x 轴、y 轴、想回答的问题），agent 就自己跑实验、汇总数据、生成图、写报告、猜原因。这部分今天已经很好用。

但 agent 不擅长的一件事，反差非常明显：

当前公开模型在「下一个实验应该做什么」这件事上很差。它们不会做横向思考——不会停下来说「等一下，我钻这条路已经鬼打墙了，应该跳到完全不同的方向去」。

这正是博士生和本科生的核心差别：知道什么时候放弃当前 thread。Eric 在自己的实验树上经常需要「切到完全不同的 row」——这是 agent 还做不到的科研动作。

短期内你用 LLM 做研究，可以遵循这个分工：执行交给它、方向自己把。下一代模型把横向思考补上之前，这个分工大概率仍然成立。