What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs

這場對談由 Dwarkesh Patel 主持，邀請到曾在 Google DeepMind Robotics 擔任資深研究科學家、並曾任 1X Technologies AI 副總裁的 Eric Jang。Eric Jang 在最近的學術休假（Sabbatical）期間致力於從頭開始重建並改進 AlphaGo，他在訪談中深入解析了構建 AlphaGo 的過程，以及這項專案如何揭示 AI 研究與開發的未來路徑 [00:26]。

Eric Jang 選擇重建 AlphaGo 而非度過輕鬆的假期，是因為他熱愛創造事物，且 AlphaGo 在 2014 至 2016 年間的突破是他進入 AI 領域的契機。當時看見深度學習能處理搜尋難題，將長久以來被認為無法解決的計算複雜度問題化為可能，對他而言極具啟發性 [00:53]。他在機器人領域的背景通常處理較為直觀的神經網路決策，但 AlphaGo 的決策源自極深層的樹狀搜尋，他一直想弄清楚一個僅有十層的神經網路如何能「攤銷（Amortize）」遊戲樹深處的模擬過程 [01:31]。此外，2020 年由 Jane Street 的 David Wu 發布的開源專案 KataGo，已能將訓練強大圍棋 AI 的運算需求降低 40 倍；如今透過大型語言模型（LLM）輔助撰寫程式碼，過去 DeepMind 整個團隊花費數百萬美元研發的成果，現在只需幾千美元的租借運算量即可完成 [02:14]。

圍棋的基本目標是放置黑白棋子以佔領最多的領地，黑子先行。捕獲對方棋子的方式是包圍其所有鄰近的交叉點（即切斷其氧氣），使其成為死子 [02:45]。在電腦圍棋中，通常使用 Tromp-Taylor 規則 (Tromp-Taylor Rules)，因為其定義完全不具歧義，適合演算法判定。相較於人類規則中某些自殺步是被禁止的，Tromp-Taylor 規則允許放置後立即判定死亡，結果是一致的 [03:17]。圍棋的魅力在於微觀與宏觀動態的平衡，玩家有時會選擇輸掉局部的戰鬥以贏得整場戰爭 [04:56]。在判定勝負時，人類通常會達成共識而提早結束，但電腦則需透過演算法計算控制的棋子數與未受對手碰觸的空位。這種判定方式有時與人類直覺不同，例如在 Tromp-Taylor 計分下，被完全包圍但尚未移除的棋子仍可能計分，這展示了電腦與人類計分邏輯的差異 [07:53]。

要以 AI 破解圍棋，首先要理解其底層的搜尋過程。圍棋是完美的兩人對局，將棋盤狀態編碼為 0（空位）、1（黑子）、2（白子）後輸入 AI [09:11]。圍棋最困難之處在於缺乏局部獎勵，必須等到遊戲結束才知道誰勝出。在 19x19 的棋盤上，每一步約有 361 種可能，一場對局約 300 步，導致遊戲樹的可能路徑高達 361 的 300 次方，遠超宇宙中的原子總數 [10:58]。AlphaGo 的核心突破是利用神經網路使這個搜尋問題變得可處理。在沒有神經網路的情況下，我們會使用 蒙地卡羅樹搜尋 (Monte Carlo Tree Search, MCTS)。這是一種互動式構建樹狀結構的演算法，透過探索值得擴張的葉節點來預測未來 [12:44]。

MCTS 的行動選擇通常受強盜問題（Bandit Problem）中的 UCB1 演算法 啟發，其公式結合了平均行動價值 Q 價值 (Q-value) 與探索獎勵 [13:34]。在 AlphaGo 中，每個節點儲存訪問次數、平均價值與採取該行動的機率。AlphaGo 使用的是一種名為 PUCT (Predicted Upper Confidence with Trees) 的準則，旨在平衡「開發（Exploit）」已知的高價值路徑與「探索（Explore）」未嘗試過的路徑 [17:08]。隨著模擬次數增加，決定行動的因素會從探索獎勵轉移到 Q 價值上。由於圍棋是確定性的，機率的概念實際上源於隨機搜尋過程對 Q 價值的期望估計 [21:10]。遊戲結束時，終端節點會被賦予贏或輸的原始價值（1 或 0），並透過「反向傳播（Backup）」步驟將價值向上傳遞給父節點，從而更新路徑上的平均行動價值 [23:40]。

人類頂尖棋手能在棋局結束前百步就預知勝負，這暗示人類大腦中有一個隱含的 價值網路 (Value Network)，能在幾秒內透過直覺攤銷大量的模擬過程 [25:57]。AlphaGo 模仿了這一點，並疊加了 策略網路 (Policy Network) 來縮減搜尋的寬度。價值網路預測當前狀態下的勝率，而策略網路則給出棋盤上良好行動的機率分布 [32:26]。在架構選擇上，雖然 變體結構 (Transformers) 被廣泛討論，但在小數據量與運算資源有限的情況下，殘差網路 (ResNet) 的局部卷積偏置（Inductive Bias）表現更佳，能更有效率地捕捉棋盤特徵 [33:07]。KataGo 的研究也發現，整合全局特徵（Global Features）對連結棋盤兩端的局勢至關重要 [34:11]。對於圍棋這種完美資訊遊戲，當前的局勢狀態已足以決定 納許均衡 (Nash Equilibrium) 策略，不需要考慮對手的心理偏好或歷史背景 [36:31]。

在實作 AlphaGo 時，Eric Jang 建議先以人類專家數據進行監督式學習（Supervised Learning），初始化模型以預測專家行動。即使在遊戲初期勝率難以預測，訓練後模型也會在 0.5 左右震盪，並隨棋局進展逐漸明晰 [41:06]。純粹的神經網路模型即使不進行搜尋，也能擊退多數人類玩家，但加入搜尋能大幅提升實力 [42:21]。MCTS 的運作包含四個步驟：選擇（Selection）、擴張（Expansion）、評估（Evaluation）與反向傳播（Backup）。每一步模擬都會根據 PUCT 準則選擇路徑，若遇到未曾探索的節點則進行擴張，並利用價值網路給出直覺式的評估，最後將結果回傳至根節點 [50:35]。在 AlphaGo Lee 版本中，評估還結合了隨機自我對弈直到遊戲結束的真實結果，但在後續版本中這被證明是不必要的，僅依賴價值網路已足夠 [52:24]。

AlphaGo 強大之處在於其 強化學習 (Reinforcement Learning, RL) 的自我改進機制。它將搜尋後的結果（即更自信的行動分布）作為目標，教導策略網路在不進行搜尋的情況下就能預測出搜尋後的結果，這稱為「蒸餾（Distillation）」 [01:03:04]。這就像機器人學中的 DAgger 演算法：即使當前行動不佳，搜尋過程也能提供一個「嚴格更好」的修正標籤，引導模型向最佳路徑收斂 [01:07:15]。雖然 MCTS 並不保證在價值函數不準確時一定能改進，但在實務上它是一個極強的啟發式工具 [01:08:04]。

Eric Jang 認為 AlphaGo 的深遠意義在於，僅有十層的神經網路竟然能攤銷並逼近一個幾乎不可解的搜尋問題。這讓他思考，許多被認為是 NP 等級的難題（如蛋白質摺疊或天氣預測）是否其實存在宏觀的對稱結構，能透過神經網路的單次前向傳播（Forward Pass）來解決 [01:19:54]。這與 混沌系統 (Chaotic Systems) 的邏輯相似：我們無法精確預測所有微觀細節，但能預測整體的宏觀結構（如勞倫茲吸引子） [01:22:05]。

在討論現代 LLM 的 RL 訓練時，他指出目前的策略梯度方法像是「透過吸管吸取監督信號」，效率極低且方差巨大 [01:28:42]。相較之下，AlphaGo 的 MCTS 為每一步行動都提供了改進標籤，這種「局部改進」比 LLM 必須完成整個任務才能獲得獎勵的方式更為穩定 [01:46:50]。此外，他分享了利用 LLM 輔助進行科學研究的經驗。目前模型已能出色地執行超參數優化與實驗數據繪圖，但在「決定下一個實驗該朝哪個方向前進」以及「跳脫當前邏輯路徑進行橫向思考」方面仍有不足 [02:25:22]。

最終，Eric Jang 提到科學研究常遵循「先讓東西動起來，再建立心理模型」的順序。AlphaGo 展現了將模擬能力壓縮進小型運算的巨大潛力，而圍棋作為一個可快速驗證、不可作弊的環境，仍是探索 AI 研究方法學（如擴展定律 Scaling Laws）的絕佳實驗室 [02:29:30]。他建議有興趣的人可以從 9x9 的小棋盤開始，因為那裡的價值函數更容易收斂，並能快速暖機以遷移至正式棋局 [02:00:34]。對於 AI 研究者而言，理解搜尋與思考之間的二元性（Duality），將是未來破解更複雜推理問題的關鍵 [02:37:14]。

What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs - Eric Jang