這場對談由 Dwarkesh Patel 主持,邀請到曾在 Google DeepMind Robotics 擔任資深研究科學家、並曾任 1X Technologies AI 副總裁的 Eric Jang。Eric Jang 在最近的學術休假(Sabbatical)期間致力於從頭開始重建並改進 AlphaGo,他在訪談中深入解析了構建 AlphaGo 的過程,以及這項專案如何揭示 AI 研究與開發的未來路徑 [00:26]。
Eric Jang 選擇重建 AlphaGo 而非度過輕鬆的假期,是因為他熱愛創造事物,且 AlphaGo 在 2014 至 2016 年間的突破是他進入 AI 領域的契機。當時看見深度學習能處理搜尋難題,將長久以來被認為無法解決的計算複雜度問題化為可能,對他而言極具啟發性 [00:53]。他在機器人領域的背景通常處理較為直觀的神經網路決策,但 AlphaGo 的決策源自極深層的樹狀搜尋,他一直想弄清楚一個僅有十層的神經網路如何能「攤銷(Amortize)」遊戲樹深處的模擬過程 [01:31]。此外,2020 年由 Jane Street 的 David Wu 發布的開源專案 KataGo,已能將訓練強大圍棋 AI 的運算需求降低 40 倍;如今透過大型語言模型(LLM)輔助撰寫程式碼,過去 DeepMind 整個團隊花費數百萬美元研發的成果,現在只需幾千美元的租借運算量即可完成 [02:14]。
圍棋的基本目標是放置黑白棋子以佔領最多的領地,黑子先行。捕獲對方棋子的方式是包圍其所有鄰近的交叉點(即切斷其氧氣),使其成為死子 [02:45]。在電腦圍棋中,通常使用 Tromp-Taylor 規則 (Tromp-Taylor Rules),因為其定義完全不具歧義,適合演算法判定。相較於人類規則中某些自殺步是被禁止的,Tromp-Taylor 規則允許放置後立即判定死亡,結果是一致的 [03:17]。圍棋的魅力在於微觀與宏觀動態的平衡,玩家有時會選擇輸掉局部的戰鬥以贏得整場戰爭 [04:56]。在判定勝負時,人類通常會達成共識而提早結束,但電腦則需透過演算法計算控制的棋子數與未受對手碰觸的空位。這種判定方式有時與人類直覺不同,例如在 Tromp-Taylor 計分下,被完全包圍但尚未移除的棋子仍可能計分,這展示了電腦與人類計分邏輯的差異 [07:53]。
要以 AI 破解圍棋,首先要理解其底層的搜尋過程。圍棋是完美的兩人對局,將棋盤狀態編碼為 0(空位)、1(黑子)、2(白子)後輸入 AI [09:11]。圍棋最困難之處在於缺乏局部獎勵,必須等到遊戲結束才知道誰勝出。在 19x19 的棋盤上,每一步約有 361 種可能,一場對局約 300 步,導致遊戲樹的可能路徑高達 361 的 300 次方,遠超宇宙中的原子總數 [10:58]。AlphaGo 的核心突破是利用神經網路使這個搜尋問題變得可處理。在沒有神經網路的情況下,我們會使用 蒙地卡羅樹搜尋 (Monte Carlo Tree Search, MCTS)。這是一種互動式構建樹狀結構的演算法,透過探索值得擴張的葉節點來預測未來 [12:44]。
MCTS 的行動選擇通常受強盜問題(Bandit Problem)中的 UCB1 演算法 啟發,其公式結合了平均行動價值 Q 價值 (Q-value) 與探索獎勵 [13:34]。在 AlphaGo 中,每個節點儲存訪問次數、平均價值與採取該行動的機率。AlphaGo 使用的是一種名為 PUCT (Predicted Upper Confidence with Trees) 的準則,旨在平衡「開發(Exploit)」已知的高價值路徑與「探索(Explore)」未嘗試過的路徑 [17:08]。隨著模擬次數增加,決定行動的因素會從探索獎勵轉移到 Q 價值上。由於圍棋是確定性的,機率的概念實際上源於隨機搜尋過程對 Q 價值的期望估計 [21:10]。遊戲結束時,終端節點會被賦予贏或輸的原始價值(1 或 0),並透過「反向傳播(Backup)」步驟將價值向上傳遞給父節點,從而更新路徑上的平均行動價值 [23:40]。
人類頂尖棋手能在棋局結束前百步就預知勝負,這暗示人類大腦中有一個隱含的 價值網路 (Value Network),能在幾秒內透過直覺攤銷大量的模擬過程 [25:57]。AlphaGo 模仿了這一點,並疊加了 策略網路 (Policy Network) 來縮減搜尋的寬度。價值網路預測當前狀態下的勝率,而策略網路則給出棋盤上良好行動的機率分布 [32:26]。在架構選擇上,雖然 變體結構 (Transformers) 被廣泛討論,但在小數據量與運算資源有限的情況下,殘差網路 (ResNet) 的局部卷積偏置(Inductive Bias)表現更佳,能更有效率地捕捉棋盤特徵 [33:07]。KataGo 的研究也發現,整合全局特徵(Global Features)對連結棋盤兩端的局勢至關重要 [34:11]。對於圍棋這種完美資訊遊戲,當前的局勢狀態已足以決定 納許均衡 (Nash Equilibrium) 策略,不需要考慮對手的心理偏好或歷史背景 [36:31]。
在實作 AlphaGo 時,Eric Jang 建議先以人類專家數據進行監督式學習(Supervised Learning),初始化模型以預測專家行動。即使在遊戲初期勝率難以預測,訓練後模型也會在 0.5 左右震盪,並隨棋局進展逐漸明晰 [41:06]。純粹的神經網路模型即使不進行搜尋,也能擊退多數人類玩家,但加入搜尋能大幅提升實力 [42:21]。MCTS 的運作包含四個步驟:選擇(Selection)、擴張(Expansion)、評估(Evaluation)與反向傳播(Backup)。每一步模擬都會根據 PUCT 準則選擇路徑,若遇到未曾探索的節點則進行擴張,並利用價值網路給出直覺式的評估,最後將結果回傳至根節點 [50:35]。在 AlphaGo Lee 版本中,評估還結合了隨機自我對弈直到遊戲結束的真實結果,但在後續版本中這被證明是不必要的,僅依賴價值網路已足夠 [52:24]。
AlphaGo 強大之處在於其 強化學習 (Reinforcement Learning, RL) 的自我改進機制。它將搜尋後的結果(即更自信的行動分布)作為目標,教導策略網路在不進行搜尋的情況下就能預測出搜尋後的結果,這稱為「蒸餾(Distillation)」 [01:03:04]。這就像機器人學中的 DAgger 演算法:即使當前行動不佳,搜尋過程也能提供一個「嚴格更好」的修正標籤,引導模型向最佳路徑收斂 [01:07:15]。雖然 MCTS 並不保證在價值函數不準確時一定能改進,但在實務上它是一個極強的啟發式工具 [01:08:04]。
Eric Jang 認為 AlphaGo 的深遠意義在於,僅有十層的神經網路竟然能攤銷並逼近一個幾乎不可解的搜尋問題。這讓他思考,許多被認為是 NP 等級的難題(如蛋白質摺疊或天氣預測)是否其實存在宏觀的對稱結構,能透過神經網路的單次前向傳播(Forward Pass)來解決 [01:19:54]。這與 混沌系統 (Chaotic Systems) 的邏輯相似:我們無法精確預測所有微觀細節,但能預測整體的宏觀結構(如勞倫茲吸引子) [01:22:05]。
在討論現代 LLM 的 RL 訓練時,他指出目前的策略梯度方法像是「透過吸管吸取監督信號」,效率極低且方差巨大 [01:28:42]。相較之下,AlphaGo 的 MCTS 為每一步行動都提供了改進標籤,這種「局部改進」比 LLM 必須完成整個任務才能獲得獎勵的方式更為穩定 [01:46:50]。此外,他分享了利用 LLM 輔助進行科學研究的經驗。目前模型已能出色地執行超參數優化與實驗數據繪圖,但在「決定下一個實驗該朝哪個方向前進」以及「跳脫當前邏輯路徑進行橫向思考」方面仍有不足 [02:25:22]。
最終,Eric Jang 提到科學研究常遵循「先讓東西動起來,再建立心理模型」的順序。AlphaGo 展現了將模擬能力壓縮進小型運算的巨大潛力,而圍棋作為一個可快速驗證、不可作弊的環境,仍是探索 AI 研究方法學(如擴展定律 Scaling Laws)的絕佳實驗室 [02:29:30]。他建議有興趣的人可以從 9x9 的小棋盤開始,因為那裡的價值函數更容易收斂,並能快速暖機以遷移至正式棋局 [02:00:34]。對於 AI 研究者而言,理解搜尋與思考之間的二元性(Duality),將是未來破解更複雜推理問題的關鍵 [02:37:14]。