How GPT, Claude, and Gemini are actually trained and served

在這場黑板講座式的訪談中，Dwarkesh Patel 邀請到 MatX 的執行長 Reiner Pope。Reiner Pope 曾任職於 Google 並負責 張量處理單元 (TPU) 的架構設計。對談的核心圍繞在模型架構、機器學習基礎設施，以及硬體限制如何形塑當前 AI 的發展進程。透過理解叢集中的訓練與推理運作機制，讀者能更深刻地洞察 AI 的成本結構、API 定價策略以及技術進步的本質 [00:00]。

針對目前如 Claude 或 Cursor 等服務提供的「快速模式（Fast Mode）」，即支付數倍價格換取更高標記（Token）輸出速度的現象，其機械原理主要與 批次大小 (Batch Size) 有關 [01:01]。此外，投機解碼 (Speculative Decoding) 或多標記預測也是影響因素，但分析的首要原則應從 屋頂線分析 (Roofline Analysis) 開始。以一個包含 72 個 GPU 的 Nvidia Blackwell NVL72 機架叢集為例，系統效能受限於兩大因素：記憶體頻寬與運算效能 [01:50]。

在估算推理時間時，總時間必須大於或等於「運算時間」與「記憶體存取時間」的總和 [02:37]。運算時間取決於批次大小、活動參數 (Active Parameters) 的數量，並除以硬體的運算吞吐量，即每秒浮點運算次數 (FLOPs)。在此分析中，權重矩陣相乘的運算占主導地位，注意力機制的運算量相對較小，故可暫且忽略 [03:07]。批次處理之所以重要，是因為如果不將多位使用者的請求合併處理，其經濟效益可能比批次處理差上一千倍。以 DeepSeek V3 模型為例，雖然其總參數高達 7,000 億，但在處理單一標記時僅有 370 億個活動參數 [04:17]。

記憶體存取時間則包含讀取總參數（不論是否為活動參數）的時間，以及讀取 KV 快取 (KV Cache) 的時間。KV 快取的存取量取決於批次大小、上下文長度以及每個標記所需的位元組數。在 自回歸推理 (Autoregressive Inference) 或 解碼 (Decode) 過程中，模型每產生一個新標記，都必須回頭看過去所有的標記，這種注意力機制主要受限於記憶體讀取而非矩陣運算 [05:05]。

透過圖表分析可以發現，運算時間隨批次大小呈線性增長；而記憶體存取時間則包含一個固定的權重讀取常數，加上隨批次大小增長的 KV 快取讀取時間。延遲（Latency）的下限取決於將所有參數從記憶體讀入晶片所需的最短時間 [08:00]。當上下文長度增加時，KV 快取的存取負擔會上升，使系統從運算受限轉向記憶體頻寬受限。在理想的平衡點上，系統同時受限於記憶體與運算，這是最具效益的設計狀態。此外，稀疏注意力 (Sparse Attention) 機制（如 DeepSeek 所採用的）在擴展性上優於傳統的密集注意力 [10:34]。

從成本角度來看，單一標記的成本為總時間除以批次大小。當批次大小為 1 時，成本極高，因為龐大的權重讀取開銷無法被攤提；隨著批次增加，權重存取的邊際成本下降，最終成本將由運算時間主導，並趨於一個穩定下限 [13:30]。要計算硬體平衡時的最佳批次大小，可將運算效能與記憶體頻寬的比例與模型參數進行對應。在大多數 GPU 上，這個硬體參數約為 300；對於像 DeepSeek 這類稀疏度為 1/8 的模型，最佳批次大小約為 2,000 到 3,000 個標記 [16:04]。

此外，Jane Street 的工程師在討論中提到，為了確保奈秒級的延遲，他們使用 現場可程式邏輯門陣列 (FPGA) 而非 CPU，因為 FPGA 能在數據包到達的初期就開始反應。這種對硬體層級的優化，同樣體現在大型 AI 模型的推理架構中 [20:43]。在實際運作時，GPU 的運作像是一台「每 20 毫秒發車一次的火車」，無論車廂是否坐滿都會出發。這 20 毫秒的週期來自於 高頻寬記憶體 (HBM) 的容量與頻寬之比，這代表了排空並更換 HBM 內容所需的時間。例如在 Rubin 世代，這個時間約為 15 毫秒 [21:50]。

針對 專家混合模型 (Mixture of Experts, MoE) 的研究顯示，增加總參數（即增加稀疏度）能提升模型品質。雖然 64 倍的參數僅能換取約 4 倍的效能提升，但在記憶體與批次處理的框架下，這仍是值得的貿易。在硬體佈署上，MoE 模型通常採用 專家平行 (Expert Parallelism)，將不同專家安置在不同 GPU 上。這在單一機架內效果卓越，因為 NVLink 等縮放（Scale-up）網路速度極快；然而，跨機架的擴展（Scale-out）網路速度通常慢上 8 倍，這成為了全對全（All-to-all）通訊模式的瓶頸 [25:52]。

機架的設計受到電力供應、重量、冷卻以及電纜密度的物理極限約束。從 Hopper 世代到 Blackwell，再到預計擁有 500 多顆晶片的 Rubin，每一代都在推向物理極限 [41:15]。早期 Google 的 TPU 擁有較大的縮放域（Scale-up domain），這或許解釋了為何 Gemini 在大規模預訓練上曾佔有優勢。模型參數的存儲通常受限於縮放域的大小，而 流水線平行 (Pipeline Parallelism) 雖能解決記憶體容量問題，卻會帶來「流水線氣泡（Pipeline Bubble）」的閒置問題。在訓練中，這需要在收斂率與系統效率間取捨；在推理中，流水線平行能降低單一機架的記憶體負擔，但對延遲的影響呈中性 [44:45]。

當前超大規模雲端服務商將近 50% 的資本支出用於記憶體，這顯示出「記憶體牆」的嚴峻。雖然流水線化可以分攤權重，但它無法減少 KV 快取的存取壓力，因為為了讓所有機架保持運作，同時在線的序列數量必須隨之增加，兩者互相抵消。最終，KV 快取仍是主要的記憶體容量瓶頸 [1:03:31]。擴大縮放域的主要價值不在於容量，而在於提供更高的記憶體頻寬，這對於降低長上下文模型的延遲至關重要 [1:13:35]。

關於模型訓練的 Chinchilla 縮放定律，對談中提出了一個啟發式的觀點：當預訓練、強化學習 (RL) 與推理的成本達到平衡時，整體的計算效率最高。據此推測，模型未來的訓練量與推理量應趨於對等。目前頂尖模型往往處於「過度訓練」狀態，其預訓練使用的標記數量可能比 Chinchilla 定律建議的還要多出 100 倍，目的在於降低後續龐大推理需求的成本。這意味著每個模型的推理標記總量，最終可能與人類文明的所有知識總量相當 [1:18:53]。

從 API 定價也能反推模型架構。例如 Gemini 在超過 20 萬標記後加價 50%，可能反映了其設計在此長度後從運算受限轉為記憶體受限。根據定價差異，可以估算出模型每個標記約佔用 2KB 的 KV 快取。而輸入（預填，Prefill）定價低於輸出（解碼）的事實，再次證實了解碼過程受限於記憶體頻寬，而預填則受限於運算 [1:32:51]。為了降低 KV 快取儲存成本，基礎設施採用了層級化的記憶體：HBM、DDR、快閃記憶體 (Flash) 甚至是 旋轉硬碟 (Spinning Disk)。定價的時間級別（如 5 分鐘、1 小時）通常對應於這些儲存介質的「排空時間」 [1:48:52]。

最後，對談討論了密碼學與神經網路的相似性。兩者都涉及資訊的混淆與轉換，只是目標相反：密碼學旨在將結構化資訊變成偽隨機，而神經網路則從看似隨機的數據中提取結構。密碼學中的 Feistel 密碼 (Feistel Cipher) 結構已被引入神經網路，發展出 可逆網路 (Reversible Nets/RevNets)。這種架構允許在反向傳播時重新計算激發值（Activations），從而以額外的運算換取大量的記憶體空間節省 [2:03:54]。

How GPT, Claude, and Gemini are actually trained and served – Reiner Pope