How GPT, Claude, and Gemini are actually trained and served – Reiner Pope

2026年5月4日 · 約 5 分鐘閱讀 · 02:13:40 · en
影片封面
YouTube · 02:13:40

在這場黑板講座式的訪談中,Dwarkesh Patel 邀請到 MatX 的執行長 Reiner Pope。Reiner Pope 曾任職於 Google 並負責 張量處理單元 (TPU) 的架構設計。對談的核心圍繞在模型架構、機器學習基礎設施,以及硬體限制如何形塑當前 AI 的發展進程。透過理解叢集中的訓練與推理運作機制,讀者能更深刻地洞察 AI 的成本結構、API 定價策略以及技術進步的本質 [00:00]

針對目前如 Claude 或 Cursor 等服務提供的「快速模式(Fast Mode)」,即支付數倍價格換取更高標記(Token)輸出速度的現象,其機械原理主要與 批次大小 (Batch Size) 有關 [01:01]。此外,投機解碼 (Speculative Decoding) 或多標記預測也是影響因素,但分析的首要原則應從 屋頂線分析 (Roofline Analysis) 開始。以一個包含 72 個 GPU 的 Nvidia Blackwell NVL72 機架叢集為例,系統效能受限於兩大因素:記憶體頻寬與運算效能 [01:50]

在估算推理時間時,總時間必須大於或等於「運算時間」與「記憶體存取時間」的總和 [02:37]。運算時間取決於批次大小、活動參數 (Active Parameters) 的數量,並除以硬體的運算吞吐量,即每秒浮點運算次數 (FLOPs)。在此分析中,權重矩陣相乘的運算占主導地位,注意力機制的運算量相對較小,故可暫且忽略 [03:07]。批次處理之所以重要,是因為如果不將多位使用者的請求合併處理,其經濟效益可能比批次處理差上一千倍。以 DeepSeek V3 模型為例,雖然其總參數高達 7,000 億,但在處理單一標記時僅有 370 億個活動參數 [04:17]

記憶體存取時間則包含讀取總參數(不論是否為活動參數)的時間,以及讀取 KV 快取 (KV Cache) 的時間。KV 快取的存取量取決於批次大小、上下文長度以及每個標記所需的位元組數。在 自回歸推理 (Autoregressive Inference)解碼 (Decode) 過程中,模型每產生一個新標記,都必須回頭看過去所有的標記,這種注意力機制主要受限於記憶體讀取而非矩陣運算 [05:05]

透過圖表分析可以發現,運算時間隨批次大小呈線性增長;而記憶體存取時間則包含一個固定的權重讀取常數,加上隨批次大小增長的 KV 快取讀取時間。延遲(Latency)的下限取決於將所有參數從記憶體讀入晶片所需的最短時間 [08:00]。當上下文長度增加時,KV 快取的存取負擔會上升,使系統從運算受限轉向記憶體頻寬受限。在理想的平衡點上,系統同時受限於記憶體與運算,這是最具效益的設計狀態。此外,稀疏注意力 (Sparse Attention) 機制(如 DeepSeek 所採用的)在擴展性上優於傳統的密集注意力 [10:34]

從成本角度來看,單一標記的成本為總時間除以批次大小。當批次大小為 1 時,成本極高,因為龐大的權重讀取開銷無法被攤提;隨著批次增加,權重存取的邊際成本下降,最終成本將由運算時間主導,並趨於一個穩定下限 [13:30]。要計算硬體平衡時的最佳批次大小,可將運算效能與記憶體頻寬的比例與模型參數進行對應。在大多數 GPU 上,這個硬體參數約為 300;對於像 DeepSeek 這類稀疏度為 1/8 的模型,最佳批次大小約為 2,000 到 3,000 個標記 [16:04]

此外,Jane Street 的工程師在討論中提到,為了確保奈秒級的延遲,他們使用 現場可程式邏輯門陣列 (FPGA) 而非 CPU,因為 FPGA 能在數據包到達的初期就開始反應。這種對硬體層級的優化,同樣體現在大型 AI 模型的推理架構中 [20:43]。在實際運作時,GPU 的運作像是一台「每 20 毫秒發車一次的火車」,無論車廂是否坐滿都會出發。這 20 毫秒的週期來自於 高頻寬記憶體 (HBM) 的容量與頻寬之比,這代表了排空並更換 HBM 內容所需的時間。例如在 Rubin 世代,這個時間約為 15 毫秒 [21:50]

針對 專家混合模型 (Mixture of Experts, MoE) 的研究顯示,增加總參數(即增加稀疏度)能提升模型品質。雖然 64 倍的參數僅能換取約 4 倍的效能提升,但在記憶體與批次處理的框架下,這仍是值得的貿易。在硬體佈署上,MoE 模型通常採用 專家平行 (Expert Parallelism),將不同專家安置在不同 GPU 上。這在單一機架內效果卓越,因為 NVLink 等縮放(Scale-up)網路速度極快;然而,跨機架的擴展(Scale-out)網路速度通常慢上 8 倍,這成為了全對全(All-to-all)通訊模式的瓶頸 [25:52]

機架的設計受到電力供應、重量、冷卻以及電纜密度的物理極限約束。從 Hopper 世代到 Blackwell,再到預計擁有 500 多顆晶片的 Rubin,每一代都在推向物理極限 [41:15]。早期 Google 的 TPU 擁有較大的縮放域(Scale-up domain),這或許解釋了為何 Gemini 在大規模預訓練上曾佔有優勢。模型參數的存儲通常受限於縮放域的大小,而 流水線平行 (Pipeline Parallelism) 雖能解決記憶體容量問題,卻會帶來「流水線氣泡(Pipeline Bubble)」的閒置問題。在訓練中,這需要在收斂率與系統效率間取捨;在推理中,流水線平行能降低單一機架的記憶體負擔,但對延遲的影響呈中性 [44:45]

當前超大規模雲端服務商將近 50% 的資本支出用於記憶體,這顯示出「記憶體牆」的嚴峻。雖然流水線化可以分攤權重,但它無法減少 KV 快取的存取壓力,因為為了讓所有機架保持運作,同時在線的序列數量必須隨之增加,兩者互相抵消。最終,KV 快取仍是主要的記憶體容量瓶頸 [1:03:31]。擴大縮放域的主要價值不在於容量,而在於提供更高的記憶體頻寬,這對於降低長上下文模型的延遲至關重要 [1:13:35]

關於模型訓練的 Chinchilla 縮放定律,對談中提出了一個啟發式的觀點:當預訓練、強化學習 (RL) 與推理的成本達到平衡時,整體的計算效率最高。據此推測,模型未來的訓練量與推理量應趨於對等。目前頂尖模型往往處於「過度訓練」狀態,其預訓練使用的標記數量可能比 Chinchilla 定律建議的還要多出 100 倍,目的在於降低後續龐大推理需求的成本。這意味著每個模型的推理標記總量,最終可能與人類文明的所有知識總量相當 [1:18:53]

從 API 定價也能反推模型架構。例如 Gemini 在超過 20 萬標記後加價 50%,可能反映了其設計在此長度後從運算受限轉為記憶體受限。根據定價差異,可以估算出模型每個標記約佔用 2KB 的 KV 快取。而輸入(預填,Prefill)定價低於輸出(解碼)的事實,再次證實了解碼過程受限於記憶體頻寬,而預填則受限於運算 [1:32:51]。為了降低 KV 快取儲存成本,基礎設施採用了層級化的記憶體:HBM、DDR快閃記憶體 (Flash) 甚至是 旋轉硬碟 (Spinning Disk)。定價的時間級別(如 5 分鐘、1 小時)通常對應於這些儲存介質的「排空時間」 [1:48:52]

最後,對談討論了密碼學與神經網路的相似性。兩者都涉及資訊的混淆與轉換,只是目標相反:密碼學旨在將結構化資訊變成偽隨機,而神經網路則從看似隨機的數據中提取結構。密碼學中的 Feistel 密碼 (Feistel Cipher) 結構已被引入神經網路,發展出 可逆網路 (Reversible Nets/RevNets)。這種架構允許在反向傳播時重新計算激發值(Activations),從而以額外的運算換取大量的記憶體空間節省 [2:03:54]

· · ·