作為三平台評測的最終章(前兩篇為 M2 Max 96GB MLX 與 GH200 vLLM),本篇將完整測試一下 GB10 的吞吐量表現、32K 長 Context 的速度代價、以及在 Podman 部署時讓人抓狂的 OOM 踩坑紀錄。
在數據的結果來看,155 tok/s,比 M2 Max 快了整整 10 倍! 更重要的是,Context 長度一路從 2K 解鎖到 32K都成功Pass,直接與老大哥 GH200 站在同一條起跑線上,直到 32,600 tokens 才開始撞牆。
整體來說, NVIDIA GB10(Grace Blackwell 128GB)在執行 DiffusionGemma 26B 時,交出了一份令人驚艷的成績單,雖然 Context 拉長後,速度衰減得比 GH200 明顯,但實際串接在CLI 的使用體感與超高性價比,絕對是本地推理 Server…