GB10 實測 DiffusionGemma 26B 挑戰 32K 極限

作為三平台評測的最終章(前兩篇為 M2 Max 96GB MLX 與 GH200 vLLM),本篇將完整測試一下 GB10 的吞吐量表現、32K 長 Context 的速度代價、以及在 Podman 部署時讓人抓狂的 OOM 踩坑紀錄。

在數據的結果來看,155 tok/s,比 M2 Max 快了整整 10 倍! 更重要的是,Context 長度一路從 2K 解鎖到 32K都成功Pass,直接與老大哥 GH200 站在同一條起跑線上,直到 32,600 tokens 才開始撞牆。

整體來說, NVIDIA GB10(Grace Blackwell 128GB)在執行 DiffusionGemma 26B 時,交出了一份令人驚艷的成績單,雖然 Context 拉長後,速度衰減得比 GH200 明顯,但實際串接在CLI 的使用體感與超高性價比,絕對是本地推理 Server…

Read more →
DiffusionGemma 26B 登陸 M2 Max:MLX 吞吐量實測與 Context 極限挑戰

為了找到一些在地端也能讓 Agent 有無限 token 自由的毒駕的方法,原本用手邊的M4 24GB Mac 上嘗試執行 DiffusionGemma 26B,卻悲慘的連 1,000 tokens 的 Context 都撐不住,直接迎來 OOM(記憶體不足)的悲劇。

換到 M2 Max 96GB 後,終於可以展現出它應有的實力? 我改用MLX(mlx-vlm 0.6.3),過程中雖然踩了 MXFP4 的量化 Bug 並手動處理了 Patch,但最後成功在4-bit 格式下跑完整套 Benchmark。

本文記錄這幾天 DiffusionGemma 26B 在 Apple Silicon 上的吞吐量極限、Prompt 載入成本、以及 Context 長度與對記憶體的代價,同時,我們也會拿這些實測數據來作為後續 GH200 與 GB10 跨平台效能對比的 Baseline…

Read more →
Page 1