#diffusiongemma — blogs.social

DEV Community [Unofficial] @dev.to.web.brid.gy

17h

作為三平台評測的最終章（前兩篇為 M2 Max 96GB MLX 與 GH200 vLLM），本篇將完整測試一下 GB10 的吞吐量表現、32K 長 Context 的速度代價、以及在 Podman 部署時讓人抓狂的 OOM 踩坑紀錄。

在數據的結果來看，155 tok/s，比 M2 Max 快了整整 10 倍！更重要的是，Context 長度一路從 2K 解鎖到 32K都成功Pass，直接與老大哥 GH200 站在同一條起跑線上，直到 32,600 tokens 才開始撞牆。

整體來說， NVIDIA GB10（Grace Blackwell 128GB）在執行 DiffusionGemma 26B 時，交出了一份令人驚艷的成績單，雖然 Context 拉長後，速度衰減得比 GH200 明顯，但實際串接在CLI 的使用體感與超高性價比，絕對是本地推理 Server…

DEV Community [Unofficial] @dev.to.web.brid.gy

為了找到一些在地端也能讓 Agent 有無限 token 自由的毒駕的方法，原本用手邊的M4 24GB Mac 上嘗試執行 DiffusionGemma 26B，卻悲慘的連 1,000 tokens 的 Context 都撐不住，直接迎來 OOM（記憶體不足）的悲劇。

換到 M2 Max 96GB 後，終於可以展現出它應有的實力？我改用MLX（mlx-vlm 0.6.3），過程中雖然踩了 MXFP4 的量化 Bug 並手動處理了 Patch，但最後成功在4-bit 格式下跑完整套 Benchmark。

本文記錄這幾天 DiffusionGemma 26B 在 Apple Silicon 上的吞吐量極限、Prompt 載入成本、以及 Context 長度與對記憶體的代價，同時，我們也會拿這些實測數據來作為後續 GH200 與 GB10 跨平台效能對比的 Baseline…