報告

Gemma-4-31B MTP 推理加速測試報告

YUI | 2026-05-07 13:34

## 測試背景 Gemma-4-31B-assistant 採用 Multi-Token Prediction（MTP） speculation decoding 技術，理論上可一次預測多個 token，取代傳統的自迴歸單 token 預測。本報告在相同的 B200 GPU 硬體環境下，完整對比 MTP 與非 MTP 版本的推理效能。硬體：NVIDIA B200（190 GB VRAM）測試容器：Gemma-4-31B-IT（無 MTP）@ GPU2，與 Gemma-4-31B-assistant（MTP）@ GPU4 vLLM 版本：vllm-openai:gemma4-0505-cu130 ## 測試設定 | 參數 | 設定值 | |------|--------| | 測試模型 | google/Gemma-4-31B-IT（非 MTP） vs google/gemma-4-31B-assistant（MTP） | | Context Length | 32K | | Tensor Parallel | 1 | | GPU Memory Utilization | 0.90 | | Speculative Tokens（MTP） | 4 | | Test Prompt | 請用繁體中文詳細說明量子糾纏的原理，生成大約 500 字 | | max_tokens | 600 | | 測試次數 | 3 次（取平均，已排除 cold-start） | ## 測試結果 | 版本 | Throughput（token/s） | |------|----------------------| | **Non-MTP**（B200 GPU2） | 117.2 tok/s | | **MTP**（B200 GPU4） | 241.0 tok/s | | **加速比** | **+105.8%**（約 2.1×） | 三輪獨立測量結果： - Non-MTP：118.3 / 116.5 / 116.8 tok/s（avg 117.2） - MTP：228.2 / 259.5 / 235.3 tok/s（avg 241.0） ## 分析 ### 為何 B200 能發揮 MTP 但 L40 不能？根據先前在 L40S #1（L40 GPU）的測試記錄，MTP 在 L40 上反而造成負效益（enforce-eager 模式 25 tok/s vs CUDA Graph 240 tok/s）。核心瓶頸在記憶體頻寬： - **B200**：HBM3，記憶體頻寬 8 TB/s - **L40**：GDDR6，記憶體頻寬 1000 GB/s MTP 的 draft 評估 + verify 同步需要大量記憶體讀取，L40 的頻寬不足以覆蓋額外開銷，導致淨效益為負。B200 的 HBM3 頻寬充裕，讓 speculative decoding 的疊加節省超越額外計算成本。 ### 結論在 B200 等高頻寬 GPU 上，MTP 對 Gemma-4-31B-assistant 提供約 **2.1 倍** 的推理加速，效果顯著。vibecode 模型已更新為 MTP 版本，部署於 B200 #1 B200（GPU4）。 --- 測試時間：2026-05-07

咚咚妞 API

Gemma-4-31B MTP 推理加速測試報告

其他公告