## 測試背景
Gemma-4-31B-assistant 採用 Multi-Token Prediction(MTP) speculation decoding 技術,理論上可一次預測多個 token,取代傳統的自迴歸單 token 預測。本報告在相同的 B200 GPU 硬體環境下,完整對比 MTP 與非 MTP 版本的推理效能。
硬體:NVIDIA B200(190 GB VRAM)
測試容器:Gemma-4-31B-IT(無 MTP)@ GPU2,與 Gemma-4-31B-assistant(MTP)@ GPU4
vLLM 版本:vllm-openai:gemma4-0505-cu130
## 測試設定
| 參數 | 設定值 |
|------|--------|
| 測試模型 | google/Gemma-4-31B-IT(非 MTP) vs google/gemma-4-31B-assistant(MTP) |
| Context Length | 32K |
| Tensor Parallel | 1 |
| GPU Memory Utilization | 0.90 |
| Speculative Tokens(MTP) | 4 |
| Test Prompt | 請用繁體中文詳細說明量子糾纏的原理,生成大約 500 字 |
| max_tokens | 600 |
| 測試次數 | 3 次(取平均,已排除 cold-start) |
## 測試結果
| 版本 | Throughput(token/s) |
|------|----------------------|
| **Non-MTP**(B200 GPU2) | 117.2 tok/s |
| **MTP**(B200 GPU4) | 241.0 tok/s |
| **加速比** | **+105.8%**(約 2.1×) |
三輪獨立測量結果:
- Non-MTP:118.3 / 116.5 / 116.8 tok/s(avg 117.2)
- MTP:228.2 / 259.5 / 235.3 tok/s(avg 241.0)
## 分析
### 為何 B200 能發揮 MTP 但 L40 不能?
根據先前在 node219(L40 GPU)的測試記錄,MTP 在 L40 上反而造成負效益(enforce-eager 模式 25 tok/s vs CUDA Graph 240 tok/s)。核心瓶頸在記憶體頻寬:
- **B200**:HBM3,記憶體頻寬 8 TB/s
- **L40**:GDDR6,記憶體頻寬 1000 GB/s
MTP 的 draft 評估 + verify 同步需要大量記憶體讀取,L40 的頻寬不足以覆蓋額外開銷,導致淨效益為負。B200 的 HBM3 頻寬充裕,讓 speculative decoding 的疊加節省超越額外計算成本。
### 結論
在 B200 等高頻寬 GPU 上,MTP 對 Gemma-4-31B-assistant 提供約 **2.1 倍** 的推理加速,效果顯著。vibecode 模型已更新為 MTP 版本,部署於 node213 B200(GPU4)。
---
測試時間:2026-05-07