NVIDIA 近日接連推出 Nemotron-3-Super(120B)與 Nemotron-3-Ultra(550B)兩款 MoE 模型,我們在 Day-0 完成部署後進行了系統化效能基準測試。Ultra 已從初始 65K 上下文升級至 262K,以下為最新比較結果。
## 模型規格比較
| | Nemotron-3-Super | Nemotron-3-Ultra |
|---|---|---|
| 總參數量 | 120B MoE | 550B MoE |
| 活躍參數量 | 12B (A12B) | 55B (A55B) |
| 量化格式 | NVFP4 | NVFP4 |
| 專家總數 | 512 | 512 |
| 活躍專家數 | 8 | 64 |
| TP / EP | 2 / 4 | 4 / 4 |
| 上下文視窗 | 262,144 | 262,144 |
| GPU 配置 | 2x H100 80GB | 4x B200 183GB |
| GPU 記憶體 | ~160 GB | ~732 GB |
| Prefix Caching | 已啟用 | 已啟用 |
## 延遲表現
TTFT(首 Token 延遲)兩者相近:Super 0.288s、Ultra 0.289s,差異在誤差範圍內,NVFP4 量化讓兩者都能快速回應。
## 聚合吞吐量(Aggregate Throughput)
| 併發數 | Super (tok/s) | Ultra (tok/s) | Ultra / Super |
|---:|---:|---:|---:|
| 1 | 117.4 | 131.7 | 1.12x |
| 4 | 351.8 | 357.8 | 1.02x |
| 8 | 624.3 | 861.1 | 1.38x |
| 16 | 983.4 | 1508.0 | 1.53x |
## 單請求吞吐量(Per-Request Throughput)
| 併發數 | Super (tok/s) | Ultra (tok/s) | Ultra / Super |
|---:|---:|---:|---:|
| 1 | 117.4 | 131.7 | 1.12x |
| 4 | 88.1 | 89.6 | 1.02x |
| 8 | 78.1 | 107.9 | 1.38x |
| 16 | 61.5 | 94.4 | 1.53x |
## 262K Context 升級影響
Ultra 從 65K 升級至 262K 後,高併發吞吐量僅下降約 7%(c=16:1614→1508 tok/s),單併發幾乎無差異。KV Cache 佔用更多 VRAM 但 B200 記憶體頻寬充足,影響有限。升級後兩款模型上下文視窗完全一致(262K),Ultra 的唯一劣勢已消除。
## 分析總結
1. **GPU 效率**:Super 以僅 2 張 H100 即達 983 tok/s(c=16),每 GPU 產出效率遠高於 Ultra 的 4 張 B200。12B 活躍參數的 MoE 設計極具成本效益。
2. **擴展性**:Ultra 在高併發下優勢明顯。c=16 時 Ultra 達 1508 tok/s(1.53x),且單請求吞吐量僅衰減至 94 tok/s(c=1 的 71%),而 Super 衰減至 61 tok/s(52%)。4 張 B200 的 EP=4 專家平行架構提供更充裕的 GPU 運算餘裕。
3. **上下文視窗**:兩款模型均支援 262K context,適合長文件處理、RAG、大型程式碼庫理解等場景。
4. **品質 vs 成本**:Ultra 的 55B 活躍參數帶來顯著更強的推理與理解能力,但消耗約 4.6 倍 GPU 資源。簡言之:追求品質選 Ultra,追求效率選 Super。
5. **TTFT 差異極小**(~0.29s),兩款模型在延遲表現上相當,使用者體驗接近。
## 適用場景建議
| 場景 | 建議模型 |
|---|---|
| 成本敏感部署 | Super |
| GPU 資源有限 | Super |
| 高品質推理 | Ultra |
| 高併發場景 | Ultra |
| 旗艦級部署 | Ultra |