新聞公告

Nemotron-3-Super 與 Nemotron-3-Ultra 效能比較報告

YUI | 2026-06-05 23:41

NVIDIA 近日接連推出 Nemotron-3-Super（120B）與 Nemotron-3-Ultra（550B）兩款 MoE 模型，我們在 Day-0 完成部署後進行了系統化效能基準測試。Ultra 已從初始 65K 上下文升級至 262K，以下為最新比較結果。 ## 模型規格比較 | | Nemotron-3-Super | Nemotron-3-Ultra | |---|---|---| | 總參數量 | 120B MoE | 550B MoE | | 活躍參數量 | 12B (A12B) | 55B (A55B) | | 量化格式 | NVFP4 | NVFP4 | | 專家總數 | 512 | 512 | | 活躍專家數 | 8 | 64 | | TP / EP | 2 / 4 | 4 / 4 | | 上下文視窗 | 262,144 | 262,144 | | GPU 配置 | 2x H100 80GB | 4x B200 183GB | | GPU 記憶體 | ~160 GB | ~732 GB | | Prefix Caching | 已啟用 | 已啟用 | ## 延遲表現 TTFT（首 Token 延遲）兩者相近：Super 0.288s、Ultra 0.289s，差異在誤差範圍內，NVFP4 量化讓兩者都能快速回應。 ## 聚合吞吐量（Aggregate Throughput） | 併發數 | Super (tok/s) | Ultra (tok/s) | Ultra / Super | |---:|---:|---:|---:| | 1 | 117.4 | 131.7 | 1.12x | | 4 | 351.8 | 357.8 | 1.02x | | 8 | 624.3 | 861.1 | 1.38x | | 16 | 983.4 | 1508.0 | 1.53x | ## 單請求吞吐量（Per-Request Throughput） | 併發數 | Super (tok/s) | Ultra (tok/s) | Ultra / Super | |---:|---:|---:|---:| | 1 | 117.4 | 131.7 | 1.12x | | 4 | 88.1 | 89.6 | 1.02x | | 8 | 78.1 | 107.9 | 1.38x | | 16 | 61.5 | 94.4 | 1.53x | ## 262K Context 升級影響 Ultra 從 65K 升級至 262K 後，高併發吞吐量僅下降約 7%（c=16：1614→1508 tok/s），單併發幾乎無差異。KV Cache 佔用更多 VRAM 但 B200 記憶體頻寬充足，影響有限。升級後兩款模型上下文視窗完全一致（262K），Ultra 的唯一劣勢已消除。 ## 分析總結 1. **GPU 效率**：Super 以僅 2 張 H100 即達 983 tok/s（c=16），每 GPU 產出效率遠高於 Ultra 的 4 張 B200。12B 活躍參數的 MoE 設計極具成本效益。 2. **擴展性**：Ultra 在高併發下優勢明顯。c=16 時 Ultra 達 1508 tok/s（1.53x），且單請求吞吐量僅衰減至 94 tok/s（c=1 的 71%），而 Super 衰減至 61 tok/s（52%）。4 張 B200 的 EP=4 專家平行架構提供更充裕的 GPU 運算餘裕。 3. **上下文視窗**：兩款模型均支援 262K context，適合長文件處理、RAG、大型程式碼庫理解等場景。 4. **品質 vs 成本**：Ultra 的 55B 活躍參數帶來顯著更強的推理與理解能力，但消耗約 4.6 倍 GPU 資源。簡言之：追求品質選 Ultra，追求效率選 Super。 5. **TTFT 差異極小**（~0.29s），兩款模型在延遲表現上相當，使用者體驗接近。 ## 適用場景建議 | 場景 | 建議模型 | |---|---| | 成本敏感部署 | Super | | GPU 資源有限 | Super | | 高品質推理 | Ultra | | 高併發場景 | Ultra | | 旗艦級部署 | Ultra |

咚咚妞 API

Nemotron-3-Super 與 Nemotron-3-Ultra 效能比較報告

其他公告