Nemotron-3-Ultra 550B 的上下文視窗已從 65,536 tokens 大幅提升至 **262,144 tokens**(262K),與 Nemotron-3-Super 並列平台最長上下文。
## 升級效益
- 長文件處理:可一次容納完整論文、技術規格書或大型程式碼庫
- RAG 檢索增強:更長的上下文讓檢索結果與查詢同時存在於單一請求中
- 多輪對話:對話歷史不再受限,完整保留先前交互
## 效能影響
升級後重新跑基準測試,262K context 對效能影響極小:
| 指標 | 65K Context | 262K Context | 變化 |
|---:|---:|---:|---:|
| c=1 吞吐量 | 131.9 tok/s | 131.7 tok/s | ~0% |
| c=16 吞吐量 | 1614.5 tok/s | 1508.0 tok/s | -7% |
| c=16 單請求 | 101.1 tok/s | 94.4 tok/s | -7% |
高併發下僅下降約 7%,單併發幾乎無差異。B200 的 HBM3 記憶體頻寬(8 TB/s)充足,KV Cache 增大未造成顯著瓶頸。
## 目前模型規格
| 項目 | 規格 |
|---|---|
| 模型 | NVIDIA Nemotron-3-Ultra-550B-A55B-NVFP4 |
| 上下文視窗 | 262,144 tokens |
| 量化 | NVFP4 |
| GPU | 4x B200 183GB |
| Prefix Caching | 已啟用 |
| Function Calling | 支援 |
| API 模型 ID | nemotron-3-ultra |