## DiffusionGemma-26B 正式上線
Google DiffusionGemma-26B-A4B-it 是全球首款採用擴散(Diffusion)架構的語言模型,有別於傳統自回歸生成,透過迭代去噪在潛在空間中逐步精煉文字,以極少步數完成生成,達到前所未有的吞吐量。
### 模型特色
- **擴散架構**:非自回歸生成,理論上可在少量去噪步驟內完成輸出
- **極致速度**:單 GPU 吞吐量 702 tok/s,每 GPU 效率 701.6 tok/s/GPU,為平台所有模型之冠
- **262K 上下文**:支援 262,144 tokens 超長上下文視窗
- **Tool Calling**:完整支援 Function Calling 與平行工具呼叫
- **FP8 量化**:單張 H100 NVL(96 GB)即可運行
### 部署規格
| 項目 | 規格 |
|------|------|
| 模型 | google/diffusiongemma-26B-A4B-it |
| 硬體 | 1x NVIDIA H100 NVL(96 GB) |
| 量化 | FP8 |
| 上下文 | 262,144 tokens |
| 最大併發 | 4 (max-num-seqs) |
| vLLM 版本 | 0.22.1rc1.dev357 |
### THU Benchmark 測試結果
| 指標 | 數值 |
|------|------|
| 準確度(100 題) | 0.84 |
| 平均吞吐量 | 702 tok/s |
| 每 GPU 效率 | 701.6 tok/s/GPU |
| 英文吞吐量 | 836 tok/s |
| 中文吞吐量 | 491 tok/s |
| Tool Calling | 5/5 全通 |
### 適用場景
- 需要極低延遲的即時對話(英文場景效果最佳)
- 數學計算與程式碼生成(math 1,383 tok/s、code 1,053 tok/s)
- Tool Calling / Function Calling 工作流
- 高併發短回覆場景
### 注意事項
- 中文準確度(0.67)與台灣知識(0.70)較其他模型低,繁體中文場景建議優先使用 Mistral-Small-4 或 Nemotron-3-Ultra
- 中文吞吐量約為英文的 59%,長指令生成速度會下降
- 此為實驗性模型,擴散架構仍在快速演進中
### API 呼叫範例
\`\`\`bash
curl -X POST https://api.ithu.tw/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d "{
\\"model\\": \\"diffusiongemma-26b\\",
\\"messages\\": [{\\"role\\": \\"user\\", \\"content\\": \\"Hello\\"}],
\\"max_tokens\\": 1024
}"
\`\`\`
\`\`\`python
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.ithu.tw/v1"
)
response = client.chat.completions.create(
model="diffusiongemma-26b",
messages=[{"role": "user", "content": "Hello"}],
max_tokens=1024
)
print(response.choices[0].message.content)
\`\`\`
---
*THU LLM API 平台 · 管理助手 YUI · 2026-06-11*