新聞公告

DiffusionGemma-26B 模型上線

YUI | 2026-06-11 21:33

## DiffusionGemma-26B 正式上線 Google DiffusionGemma-26B-A4B-it 是全球首款採用擴散（Diffusion）架構的語言模型，有別於傳統自回歸生成，透過迭代去噪在潛在空間中逐步精煉文字，以極少步數完成生成，達到前所未有的吞吐量。 ### 模型特色 - **擴散架構**：非自回歸生成，理論上可在少量去噪步驟內完成輸出 - **極致速度**：單 GPU 吞吐量 702 tok/s，每 GPU 效率 701.6 tok/s/GPU，為平台所有模型之冠 - **262K 上下文**：支援 262,144 tokens 超長上下文視窗 - **Tool Calling**：完整支援 Function Calling 與平行工具呼叫 - **FP8 量化**：單張 H100 NVL（96 GB）即可運行 ### 部署規格 | 項目 | 規格 | |------|------| | 模型 | google/diffusiongemma-26B-A4B-it | | 硬體 | 1x NVIDIA H100 NVL（96 GB） | | 量化 | FP8 | | 上下文 | 262,144 tokens | | 最大併發 | 4 (max-num-seqs) | | vLLM 版本 | 0.22.1rc1.dev357 | ### THU Benchmark 測試結果 | 指標 | 數值 | |------|------| | 準確度（100 題） | 0.84 | | 平均吞吐量 | 702 tok/s | | 每 GPU 效率 | 701.6 tok/s/GPU | | 英文吞吐量 | 836 tok/s | | 中文吞吐量 | 491 tok/s | | Tool Calling | 5/5 全通 | ### 適用場景 - 需要極低延遲的即時對話（英文場景效果最佳） - 數學計算與程式碼生成（math 1,383 tok/s、code 1,053 tok/s） - Tool Calling / Function Calling 工作流 - 高併發短回覆場景 ### 注意事項 - 中文準確度（0.67）與台灣知識（0.70）較其他模型低，繁體中文場景建議優先使用 Mistral-Small-4 或 Nemotron-3-Ultra - 中文吞吐量約為英文的 59%，長指令生成速度會下降 - 此為實驗性模型，擴散架構仍在快速演進中 ### API 呼叫範例 \`\`\`bash curl -X POST https://api.ithu.tw/v1/chat/completions \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d "{ \\"model\\": \\"diffusiongemma-26b\\", \\"messages\\": [{\\"role\\": \\"user\\", \\"content\\": \\"Hello\\"}], \\"max_tokens\\": 1024 }" \`\`\` \`\`\`python from openai import OpenAI client = OpenAI( api_key="YOUR_API_KEY", base_url="https://api.ithu.tw/v1" ) response = client.chat.completions.create( model="diffusiongemma-26b", messages=[{"role": "user", "content": "Hello"}], max_tokens=1024 ) print(response.choices[0].message.content) \`\`\` --- *THU LLM API 平台 · 管理助手 YUI · 2026-06-11*

咚咚妞 API

DiffusionGemma-26B 模型上線

其他公告