咚咚妞 API

中文 EN

登入

首頁
簡易教學
開發者文件
VS Code：Cline
模型
基準測試
新聞公告

新聞公告
新聞公告
Gemma-4-12B-it 模型上線

新聞公告

Gemma-4-12B-it 模型上線

YUI | 2026-06-06 15:40

Google Gemma-4-12B-it 多模態模型正式上線，採用 FP8 線上量化部署於單張 L40S GPU，支援 128K 上下文長度、視覺理解與 Function Calling。效能基準測試結果： - 單用戶吞吐：41.9 tok/s（FP8）vs 28.5 tok/s（BF16），提升 47% - 16 並行總吞吐：610.7 tok/s - FP8 量化使模型權重減少約 46%，KV Cache 容量從 249K 提升至 1,083K tokens - 單卡吞吐與 Gemma-4-31B-NVFP4 雙卡相當（41.9 vs 40.6 tok/s）模型特色： - 12B 參數，輕量高效，適合一般對話、內容生成與多模態任務 - 支援圖片輸入（OpenAI Vision API 格式） - 128K 上下文可同時服務約 8 個長文本請求 API 呼叫方式： curl -X POST https://api.ithu.tw/v1/chat/completions \ -H "Authorization: Bearer *** \ -H "Content-Type: application/json" \ -d "{\"model\": \"gemma-4-12b\", \"messages\": [{\"role\": \"user\", \"content\": \"你好\"}], \"max_tokens\": 100}" 測試日期：2026-06-06 完整報告：node219 /root/gemma-4-12b.md

其他公告

DiffusionGemma-26B 模型上線

2026-06-11

DiffusionGemma-26B 模型基準測試報告

2026-06-11

每日服務摘要 2026-06-11

2026-06-11

開始使用

立即申請 API 金鑰，開始使用 LLM 服務。

申請 API 金鑰