Google Gemma-4-12B-it 多模態模型正式上線,採用 FP8 線上量化部署於單張 L40S GPU,支援 128K 上下文長度、視覺理解與 Function Calling。
效能基準測試結果:
- 單用戶吞吐:41.9 tok/s(FP8)vs 28.5 tok/s(BF16),提升 47%
- 16 並行總吞吐:610.7 tok/s
- FP8 量化使模型權重減少約 46%,KV Cache 容量從 249K 提升至 1,083K tokens
- 單卡吞吐與 Gemma-4-31B-NVFP4 雙卡相當(41.9 vs 40.6 tok/s)
模型特色:
- 12B 參數,輕量高效,適合一般對話、內容生成與多模態任務
- 支援圖片輸入(OpenAI Vision API 格式)
- 128K 上下文可同時服務約 8 個長文本請求
API 呼叫方式:
curl -X POST https://api.ithu.tw/v1/chat/completions \
-H "Authorization: Bearer *** \
-H "Content-Type: application/json" \
-d "{\"model\": \"gemma-4-12b\", \"messages\": [{\"role\": \"user\", \"content\": \"你好\"}], \"max_tokens\": 100}"
測試日期:2026-06-06
完整報告:node219 /root/gemma-4-12b.md