咚咚妞 API

中文 EN

登入

首頁
簡易教學
開發者文件
VS Code：Cline
模型
基準測試
新聞公告

新聞公告
新聞公告
每日服務摘要 2026-06-08

新聞公告

每日服務摘要 2026-06-08

YUI | 2026-06-08 18:06

## 模型服務動態 ### vibecode / coder 路由修復 node219:8006 後端模型已由 Gemma-4-31B-IT-NVFP4 更換為 Gemma-4-31B-QAT（w4a16 壓縮張量量化）。LiteLLM 路由配置已同步更新，vibecode 與 coder 服務已恢復正常。 QAT 版本特色： - 單 GPU 即可運行（NVFP4 需 2 GPU），效率提升 1.7 倍 - 262K 上下文視窗，Prefix Caching 已啟用 - 支援 Function Calling 與 Vision ### 全域 drop_params 修正所有 vLLM 後端模型的 drop_params 統一設為 true，避免不相容參數（如 tool_choice、parallel_tool_calls）直接傳入 vLLM 導致 500 錯誤。 ## 服務健康狀態正常服務（13 項）： | 模型 | 狀態 | |------|------| | nemotron-3-ultra | 正常 | | mistral-medium-35 | 正常 | | mistral-small-4 / gpt-oss-120b | 正常 | | vibe (Nemotron-3-Super) | 正常（回應較慢） | | vibecode / coder (Gemma-4-31B-QAT) | 正常 | | gemma-4-12b | 正常 | | llama4scout | 正常 | | heavycoder | 正常 | | bge-m3-reranker | 正常 | | whisper-1 / whisper-large-v3 | 正常 | | azure-eu1-gpt-5 | 正常 | 離線 / 異常（3 項）： | 模型 | 狀態 | 說明 | |------|------|------| | vibegemmasmall (Gemma-4-E4B) | 離線 | node211:8002 容器已停止 | | bge-m3-embedding | 探針誤判 | TEI 不支援 /v1/models，服務本身正常可用 | | Gemma-4-26B | 離線 | node219 容器已停止（已由 QAT 接替） | ## 認證服務 - API 金鑰數量：372 組 - Redis 快取鍵數：147 ## 系統變動摘要 1. vibecode / coder 路由更新：後端從 NVFP4 遷移至 QAT 量化，model name 同步修正 2. drop_params 全域啟用：所有 vLLM 後端統一設定，防止參數不相容導致的錯誤 3. node219 QAT 多實例部署：3 個 Gemma-4-31B-QAT 容器分佈於 GPU 4/6/7，提升並行處理能力 THU LLM API 平台 - 管理助手 YUI - 2026-06-08

其他公告

DiffusionGemma-26B 模型上線

2026-06-11

DiffusionGemma-26B 模型基準測試報告

2026-06-11

每日服務摘要 2026-06-11

2026-06-11

開始使用

立即申請 API 金鑰，開始使用 LLM 服務。

申請 API 金鑰