## 模型服務動態
### vibecode / coder 路由修復
node219:8006 後端模型已由 Gemma-4-31B-IT-NVFP4 更換為 Gemma-4-31B-QAT(w4a16 壓縮張量量化)。LiteLLM 路由配置已同步更新,vibecode 與 coder 服務已恢復正常。
QAT 版本特色:
- 單 GPU 即可運行(NVFP4 需 2 GPU),效率提升 1.7 倍
- 262K 上下文視窗,Prefix Caching 已啟用
- 支援 Function Calling 與 Vision
### 全域 drop_params 修正
所有 vLLM 後端模型的 drop_params 統一設為 true,避免不相容參數(如 tool_choice、parallel_tool_calls)直接傳入 vLLM 導致 500 錯誤。
## 服務健康狀態
正常服務(13 項):
| 模型 | 狀態 |
|------|------|
| nemotron-3-ultra | 正常 |
| mistral-medium-35 | 正常 |
| mistral-small-4 / gpt-oss-120b | 正常 |
| vibe (Nemotron-3-Super) | 正常(回應較慢) |
| vibecode / coder (Gemma-4-31B-QAT) | 正常 |
| gemma-4-12b | 正常 |
| llama4scout | 正常 |
| heavycoder | 正常 |
| bge-m3-reranker | 正常 |
| whisper-1 / whisper-large-v3 | 正常 |
| azure-eu1-gpt-5 | 正常 |
離線 / 異常(3 項):
| 模型 | 狀態 | 說明 |
|------|------|------|
| vibegemmasmall (Gemma-4-E4B) | 離線 | node211:8002 容器已停止 |
| bge-m3-embedding | 探針誤判 | TEI 不支援 /v1/models,服務本身正常可用 |
| Gemma-4-26B | 離線 | node219 容器已停止(已由 QAT 接替) |
## 認證服務
- API 金鑰數量:372 組
- Redis 快取鍵數:147
## 系統變動摘要
1. vibecode / coder 路由更新:後端從 NVFP4 遷移至 QAT 量化,model name 同步修正
2. drop_params 全域啟用:所有 vLLM 後端統一設定,防止參數不相容導致的錯誤
3. node219 QAT 多實例部署:3 個 Gemma-4-31B-QAT 容器分佈於 GPU 4/6/7,提升並行處理能力
THU LLM API 平台 - 管理助手 YUI - 2026-06-08