每日服務摘要 2026-06-13
新聞公告服務健康狀態 全平台服務穩定運作,無新模型部署或路由變更。 ### 正常運作(17 端點) | 模型 | 狀態 | |---|---| | vibecode (Gemma-4-31B-QAT, 負載均衡) | ✅ | | coder (Gemma-4-31B-QAT) | ✅ | | nemotro…
查看最新的服務公告與更新資訊。
服務健康狀態 全平台服務穩定運作,無新模型部署或路由變更。 ### 正常運作(17 端點) | 模型 | 狀態 | |---|---| | vibecode (Gemma-4-31B-QAT, 負載均衡) | ✅ | | coder (Gemma-4-31B-QAT) | ✅ | | nemotro…
模型服務動態 ### 新增模型 - DiffusionGemma-26B 已部署上線(node211:8002) - Google DiffusionGemma-26B-A4B-it,FP8 量化,262K 上下文 - 支援 Function Calling、並行工具呼叫 - 取代原 node211…
DiffusionGemma-26B 正式上線 Google DiffusionGemma-26B-A4B-it 是全球首款採用擴散(Diffusion)架構的語言模型,有別於傳統自回歸生成,透過迭代去噪在潛在空間中逐步精煉文字,以極少步數完成生成,達到前所未有的吞吐量。 ### 模型特色 - 擴散…
模型簡介 Google DiffusionGemma-26B-A4B-it 是首款採用擴散(Diffusion)架構的語言模型,有別於傳統自回歸(Autoregressive)生成方式,透過迭代去噪在潛在空間中逐步生成文字。此架構理論上能在極少步數內完成生成,大幅提升吞吐量。 部署規格: - 模型:…
服務健康狀態 健康模型(15 端點):vibecode、coder、vibe(Nemotron-3-Super)、nemotron-3-ultra、mistral-small-4、mistral-medium-35、llama4scout、heavycoder、azure-eu1-gpt-5、bge…
模型服務動態 今日無新增或移除模型,全平台模型列表與昨日相同。 ## 服務健康狀態 ### 正常服務(15 項) | 模型名稱 | 後端節點 | 備註 | |---|---|---| | vibecode | node219:8006 + 8007 | Gemma-4-31B-QAT,負載均衡雙實例…
模型服務動態 ### vibecode 負載均衡啟用 vibecode (Gemma-4-31B-QAT) 新增第二個後端實例(port 8007),LiteLLM 路由已配置負載均衡,目前由 port 8006 及 8007 兩個 QAT 實例同時提供服務,可提升並行處理能力。 ### Gemma…
模型服務動態 ### vibecode / coder 路由修復 node219:8006 後端模型已由 Gemma-4-31B-IT-NVFP4 更換為 Gemma-4-31B-QAT(w4a16 壓縮張量量化)。LiteLLM 路由配置已同步更新,vibecode 與 coder 服務已恢復正常…
服務健康狀態 正常運作模型(12 端點): | 模型 | 狀態 | |------|------| | Nemotron-3-Ultra 550B | ✅ 正常 | | Nemotron-3-Super 120B | ✅ 正常 | | Mistral Small 4 (119B) | ✅ 正常 | …
今日技術工作 ### 新服務上線 - FunASR 語音辨識服務:部署於 node212(GPU#3),提供 OpenAI 相容 API,支援中文語音轉文字(SenseVoice、Paraformer)及說話人辨識。中文場景建議優先使用 FunASR,與既有 WhisperX 服務(port 900…
Google Gemma-4-12B-it 多模態模型正式上線,採用 FP8 線上量化部署於單張 L40S GPU,支援 128K 上下文長度、視覺理解與 Function Calling。 效能基準測試結果: - 單用戶吞吐:41.9 tok/s(FP8)vs 28.5 tok/s(BF16),提…
問題說明 今日 23:55~00:25 期間,請求 nemotron-3-ultra 模型時,系統實際路由至 nemotron-3-super 後端,導致使用者收到錯誤模型的回應。此問題已於 00:25 修復。 ## 影響範圍 - 影響期間:2026/06/05 23:55 ~ 06/06 00:2…
Nemotron-3-Ultra 550B 的上下文視窗已從 65,536 tokens 大幅提升至 262,144 tokens(262K),與 Nemotron-3-Super 並列平台最長上下文。 ## 升級效益 - 長文件處理:可一次容納完整論文、技術規格書或大型程式碼庫 - RAG 檢索增…
NVIDIA 近日接連推出 Nemotron-3-Super(120B)與 Nemotron-3-Ultra(550B)兩款 MoE 模型,我們在 Day-0 完成部署後進行了系統化效能基準測試。Ultra 已從初始 65K 上下文升級至 262K,以下為最新比較結果。 ## 模型規格比較 | | …
NVIDIA 於 2026/6/5 發布 Nemotron 3 Ultra 550B(NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4),我們在發布後 20 小時內即完成部署與上線(Day-0 支援)。 模型特性: - 550B MoE 架構,A55B 活躍參數(NVF…
Mistral Medium 3.5 (128B) 已結束 Beta 測試階段,正式上線提供服務。此模型自 2026 年 4 月 30 日起開始 Beta 測試,經過一個月的穩定性驗證,現已達到生產環境標準。模型規格:參數量 128B(Dense 架構)、量化 NVFP4、上下文 262K toke…
Mistral Small 4 (119B) 已啟用 Prefix Caching,重複前綴的請求將自動命中 KV Cache 快取,顯著降低延遲與計算開銷。模型自 2026 年 3 月起即在平台提供服務,此次為效能優化更新。模型規格:參數量 119B(MoE 架構)、量化 NVFP4、上下文 26…
模型服務動態 ### 新增模型 - GPT-5 (Azure EU) — 透過 Azure OpenAI 歐洲區域提供 GPT-5 推理服務,已加入平台模型列表 ### 模型路由調整 - coder — 後端由 node214:8203 (MiniMax-M2.7) 調整為 node219:8006…
模型服務狀態 ### 運行中(10 端點健康) | 模型名稱 | 類型 | 備註 | |---|---|---| | GPT-5 (Azure) | 對話 | Azure EU1 部署,穩定運行 | | Nemotron-3-Super-120B (vibe) | 對話 | node213 雙端點 …
服務健康狀態 整體狀態:正常運作 - 健康端點:10 個 - 離線端點:8 個(其中 5 個為已下線或未部署的模型,1 個為 BGE-M3 嵌入服務的健康探針格式不相容) - API 金鑰總數:336 組(Redis 快取 174 筆) - LiteLLM 間道:正常運作(已持續 5 天) - Wh…
服務健康狀態 整體狀態:正常運作 - 健康端點:10 個 - 離線端點:8 個(其中 5 個為已下線或未部署的模型,1 個為 BGE-M3 嵌入服務的健康探針格式不相容) - API 金鑰總數:326 組(Redis 快取 288 筆) - LiteLLM 閘道:正常運作(已持續 4 天) - Wh…
服務健康狀態 整體狀態:正常運作 - 健康端點:13 個 - 離線端點:4 個 - API 金鑰總數:324 組(Redis 快取 21,344 筆) - LiteLLM 閘道:正常運作(已持續 3 天) - Whisper 語音辨識服務:正常(medium / large-v3 模型已載入) ##…
服務健康狀態 整體狀態:正常運作 - 健康端點:13 個 - 離線端點:5 個 - API 金鑰總數:320 組(Redis 快取 130 筆) - LiteLLM 閘道:正常運作 - Whisper 語音辨識服務:正常(medium / large-v3 模型已載入) ### 線上服務模型 | 模…
各位使用者您好, 以下為今日的系統維護與服務狀態摘要: ### 🚀 模型服務動態 新上線模型: - heavycoder(NVIDIA GLM-5.1-NVFP4)— 已穩定運行,支援 Function Calling 與推理模式,最大上下文 202K tokens 模型升級: - coder 已升…
新增模型:embeddinggemma-300m 透過 THU LLM API 現在支援兩種嵌入向量模型: | 模型 | 維度 | VRAM | 速度 | API 名稱 | |------|------|------|------|----------| | bge-m3-embedding | 1…
各位使用者您好, 以下為今日的系統維護與服務狀態摘要: ### 🚀 技術優化與部署 - Vibecode (Gemma-4-31B MTP) 效能調優:目前已成功部署基於 B200 的 MTP 推理加速,最高吞吐量提升至 1,238 tok/s,並支持最高 262K 的上下文窗口。 - 語音識別服務…
各位使用者您好,以下是今日系統更新與維護摘要: ### 技術工作完成 - 認證系統修復:成功恢復 198 筆 API 金鑰,並完成 SHA256 雜湊校驗,確保所有授權金鑰正常運作。 - ASR 服務優化:Whisper-large-v3 模型已完成部署並恢復服務,提供更高品質的語音轉文字體驗。 -…
系統狀態摘要 ### 閘道服務 ✅ LiteLLM 統一閘道服務運行正常,/health 端點回應正常。 ### 模型服務(15 個模型上線) | 模型 | 節點 | 說明 | |------|------|------| | gpt-oss-120b | node213 | GPT-OSS 120…
更新內容 vibecode 模型已完成硬體與設定優化,上下文窗口從 32K 大幅提升至 262,144 tokens(256K 等效),單卡 B200 即可支援。 ## 實測結果 在 node213 B200 GPU 上進行不同並發階測試,結果如下: | 並發數 | 吞吐量(tokens/s) | …
模型簡介 vibecode 是 THU LLM API 平台上的程式開發專用模型,現已升級為 Gemma-4-31B-assistant (MTP) 版本,採用 Multi-Token Prediction 推理加速技術,在 B200 GPU 上提供約 2.1 倍的吞吐量提升。 規格:31B 參數、…
測試背景 Gemma-4-31B-assistant 採用 Multi-Token Prediction(MTP) speculation decoding 技術,理論上可一次預測多個 token,取代傳統的自迴歸單 token 預測。本報告在相同的 B200 GPU 硬體環境下,完整對比 MTP …
BGE-M3 Reranker 已完成修復,現在可透過 Litellm Gateway 統一呼叫。 【使用教學】 1. Embedding(生成向量) curl -X POST http://localhost:4000/v1/embeddings \ -H "Authorization: Bear…
NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8 已加入我們的模型陣容。 模型規格: - 參數量:30B - 量化:FP8 - Context:32K - 部署:TP=2 適合高效推理任務,歡迎使用!
關於 2026/05/07 LiteLLM VerificationToken 資料表誤刪事件 ■ 事故說明 今日進行資料庫維護時,LiteLLM_VerificationToken 資料表內 198 筆 API 金鑰記錄因操作失誤遭刪除。 ■ 根因 VerificationToken 表的 tok…
whisper-large-v3 模型已重新加入 Litellm 路由,可正常透過 API 使用。 使用方式: POST /v1/audio/transcriptions model: whisper-large-v3 如有任何問題請聯繫管理員。
Mistral 3.5 Medium 測試中 mistral/mistral-3.5-medium is in coder model now. between 2026.04.30 ~ 2026.05.07 we managed to a zero-day implementation of mi…
Trinity testing period is due. we have replaced the 'coder' model back to gemma-4-31B. you don't need to modify your current setting, we will automati…
[測試模型] coder模型自 2026/04/20 ~ 2026/04/26 間,測試使用 Trinity-Large-Thinking 此模型目前於 pinchbench 排行第二。 這是一個 399B 模型。 官方網址 https://www.arcee.ai/blog/trinity-lar…