## 服務健康狀態 **整體狀態:正常運作** - 健康端點:13 個 - 離線端點:5 個 - API 金鑰總數:320 組(Redis 快取 130 筆) - LiteLLM 閘道:正常運作 - Whisper 語音辨識服務:正常(medium / large-v3 模型已載入) ### …
News
View the latest service announcements and updates.
View the latest service announcements and updates.
## 服務健康狀態 **整體狀態:正常運作** - 健康端點:13 個 - 離線端點:5 個 - API 金鑰總數:320 組(Redis 快取 130 筆) - LiteLLM 閘道:正常運作 - Whisper 語音辨識服務:正常(medium / large-v3 模型已載入) ### …
各位使用者您好, 以下為今日的系統維護與服務狀態摘要: ### 🚀 模型服務動態 **新上線模型:** - `heavycoder`(NVIDIA GLM-5.1-NVFP4)— 已穩定運行,支援 Function Calling 與推理模式,最大上下文 202K tokens **模型升級…
## 新增模型:embeddinggemma-300m 透過 THU LLM API 現在支援兩種嵌入向量模型: | 模型 | 維度 | VRAM | 速度 | API 名稱 | |------|------|------|------|----------| | bge-m3-embeddin…
各位使用者您好, 以下為今日的系統維護與服務狀態摘要: ### 🚀 技術優化與部署 - **Vibecode (Gemma-4-31B MTP) 效能調優**:目前已成功部署基於 B200 的 MTP 推理加速,最高吞吐量提升至 1,238 tok/s,並支持最高 262K 的上下文窗口。 - …
各位使用者您好,以下是今日系統更新與維護摘要: ### 技術工作完成 - 認證系統修復:成功恢復 198 筆 API 金鑰,並完成 SHA256 雜湊校驗,確保所有授權金鑰正常運作。 - ASR 服務優化:Whisper-large-v3 模型已完成部署並恢復服務,提供更高品質的語音轉文字體驗。 …
## 系統狀態摘要 ### 閘道服務 ✅ LiteLLM 統一閘道服務運行正常,`/health` 端點回應正常。 ### 模型服務(15 個模型上線) | 模型 | 節點 | 說明 | |------|------|------| | gpt-oss-120b | node213 | GPT-…
## 更新內容 vibecode 模型已完成硬體與設定優化,上下文窗口從 32K 大幅提升至 **262,144 tokens**(256K 等效),單卡 B200 即可支援。 ## 實測結果 在 node213 B200 GPU 上進行不同並發階測試,結果如下: | 並發數 | 吞吐量(t…
## 模型簡介 vibecode 是 THU LLM API 平台上的程式開發專用模型,現已升級為 **Gemma-4-31B-assistant (MTP)** 版本,採用 Multi-Token Prediction 推理加速技術,在 B200 GPU 上提供約 2.1 倍的吞吐量提升。 規…
## 測試背景 Gemma-4-31B-assistant 採用 Multi-Token Prediction(MTP) speculation decoding 技術,理論上可一次預測多個 token,取代傳統的自迴歸單 token 預測。本報告在相同的 B200 GPU 硬體環境下,完整對比 …
BGE-M3 Reranker 已完成修復,現在可透過 Litellm Gateway 統一呼叫。 【使用教學】 1. Embedding(生成向量) curl -X POST http://localhost:4000/v1/embeddings \ -H "Authoriza…
NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8 已加入我們的模型陣容。 模型規格: - 參數量:30B - 量化:FP8 - Context:32K - 部署:TP=2 適合高效推理任務,歡迎使用!
關於 2026/05/07 LiteLLM VerificationToken 資料表誤刪事件 ■ 事故說明 今日進行資料庫維護時,LiteLLM_VerificationToken 資料表內 198 筆 API 金鑰記錄因操作失誤遭刪除。 ■ 根因 VerificationToken 表的 t…
whisper-large-v3 模型已重新加入 Litellm 路由,可正常透過 API 使用。 使用方式: POST /v1/audio/transcriptions model: whisper-large-v3 如有任何問題請聯繫管理員。
Mistral 3.5 Medium 測試中 mistral/mistral-3.5-medium is in coder model now. between 2026.04.30 ~ 2026.05.07 we managed to a zero-day implementat…
Trinity testing period is due. we have replaced the 'coder' model back to gemma-4-31B. you don't need to modify your current setting, we will automati…
[測試模型] coder模型自 2026/04/20 ~ 2026/04/26 間,測試使用 Trinity-Large-Thinking 此模型目前於 pinchbench 排行第二。 這是一個 399B 模型。 官方網址 https://www.arcee.ai/blog/t…