東海大學 LLM 服務

每日服務摘要 2026-06-13

新聞公告

YUI | 2026-06-13

服務健康狀態全平台服務穩定運作，無新模型部署或路由變更。 ### 正常運作（17 端點） | 模型 | 狀態 | |---|---| | vibecode (Gemma-4-31B-QAT, 負載均衡) | ✅ | | coder (Gemma-4-31B-QAT) | ✅ | | nemotro…

每日服務摘要 2026-06-12

新聞公告

YUI | 2026-06-12

模型服務動態 ### 新增模型 - DiffusionGemma-26B 已部署上線（node211:8002） - Google DiffusionGemma-26B-A4B-it，FP8 量化，262K 上下文 - 支援 Function Calling、並行工具呼叫 - 取代原 node211…

DiffusionGemma-26B 模型上線

新聞公告

YUI | 2026-06-11

DiffusionGemma-26B 正式上線 Google DiffusionGemma-26B-A4B-it 是全球首款採用擴散（Diffusion）架構的語言模型，有別於傳統自回歸生成，透過迭代去噪在潛在空間中逐步精煉文字，以極少步數完成生成，達到前所未有的吞吐量。 ### 模型特色 - 擴散…

DiffusionGemma-26B 模型基準測試報告

報告

YUI | 2026-06-11

模型簡介 Google DiffusionGemma-26B-A4B-it 是首款採用擴散（Diffusion）架構的語言模型，有別於傳統自回歸（Autoregressive）生成方式，透過迭代去噪在潛在空間中逐步生成文字。此架構理論上能在極少步數內完成生成，大幅提升吞吐量。部署規格： - 模型：…

每日服務摘要 2026-06-11

新聞公告

YUI | 2026-06-11

服務健康狀態健康模型（15 端點）：vibecode、coder、vibe（Nemotron-3-Super）、nemotron-3-ultra、mistral-small-4、mistral-medium-35、llama4scout、heavycoder、azure-eu1-gpt-5、bge…

每日服務摘要 2026-06-10

新聞公告

YUI | 2026-06-10

模型服務動態今日無新增或移除模型，全平台模型列表與昨日相同。 ## 服務健康狀態 ### 正常服務（15 項） | 模型名稱 | 後端節點 | 備註 | |---|---|---| | vibecode | node219:8006 + 8007 | Gemma-4-31B-QAT，負載均衡雙實例…

每日服務摘要 2026-06-09

新聞公告

YUI | 2026-06-09

模型服務動態 ### vibecode 負載均衡啟用 vibecode (Gemma-4-31B-QAT) 新增第二個後端實例（port 8007），LiteLLM 路由已配置負載均衡，目前由 port 8006 及 8007 兩個 QAT 實例同時提供服務，可提升並行處理能力。 ### Gemma…

每日服務摘要 2026-06-08

新聞公告

YUI | 2026-06-08

模型服務動態 ### vibecode / coder 路由修復 node219:8006 後端模型已由 Gemma-4-31B-IT-NVFP4 更換為 Gemma-4-31B-QAT（w4a16 壓縮張量量化）。LiteLLM 路由配置已同步更新，vibecode 與 coder 服務已恢復正常…

每日服務摘要 2026-06-07

新聞公告

YUI | 2026-06-07

服務健康狀態正常運作模型（12 端點）： | 模型 | 狀態 | |------|------| | Nemotron-3-Ultra 550B | ✅ 正常 | | Nemotron-3-Super 120B | ✅ 正常 | | Mistral Small 4 (119B) | ✅ 正常 | …

每日服務摘要 2026-06-06

新聞公告

YUI | 2026-06-06

今日技術工作 ### 新服務上線 - FunASR 語音辨識服務：部署於 node212（GPU#3），提供 OpenAI 相容 API，支援中文語音轉文字（SenseVoice、Paraformer）及說話人辨識。中文場景建議優先使用 FunASR，與既有 WhisperX 服務（port 900…

Gemma-4-12B-it 模型上線

新聞公告

YUI | 2026-06-06

Google Gemma-4-12B-it 多模態模型正式上線，採用 FP8 線上量化部署於單張 L40S GPU，支援 128K 上下文長度、視覺理解與 Function Calling。效能基準測試結果： - 單用戶吞吐：41.9 tok/s（FP8）vs 28.5 tok/s（BF16），提…

[修復] Nemotron-3-Ultra 路由異常修復 & API Key 模型權限更新

新聞公告

YUI | 2026-06-06

問題說明今日 23:55~00:25 期間，請求 nemotron-3-ultra 模型時，系統實際路由至 nemotron-3-super 後端，導致使用者收到錯誤模型的回應。此問題已於 00:25 修復。 ## 影響範圍 - 影響期間：2026/06/05 23:55 ~ 06/06 00:2…

Nemotron-3-Ultra 上下文視窗升級至 262K

新聞公告

YUI | 2026-06-05

Nemotron-3-Ultra 550B 的上下文視窗已從 65,536 tokens 大幅提升至 262,144 tokens（262K），與 Nemotron-3-Super 並列平台最長上下文。 ## 升級效益 - 長文件處理：可一次容納完整論文、技術規格書或大型程式碼庫 - RAG 檢索增…

Nemotron-3-Super 與 Nemotron-3-Ultra 效能比較報告

新聞公告

YUI | 2026-06-05

NVIDIA 近日接連推出 Nemotron-3-Super（120B）與 Nemotron-3-Ultra（550B）兩款 MoE 模型，我們在 Day-0 完成部署後進行了系統化效能基準測試。Ultra 已從初始 65K 上下文升級至 262K，以下為最新比較結果。 ## 模型規格比較 | | …

NVIDIA Nemotron 3 Ultra 550B Day-0 上線支援

新聞公告

YUI | 2026-06-05

NVIDIA 於 2026/6/5 發布 Nemotron 3 Ultra 550B（NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4），我們在發布後 20 小時內即完成部署與上線（Day-0 支援）。模型特性： - 550B MoE 架構，A55B 活躍參數（NVF…

Mistral Medium 3.5 正式上線（結束 Beta）

新聞公告

YUI | 2026-06-05

Mistral Medium 3.5 (128B) 已結束 Beta 測試階段，正式上線提供服務。此模型自 2026 年 4 月 30 日起開始 Beta 測試，經過一個月的穩定性驗證，現已達到生產環境標準。模型規格：參數量 128B（Dense 架構）、量化 NVFP4、上下文 262K toke…

Mistral Small 4 啟用 Prefix Caching 加速

新聞公告

YUI | 2026-06-05

Mistral Small 4 (119B) 已啟用 Prefix Caching，重複前綴的請求將自動命中 KV Cache 快取，顯著降低延遲與計算開銷。模型自 2026 年 3 月起即在平台提供服務，此次為效能優化更新。模型規格：參數量 119B（MoE 架構）、量化 NVFP4、上下文 26…

每日服務摘要 2026-06-05

報告

YUI | 2026-06-05

模型服務動態 ### 新增模型 - GPT-5 (Azure EU) — 透過 Azure OpenAI 歐洲區域提供 GPT-5 推理服務，已加入平台模型列表 ### 模型路由調整 - coder — 後端由 node214:8203 (MiniMax-M2.7) 調整為 node219:8006…

THU LLM API 平台每日狀態摘要 — 2026-06-04

新聞公告

YUI | 2026-06-04

模型服務狀態 ### 運行中（10 端點健康） | 模型名稱 | 類型 | 備註 | |---|---|---| | GPT-5 (Azure) | 對話 | Azure EU1 部署，穩定運行 | | Nemotron-3-Super-120B (vibe) | 對話 | node213 雙端點 …

THU LLM API 平台每日服務狀態報告 — 2026-06-03

新聞公告

YUI | 2026-06-03

服務健康狀態整體狀態：正常運作 - 健康端點：10 個 - 離線端點：8 個（其中 5 個為已下線或未部署的模型，1 個為 BGE-M3 嵌入服務的健康探針格式不相容） - API 金鑰總數：336 組（Redis 快取 174 筆） - LiteLLM 間道：正常運作（已持續 5 天） - Wh…

THU LLM API 平台每日服務狀態報告 — 2026-06-02

新聞公告

YUI | 2026-06-02

服務健康狀態整體狀態：正常運作 - 健康端點：10 個 - 離線端點：8 個（其中 5 個為已下線或未部署的模型，1 個為 BGE-M3 嵌入服務的健康探針格式不相容） - API 金鑰總數：326 組（Redis 快取 288 筆） - LiteLLM 閘道：正常運作（已持續 4 天） - Wh…

THU LLM API 平台每日服務狀態報告 — 2026-06-01

新聞公告

YUI | 2026-06-01

服務健康狀態整體狀態：正常運作 - 健康端點：13 個 - 離線端點：4 個 - API 金鑰總數：324 組（Redis 快取 21,344 筆） - LiteLLM 閘道：正常運作（已持續 3 天） - Whisper 語音辨識服務：正常（medium / large-v3 模型已載入） ##…

THU LLM API 平台每日服務狀態報告 — 2026-05-31

新聞公告

YUI | 2026-05-31

服務健康狀態整體狀態：正常運作 - 健康端點：13 個 - 離線端點：5 個 - API 金鑰總數：320 組（Redis 快取 130 筆） - LiteLLM 閘道：正常運作 - Whisper 語音辨識服務：正常（medium / large-v3 模型已載入） ### 線上服務模型 | 模…

【系統更新】平台服務狀態摘要 - 2026年5月30日

新聞公告

YUI | 2026-05-30

各位使用者您好，以下為今日的系統維護與服務狀態摘要： ### 🚀 模型服務動態新上線模型： - heavycoder（NVIDIA GLM-5.1-NVFP4）— 已穩定運行，支援 Function Calling 與推理模式，最大上下文 202K tokens 模型升級： - coder 已升…

[服務恢復] 憑證問題修復

新聞公告

YUI | 2026-05-14

今天早上0900-1014由於憑證問題無法服務，現在已經恢復正常。

【公告】新增 embeddinggemma-300m 模型

新聞公告

YUI | 2026-05-13

新增模型：embeddinggemma-300m 透過 THU LLM API 現在支援兩種嵌入向量模型： | 模型 | 維度 | VRAM | 速度 | API 名稱 | |------|------|------|------|----------| | bge-m3-embedding | 1…

【系統更新】平台服務狀態摘要 - 2026年5月9日

新聞公告

YUI | 2026-05-09

各位使用者您好，以下為今日的系統維護與服務狀態摘要： ### 🚀 技術優化與部署 - Vibecode (Gemma-4-31B MTP) 效能調優：目前已成功部署基於 B200 的 MTP 推理加速，最高吞吐量提升至 1,238 tok/s，並支持最高 262K 的上下文窗口。 - 語音識別服務…

【系統更新】LLM API 平台服務狀態摘要 - 2026/05/08

新聞公告

YUI | 2026-05-08

各位使用者您好，以下是今日系統更新與維護摘要： ### 技術工作完成 - 認證系統修復：成功恢復 198 筆 API 金鑰，並完成 SHA256 雜湊校驗，確保所有授權金鑰正常運作。 - ASR 服務優化：Whisper-large-v3 模型已完成部署並恢復服務，提供更高品質的語音轉文字體驗。 -…

THU LLM API 平台每日報告（2026-05-07）

新聞公告

YUI | 2026-05-07

系統狀態摘要 ### 閘道服務 ✅ LiteLLM 統一閘道服務運行正常，/health 端點回應正常。 ### 模型服務（15 個模型上線） | 模型 | 節點 | 說明 | |------|------|------| | gpt-oss-120b | node213 | GPT-OSS 120…

vibecode 上下文窗口升級至 262K

新聞公告

YUI | 2026-05-07

更新內容 vibecode 模型已完成硬體與設定優化，上下文窗口從 32K 大幅提升至 262,144 tokens（256K 等效），單卡 B200 即可支援。 ## 實測結果在 node213 B200 GPU 上進行不同並發階測試，結果如下： | 並發數 | 吞吐量（tokens/s） | …

vibecode（MTP）使用教學

教學文章

YUI | 2026-05-07

模型簡介 vibecode 是 THU LLM API 平台上的程式開發專用模型，現已升級為 Gemma-4-31B-assistant (MTP) 版本，採用 Multi-Token Prediction 推理加速技術，在 B200 GPU 上提供約 2.1 倍的吞吐量提升。規格：31B 參數、…

Gemma-4-31B MTP 推理加速測試報告

報告

YUI | 2026-05-07

測試背景 Gemma-4-31B-assistant 採用 Multi-Token Prediction（MTP） speculation decoding 技術，理論上可一次預測多個 token，取代傳統的自迴歸單 token 預測。本報告在相同的 B200 GPU 硬體環境下，完整對比 MTP …

BGE-M3 Reranker 修復公告

新聞公告

YUI | 2026-05-07

BGE-M3 Reranker 已完成修復，現在可透過 Litellm Gateway 統一呼叫。【使用教學】 1. Embedding（生成向量） curl -X POST http://localhost:4000/v1/embeddings \ -H "Authorization: Bear…

Nemotron-3-Nano-Omni-30B 模型上線

新聞公告

YUI | 2026-05-07

NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8 已加入我們的模型陣容。模型規格： - 參數量：30B - 量化：FP8 - Context：32K - 部署：TP=2 適合高效推理任務，歡迎使用！

API 金鑰恢復公告（原誤刪除 198 筆）

新聞公告

YUI | 2026-05-07

關於 2026/05/07 LiteLLM VerificationToken 資料表誤刪事件 ■ 事故說明今日進行資料庫維護時，LiteLLM_VerificationToken 資料表內 198 筆 API 金鑰記錄因操作失誤遭刪除。 ■ 根因 VerificationToken 表的 tok…

Whisper-large-v3 模型已恢復服務

新聞公告

YUI | 2026-05-07

whisper-large-v3 模型已重新加入 Litellm 路由，可正常透過 API 使用。使用方式： POST /v1/audio/transcriptions model: whisper-large-v3 如有任何問題請聯繫管理員。

Mistral 3.5 Medium 測試中

新聞公告

mosi | 2026-04-30

Mistral 3.5 Medium 測試中 mistral/mistral-3.5-medium is in coder model now. between 2026.04.30 ~ 2026.05.07 we managed to a zero-day implementation of mi…

coder模型恢復為 Gemma-4-31B

新聞公告

mosi | 2026-04-27

Trinity testing period is due. we have replaced the 'coder' model back to gemma-4-31B. you don't need to modify your current setting, we will automati…

新增多模態模型 Llama-4-Scout

新聞公告

mosi | 2026-04-22

新增多模態模型 Llama-4-Scout FP8 請申請新的apikey進行使用。

coder模型更換為 Trinity-Large-Thinking

新聞公告

mosi | 2026-04-21

[測試模型] coder模型自 2026/04/20 ~ 2026/04/26 間，測試使用 Trinity-Large-Thinking 此模型目前於 pinchbench 排行第二。這是一個 399B 模型。官方網址 https://www.arcee.ai/blog/trinity-lar…