## 新增模型:embeddinggemma-300m
透過 THU LLM API 現在支援兩種嵌入向量模型:
| 模型 | 維度 | VRAM | 速度 | API 名稱 |
|------|------|------|------|----------|
| bge-m3-embedding | 1024 維 | ~2.5GB | 26,578 tok/s | bge-m3-embedding |
| embeddinggemma-300m | 768 維 | ~1.3GB | 9,827 tok/s | embeddinggemma-300m |
## ⚠️ 重要警告:不可混合使用
**絕對不能**在同一次檢索流程中混用兩個模型!
### 錯誤範例:
```python
query_emb = embed("測試", model="bge-m3-embedding") # 維度=1024
doc_emb = embed("文件", model="embeddinggemma-300m") # 維度=768
# cosine similarity 會完全無效!
```
### 正確範例:
```python
# 使用相同的模型
query_emb = embed("測試", model="bge-m3-embedding")
doc_emb = embed("文件", model="bge-m3-embedding")
# 這樣才正確!
```
## 使用時機
- **bge-m3-embedding**:需要更高品質,VRAM 足夠 (2.5GB)
- **embeddinggemma-300m**:輕量級部署 (~1.3GB),邊緣裝置適用
## API 範例
```bash
curl -X POST https://llmapi.service.thu.edu.tw/v1/embeddings \
-H "Content-Type: application/json" \
-d "{\"input\":\"您的文字\", \"model\": \"embeddinggemma-300m\"}"
```
---
詳細使用說明請參考:https://api.ithu.tw/embedding-notice