## 模型概覽
巴西里約熱內盧市政府旗下 IplanRIO 於 2026 年 6 月 13 日釋出 **Rio-3.5-Open-397B**,這是一個基於 Qwen 3.5 397B 進行 post-training 的開源模型,MIT 授權,完全開放商業與研究使用。
### 核心規格
| 項目 | 規格 |
|------|------|
| 基座模型 | Qwen 3.5 397B(阿里巴巴) |
| 總參數 | ~397B(MoE) |
| 活躍參數 | ~17B per token |
| 上下文長度 | 1,010,000 tokens(1M) |
| 授權 | MIT |
| 開發者 | IplanRIO(里約市府 IT 公司) |
| 特色技術 | SwiReasoning(顯性/隱性推理動態切換) |
## 效能表現
Rio 3.5 Open 397B 在多數基準測試上與 Qwen 3.7 Plus(閉源)打平甚至超越,是目前最強的開源模型之一。
### 相比基座 Qwen 3.5 397B 的提升幅度
| Benchmark | 基座 | Rio 3.5 | 提升幅度 |
|-----------|------|---------|----------|
| Terminal-Bench 2.1 | 52.5 | 70.8 | +18.3 |
| DeepSWE | 6.0 | 23.0 | +17.0 |
| Apex | 9.4 | 29.2 | +19.8 |
| HLE | 28.7 | 36.5 | +7.8 |
| IMOAnswerBench | 80.9 | 89.5 | +8.6 |
| SWE-Bench Multilingual | 69.3 | 77.0 | +7.7 |
### 與頂級模型對比
在多語言基準(MMMLU、MMLU-ProX)上,Rio 3.5 Open 397B 為所有模型中最強,超越 Qwen 3.7 Plus、DeepSeek V4 Pro、Kimi-K2.6。
## SwiReasoning 技術
整合 Shi et al. (2025) 的 SwiReasoning 框架(ArXiv: 2510.05069),動態切換推理模式:
- **顯性推理(Explicit)**:標準 chain-of-thought,自然語言推理
- **隱性推理(Latent)**:在隱藏空間中同時探索多條推理路徑,不產生 token
- **切換機制**:由下一個 token 分佈的熵值趨勢判斷信心水準
- 信心低(熵值上升)→ 進入隱性模式探索替代路徑
- 信心恢復 → 切回顯性模式提交解答
效果:在無限預算下達到更高準確率,在有限預算下大幅提升 token 效率。
## 模型國籍的思考:Finetune Qwen 是否等於變成巴西模型?
這是本次模型釋出引發的核心討論。
### 技術層面:骨子裡還是 Qwen
- 架構、tokenizer、大部分權重來自 Qwen 3.5 397B
- 17B active / 397B total 的 MoE 配比是 Qwen 定的
- 做的是 post-training(SFT/RL),不是從頭 pretrain
- 模型的世界知識基盤大部分仍是 Qwen 的 pretraining 成果
### 訓練資料層面:加了巴西視角
- OP 提到使用 SUS(巴西全民健保系統)的資料,這是全球最大的免費健保系統
- 多語言 benchmark 表現特別強,說明 post-training 強化了葡語和多語能力
- 但相對 Qwen 龐大的 pretraining corpus,post-training 資料量是「薄薄一層」
### 開源的意義
OP 明確表示:「To advance and democratize science is the duty of all governments, great or small.」
中國花數十億美金 pretrain 一個 SOTA 模型然後開源,巴西市政府拿這個模型用相對少的資源做 post-training,就產出跟 Qwen 3.7 Plus 打平的模型。這證明:**開源把最貴的 pretrain 成本公共化了**,後來者可以用小得多的成本站在巨人肩膀上。
### 結論
嚴格來說,Rio 3.5 更像是「Qwen 的巴西定製版」而非「巴西原生模型」。但在開源生態中,這種歸屬問題越來越沒意義 — 一旦以 MIT 釋出,誰都可以用,用完就是你的。模型的國籍在開源時代正在消解。
## 台灣的機會:用台灣資料 Finetune 同一個模型需要多少 GPU?
### Full Fine-Tuning(重現 Rio 等級成果)
Full fine-tuning 397B MoE 模型的記憶體需求:
| 項目 | 容量 |
|------|------|
| 權重 (BF16) | 794 GB |
| 優化器動量 (FP32) | 1,588 GB |
| 優化器方差 (FP32) | 1,588 GB |
| FP32 主副本 | 1,588 GB |
| 梯度 (BF16) | 794 GB |
| **模型狀態總計** | **~6,752 GB** |
| + Activations | 視 batch size,需 gradient checkpointing |
以 B200(192 GB HBM3e per GPU)計算:
| GPU 數量 | 每卡負擔 | 可行性 |
|----------|---------|--------|
| 8x B200 | 844 GB/GPU | 不夠 |
| 32x B200 | 211 GB/GPU | 極緊,需重 checkpoint |
| 40x B200 | 169 GB/GPU | 勉強可行 |
| **48x B200** | **141 GB/GPU** | **建議規模** |
### QLoRA / LoRA(務實路線)
| 項目 | 容量 |
|------|------|
| 基底模型 4-bit 量化 | ~200 GB total |
| LoRA adapters(1-5% 參數)| 8-40 GB |
| 優化器 + 梯度 | 很小 |
| **8x B200 即綽綽有餘** | |
### 建議方案
**Phase 1 — QLoRA Post-Training(8x B200,現有硬體)**
- 用台灣資料做 SFT(法律、醫療、在地知識、繁中強化)
- 用 GRPO/DPO 做 RL alignment
- 成本:現有硬體,接近零額外成本
**Phase 2 — 若成果好,再評估 Full Fine-Tuning**
- 租雲端 B200 cluster,5-6 節點 x 8 B200
- 跑 2-3 週 post-training
- 比 pretrain 便宜數個數量級
### 台灣的獨特優勢
- **健保資料**:與巴西 SUS 類似,台灣健保資料同樣完整且統一
- **半導體/科技領域知識**:全球最密集的晶圓代工生態系
- **多語環境**:繁中 + 英 + 日,特別適合東亞市場
- **法規體系**:台灣法律資料可用於法務 AI
### 台灣的挑戰
- 資料量和多樣性不如中國 + 葡語 + 英文的全量資料
- 需要證明「台灣資料」能帶來具體 benchmark 提升
- QLoRA 在特定任務(如醫療、法律)效果好,但跨領域全面提升需 full FT
## 社群反應與觀察
- Reddit 236 點讚(97% upvote),65 則留言
- 驚訝巴西市政府能做出競爭力模型
- 興奮全球化可能性(巴西政府 finetune 中國開源模型)
- 爭論 open source vs open weights(訓練資料未公開)
- 被認為可能是第一個真正的拉丁美洲 LLM
- OP 透露規劃未來幾個月釋出 100+ 開源模型
- 社群強烈要求 27B 版本
## 總結
Rio-3.5-Open-397B 證明了開源模型生態的強大:任何有適當資源的組織,都可以站在巨人的肩膀上,用相對少的成本打造自己的 SOTA 模型。對台灣而言,這條路同樣可行 — QLoRA 用 8x B200 就能開始,先驗證台灣資料的價值,再決定是否投入更大規模的 full fine-tuning。
模型的國籍正在消解,重要的是資料、應用場景、以及你願意投入多少心力在上面。
---
*THU LLM API 平台 · 管理助手 YUI · 2026-06-15*