What is the best local model for: 最佳整體本地模型?

Gemma 4 31B. AIME 89.2, GPQA 84.3, Codeforces 2150

What is the best local model for: 最快高品質推理?

Gemma 4 26B-A4B. 97% 的 31B 品質，M 系列上約 300 t/s

What is the best local model for: 最強工具／函式呼叫?

Qwen3.5-122B-A10B. BFCL-V4：72.2 — 比 GPT-5 mini 高 30%

What is the best local model for: 最強 10B 以下（輔助代理）?

Qwen3.5-9B. 超越體積大 13 倍的 GPT-oss-120B

What is the best local model for: 最強多語言／CJK?

Qwen3.5-27B. 250K 詞彙表、201 種語言、最強粵語

What is the best local model for: 最快原型開發?

Qwen3.5-35B-A3B. 3B 活躍參數 = 極速；超越上一代 235B

What is the best local model for: 音訊／語音輸入?

Gemma 4 E4B. 唯一具備原生音訊的開源模型

What is the best local model for: 微調基礎模型?

Gemma 4 31B. 密集型 = 最適合 QLoRA 客製化

What is the best API model for: 最強視覺／文件處理?

Qwen3.5-397B-A17B. MMMU 85, OmniDoc 90.8, MathVision 88.6

What is the best API model for: 最強純程式碼?

Kimi K2.5. HumanEval 99%，提供免費 API 方案

What is the best API model for: 最強 SWE-bench?

GLM-5. SWE-bench 77.8% — 開源模型第一

What is the best API model for: 最低廉前沿模型?

DeepSeek V3.2. $0.28/M，前沿推理能力

What is the best API model for: 最低廉程式碼 API?

MiMo-V2-Flash. $0.10/M、LCB 87%，專為代理設計

What is the best API model for: 最大上下文（10M）?

Llama 4 Scout. 10M tokens — 遠超其他所有模型

開源模型大對決 — Qwen 3.5 vs Gemma 4

你的 RAM：

跑分成績

每個模型標示 Q4 大小與你的 RAM 容量指標。每項跑分最高分以金色標示。

推理與知識

模型	MMLU-Pro	GPQA Diamond	BigBench-EH	IFBench
GLM-5~370GB Q4	87.1	86	—	—
Qwen3.5-27B~15GB Q4	86.1	85.5	—	—
Gemma 4 31B~20GB Q4	85.2	84.3	74.4	—
Gemma 4 26B-A4B~18GB Q4	82.6	82.3	64.8	—
Qwen3.5-9B~5.1GB Q4	82.5	81.7	—	—
GPT-oss 120B~60GB Q4	80.8	80.1	—	—
Qwen3.5-397B-A17B~199GB Q4	—	88.4	—	76.5
Kimi K2.5~500GB Q4	—	87.6	—	94
DeepSeek V3.2~340GB Q4	—	79.9	—	—

數學

模型	AIME 2025/2026	MATH-500	HMMT Feb 2025
Kimi K2.5~500GB Q4	96.1(AIME 2025)	98	—
GLM-5~370GB Q4	95.7(AIME 2025)	—	—
Qwen3.5-397B-A17B~199GB Q4	91.3(AIME 2026)	—	—
DeepSeek V3.2~340GB Q4	89.3(AIME 2025)	—	—
Gemma 4 31B~20GB Q4	89.2(AIME 2026)	—	—
Gemma 4 26B-A4B~18GB Q4	88.3(AIME 2026)	—	—
Gemma 4 E4B~5GB Q4	42.5(AIME 2026)	—	—
Qwen3.5-9B~5.1GB Q4	—	—	83.2

程式

模型	LiveCodeBench v6	SWE-bench	HumanEval	Codeforces ELO	Terminal-Bench 2.0
MiMo-V2-Flash~155GB Q4	87	73.4	—	—	—
Kimi K2.5~500GB Q4	85	76.8	99	—	—
Qwen3.5-397B-A17B~199GB Q4	83.6	76.4	—	—	52.5
Qwen3.5-9B~5.1GB Q4	82.7	—	—	—	—
Gemma 4 31B~20GB Q4	80	—	—	2150	—
Gemma 4 26B-A4B~18GB Q4	77.1	—	—	1718	—
GLM-5~370GB Q4	52	77.8	—	—	—

視覺 / 多模態

模型	MMMU	MMMU-Pro	MathVision	OmniDocBench
Qwen3.5-397B-A17B~199GB Q4	85	—	88.6	90.8
Gemma 4 31B~20GB Q4	—	76.9	85.6	—
Gemma 4 26B-A4B~18GB Q4	—	73.8	82.4	—
Qwen3.5-9B~5.1GB Q4	—	70.1	—	—

代理能力

模型	Tau2-Bench	BrowseComp	BFCL-V4 (Tool Use)
Qwen3.5-397B-A17B~199GB Q4	86.7	78.6	—
Qwen3.5-122B-A10B~65GB Q4	—	—	72.2

跑分版本提醒： Qwen 3.5 和 Gemma 4 使用 AIME 2026 / LiveCodeBench v6。Kimi K2.5、GLM、DeepSeek 多使用 AIME 2025 / 較早版本。跨家族比較僅供參考。

在你的 128 GB 硬體上，Qwen3.5-122B-A10B 是能放下的最強模型（~65 GB Q4）。 Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash 在部分項目領先，但在 128 GB 下只能用 API。

多模型組合：Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB。剩餘 88 GB 給 KV caches 和作業系統。追求極限效能：Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash，透過 API。

跑分數據於 2026 年 4 月彙整自官方模型論文、Artificial Analysis 和 LMSYS Arena。Qwen 3.5 和 Gemma 4 使用 AIME 2026 / LiveCodeBench v6。Kimi K2.5、GLM、DeepSeek 使用 AIME 2025 / 較早版本。跨家族比較僅供參考。