What is the best local model for: 綜合最強本地模型?

Gemma 4 31B. AIME 89.2, GPQA 84.3, Codeforces 2150

What is the best local model for: 最快高質推理?

Gemma 4 26B-A4B. 達 31B 97% 質素，M 系列晶片約 ~300 t/s

What is the best local model for: 最強 tool/function calling?

Qwen3.5-122B-A10B. BFCL-V4：72.2 — 比 GPT-5 mini 高 30%

What is the best local model for: 10B 以下最強（子 agent）?

Qwen3.5-9B. 擊敗大 13 倍嘅 GPT-oss-120B

What is the best local model for: 最強多語言 / CJK?

Qwen3.5-27B. 25 萬詞彙量、201 種語言、最強粵語

What is the best local model for: 最快原型開發?

Qwen3.5-35B-A3B. 3B 活躍參數 = 推理飛快；超越上代 235B

What is the best local model for: 音訊 / 語音輸入?

Gemma 4 E4B. 唯一原生支援音訊嘅開源模型

What is the best local model for: 微調基礎模型?

Gemma 4 31B. Dense 架構 = 最適合 QLoRA 自定義

What is the best API model for: 最強視覺/文件?

Qwen3.5-397B-A17B. MMMU 85, OmniDoc 90.8, MathVision 88.6

What is the best API model for: 最強純編程?

Kimi K2.5. HumanEval 99%，提供免費 API 層級

What is the best API model for: 最強 SWE-bench?

GLM-5. SWE-bench 77.8% — 開源模型第一

What is the best API model for: 最平價前沿模型?

DeepSeek V3.2. $0.28/M，前沿推理能力

What is the best API model for: 最平價編程模型?

MiMo-V2-Flash. $0.10/M、LCB 87%、專為 agent 而設

What is the best API model for: 最長上下文（1000 萬）?

Llama 4 Scout. 1000 萬 token — 其他模型遠遠不及

開源模型大比拼 — Qwen 3.5 vs Gemma 4

你嘅 RAM：

跑分成績

每個模型標示 Q4 大小同你嘅 RAM 容量指標。每項跑分最高分以金色標示。

推理同知識

模型	MMLU-Pro	GPQA Diamond	BigBench-EH	IFBench
GLM-5~370GB Q4	87.1	86	—	—
Qwen3.5-27B~15GB Q4	86.1	85.5	—	—
Gemma 4 31B~20GB Q4	85.2	84.3	74.4	—
Gemma 4 26B-A4B~18GB Q4	82.6	82.3	64.8	—
Qwen3.5-9B~5.1GB Q4	82.5	81.7	—	—
GPT-oss 120B~60GB Q4	80.8	80.1	—	—
Qwen3.5-397B-A17B~199GB Q4	—	88.4	—	76.5
Kimi K2.5~500GB Q4	—	87.6	—	94
DeepSeek V3.2~340GB Q4	—	79.9	—	—

數學

模型	AIME 2025/2026	MATH-500	HMMT Feb 2025
Kimi K2.5~500GB Q4	96.1(AIME 2025)	98	—
GLM-5~370GB Q4	95.7(AIME 2025)	—	—
Qwen3.5-397B-A17B~199GB Q4	91.3(AIME 2026)	—	—
DeepSeek V3.2~340GB Q4	89.3(AIME 2025)	—	—
Gemma 4 31B~20GB Q4	89.2(AIME 2026)	—	—
Gemma 4 26B-A4B~18GB Q4	88.3(AIME 2026)	—	—
Gemma 4 E4B~5GB Q4	42.5(AIME 2026)	—	—
Qwen3.5-9B~5.1GB Q4	—	—	83.2

寫 Code

模型	LiveCodeBench v6	SWE-bench	HumanEval	Codeforces ELO	Terminal-Bench 2.0
MiMo-V2-Flash~155GB Q4	87	73.4	—	—	—
Kimi K2.5~500GB Q4	85	76.8	99	—	—
Qwen3.5-397B-A17B~199GB Q4	83.6	76.4	—	—	52.5
Qwen3.5-9B~5.1GB Q4	82.7	—	—	—	—
Gemma 4 31B~20GB Q4	80	—	—	2150	—
Gemma 4 26B-A4B~18GB Q4	77.1	—	—	1718	—
GLM-5~370GB Q4	52	77.8	—	—	—

視覺 / 多模態

模型	MMMU	MMMU-Pro	MathVision	OmniDocBench
Qwen3.5-397B-A17B~199GB Q4	85	—	88.6	90.8
Gemma 4 31B~20GB Q4	—	76.9	85.6	—
Gemma 4 26B-A4B~18GB Q4	—	73.8	82.4	—
Qwen3.5-9B~5.1GB Q4	—	70.1	—	—

代理能力

模型	Tau2-Bench	BrowseComp	BFCL-V4 (Tool Use)
Qwen3.5-397B-A17B~199GB Q4	86.7	78.6	—
Qwen3.5-122B-A10B~65GB Q4	—	—	72.2

跑分版本提醒： Qwen 3.5 同 Gemma 4 用 AIME 2026 / LiveCodeBench v6。Kimi K2.5、GLM、DeepSeek 多數用 AIME 2025 / 舊版本。跨家族比較只係參考。

喺你嘅 128 GB 硬件上，Qwen3.5-122B-A10B 係放得落嘅最強模型（~65 GB Q4）。 Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash 喺部分項目領先，但喺 128 GB 下只能用 API。

多模型組合：Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB。剩返 88 GB 畀 KV caches 同 OS。追求極限效能：Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash，透過 API。

跑分數據喺 2026 年 4 月彙整自官方模型論文、Artificial Analysis 同 LMSYS Arena。Qwen 3.5 同 Gemma 4 用 AIME 2026 / LiveCodeBench v6。Kimi K2.5、GLM、DeepSeek 用 AIME 2025 / 舊版本。跨家族比較只係參考。