What is the best local model for: 综合最强本地模型?

Gemma 4 31B. AIME 89.2, GPQA 84.3, Codeforces 2150

What is the best local model for: 最快高质推理?

Gemma 4 26B-A4B. 97% 的 31B 水准，M 系芯片约 300 token/s

What is the best local model for: 最强工具/函数调用?

Qwen3.5-122B-A10B. BFCL-V4: 72.2 — 超越 GPT-5 mini 30%

What is the best local model for: 10B 以下最强（副智能体）?

Qwen3.5-9B. 击败体量大 13 倍的 GPT-oss-120B

What is the best local model for: 最强多语言 / CJK?

Qwen3.5-27B. 250K 词表，201 种语言，粤语最强

What is the best local model for: 最快原型开发?

Qwen3.5-35B-A3B. 3B 激活参数 = 推理飞快；超越上代 235B

What is the best local model for: 音频 / 语音输入?

Gemma 4 E4B. 唯一支持原生音频的开源模型

What is the best local model for: 微调基础模型?

Gemma 4 31B. 稠密架构 = 最适合 QLoRA 定制

What is the best API model for: 最强视觉/文档?

Qwen3.5-397B-A17B. MMMU 85, OmniDoc 90.8, MathVision 88.6

What is the best API model for: 最强纯编程?

Kimi K2.5. HumanEval 99%，提供免费 API 额度

What is the best API model for: 最强 SWE-bench?

GLM-5. SWE-bench 77.8% — 开源模型第一

What is the best API model for: 最便宜前沿模型?

DeepSeek V3.2. $0.28/M，具备前沿推理能力

What is the best API model for: 最便宜编程 API?

MiMo-V2-Flash. $0.10/M，LCB 87%，专为智能体设计

What is the best API model for: 最长上下文（10M）?

Llama 4 Scout. 1000 万 token — 无出其右

开源模型大对决 — Qwen 3.5 vs Gemma 4

你的 RAM：

跑分成绩

每个模型标示 Q4 大小与你的 RAM 容量指标。每项跑分最高分以金色标示。

推理与知识

模型	MMLU-Pro	GPQA Diamond	BigBench-EH	IFBench
GLM-5~370GB Q4	87.1	86	—	—
Qwen3.5-27B~15GB Q4	86.1	85.5	—	—
Gemma 4 31B~20GB Q4	85.2	84.3	74.4	—
Gemma 4 26B-A4B~18GB Q4	82.6	82.3	64.8	—
Qwen3.5-9B~5.1GB Q4	82.5	81.7	—	—
GPT-oss 120B~60GB Q4	80.8	80.1	—	—
Qwen3.5-397B-A17B~199GB Q4	—	88.4	—	76.5
Kimi K2.5~500GB Q4	—	87.6	—	94
DeepSeek V3.2~340GB Q4	—	79.9	—	—

数学

模型	AIME 2025/2026	MATH-500	HMMT Feb 2025
Kimi K2.5~500GB Q4	96.1(AIME 2025)	98	—
GLM-5~370GB Q4	95.7(AIME 2025)	—	—
Qwen3.5-397B-A17B~199GB Q4	91.3(AIME 2026)	—	—
DeepSeek V3.2~340GB Q4	89.3(AIME 2025)	—	—
Gemma 4 31B~20GB Q4	89.2(AIME 2026)	—	—
Gemma 4 26B-A4B~18GB Q4	88.3(AIME 2026)	—	—
Gemma 4 E4B~5GB Q4	42.5(AIME 2026)	—	—
Qwen3.5-9B~5.1GB Q4	—	—	83.2

编程

模型	LiveCodeBench v6	SWE-bench	HumanEval	Codeforces ELO	Terminal-Bench 2.0
MiMo-V2-Flash~155GB Q4	87	73.4	—	—	—
Kimi K2.5~500GB Q4	85	76.8	99	—	—
Qwen3.5-397B-A17B~199GB Q4	83.6	76.4	—	—	52.5
Qwen3.5-9B~5.1GB Q4	82.7	—	—	—	—
Gemma 4 31B~20GB Q4	80	—	—	2150	—
Gemma 4 26B-A4B~18GB Q4	77.1	—	—	1718	—
GLM-5~370GB Q4	52	77.8	—	—	—

视觉 / 多模态

模型	MMMU	MMMU-Pro	MathVision	OmniDocBench
Qwen3.5-397B-A17B~199GB Q4	85	—	88.6	90.8
Gemma 4 31B~20GB Q4	—	76.9	85.6	—
Gemma 4 26B-A4B~18GB Q4	—	73.8	82.4	—
Qwen3.5-9B~5.1GB Q4	—	70.1	—	—

代理能力

模型	Tau2-Bench	BrowseComp	BFCL-V4 (Tool Use)
Qwen3.5-397B-A17B~199GB Q4	86.7	78.6	—
Qwen3.5-122B-A10B~65GB Q4	—	—	72.2

跑分版本提醒： Qwen 3.5 和 Gemma 4 使用 AIME 2026 / LiveCodeBench v6。Kimi K2.5、GLM、DeepSeek 多使用 AIME 2025 / 较早版本。跨家族比较仅供参考。

在你的 128 GB 硬件上，Qwen3.5-122B-A10B 是能放下的最强模型（~65 GB Q4）。 Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash 在部分项目领先，但在 128 GB 下只能用 API。

多模型组合：Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB。剩余 88 GB 给 KV caches 和操作系统。追求极限性能：Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash，通过 API。

跑分数据于 2026 年 4 月汇整自官方模型论文、Artificial Analysis 和 LMSYS Arena。Qwen 3.5 和 Gemma 4 使用 AIME 2026 / LiveCodeBench v6。Kimi K2.5、GLM、DeepSeek 使用 AIME 2025 / 较早版本。跨家族比较仅供参考。