What is the best local model for: 総合最強ローカルモデル?

Gemma 4 31B. AIME 89.2, GPQA 84.3, Codeforces 2150

What is the best local model for: 最高速の高品質推論?

Gemma 4 26B-A4B. 31B の97%の品質、Mシリーズで〜300 t/s

What is the best local model for: 最強ツール/関数コーリング?

Qwen3.5-122B-A10B. BFCL-V4: 72.2 — GPT-5 mini を30%上回る

What is the best local model for: 10B 以下最強（サブエージェント）?

Qwen3.5-9B. 13倍大きい GPT-oss-120B を上回る

What is the best local model for: 多言語 / CJK 最強?

Qwen3.5-27B. 250K 語彙、201言語対応、広東語最強

What is the best local model for: 最速プロトタイピング?

Qwen3.5-35B-A3B. アクティブ 3B = 超高速；前世代 235B を超える

What is the best local model for: オーディオ / 音声入力?

Gemma 4 E4B. ネイティブ音声入力を持つ唯一のオープンモデル

What is the best local model for: ファインチューニングベース?

Gemma 4 31B. Dense = QLoRA カスタマイズに最適

What is the best API model for: ビジョン/ドキュメント最強?

Qwen3.5-397B-A17B. MMMU 85, OmniDoc 90.8, MathVision 88.6

What is the best API model for: 純粋なコーディング最強?

Kimi K2.5. HumanEval 99%、無料APIティアあり

What is the best API model for: SWE-bench 最強?

GLM-5. SWE-bench 77.8% — オープンモデル第1位

What is the best API model for: 最安値フロンティア?

DeepSeek V3.2. $0.28/M、フロンティア級の推論

What is the best API model for: 最安値コーディング?

MiMo-V2-Flash. $0.10/M、LCB 87%、エージェント向け設計

What is the best API model for: 最大コンテキスト（10M）?

Llama 4 Scout. 10Mトークン — 他に並ぶものなし

オープンモデル対決 — Qwen 3.5 vs Gemma 4

あなたの RAM：

ベンチマークスコア

各モデルに Q4 サイズと選択した RAM に対するフィット指標を表示。各ベンチマークの最高スコアは金色で表示。

推論と知識

モデル	MMLU-Pro	GPQA Diamond	BigBench-EH	IFBench
GLM-5~370GB Q4	87.1	86	—	—
Qwen3.5-27B~15GB Q4	86.1	85.5	—	—
Gemma 4 31B~20GB Q4	85.2	84.3	74.4	—
Gemma 4 26B-A4B~18GB Q4	82.6	82.3	64.8	—
Qwen3.5-9B~5.1GB Q4	82.5	81.7	—	—
GPT-oss 120B~60GB Q4	80.8	80.1	—	—
Qwen3.5-397B-A17B~199GB Q4	—	88.4	—	76.5
Kimi K2.5~500GB Q4	—	87.6	—	94
DeepSeek V3.2~340GB Q4	—	79.9	—	—

数学

モデル	AIME 2025/2026	MATH-500	HMMT Feb 2025
Kimi K2.5~500GB Q4	96.1(AIME 2025)	98	—
GLM-5~370GB Q4	95.7(AIME 2025)	—	—
Qwen3.5-397B-A17B~199GB Q4	91.3(AIME 2026)	—	—
DeepSeek V3.2~340GB Q4	89.3(AIME 2025)	—	—
Gemma 4 31B~20GB Q4	89.2(AIME 2026)	—	—
Gemma 4 26B-A4B~18GB Q4	88.3(AIME 2026)	—	—
Gemma 4 E4B~5GB Q4	42.5(AIME 2026)	—	—
Qwen3.5-9B~5.1GB Q4	—	—	83.2

コーディング

モデル	LiveCodeBench v6	SWE-bench	HumanEval	Codeforces ELO	Terminal-Bench 2.0
MiMo-V2-Flash~155GB Q4	87	73.4	—	—	—
Kimi K2.5~500GB Q4	85	76.8	99	—	—
Qwen3.5-397B-A17B~199GB Q4	83.6	76.4	—	—	52.5
Qwen3.5-9B~5.1GB Q4	82.7	—	—	—	—
Gemma 4 31B~20GB Q4	80	—	—	2150	—
Gemma 4 26B-A4B~18GB Q4	77.1	—	—	1718	—
GLM-5~370GB Q4	52	77.8	—	—	—

ビジョン / マルチモーダル

モデル	MMMU	MMMU-Pro	MathVision	OmniDocBench
Qwen3.5-397B-A17B~199GB Q4	85	—	88.6	90.8
Gemma 4 31B~20GB Q4	—	76.9	85.6	—
Gemma 4 26B-A4B~18GB Q4	—	73.8	82.4	—
Qwen3.5-9B~5.1GB Q4	—	70.1	—	—

エージェント

モデル	Tau2-Bench	BrowseComp	BFCL-V4 (Tool Use)
Qwen3.5-397B-A17B~199GB Q4	86.7	78.6	—
Qwen3.5-122B-A10B~65GB Q4	—	—	72.2

ベンチマークバージョンの注意： Qwen 3.5 と Gemma 4 は AIME 2026 / LiveCodeBench v6 で報告。Kimi K2.5、GLM、DeepSeek は AIME 2025 / 旧版で報告が多い。ファミリー間の比較は参考程度に。

128 GB のハードウェアでは、Qwen3.5-122B-A10B が収まる最高性能モデルです（~65 GB Q4）。 Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash は一部カテゴリでリードしていますが、128 GB では API のみです。

マルチエージェント構成：Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB。残り 88 GB を KV キャッシュと OS に。最高性能を求めるなら：Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash（API 経由）。

ベンチマークデータは 2026 年 4 月に公式モデル論文、Artificial Analysis、LMSYS Arena から収集。Qwen 3.5 と Gemma 4 は AIME 2026 / LiveCodeBench v6 で報告。Kimi K2.5、GLM、DeepSeek は AIME 2025 / 旧版で報告。ファミリー間比較は参考程度。