あなたの RAM:
ベンチマークスコア
各モデルに Q4 サイズと選択した RAM に対するフィット指標を表示。各ベンチマークの最高スコアは金色で表示。
推論と知識
| モデル | MMLU-Pro | GPQA Diamond | BigBench-EH | IFBench |
|---|
| GLM-5~370GB Q4 | 87.1 | 86 | — | — |
| Qwen3.5-27B~15GB Q4 | 86.1 | 85.5 | — | — |
| Gemma 4 31B~20GB Q4 | 85.2 | 84.3 | 74.4 | — |
| Gemma 4 26B-A4B~18GB Q4 | 82.6 | 82.3 | 64.8 | — |
| Qwen3.5-9B~5.1GB Q4 | 82.5 | 81.7 | — | — |
| GPT-oss 120B~60GB Q4 | 80.8 | 80.1 | — | — |
| Qwen3.5-397B-A17B~199GB Q4 | — | 88.4 | — | 76.5 |
| Kimi K2.5~500GB Q4 | — | 87.6 | — | 94 |
| DeepSeek V3.2~340GB Q4 | — | 79.9 | — | — |
数学
| モデル | AIME 2025/2026 | MATH-500 | HMMT Feb 2025 |
|---|
| Kimi K2.5~500GB Q4 | 96.1(AIME 2025) | 98 | — |
| GLM-5~370GB Q4 | 95.7(AIME 2025) | — | — |
| Qwen3.5-397B-A17B~199GB Q4 | 91.3(AIME 2026) | — | — |
| DeepSeek V3.2~340GB Q4 | 89.3(AIME 2025) | — | — |
| Gemma 4 31B~20GB Q4 | 89.2(AIME 2026) | — | — |
| Gemma 4 26B-A4B~18GB Q4 | 88.3(AIME 2026) | — | — |
| Gemma 4 E4B~5GB Q4 | 42.5(AIME 2026) | — | — |
| Qwen3.5-9B~5.1GB Q4 | — | — | 83.2 |
コーディング
| モデル | LiveCodeBench v6 | SWE-bench | HumanEval | Codeforces ELO | Terminal-Bench 2.0 |
|---|
| MiMo-V2-Flash~155GB Q4 | 87 | 73.4 | — | — | — |
| Kimi K2.5~500GB Q4 | 85 | 76.8 | 99 | — | — |
| Qwen3.5-397B-A17B~199GB Q4 | 83.6 | 76.4 | — | — | 52.5 |
| Qwen3.5-9B~5.1GB Q4 | 82.7 | — | — | — | — |
| Gemma 4 31B~20GB Q4 | 80 | — | — | 2150 | — |
| Gemma 4 26B-A4B~18GB Q4 | 77.1 | — | — | 1718 | — |
| GLM-5~370GB Q4 | 52 | 77.8 | — | — | — |
ビジョン / マルチモーダル
| モデル | MMMU | MMMU-Pro | MathVision | OmniDocBench |
|---|
| Qwen3.5-397B-A17B~199GB Q4 | 85 | — | 88.6 | 90.8 |
| Gemma 4 31B~20GB Q4 | — | 76.9 | 85.6 | — |
| Gemma 4 26B-A4B~18GB Q4 | — | 73.8 | 82.4 | — |
| Qwen3.5-9B~5.1GB Q4 | — | 70.1 | — | — |
エージェント
| モデル | Tau2-Bench | BrowseComp | BFCL-V4 (Tool Use) |
|---|
| Qwen3.5-397B-A17B~199GB Q4 | 86.7 | 78.6 | — |
| Qwen3.5-122B-A10B~65GB Q4 | — | — | 72.2 |
ベンチマークバージョンの注意: Qwen 3.5 と Gemma 4 は AIME 2026 / LiveCodeBench v6 で報告。Kimi K2.5、GLM、DeepSeek は AIME 2025 / 旧版で報告が多い。ファミリー間の比較は参考程度に。
128 GB のハードウェアでは、Qwen3.5-122B-A10B が収まる最高性能モデルです(~65 GB Q4)。 Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash は一部カテゴリでリードしていますが、128 GB では API のみです。
マルチエージェント構成:Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB。残り 88 GB を KV キャッシュと OS に。 最高性能を求めるなら:Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash(API 経由)。
ベンチマークデータは 2026 年 4 月に公式モデル論文、Artificial Analysis、LMSYS Arena から収集。Qwen 3.5 と Gemma 4 は AIME 2026 / LiveCodeBench v6 で報告。Kimi K2.5、GLM、DeepSeek は AIME 2025 / 旧版で報告。ファミリー間比較は参考程度。