你的 RAM:
跑分成績
每個模型標示 Q4 大小與你的 RAM 容量指標。每項跑分最高分以金色標示。
推理與知識
| 模型 | MMLU-Pro | GPQA Diamond | BigBench-EH | IFBench |
|---|
| GLM-5~370GB Q4 | 87.1 | 86 | — | — |
| Qwen3.5-27B~15GB Q4 | 86.1 | 85.5 | — | — |
| Gemma 4 31B~20GB Q4 | 85.2 | 84.3 | 74.4 | — |
| Gemma 4 26B-A4B~18GB Q4 | 82.6 | 82.3 | 64.8 | — |
| Qwen3.5-9B~5.1GB Q4 | 82.5 | 81.7 | — | — |
| GPT-oss 120B~60GB Q4 | 80.8 | 80.1 | — | — |
| Qwen3.5-397B-A17B~199GB Q4 | — | 88.4 | — | 76.5 |
| Kimi K2.5~500GB Q4 | — | 87.6 | — | 94 |
| DeepSeek V3.2~340GB Q4 | — | 79.9 | — | — |
數學
| 模型 | AIME 2025/2026 | MATH-500 | HMMT Feb 2025 |
|---|
| Kimi K2.5~500GB Q4 | 96.1(AIME 2025) | 98 | — |
| GLM-5~370GB Q4 | 95.7(AIME 2025) | — | — |
| Qwen3.5-397B-A17B~199GB Q4 | 91.3(AIME 2026) | — | — |
| DeepSeek V3.2~340GB Q4 | 89.3(AIME 2025) | — | — |
| Gemma 4 31B~20GB Q4 | 89.2(AIME 2026) | — | — |
| Gemma 4 26B-A4B~18GB Q4 | 88.3(AIME 2026) | — | — |
| Gemma 4 E4B~5GB Q4 | 42.5(AIME 2026) | — | — |
| Qwen3.5-9B~5.1GB Q4 | — | — | 83.2 |
程式
| 模型 | LiveCodeBench v6 | SWE-bench | HumanEval | Codeforces ELO | Terminal-Bench 2.0 |
|---|
| MiMo-V2-Flash~155GB Q4 | 87 | 73.4 | — | — | — |
| Kimi K2.5~500GB Q4 | 85 | 76.8 | 99 | — | — |
| Qwen3.5-397B-A17B~199GB Q4 | 83.6 | 76.4 | — | — | 52.5 |
| Qwen3.5-9B~5.1GB Q4 | 82.7 | — | — | — | — |
| Gemma 4 31B~20GB Q4 | 80 | — | — | 2150 | — |
| Gemma 4 26B-A4B~18GB Q4 | 77.1 | — | — | 1718 | — |
| GLM-5~370GB Q4 | 52 | 77.8 | — | — | — |
視覺 / 多模態
| 模型 | MMMU | MMMU-Pro | MathVision | OmniDocBench |
|---|
| Qwen3.5-397B-A17B~199GB Q4 | 85 | — | 88.6 | 90.8 |
| Gemma 4 31B~20GB Q4 | — | 76.9 | 85.6 | — |
| Gemma 4 26B-A4B~18GB Q4 | — | 73.8 | 82.4 | — |
| Qwen3.5-9B~5.1GB Q4 | — | 70.1 | — | — |
代理能力
| 模型 | Tau2-Bench | BrowseComp | BFCL-V4 (Tool Use) |
|---|
| Qwen3.5-397B-A17B~199GB Q4 | 86.7 | 78.6 | — |
| Qwen3.5-122B-A10B~65GB Q4 | — | — | 72.2 |
跑分版本提醒: Qwen 3.5 和 Gemma 4 使用 AIME 2026 / LiveCodeBench v6。Kimi K2.5、GLM、DeepSeek 多使用 AIME 2025 / 較早版本。跨家族比較僅供參考。
在你的 128 GB 硬體上,Qwen3.5-122B-A10B 是能放下的最強模型(~65 GB Q4)。 Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash 在部分項目領先,但在 128 GB 下只能用 API。
多模型組合:Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB。剩餘 88 GB 給 KV caches 和作業系統。 追求極限效能:Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash,透過 API。
跑分數據於 2026 年 4 月彙整自官方模型論文、Artificial Analysis 和 LMSYS Arena。Qwen 3.5 和 Gemma 4 使用 AIME 2026 / LiveCodeBench v6。Kimi K2.5、GLM、DeepSeek 使用 AIME 2025 / 較早版本。跨家族比較僅供參考。