당신의 하드웨어에서 Gemma 4 31B와 Gemma 4 26B-A4B가 여유롭게 실행 가능한 최고 성능 모델입니다. Qwen3.5-122B-A10B가 맞는 가장 큰 모델이며 tool-calling 최강. 대형 모델(Kimi, GLM-5, DeepSeek)은 일부 카테고리에서 리드——하지만 대부분 API 전용.
14 모델 수
7 패밀리
18 벤치마크
5 GB–500 GB Q4 범위
내 RAM:
벤치마크 점수
모든 모델에 Q4 크기와 선택한 RAM에 대한 적합성 표시. 각 벤치마크 최고점은 금색 표시.
추론 및 지식
모델
MMLU-Pro
GPQA Diamond
BigBench-EH
IFBench
GLM-5~370GB Q4
87.1
86
—
—
Qwen3.5-27B~15GB Q4
86.1
85.5
—
—
Gemma 4 31B~20GB Q4
85.2
84.3
74.4
—
Gemma 4 26B-A4B~18GB Q4
82.6
82.3
64.8
—
Qwen3.5-9B~5.1GB Q4
82.5
81.7
—
—
GPT-oss 120B~60GB Q4
80.8
80.1
—
—
Qwen3.5-397B-A17B~199GB Q4
—
88.4
—
76.5
Kimi K2.5~500GB Q4
—
87.6
—
94
DeepSeek V3.2~340GB Q4
—
79.9
—
—
수학
모델
AIME 2025/2026
MATH-500
HMMT Feb 2025
Kimi K2.5~500GB Q4
96.1(AIME 2025)
98
—
GLM-5~370GB Q4
95.7(AIME 2025)
—
—
Qwen3.5-397B-A17B~199GB Q4
91.3(AIME 2026)
—
—
DeepSeek V3.2~340GB Q4
89.3(AIME 2025)
—
—
Gemma 4 31B~20GB Q4
89.2(AIME 2026)
—
—
Gemma 4 26B-A4B~18GB Q4
88.3(AIME 2026)
—
—
Gemma 4 E4B~5GB Q4
42.5(AIME 2026)
—
—
Qwen3.5-9B~5.1GB Q4
—
—
83.2
코딩
모델
LiveCodeBench v6
SWE-bench
HumanEval
Codeforces ELO
Terminal-Bench 2.0
MiMo-V2-Flash~155GB Q4
87
73.4
—
—
—
Kimi K2.5~500GB Q4
85
76.8
99
—
—
Qwen3.5-397B-A17B~199GB Q4
83.6
76.4
—
—
52.5
Qwen3.5-9B~5.1GB Q4
82.7
—
—
—
—
Gemma 4 31B~20GB Q4
80
—
—
2150
—
Gemma 4 26B-A4B~18GB Q4
77.1
—
—
1718
—
GLM-5~370GB Q4
52
77.8
—
—
—
비전 / 멀티모달
모델
MMMU
MMMU-Pro
MathVision
OmniDocBench
Qwen3.5-397B-A17B~199GB Q4
85
—
88.6
90.8
Gemma 4 31B~20GB Q4
—
76.9
85.6
—
Gemma 4 26B-A4B~18GB Q4
—
73.8
82.4
—
Qwen3.5-9B~5.1GB Q4
—
70.1
—
—
에이전트
모델
Tau2-Bench
BrowseComp
BFCL-V4 (Tool Use)
Qwen3.5-397B-A17B~199GB Q4
86.7
78.6
—
Qwen3.5-122B-A10B~65GB Q4
—
—
72.2
벤치마크 버전 주의: Qwen 3.5와 Gemma 4는 AIME 2026 / LiveCodeBench v6 기준. Kimi K2.5, GLM, DeepSeek는 AIME 2025 / 이전 버전 기준이 많음. 패밀리 간 비교는 참고용.
128 GB 하드웨어에서 Qwen3.5-122B-A10B이 맞는 최고 성능 모델입니다(~65 GB Q4). Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash이 일부 카테고리에서 리드하지만 128 GB에서는 API 전용입니다.
멀티 에이전트 조합: Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB. KV 캐시와 OS에 88 GB 여유. 최고 성능: Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash API 경유.
벤치마크 데이터는 2026년 4월 공식 모델 논문, Artificial Analysis, LMSYS Arena에서 수집. Qwen 3.5와 Gemma 4는 AIME 2026 / LiveCodeBench v6 기준. Kimi K2.5, GLM, DeepSeek는 AIME 2025 / 이전 버전 기준. 패밀리 간 비교는 참고용.