노트북 · Apple Silicon

오픈 모델 대결 — Qwen 3.5 vs Gemma 4

당신의 하드웨어에서 Gemma 4 31BGemma 4 26B-A4B가 여유롭게 실행 가능한 최고 성능 모델입니다. Qwen3.5-122B-A10B가 맞는 가장 큰 모델이며 tool-calling 최강. 대형 모델(Kimi, GLM-5, DeepSeek)은 일부 카테고리에서 리드——하지만 대부분 API 전용.

14 모델 수
7 패밀리
18 벤치마크
5 GB–500 GB Q4 범위
내 RAM:

벤치마크 점수

모든 모델에 Q4 크기와 선택한 RAM에 대한 적합성 표시. 각 벤치마크 최고점은 금색 표시.

추론 및 지식

모델MMLU-ProGPQA DiamondBigBench-EHIFBench
GLM-5~370GB Q487.186
Qwen3.5-27B~15GB Q486.185.5
Gemma 4 31B~20GB Q485.284.374.4
Gemma 4 26B-A4B~18GB Q482.682.364.8
Qwen3.5-9B~5.1GB Q482.581.7
GPT-oss 120B~60GB Q480.880.1
Qwen3.5-397B-A17B~199GB Q488.476.5
Kimi K2.5~500GB Q487.694
DeepSeek V3.2~340GB Q479.9

수학

모델AIME 2025/2026MATH-500HMMT Feb 2025
Kimi K2.5~500GB Q496.1(AIME 2025)98
GLM-5~370GB Q495.7(AIME 2025)
Qwen3.5-397B-A17B~199GB Q491.3(AIME 2026)
DeepSeek V3.2~340GB Q489.3(AIME 2025)
Gemma 4 31B~20GB Q489.2(AIME 2026)
Gemma 4 26B-A4B~18GB Q488.3(AIME 2026)
Gemma 4 E4B~5GB Q442.5(AIME 2026)
Qwen3.5-9B~5.1GB Q483.2

코딩

모델LiveCodeBench v6SWE-benchHumanEvalCodeforces ELOTerminal-Bench 2.0
MiMo-V2-Flash~155GB Q48773.4
Kimi K2.5~500GB Q48576.899
Qwen3.5-397B-A17B~199GB Q483.676.452.5
Qwen3.5-9B~5.1GB Q482.7
Gemma 4 31B~20GB Q4802150
Gemma 4 26B-A4B~18GB Q477.11718
GLM-5~370GB Q45277.8

비전 / 멀티모달

모델MMMUMMMU-ProMathVisionOmniDocBench
Qwen3.5-397B-A17B~199GB Q48588.690.8
Gemma 4 31B~20GB Q476.985.6
Gemma 4 26B-A4B~18GB Q473.882.4
Qwen3.5-9B~5.1GB Q470.1

에이전트

모델Tau2-BenchBrowseCompBFCL-V4 (Tool Use)
Qwen3.5-397B-A17B~199GB Q486.778.6
Qwen3.5-122B-A10B~65GB Q472.2
벤치마크 버전 주의: Qwen 3.5와 Gemma 4는 AIME 2026 / LiveCodeBench v6 기준. Kimi K2.5, GLM, DeepSeek는 AIME 2025 / 이전 버전 기준이 많음. 패밀리 간 비교는 참고용.

128 GB 하드웨어에서 Qwen3.5-122B-A10B이 맞는 최고 성능 모델입니다(~65 GB Q4). Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash이 일부 카테고리에서 리드하지만 128 GB에서는 API 전용입니다.

멀티 에이전트 조합: Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB. KV 캐시와 OS에 88 GB 여유. 최고 성능: Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash API 경유.

벤치마크 데이터는 2026년 4월 공식 모델 논문, Artificial Analysis, LMSYS Arena에서 수집. Qwen 3.5와 Gemma 4는 AIME 2026 / LiveCodeBench v6 기준. Kimi K2.5, GLM, DeepSeek는 AIME 2025 / 이전 버전 기준. 패밀리 간 비교는 참고용.