What is the best local model for: 전체 최고 로컬 모델?

Gemma 4 31B. AIME 89.2, GPQA 84.3, Codeforces 2150

What is the best local model for: 가장 빠른 고품질 추론?

Gemma 4 26B-A4B. 31B 품질의 97%, M 시리즈에서 ~300 t/s

What is the best local model for: 최고의 tool/함수 호출?

Qwen3.5-122B-A10B. BFCL-V4: 72.2 — GPT-5 mini를 30% 앞섬

What is the best local model for: 최고의 10B 이하 모델 (서브 에이전트)?

Qwen3.5-9B. 13배 더 큰 GPT-oss-120B를 앞섬

What is the best local model for: 최고의 다국어 / CJK?

Qwen3.5-27B. 25만 vocab, 201개 언어, 최강 광동어

What is the best local model for: 가장 빠른 프로토타이핑?

Qwen3.5-35B-A3B. 활성 3B = 초고속; 이전 세대 235B 능가

What is the best local model for: 오디오 / 음성 입력?

Gemma 4 E4B. 네이티브 오디오를 지원하는 유일한 오픈 모델

What is the best local model for: 파인튜닝 기반 모델?

Gemma 4 31B. Dense = QLoRA 커스터마이징에 최적

What is the best API model for: 최고의 비전/문서?

Qwen3.5-397B-A17B. MMMU 85, OmniDoc 90.8, MathVision 88.6

What is the best API model for: 최고의 순수 코딩?

Kimi K2.5. HumanEval 99%, 무료 API 티어

What is the best API model for: 최고의 SWE-bench?

GLM-5. SWE-bench 77.8% — 오픈 모델 1위

What is the best API model for: 가장 저렴한 프론티어?

DeepSeek V3.2. $0.28/M, 프론티어급 추론

What is the best API model for: 가장 저렴한 코딩?

MiMo-V2-Flash. $0.10/M, LCB 87%, 에이전트 최적화

What is the best API model for: 최대 컨텍스트 (1,000만 토큰)?

Llama 4 Scout. 1,000만 토큰 — 압도적 1위

오픈 모델 대결 — Qwen 3.5 vs Gemma 4

내 RAM:

벤치마크 점수

모든 모델에 Q4 크기와 선택한 RAM에 대한 적합성 표시. 각 벤치마크 최고점은 금색 표시.

추론 및 지식

모델	MMLU-Pro	GPQA Diamond	BigBench-EH	IFBench
GLM-5~370GB Q4	87.1	86	—	—
Qwen3.5-27B~15GB Q4	86.1	85.5	—	—
Gemma 4 31B~20GB Q4	85.2	84.3	74.4	—
Gemma 4 26B-A4B~18GB Q4	82.6	82.3	64.8	—
Qwen3.5-9B~5.1GB Q4	82.5	81.7	—	—
GPT-oss 120B~60GB Q4	80.8	80.1	—	—
Qwen3.5-397B-A17B~199GB Q4	—	88.4	—	76.5
Kimi K2.5~500GB Q4	—	87.6	—	94
DeepSeek V3.2~340GB Q4	—	79.9	—	—

수학

모델	AIME 2025/2026	MATH-500	HMMT Feb 2025
Kimi K2.5~500GB Q4	96.1(AIME 2025)	98	—
GLM-5~370GB Q4	95.7(AIME 2025)	—	—
Qwen3.5-397B-A17B~199GB Q4	91.3(AIME 2026)	—	—
DeepSeek V3.2~340GB Q4	89.3(AIME 2025)	—	—
Gemma 4 31B~20GB Q4	89.2(AIME 2026)	—	—
Gemma 4 26B-A4B~18GB Q4	88.3(AIME 2026)	—	—
Gemma 4 E4B~5GB Q4	42.5(AIME 2026)	—	—
Qwen3.5-9B~5.1GB Q4	—	—	83.2

코딩

모델	LiveCodeBench v6	SWE-bench	HumanEval	Codeforces ELO	Terminal-Bench 2.0
MiMo-V2-Flash~155GB Q4	87	73.4	—	—	—
Kimi K2.5~500GB Q4	85	76.8	99	—	—
Qwen3.5-397B-A17B~199GB Q4	83.6	76.4	—	—	52.5
Qwen3.5-9B~5.1GB Q4	82.7	—	—	—	—
Gemma 4 31B~20GB Q4	80	—	—	2150	—
Gemma 4 26B-A4B~18GB Q4	77.1	—	—	1718	—
GLM-5~370GB Q4	52	77.8	—	—	—

비전 / 멀티모달

모델	MMMU	MMMU-Pro	MathVision	OmniDocBench
Qwen3.5-397B-A17B~199GB Q4	85	—	88.6	90.8
Gemma 4 31B~20GB Q4	—	76.9	85.6	—
Gemma 4 26B-A4B~18GB Q4	—	73.8	82.4	—
Qwen3.5-9B~5.1GB Q4	—	70.1	—	—

에이전트

모델	Tau2-Bench	BrowseComp	BFCL-V4 (Tool Use)
Qwen3.5-397B-A17B~199GB Q4	86.7	78.6	—
Qwen3.5-122B-A10B~65GB Q4	—	—	72.2

벤치마크 버전 주의: Qwen 3.5와 Gemma 4는 AIME 2026 / LiveCodeBench v6 기준. Kimi K2.5, GLM, DeepSeek는 AIME 2025 / 이전 버전 기준이 많음. 패밀리 간 비교는 참고용.

128 GB 하드웨어에서 Qwen3.5-122B-A10B이 맞는 최고 성능 모델입니다(~65 GB Q4). Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash이 일부 카테고리에서 리드하지만 128 GB에서는 API 전용입니다.

멀티 에이전트 조합: Qwen3.5-27B + Gemma 4 31B + Qwen3.5-9B = ~40 GB. KV 캐시와 OS에 88 GB 여유. 최고 성능: Kimi K2.5, Qwen3.5-397B-A17B, MiMo-V2-Flash API 경유.

벤치마크 데이터는 2026년 4월 공식 모델 논문, Artificial Analysis, LMSYS Arena에서 수집. Qwen 3.5와 Gemma 4는 AIME 2026 / LiveCodeBench v6 기준. Kimi K2.5, GLM, DeepSeek는 AIME 2025 / 이전 버전 기준. 패밀리 간 비교는 참고용.