SWE-Bench Pro가 HumanEval보다 코딩 능력 측정에 더 정확한 이유는?

HumanEval은 LeetCode 스타일 단독 함수 문제를 푸는 능력이다. 실제 업무 코딩과 거리가 있다. SWE-Bench Pro는 실제 GitHub 오픈소스 프로젝트의 이슈를 주고 자율로 패치를 만들어 테스트를 통과시키는 과정을 측정한다. 기존 코드베이스 파악 → 원인 분석 → 수정 → 검증까지 전 과정이다. 현업 코딩 에이전트 성능과 훨씬 더 가깝다.

AI Trends2026-04-2715 min

GLM 5.1 vs Gemma 4: 직접 써봤다, 뭐가 다른가

Q: 두 모델 다 상업 프로젝트에 무료로 쓸 수 있나?

가중치 자체는 무료다. GLM-5.1은 MIT 라이선스, Gemma 4는 Apache 2.0이다. 둘 다 상업 제품에 내장 가능하다. API로 쓸 경우 GLM-5.1은 Z.ai API 요금(입력 $0.21/1M, 출력 $0.42/1M)이 발생한다. Gemma 4는 Google AI Studio 무료 티어(분당 60 요청, 하루 1,500 요청)를 먼저 쓸 수 있다.

Q: 한국어 장문 작업에는 어느 쪽이 낫나?

Gemma 4가 낫다. 140개 이상 언어를 공식 지원하며 한국어도 그 중 하나다. GLM-5.1은 중국어와 영어에 최적화됐지만 한국어도 실용 수준이다. 256K 컨텍스트를 제공하는 Gemma 4는 긴 한국어 문서 처리에도 유리하다. 코딩이 주 작업이라면 언어보다 SWE-Bench 수치가 더 중요하다.

Q: 두 모델을 함께 쓰는 게 의미 있나?

의미 있다. 코딩 에이전트·멀티스텝 버그 수정에는 GLM-5.1, 문서 처리·다국어 번역·이미지 분석·로컬 실행 워크플로우에는 Gemma 4를 쓰는 식이다. 역할을 나누면 각 모델의 강점이 살아난다. API 비용도 작업 유형별로 최적화할 수 있다.

GLM-5.1과 Gemma 4를 직접 비교했다. 코딩 성능(SWE-Bench), 로컬 실행, 라이선스, API 가격까지 항목별로 따졌다. 둘 다 오픈소스인데, 어디가 다른지 결론부터 말한다.

On this page (12)

1. 전체 비교 — 한눈에
2. GLM-5.1 — 코딩 특화 거대 오픈소스
3. Gemma 4 — 크기별 선택지와 멀티모달
4. 벤치마크 심층 비교
5. 코딩 성능 — SWE-Bench가 실전 기준이다
6. GLM-5.1 API 직접 호출
7. Gemma 4 API 호출 — Ollama와 Google AI Studio
8. 로컬 실행 현실 — 하드웨어 요구사항
9. 가격 비교 — 수치로 보면 달라진다
10. 용도별 추천
11. FAQ
12. 마무리

2026년 4월 · AI 소식

2026년 4월, 오픈소스 LLM 진영에서 두 모델이 동시에 주목받았다. Z.ai의 GLM-5.1과 Google DeepMind의 Gemma 4다. 둘 다 가중치 공개, 상업 라이선스 허용, 무료 또는 저렴한 API 제공. 겉으로 보면 비슷하다.

근데 성격이 전혀 다르다. GLM-5.1은 754B MoE 거대 모델로 SWE-Bench Pro 58.4를 찍었다. 당시 오픈소스 최고 수치였고, Claude Opus 4.6을 처음 넘어선 순간이었다. Gemma 4는 26B MoE로 상대적으로 작고, M1 맥북에서 Ollama로 돌아간다. 로컬 실행이 가능한 멀티모달 오픈소스다.

결론부터 말한다. 코딩 에이전트 만들 거라면 GLM-5.1이다. 로컬 실행이 필요하거나 범용 작업, 한국어 처리가 주라면 Gemma 4다. 이 글에서는 벤치마크 수치, API 코드, 가격, 하드웨어 요구사항을 항목별로 정리한다.

빠르게 보기

• GLM-5.1 — Z.ai, 754B MoE (40B active), MIT, 200K 컨텍스트, SWE-Bench Pro 58.4
• Gemma 4 — Google, 4B/12B/26B MoE/47B, Apache 2.0, 256K 컨텍스트, MMLU 85.2%
• 코딩 에이전트: GLM-5.1 우세 (SWE-Bench Pro 기준)
• 로컬 실행: Gemma 4만 현실적 (M1 맥북, 18GB RAM)
• API 가격: GLM-5.1 입력 $0.21/1M · Gemma 4 Google AI Studio 무료 티어
• 멀티모달: Gemma 4만 공식 지원 (텍스트 + 이미지)
• 다국어: Gemma 4 140개 언어 vs GLM-5.1 중국어·영어 강세
• 조합 전략: 코딩은 GLM-5.1 + 범용·로컬은 Gemma 4

전체 비교 — 한눈에
GLM-5.1 — 코딩 특화 거대 오픈소스
Gemma 4 — 크기별 선택지와 멀티모달
벤치마크 심층 비교
코딩 성능 — SWE-Bench가 실전 기준이다
GLM-5.1 API 직접 호출
Gemma 4 API 호출 — Ollama와 Google AI Studio
로컬 실행 현실 — 하드웨어 요구사항
가격 비교 — 수치로 보면 달라진다
용도별 추천
FAQ
마무리

귀찮은개발자 시리즈

오픈소스 LLM API로 코딩 에이전트를 직접 만든 개발기를 정리했다.

EP.03: AI 에이전트로 앱 성장을 자동화했다 →

1. 전체 비교 — 한눈에

두 모델의 핵심 스펙을 먼저 정리했다. 설계 목표 자체가 다르다는 걸 이해하고 나면 비교가 명확해진다.

항목	GLM-5.1	Gemma 4
개발사	Z.ai (구 Zhipu AI)	Google DeepMind
출시	2026년 4월	2026년 (Google DeepMind)
파라미터	754B MoE (40B active)	4B · 12B · 26B MoE (3.8B active) · 47B dense
컨텍스트	200K 토큰	256K 토큰
라이선스	MIT	Apache 2.0
SWE-Bench Pro	58.4 (오픈소스 당시 최고)	미공개
MMLU	~83%	85.2%
HumanEval	~82%+	~76%
GSM8K	~91%	—
멀티모달	제한적	텍스트 + 이미지 공식 지원
다국어	중국어·영어 강세	140개+ 언어 공식 지원
로컬 실행	A100 80GB × 4+ 서버급	M1 맥북 가능 (4-bit 18GB)
주력 영역	코딩 에이전트	범용·다국어·로컬·멀티모달

2. GLM-5.1 — 코딩 특화 거대 오픈소스

Z.ai가 2026년 4월 공개한 모델이다. 파라미터 총량 754B, MIT 라이선스, SWE-Bench Pro 58.4. 이 숫자 세 개가 GLM-5.1을 설명하는 핵심이다.

MoE(Mixture of Experts)는 레고 전문가 팀 구조다. 입력마다 적합한 전문가 네트워크만 골라서 처리한다. 전체 754B 지식을 갖고 있지만 추론 시 40B만 활성화된다. 연산 비용은 40B 수준인데 지식 폭은 754B에서 끌어쓰는 방식이다.

설계 목표가 long-horizon 에이전트 코딩이다. 수십 개 파일에 걸친 버그를 추적하고, 기존 코드베이스를 파악하고, 패치를 만들고, 테스트까지 통과시키는 멀티스텝 작업이다. 200K 컨텍스트는 이 용도에 맞게 맞춰졌다.

GLM-5.1 — 알아둘 사항
SWE-Bench Pro 58.4는 발표 당시 Claude Opus 4.6을 처음 넘어선 오픈소스 수치였다. 중국 서버 기반이므로 코드 데이터 처리 위치가 중요한 프로젝트는 데이터 유출 정책을 사전에 확인해야 한다. 개인 프로젝트나 내부 도구라면 무방하다.

3. Gemma 4 — 크기별 선택지와 멀티모달

Google DeepMind가 Apache 2.0으로 공개한 오픈소스 시리즈다. 4B, 12B, 26B MoE, 47B dense 총 네 가지 크기를 제공한다. 주력은 26B MoE다. 활성 파라미터 3.8B라서 추론이 가볍다.

로컬 실행이 핵심 강점이다. 26B MoE를 4-bit 양자화하면 18GB RAM이면 돌아간다. M1 맥북 이상에서 Ollama 명령어 하나로 5분 안에 설치된다. 데이터가 외부로 나가지 않는다는 점만으로도 특정 환경에서는 선택이 강제된다.

멀티모달을 공식 지원한다. 26B MoE 기준으로 텍스트와 이미지를 함께 입력받는다. 140개 이상 언어도 공식 지원한다. MMLU 85.2%, 256K 컨텍스트 — 종합 능력에서 균형 잡힌 모델이다. Google AI Studio에서 무료 티어로 바로 시작할 수 있다.

Gemma 4 크기별 선택 기준

4B — 라즈베리파이 수준 엣지 디바이스, 가장 가벼움
12B — 8GB VRAM GPU, 성능·경량 균형점
26B MoE — 맥북·일반 서버, 주력 추천 모델
47B dense — 고성능 서버, 최대 성능 필요 시

4. 벤치마크 심층 비교

벤치마크는 AI 모델의 수능이다. 표준화된 문제 세트로 능력을 측정한다. 점수가 높을수록 해당 능력이 강하다는 의미지만, 자신의 실제 사용 케이스와 반드시 일치하지 않는다.

벤치마크	GLM-5.1	Gemma 4 (26B)	측정 대상
SWE-Bench Pro	58.4	미공개	실제 GitHub 이슈 자율 해결
MMLU	~83%	85.2%	종합 지식 (수능 같은 것)
HumanEval	~82%+	~76%	코드 생성 정확도
GSM8K	~91%	—	초등 수학 추론
MATH	~70%	~72%	수학 추론 (대회 수준)
컨텍스트 윈도우	200K 토큰	256K 토큰	한 번에 처리 가능한 길이
다국어 지원	중국어·영어 강세	140개+ 언어	언어 커버리지

종합 지식은 Gemma 4가 소폭 앞선다. 코딩 에이전트 실전 능력은 GLM-5.1이 명확히 앞선다. 수학 추론에서 큰 차이는 없다. 컨텍스트 윈도우는 Gemma 4가 약간 더 길다.

5. 코딩 성능 — SWE-Bench가 실전 기준이다

코딩 AI를 고를 때 HumanEval만 보는 건 절반짜리 판단이다. HumanEval은 LeetCode 스타일 단독 함수를 푸는 능력이다. 실제 업무 코딩과 거리가 있다.

SWE-Bench Pro는 다르다. 실제 GitHub 오픈소스 프로젝트의 이슈를 주고 자율로 패치를 만들어 테스트를 통과시킨다. 기존 코드베이스 파악 → 원인 분석 → 수정 → 검증까지 전 과정이다. 면접관이 실제 회사 코드베이스를 주고 버그를 고쳐보라는 테스트와 같다.

GLM-5.1의 SWE-Bench Pro 58.4는 발표 당시 오픈소스 최고 수치였다. Gemma 4의 공식 SWE-Bench Pro 수치는 공개되지 않았다. HumanEval 76%는 코드 자동완성·스니펫 생성 능력이다. 이 둘은 측정하는 게 다르다.

코딩 성능 실전 판단 기준

멀티스텝 에이전트 코딩, 버그 추적·수정 → GLM-5.1
코드 자동완성, 단순 함수 생성 → Gemma 4도 충분
Python 외 언어(TypeScript, Go, Rust) → 실제 작업으로 직접 테스트 필수
SWE-Bench는 Python 오픈소스 편향 있음을 감안해야 함

6. GLM-5.1 API 직접 호출

Z.ai API는 OpenAI SDK와 호환된다. base_url과 api_key만 바꾸면 기존 코드가 그대로 동작한다. 아래는 실제로 돌아가는 Python 예시다.

# pip install openai

from openai import OpenAI

client = OpenAI(

    api_key="your-zhipu-api-key",

    base_url="https://open.bigmodel.cn/api/paas/v4/"

)

response = client.chat.completions.create(

    model="glm-5.1",

    messages=[

        {"role": "user", "content": "다음 Python 코드의 버그를 찾아서 수정해줘:\n\ndef find_max(lst):\n    max_val = 0\n    for x in lst:\n        if x > max_val:\n            max_val = x\n    return max_val"}

    ],

    max_tokens=2000,

    temperature=0.1

)

print(response.choices[0].message.content)

temperature=0.1로 낮게 설정한 이유가 있다. 코딩 작업은 창의성보다 정확성이 우선이다. 값을 높일수록 응답이 창의적이지만 코드 정합성이 떨어진다. 코드 생성·디버깅 작업에는 0.0~0.2 범위를 쓰는 게 맞다.

Z.ai API 키는 open.bigmodel.cn에서 발급받는다. 회원가입 후 API 키 페이지에서 생성된다. 유료지만 무료 크레딧이 초기에 제공된다.

7. Gemma 4 API 호출 — Ollama와 Google AI Studio

Gemma 4는 두 가지 경로가 있다. Ollama로 완전 로컬 실행하거나, Google AI Studio API를 쓰는 방식이다. 로컬을 먼저 보자.

# Ollama 설치 후 모델 다운로드

ollama pull gemma4:27b

# 대화형 실행

ollama run gemma4:27b

# OpenAI 호환 API 서버로 실행 (포트 11434)

ollama serve

# curl로 API 호출

curl http://localhost:11434/api/chat -d '{ "model": "gemma4:27b", "messages": [{"role": "user", "content": "다음 TypeScript 타입 에러를 수정해줘: Type string is not assignable to type number"}], "stream": false}'

로컬에서 실행하면 API 비용이 없다. 데이터도 외부로 나가지 않는다. 다운로드 후에는 인터넷 없이 오프라인으로 쓸 수 있다. 반응 속도는 클라우드 API보다 느릴 수 있다. M2 맥북 Pro 기준으로 토큰당 약 10~15 tokens/sec 수준이다.

Google AI Studio를 쓰면 클라우드 속도에 무료 티어까지 된다. 아래가 Python 예시다.

# pip install google-generativeai

import google.generativeai as genai

genai.configure(api_key="your-google-ai-studio-api-key")

model = genai.GenerativeModel("gemma-4-27b-it")

response = model.generate_content(

    "React 컴포넌트에서 useEffect 의존성 배열이 왜 필요한지 설명해줘. 실제 코드 예시도 포함해줘."

)

print(response.text)

Google AI Studio API 키는 aistudio.google.com에서 발급받는다. 무료 티어는 분당 60 요청, 하루 1,500 요청까지 허용된다. 소규모 프로토타입이라면 비용 없이 시작할 수 있다.

8. 로컬 실행 현실 — 하드웨어 요구사항

Gemma 4는 노트북에서 돌아간다. 26B MoE를 4-bit 양자화하면 약 18GB RAM이면 충분하다. M1 맥북 이상에서 Ollama로 5분 안에 설치된다. 실제로 돌려봤다. 응답이 클라우드보다 느리지만 데이터가 로컬에 머문다는 게 핵심 가치다.

GLM-5.1은 노트북에서 불가능하다고 보면 맞다. MoE 구조라 추론 연산은 40B 수준이지만, 전체 754B 가중치를 메모리에 올려야 한다. A100 80GB GPU 4장 이상 구성이 현실적인 최소치다. 이 구성의 비용은 월 수백만 원 이상이다. 개인 로컬은 포기하고 Z.ai API를 쓰는 게 낫다.

환경	GLM-5.1 가능?	Gemma 4 가능?
M1/M2 맥북 (16GB RAM)	불가	4B만 가능
M1/M2 맥북 (24GB RAM)	불가	26B MoE 가능
RTX 4090 (24GB VRAM)	불가	26B MoE 가능
A100 80GB × 1	불가	전 모델 가능
A100 80GB × 4+	가능	가능

로컬 실행이 조건이라면 Gemma 4만 현실적이다. GLM-5.1은 클라우드 API로만 접근하는 게 현실적인 선택이다.

9. 가격 비교 — 수치로 보면 달라진다

둘 다 라이선스 자체는 무료다. API로 쓸 때 비용이 발생한다. 아래는 공식 가격 기준이다.

항목	GLM-5.1 (Z.ai)	Gemma 4 (Google)
입력 (per 1M tokens)	$0.21	$0.25 (Vertex AI 27B)
출력 (per 1M tokens)	$0.42	$0.50 (Vertex AI 27B)
무료 티어	없음 (초기 크레딧)	Google AI Studio 분당 60 · 하루 1,500 요청
로컬 실행 비용	서버 인프라 고비용	맥북 수준 저비용
라이선스	MIT	Apache 2.0

API 단가는 GLM-5.1이 소폭 저렴하다. 입력 기준 $0.21 vs $0.25, 출력 기준 $0.42 vs $0.50이다. 대규모 코딩 에이전트처럼 토큰 소모가 많은 작업에서는 차이가 누적된다.

시뮬레이션으로 보자. 하루 100만 입력 토큰, 50만 출력 토큰을 쓰는 파이프라인이라면 GLM-5.1은 하루 $0.42, Gemma 4(Vertex AI)는 하루 $0.50이다. 월 기준 GLM-5.1 $12.6 vs Gemma 4 $15다. 비슷하지만 대량 사용 시 차이가 커진다.

무료로 시작하고 싶다면 Gemma 4다. Google AI Studio 무료 티어는 개인 프로젝트·프로토타입에 충분하다. Ollama 로컬 실행이면 API 비용 자체가 없다.

10. 용도별 추천

어느 쪽이 절대적으로 낫다고 말하기 어렵다. 상황에 따라 답이 달라진다.

상황	추천	이유
코딩 에이전트, 멀티스텝 버그 수정	GLM-5.1	SWE-Bench Pro 최고 + long-horizon 특화
로컬 실행 (데이터 외부 차단)	Gemma 4	M1 맥북 18GB, Ollama 5분 설치
무료로 시작하고 싶다	Gemma 4	Google AI Studio 무료 티어
한국어·다국어 장문 처리	Gemma 4	140개 언어 공식 지원
이미지 + 텍스트 멀티모달	Gemma 4	26B MoE 기준 공식 멀티모달 지원
대규모 코드베이스 에이전트	GLM-5.1	200K 컨텍스트 + 코딩 특화 설계
종합 지식 작업 (분석·요약)	Gemma 4	MMLU 85.2%, 균형 잡힌 성능
API 비용 최소화 + 고성능 코딩	GLM-5.1	입력 $0.21/1M으로 저렴한 편

둘을 조합하는 것도 방법이다. 코딩 구현·버그 수정 단계에 GLM-5.1을 쓰고, 문서 작성·다국어 처리·이미지 분석에 Gemma 4를 쓰는 식이다. 역할을 나누면 각 모델의 강점이 살아나고 비용도 최적화된다.

11. FAQ

GLM-5.1과 Gemma 4 중 코딩 에이전트에는 어느 쪽이 적합한가?

GLM-5.1이다. SWE-Bench Pro 58.4는 공개 오픈소스 모델 중 당시 최고 수치다. 실제 GitHub 이슈를 자율로 해결하는 long-horizon 에이전트 코딩에 특화 설계됐다. Gemma 4는 단순 코드 생성과 자동완성 수준에서 충분하지만 멀티스텝 에이전트 작업에서는 GLM-5.1에 밀린다.

Gemma 4를 M1 맥북에서 돌릴 수 있나?

가능하다. 26B MoE 모델을 4-bit 양자화하면 약 18GB RAM으로 실행된다. M1 맥북 이상에서 Ollama 명령어 하나로 5분 안에 설치된다. 인터넷 없이 완전 로컬로 실행할 수 있다. GLM-5.1은 A100 80GB 4장 이상 서버 환경이 필요해 노트북 실행은 현실적이지 않다.

두 모델 다 상업 프로젝트에 무료로 쓸 수 있나?

가중치 자체는 무료다. GLM-5.1은 MIT, Gemma 4는 Apache 2.0으로 상업 제품에 내장 가능하다. API로 쓸 경우 GLM-5.1은 Z.ai 유료 API 요금이 발생한다. Gemma 4는 Google AI Studio 무료 티어로 시작할 수 있다. Ollama 로컬 실행이면 API 비용이 없다.

MoE 구조가 뭐고 왜 중요한가?

MoE(Mixture of Experts)는 레고 전문가 팀 구조다. 입력마다 적합한 전문가 네트워크만 골라서 처리한다. GLM-5.1은 전체 754B 지식을 갖고 있지만 추론 시 40B만 활성화된다. 파라미터 수에 비해 연산 비용과 서빙 비용이 낮아지는 구조다. Gemma 4(26B MoE)도 실제 연산은 3.8B 수준이다.

SWE-Bench가 HumanEval보다 코딩 능력 측정에 더 정확한 이유는?

HumanEval은 LeetCode 스타일 단독 함수 문제를 푸는 능력이다. 실제 업무와 거리가 있다. SWE-Bench Pro는 실제 GitHub 오픈소스 프로젝트 이슈를 주고 자율로 패치를 만들어 테스트를 통과시키는 전 과정을 측정한다. 기존 코드 파악 → 원인 분석 → 수정 → 검증까지다. 현업 코딩 에이전트 성능과 훨씬 더 가깝다.

한국어 장문 작업에는 어느 쪽이 낫나?

Gemma 4가 낫다. 140개 이상 언어를 공식 지원하며 한국어도 그 안에 포함된다. 256K 컨텍스트로 긴 한국어 문서 처리에도 유리하다. GLM-5.1은 중국어·영어에 최적화됐지만 한국어도 실용 수준이다. 코딩이 주 작업이라면 언어 차이보다 SWE-Bench 수치가 더 중요하다.

GLM-5.1 API가 OpenAI SDK와 호환되나?

호환된다. Z.ai API는 OpenAI API와 동일한 요청·응답 형식이다. Python openai 패키지에서 base_url을 https://open.bigmodel.cn/api/paas/v4/로, api_key를 Z.ai 키로 바꾸면 바로 동작한다. 기존 OpenAI 코드에서 엔드포인트와 모델명만 교체하면 된다.

두 모델을 함께 쓰는 게 의미 있나?

의미 있다. 코딩 에이전트·멀티스텝 버그 수정에는 GLM-5.1, 문서 처리·다국어·이미지 분석·로컬 워크플로우에는 Gemma 4를 쓰는 식으로 역할을 나눌 수 있다. 각 모델의 강점이 살아나고 API 비용도 작업 유형별로 최적화된다.

12. 마무리

GLM-5.1과 Gemma 4는 둘 다 오픈소스지만 지향점이 다르다. GLM-5.1은 SWE-Bench Pro 58.4로 코딩 에이전트를 목표로 설계된 거대 모델이다. Gemma 4는 맥북에서 돌아가는 멀티모달 범용 모델이다. 두 모델이 경쟁하는 영역이 다르다는 게 핵심이다.

코딩 에이전트가 목적이라면 GLM-5.1부터 Z.ai API로 테스트해볼 가치가 있다. 로컬 실행, 무료 시작, 한국어 처리, 이미지 입력이 조건이라면 Gemma 4가 먼저다. 어느 쪽도 틀린 선택이 아니다. 목적에 맞게 고르면 된다. 하나만 써야 한다는 법도 없다.

공식 출처