엣지 배포에 적합한 모델은 무엇인가?

Gemma 4 소형(2B·9B)이다. 구글이 온디바이스 배포를 명시적으로 지원한다.

MoE 구조가 Dense보다 무조건 좋은가?

그렇지 않다. MoE는 추론 비용이 낮지만 전체 가중치를 메모리에 올려야 한다. 엣지나 저사양 환경에선 Dense 소형 모델이 현실적이다.

셋 중 코딩에 가장 강한 모델은 무엇인가?

Llama 4 Maverick이 SWE-bench에서 오픈소스 최고 수준을 기록했다. 단순 코딩 보조라면 Mistral Small 4도 충분하다.

AI 소식2026-04-1210 min

Gemma 4·Llama 4·Mistral Small 4 — 오픈소스 LLM 3강 다 써봤다

Q: 상업 이용에 가장 자유로운 모델은 무엇인가?

Mistral Small 4다. Apache 2.0 라이선스를 적용해 MAU 제한 없이 상업 이용이 된다.

Gemma 4, Llama 4, Mistral Small 4 — 2026년 공개된 오픈소스 LLM 3개를 파라미터 효율, 컨텍스트 윈도우, 라이선스, 엣지 배포 기준으로 비교했다. 스펙만 보면 비슷해 보이지만 실제 용도별 선택은 달라진다.

목차 (11)

MoE vs Dense — 구조가 다르다
컨텍스트 윈도우 — 10M과 128K의 차이
성능 벤치마크 — 수치로 확인했다
멀티모달 지원 — 이미지를 읽는 모델과 못 읽는 모델
라이선스 — 상업 이용 전 반드시 확인
엣지 배포 현실
배포 비용 — 로컬 vs 호스팅 API
한눈에 비교
용도별 추천
FAQ
마무리

2026년 4월 · AI 소식

2026년 상반기, 오픈소스 LLM 판도가 바뀌었다. Google은 Gemma 4를, Meta는 Llama 4를, Mistral은 Small 4를 연달아 공개했다. 세 모델 모두 무료로 받아서 돌릴 수 있다. 하지만 구조와 목적이 다르다.

결론부터 말한다. 컨텍스트가 길면 Llama 4 Scout. 라이선스 걱정 없이 상업 서비스에 바로 쓰려면 Mistral Small 4. 온디바이스·엣지라면 Gemma 4 소형이다.

세 모델을 파라미터 효율, 컨텍스트 윈도우, 멀티모달, 라이선스, 엣지 배포 기준으로 비교했다. 하나만 고르기 어렵다면 셋을 조합하는 방법도 정리했다.

빠르게 보기
· Llama 4 Scout — MoE 17B 활성/109B 전체, 컨텍스트 10M, Meta Commercial License
· Gemma 4 27B — Dense, 컨텍스트 128K, Google Gemma ToU, 멀티모달 지원
· Mistral Small 4 — Dense 22B, 컨텍스트 128K, Apache 2.0, 가장 자유로운 라이선스
· 엣지 적합도: Gemma 4 소형 > Mistral Small 4 > Llama 4 Scout
· 코딩 성능: Llama 4 Maverick > Gemma 4 27B ≈ Mistral Small 4

MoE vs Dense — 구조가 다르다

MoE(Mixture of Experts)는 은행 창구에 비유할 수 있다. 업무마다 다른 담당자가 처리하는 방식이다. 입력마다 필요한 전문가 파라미터만 활성화한다. Llama 4가 이 구조를 쓴다.

Llama 4 Scout는 총 109B 파라미터지만 추론 시 활성화되는 건 17B다. 연산 비용이 낮다. 동급 Dense 모델보다 추론 속도에서 유리하다. 16개 전문가 중 입력마다 필요한 일부만 선택해서 계산한다.

Gemma 4와 Mistral Small 4는 Dense 구조다. 파라미터 전체가 항상 계산에 참여한다. 크기 대비 추론 비용이 MoE보다 높다. 하지만 메모리 요구량이 파라미터 수와 비례해서 예측하기 쉽다. 운영 환경을 설계할 때 변수가 적다는 장점이 있다.

MoE 구조에서 놓치기 쉬운 점
MoE는 추론 시 연산량은 줄지만, 전체 모델 가중치는 메모리에 전부 올려야 한다. Llama 4 Scout의 경우 109B를 fp16으로 로드하면 약 218GB VRAM이 필요하다. 4비트 양자화 시 약 55GB 수준으로 줄어들지만, 단일 소비자용 GPU로는 여전히 어렵다. "활성 파라미터가 17B이니 가볍다"는 생각은 틀렸다.

컨텍스트 윈도우 — 10M과 128K의 차이

Llama 4 Scout의 컨텍스트는 10M 토큰이다. 책 수십 권을 한 번에 넣을 수 있는 수준이다. RAG(검색 증강 생성) 파이프라인 없이 긴 코드베이스나 문서 전체를 프롬프트에 넣는 방식이 가능해진다. RAG는 외부 데이터베이스에서 필요한 정보만 골라 가져오는 방식인데, 컨텍스트가 충분히 크면 그냥 통째로 넣는 편이 빠른 경우가 생긴다.

Meta는 이를 위해 iRoPE 아키텍처를 적용했다. 위치 인코딩(RoPE)을 인터리브 방식으로 확장한 기술이다. 기존 RoPE는 학습 길이를 넘어서면 성능이 급격히 떨어지는 문제가 있었다. iRoPE는 이 한계를 줄여서 10M 토큰 수준에서도 정확도를 유지한다.

Gemma 4와 Mistral Small 4는 128K다. 일반적인 코드 리뷰나 긴 문서 요약엔 충분하다. 소설 한 권 전체, 논문 수십 편, 긴 회의록 처리에도 문제없다. 하지만 대형 코드베이스 전체를 한 번에 분석하거나 수백만 토큰 규모의 문서를 다루는 작업이라면 Llama 4 Scout와 비교가 안 된다.

성능 벤치마크 — 수치로 확인했다

성능 비교는 어느 벤치마크를 보느냐에 따라 결과가 달라진다. 각 회사가 자사 모델에 유리한 조건을 선택하는 경향이 있다. LMSYS Chatbot Arena나 HuggingFace Open LLM Leaderboard처럼 독립적으로 운영되는 리더보드를 함께 봐야 한다.

코딩 능력 측면에서 Llama 4 Maverick은 SWE-bench에서 오픈소스 최고 수준을 기록했다. Llama 4 Scout는 Maverick보다 규모가 작지만 10M 컨텍스트 덕분에 전체 코드베이스를 통째로 분석하는 작업에서 강점이 있다. Gemma 4 27B는 멀티모달 태스크에서 동급 모델 대비 높은 성능을 보인다. Mistral Small 4는 22B 크기치고 40B급 모델과 경쟁할 수 있는 수준이라는 평가가 많다.

솔직히 말하면, 벤치마크 수치와 실제 사용 경험은 다를 수 있다. 코드 리뷰, 문서 요약, 대화 품질 같은 실용적인 작업에서의 차이는 직접 써봐야 안다. 세 모델 모두 상위권이다. 상황과 작업 유형에 따라 선택하는 게 맞다.

멀티모달 지원 — 이미지를 읽는 모델과 못 읽는 모델

멀티모달은 텍스트 외에 이미지도 함께 이해하는 능력이다. UI 스크린샷을 분석하거나, 그래프에서 수치를 읽거나, 사진 속 텍스트를 추출하는 작업에 필요하다. Gemma 4와 Llama 4는 멀티모달을 지원한다. Mistral Small 4는 텍스트만 처리한다.

Gemma 4 27B는 이미지와 텍스트를 함께 받아서 처리한다. 화면 캡처를 보내고 코드 설명을 요청하거나, 제품 사진에서 정보를 추출하는 작업이 가능하다. Llama 4 Scout와 Maverick도 마찬가지로 멀티모달을 지원한다. 두 모델 모두 실용적인 비전 태스크에 쓸 수 있다.

Mistral Small 4가 텍스트만 처리한다는 건 단점이다. 하지만 텍스트 전용 작업에서는 불리하지 않다. 파인튜닝이나 RAG 구축처럼 이미지가 필요 없는 파이프라인이라면 라이선스 자유도가 더 중요한 선택 기준이 된다. 이미지 처리가 필수라면 Gemma 4나 Llama 4를 골라야 한다.

라이선스 — 상업 이용 전 반드시 확인

Mistral Small 4는 Apache 2.0이다. 조건 없이 상업 이용이 된다. 내부 서비스에 API로 붙이든, SaaS에 임베드하든, 파인튜닝 후 재배포하든 제약이 없다. 오픈소스 생태계에서 가장 자유로운 라이선스다. 법무 검토가 어려운 소규모 팀이라면 이 모델이 가장 안전하다.

Llama 4는 Meta Commercial License다. MAU 7억 이상 플랫폼은 Meta와 별도 계약이 필요하다. 스타트업이나 인디 개발자 수준에서는 사실상 상업 이용이 자유롭다. 하지만 서비스 규모가 빠르게 커질 수 있는 상황이라면 라이선스 조항을 미리 꼼꼼히 읽어야 한다.

Gemma 4는 Google Gemma Terms of Use를 따른다. 특정 금지 사항이 있다. Gemma 모델의 출력을 다른 LLM 학습에 쓰는 것이 제한된다. 경쟁 AI 서비스 개발에 쓰는 것도 제한이 있다. 일반적인 애플리케이션 개발에는 큰 문제가 없지만, AI 관련 서비스라면 세부 조항을 반드시 확인해야 한다.

라이선스 한 줄 요약
· Apache 2.0 (Mistral Small 4): 가장 자유롭다. 제약이 거의 없다.
· Meta Commercial License (Llama 4): MAU 7억 미만이면 상업 이용 가능하다.
· Google Gemma ToU (Gemma 4): 경쟁 AI 서비스나 LLM 학습 데이터로 쓰는 건 제한된다.

엣지 배포 현실

엣지 배포는 서버 없이 기기에서 직접 모델을 실행하는 방식이다. 스마트폰이나 로컬 PC에 AI를 심는 것과 같다. 인터넷 연결 없이도 작동한다. 개인정보 보호나 응답 지연 최소화 측면에서 유리하다.

Gemma 4 2B와 9B는 Google이 온디바이스 배포를 명시적으로 지원한다. 2B는 일반 스마트폰 수준에서도 돌아갈 수 있는 수준이다. 9B는 고사양 모바일 기기나 Apple Silicon 탑재 MacBook 수준이 필요하다. Gemma 4 27B는 엣지보다는 로컬 서버 수준으로 봐야 한다.

Mistral Small 4는 22B다. 4비트 양자화를 적용하면 약 12~14GB VRAM 수준으로 줄어들어, M2 Pro MacBook이나 RTX 3090 한 장으로도 돌아간다. Llama 4 Scout는 MoE 구조 특성상 전체 109B를 메모리에 올려야 해서 일반 엣지 환경에선 현실적이지 않다. 멀티-GPU 서버가 필요한 수준이다.

배포 비용 — 로컬 vs 호스팅 API

오픈소스 모델의 가장 큰 장점은 로컬에서 돌리면 추론 비용이 없다는 점이다. 초기 하드웨어 투자가 있을 뿐, 이후 토큰 비용이 발생하지 않는다. fp16 기준으로 Gemma 4 27B는 약 54GB VRAM, Mistral Small 4는 약 44GB VRAM, Llama 4 Scout는 약 218GB가 필요하다.

4비트 양자화를 적용하면 메모리 요구량이 약 4분의 1로 줄어든다. Gemma 4 27B는 약 14GB, Mistral Small 4는 약 12GB 수준이 된다. RTX 3090 단일 GPU로도 돌릴 수 있다. 양자화 시 성능 저하가 있지만 일반적인 용도에서는 체감하기 어렵다.

로컬 환경이 안 된다면 호스팅 API를 쓰면 된다. Together AI, Groq, Fireworks 같은 플랫폼이 세 모델을 모두 API로 제공한다. 토큰당 비용이 발생하지만 GPT-4 계열보다 저렴하다. 상업 프로젝트에서 라이선스가 자유로운 Mistral Small 4를 호스팅 API로 쓰는 조합이 현실적인 출발점이다.

한눈에 비교

항목	Gemma 4 27B	Llama 4 Scout	Mistral Small 4
개발사	Google	Meta	Mistral AI
구조	Dense	MoE (17B 활성/109B)	Dense
컨텍스트	128K	10M	128K
라이선스	Google Gemma ToU	Meta Commercial	Apache 2.0
멀티모달	지원	지원	미지원
엣지 적합	높음 (소형 모델)	낮음	중간
코딩 벤치	상위권	오픈소스 최고 (Maverick)	40B급 수준

로컬 배포 하드웨어 요구사항
모델	fp16 VRAM	4비트 양자화 VRAM	현실적인 장비
Gemma 4 27B	~54GB	~14GB	RTX 4090 / M2 Max
Llama 4 Scout	~218GB	~55GB	멀티-GPU 서버
Mistral Small 4	~44GB	~12GB	RTX 3090 / M2 Pro

용도별 추천

상황	추천 모델	이유
상업 SaaS, 라이선스 리스크 없애고 싶다	Mistral Small 4	Apache 2.0, 제약 없음
수백만 토큰 장문 처리, RAG 없이	Llama 4 Scout	10M 컨텍스트
온디바이스·스마트폰 AI 앱	Gemma 4 2B / 9B	온디바이스 공식 지원
이미지 + 텍스트 함께 처리	Gemma 4 또는 Llama 4	멀티모달 지원
코딩 에이전트, 전체 레포 분석	Llama 4 Scout / Maverick	SWE-bench 최고 + 10M 컨텍스트
RTX 3090 한 장으로 로컬 서버	Mistral Small 4 (4bit)	~12GB면 충분
AI 서비스에 모델 출력 재학습 필요	Mistral Small 4 또는 Llama 4	Gemma ToU는 이 용도 제한

셋을 조합하는 현실적인 패턴
하나만 고집할 이유가 없다. 요청 유형에 따라 라우팅하면 비용과 성능을 같이 잡을 수 있다.
· 긴 문서 전체 분석 → Llama 4 Scout (10M 컨텍스트)
· UI 스크린샷, 이미지 포함 요청 → Gemma 4 27B
· 상업 서비스 API, 챗봇 응답 → Mistral Small 4 (Apache 2.0 안전)

FAQ

Q. Llama 4 Scout의 10M 컨텍스트는 어떻게 가능한가?

Meta가 iRoPE 아키텍처를 적용했다. 기존 RoPE 임베딩을 인터리브 방식으로 확장해 긴 시퀀스를 처리한다. 기존 RoPE는 학습 길이를 넘어서면 성능이 급락하는 문제가 있었다. iRoPE는 이 한계를 줄여서 10M 범위에서도 정확도를 유지한다.

Q. 상업 이용에 가장 자유로운 모델은 무엇인가?

Mistral Small 4다. Apache 2.0 라이선스라 MAU 제한 없이 쓸 수 있다. 파인튜닝 후 재배포도 자유롭다. 라이선스 조항을 검토할 법무팀이 없는 소규모 팀이라면 Mistral Small 4가 가장 안전한 선택이다.

Q. MoE가 Dense보다 무조건 좋은가?

그렇지 않다. MoE는 추론 연산량이 낮지만 전체 가중치를 메모리에 올려야 한다. 엣지 환경에서는 오히려 Dense 소형이 현실적이다. 멀티-GPU 서버가 있는 환경이라면 MoE의 추론 속도 이점이 의미 있다.

Q. 코딩에 가장 강한 모델은 무엇인가?

Llama 4 Maverick이 SWE-bench에서 오픈소스 최고 수준을 기록했다. 단순 코딩 보조나 코드 리뷰 수준이라면 Mistral Small 4도 충분하다. 전체 레포지토리를 한 번에 분석하는 작업이라면 Llama 4 Scout의 10M 컨텍스트가 더 실용적이다.