AI Trends9 min

2026 터미널 AI 에이전트 3강 비교 — Claude Code, Codex CLI, Gemini CLI

Claude Code, Codex CLI, Gemini CLI를 SWE-bench 점수, 출력 단가, 토큰 효율, 컨텍스트 크기, 자율성 설계 기준으로 비교했다. 2026년 4월 기준 수치로 상황별 추천을 정리했다.

On this page (11)

2026년 4월 · AI 소식

터미널에서 돌아가는 AI 코딩 에이전트가 2026년 들어 세 개 구도로 정리됐다. Anthropic의 Claude Code, OpenAI의 Codex CLI, 그리고 Google의 Gemini CLI다. 세 도구 모두 IDE가 아니라 쉘에서 명령어 한 줄로 호출해 파일을 읽고 고치고 커밋까지 맡길 수 있다.

문제는 "뭘 써야 하냐"다. SWE-bench 점수는 셋 다 80% 근처로 몰려 있고, 가격도 용도별로 역전이 일어난다. 무료 티어, 컨텍스트 크기, 자율성 설계, 토큰 효율까지 고려하면 기준에 따라 답이 달라진다.

결론부터 쓰면 이렇다. 정확도 우선은 Claude Code, 토큰 효율 우선은 Codex CLI, 무료로 시작하려면 Gemini CLI다. 2026년 4월 기준 공식 수치·벤치마크·문서를 교차 확인해 정리했다.

Claude Code, Codex CLI, Gemini CLI 3강 비교 — SWE-bench 점수, 가격, 컨텍스트, 자율성, 무료 티어
터미널 AI 3강 핵심 스펙 한눈에 보기 — 기준에 따라 우위가 달라진다 / GoCodeLab
빠르게 보기
  • Claude Code: SWE-bench Verified 80.9%, 출력 $25/1M, 툴링 비공개
  • Codex CLI: Terminal-Bench 2.0 77.3% / SWE-bench ~80%, 출력 $10/1M, Apache 2.0
  • Gemini CLI: Google 계정 인증 시 1,000 req/day 무료, 출력 $10/1M, Apache 2.0
  • 토큰 효율: Codex CLI가 Claude 대비 약 4분의 1 수준 — 실비용 역전 가능
  • 컨텍스트 1M: Claude Opus 4.6 / Gemini 2.5 Pro 표준, GPT-5.4 이상부터 Codex CLI 지원
  • 자율성: Claude 단계별 승인 / Codex 샌드박스 / Gemini 자율 실행
귀찮은개발자 시리즈
Claude Code를 실제 프로젝트에 붙인 기록
MVP 10,742줄을 52분에 찍은 세션부터, 보안 취약점 7개 잡은 과정까지.
EP.04 읽기 →

터미널 AI 3강이란 — 각 도구 기본 정보

Claude Code는 Anthropic이 2025년 출시한 에이전트형 CLI다. Opus 4.6 / Sonnet 4.6 모델 위에서 동작한다. 기본 동작은 "변경 제안 → 사용자 승인 → 실행"이다. 단계별 승인 흐름으로 통제권이 개발자에게 남는 구조다. 2026년 2월 기준 단일 제품 ARR이 25억 달러를 돌파했다. 시장 채택 기준으로는 3강 중 선두다.

Codex CLI는 OpenAI가 2025년 공개한 오픈소스 터미널 에이전트다. Apache 2.0 라이선스로 툴링 코드가 공개되어 있고 GPT-5-Codex 전용 모델을 기본으로 호출한다. 실행은 샌드박스 환경에서 이뤄진다. 실제 파일 시스템에 쓰기 전에 격리 공간에서 결과를 확인할 수 있다. GPT-5.4의 컴퓨터 사용(Computer Use) 기능이 2026년 3월부터 Codex CLI에 통합됐다.

Gemini CLI는 Google이 2025년 6월 공개한 Apache 2.0 오픈소스 도구다. Gemini 2.5 Pro / Flash 모델 위에서 동작한다. Google 계정 인증으로 무료 티어가 열려 있고, Google Search 그라운딩·멀티모달 입력·MCP·플랜 모드를 기본 탑재했다. 스크린샷이나 PDF를 입력으로 넣을 수 있는 건 3강 중 Gemini CLI가 유일하다.

SWE-bench 성능 — 실제 점수 차이

SWE-bench Verified는 실제 GitHub 이슈를 AI에게 맡겨 PR로 해결하게 하는 벤치마크다. 단순 자동완성이 아니라 이슈 분석 + 파일 탐색 + 수정 + 테스트 통과까지 연결돼야 점수가 나온다. 2026년 4월 기준 3강 점수는 다음과 같다.

  • Claude Code (Opus 4.6): SWE-bench Verified 80.9% — 안정 모델 기준 1위
  • Codex CLI (GPT-5.4): SWE-bench 약 80%, Terminal-Bench 2.0 77.3%
  • Gemini CLI (Gemini 2.5 Pro): 안정 모델 구간 63~76%, 3.1 Preview 80.6% 보고

Claude Code와 Codex CLI는 통계적으로 동률 수준이다. 블라인드 품질 비교에서는 Claude Code가 67% 승률을 기록했다는 보고가 있다. 코드 일관성·엣지 케이스·프로젝트 컨벤션 준수에서 Claude가 앞선다는 해석이다. Codex CLI는 응답 속도와 토큰 효율이 더 낫다.

Express.js 리팩토링 벤치마크(동일 작업, 무개입 기준) 결과는 이렇다. Claude Code 1시간 17분·수정 없음, Codex CLI 1시간 41분·수정 없음, Gemini CLI 2시간 4분·3회 수정 필요. 실전 워크로드에서는 안정 모델 SWE-bench 순서가 유지된다.

가격과 무료 티어

가격은 토큰 단위로 움직인다. 입력(input) 토큰과 출력(output) 토큰이 따로 과금되며, 출력 단가가 훨씬 비싸다. 2026년 4월 공식 가격 페이지 기준이다.

모델 입력 / 1M 출력 / 1M 무료 티어
Claude Opus 4.6 $5 $25 없음
Claude Sonnet 4.6 $3 $15 없음
GPT-5-Codex (Codex CLI) $1.25 $10 없음
GPT-5.4 (표준) $2.50 $15 없음
Gemini 2.5 Pro $1 $10 Google 계정: 1,000 req/day
Gemini 2.5 Flash $0.3 $2.5 250 req/day (API 키)

단가 자체로는 Gemini 2.5 Pro와 GPT-5-Codex가 같은 $10/1M 출력으로 Claude Opus 4.6($25/1M)의 절반 이하다. 다만 토큰 효율을 감안하면 계산이 달라진다. 같은 작업에서 Codex CLI는 Claude 대비 약 4분의 1 수준 토큰을 소모한다는 측정이 여러 번 보고됐다. 출력 단가가 $25 vs $10이어도, 4배 토큰 차이가 나면 실지출은 역전된다.

Gemini CLI 무료 티어는 인증 방식이 핵심이다. Google 계정(Gemini Code Assist) 인증으로 하루 1,000 요청, 1M 컨텍스트에 접근 가능하다. API 키 인증으로 가면 Flash 한정 250 요청/일로 떨어진다. 무료 사용 시 트래픽이 몰리면 Pro 요청이 Flash로 자동 전환된다는 점도 체감상 한계다.

프롬프트 캐싱·배치 할인
Claude API는 프롬프트 캐싱으로 최대 90%, 배치 처리로 50% 할인이 가능하다. 반복 호출이 많은 코딩 에이전트 워크로드에서 체감 비용이 크게 줄어든다. Codex CLI와 Gemini CLI도 캐싱 옵션을 제공한다. 단가 표는 기본 단가이며, 실제 청구액은 캐싱·배치 여부에 따라 차이 난다.

컨텍스트 윈도우와 모델 버전

컨텍스트 윈도우는 모델이 한 번에 처리할 수 있는 토큰 양이다. 대형 리팩토링이나 레거시 코드 분석에서 프로젝트 전체를 한 번에 읽을 수 있어야 패턴 파악이 쉽다. 2026년 4월 기준 세 도구의 컨텍스트 상한은 아래와 같다.

  • Claude Code: Opus 4.6와 Sonnet 4.6 모두 1M 토큰 (2026년 2월부터 표준 가격 내 포함)
  • Codex CLI: GPT-5.4 기준 1M — GPT-5.3은 272K, 버전 확인 필요
  • Gemini CLI: Gemini 2.5 Pro 1M 표준

안정 모델 기준으로 1M 컨텍스트는 Claude Opus 4.6와 Gemini 2.5 Pro가 더 오래 검증됐다. Codex CLI는 GPT-5.4로 업그레이드 후 1M을 지원하지만, 기존 스크립트에서 GPT-5.3이 기본으로 걸려 있는 경우가 있다. 대용량 프로젝트에 투입하기 전 codex --model로 버전을 명시하는 편이 안전하다.

소규모 기능 추가에는 세 도구 모두 충분하다. 컨텍스트 크기 차이가 실제 작업 결과에 영향을 주는 건 레거시 코드 파악, 멀티-파일 리팩토링, 전체 테스트 스위트 분석처럼 수만 줄을 한 번에 훑어야 하는 구간이다.

자율성 설계 — 승인, 샌드박스, 자율 실행

같은 "에이전트"라는 이름을 달고 있어도 세 도구가 코드를 실행하는 방식은 다르다. 이 차이가 실무 체감에서 가장 크게 나타난다.

Claude Code — 단계별 승인형. 파일 쓰기, 명령 실행, 커밋 전에 사용자 승인을 요청한다. 변경 diff를 보여주고 "적용할까?"라고 묻는 구조다. 자동화 스크립트에는 불편하지만, 프로덕션 코드에 잘못된 수정이 들어가는 사고를 기본값으로 방지한다. Agent Teams 기능으로 병렬 작업도 지원한다.

Codex CLI — 샌드박스 실행형. 격리된 샌드박스에서 실행한 뒤 결과를 사용자에게 보여주고 최종 적용 여부를 결정한다. "일단 해보고 결과로 판단하자"는 흐름이다. 컴퓨터 사용(Computer Use) 기능은 브라우저·GUI 조작까지 포함된다. 실험적 작업이나 대형 리팩토링 초안 생성에 유리하다.

Gemini CLI — 자율 실행형. 기본값은 승인 요청을 최소화하고 작업을 끝까지 진행한다. 빠른 반복이 가능하지만, 프로덕션 코드에서는 플랜 모드(--plan)로 먼저 계획을 확인한 뒤 실행하는 워크플로우가 권장된다. 트래픽이 몰리는 시점에는 Flash로 자동 전환되면서 결과 품질이 흔들릴 수 있다.

오픈소스 툴링과 커스터마이징

Codex CLI와 Gemini CLI는 툴링 코드가 Apache 2.0 오픈소스로 공개됐다. 소스를 수정·재배포할 수 있다. 내부 시스템과 연동하거나 기능을 추가해야 하는 기업 환경에서는 이 라이선스 차이가 결정적일 수 있다.

단 모델 자체는 오픈소스가 아니다. GPT-5-Codex와 Gemini 2.5 Pro는 각사 독점 모델이다. 툴링 레이어만 오픈소스라는 점을 분리해서 봐야 한다. Claude Code는 툴링도 비공개다. Anthropic API를 호출하는 구조라 내부 수정은 어렵다.

개인 사용에서는 오픈소스 여부가 큰 차이를 만들지 않는다. 영향이 큰 상황은 세 가지다. 첫째, 온프레미스/에어갭 환경에서 도구 수정이 필요할 때. 둘째, 내부 CI 파이프라인과 연결해 커스텀 훅을 끼워넣어야 할 때. 셋째, 감사 요건이 있어 툴링 코드 리뷰가 필요할 때. 이 세 경우 Claude Code는 선택지에서 빠진다.

전체 비교 테이블

항목 Claude Code Codex CLI Gemini CLI
SWE-bench Verified80.9%~80% / TB 77.3%63~76% (Pro) / 80.6% (3.1 Preview)
출력 단가 / 1M$25 (Opus) / $15 (Sonnet)$10 (GPT-5-Codex)$10 (Pro) / $2.5 (Flash)
무료 티어없음없음Google 계정 1,000 req/day
컨텍스트1M (Opus 4.6)1M (GPT-5.4) / 272K (5.3)1M (Pro)
토큰 효율기준약 1/4 수준유사~약간 많음
자율성단계별 승인샌드박스 실행자율 실행 (플랜 모드 선택)
오픈소스비공개Apache 2.0 (툴링)Apache 2.0 (툴링)
특수 기능Agent Teams, 확장 사고Computer Use, 샌드박스Search 그라운딩, 멀티모달, 플랜 모드
회사AnthropicOpenAIGoogle

용도별 추천 — 어떤 상황에 어느 도구인가

선택 기준은 하나가 아니다. 비용이 최우선인 상황과 정확도가 최우선인 상황의 답이 다르다. 상황별로 정리했다.

상황 추천 이유
코딩 정확도 최우선Claude CodeSWE-bench 80.9% 1위, 블라인드 품질 67% 승률
토큰 효율 / 실비용 절감Codex CLI$10/1M + 동일 작업 토큰 1/4 수준
무료로 먼저 테스트Gemini CLIGoogle 계정 1,000 req/day, 1M 컨텍스트
대형 코드베이스 리팩토링Claude Code / Gemini 2.5 Pro1M 컨텍스트 안정 지원, 멀티파일 일관성
실험적 작업 / 샌드박스 검증Codex CLI격리 실행 후 diff 확인, Computer Use
커스터마이징 / 온프레미스Codex CLI / Gemini CLIApache 2.0 툴링, 내부 수정 가능
스크린샷·PDF 입력 필요Gemini CLI멀티모달 입력 지원 — 3강 중 유일
단계별 검토 선호Claude Code파일 수정 전 승인 요청 기본값

절대적인 1위는 없다. 지금 가장 자주 하는 작업이 뭔지부터 기준을 세우면 된다. 코딩 정확도가 우선이라면 Claude Code, 비용이 중요하면 Codex CLI, 무료로 먼저 써보고 싶으면 Gemini CLI가 출발점이다.

조합 활용법 — 두 도구 병행 패턴

한 도구만 쓸 이유는 없다. 초안·검토·실행을 분리하면 속도·정확도·비용을 동시에 가져갈 수 있다. 아래는 실무에서 쓸 수 있는 병행 워크플로우다.

# 1단계: Gemini CLI로 초안 생성 (무료 티어 활용)
gemini "src/components/Form.tsx에 이메일 유효성 검사를 추가해줘"

# 2단계: Claude Code로 코드 리뷰 및 보안 점검
claude "Form.tsx 변경 사항을 검토하고 보안 이슈가 있으면 수정해줘"

# 3단계: 대형 리팩토링은 Codex CLI 샌드박스
codex --model gpt-5-codex "전체 API 라우트를 RESTful 패턴으로 통일해줘"
# → 샌드박스에서 결과 확인 후 적용 여부 결정

비용 감각으로 보면 이런 조합도 가능하다. 반복 질의(검색·요약·리팩토링 초안)는 Gemini CLI 무료 티어로 처리, 품질 리뷰와 보안 점검은 Claude Code 유료로, 실험적 자동화와 Computer Use는 Codex CLI로 나눠 쓰는 식이다. 단일 도구 고정보다 실지출이 낮아지는 경우가 많다.

세 도구 다 쓸 필요는 없다. 두 번째 도구를 추가하는 타이밍은 첫 번째 도구의 한계가 체감될 때다. 예: Claude Code 쓰다가 토큰 비용이 부담되면 Gemini CLI 무료 티어나 Codex CLI 토큰 효율로 분기하는 식이다.

FAQ

Q. 세 도구 중 무료로 쓸 수 있는 건 어디인가?

Gemini CLI가 유일하게 의미 있는 무료 티어를 제공한다. Google 계정(Gemini Code Assist) 인증으로 하루 1,000 요청, 1M 컨텍스트까지 가능하다. 단 트래픽이 몰리면 Pro 요청이 Flash로 자동 전환될 수 있다. API 키 인증은 Flash 한정 250 요청/일로 떨어진다.

Q. SWE-bench 기준 코딩 실력이 가장 좋은 건?

Claude Code가 SWE-bench Verified 80.9%로 안정 모델 기준 1위다. Codex CLI는 GPT-5.4 기준 약 80%로 통계적 차이가 거의 없는 수준이다. Gemini CLI는 안정 모델에서 63~76% 구간, 3.1 Preview에서 80.6%가 보고됐다. 블라인드 품질 비교에서는 Claude가 67% 승률을 기록했다.

Q. 비용이 가장 저렴한 도구는?

단가 기준으로는 GPT-5-Codex와 Gemini 2.5 Pro가 $10/1M 출력으로 동률이다. Claude Opus 4.6는 $25/1M으로 약 2.5배 비싸다. 단 토큰 효율을 고려하면 Codex CLI가 실지출에서 유리한 경우가 많다. 같은 작업에서 Claude 대비 약 4분의 1 토큰으로 끝난다는 측정이 반복 보고됐다.

Q. 오픈소스로 커스터마이징이 가능한 건?

Codex CLI와 Gemini CLI 모두 툴링이 Apache 2.0 오픈소스다. 소스 수정·재배포가 허용된다. 모델 자체는 각사 독점으로, 툴링 레이어만 수정 가능하다는 점을 구분해야 한다. Claude Code는 툴링도 비공개다.

Q. 대형 코드베이스 작업엔 어디가 유리한가?

컨텍스트 1M을 안정적으로 지원하는 Claude Code Opus 4.6와 Gemini 2.5 Pro가 유리하다. Codex CLI는 GPT-5.4 기준 1M을 지원하지만, 스크립트에 GPT-5.3이 기본으로 걸려 있는 경우 272K로 떨어진다. 대용량 작업 전에 --model 플래그로 버전을 명시하는 편이 안전하다.

마무리

세 도구는 지금도 빠르게 업데이트된다. 이 글의 수치는 2026년 4월 기준이며, 모델 버전이 바뀌면 벤치마크·가격이 같이 흔들린다. 지금 시점 기준으로는, 무료로 시작하려면 Gemini CLI, 정확도가 먼저라면 Claude Code, 실지출을 낮추려면 Codex CLI가 각자 현실적인 출발점이다.

병행 사용은 거의 필수에 가깝다. 초안은 Gemini CLI 무료 티어, 품질 리뷰는 Claude Code, 실험적 자동화는 Codex CLI 식으로 나누면 속도·정확도·비용을 한 번에 가져갈 수 있다. 한 도구에 익숙해진 다음 두 번째를 추가하는 순서가 실수가 적다.

귀찮은개발자 시리즈
터미널 AI를
실제 프로젝트에 붙인 기록
벤치마크 점수 말고, 운영·디버그·배포까지 실전 흐름.
시리즈 전체 보기 →

이 글의 가격과 벤치마크 수치는 2026년 4월 기준이다. 각 서비스는 수시로 업데이트되므로 최신 정보는 공식 문서를 확인하기 바란다.
GoCodeLab은 특정 서비스와 제휴 관계가 없다.

Share