AI Trends5 min

GPT-5.4 나왔는데, 뭐가 달라졌을까? — 6가지 핵심 변화 정리

GPT-5.4 나왔는데, 뭐가 달라졌을까? — 6가지 핵심 변화 정리

2026년 3월 10일 · AI 트렌드 분석

GPT-5.4가 3월 5일에 나왔어요.

이번에는 이름도 좀 달라요. Thinking과 Pro, 두 가지 버전이에요. “또 나왔네” 할 수도 있는데요. 이번 업데이트는 체감이 꽤 커요.

한마디로, “생각하는 AI”에서 “직접 일하는 AI”로 넘어갔어요.

빠르게 보기

– 출시일: 2026년 3월 5일
– 핵심 변화: 컴퓨터 직접 조작 + 중간 방향 수정 + 100만 토큰
– 가격: Plus/Team/Pro 구독자 사용 가능
– API: 입력 $2.50 / 출력 $15 per 1M 토큰
– 한 줄 요약: “생각하는 AI”에서 “일하는 AI”로 진화

GPT-5.4 핵심 변화 — 컴퓨터 조작 75%, 1M 컨텍스트, 오류 33% 감소
GPT-5.4 핵심 수치 요약 / GoCodeLab
AI로 반복 작업 자동화하는 시리즈도 있어요귀찮은개발자 EP.01 →

달라진 6가지 핵심 변경점

1. 컴퓨터를 직접 조작해요

이게 이번 업데이트에서 가장 큰 변화예요.

GPT-5.4는 화면을 보고 직접 클릭해요. 브라우저 검색, 엑셀 데이터 정리, 코드 수정까지 가능해요.

OSWorld 벤치마크에서 성공률 75%를 기록했어요. GPT-5.2가 47.3%였으니 엄청난 차이죠. 참고로 사람의 성공률이 72.4%예요. AI가 사람을 넘었어요.

모델 OSWorld 성공률
GPT-5.2 47.3%
사람 72.4%
GPT-5.4 75.0%

Claude도 컴퓨터 사용 기능이 있어요. 근데 벤치마크에서는 GPT-5.4가 앞서요.

2. 생각하는 도중에 방향을 바꿀 수 있어요

기존 모델은 질문하면 끝까지 생각하고 답을 내놨어요. 중간에 “아, 그 방향 말고”라고 말해도 이미 늦었죠.

GPT-5.4 Thinking은 생각 과정을 보여줘요. 중간중간 뭘 하고 있는지 알려주죠. 사용자가 방향을 수정할 수도 있어요.

“코드 리팩토링해줘”라고 했다고 해봐요. 생각 과정을 보니 전체를 다시 쓰려고 해요. 그러면 “함수 3개만 수정해줘”라고 끼어들 수 있어요. 토큰 낭비가 확 줄어드는 거죠.

3. 100만 토큰 컨텍스트

GPT-5.4의 컨텍스트 윈도우가 100만 토큰으로 늘어났어요.

모델 컨텍스트 윈도우
GPT-5.2 128K 토큰
Claude Sonnet 4.6 200K (1M 베타)
Gemini 3.1 Pro 200만 토큰
GPT-5.4 100만 토큰

Gemini가 200만 토큰으로 여전히 가장 커요. 근데 100만이면 웬만한 코드베이스는 다 넣어요. 실무에서는 충분한 수준이에요.

4. 코딩 능력이 확 올라갔어요

GPT-5.3 Codex의 코딩 능력을 그대로 흡수했어요.

이전에는 범용 모델과 코딩 모델이 따로였어요. GPT-5.4에서 합쳐졌죠. UI를 만들고, 레포 패턴을 파악해서 멀티파일 수정도 돼요.

코딩에서는 여전히 Claude가 강하다는 평이 많아요. 근데 GPT-5.4가 격차를 많이 줄인 건 확실해요.

5. 틀리는 확률이 줄었어요

AI를 쓰다 보면 “그럴듯하게 틀리는” 경우가 가장 짜증나죠.

GPT-5.4는 개별 응답에서 오류가 33% 줄었어요. 전체 응답 기준으로는 18% 향상됐고요. 수치는 작아 보여도 체감은 꽤 달라요. “엉뚱한 소리”가 눈에 띄게 줄었다는 후기가 많아요.

항목 GPT-5.2 대비 개선
개별 오류 감소 33%
전체 응답 정확도 향상 18%
전문가 수준 일치율 70.9% → 83.0%

6. 토큰 효율이 좋아졌어요

같은 문제를 풀 때 쓰는 토큰이 줄었어요.

가격은 올랐어요. $1.75에서 $2.50으로 43% 인상이에요. 근데 토큰을 적게 쓰니까 실제 비용은 비슷해요. 오히려 줄어들 수도 있고요. 꽤 스마트한 가격 전략이에요.

GPT-5.4 vs GPT-5.2 벤치마크 비교표
주요 스펙 변화 한눈에 비교 / GoCodeLab

GPT-5.4 vs GPT-5.2 — 전 vs 후

항목 GPT-5.2 (이전) GPT-5.4 (현재)
컴퓨터 조작 불가 가능 (OSWorld 75%)
컨텍스트 128K 100만 토큰
코딩 별도 Codex 모델 필요 통합 (Codex 흡수)
중간 수정 불가 가능 (사고 과정 공유)
정확도 기준 33% 오류 감소
전문가 일치율 70.9% 83.0%
API 입력 가격 $1.75/1M $2.50/1M
API 출력 가격 $14/1M $15/1M

실제 체감 — 써본 느낌

솔직히 일반 대화에서는 큰 차이를 못 느껴요.

체감이 확 오는 건 코딩이랑 긴 문서예요. 코드 전체를 넣고 “버그 찾아줘”하면 정확도가 확 올라왔어요. 100만 토큰이라 파일 잘라서 넣을 필요도 없고요.

컴퓨터 조작 기능은 아직 API/Codex 환경에서만 제대로 돌아가요. 일반 ChatGPT 채팅에서 바로 쓸 수 있는 건 아니에요. 이 부분은 좀 아쉬워요.

GPT-5.4 용도별 추천 가이드 — 코딩, 문서, 일반, API 개발자
누구에게 의미 있을까? 한눈에 보기 / GoCodeLab

누구에게 의미 있을까?

코딩하는 사람: 체감이 가장 큰 그룹이에요. Codex 통합에 100만 토큰까지. 개발 워크플로우가 달라질 수 있어요. 다만 코딩만 보면 Claude Code도 강해요.

긴 문서 다루는 사람: 보고서, 논문 같은 긴 텍스트에 좋아요. 100만 토큰이 큰 도움이 돼요. 이 용도만 보면 Gemini(200만 토큰)도 좋고요.

일반 사용자: 솔직히 지금은 체감이 적어요. ChatGPT 앱에 컴퓨터 조작이 적용되면 달라질 거예요.

API 개발자: 가격 인상이 있어요. 토큰 효율이 올랐지만 프로젝트마다 달라요. 직접 테스트해보는 게 좋아요.

가격은 어떻게 되나요?

구분 내용
ChatGPT Plus ($20/월) GPT-5.4 Thinking 사용 가능
ChatGPT Team ($25/월) GPT-5.4 Thinking 사용 가능
ChatGPT Pro ($200/월) GPT-5.4 Pro 사용 가능
API (GPT-5.4) 입력 $2.50 / 출력 $15 per 1M 토큰
API (GPT-5.4 Pro) 입력 $30 / 출력 $180 per 1M 토큰

Plus 구독자라면 추가 비용 없이 쓸 수 있어요. 기존 GPT-5.2 Thinking을 3개월에 걸쳐 대체할 예정이에요.

Pro 버전은 $200/월 구독자 전용이에요. 일반 사용자한테는 과한 가격이죠. 전문 작업이 많은 분들은 고려해볼 만해요.

FAQ

Q. GPT-5.4 무료로 쓸 수 있나요?

무료 사용자는 GPT-5.4를 쓸 수 없어요. 최소 Plus($20/월) 구독이 필요해요. 무료 계정은 GPT-5.3 Instant를 사용해요.

Q. GPT-5.4 Thinking이랑 Pro 차이가 뭔가요?

Thinking은 Plus/Team 구독자용 표준 버전이에요. Pro는 $200/월 전용이고 정확도가 더 높아요. ARC-AGI-2에서 Thinking 73.3%, Pro 83.3%예요.

Q. Claude Sonnet 4.6이랑 비교하면 어떤가요?

용도에 따라 달라요. 코딩과 에이전트 작업에서는 Claude가 여전히 강해요. 컴퓨터 조작과 범용 지식 작업에서는 GPT-5.4가 앞서요. 가격은 Claude Sonnet이 더 저렴해요 (입력 $3/출력 $15 per 1M 토큰).

Q. Gemini 3.1 Pro랑 비교하면요?

Gemini 3.1 Pro는 추론과 가격이 강점이에요. 컨텍스트도 200만 토큰으로 가장 크고요. GPT-5.4는 컴퓨터 조작과 전문 업무에서 앞서요. 가성비는 Gemini, 복합 작업은 GPT-5.4예요.

Q. 기존 ChatGPT 대화에 바로 적용되나요?

3개월에 걸쳐 GPT-5.2를 대체할 예정이에요. 모델 선택에서 직접 고를 수 있어요. 기존 대화는 자동 전환되지 않아요.

그래서, GPT-5.4 써야 해요?

솔직한 답: 코딩이나 긴 문서를 다루면 체감이 크고, 일반 대화에서는 아직 큰 차이를 느끼기 어려워요.

가장 큰 변화는 “컴퓨터 조작”이에요. OSWorld 75%는 사람(72.4%)을 넘긴 수치예요. 아직 ChatGPT 앱에서 바로 쓸 수 있는 건 아니지만, 이게 적용되면 진짜 체감이 달라질 거예요.

판단 기준

코딩 위주 → 바로 업그레이드할 가치 있음 (다만 Claude Code도 비교해보기)
긴 문서 → 100만 토큰이면 충분. Gemini(200만)도 대안
일반 대화 → 급하지 않아요. 기존 모델도 충분
API → 가격 올랐으니 직접 비용 테스트 먼저

AI 모델은 3개월마다 판도가 바뀌어요. GPT-5.4가 지금은 강하지만, Claude나 Gemini도 빠르게 따라오고 있어요. 중요한 건 하나에 올인하는 게 아니라, 용도에 맞는 모델을 골라 쓰는 거예요.

이 글은 2026년 3월 10일에 작성하고, 4월 7일에 업데이트했어요.