AI 소식2026-04-2620 min

DeepSeek V4 공개됐다 — GPT-5.5보다 30배 저렴, 코포 인간 23위

Q: DeepSeek V4-Pro와 V4-Flash 중 어떤 모델을 선택해야 하나?

복잡한 추론·긴 컨텍스트 분석·정밀한 코드 생성이 필요하면 V4-Pro다. 빠른 응답이 중요한 챗봇·요약·분류 파이프라인이라면 V4-Flash가 적합하다. V4-Flash는 V4-Pro보다 출력 기준 약 12배 저렴하다. 벤치마크보다 자신의 실제 작업 데이터로 직접 테스트하는 게 가장 정확한 선택 기준이다.

Q: 1M 토큰 컨텍스트가 실제로 필요한 상황은 언제인가?

대규모 코드베이스를 통째로 넘겨서 분석할 때, 수백 페이지 법률·계약서를 한 번에 처리할 때, 장기 대화 히스토리를 유지해야 하는 에이전트 시스템에서 필요하다. 일반 챗봇 용도라면 128K로 충분하다. 1M 토큰은 한계를 제거하는 것이지 항상 써야 하는 기능이 아니다.

Q: MIT 라이선스면 상업적으로 무제한으로 써도 되는가?

상업적 사용, 수정, 재배포가 모두 허용된다. 다만 오픈 웨이트는 가중치만 공개된 것이다. 학습 데이터와 학습 코드는 공개되지 않았다. MIT 라이선스와 DeepSeek 서비스 약관은 별개이므로 실제 사용 전 두 문서를 모두 확인해야 한다.

Q: DeepSeek API는 기존 OpenAI SDK와 호환되는가?

호환된다. DeepSeek API는 OpenAI API와 동일한 요청·응답 형식을 사용한다. base_url을 https://api.deepseek.com/v1로, api_key를 DeepSeek 키로 바꾸면 바로 동작한다. model 파라미터에 deepseek-v4-pro 또는 deepseek-v4-flash를 지정하면 된다.

Q: DeepSeek V4-Pro와 DeepSeek R1의 차이는 무엇인가?

R1은 강화학습 기반의 추론 특화 모델로 수학·논리 문제에서 단계별 사고 과정을 명시적으로 출력한다. V4-Pro는 범용 언어 모델로 코딩·추론·긴 컨텍스트 처리를 모두 다룬다. 순수 수학·논리 추론 전문으로는 R1이 강하고, 범용 작업은 V4-Pro가 더 폭넓게 커버한다.

2026년 4월 24일 DeepSeek이 V4-Pro와 V4-Flash를 동시에 공개했다. Hybrid Attention으로 1M 토큰 컨텍스트 지원, Codeforces 3,206 레이팅으로 인간 전체 23위. MIT 오픈 웨이트로 GPT-5.5 대비 API 비용이 최대 30배 저렴하다.

목차 (15)

V4-Pro와 V4-Flash — 구조와 스펙
MoE 구조가 비용을 낮추는 원리
Hybrid Attention — 1M 토큰 컨텍스트의 실체
Codeforces 3,206 — 코딩 성능의 새 기준
추론 벤치마크 — GPT-5.2와 GPT-5.4 사이
API 가격 — 수치로 보는 차이
MIT 라이선스와 오픈 웨이트
Huawei 칩 통합 — 반도체 제재 우회
DeepSeek API 직접 호출 — curl과 Python 예제
V4 자체 호스팅 — vLLM으로 서버에 올리기
V4-Pro vs V4-Flash — 용도별 선택
하이브리드 파이프라인 — 세 모델을 조합하는 방법
OpenAI·Anthropic에 미치는 압박
자주 묻는 질문
마무리

2026년 4월 · AI 소식

DeepSeek V4 출시 — V4-Pro·V4-Flash 동시 공개,
GPT-5.5보다 최대 30배 저렴한 오픈 웨이트

2026년 4월 24일, DeepSeek이 V4-Pro와 V4-Flash를 동시에 공개했다. V3으로 한 차례 업계를 뒤흔든 뒤, 이번엔 두 모델을 한 번에 내놨다. 둘 다 MIT 라이선스 오픈 웨이트다.

결론부터 말한다. V4-Pro는 추론 성능에서 GPT-5.2와 GPT-5.4 사이에 위치한다. 코딩 성능은 Codeforces 3,206 레이팅으로 인간 전체 23위다. API 가격은 GPT-5.5 출력 기준 약 8.6배 저렴하다. V4-Flash는 더 극단적이다. GPT-5.5 출력 대비 약 107배 저렴하다.

이번 출시가 특히 주목받는 건 타이밍 때문이다. GPT-5.5 출시 이후 업계의 관심이 최고 성능에 쏠린 시점에, DeepSeek은 '비슷한 성능, 훨씬 낮은 비용'으로 반격했다. 오픈 웨이트라서 API 비용 없이 자체 서버에 올릴 수 있다는 점도 크다. 이 글에서는 두 모델의 구조, 성능, 가격, MIT 라이선스의 실제 의미, 직접 호출 방법까지 수치로 정리했다.

TL;DR — 핵심 요약

DeepSeek V4-Pro: MIT 오픈 웨이트, GPT-5.4 수준 추론, 출력 $3.48/M
DeepSeek V4-Flash: 같은 오픈 웨이트, 빠른 속도, 출력 $0.28/M (GPT-5.5 대비 107배 저렴)
Codeforces 3,206 레이팅 — 전 세계 인간 유저 23위 수준의 코딩 능력
둘 다 Hybrid Attention으로 최대 1M 토큰 컨텍스트 지원
Huawei Ascend 910B 칩에 최적화 — NVIDIA 없이도 학습·추론 가능

빠르게 보기

출시일: 2026년 4월 24일
V4-Pro: 총 1.6T 파라미터 / 활성 49B (MoE)
V4-Flash: 총 284B 파라미터 / 활성 13B (MoE)
컨텍스트: 최대 1M 토큰 (Hybrid Attention Architecture)
코딩: Codeforces 3,206점 · 인간 전체 23위
추론: GPT-5.2~GPT-5.4 수준
라이선스: MIT 오픈 웨이트
V4-Pro API: $1.74 입력 / $3.48 출력 (1M 토큰)
V4-Flash API: $0.14 입력 / $0.28 출력 (1M 토큰)
비교: GPT-5.5($5/$30) · Claude Opus 4.7($5/$25)

V4-Pro와 V4-Flash — 구조와 스펙

두 모델 모두 MoE(Mixture of Experts) 구조다. MoE는 거대한 공장에 전문 라인이 수백 개 있는데, 각 입력에 필요한 라인만 가동하는 방식이다. 전체 파라미터 중 일부만 활성화해서 처리한다. 연산 비용이 파라미터 총량 대비 크게 낮아진다.

V4-Pro는 총 1.6T 파라미터지만, 실제 추론에 쓰이는 건 49B뿐이다. V4-Flash는 총 284B에 13B만 활성화된다. 숫자만 보면 V4-Pro가 압도적으로 크지만, 실제 추론 비용은 활성 파라미터 기준으로 결정된다. 두 모델 모두 Hybrid Attention Architecture를 탑재했고, 최대 1M 토큰 컨텍스트를 지원한다.

DeepSeek이 두 모델을 동시에 공개한 건 의도적인 포지셔닝이다. V4-Pro는 성능 최우선, V4-Flash는 속도와 비용 최우선이다. 하나의 모델로 모든 유스케이스를 커버하는 대신, 처음부터 역할을 나눴다. Anthropic이 Opus·Sonnet·Haiku로 세분화하는 방식과 같은 전략이다.

구조적 특징 중 하나는 Multi-Head Latent Attention(MLA)이다. 기존 트랜스포머의 KV 캐시를 압축해서 메모리 사용량을 낮춘 기술이다. V3에서 처음 도입됐고, V4에서 더 고도화됐다. 추론 속도와 비용 모두 이 구조 덕분에 낮아졌다.

MoE 구조가 비용을 낮추는 원리

MoE는 단순한 모델 크기 게임이 아니다. 1.6T 파라미터가 있지만 한 번의 추론에 49B만 활성화된다. 나머지 1.55T는 그 추론에서는 잠자는 상태다. 비활성 파라미터는 연산에 참여하지 않는다. 전력 소비와 GPU 메모리 점유 모두 활성 파라미터 기준으로 결정된다.

어떤 Expert가 활성화될지는 게이팅 네트워크가 결정한다. 게이팅 네트워크는 가벼운 분류기 역할이다. 토큰마다 가장 적합한 Expert 조합을 선택한다. V3 아키텍처 기준으로 추정하면, 수백 개 Expert 중 토큰당 소수만 선택된다. 이 방식이 Dense 모델보다 연산을 훨씬 적게 쓴다.

V4-Flash에서 이 효과가 더 두드러진다. 총 284B 파라미터에 활성 13B는 비율로 약 4.6%다. V4-Pro는 총 1.6T에 활성 49B, 약 3.1%다. API 비용이 낮은 이유가 여기에 있다. 실제로 연산하는 파라미터 수가 같은 크기의 Dense 모델보다 훨씬 적다.

MoE의 단점도 있다. 전체 파라미터를 GPU 메모리에 올려야 하기 때문에 자체 호스팅 시 메모리 요구량이 크다. V4-Pro를 FP16으로 올리려면 이론상 약 3,200GB VRAM이 필요하다. API로 쓸 때는 이 부담이 없지만, 자체 호스팅을 계획한다면 양자화를 반드시 적용해야 한다.

MoE vs Dense 모델 — 핵심 차이

Dense 모델: 전체 파라미터가 모든 추론에 참여 — 크면 클수록 비용도 선형 증가
MoE 모델: 입력에 따라 일부 Expert만 활성화 — 추론 비용이 활성 파라미터 기준으로 결정
V4-Pro(활성 49B)는 GPT-4o(약 200B Dense 추정) 대비 연산량이 적을 수 있다
자체 호스팅 시에는 전체 파라미터를 메모리에 올려야 해서 VRAM 요구량이 Dense보다 크다

Hybrid Attention — 1M 토큰 컨텍스트의 실체

Attention은 AI 모델이 문장 속 단어들 사이의 관계를 계산하는 방식이다. 두꺼운 소설 전체를 읽으면서 앞뒤 맥락을 동시에 기억하는 것과 비슷하다. 문제는 기존 Full Attention이 토큰이 늘어날수록 연산량이 제곱으로 증가한다는 점이다. 1M 토큰을 Full Attention으로 처리하면 연산 비용이 폭발적으로 커진다.

DeepSeek V4의 Hybrid Attention Architecture는 이 문제를 풀었다. Full Attention과 효율적인 Linear Attention을 혼합해서 쓴다. 정밀한 주의가 필요한 구간에는 Full Attention을, 나머지 구간에는 Linear Attention을 적용한다. 결과적으로 1M 토큰을 처리하는 연산 비용이 선형에 가깝게 증가한다.

1M 토큰의 실제 분량을 가늠하면 이렇다. 영어 소설 1권이 약 100K 토큰이다. 1M 토큰은 소설 10권 분량에 해당한다. 대규모 코드베이스 기준으로는 수십만 줄 코드다. 한국어는 영어보다 토큰 효율이 낮아서 실제 처리 가능한 글자 수는 그보다 적다.

실용적으로 1M 컨텍스트가 필요한 상황은 한정적이다. 에이전트 시스템에서 여러 문서를 동시에 참조할 때 유용하다. 법률·금융 분야에서 수백 페이지 계약서를 한 번에 분석할 때도 해당된다. 일반 채팅 애플리케이션이라면 128K로 충분하다. 1M 컨텍스트의 가치는 '상한이 없다'는 설계 유연성에 있다.

Codeforces 3,206 — 코딩 성능의 새 기준

Codeforces는 알고리즘 경진 프로그래밍 플랫폼이다. 레이팅 1,200은 입문, 1,900은 Expert, 2,400 이상이면 Grandmaster다. 3,206은 Grandmaster보다도 위다. DeepSeek V4-Pro가 이 점수를 기록했고, 전 세계 등록 유저 중 인간 23위에 해당한다.

이 수치는 순수한 알고리즘 문제 풀이 능력을 측정한 것이다. 동적 프로그래밍, 그래프 탐색, 수학 최적화, 복잡한 자료구조 설계 능력을 포함한다. 실제 프로덕션 코드 작성과 완전히 같지는 않다. 하지만 "AI가 상위 0.001% 인간 프로그래머 수준의 논리력을 갖췄다"는 신호로는 충분하다.

과거 AI 모델들의 코딩 성능과 비교하면 변화가 급격하다. GPT-4o 출시 당시 Codeforces 레이팅은 1,100대였다. 2년도 안 되는 시간에 3,206까지 올라왔다. 선형 성장이 아니라 지수적 성장이다. 코딩 에이전트나 개발 도구 백엔드로 V4-Pro를 선택하는 근거가 여기에 있다.

그러나 Codeforces 레이팅이 모든 걸 의미하지는 않는다. 대회 알고리즘과 실무 코드 사이에는 차이가 있다. 실무에서는 가독성, 유지보수성, 팀 컨벤션 준수가 중요하다. 3,206 레이팅이 팀 코드 리뷰를 전부 맡길 수 있다는 뜻은 아니다. 도구로서 쓰되 최종 판단은 사람이 해야 한다.

추론 벤치마크 — GPT-5.2와 GPT-5.4 사이

DeepSeek 공식 발표에 따르면, V4-Pro는 수학·논리·과학 문제 풀이를 포함한 표준 추론 벤치마크에서 GPT-5.2보다 높고 GPT-5.4보다는 낮은 위치에 있다. GPT-5.5와 비교하면 한 단계 뒤처진다.

그러나 가격을 감안하면 계산이 달라진다. GPT-5.5 출력 토큰 1M이 $30인 반면, V4-Pro는 $3.48이다. 출력 기준 약 8.6배 저렴하다. "GPT-5.5가 반드시 필요한 작업"과 "GPT-5.4 수준으로 충분한 작업"을 구분하면, 후자의 경우 V4-Pro가 비용 면에서 압도적이다.

V4-Flash는 추론 성능에서 V4-Pro보다 한 단계 낮다. GPT-5.2 수준에 근접한다는 게 DeepSeek의 주장이다. 빠른 속도와 저렴한 비용이 필요한 파이프라인에서는 V4-Flash가 현실적인 선택이다.

벤치마크 수치는 참고 지표일 뿐이다. 실제 애플리케이션 성능은 도메인과 프롬프트 설계에 따라 크게 달라진다. 수학 추론 벤치마크에서 우위를 보여도, 특정 도메인 지식이 필요한 작업에서는 다른 결과가 나온다. 직접 평가 세트를 만들어서 두 모델로 돌려보는 게 가장 정확하다.

항목	V4-Pro	V4-Flash	GPT-5.5	Claude Opus 4.7
추론 성능	GPT-5.2~5.4 수준	GPT-5.2 근접	최상위	최상위
코딩 (Codeforces)	3,206 (인간 23위)	—	—	—
최대 컨텍스트	1M 토큰	1M 토큰	128K	200K
총 파라미터	1.6T	284B	비공개	비공개
활성 파라미터	49B	13B	—	—
라이선스	MIT 오픈 웨이트	MIT 오픈 웨이트	클로즈드	클로즈드

API 가격 — 수치로 보는 차이

V4-Pro의 API 가격은 입력 $1.74, 출력 $3.48(1M 토큰 기준)이다. GPT-5.5는 입력 $5, 출력 $30이다. 출력 기준으로 V4-Pro가 약 8.6배 저렴하다. Claude Opus 4.7 출력($25)과 비교하면 약 7.2배 차이다.

V4-Flash는 더 극단적이다. 입력 $0.14, 출력 $0.28이다. GPT-5.5 출력 기준으로 약 107배 저렴하다. Claude Opus 4.7 출력 기준으로도 약 89배 차이다. 요청 수가 수백만 건을 넘는 파이프라인이라면 V4-Flash로의 전환만으로 AI 인프라 비용 구조가 완전히 바뀐다.

모델	입력 (1M 토큰)	출력 (1M 토큰)	라이선스	최대 컨텍스트	추론 수준
DeepSeek V4-Pro	$1.74	$3.48	MIT 오픈 웨이트	1M 토큰	GPT-5.2~5.4
DeepSeek V4-Flash	$0.14	$0.28	MIT 오픈 웨이트	1M 토큰	GPT-5.2 근접
GPT-5.5	$5.00	$30.00	클로즈드	128K	최상위
Claude Opus 4.7	$5.00	$25.00	클로즈드	200K	최상위

실제 비용을 시뮬레이션해보면 차이가 더 명확해진다. 하루 10만 건 요청에 건당 평균 500 출력 토큰을 쓴다고 가정하자. V4-Flash 기준 하루 비용은 약 $14다. 같은 조건으로 GPT-5.5를 쓰면 $1,500이다. 월 기준 약 $44,000, 한화 6,000만 원 이상 차이가 난다.

캐시 히트 할인도 있다. DeepSeek API는 프롬프트 캐싱을 지원해서, 동일한 시스템 프롬프트가 반복될 때 입력 비용을 추가로 절감할 수 있다. 긴 시스템 프롬프트를 고정으로 쓰는 RAG 파이프라인이나 챗봇에서 실제 청구 금액이 공시 가격보다 더 낮아진다.

일 10만 건 파이프라인 월간 비용 시뮬레이션 (출력 500 토큰/건 기준)

V4-Flash: 약 $420/월 (하루 $14 × 30일)
V4-Pro: 약 $5,220/월 (하루 $174 × 30일)
GPT-5.5: 약 $45,000/월 (하루 $1,500 × 30일)
V4-Flash → GPT-5.5 전환 시 월 약 $44,580 절감
API 가격은 언제든 변경될 수 있으니 사용 전 공식 사이트 확인 필수

MIT 라이선스와 오픈 웨이트

MIT 라이선스는 가장 자유로운 오픈소스 라이선스 중 하나다. 상업적 사용, 수정, 재배포가 모두 허용된다. 로열티도 없다. V4-Pro와 V4-Flash 모두 이 조건으로 가중치가 공개됐다.

"오픈 웨이트"는 완전한 오픈소스와 다르다. 가중치 파일만 공개된 것이다. 학습 데이터, 학습 코드, 사용된 인프라는 공개되지 않았다. 모델을 직접 호스팅하거나 파인튜닝하는 건 자유롭지만, 동일한 방법으로 재현 학습하는 건 불가능하다.

실용적 의미는 크다. 자체 GPU 서버에 올려서 API 비용 없이 돌릴 수 있다. 특정 도메인에 맞게 파인튜닝해서 성능을 높일 수 있다. 온프레미스 환경에서 데이터 외부 전송 없이 쓸 수 있다. 의료·법률·금융처럼 데이터 보안이 엄격한 영역에서 이 점이 결정적이다.

MIT 라이선스를 비즈니스에 적용할 때 한 가지를 꼭 확인해야 한다. 라이선스 원문과 DeepSeek의 서비스 약관은 별개 문서다. MIT 라이선스가 허용하는 범위와 DeepSeek의 API 이용 약관이 허용하는 범위가 다를 수 있다. 상업적 서비스를 구축하기 전에 두 문서를 모두 직접 읽어야 한다.

Huawei 칩 통합 — 반도체 제재 우회

DeepSeek V4는 Huawei Ascend 910B 칩에 최적화됐다. 미국이 NVIDIA H100·H200의 중국 수출을 규제하면서, DeepSeek은 Huawei 칩용 커널과 학습 파이프라인을 직접 개발했다. NVIDIA 없이 학습과 추론을 돌리는 인프라를 만든 것이다.

단순한 기술 선택이 아니다. 서방 반도체 제재를 우회하면서 독립적인 AI 인프라를 구축하려는 전략이다. "미국 칩 없이도 최전선 모델을 만들 수 있다"는 걸 수치로 증명하는 행위기도 하다. Huawei 칩 성능이 아직 NVIDIA GPU에 완전히 따라잡지 못했다는 평가가 있지만, 그 격차는 빠르게 줄어들고 있다.

Huawei Ascend 910B의 현재 성능은 NVIDIA H100 대비 약 70~80% 수준으로 평가된다. 메모리 대역폭과 FP16 연산 성능 모두 H100에 비해 낮다. 하지만 DeepSeek은 MoE 구조와 커스텀 커널로 이 격차를 좁혔다. 하드웨어 제약을 소프트웨어 설계로 보완한 사례다.

이 전략이 성공하면 의미가 크다. Ascend 칩을 쓸 수 있는 중국 기업들이 NVIDIA 없이도 최전선 모델을 돌릴 수 있게 된다. 미국의 반도체 수출 규제가 의도한 효과를 내지 못할 수 있다는 뜻이기도 하다. Huawei Ascend 생태계의 성장은 반도체 지정학에서 중요한 변수로 부상하고 있다.

공식 발표 인용 (DeepSeek, 2026년 4월 24일)

"DeepSeek V4-Pro achieves a Codeforces rating of 3,206 — ranking 23rd among all registered human users worldwide. Both V4-Pro and V4-Flash are released as open weights under the MIT license, supporting up to 1M token context via our Hybrid Attention Architecture, with tight integration for Huawei Ascend hardware."

출처: DeepSeek 공식 사이트 (2026년 4월 24일)

DeepSeek API 직접 호출 — curl과 Python 예제

DeepSeek API는 OpenAI API와 호환된다. 엔드포인트가 다를 뿐, 요청과 응답 형식이 동일하다. 기존 OpenAI SDK를 쓰는 코드에서 base_url과 api_key만 바꾸면 된다. 마이그레이션 작업이 최소화된다.

curl로 V4-Pro를 호출하는 방법은 다음과 같다. model 값만 바꾸면 V4-Flash도 동일하게 동작한다. temperature를 낮게 설정할수록 코드 출력 일관성이 높아진다.

# DeepSeek V4-Pro API 호출 — OpenAI 호환 형식

# API 키: https://platform.deepseek.com 에서 발급

curl https://api.deepseek.com/v1/chat/completions \

  -H "Content-Type: application/json" \

  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \

  -d '{"model": "deepseek-v4-pro",

     "messages": [

       {"role": "system", "content": "Python 코딩 전문가다. 최적화된 코드를 작성한다."},

       {"role": "user", "content": "피보나치 n번째를 O(log n)으로 구하는 함수를 작성해라."}

     ],

     "max_tokens": 2048, "temperature": 0.1}'

Python에서는 openai 패키지를 그대로 사용한다. base_url을 DeepSeek 엔드포인트로 지정하면 된다. 아래 예제는 V4-Flash로 대량 문서 분류 파이프라인을 구성하는 패턴이다. GPT-5.5로 같은 작업을 돌리는 것보다 비용이 약 107배 낮다.

# pip install openai

from openai import OpenAI

client = OpenAI(

    api_key="YOUR_DEEPSEEK_KEY",

    base_url="https://api.deepseek.com/v1"

)

def classify_texts(texts: list[str]) -> list[dict]:

    # V4-Flash로 대량 분류 — GPT-5.5 출력 대비 약 107배 저렴

    results = []

    for text in texts:

        resp = client.chat.completions.create(

            model="deepseek-v4-flash",

            messages=[

                {"role": "system", "content": "기술/비즈니스/일반 중 하나로만 분류해라."},

                {"role": "user", "content": text}

            ],

            max_tokens=10,

            temperature=0

        )

        results.append({"label": resp.choices[0].message.content.strip()})

    return results

# 사용 예시

docs = ["AI 기술 동향 분석...", "2026년 3분기 실적..."]

print(classify_texts(docs))

응답 형식이 OpenAI와 동일하기 때문에, 기존 OpenAI 기반 애플리케이션을 DeepSeek으로 전환할 때 코드 수정 범위가 좁다. 환경 변수 두 개만 바꿔도 전환이 완료된다. 테스트 환경에서는 DeepSeek, 프로덕션에서는 GPT-5.5를 유지하는 점진적 마이그레이션도 가능하다.

V4 자체 호스팅 — vLLM으로 서버에 올리기

자체 호스팅의 첫 번째 질문은 하드웨어다. V4-Pro(총 1.6T 파라미터)를 FP16으로 올리려면 약 3,200GB VRAM이 필요하다. 현실적이지 않다. 4비트 양자화(GPTQ/AWQ)를 쓰면 약 800GB로 줄어든다. H100 80GB 기준으로 약 10장이 필요하다.

V4-Flash(총 284B, 활성 13B)는 훨씬 현실적이다. 4비트 양자화 기준 약 142GB VRAM이 필요하다. H100 80GB 2장이면 충분히 돌아간다. 실험 목적이라면 RTX 4090 24GB 4~6장으로도 가능하다. 연구·스타트업 환경에서 자체 호스팅을 시작한다면 V4-Flash가 현실적인 출발점이다.

vLLM이 현재 가장 많이 쓰이는 서빙 프레임워크다. OpenAI 호환 API를 자동으로 제공한다. 기존 코드 수정 없이 엔드포인트만 바꾸면 자체 호스팅으로 전환된다. 아래 예제는 V4-Flash를 vLLM으로 서빙하는 기본 명령이다.

# 사전 준비: CUDA 12+, Python 3.11+

pip install vllm

# V4-Flash 서빙 — OpenAI 호환 API 자동 제공

# 권장 환경: H100 80GB × 2 (FP16 기준)

vllm serve deepseek-ai/DeepSeek-V4-Flash \

  --port 8000 \

  --tensor-parallel-size 2 \

  --gpu-memory-utilization 0.90 \

  --max-model-len 131072 \

  --dtype float16

# 서버 실행 후 동작 확인

curl http://localhost:8000/v1/chat/completions \

  -H "Content-Type: application/json" \

  -d '{"model": "deepseek-ai/DeepSeek-V4-Flash",

     "messages": [{"role": "user", "content": "안녕하세요"}]}'

자체 호스팅은 API 비용 제로라는 장점이 있다. 하지만 GPU 서버 비용과 운영 부담이 발생한다. 하루 10만 건 미만 요청이라면 API를 쓰는 게 더 저렴할 수 있다. 하루 100만 건을 넘으면 자체 호스팅의 경제성이 급격히 올라간다. 데이터 보안 요구 사항이 있다면 요청 수와 무관하게 자체 호스팅이 유일한 선택일 수 있다.

자체 호스팅 vs API — 비용 분기점 (V4-Flash 기준)

H100 80GB × 2 클라우드 임대: 약 $5~8/시간 → 월 약 $3,600~5,760
같은 금액으로 V4-Flash API 처리 가능한 출력 토큰: 약 12~20B개
일 100만 건 × 평균 200 출력 토큰 = 월 6B 토큰 → API 기준 월 약 $1,680
이 규모에서 자체 호스팅이 API보다 저렴해지기 시작한다
GPU 감가상각·전기료·운영 인력 비용은 별도로 계산해야 한다

V4-Pro vs V4-Flash — 용도별 선택

V4-Pro가 맞는 상황은 명확하다. 복잡한 수학 추론, 대규모 코드 분석, 긴 문서 요약, 정밀한 코드 생성이다. Codeforces 3,206 레이팅이 필요한 수준의 알고리즘 구현이라면 V4-Pro를 쓴다. GPT-5.5보다는 저렴하고, GPT-5.4에 가까운 성능이 나온다.

V4-Flash는 비용이 최우선일 때다. 초당 수백 건 이상 처리하는 분류 파이프라인, 챗봇 응답 생성, 짧은 문서 요약, 빠른 프로토타이핑에 적합하다. GPT-5.5 대비 출력 기준 107배 저렴하다는 수치가 말해준다. 둘 다 MIT 오픈 웨이트라서 자체 호스팅 실험 부담도 없다.

파인튜닝 관점에서도 차이가 있다. V4-Flash는 활성 파라미터가 작아서 파인튜닝 비용과 시간이 낮다. 특정 도메인에 특화된 경량 모델이 필요하다면 V4-Flash를 베이스로 쓰는 게 합리적이다. V4-Pro는 범용 최고 성능이 필요하고, 파인튜닝 인프라에 투자할 여유가 있을 때 적합하다.

테스트 없이 모델을 선택하지 마라. 직접 평가 세트를 만들어서 두 모델로 돌려보고 결과를 비교하는 게 최선이다. 한국어 처리 품질, 도메인 특화 지식, 출력 형식 준수 여부는 반드시 직접 테스트로 확인해야 한다. 벤치마크 수치는 출발점이지 최종 답이 아니다.

DeepSeek V4-Pro 장점

추론 성능 GPT-5.4 수준 — GPT-5.5 한 단계 아래
Codeforces 3,206 — 전 세계 인간 유저 23위 수준의 코딩 능력
1M 토큰 컨텍스트로 대규모 문서·코드베이스 분석 가능
GPT-5.5 출력 기준 8.6배 저렴, Claude Opus 4.7 대비 7.2배 저렴
MIT 오픈 웨이트 — 자체 호스팅·파인튜닝 모두 자유

DeepSeek V4-Pro 단점

V4-Flash 대비 출력 12배 비쌈 ($3.48 vs $0.28)
자체 호스팅 시 최소 ~800GB VRAM 필요 (4비트 양자화 기준)
학습 데이터·학습 코드 미공개 — 완전한 오픈소스가 아님
API 응답 속도가 V4-Flash보다 느림

DeepSeek V4-Flash 장점

GPT-5.5 출력 대비 107배 저렴 ($0.28/M vs $30/M)
빠른 응답 속도 — 대량 처리 파이프라인에 적합
MIT 오픈 웨이트 — 자체 호스팅 자유
자체 호스팅 시 H100 2장으로 가능 (4비트 양자화)
GPT-5.2 수준 추론 — 분류·요약·챗봇에 충분

DeepSeek V4-Flash 단점

V4-Pro 대비 낮은 추론 정확도 — 복잡한 다단계 추론 한계
1M 컨텍스트 지원이지만 긴 컨텍스트에서 품질 저하 가능
Codeforces급 고난도 알고리즘 구현에는 부적합
커뮤니티 파인튜닝 레시피가 V4-Pro보다 적음

상황	추천	이유
복잡한 추론·수학 문제	V4-Pro	GPT-5.4 수준 추론, Codeforces 3,206
대규모 코드베이스 분석	V4-Pro	1M 토큰 + 코딩 최상위 성능
고속 분류·요약·챗봇	V4-Flash	GPT-5.5 출력 대비 107배 저렴
온프레미스 · 데이터 보안	V4-Pro 자체 호스팅	MIT 오픈 웨이트, 데이터 외부 전송 없음
파인튜닝 베이스 모델	V4-Flash	낮은 파인튜닝 비용 · 빠른 학습
최고 성능이 반드시 필요	GPT-5.5	V4-Pro보다 한 단계 위

하이브리드 파이프라인 — 세 모델을 조합하는 방법

세 모델을 역할에 맞게 조합하면 비용과 품질을 동시에 잡을 수 있다. V4-Flash는 분류·라우팅·짧은 요약에 쓴다. V4-Pro는 복잡한 추론·코드 생성·긴 문서 분석에 쓴다. GPT-5.5는 절대적인 정확도가 필요한 소수의 작업에만 쓴다. 이 세 단계 라우팅만으로도 전체 비용을 크게 낮출 수 있다.

라우팅 로직은 간단하게 시작하는 게 좋다. 입력 토큰 수, 키워드, 태스크 유형으로 모델을 선택한다. 정교한 ML 라우터 없이도 규칙 기반으로 충분한 경우가 많다. 나중에 정밀도가 필요하면 라우팅 자체에 작은 분류 모델을 추가한다. 아래는 TypeScript로 구현한 기본 라우터다.

// 비용 기반 모델 라우터 — TypeScript

type ModelTier = "flash" | "pro" | "frontier";

const MODEL_CONFIG: Record<ModelTier, { model: string; baseURL: string }> = {

  flash:    { model: "deepseek-v4-flash", baseURL: "https://api.deepseek.com/v1" }, // $0.28/M

  pro:      { model: "deepseek-v4-pro",   baseURL: "https://api.deepseek.com/v1" }, // $3.48/M

  frontier: { model: "gpt-5-5",          baseURL: "https://api.openai.com/v1"   }, // $30.00/M

};

function selectTier(prompt: string, taskType: string): ModelTier {

  const tokens = prompt.length / 4; // 대략적 추정

  if (tokens > 50_000 || /알고리즘|최적화|증명/.test(taskType)) return "pro";

  if (/미션크리티컬|의료|법률|규제/.test(taskType)) return "frontier";

  return "flash"; // 기본값: 분류·요약·짧은 답변

}

async function routedChat(prompt: string, taskType: string, apiKey: string): Promise<string> {

  const { model, baseURL } = MODEL_CONFIG[selectTier(prompt, taskType)];

  const res = await fetch(`${baseURL}/chat/completions`, {

    method: "POST",

    headers: { "Authorization": `Bearer ${apiKey}`, "Content-Type": "application/json" },

    body: JSON.stringify({ model, messages: [{ role: "user", content: prompt }], max_tokens: 2048 }),

  });

  return (await res.json()).choices[0].message.content;

}

비용 시뮬레이션을 먼저 해보는 게 좋다. 현재 GPT-5.5만 쓰는 파이프라인에서 요청의 70%가 단순 분류라고 가정하자. 그 70%를 V4-Flash로 전환하면 전체 비용을 크게 줄일 수 있다. 실제 사용 패턴을 로그로 분석한 다음 라우팅 전략을 짜는 순서가 현실적이다.

하이브리드 접근에서 주의할 점이 있다. 모델마다 출력 형식이 미묘하게 다를 수 있다. 파이프라인의 다음 단계에서 일관된 형식을 기대한다면, 각 모델에 동일한 출력 형식 지시를 시스템 프롬프트에 명시해야 한다. 응답 길이와 언어 스타일도 모델마다 다르니 테스트 단계에서 반드시 확인해야 한다.

OpenAI·Anthropic에 미치는 압박

DeepSeek V4는 단순한 신모델 출시가 아니다. "폐쇄형 고가 모델만이 최전선 성능을 낼 수 있다"는 전제에 정면으로 도전하는 것이다. GPT-5.5보다 출력 기준 8.6배 저렴하면서 GPT-5.4에 근접한 성능을 내는 MIT 오픈 웨이트 모델이 공개됐다.

OpenAI와 Anthropic은 "최고 성능 = 폐쇄 모델"이라는 공식을 유지해왔다. DeepSeek V3에 이어 V4가 그 격차를 다시 줄였다. 지금 속도라면 1~2년 안에 오픈 웨이트가 폐쇄 모델과 같은 수준에 도달할 수 있다는 전망이 나온다.

DeepSeek의 등장이 OpenAI와 Anthropic에게 가격 경쟁을 강요하고 있다. 실제로 최근 1~2년 사이 GPT-4o 가격이 출시 초기 대비 크게 낮아졌다. DeepSeek V3 출시 이후 Claude Haiku와 GPT-4o mini 가격도 인하됐다. V4 출시가 이 압박을 다시 한 단계 높인 셈이다.

현실적인 접근은 하이브리드다. 일상적인 작업은 V4-Flash, 복잡한 추론은 V4-Pro, 절대적인 정확도가 요구될 때만 GPT-5.5를 쓰는 방식이다. API 비용을 대폭 줄이면서 전체 품질은 유지할 수 있다. 지금 당장 전부 바꿀 필요는 없지만, 실험해볼 이유는 충분하다.

자주 묻는 질문

V4-Pro와 V4-Flash 중 어떤 모델을 선택해야 하나?

복잡한 추론·긴 컨텍스트 분석이 필요하면 V4-Pro다. 빠른 응답이 중요한 챗봇·요약·분류 파이프라인이라면 V4-Flash가 적합하다. V4-Flash는 V4-Pro보다 출력 기준 약 12배 저렴하다. 벤치마크 수치보다 자신의 실제 작업 데이터로 직접 테스트하는 게 가장 정확한 선택 기준이다. 둘 다 MIT 오픈 웨이트라서 무료로 실험해볼 수 있다.

1M 토큰 컨텍스트가 실제로 필요한 상황은 언제인가?

대규모 코드베이스를 통째로 분석할 때다. 수백 페이지 법률·계약서를 한 번에 처리할 때도 해당된다. 장기 에이전트 대화 히스토리를 유지해야 하는 시스템에서도 유용하다. 일반 채팅 애플리케이션이라면 128K로 충분하다. 1M 토큰은 항상 써야 하는 기능이 아니라, 한계가 없는 설계 유연성을 제공하는 기능이다.

MIT 라이선스면 상업적으로 무제한으로 써도 되는가?

상업적 사용, 수정, 재배포가 모두 허용된다. 로열티도 없다. 다만 오픈 웨이트는 가중치만 공개된 것이다. 학습 데이터와 학습 코드는 공개되지 않았다. MIT 라이선스와 DeepSeek의 서비스 약관은 별개 문서라는 점을 주의해야 한다. 상업적 서비스를 구축하기 전에 두 문서를 모두 직접 읽어야 한다.

Codeforces 3,206 레이팅은 실제로 얼마나 높은 수준인가?

Codeforces에서 2,400 이상이면 최상위 Grandmaster 등급이다. 3,206은 그보다 위다. 전 세계 등록 유저 중 인간 23위다. 실전 알고리즘 대회 기준으로 상위 0.001% 수준이다. 복잡한 동적 프로그래밍, 그래프 탐색, 수학 최적화 문제를 이 수준으로 풀 수 있다는 뜻이다. 대회 알고리즘 능력이 실무 코드 품질과 항상 일치하지는 않지만, 논리 추론 능력의 지표로는 신뢰할 만하다.

DeepSeek V4와 GPT-5.5를 함께 쓰는 하이브리드 방식이 맞는가?

비용 최적화 관점에서 맞다. 일상적인 요약·분류에는 V4-Flash, 복잡한 추론에는 V4-Pro, 최고 정확도가 반드시 필요할 때만 GPT-5.5를 쓰는 방식이다. API 비용을 대폭 줄이면서 작업별 품질을 유지할 수 있다. 비용이 가장 높은 파이프라인부터 V4-Flash로 실험하고, 품질이 충분하면 V4-Pro 순서로 단계를 밟는 게 현실적이다.

DeepSeek API는 기존 OpenAI SDK와 호환되는가?

호환된다. DeepSeek API는 OpenAI API와 동일한 요청·응답 형식을 사용한다. Python의 openai 패키지에서 base_url을 https://api.deepseek.com/v1로, api_key를 DeepSeek 키로 바꾸면 바로 동작한다. model 파라미터에 deepseek-v4-pro 또는 deepseek-v4-flash를 지정하면 된다. 기존 코드 수정 범위가 최소화된다.

V4-Pro를 자체 호스팅하려면 어떤 하드웨어가 필요한가?

V4-Pro 전체(1.6T 파라미터)를 FP16으로 올리려면 약 3,200GB VRAM이 필요하다. 4비트 양자화를 쓰면 약 800GB로 줄어든다. H100 80GB 기준으로 약 10장이 필요하다. V4-Flash는 4비트 양자화 기준 약 142GB로 H100 2장이면 가능하다. 연구·스타트업 환경에서는 V4-Flash 자체 호스팅이 현실적인 첫 단계다.

DeepSeek V4-Pro와 DeepSeek R1의 차이는 무엇인가?

R1은 강화학습 기반의 추론 특화 모델이다. 수학·논리 문제에서 단계별 사고 과정을 명시적으로 출력한다. V4-Pro는 범용 언어 모델로 코딩·추론·긴 컨텍스트 처리를 모두 다룬다. 순수 수학·논리 추론 전문으로는 R1이 강하고, 코딩·문서 처리·API 응답 생성 등 범용 작업은 V4-Pro가 더 폭넓게 커버한다. 용도에 따라 선택이 달라진다.

마무리

DeepSeek V4는 두 가지를 수치로 증명했다. 오픈 웨이트 모델이 최전선 성능에 근접할 수 있다는 것, 그리고 AI API 비용은 앞으로도 계속 내려갈 수 있다는 것이다. Codeforces 3,206 레이팅과 1M 토큰 컨텍스트는 "저렴한 대안"이 아니라 "성능이 검증된 선택지"라는 걸 보여준다.

지금 당장 기존 스택을 전부 바꿀 필요는 없다. V4-Flash를 비용이 많이 드는 파이프라인에 먼저 테스트해보고, 품질이 충분하면 V4-Pro로 단계를 올리는 순서가 현실적이다. 둘 다 MIT 라이선스라서 자체 호스팅 실험 부담도 없다. 모델 선택의 기준이 "어느 게 제일 좋은가"에서 "어느 게 이 작업에 충분한가"로 바뀌고 있다.

공식 출처