ElevenLabs보다 낫다는 무료 음성 AI가 나왔어요 — Mistral Voxtral TTS 비교
ElevenLabs보다 낫다는 무료 음성 AI가 나왔어요 — Mistral Voxtral TTS 비교
2026년 3월 29일 · AI 비교
3초짜리 목소리 샘플로 목소리 복제가 된다고요. 그것도 무료 오픈소스로요.
Mistral AI가 3월 26일 첫 번째 TTS(텍스트 음성 변환) 모델인 Voxtral TTS를 공개했어요. Mistral Small 4로 텍스트 AI 시장에서 두각을 나타내더니, 이번엔 음성 AI 시장까지 진출한 거예요. 모델은 Hugging Face에서 무료로 내려받을 수 있고, API 가격은 ElevenLabs보다 저렴해요.
Mistral은 자체 인간 평가에서 ElevenLabs Flash v2.5보다 자연스럽다는 결과를 내놨어요. 단순한 주장이 아니에요. 제로샷 목소리 복제 비교에서 68.4% 승률을 기록했어요. 숫자가 꽤 구체적이라서, 스펙을 직접 따져봤어요.
– Voxtral TTS는 4B 파라미터 오픈웨이트 TTS 모델 (2026년 3월 26일 출시)
– 3초 음성 샘플로 목소리 복제(zero-shot voice cloning) 가능
– ElevenLabs Flash v2.5 대비 zero-shot 복제 68.4% 승률 (Mistral 자체 평가)
– API 가격 $0.016/1,000자 — ElevenLabs Pro($99/월) 대비 최대 12배 저렴
– 70ms 지연 속도, 실시간 스트리밍 지원
– 9개 언어 지원 (영어·프랑스어·독일어 등 — 한국어 미지원)
Voxtral TTS가 뭐예요?
Voxtral TTS는 Mistral AI의 첫 번째 음성 생성 모델이에요. 4B(40억) 파라미터 규모로, 텍스트를 자연스러운 목소리로 변환해줘요. Hugging Face에 mistralai/Voxtral-4B-TTS-2603이라는 이름으로 올라가 있어요.
오픈웨이트라는 게 핵심이에요. 모델 가중치를 직접 내려받아 자기 서버에서 돌릴 수 있어요. 라이선스는 CC BY NC 4.0이라서 비상업용으로는 무료예요. 상업용으로 쓰려면 Mistral API를 통해야 하고, 가격은 1,000자당 $0.016이에요.
70ms 지연 속도도 눈에 띄어요. 500자 입력에 10초짜리 음성을 뽑는 데 70ms밖에 안 걸린다는 거예요. 실시간 스트리밍도 지원하고, 노트북이나 중급 GPU에서도 돌아간다고 해요. 20개의 프리셋 음성을 기본으로 제공하고, 감정 조절까지 가능해요. 슬프게, 기쁘게, 진지하게 등의 톤을 설정할 수 있어요.

ElevenLabs와 직접 비교해봤어요
ElevenLabs는 현재 TTS 시장에서 가장 많이 쓰이는 서비스예요. 유튜브 크리에이터부터 기업 내레이션까지 폭넓게 사용되죠. Voxtral이 경쟁 상대로 직접 ElevenLabs Flash v2.5를 지목했어요.
자연스러움
Mistral이 공개한 인간 평가 결과에서 Voxtral TTS가 ElevenLabs Flash v2.5 대비 zero-shot 목소리 복제 비교에서 68.4% 승률을 기록했어요. 또한 ElevenLabs v3(최고급 모델)와 전반적인 음성 품질에서도 비등한 수준을 보였어요. 물론 Mistral이 직접 진행한 평가라서 100% 중립적으로 보기는 어렵고요. 제3자 독립 평가가 나오면 더 신뢰할 수 있을 거예요. 한국어 화자에게 영어 음성의 차이가 얼마나 느껴지는지는 솔직히 개인 차이가 있어요.
기능 비교
| 항목 | Voxtral TTS | ElevenLabs |
|---|---|---|
| 무료 플랜 | 모델 가중치 무료 (비상업) | 월 10,000자 무료 |
| 자체 서버 배포 | 가능 | 불가 |
| 지원 언어 수 | 9개 | 70개+ |
| 한국어 | 미지원 | 지원 |
| 오픈소스 여부 | 오픈웨이트 | 비공개 |
| 감정 표현 조절 | 지원 | 지원 |
| 더빙·번역 파이프라인 | 없음 | 지원 |
| 모델 지연 속도 | 70ms | 유사 수준 |

가격 차이가 얼마나 돼요? — 12배까지 차이 날 수 있어요
TTS 서비스를 고를 때 가격 차이가 생각보다 커요. Voxtral API를 ElevenLabs Pro와 비교하면 놀라운 결과가 나와요.
| 플랜 | 월 비용 | 허용 글자 수 | 1,000자당 단가 |
|---|---|---|---|
| Voxtral API (종량제) | 사용량에 따라 | 무제한 | $0.016 |
| ElevenLabs Starter | $5 | 30,000자 | $0.017 |
| ElevenLabs Creator | $22 | 100,000자 | $0.022 |
| ElevenLabs Pro | $99 | 500,000자 | $0.198 |
ElevenLabs Pro 기준으로 500,000자를 처리하면 $99가 나와요. 같은 양을 Voxtral API로 처리하면 $8이에요. 약 12배 차이가 나요. 물론 ElevenLabs는 70개 이상 언어 지원, 더빙 파이프라인, 안정성 등 더 많은 기능을 제공하니까 단순 가격만으로 비교하기는 무리가 있어요. 하지만 영어 전용 콘텐츠를 대량으로 만드는 작업이라면 비용 절감 효과가 명확해요.

3초로 목소리를 복제한다는 게 사실인가요?
Voxtral TTS의 눈에 띄는 기능 중 하나가 zero-shot 목소리 복제예요. 3초짜리 음성 샘플만 있으면 그 목소리의 특징을 잡아내서 새로운 텍스트를 같은 목소리로 읽어줘요.
기술적으로는 few-shot 방식도 지원해요. 더 긴 샘플을 주면 음색, 억양, 발화 리듬까지 더 정밀하게 재현해줘요. Mistral은 원본 목소리의 개성을 최대한 살린다는 표현을 썼는데, 음성 스타일·속도·억양 패턴을 모두 학습한다는 뜻이에요.
다만 3초 샘플로 완벽한 복제를 기대하기는 어려워요. 어느 TTS 모델이나 마찬가지예요. 샘플이 길수록, 잡음이 없을수록 결과가 좋아요. 조용한 환경에서 녹음한 10초 이상 샘플이 있다면 더 나은 결과를 기대할 수 있어요.
실전에서 어떻게 써요?
Voxtral TTS를 쓰는 방법은 크게 두 가지예요.
방법 1 — Mistral API 이용
la.mistral.ai에서 API 키를 받아 HTTP 요청으로 쓸 수 있어요. 별도 서버 설치 없이 가장 빠르게 시작하는 방법이에요. 가격은 1,000자당 $0.016이에요. Python SDK나 REST API 모두 지원해요. Mistral 공식 문서에 예제 코드가 잘 정리돼 있어서 개발자라면 30분이면 연동할 수 있어요.
방법 2 — 로컬 직접 실행
Hugging Face에서 모델을 내려받아 자기 서버나 PC에서 직접 돌리는 방법이에요. 비상업용이라면 비용이 들지 않아요. VRAM 8GB 이상 GPU가 있으면 무난하게 동작하고, 최신 노트북 CPU에서도 느리지만 실행은 돼요. 데이터가 외부로 나가지 않아야 하는 기업 환경에서 특히 유리해요.
영어 유튜브 나레이션, 팟캐스트 대본 읽기, 앱 내 영어 음성 안내처럼 영어 음성이 필요한 작업에 쓰기 좋아요. 한국어가 필요한 작업이라면 아직은 다른 서비스를 써야 해요.
사용자 반응과 출시 초기 한계
출시 직후 개발자 커뮤니티 반응이 꽤 뜨거웠어요. 특히 “자체 서버에 올릴 수 있는 오픈웨이트 TTS”라는 점에 주목한 기업용 개발자들이 많았어요. 데이터 주권이 중요한 의료, 법률, 금융 분야에서 로컬 배포 가능성을 높이 평가했어요.
반면 아쉬운 점도 나왔어요. 출시 초기에 zero-shot 목소리 복제 품질이 일관적이지 않다는 보고가 있었어요. 어떤 목소리 샘플에서는 잘 되는데, 어떤 샘플에서는 원본과 차이가 느껴진다는 거예요. 이는 학습 데이터의 다양성 한계에서 오는 문제로 보여요. 추후 업데이트에서 개선될 가능성이 높아요.
또 ElevenLabs가 지원하는 더빙·번역 파이프라인이 없다는 점도 한계예요. 영어 팟캐스트를 스페인어로 더빙하거나, 영상을 다국어로 재제작하는 작업은 지금 Voxtral만으로는 안 돼요. ElevenLabs의 완성된 프로덕션 파이프라인과 비교하면 아직 갈 길이 있어요.

한국어는 안 되나요? — 솔직한 한계
한국어 지원이 없다는 건 아쉬운 부분이에요. 현재 Voxtral TTS가 지원하는 9개 언어는 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어예요. 한국어, 일본어, 중국어 같은 아시아 언어는 전부 빠져 있어요.
Mistral이 추후 언어를 추가할 가능성은 있어요. 다만 공식 로드맵에서 한국어 지원 시점을 언급한 적은 없어요. 빠른 시일 내에 추가될 거라고 확신하기 어렵고요. 한국어 TTS가 필요한 분이라면 ElevenLabs(한국어 지원), CLOVA Voice(네이버), 또는 Google Cloud TTS를 써야 해요.
영어 콘텐츠를 많이 다루거나, 오픈소스로 직접 커스터마이징하고 싶거나, 자체 서버에서 돌리고 싶다면 Voxtral이 매력적인 선택지예요. 한국어가 주 언어라면 지금은 다른 서비스가 현실적이에요.
ElevenLabs — 한국어 지원, 월 $5부터, 목소리 복제 지원 · CLOVA Voice — 네이버 서비스, 국내 음성 데이터 강점, API 제공 · Google Cloud TTS — 한국어 포함 50개 이상 언어, 종량제 $4/100만 자
FAQ
Q. Voxtral TTS는 완전 무료인가요?
모델 가중치를 직접 다운받아 비상업용으로 쓰는 건 무료예요. CC BY NC 4.0 라이선스 조건에 따라야 해요. 상업용으로 활용하거나 간편하게 API로 쓰려면 Mistral API 요금($0.016/1,000자)을 내야 해요. 프리랜서나 소규모 작업 기준으로는 무료 범위 안에서도 충분히 테스트해볼 수 있어요.
Q. ElevenLabs와 어떤 상황에서 Voxtral이 더 나은가요?
영어 음성 콘텐츠를 많이 만들고 오픈소스 솔루션을 원한다면 Voxtral이 좋아요. 자체 서버에서 돌릴 수 있어서 데이터가 외부로 나가지 않는다는 점이 기업 환경에서 장점이 될 수 있어요. 특히 의료, 법률, 금융처럼 데이터 보안이 중요한 업종에서 로컬 배포가 큰 의미가 있어요. 반면 한국어가 필요하거나 30개 이상 언어, 더빙 기능이 필요하다면 ElevenLabs가 더 적합해요.
Q. 한국어 지원은 언제 추가되나요?
Mistral이 아직 공식 로드맵을 공개하지 않았어요. 현재 9개 언어에 한국어는 포함돼 있지 않고요. 추가될 가능성은 있지만 시점은 불확실해요. 한국어가 필요한 분은 당분간 다른 서비스를 병행하는 게 현실적이에요.
Q. 노트북에서도 Voxtral을 직접 실행할 수 있나요?
Voxtral은 4B 파라미터 모델이라 비교적 가벼워요. Mistral에 따르면 일반 노트북, 중급 데스크톱 GPU, 일부 고성능 모바일 기기에서도 돌아간다고 해요. VRAM 8GB 이상 GPU가 있으면 실시간 스트리밍도 무난해요. CPU만으로도 동작은 하지만 속도가 느릴 수 있어요.
Q. 내 목소리를 복제해서 악용될 수 있나요?
오픈웨이트 모델이라 완전한 통제는 어려운 게 현실이에요. Mistral은 CC BY NC 4.0 라이선스와 사용 정책으로 악용을 제한하고 있어요. 실제로 타인의 목소리를 동의 없이 복제해 사용하는 건 법적·윤리적 문제가 있어요. 자신의 목소리를 복제해 콘텐츠 제작에 쓰는 건 괜찮지만, 타인의 목소리 무단 복제는 피해야 해요.
마무리
Voxtral TTS는 Mistral의 첫 번째 음성 AI 도전이에요. ElevenLabs가 장악한 시장에 오픈웨이트라는 카드를 들고 뛰어들었어요. 가격 경쟁력(최대 12배 저렴), 낮은 지연 속도(70ms), 자체 배포 가능성이라는 세 가지 강점은 분명해요. zero-shot 복제 68.4% 승률은 자체 평가지만 무시하기 어려운 숫자예요.
다만 한국어가 없고, 출시 초기 목소리 복제 일관성 문제가 있었고, ElevenLabs의 더빙 파이프라인 같은 완성도 높은 기능은 아직 없어요. 모든 상황에서 ElevenLabs를 대체하기보다는 “영어 음성, 오픈소스, 데이터 주권”이 필요한 특정 시나리오에서 강점이 있는 도구예요.
영어 음성 작업을 많이 하는 개발자나 크리에이터라면 한번 시도해볼 가치는 충분해요. 오픈소스라서 직접 돌려보는 데 돈이 들지 않거든요.
GoCodeLab에서는 AI 도구를 직접 써보고 솔직하게 알려드려요. 새 글이 올라올 때마다 받아보고 싶다면 블로그를 구독해주세요.
이 글은 2026년 3월 29일에 작성됐어요. Mistral Voxtral TTS는 출시 초기 단계이고 스펙·가격은 변경될 수 있어요. 최신 정보는 공식 Mistral 문서를 확인해주세요.
관련 글: Mistral Small 4 나왔어요 · LTX 2.3 써봤어요 · MCP 프로토콜이 9천700만 설치 넘었어요