🎬 최종 결과물
클론 목소리로 만든 Live #11 하이라이트 영상 — 한국어·영어 버전 동시 제작했습니다.
🇰🇷 한국어 영상 (15분 46초)
🇺🇸
영어 영상 (13분 9초)
지금 이 영상의 나레이션, 제 진짜 목소리가 아닙니다.
알리바바 Qwen3-TTS가 3초짜리 제 음성 샘플 하나로 복제한 AI 버전입니다.
캘린더로는 12일, 실제 집중 작업 시간은 단 18시간이었습니다.
이 글에서는 그 여정 전체 — 기술 선택부터 샘플 튜닝, 영상 파이프라인 연동까지 — 를 정리합니다.
🤖 Qwen3-TTS란?
알리바바 Qwen 팀이 2026년 1월 Apache-2.0으로 공개한 오픈소스 TTS(텍스트 음성 변환) 모델 패밀리입니다.
핵심 기능은 두 가지입니다.
- Voice Clone (VC): 3초 음성 샘플만으로 실제 목소리 복제
- Voice Design (VD): "차분한 30대 여성" 같은 자연어 프롬프트로 원하는 음색 설계
10개 언어(한국어 포함)를 지원하고, Apache-2.0이라 상업적으로도 자유롭게 사용 가능합니다.
📌 공식 GitHub: https://github.com/QwenLM/Qwen3-TTS
GitHub - QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, support
Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice...
github.com
💻 로컬 vs API — 저는 API를 선택했습니다
Qwen3-TTS를 실행하는 방법은 두 가지입니다.
| 방식 | 장점 | 단점 |
| 로컬 설치 | 무료, 데이터 외부 전송 없음 | GPU 필수 (최소 RTX 3060, 12GB VRAM) |
| DashScope API | PC 사양 무관, 즉시 시작 | 유료 (약 $0.014/1,000자) |
제 PC는 Intel i7-1355U(15W 저전력) + 내장 그래픽으로 GPU가 없습니다.
자연스럽게 **Alibaba Cloud DashScope Intl API(싱가포르 서버)**를 선택했습니다.
📌 DashScope API: https://www.alibabacloud.com/
Alibaba Cloud: 클라우드 컴퓨팅 서비스
Alibaba Cloud는 전 세계적으로 확장 가능하고 안전하며 안정적인 클라우드 컴퓨팅 서비스를 제공하는 세계 최고의 클라우드 컴퓨팅 및 인공 지능 기술 회사입니다. 무료 평가판을 제공하고 종량제
www.alibabacloud.com
📚 어떻게 배웠나 — VibeLearn AI
이번 학습에는 제가 직접 만든 VibeLearn AI 방법론을 활용했습니다.
Topic을 정하고 → AI와 함께 Roadmap을 만들고 → 매일 실습하며 WorkLog를 남기는 구조입니다.
중요한 건 처음부터 "배워서 무엇을 만들 것인지" 까지 목표로 설정한다는 점입니다.
이번 목표: "Qwen3-TTS를 배워서 Remotion 영상에 클론 목소리를 연동한다"
덕분에 학습이 끝났을 때 Live 11회 영상이 완성되어 있었습니다.
📌 VibeLearn AI (무료): https://github.com/solkit70/VibeLearn-AI
GitHub - solkit70/VibeLearn-AI
Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.
github.com
🎤 Voice Clone 과정 — 2단계
API 사용 방법은 생각보다 간단합니다.
Step 1 — 음성 등록 (~4초)
# 샘플 업로드 → voice_id 발급
response = dashscope.MultiModalConversation.call(
model="qwen3-tts-vc-2026-01-22",
ref_audio="샘플.mp3",
...
)
voice_id = response.output.voice_id
Step 2 — 음성 합성 (~10초)
# 텍스트 + voice_id → 클론 목소리
response = dashscope.MultiModalConversation.call(
model="qwen3-tts-vc-2026-01-22",
text="합성할 텍스트",
voice=voice_id,
stream=False,
)
두 단계면 끝입니다. 코드 작업은 VibeCoding(AI 협업 코딩)으로 처리해서 직접 한 줄도 짜지 않았습니다.
⚠️ 주의: 싱가포르 서버(글로벌) 사용자는 Voice Clone(VC)만 가능합니다. Voice Design(VD)은 중국 서버 전용입니다.
🔧 샘플 품질 튜닝 — 3점 → 4점
처음 클론 결과는 5점 만점에 3점이었습니다. 음색은 비슷한데 끊김이 있었습니다.
개선 포인트:
- 샘플 녹음 방식 변경: 단어를 끊지 않고 방송 진행하듯 흐르게 읽기 (v1→v4)
- ffmpeg 후처리: atempo=1.08 (8% 가속)로 자연스러운 속도 조정
ffmpeg -i input.wav -filter:a "atempo=1.08" output.wav -y
결과: 4점 달성. changsoo_final.wav 최종 채택.
💡 실험하면서 발견한 팁들
한국어 콘텐츠엔 한국어 프롬프트
Voice Design 프롬프트를 영어로 입력했더니 일본인이 한국어를 하는 듯한 억양이 나왔습니다. 한국어로 프롬프트를 쓰면 훨씬 자연스럽습니다.
비용 절감 팁
작업 중에는 무료 edge-tts로 영상 타이밍을 먼저 맞추고, 최종본에서만 Qwen3-TTS로 교체하면 비용을 크게 줄일 수 있습니다. 15개 슬라이드 전체 생성 비용은 약 $0.30이었습니다.
이미지 생성 팁
이미지 API를 바로 쓰지 말고, 먼저 AI에게 프롬프트를 만들게 한 다음 ChatGPT·Gemini·Claude에 동시에 넣어 결과를 비교하세요. 제 경험상 ChatGPT와 Gemini가 품질이 가장 좋았습니다.
📁 학습 자료 전체 공개
로드맵, 워크로그 6개, 실습 코드 전부 GitHub에 공개했습니다.
📌 학습 자료: https://github.com/solkit70/CatchUpAI_VL/tree/main/Topics/Qwen3-TTS
CatchUpAI_VL/Topics/Qwen3-TTS at main · solkit70/CatchUpAI_VL
Catch Up AI Vibe Learning - AI와 함께하는 체계적인 학습 방법론. Contribute to solkit70/CatchUpAI_VL development by creating an account on GitHub.
github.com
VibeLearn AI를 써보고 싶으신 분은 아래에서 무료로 다운받으실 수 있습니다.
배우고 싶은 Topic을 정한 뒤, AI에게 "이걸 배워서 ○○에 활용하고 싶다" 고 말하면 그 목적까지 포함한 Roadmap이 만들어집니다.
📌 VibeLearn AI: https://github.com/solkit70/VibeLearn-AI
GitHub - solkit70/VibeLearn-AI
Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.
github.com
🔗 참고 링크 모음
| 자료 | 링크 |
| Qwen3-TTS 공식 GitHub | https://github.com/QwenLM/Qwen3-TTS |
| DashScope Intl API | https://www.alibabacloud.com/ |
| 학습 자료 (GitHub) | https://github.com/solkit70/CatchUpAI_VL/tree/main/Topics/Qwen3-TTS |
| VibeLearn AI | https://github.com/solkit70/VibeLearn-AI |
| 한국어 영상 | https://youtu.be/2wk0_VQx9I8 |
| 영어 영상 | https://youtu.be/WwgQDPXcHWs |
| Catch Up AI 채널 | https://www.youtube.com/@catchupai |
| Catch Up AI 웹사이트 | https://catchupai.net |
더 궁금하신 점은 댓글로 남겨 주세요.
매주 일요일 밤 9시(한국 시간), 새벽 5시(시애틀)에 라이브 방송도 진행합니다 📺


'Catchup AI' 카테고리의 다른 글
| AI 녹음 기기, 미국에서 써도 됩니까? — Limitless·Meta 안경·Otter.ai 미국 법 완전 정리 (0) | 2026.06.10 |
|---|---|
| AI 시대, 내 기록을 내 자산으로 만드는 법: AI in Action Live #12 요약 (1) | 2026.06.07 |
| AI랑 하면 뚝딱? 직접 해보니 현실은 달랐다, AI로 내 목소리 복제 등 AI 실험 주간 요약 (0) | 2026.05.27 |
| 모두가 자신의 무가치함과 싸우고 있다 — AI 시대, 우리는 더 쓸모 없어 지는가? (0) | 2026.05.23 |
| [AI in Action Live #10] Qwen3-TTS 직접 실험 — 로컬 설치 실패 후 API로 전환한 이야기 (0) | 2026.05.20 |
| 시애틀 한인 AI 빌더 커뮤니티 "Builders Lounge" 창립 모임 — AI가 나 대신 포스팅하는 시대가 열렸다 (0) | 2026.05.16 |
| AI in Action #9 — 시애틀에서 시도하는 AI 일상 적용 실험 기록 (0) | 2026.05.15 |
| 시애틀 사람들은 AI를 어떻게 느낄까? — 거부부터 열정까지 5가지 민심 + 법명 받은 AI 스님 (1) | 2026.05.09 |
| AI in Action Live 8회 요약 — 한 주에 콘텐츠 7편, 그리고 AI가 내 마음을 읽은 순간 (0) | 2026.05.06 |
| AI 시대, 진짜 희소한 것은 '휴먼터치'다 — 한국어 + 영어 버전 동시 공개 (1) | 2026.05.03 |
