IT 기술 따라잡기 :: 내 목소리를 AI로 복제했습니다

Catchup AI

내 목소리를 AI로 복제했습니다 — Qwen3-TTS 12일·18시간 실전 기록

2026. 6. 2. 22:04 | Posted by 솔웅

🎬 최종 결과물

클론 목소리로 만든 Live #11 하이라이트 영상 — 한국어·영어 버전 동시 제작했습니다.

🇰🇷 한국어 영상 (15분 46초)

https://youtu.be/2wk0_VQx9I8

🇺🇸

영어 영상 (13분 9초)

https://youtu.be/WwgQDPXcHWs

지금 이 영상의 나레이션, 제 진짜 목소리가 아닙니다.

알리바바 Qwen3-TTS가 3초짜리 제 음성 샘플 하나로 복제한 AI 버전입니다.

캘린더로는 12일, 실제 집중 작업 시간은 단 18시간이었습니다.

이 글에서는 그 여정 전체 — 기술 선택부터 샘플 튜닝, 영상 파이프라인 연동까지 — 를 정리합니다.

🤖 Qwen3-TTS란?

알리바바 Qwen 팀이 2026년 1월 Apache-2.0으로 공개한 오픈소스 TTS(텍스트 음성 변환) 모델 패밀리입니다.

핵심 기능은 두 가지입니다.

Voice Clone (VC): 3초 음성 샘플만으로 실제 목소리 복제
Voice Design (VD): "차분한 30대 여성" 같은 자연어 프롬프트로 원하는 음색 설계

10개 언어(한국어 포함)를 지원하고, Apache-2.0이라 상업적으로도 자유롭게 사용 가능합니다.

📌 공식 GitHub: https://github.com/QwenLM/Qwen3-TTS

GitHub - QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, support

Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice...

github.com

💻 로컬 vs API — 저는 API를 선택했습니다

Qwen3-TTS를 실행하는 방법은 두 가지입니다.

방식	장점	단점
로컬 설치	무료, 데이터 외부 전송 없음	GPU 필수 (최소 RTX 3060, 12GB VRAM)
DashScope API	PC 사양 무관, 즉시 시작	유료 (약 $0.014/1,000자)

제 PC는 Intel i7-1355U(15W 저전력) + 내장 그래픽으로 GPU가 없습니다.

자연스럽게 **Alibaba Cloud DashScope Intl API(싱가포르 서버)**를 선택했습니다.

📌 DashScope API: https://www.alibabacloud.com/

Alibaba Cloud: 클라우드 컴퓨팅 서비스

Alibaba Cloud는 전 세계적으로 확장 가능하고 안전하며 안정적인 클라우드 컴퓨팅 서비스를 제공하는 세계 최고의 클라우드 컴퓨팅 및 인공 지능 기술 회사입니다. 무료 평가판을 제공하고 종량제

www.alibabacloud.com

📚 어떻게 배웠나 — VibeLearn AI

이번 학습에는 제가 직접 만든 VibeLearn AI 방법론을 활용했습니다.

Topic을 정하고 → AI와 함께 Roadmap을 만들고 → 매일 실습하며 WorkLog를 남기는 구조입니다.

중요한 건 처음부터 "배워서 무엇을 만들 것인지" 까지 목표로 설정한다는 점입니다.

이번 목표: "Qwen3-TTS를 배워서 Remotion 영상에 클론 목소리를 연동한다"

덕분에 학습이 끝났을 때 Live 11회 영상이 완성되어 있었습니다.

📌 VibeLearn AI (무료): https://github.com/solkit70/VibeLearn-AI

GitHub - solkit70/VibeLearn-AI

Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.

github.com

🎤 Voice Clone 과정 — 2단계

API 사용 방법은 생각보다 간단합니다.

Step 1 — 음성 등록 (~4초)

# 샘플 업로드 → voice_id 발급

response = dashscope.MultiModalConversation.call(

model="qwen3-tts-vc-2026-01-22",

ref_audio="샘플.mp3",

...

)

voice_id = response.output.voice_id

Step 2 — 음성 합성 (~10초)

# 텍스트 + voice_id → 클론 목소리

response = dashscope.MultiModalConversation.call(

model="qwen3-tts-vc-2026-01-22",

text="합성할 텍스트",

voice=voice_id,

stream=False,

)

두 단계면 끝입니다. 코드 작업은 VibeCoding(AI 협업 코딩)으로 처리해서 직접 한 줄도 짜지 않았습니다.

⚠️ 주의: 싱가포르 서버(글로벌) 사용자는 Voice Clone(VC)만 가능합니다. Voice Design(VD)은 중국 서버 전용입니다.

🔧 샘플 품질 튜닝 — 3점 → 4점

처음 클론 결과는 5점 만점에 3점이었습니다. 음색은 비슷한데 끊김이 있었습니다.

개선 포인트:

샘플 녹음 방식 변경: 단어를 끊지 않고 방송 진행하듯 흐르게 읽기 (v1→v4)
ffmpeg 후처리: atempo=1.08 (8% 가속)로 자연스러운 속도 조정

ffmpeg -i input.wav -filter:a "atempo=1.08" output.wav -y

결과: 4점 달성. changsoo_final.wav 최종 채택.

💡 실험하면서 발견한 팁들

한국어 콘텐츠엔 한국어 프롬프트

Voice Design 프롬프트를 영어로 입력했더니 일본인이 한국어를 하는 듯한 억양이 나왔습니다. 한국어로 프롬프트를 쓰면 훨씬 자연스럽습니다.

비용 절감 팁

작업 중에는 무료 edge-tts로 영상 타이밍을 먼저 맞추고, 최종본에서만 Qwen3-TTS로 교체하면 비용을 크게 줄일 수 있습니다. 15개 슬라이드 전체 생성 비용은 약 $0.30이었습니다.

이미지 생성 팁

이미지 API를 바로 쓰지 말고, 먼저 AI에게 프롬프트를 만들게 한 다음 ChatGPT·Gemini·Claude에 동시에 넣어 결과를 비교하세요. 제 경험상 ChatGPT와 Gemini가 품질이 가장 좋았습니다.

📁 학습 자료 전체 공개

로드맵, 워크로그 6개, 실습 코드 전부 GitHub에 공개했습니다.

📌 학습 자료: https://github.com/solkit70/CatchUpAI_VL/tree/main/Topics/Qwen3-TTS

CatchUpAI_VL/Topics/Qwen3-TTS at main · solkit70/CatchUpAI_VL

Catch Up AI Vibe Learning - AI와 함께하는 체계적인 학습 방법론. Contribute to solkit70/CatchUpAI_VL development by creating an account on GitHub.

github.com

VibeLearn AI를 써보고 싶으신 분은 아래에서 무료로 다운받으실 수 있습니다.

배우고 싶은 Topic을 정한 뒤, AI에게 "이걸 배워서 ○○에 활용하고 싶다" 고 말하면 그 목적까지 포함한 Roadmap이 만들어집니다.

📌 VibeLearn AI: https://github.com/solkit70/VibeLearn-AI

GitHub - solkit70/VibeLearn-AI

Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.

github.com

🔗 참고 링크 모음

자료	링크
Qwen3-TTS 공식 GitHub	https://github.com/QwenLM/Qwen3-TTS
DashScope Intl API	https://www.alibabacloud.com/
학습 자료 (GitHub)	https://github.com/solkit70/CatchUpAI_VL/tree/main/Topics/Qwen3-TTS
VibeLearn AI	https://github.com/solkit70/VibeLearn-AI
한국어 영상	https://youtu.be/2wk0_VQx9I8
영어 영상	https://youtu.be/WwgQDPXcHWs
Catch Up AI 채널	https://www.youtube.com/@catchupai
Catch Up AI 웹사이트	https://catchupai.net

더 궁금하신 점은 댓글로 남겨 주세요.

매주 일요일 밤 9시(한국 시간), 새벽 5시(시애틀)에 라이브 방송도 진행합니다 📺

저작자표시 (새창열림)

'Catchup AI' 카테고리의 다른 글

AI 녹음 기기, 미국에서 써도 됩니까? — Limitless·Meta 안경·Otter.ai 미국 법 완전 정리 (0)	2026.06.10
AI 시대, 내 기록을 내 자산으로 만드는 법: AI in Action Live #12 요약 (1)	2026.06.07
AI랑 하면 뚝딱? 직접 해보니 현실은 달랐다, AI로 내 목소리 복제 등 AI 실험 주간 요약 (0)	2026.05.27
모두가 자신의 무가치함과 싸우고 있다 — AI 시대, 우리는 더 쓸모 없어 지는가? (0)	2026.05.23
[AI in Action Live #10] Qwen3-TTS 직접 실험 — 로컬 설치 실패 후 API로 전환한 이야기 (0)	2026.05.20
시애틀 한인 AI 빌더 커뮤니티 "Builders Lounge" 창립 모임 — AI가 나 대신 포스팅하는 시대가 열렸다 (0)	2026.05.16
AI in Action #9 — 시애틀에서 시도하는 AI 일상 적용 실험 기록 (0)	2026.05.15
시애틀 사람들은 AI를 어떻게 느낄까? — 거부부터 열정까지 5가지 민심 + 법명 받은 AI 스님 (1)	2026.05.09
AI in Action Live 8회 요약 — 한 주에 콘텐츠 7편, 그리고 AI가 내 마음을 읽은 순간 (0)	2026.05.06
AI 시대, 진짜 희소한 것은 '휴먼터치'다 — 한국어 + 영어 버전 동시 공개 (1)	2026.05.03

IT 기술 따라잡기

공지사항

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

카테고리

내 목소리를 AI로 복제했습니다 — Qwen3-TTS 12일·18시간 실전 기록

🎬 최종 결과물

🤖 Qwen3-TTS란?

💻 로컬 vs API — 저는 API를 선택했습니다

📚 어떻게 배웠나 — VibeLearn AI

🎤 Voice Clone 과정 — 2단계

🔧 샘플 품질 튜닝 — 3점 → 4점

💡 실험하면서 발견한 팁들

📁 학습 자료 전체 공개

🔗 참고 링크 모음

'Catchup AI' 카테고리의 다른 글

티스토리툴바