반응형
블로그 이미지
개발자로서 현장에서 일하면서 새로 접하는 기술들이나 알게된 정보 등을 정리하기 위한 블로그입니다. 운 좋게 미국에서 큰 회사들의 프로젝트에서 컬설턴트로 일하고 있어서 새로운 기술들을 접할 기회가 많이 있습니다. 미국의 IT 프로젝트에서 사용되는 툴들에 대해 많은 분들과 정보를 공유하고 싶습니다.
솔웅

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

카테고리


반응형

🎬 최종 결과물

클론 목소리로 만든 Live #11 하이라이트 영상 — 한국어·영어 버전 동시 제작했습니다.

🇰🇷 한국어 영상 (15분 46초)

https://youtu.be/2wk0_VQx9I8

 

🇺🇸

 영어 영상 (13분 9초)

https://youtu.be/WwgQDPXcHWs

 

 

지금 이 영상의 나레이션, 제 진짜 목소리가 아닙니다.

알리바바 Qwen3-TTS가 3초짜리 제 음성 샘플 하나로 복제한 AI 버전입니다.

캘린더로는 12일, 실제 집중 작업 시간은 단 18시간이었습니다.

이 글에서는 그 여정 전체 — 기술 선택부터 샘플 튜닝, 영상 파이프라인 연동까지 — 를 정리합니다.


🤖 Qwen3-TTS란?

알리바바 Qwen 팀이 2026년 1월 Apache-2.0으로 공개한 오픈소스 TTS(텍스트 음성 변환) 모델 패밀리입니다.

핵심 기능은 두 가지입니다.

  • Voice Clone (VC): 3초 음성 샘플만으로 실제 목소리 복제
  • Voice Design (VD): "차분한 30대 여성" 같은 자연어 프롬프트로 원하는 음색 설계

10개 언어(한국어 포함)를 지원하고, Apache-2.0이라 상업적으로도 자유롭게 사용 가능합니다.

📌 공식 GitHub: https://github.com/QwenLM/Qwen3-TTS

 

GitHub - QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, support

Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice...

github.com

 

💻 로컬 vs API — 저는 API를 선택했습니다

Qwen3-TTS를 실행하는 방법은 두 가지입니다.

방식 장점 단점
로컬 설치 무료, 데이터 외부 전송 없음 GPU 필수 (최소 RTX 3060, 12GB VRAM)
DashScope API PC 사양 무관, 즉시 시작 유료 (약 $0.014/1,000자)

제 PC는 Intel i7-1355U(15W 저전력) + 내장 그래픽으로 GPU가 없습니다.

자연스럽게 **Alibaba Cloud DashScope Intl API(싱가포르 서버)**를 선택했습니다.

📌 DashScope API: https://www.alibabacloud.com/

 

Alibaba Cloud: 클라우드 컴퓨팅 서비스

Alibaba Cloud는 전 세계적으로 확장 가능하고 안전하며 안정적인 클라우드 컴퓨팅 서비스를 제공하는 세계 최고의 클라우드 컴퓨팅 및 인공 지능 기술 회사입니다. 무료 평가판을 제공하고 종량제

www.alibabacloud.com

 

📚 어떻게 배웠나 — VibeLearn AI

이번 학습에는 제가 직접 만든 VibeLearn AI 방법론을 활용했습니다.

Topic을 정하고 → AI와 함께 Roadmap을 만들고 → 매일 실습하며 WorkLog를 남기는 구조입니다.

중요한 건 처음부터 "배워서 무엇을 만들 것인지" 까지 목표로 설정한다는 점입니다.

이번 목표: "Qwen3-TTS를 배워서 Remotion 영상에 클론 목소리를 연동한다"

덕분에 학습이 끝났을 때 Live 11회 영상이 완성되어 있었습니다.

📌 VibeLearn AI (무료): https://github.com/solkit70/VibeLearn-AI

 

GitHub - solkit70/VibeLearn-AI

Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.

github.com

 

🎤 Voice Clone 과정 — 2단계

API 사용 방법은 생각보다 간단합니다.

Step 1 — 음성 등록 (~4초)

# 샘플 업로드 → voice_id 발급

response = dashscope.MultiModalConversation.call(

    model="qwen3-tts-vc-2026-01-22",

    ref_audio="샘플.mp3",

    ...

)

voice_id = response.output.voice_id

 

Step 2 — 음성 합성 (~10초)

# 텍스트 + voice_id → 클론 목소리

response = dashscope.MultiModalConversation.call(

    model="qwen3-tts-vc-2026-01-22",

    text="합성할 텍스트",

    voice=voice_id,

    stream=False,

)

 

두 단계면 끝입니다. 코드 작업은 VibeCoding(AI 협업 코딩)으로 처리해서 직접 한 줄도 짜지 않았습니다.

⚠️ 주의: 싱가포르 서버(글로벌) 사용자는 Voice Clone(VC)만 가능합니다. Voice Design(VD)은 중국 서버 전용입니다.


🔧 샘플 품질 튜닝 — 3점 → 4점

처음 클론 결과는 5점 만점에 3점이었습니다. 음색은 비슷한데 끊김이 있었습니다.

개선 포인트:

  1. 샘플 녹음 방식 변경: 단어를 끊지 않고 방송 진행하듯 흐르게 읽기 (v1→v4)
  2. ffmpeg 후처리: atempo=1.08 (8% 가속)로 자연스러운 속도 조정

ffmpeg -i input.wav -filter:a "atempo=1.08" output.wav -y

 

결과: 4점 달성. changsoo_final.wav 최종 채택.


💡 실험하면서 발견한 팁들

한국어 콘텐츠엔 한국어 프롬프트

Voice Design 프롬프트를 영어로 입력했더니 일본인이 한국어를 하는 듯한 억양이 나왔습니다. 한국어로 프롬프트를 쓰면 훨씬 자연스럽습니다.

비용 절감 팁

작업 중에는 무료 edge-tts로 영상 타이밍을 먼저 맞추고, 최종본에서만 Qwen3-TTS로 교체하면 비용을 크게 줄일 수 있습니다. 15개 슬라이드 전체 생성 비용은 약 $0.30이었습니다.

이미지 생성 팁

이미지 API를 바로 쓰지 말고, 먼저 AI에게 프롬프트를 만들게 한 다음 ChatGPT·Gemini·Claude에 동시에 넣어 결과를 비교하세요. 제 경험상 ChatGPT와 Gemini가 품질이 가장 좋았습니다.


📁 학습 자료 전체 공개

로드맵, 워크로그 6개, 실습 코드 전부 GitHub에 공개했습니다.

📌 학습 자료: https://github.com/solkit70/CatchUpAI_VL/tree/main/Topics/Qwen3-TTS

 

CatchUpAI_VL/Topics/Qwen3-TTS at main · solkit70/CatchUpAI_VL

Catch Up AI Vibe Learning - AI와 함께하는 체계적인 학습 방법론. Contribute to solkit70/CatchUpAI_VL development by creating an account on GitHub.

github.com

 

VibeLearn AI를 써보고 싶으신 분은 아래에서 무료로 다운받으실 수 있습니다.

배우고 싶은 Topic을 정한 뒤, AI에게 "이걸 배워서 ○○에 활용하고 싶다" 고 말하면 그 목적까지 포함한 Roadmap이 만들어집니다.

📌 VibeLearn AI: https://github.com/solkit70/VibeLearn-AI

 

GitHub - solkit70/VibeLearn-AI

Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.

github.com

 

🔗 참고 링크 모음


더 궁금하신 점은 댓글로 남겨 주세요.

매주 일요일 밤 9시(한국 시간), 새벽 5시(시애틀)에 라이브 방송도 진행합니다 📺

 

 

반응형