반응형
블로그 이미지
개발자로서 현장에서 일하면서 새로 접하는 기술들이나 알게된 정보 등을 정리하기 위한 블로그입니다. 운 좋게 미국에서 큰 회사들의 프로젝트에서 컬설턴트로 일하고 있어서 새로운 기술들을 접할 기회가 많이 있습니다. 미국의 IT 프로젝트에서 사용되는 툴들에 대해 많은 분들과 정보를 공유하고 싶습니다.
솔웅

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

카테고리


반응형

AI 기술이 빠르게 발전하면서 녹음·녹화 기능을 갖춘 AI 기기들이 속속 등장하고 있습니다.

Limitless AI 펜던트, Meta Ray-Ban 스마트 글래스, Otter.ai, Fireflies.ai...

 

한국에서도 이름은 많이 들어보셨을 겁니다.

그런데 막상 이런 기기들을 쓰려고 할 때 이런 생각이 드신 적 없으신가요?

 

"이거, 법적으로 괜찮은 거 맞지?"

 

특히 미국을 여행하거나 미국 비즈니스를 하시는 분들이라면 한 번쯤 짚어봐야 할 문제입니다.



## 미국 녹음법, 생각보다 훨씬 복잡합니다

 

한국은 대화 당사자 한 명이 동의하면 녹음이 가능합니다.

하지만 미국은 주(州)마다 법이 다릅니다.

 

크게 두 가지로 나뉩니다:

 

- **일방 동의제 (One-Party Consent)**: 대화 참여자 중 한 명만 동의해도 녹음 가능 (연방법 포함)

- **전면 동의제 (All-Party Consent)**: 대화에 참여하는 모든 사람의 동의가 필요

 

캘리포니아, 워싱턴, 일리노이 등 11개 주가 전면 동의제를 채택하고 있습니다.

이를 어기면 민사 소송은 물론 형사처벌까지 받을 수 있습니다.

 

AI 기기를 아무 생각 없이 켜두었다가 법을 위반하는 상황이 충분히 발생할 수 있다는 뜻입니다.



## 직접 리서치해서 영상으로 만들었습니다

 

이 주제를 AI와 함께 직접 파헤쳐서 영상으로 만들었습니다.

 

**다루는 내용:**

- 미국 연방법 vs 주법, 어떻게 다른가?

- Limitless AI 펜던트 — 합법인가 불법인가?

- Meta Ray-Ban 글래스 — 몰래 촬영하면 어떻게 되나?

- Otter.ai / Fireflies.ai — 업무 회의 녹음, 어디까지 괜찮나?

- AI 음성 복제 — 내 목소리로 만드는 건 합법인가?

- AI 크리에이터를 위한 3가지 실용 원칙



## 영상 보기

 

한국어 버전과 영어 버전 모두 제작했습니다.

 

**🇰🇷 한국어 버전**

▶️ https://youtu.be/mQHoEj0_1KE

 

**🇺🇸 영어 버전**

▶️ https://youtu.be/NCWlam9t9cY

 

 

영상에는 챕터가 나뉘어 있어서 궁금한 부분만 골라 보실 수 있습니다.

AI 기기에 관심 있으신 분, 미국 여행이나 출장 계획 있으신 분, 

콘텐츠 크리에이터로 활동하시는 분들께 특히 도움이 될 내용입니다.


그리고 전체 Research 내용은 아래 GitHub Repository 에 공유했습니다.
CatchUpAI_VL/Topics/WA-Recording-Law at main · solkit70/CatchUpAI_VL

 

CatchUpAI_VL/Topics/WA-Recording-Law at main · solkit70/CatchUpAI_VL

Catch Up AI Vibe Learning - AI와 함께하는 체계적인 학습 방법론. Contribute to solkit70/CatchUpAI_VL development by creating an account on GitHub.

github.com

 

반응형


반응형

AI in Action Live #12 요약 영상을 업로드했습니다.

이번 영상에서 가장 중요하게 이야기하고 싶었던 주제는 “기록이 AI의 컨텍스트가 된다”는 것입니다.

예전에는 데이터를 모으고, 정리하고, 데이터베이스에 넣고, 앱으로 활용하는 일이 쉽지 않았습니다. 그래서 우리가 인터넷에서 만들어내는 많은 데이터는 구글, 페이스북, 애플, 마이크로소프트 같은 빅테크 기업들이 주로 가져가고 활용했습니다.

하지만 AI 시대에는 상황이 달라지고 있습니다.

이제는 꼭 복잡한 데이터베이스나 앱을 만들지 않아도, 우리가 매일 남기는 자연어 기록이 AI에게 바로 쓸 수 있는 컨텍스트가 될 수 있습니다. 회의 메모, 학습 기록, 프로젝트 로그, 아이디어, 대화 내용, 콘텐츠 제작 과정 같은 것들이 모두 나중에 AI와 함께 다시 활용할 수 있는 개인 데이터가 됩니다.

그래서 앞으로 중요한 질문은 “AI가 무엇을 할 수 있나?”뿐만 아니라 “나는 AI에게 줄 나만의 컨텍스트를 만들고 있나?”가 될 것 같습니다.

이번 Live #12 요약 영상에서는 이런 핵심 메시지를 바탕으로 지난주에 진행한 여러 실험을 정리했습니다.

- AI로 라이브 방송을 요약 영상으로 만드는 과정
- 한국어 영상을 영어 영상으로 확장하는 작업
- CMDS x GOBI Cohort 1기 마지막 세션 회고
- Builders Lounge 2차 모임과 AI 코디네이터 구상
- GOBI Desktop으로 방송 진행을 돕는 실험
- Catch Up AI 웹사이트를 AI 코딩으로 수정하고 CI/CD로 배포한 과정
- AI 레코더 사용과 관련된 미국 워싱턴 주 녹화/녹음 법률 학습
- GobiSpace 커스텀 홈페이지 제작 실험
- AI 시대에 개인과 작은 커뮤니티가 할 수 있는 일에 대한 생각

영상은 한국어 버전과 영어 버전으로 각각 업로드했습니다.

한국어 영상:
https://youtu.be/xfwLSFNjvI8

 

영어 영상:
https://youtu.be/4kP_jwZ_PU8

 

AI를 단순히 뉴스나 트렌드로 소비하는 것이 아니라, 내 일상과 일에 직접 적용해 보고 그 과정을 기록으로 남기는 실험을 계속해 보려고 합니다.

이번 영상이 AI 시대에 개인이 데이터를 어떻게 관리하고 활용할 수 있을지 생각해 보는 계기가 되었으면 합니다.

 

 

반응형


반응형

🎬 최종 결과물

클론 목소리로 만든 Live #11 하이라이트 영상 — 한국어·영어 버전 동시 제작했습니다.

🇰🇷 한국어 영상 (15분 46초)

https://youtu.be/2wk0_VQx9I8

 

🇺🇸

 영어 영상 (13분 9초)

https://youtu.be/WwgQDPXcHWs

 

 

지금 이 영상의 나레이션, 제 진짜 목소리가 아닙니다.

알리바바 Qwen3-TTS가 3초짜리 제 음성 샘플 하나로 복제한 AI 버전입니다.

캘린더로는 12일, 실제 집중 작업 시간은 단 18시간이었습니다.

이 글에서는 그 여정 전체 — 기술 선택부터 샘플 튜닝, 영상 파이프라인 연동까지 — 를 정리합니다.


🤖 Qwen3-TTS란?

알리바바 Qwen 팀이 2026년 1월 Apache-2.0으로 공개한 오픈소스 TTS(텍스트 음성 변환) 모델 패밀리입니다.

핵심 기능은 두 가지입니다.

  • Voice Clone (VC): 3초 음성 샘플만으로 실제 목소리 복제
  • Voice Design (VD): "차분한 30대 여성" 같은 자연어 프롬프트로 원하는 음색 설계

10개 언어(한국어 포함)를 지원하고, Apache-2.0이라 상업적으로도 자유롭게 사용 가능합니다.

📌 공식 GitHub: https://github.com/QwenLM/Qwen3-TTS

 

GitHub - QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, support

Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice...

github.com

 

💻 로컬 vs API — 저는 API를 선택했습니다

Qwen3-TTS를 실행하는 방법은 두 가지입니다.

방식 장점 단점
로컬 설치 무료, 데이터 외부 전송 없음 GPU 필수 (최소 RTX 3060, 12GB VRAM)
DashScope API PC 사양 무관, 즉시 시작 유료 (약 $0.014/1,000자)

제 PC는 Intel i7-1355U(15W 저전력) + 내장 그래픽으로 GPU가 없습니다.

자연스럽게 **Alibaba Cloud DashScope Intl API(싱가포르 서버)**를 선택했습니다.

📌 DashScope API: https://www.alibabacloud.com/

 

Alibaba Cloud: 클라우드 컴퓨팅 서비스

Alibaba Cloud는 전 세계적으로 확장 가능하고 안전하며 안정적인 클라우드 컴퓨팅 서비스를 제공하는 세계 최고의 클라우드 컴퓨팅 및 인공 지능 기술 회사입니다. 무료 평가판을 제공하고 종량제

www.alibabacloud.com

 

📚 어떻게 배웠나 — VibeLearn AI

이번 학습에는 제가 직접 만든 VibeLearn AI 방법론을 활용했습니다.

Topic을 정하고 → AI와 함께 Roadmap을 만들고 → 매일 실습하며 WorkLog를 남기는 구조입니다.

중요한 건 처음부터 "배워서 무엇을 만들 것인지" 까지 목표로 설정한다는 점입니다.

이번 목표: "Qwen3-TTS를 배워서 Remotion 영상에 클론 목소리를 연동한다"

덕분에 학습이 끝났을 때 Live 11회 영상이 완성되어 있었습니다.

📌 VibeLearn AI (무료): https://github.com/solkit70/VibeLearn-AI

 

GitHub - solkit70/VibeLearn-AI

Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.

github.com

 

🎤 Voice Clone 과정 — 2단계

API 사용 방법은 생각보다 간단합니다.

Step 1 — 음성 등록 (~4초)

# 샘플 업로드 → voice_id 발급

response = dashscope.MultiModalConversation.call(

    model="qwen3-tts-vc-2026-01-22",

    ref_audio="샘플.mp3",

    ...

)

voice_id = response.output.voice_id

 

Step 2 — 음성 합성 (~10초)

# 텍스트 + voice_id → 클론 목소리

response = dashscope.MultiModalConversation.call(

    model="qwen3-tts-vc-2026-01-22",

    text="합성할 텍스트",

    voice=voice_id,

    stream=False,

)

 

두 단계면 끝입니다. 코드 작업은 VibeCoding(AI 협업 코딩)으로 처리해서 직접 한 줄도 짜지 않았습니다.

⚠️ 주의: 싱가포르 서버(글로벌) 사용자는 Voice Clone(VC)만 가능합니다. Voice Design(VD)은 중국 서버 전용입니다.


🔧 샘플 품질 튜닝 — 3점 → 4점

처음 클론 결과는 5점 만점에 3점이었습니다. 음색은 비슷한데 끊김이 있었습니다.

개선 포인트:

  1. 샘플 녹음 방식 변경: 단어를 끊지 않고 방송 진행하듯 흐르게 읽기 (v1→v4)
  2. ffmpeg 후처리: atempo=1.08 (8% 가속)로 자연스러운 속도 조정

ffmpeg -i input.wav -filter:a "atempo=1.08" output.wav -y

 

결과: 4점 달성. changsoo_final.wav 최종 채택.


💡 실험하면서 발견한 팁들

한국어 콘텐츠엔 한국어 프롬프트

Voice Design 프롬프트를 영어로 입력했더니 일본인이 한국어를 하는 듯한 억양이 나왔습니다. 한국어로 프롬프트를 쓰면 훨씬 자연스럽습니다.

비용 절감 팁

작업 중에는 무료 edge-tts로 영상 타이밍을 먼저 맞추고, 최종본에서만 Qwen3-TTS로 교체하면 비용을 크게 줄일 수 있습니다. 15개 슬라이드 전체 생성 비용은 약 $0.30이었습니다.

이미지 생성 팁

이미지 API를 바로 쓰지 말고, 먼저 AI에게 프롬프트를 만들게 한 다음 ChatGPT·Gemini·Claude에 동시에 넣어 결과를 비교하세요. 제 경험상 ChatGPT와 Gemini가 품질이 가장 좋았습니다.


📁 학습 자료 전체 공개

로드맵, 워크로그 6개, 실습 코드 전부 GitHub에 공개했습니다.

📌 학습 자료: https://github.com/solkit70/CatchUpAI_VL/tree/main/Topics/Qwen3-TTS

 

CatchUpAI_VL/Topics/Qwen3-TTS at main · solkit70/CatchUpAI_VL

Catch Up AI Vibe Learning - AI와 함께하는 체계적인 학습 방법론. Contribute to solkit70/CatchUpAI_VL development by creating an account on GitHub.

github.com

 

VibeLearn AI를 써보고 싶으신 분은 아래에서 무료로 다운받으실 수 있습니다.

배우고 싶은 Topic을 정한 뒤, AI에게 "이걸 배워서 ○○에 활용하고 싶다" 고 말하면 그 목적까지 포함한 Roadmap이 만들어집니다.

📌 VibeLearn AI: https://github.com/solkit70/VibeLearn-AI

 

GitHub - solkit70/VibeLearn-AI

Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.

github.com

 

🔗 참고 링크 모음


더 궁금하신 점은 댓글로 남겨 주세요.

매주 일요일 밤 9시(한국 시간), 새벽 5시(시애틀)에 라이브 방송도 진행합니다 📺

 

 

반응형