반응형
블로그 이미지
개발자로서 현장에서 일하면서 새로 접하는 기술들이나 알게된 정보 등을 정리하기 위한 블로그입니다. 운 좋게 미국에서 큰 회사들의 프로젝트에서 컬설턴트로 일하고 있어서 새로운 기술들을 접할 기회가 많이 있습니다. 미국의 IT 프로젝트에서 사용되는 툴들에 대해 많은 분들과 정보를 공유하고 싶습니다.
솔웅

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

카테고리


반응형

지난 5월 13일, 워싱턴주 벨뷰 시청에서 열린 AI 세미나에 직접 참석해 발표 영상을 촬영했습니다.

"AI가 왜 기업에서 자꾸 실패할까?" 라는 질문을 오랫동안 품고 있었는데, 이날 현장에서 그 답을 꽤 명확하게 들을 수 있었습니다. 요약 영상으로 만들어 Catch Up AI 채널에 공개했으니, 현장에 가지 못하신 분들도 핵심 내용을 빠르게 확인하실 수 있습니다.


이날 발표한 전문가 3인 + 패널 Q&A

🔴 Lana Feng, Ph.D. — Cogzia 공동창업자

MIT 연구 결과 AI 파일럿의 95%는 개념 검증 단계에서 멈춥니다. 실패 원인의 70%는 기술 문제가 아니라 사람의 문제 — 도메인 전문가 참여율이 고작 5%에 불과하기 때문입니다.

에너지 업계에서 2주 걸리던 재무 분석이 AI 도입 후 30분으로 줄었다는 사례도 소개됐는데, 단 한 가지 조건이 있었습니다. 처음부터 도메인 전문가가 AI 개발 루프 안에 있어야 한다는 것.

 

🟠 Alex Thaman — Andesite CTO

보안 분야의 구조적 딜레마를 다뤘습니다. 대기업 Splunk 비용은 연간 최대 $70M(약 950억 원). 로그 데이터는 매년 23% 증가하는데 보안 예산은 16%밖에 늘지 않습니다.

데이터가 늘면 비용이 오르고, 비용이 오르면 수집 범위를 줄이고, 범위가 줄면 보안 사각지대가 생기는 SIEM 둠 루프. 이 악순환을 끊는 열쇠가 AI라고 했습니다.

 

🔵 Aruna Veerappan — Upwork 엔지니어링 시니어 디렉터

가장 충격적인 데이터가 나온 세션이었습니다. Cursor를 도입한 500명 규모 개발팀의 비용이 $30만에서 $100만 이상으로 3배 넘게 급등했습니다. 반면, LangGraph 3단계 아키텍처로 재설계한 팀은 20배 절감에 성공했습니다.

같은 AI 도구 시대라도 어떻게 설계하느냐가 비용 구조 자체를 결정한다는 것이 이날 현장의 결론이었습니다.

🟣 패널 전체 Q&A

 

"현장에서 가장 무서운 보안 위협은 퀀텀 컴퓨팅인가?" 라는 질문에 금융기관 관계자가 단호하게 답했습니다. "아니요. 지금 당장 1위는 여전히 2FA 피싱입니다."

오픈소스 AI 모델의 보안 리스크로 정부 기관이 Anthropic 계약을 중도 해지했다는 실제 사례도 공개됐고, AI ROI는 코드 생성량이 아닌 **수용률(adoption rate)**로 측정해야 한다는 제안도 인상적이었습니다.


요약 영상 바로 보기

현장 발표 4개의 핵심을 2분으로 정리했습니다.

🇰🇷 한국어 버전

https://youtu.be/Atjn75QCbSM

 

🇺🇸 English Version

https://youtu.be/HppGRRENcPk

 

풀 영상이 궁금하신 분들께

발표 4개의 풀 영상(각 30~35분)은 현재 Catch Up AI 채널 멤버 전용으로 공개되어 있습니다. 주 2편씩 일반 공개로 전환될 예정이니, 멤버십에 가입하시면 가장 먼저 보실 수 있습니다.

멤버십은 월 $1.99(커피 한 잔)부터 시작합니다.

👉 youtube.com/@catchupai → 멤버 가입

시애틀·벨뷰 지역 AI 현장 영상을 계속 올릴 예정입니다. 구독과 좋아요로 응원해 주세요 🙏

 

 


#AI #인공지능 #엔터프라이즈AI #AI파일럿 #보안 #시애틀 #CatchUpAI #AI에이전트 #LangGraph #유튜브

 

반응형


반응형

올해 Catch Up AI는 하나의 목표를 가지고 달리고 있습니다.

AI를 일상에 직접 적용해 보는 실험들, 그리고 그 과정에서 얻은 인사이트를 솔직하게 나누는 것.

이번 13회 라이브 요약 영상에서도 실험 3가지를 진행했고, 그 과정에서 꽤 중요한 깨달음을 하나 얻었습니다.


💡 핵심 인사이트: 기록이 AI의 작업 환경이 된다

AI가 갑자기 더 똑똑해진 게 아닙니다.

AI와 함께 한 작업들을 기록해 뒀기 때문에 가능했던 겁니다.

AI는 자연어 문서를 빠르게 읽고 정리합니다. 기록이 쌓일수록 AI가 받는 컨텍스트가 풍부해지고, 그 컨텍스트는 다음 작업으로 이어집니다. 기록은 AI에게 주는 배경 정보가 아니라, AI가 실제로 일할 수 있게 해주는 작업 환경입니다.


🧪 이번 방송의 실험들

실험 0 — 런다운을 캔버스로 전환

방송 준비 문서를 AI가 읽고 시각적인 캔버스 맵으로 구조화했습니다. 참조 문서가 있을 때 AI의 능력이 얼마나 달라지는지 직접 확인했습니다.

실험 1 — AI 기기와 녹음법 사이의 간극 연구

Limitless 같은 AI 웨어러블이 빠르게 확산되는 반면, 법과 사회적 대응은 아직 따라오지 못하고 있습니다. Washington State 녹음법을 AI 에이전트와 함께 연구하고 GitHub에 공개 자료로 정리했습니다.

실험 2 — 연구 결과를 Remotion 영상 콘텐츠로

실험 1에서 쌓은 연구 자료를 바탕으로 AI 영상까지 제작했습니다. 공부한 내용이 곧 콘텐츠가 되는 구조, 직접 만들어 봤습니다.


🛠️ 나만의 AI 작업 환경을 만드는 공식

기록 위치 설정 → 정보 축적 → 반복 작업을 프롬프트로 → AI 실행 → 결과 검증 후 다시 기록

이 루틴을 매주 직접 실천하면서 AI가 점점 나에게 맞는 도구로 바뀌어 가는 걸 체감하고 있습니다.


🎬 영상 바로 보기

한국어 버전과 영어 버전 모두 준비했습니다.

🇰🇷 한국어 버전: https://youtu.be/eL2TOtFXJNI

 

🇺🇸 영어 버전: https://youtu.be/BJPB_YMWUcE

 

구독과 좋아요는 큰 힘이 됩니다 😊

 

 

 

반응형


반응형

AI 기술이 빠르게 발전하면서 녹음·녹화 기능을 갖춘 AI 기기들이 속속 등장하고 있습니다.

Limitless AI 펜던트, Meta Ray-Ban 스마트 글래스, Otter.ai, Fireflies.ai...

 

한국에서도 이름은 많이 들어보셨을 겁니다.

그런데 막상 이런 기기들을 쓰려고 할 때 이런 생각이 드신 적 없으신가요?

 

"이거, 법적으로 괜찮은 거 맞지?"

 

특히 미국을 여행하거나 미국 비즈니스를 하시는 분들이라면 한 번쯤 짚어봐야 할 문제입니다.



## 미국 녹음법, 생각보다 훨씬 복잡합니다

 

한국은 대화 당사자 한 명이 동의하면 녹음이 가능합니다.

하지만 미국은 주(州)마다 법이 다릅니다.

 

크게 두 가지로 나뉩니다:

 

- **일방 동의제 (One-Party Consent)**: 대화 참여자 중 한 명만 동의해도 녹음 가능 (연방법 포함)

- **전면 동의제 (All-Party Consent)**: 대화에 참여하는 모든 사람의 동의가 필요

 

캘리포니아, 워싱턴, 일리노이 등 11개 주가 전면 동의제를 채택하고 있습니다.

이를 어기면 민사 소송은 물론 형사처벌까지 받을 수 있습니다.

 

AI 기기를 아무 생각 없이 켜두었다가 법을 위반하는 상황이 충분히 발생할 수 있다는 뜻입니다.



## 직접 리서치해서 영상으로 만들었습니다

 

이 주제를 AI와 함께 직접 파헤쳐서 영상으로 만들었습니다.

 

**다루는 내용:**

- 미국 연방법 vs 주법, 어떻게 다른가?

- Limitless AI 펜던트 — 합법인가 불법인가?

- Meta Ray-Ban 글래스 — 몰래 촬영하면 어떻게 되나?

- Otter.ai / Fireflies.ai — 업무 회의 녹음, 어디까지 괜찮나?

- AI 음성 복제 — 내 목소리로 만드는 건 합법인가?

- AI 크리에이터를 위한 3가지 실용 원칙



## 영상 보기

 

한국어 버전과 영어 버전 모두 제작했습니다.

 

**🇰🇷 한국어 버전**

▶️ https://youtu.be/mQHoEj0_1KE

 

**🇺🇸 영어 버전**

▶️ https://youtu.be/NCWlam9t9cY

 

 

영상에는 챕터가 나뉘어 있어서 궁금한 부분만 골라 보실 수 있습니다.

AI 기기에 관심 있으신 분, 미국 여행이나 출장 계획 있으신 분, 

콘텐츠 크리에이터로 활동하시는 분들께 특히 도움이 될 내용입니다.


그리고 전체 Research 내용은 아래 GitHub Repository 에 공유했습니다.
CatchUpAI_VL/Topics/WA-Recording-Law at main · solkit70/CatchUpAI_VL

 

CatchUpAI_VL/Topics/WA-Recording-Law at main · solkit70/CatchUpAI_VL

Catch Up AI Vibe Learning - AI와 함께하는 체계적인 학습 방법론. Contribute to solkit70/CatchUpAI_VL development by creating an account on GitHub.

github.com

 

반응형


반응형

AI in Action Live #12 요약 영상을 업로드했습니다.

이번 영상에서 가장 중요하게 이야기하고 싶었던 주제는 “기록이 AI의 컨텍스트가 된다”는 것입니다.

예전에는 데이터를 모으고, 정리하고, 데이터베이스에 넣고, 앱으로 활용하는 일이 쉽지 않았습니다. 그래서 우리가 인터넷에서 만들어내는 많은 데이터는 구글, 페이스북, 애플, 마이크로소프트 같은 빅테크 기업들이 주로 가져가고 활용했습니다.

하지만 AI 시대에는 상황이 달라지고 있습니다.

이제는 꼭 복잡한 데이터베이스나 앱을 만들지 않아도, 우리가 매일 남기는 자연어 기록이 AI에게 바로 쓸 수 있는 컨텍스트가 될 수 있습니다. 회의 메모, 학습 기록, 프로젝트 로그, 아이디어, 대화 내용, 콘텐츠 제작 과정 같은 것들이 모두 나중에 AI와 함께 다시 활용할 수 있는 개인 데이터가 됩니다.

그래서 앞으로 중요한 질문은 “AI가 무엇을 할 수 있나?”뿐만 아니라 “나는 AI에게 줄 나만의 컨텍스트를 만들고 있나?”가 될 것 같습니다.

이번 Live #12 요약 영상에서는 이런 핵심 메시지를 바탕으로 지난주에 진행한 여러 실험을 정리했습니다.

- AI로 라이브 방송을 요약 영상으로 만드는 과정
- 한국어 영상을 영어 영상으로 확장하는 작업
- CMDS x GOBI Cohort 1기 마지막 세션 회고
- Builders Lounge 2차 모임과 AI 코디네이터 구상
- GOBI Desktop으로 방송 진행을 돕는 실험
- Catch Up AI 웹사이트를 AI 코딩으로 수정하고 CI/CD로 배포한 과정
- AI 레코더 사용과 관련된 미국 워싱턴 주 녹화/녹음 법률 학습
- GobiSpace 커스텀 홈페이지 제작 실험
- AI 시대에 개인과 작은 커뮤니티가 할 수 있는 일에 대한 생각

영상은 한국어 버전과 영어 버전으로 각각 업로드했습니다.

한국어 영상:
https://youtu.be/xfwLSFNjvI8

 

영어 영상:
https://youtu.be/4kP_jwZ_PU8

 

AI를 단순히 뉴스나 트렌드로 소비하는 것이 아니라, 내 일상과 일에 직접 적용해 보고 그 과정을 기록으로 남기는 실험을 계속해 보려고 합니다.

이번 영상이 AI 시대에 개인이 데이터를 어떻게 관리하고 활용할 수 있을지 생각해 보는 계기가 되었으면 합니다.

 

 

반응형


반응형

🎬 최종 결과물

클론 목소리로 만든 Live #11 하이라이트 영상 — 한국어·영어 버전 동시 제작했습니다.

🇰🇷 한국어 영상 (15분 46초)

https://youtu.be/2wk0_VQx9I8

 

🇺🇸

 영어 영상 (13분 9초)

https://youtu.be/WwgQDPXcHWs

 

 

지금 이 영상의 나레이션, 제 진짜 목소리가 아닙니다.

알리바바 Qwen3-TTS가 3초짜리 제 음성 샘플 하나로 복제한 AI 버전입니다.

캘린더로는 12일, 실제 집중 작업 시간은 단 18시간이었습니다.

이 글에서는 그 여정 전체 — 기술 선택부터 샘플 튜닝, 영상 파이프라인 연동까지 — 를 정리합니다.


🤖 Qwen3-TTS란?

알리바바 Qwen 팀이 2026년 1월 Apache-2.0으로 공개한 오픈소스 TTS(텍스트 음성 변환) 모델 패밀리입니다.

핵심 기능은 두 가지입니다.

  • Voice Clone (VC): 3초 음성 샘플만으로 실제 목소리 복제
  • Voice Design (VD): "차분한 30대 여성" 같은 자연어 프롬프트로 원하는 음색 설계

10개 언어(한국어 포함)를 지원하고, Apache-2.0이라 상업적으로도 자유롭게 사용 가능합니다.

📌 공식 GitHub: https://github.com/QwenLM/Qwen3-TTS

 

GitHub - QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, support

Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice...

github.com

 

💻 로컬 vs API — 저는 API를 선택했습니다

Qwen3-TTS를 실행하는 방법은 두 가지입니다.

방식 장점 단점
로컬 설치 무료, 데이터 외부 전송 없음 GPU 필수 (최소 RTX 3060, 12GB VRAM)
DashScope API PC 사양 무관, 즉시 시작 유료 (약 $0.014/1,000자)

제 PC는 Intel i7-1355U(15W 저전력) + 내장 그래픽으로 GPU가 없습니다.

자연스럽게 **Alibaba Cloud DashScope Intl API(싱가포르 서버)**를 선택했습니다.

📌 DashScope API: https://www.alibabacloud.com/

 

Alibaba Cloud: 클라우드 컴퓨팅 서비스

Alibaba Cloud는 전 세계적으로 확장 가능하고 안전하며 안정적인 클라우드 컴퓨팅 서비스를 제공하는 세계 최고의 클라우드 컴퓨팅 및 인공 지능 기술 회사입니다. 무료 평가판을 제공하고 종량제

www.alibabacloud.com

 

📚 어떻게 배웠나 — VibeLearn AI

이번 학습에는 제가 직접 만든 VibeLearn AI 방법론을 활용했습니다.

Topic을 정하고 → AI와 함께 Roadmap을 만들고 → 매일 실습하며 WorkLog를 남기는 구조입니다.

중요한 건 처음부터 "배워서 무엇을 만들 것인지" 까지 목표로 설정한다는 점입니다.

이번 목표: "Qwen3-TTS를 배워서 Remotion 영상에 클론 목소리를 연동한다"

덕분에 학습이 끝났을 때 Live 11회 영상이 완성되어 있었습니다.

📌 VibeLearn AI (무료): https://github.com/solkit70/VibeLearn-AI

 

GitHub - solkit70/VibeLearn-AI

Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.

github.com

 

🎤 Voice Clone 과정 — 2단계

API 사용 방법은 생각보다 간단합니다.

Step 1 — 음성 등록 (~4초)

# 샘플 업로드 → voice_id 발급

response = dashscope.MultiModalConversation.call(

    model="qwen3-tts-vc-2026-01-22",

    ref_audio="샘플.mp3",

    ...

)

voice_id = response.output.voice_id

 

Step 2 — 음성 합성 (~10초)

# 텍스트 + voice_id → 클론 목소리

response = dashscope.MultiModalConversation.call(

    model="qwen3-tts-vc-2026-01-22",

    text="합성할 텍스트",

    voice=voice_id,

    stream=False,

)

 

두 단계면 끝입니다. 코드 작업은 VibeCoding(AI 협업 코딩)으로 처리해서 직접 한 줄도 짜지 않았습니다.

⚠️ 주의: 싱가포르 서버(글로벌) 사용자는 Voice Clone(VC)만 가능합니다. Voice Design(VD)은 중국 서버 전용입니다.


🔧 샘플 품질 튜닝 — 3점 → 4점

처음 클론 결과는 5점 만점에 3점이었습니다. 음색은 비슷한데 끊김이 있었습니다.

개선 포인트:

  1. 샘플 녹음 방식 변경: 단어를 끊지 않고 방송 진행하듯 흐르게 읽기 (v1→v4)
  2. ffmpeg 후처리: atempo=1.08 (8% 가속)로 자연스러운 속도 조정

ffmpeg -i input.wav -filter:a "atempo=1.08" output.wav -y

 

결과: 4점 달성. changsoo_final.wav 최종 채택.


💡 실험하면서 발견한 팁들

한국어 콘텐츠엔 한국어 프롬프트

Voice Design 프롬프트를 영어로 입력했더니 일본인이 한국어를 하는 듯한 억양이 나왔습니다. 한국어로 프롬프트를 쓰면 훨씬 자연스럽습니다.

비용 절감 팁

작업 중에는 무료 edge-tts로 영상 타이밍을 먼저 맞추고, 최종본에서만 Qwen3-TTS로 교체하면 비용을 크게 줄일 수 있습니다. 15개 슬라이드 전체 생성 비용은 약 $0.30이었습니다.

이미지 생성 팁

이미지 API를 바로 쓰지 말고, 먼저 AI에게 프롬프트를 만들게 한 다음 ChatGPT·Gemini·Claude에 동시에 넣어 결과를 비교하세요. 제 경험상 ChatGPT와 Gemini가 품질이 가장 좋았습니다.


📁 학습 자료 전체 공개

로드맵, 워크로그 6개, 실습 코드 전부 GitHub에 공개했습니다.

📌 학습 자료: https://github.com/solkit70/CatchUpAI_VL/tree/main/Topics/Qwen3-TTS

 

CatchUpAI_VL/Topics/Qwen3-TTS at main · solkit70/CatchUpAI_VL

Catch Up AI Vibe Learning - AI와 함께하는 체계적인 학습 방법론. Contribute to solkit70/CatchUpAI_VL development by creating an account on GitHub.

github.com

 

VibeLearn AI를 써보고 싶으신 분은 아래에서 무료로 다운받으실 수 있습니다.

배우고 싶은 Topic을 정한 뒤, AI에게 "이걸 배워서 ○○에 활용하고 싶다" 고 말하면 그 목적까지 포함한 Roadmap이 만들어집니다.

📌 VibeLearn AI: https://github.com/solkit70/VibeLearn-AI

 

GitHub - solkit70/VibeLearn-AI

Contribute to solkit70/VibeLearn-AI development by creating an account on GitHub.

github.com

 

🔗 참고 링크 모음


더 궁금하신 점은 댓글로 남겨 주세요.

매주 일요일 밤 9시(한국 시간), 새벽 5시(시애틀)에 라이브 방송도 진행합니다 📺

 

 

반응형


반응형

매주 일요일 새벽 5시 (시애틀 기준), AI를 직접 실험하고 배운 것을 나누는 
AI in Action 라이브 방송을 하고 있습니다. 이번 주는 Live #11, 2026년 5월 24일 
방송의 하이라이트를 영상으로 정리했습니다.

이번 영상에서 다룬 4가지 이야기를 소개합니다.


## 1. 내 목소리를 AI로 복제했다 — Qwen3-TTS Voice Clone

이번 하이라이트 영상의 나레이션은 제 실제 목소리가 아닙니다.
알리바바의 Qwen3-TTS API를 사용해 제 목소리를 복제한 AI 음성입니다.

작동 방식은 두 단계입니다.
- 1단계 (Voice Enrollment): 샘플 음성 파일을 업로드해 고유한 Voice ID 생성
- 2단계 (Synthesis): 그 Voice ID로 원하는 텍스트를 음성으로 변환

라이브 방송 중 처음으로 실시간 API를 호출하는 실험이었습니다.
결과는? Voice Clone(VC)은 5점 만점에 3점. 음색은 반영됐지만 
속도와 자연스러움이 아쉬웠습니다. 이후 작업을 통해 다듬은 버전이 
지금 영상에 들어간 목소리입니다.

컴퓨터 사양이 된다면 로컬에서도 실행 가능하지만, NVIDIA GPU와 
최소 16~32GB VRAM이 필요합니다. 저는 사양이 안 되어 API 방식으로 진행했습니다.


## 2. 비개발자가 Vibe Coding으로 앱을 만들어 수익화하는 시대

시애틀 한인 여성 IT 커뮤니티 W+그룹의 HerStory 행사에 참석했습니다.
세 분의 연사 모두 개발자가 아님에도 직접 앱을 만들어 AI 사업을 하고 계신 분들이었습니다.
시애틀 빅테크에 다니시면서 본인의 도메인 전문성에 AI를 결합해 Vibe Coding으로 
앱을 만들고, 실제 수익화까지 이루신 이야기들이었습니다.

제가 지난 3월 Substack에 썼던 글 — "AI 시대 앱 개발은 어떻게 달라지고 있는가" — 에서
"전문가가 모두를 위해 만드는 시대에서 누구나 자신에게 맞게 만드는 시대로 바뀌고 있다"고 
했는데, 그것이 바로 눈앞에서 펼쳐지고 있었습니다.


## 3. LLM으로 지식 베이스를 자동 구축하는 방법 — LLM Wiki

CMDS x GOBI Cohort 1기 4주차에서는 LLM Wiki에 대한 강의가 있었습니다.
Andrej Karpathy가 제안한 LLM Wiki를 구요한님이 Obsidian에 최적화한 버전입니다.

핵심 구조:
- Raw Source (강의록, 문서 등) → LLM이 읽고 자동 분해
- Wiki 카드 + Entity 카드로 구조화
- 즉시 검색 가능한 지식 베이스 완성

RAG보다 실시간 업데이트가 쉽고, 지식이 즉시 검색 가능한 형태로 
정리된다는 점이 특히 인상적이었습니다.


## 4. "AI랑 하면 뚝딱"은 신화다 — 제작의 현실

이번 주에 모자무싸 영상 제작 과정을 공개했습니다.
글 한 편을 완성하기까지 6단계를 거쳤습니다.

브레인덤프 → 초안 작성 → 버전 비교 분석 → 선별·수정 → 통합 → 다듬기

8명이 넘는 철학자와 사회학자의 개념을 검토했고, 초안을 4번 고쳤습니다.
그 다음에는 Remotion으로 영상 제작, 나레이션·슬라이드·효과 퇴고,
썸네일·제목·Description 작성, SNS 홍보까지.

AI가 없었다면 훨씬 오래 걸렸겠지만, AI만으로는 절대 이 결과물이 나오지 않습니다.
방향을 잡고, 판단하고, 수정하는 — 사람이 주도하는 창작 과정입니다.
"AI랑 하면 뚝딱"은 신화입니다.


## 영상 보기

🇰🇷 한국어 버전: https://youtu.be/ApWkZu0RcWE?si=c_0dVi4hEQFnNJ0O

 

🇺🇸 English version: https://youtu.be/VL-S43gnhe0

 

매주 일요일 밤 9시 (한국) / 새벽 5시 (시애틀), AI in Action 라이브로 
함께하실 분들을 기다립니다. YouTube 채널 구독과 좋아요 부탁드립니다 🙏

 

 

반응형


반응형

요즘 이런 생각을 자주 합니다.

AI가 점점 더 많은 일을 대신하게 되면서, 사람들이 조용히 이런 질문을 품기 시작했습니다.

"나는 쓸모 있는 사람인가?"

거창한 질문처럼 보이지만, 사실 이건 아주 오래된 질문입니다. AI가 등장하기 훨씬 전부터 우리 안에 있었던 불안이죠. AI는 그것을 새로 만들어 낸 게 아니라, 이미 있던 것을 더 선명하게 드러내고 있을 뿐입니다.

이 주제를 오랫동안 생각해 왔고, 결국 글과 영상으로 정리했습니다. 한국어와 영어 버전을 모두 만들었으니, 편하신 언어로 보시거나 주변에 공유해 주세요.


영상으로 보기

바쁜 일상 속에서 글보다 영상이 편하신 분들을 위해 유튜브 영상도 함께 만들었습니다.

 

한국어 영상 — https://youtu.be/DgqbSLjDT-A

 

English Version — https://youtu.be/n8l5Vm_blkE

 


글로 읽기

더 깊이 읽고 싶으신 분들을 위해 Substack에 전문을 올렸습니다.

 

📄 한국어 — https://lifidea.substack.com/p/040?r=57u2e2

 

모두가 자신의 무가치함과 싸우고 있다 - 가치는 누가 정하는가

AI 시대 가치를 정하는 기준을 바꾸어야 하지 않을까? - 우리의 행복을 위해서...

lifidea.substack.com

 

📄 English — https://lifidea.substack.com/p/everyone-is-fighting-their-own-worthlessness?r=57u2e2

 

Everyone Is Fighting Their Own Worthlessness — Who Gets to Decide Your Value?

In the age of AI, shouldn't we change the standard by which value is measured — for our own happiness?

lifidea.substack.com

 

 

 

 

반응형


반응형

지난 주 AI in Action 라이브 #10 방송을 진행했습니다.

이번 방송의 핵심 주제는 알리바바의 오픈소스 TTS 모델인 Qwen3-TTS 실험이었는데,

기대와 다르게 완성까지 가지 못했습니다.

실패한 과정도 기록으로 남기는 게 이 블로그의 방향이라 솔직하게 정리해봅니다.

 

## Qwen3-TTS란?

 

알리바바 Qwen 팀이 개발한 텍스트-투-스피치(TTS) 모델로,

Apache 2.0 라이선스로 공개된 오픈소스입니다.

 

주요 스펙:

- 응답 속도: 97ms (실시간 대화에도 활용 가능한 초저지연)

- 지원 언어: 10개 언어 (한국어 포함)

- Voice Clone: 단 3초짜리 음성 샘플로 목소리 복제 가능

- 비용: 로컬 설치 시 무료 / API 사용 시 유료

 

OpenAI TTS와 비교하면 가격이 더 저렴하고 ($0.013/1K 글자 vs OpenAI $0.015),

처음 90일은 무료 쿼터도 넉넉하게 제공됩니다.

## 로컬 설치 시도 → 실패

 

고사양 GPU가 있다면 로컬에 직접 설치해서 완전 무료로 사용할 수 있습니다.

저는 GPU 없는 i7-1355U 노트북(Windows 11)에서 시도했는데,

CPU만으로는 모델 추론 속도가 너무 느려서 실용적이지 않았습니다.

 

결국 DashScope API로 방향을 전환했습니다.

DashScope는 알리바바 클라우드의 AI API 서비스로,

OpenAI 호환 엔드포인트를 제공해서 기존 코드를 거의 수정하지 않고 붙일 수 있습니다.

 

실험은 아직 진행 중입니다.

이번 주 중에 제 목소리 3초 샘플로 Voice Clone을 테스트하고,

실제 유튜브 영상 나레이션에 적용하는 것이 다음 목표입니다.



## 이번 주 다른 이야기들

 

**유튜브 자막 수집 자동화 — 4번 연속 실패**

 

CatchUp AI 유튜브 채널의 자막을 자동으로 수집하는 시스템을 구축하려다

IP 차단, yt-dlp n-challenge 오류, 라이브러리 버전 호환성 문제 등

예상치 못한 장벽을 4번 연속 만났습니다.

각 단계에서 배운 것들이 다음 시스템을 더 단단하게 만들어준다고 위안 삼고 있습니다.

 

**시애틀 AI 행사 2곳**

 

화요일 Startup 425 Accelerator Demo Day (Renton Technical College),

수요일 Big Data & AI Seattle Meetup (Bellevue City Hall)에 다녀왔습니다.

같은 AI 커뮤니티지만 창업 중심 vs 기술 실무 중심으로 분위기가 확연히 다른 두 행사였습니다.

 

**CMDS x GOBI Cohort W3 — Voice-First 학습**

 

목요일에는 CMDS x GOBI 코호트 3주차 세션이 있었습니다.

말로 브레인스토밍하면 AI가 구조화해주는 Voice-First 방식을 체험했는데,

Gobi Desktop의 실시간 데모가 인상적이었습니다.

 

**Builders Lounge → 창발 스페이스로**

 

시애틀 한인 IT 빌더 커뮤니티인 Builders Lounge가

창발(Changbal) 스페이스 안에 자리를 잡았습니다.

각자의 Product를 들고 나와 서로의 첫 번째 고객이 되는 방식으로 운영됩니다.



## 이번 방송에서 기억에 남는 한 마디

 

> "AI 시대에는 인간이 병목이다"

 

AI는 이미 빠르게 달릴 준비가 됐는데,

방향을 잡고 판단하는 사람의 속도가 전체를 좌우한다는 의미입니다.

공부를 계속하는 이유가 이 병목을 줄이기 위해서라는 생각이 들었습니다.



## 영상 보기

 

요약 영상으로 편집해서 유튜브에 올렸습니다.

 

🇰🇷 한국어 영상 → https://youtu.be/k8iksu8C6uI

 

 

🇺🇸 영어 영상 → https://youtu.be/qTNVc_PIWQw

 

 

 

 

 

 

반응형


반응형

미국 시애틀/벨뷰 지역에서 활동하는 한인 IT 엔지니어들이 

"Builders Lounge(빌더스 라운지)"라는 이름으로 첫 공식 모임을 가졌습니다.

 

이 블로그를 오래 보셨던 분들은 아시겠지만, 저는 17년 전 미국에 처음 왔을 때부터 

여기서 배운 새로운 IT 기술과 소식들을 기록해 왔습니다.

 

그리고 요즘 제가 가장 열심히 파고 있는 분야가 바로 AI입니다.



■ Builders Lounge란?

 

시애틀/벨뷰 지역을 중심으로 활동하는 한인 AI 빌더들의 모임입니다.

단순히 AI 소식을 공유하는 스터디가 아니라, 각자가 AI로 만들고 있는 

프로젝트를 직접 들고 와서 함께 실험하고 피드백을 나누는 자리입니다.



■ 첫 모임에서 무엇을 했나?

 

이번 첫 모임의 핵심은 GOBI Space와 GOBI Desktop 실습이었습니다.

 

GOBI는 AI 기반 소셜 PKM(개인 지식 관리) 플랫폼으로, 

가장 인상적인 기능은 바로 "Social Agent"입니다.

 

내가 말하면 → AI가 정리해서 → 커뮤니티에 대신 포스팅해 줍니다.

 

직접 써보기 전까지는 반신반의했는데, 

참가자 전원이 핸즈온 세션에서 직접 체험해보니 

"이게 되네?"라는 반응이 터져 나왔습니다 😄

 

이 기술이 흥미로운 이유는, 단순한 자동화가 아니라

AI가 맥락을 이해하고 나의 언어로 글을 써준다는 점입니다.

콘텐츠 생산의 부담이 확 줄어드는 경험이었습니다.



■ 앞으로의 방향

 

Builders Lounge는 매달 정기 모임을 이어갈 예정입니다.

AI에 관심 있는 분이라면 누구든 참여하실 수 있습니다.

관심 있으신 분은 gobispace.com 에서 가입 후 

창발(Changbal) 스페이스에 참여 의사를 남겨 주세요.



■ 첫 모임 풀영상

 

▶️ https://youtu.be/AoOhKZ4LoKs

 

25분 분량으로 편집된 영상이지만, 

현장의 열기와 실습 과정이 그대로 담겨 있습니다.

AI를 일상에 적용하고 싶은 분들께 좋은 참고가 되실 거라 생각합니다.

 

반응형


반응형

미국에 온 지 17년이 됐습니다.

처음 이 블로그를 시작했을 때는 iPhone이 막 나오던 시절이었고, 클라우드라는 단어가 낯설던 때였습니다. 그 이후로 스마트폰 혁명, 소셜 미디어, 빅데이터, 딥러닝… 수많은 기술의 파도가 지나갔는데, 지금 제가 느끼는 건 그 어떤 때보다도 변화의 속도가 빠르다는 겁니다.

그 중심에 있는 AI. 그냥 쓰는 것을 넘어서, 직접 만들고 실험하고 기록하기 시작했습니다. 매주 일요일 AI in Action 라이브 방송을 진행하고 있고, 이번 9회 방송 요약 영상을 유튜브에 올렸습니다. 이 글에서는 영상에 담긴 주요 실험들과 그 과정에서 배운 것들을 공유합니다.


1. 영상 자체가 실험이다 — 완전 자동화 영상 제작 파이프라인

이번 AI in Action #9 요약 영상은 처음부터 끝까지 코드로 만들었습니다.

사용한 도구들:

  • Remotion: React 기반의 영상 제작 프레임워크. 슬라이드 하나하나를 TypeScript 컴포넌트로 작성하면 MP4로 렌더링됩니다.
  • Claude Code: 코드 작성, 구조 설계, 스크립트 교정까지 AI와 페어 프로그래밍으로 진행.
  • gpt-image-2: OpenAI의 최신 이미지 생성 모델. 27개 슬라이드 중 14장의 실사 이미지를 자동 생성.
  • edge-tts (Microsoft): 한국어 TTS 나레이션. ko-KR-SunHiNeural(여성)과 ko-KR-InJoonNeural(남성) 두 목소리로 전체 나레이션 처리.
  • Gemini gemini-3-pro-image-preview: 유튜브 썸네일 생성. gpt-image-2로 시도했을 때 한국어 텍스트 렌더링이 불안정해서 Gemini로 전환했는데 결과가 훨씬 좋았습니다.

스크립트 작성 → 슬라이드 코딩 → 이미지 생성 → 오디오 생성 → 영상 렌더링까지, 수동 편집 없이 자동화된 파이프라인으로 한국어 16분 57초, 영어 14분 59초 두 편을 완성했습니다.

제작 중에 겪은 버그들 (이런 내용이 실제로 더 배울 게 많습니다):

  • Python Pillow로 썸네일 텍스트를 합성했더니 이모지가 전부 □로 출력 → Malgun Gothic 폰트에 이모지 글리프가 없어서 발생. Gemini로 전환하면서 해결.
  • Gobi CLI로 커뮤니티 포스팅 시도했더니 HTTP 404 오류 → 설치된 버전이 v2.0.3이었고 API가 더 높은 버전을 요구. npm install -g @gobi-ai/cli로 v2.0.19 업그레이드 후 해결.
  • 포스트 내용이 중간에 잘리는 현상 → 텍스트 내 스마트 따옴표(", ")가 CLI 파싱 단계에서 문자열을 종료시켜 버림. 일반 따옴표로 교체 후 정상화.
  • 커뮤니티 포스트에서 특정 항목 이후 글자에 취소선이 표시 → M1~M5처럼 범위를 표시하는 물결표(~)를 Gobi 마크다운 파서가 취소선 기호로 인식. -로 교체 후 해결.

이런 크고 작은 버그들을 하나씩 해결해 나가는 것 자체가 시스템을 더 단단하게 만드는 과정입니다.


2. 유타 프로젝트 — 도메인 전문가 + AI의 만남

시애틀에서 저, 유타에서 이선생님. 매주 목요일 화상통화로 진행하는 건강관리 앱 개발 프로젝트입니다.

이선생님은 한국과 미국에서 수십 년간 의료 공직에 계셨던 분으로, 본인의 전문 지식을 바탕으로 한 건강관리 서비스를 오랫동안 구상해 오셨습니다. 개발 경험은 전혀 없으시지만, 깊은 도메인 지식을 갖고 계십니다.

  • 7주간의 과정:

요구사항 정리 → 서비스 기획 → 웹 프로토타입 → 검증 → 현재: React Native 모바일 MVP 개발 중.

일반적으로 이 단계까지 오려면 전문 개발팀과 6개월 이상의 시간이 필요합니다. AI와 함께라면 이야기가 달라집니다.

원격 개발 협업에 사용한 기술 스택:

  • Expo Go: 앱스토어 출시 없이 실제 스마트폰에서 앱 테스트 가능
  • EAS Update (Expo Application Services): 시애틀에서 코드 수정 → 유타 스마트폰 앱 즉시 업데이트

비개발자가 AI와 함께 자신의 아이디어를 앱으로 만들어 나가는 이 실험 자체가 앞으로 많은 분들에게 참고가 될 것이라 생각합니다.


3. Vibe Guiding — AI 가이드의 다음 단계

이번 주 가장 집중한 실험입니다. M1 개념 정립부터 시작해 이번 주에 M2~M5를 한 번에 완주했습니다.

  • 기존 AI 챗봇과의 차이:

일반 AI 챗봇은 문서를 검색해서 방법을 알려줍니다. 하지만 이 사용자가 어떤 OS를 쓰는지, 현재 어떤 버전이 설치되어 있는지, 지금 정확히 어떤 오류 상태인지는 알지 못합니다.

Vibe Guiding은 사용자의 실제 환경을 읽고, 그 상황에 맞는 단계별 가이드를 제공하며, 완료 신호까지 안내합니다. "이 메시지가 나오면 성공한 것입니다" — 추측이 아닌 검증입니다.

Atomic Guide Unit 구조:

  • Goal → Prerequisites → Steps → Completion Signal → Known Failures

 

각 매뉴얼이 이 구조를 따르기 때문에 AI가 "성공했다면 이런 결과가 나왔을 것입니다"라고 확신을 줄 수 있는 것입니다.

Guiding Engine 4단계 파이프라인:

  1. Collect Context — 사용자 환경 정보 수집 (OS, 버전, 인증 상태)
  2. Evaluate Trigger — 현재 상황과 트리거 규칙 매칭
  3. Retrieve Manual — Atomic Guide Unit 검색 (직접 생성하지 않고 반드시 기존 매뉴얼에서 가져옴)
  4. Compose Guide — 사용자 수준에 맞게 가이드 구성

4. 이번 주 AI 소식 — CMDS x GOBI Cohort & Builders Lounge

CMDS x GOBI Cohort 1기가 진행 중입니다. 한국의 PKM 전문가 구요한 CMDS CEO, Naver US Director 김진영 님이 함께하는 5주 과정. W1에서는 PKM은 노트 정리가 아닌 라이프스타일이라는 철학을, W2에서는 Claude Code의 6-레이어 구조 (Prompt → Command → Hook → Rule → Skill → Agent)를 다뤘습니다.

그리고 Bellevue 지역 한인 AI 빌더 커뮤니티 Builders Lounge가 5월 7일 Bellevue City Hall에서 첫 공식 오프라인 모임을 가졌습니다. 각자의 AI 프로젝트를 들고 나와 공유하는 실전 빌더들의 모임으로 자리잡아 가고 있습니다.


영상 보러 가기

17년 전 이 블로그를 처음 만들었을 때와 비교하면, 지금 우리가 살고 있는 기술의 세계는 상상 이상으로 달라졌습니다. 그리고 아직 변화는 현재 진행형입니다.

직접 만들고 실험하면서 배우는 것, 앞으로도 계속 이곳에 기록하겠습니다.

 

 

궁금한 점이나 비슷한 실험을 하고 계신 분들은 댓글로 나눠주세요 🙌

 

 

 

반응형