반응형
블로그 이미지
개발자로서 현장에서 일하면서 새로 접하는 기술들이나 알게된 정보 등을 정리하기 위한 블로그입니다. 운 좋게 미국에서 큰 회사들의 프로젝트에서 컬설턴트로 일하고 있어서 새로운 기술들을 접할 기회가 많이 있습니다. 미국의 IT 프로젝트에서 사용되는 툴들에 대해 많은 분들과 정보를 공유하고 싶습니다.
솔웅

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

카테고리


반응형

미국에 온 지 17년이 됐습니다.

처음 이 블로그를 시작했을 때는 iPhone이 막 나오던 시절이었고, 클라우드라는 단어가 낯설던 때였습니다. 그 이후로 스마트폰 혁명, 소셜 미디어, 빅데이터, 딥러닝… 수많은 기술의 파도가 지나갔는데, 지금 제가 느끼는 건 그 어떤 때보다도 변화의 속도가 빠르다는 겁니다.

그 중심에 있는 AI. 그냥 쓰는 것을 넘어서, 직접 만들고 실험하고 기록하기 시작했습니다. 매주 일요일 AI in Action 라이브 방송을 진행하고 있고, 이번 9회 방송 요약 영상을 유튜브에 올렸습니다. 이 글에서는 영상에 담긴 주요 실험들과 그 과정에서 배운 것들을 공유합니다.


1. 영상 자체가 실험이다 — 완전 자동화 영상 제작 파이프라인

이번 AI in Action #9 요약 영상은 처음부터 끝까지 코드로 만들었습니다.

사용한 도구들:

  • Remotion: React 기반의 영상 제작 프레임워크. 슬라이드 하나하나를 TypeScript 컴포넌트로 작성하면 MP4로 렌더링됩니다.
  • Claude Code: 코드 작성, 구조 설계, 스크립트 교정까지 AI와 페어 프로그래밍으로 진행.
  • gpt-image-2: OpenAI의 최신 이미지 생성 모델. 27개 슬라이드 중 14장의 실사 이미지를 자동 생성.
  • edge-tts (Microsoft): 한국어 TTS 나레이션. ko-KR-SunHiNeural(여성)과 ko-KR-InJoonNeural(남성) 두 목소리로 전체 나레이션 처리.
  • Gemini gemini-3-pro-image-preview: 유튜브 썸네일 생성. gpt-image-2로 시도했을 때 한국어 텍스트 렌더링이 불안정해서 Gemini로 전환했는데 결과가 훨씬 좋았습니다.

스크립트 작성 → 슬라이드 코딩 → 이미지 생성 → 오디오 생성 → 영상 렌더링까지, 수동 편집 없이 자동화된 파이프라인으로 한국어 16분 57초, 영어 14분 59초 두 편을 완성했습니다.

제작 중에 겪은 버그들 (이런 내용이 실제로 더 배울 게 많습니다):

  • Python Pillow로 썸네일 텍스트를 합성했더니 이모지가 전부 □로 출력 → Malgun Gothic 폰트에 이모지 글리프가 없어서 발생. Gemini로 전환하면서 해결.
  • Gobi CLI로 커뮤니티 포스팅 시도했더니 HTTP 404 오류 → 설치된 버전이 v2.0.3이었고 API가 더 높은 버전을 요구. npm install -g @gobi-ai/cli로 v2.0.19 업그레이드 후 해결.
  • 포스트 내용이 중간에 잘리는 현상 → 텍스트 내 스마트 따옴표(", ")가 CLI 파싱 단계에서 문자열을 종료시켜 버림. 일반 따옴표로 교체 후 정상화.
  • 커뮤니티 포스트에서 특정 항목 이후 글자에 취소선이 표시 → M1~M5처럼 범위를 표시하는 물결표(~)를 Gobi 마크다운 파서가 취소선 기호로 인식. -로 교체 후 해결.

이런 크고 작은 버그들을 하나씩 해결해 나가는 것 자체가 시스템을 더 단단하게 만드는 과정입니다.


2. 유타 프로젝트 — 도메인 전문가 + AI의 만남

시애틀에서 저, 유타에서 이선생님. 매주 목요일 화상통화로 진행하는 건강관리 앱 개발 프로젝트입니다.

이선생님은 한국과 미국에서 수십 년간 의료 공직에 계셨던 분으로, 본인의 전문 지식을 바탕으로 한 건강관리 서비스를 오랫동안 구상해 오셨습니다. 개발 경험은 전혀 없으시지만, 깊은 도메인 지식을 갖고 계십니다.

  • 7주간의 과정:

요구사항 정리 → 서비스 기획 → 웹 프로토타입 → 검증 → 현재: React Native 모바일 MVP 개발 중.

일반적으로 이 단계까지 오려면 전문 개발팀과 6개월 이상의 시간이 필요합니다. AI와 함께라면 이야기가 달라집니다.

원격 개발 협업에 사용한 기술 스택:

  • Expo Go: 앱스토어 출시 없이 실제 스마트폰에서 앱 테스트 가능
  • EAS Update (Expo Application Services): 시애틀에서 코드 수정 → 유타 스마트폰 앱 즉시 업데이트

비개발자가 AI와 함께 자신의 아이디어를 앱으로 만들어 나가는 이 실험 자체가 앞으로 많은 분들에게 참고가 될 것이라 생각합니다.


3. Vibe Guiding — AI 가이드의 다음 단계

이번 주 가장 집중한 실험입니다. M1 개념 정립부터 시작해 이번 주에 M2~M5를 한 번에 완주했습니다.

  • 기존 AI 챗봇과의 차이:

일반 AI 챗봇은 문서를 검색해서 방법을 알려줍니다. 하지만 이 사용자가 어떤 OS를 쓰는지, 현재 어떤 버전이 설치되어 있는지, 지금 정확히 어떤 오류 상태인지는 알지 못합니다.

Vibe Guiding은 사용자의 실제 환경을 읽고, 그 상황에 맞는 단계별 가이드를 제공하며, 완료 신호까지 안내합니다. "이 메시지가 나오면 성공한 것입니다" — 추측이 아닌 검증입니다.

Atomic Guide Unit 구조:

  • Goal → Prerequisites → Steps → Completion Signal → Known Failures

 

각 매뉴얼이 이 구조를 따르기 때문에 AI가 "성공했다면 이런 결과가 나왔을 것입니다"라고 확신을 줄 수 있는 것입니다.

Guiding Engine 4단계 파이프라인:

  1. Collect Context — 사용자 환경 정보 수집 (OS, 버전, 인증 상태)
  2. Evaluate Trigger — 현재 상황과 트리거 규칙 매칭
  3. Retrieve Manual — Atomic Guide Unit 검색 (직접 생성하지 않고 반드시 기존 매뉴얼에서 가져옴)
  4. Compose Guide — 사용자 수준에 맞게 가이드 구성

4. 이번 주 AI 소식 — CMDS x GOBI Cohort & Builders Lounge

CMDS x GOBI Cohort 1기가 진행 중입니다. 한국의 PKM 전문가 구요한 CMDS CEO, Naver US Director 김진영 님이 함께하는 5주 과정. W1에서는 PKM은 노트 정리가 아닌 라이프스타일이라는 철학을, W2에서는 Claude Code의 6-레이어 구조 (Prompt → Command → Hook → Rule → Skill → Agent)를 다뤘습니다.

그리고 Bellevue 지역 한인 AI 빌더 커뮤니티 Builders Lounge가 5월 7일 Bellevue City Hall에서 첫 공식 오프라인 모임을 가졌습니다. 각자의 AI 프로젝트를 들고 나와 공유하는 실전 빌더들의 모임으로 자리잡아 가고 있습니다.


영상 보러 가기

17년 전 이 블로그를 처음 만들었을 때와 비교하면, 지금 우리가 살고 있는 기술의 세계는 상상 이상으로 달라졌습니다. 그리고 아직 변화는 현재 진행형입니다.

직접 만들고 실험하면서 배우는 것, 앞으로도 계속 이곳에 기록하겠습니다.

 

 

궁금한 점이나 비슷한 실험을 하고 계신 분들은 댓글로 나눠주세요 🙌

 

 

 

반응형


반응형

지난 일요일 AI in Action Live 8회 방송을 마쳤습니다.

이번 주는 유독 많은 것들이 쏟아진 한 주였습니다. 라이브 방송 1편, Remotion으로 제작한 영상 4편, Substack 글 2편 — 총 7개의 콘텐츠를 AI와 함께 만들었습니다.

그리고 방송 중 예상하지 못한 순간이 찾아왔습니다.

잠깐 자리를 비우면서 AI에게 2분을 맡겼습니다. 아무런 지시도 없이.
AI가 선택한 주제는 방송 내내 단 한 번도 직접 언급하지 않았던 것이었습니다.

바로 PKM이 AI 시대에 왜 필수인가.

어떻게 알았을까요? 이 질문의 답이 영상에 담겨 있습니다.


▶ 한국어 영상
https://youtu.be/VKafJ9fxlls

 

▶ English Version
https://youtu.be/7bruHTiqdtw

 

이번 영상에서 다룬 내용들:

- 7회 라이브 방송 요약 영상 제작 과정 (3시간 방송 → 6분 영상 자동화)
- Weekday Live 번외편: OpenAI gpt-image-2 & Gemini 이미지 생성 스킬 제작
- 스타벅스 패러독스: "AI가 뛰어날수록 인간만이 할 수 있는 것의 가치가 높아진다"
- Substack 글 2편: 자가 진화형 SDLC, 하네스 엔지니어링
- CMDS x Gobi Cohort 1기 첫 세션 진행
- AI 공부 모임 창발 — 첫 오프라인 모임 확정 (Bellevue City Hall)
- Claude Desktop App 전환 실험
- CMDS-vault 온보딩 자동화 실험
- 하이라이트: AI가 내 마음을 읽은 순간

모든 영상과 글은 AI와 함께 만들었습니다.
매주 일요일 새벽 5시, Catch Up AI 유튜브 채널에서 라이브로 함께하실 수 있습니다.

Catch Up AI 웹사이트: https://catchupai.net/

 

Catch Up AI 2026 - Innovating with AI Hub

Subscribe to our newsletter and stay updated.

catchupai.net

 

Gobi Space 커뮤니티: https://www.gobispace.com/

 

Gobi Space

Harnessing collective intelligence

www.gobispace.com

반응형


반응형

스타벅스는 왜 바리스타를 더 고용했을까요?

AI 자동화가 대세인 시대에, 시가총액 1,120억 달러짜리 회사가 오히려 
사람 손길을 더 늘리는 선택을 했습니다. 
이 작은 역설에서 시작된 영상을 오늘 공개합니다.


## 영상 소개

이번 영상은 Naver US의 김진영님이 Gobi Space에 올려주신 글을 바탕으로 만들었습니다.
경제학자 Alex Imas의 연구, 철학자 르네 지라르의 모방적 욕망, 
그리고 은하철도 999까지 — 세 가지 렌즈로 AI 시대의 가치를 들여다봅니다.

핵심 메시지는 하나입니다.

> AI가 모든 것을 할 수 있게 될수록, 사람의 온기는 더 희소하고 더 가치 있어진다.

한국어 버전과 영어 버전을 동시에 공개합니다.

▶ 한국어 영상
https://youtu.be/_CiVi_ryzgM

 

▶ English Version
https://youtu.be/_NN1vsuuPSU

 

## 영상에서 다루는 내용

**Part 1. 스타벅스의 역설**
자동화를 강화했다가 고객을 잃은 스타벅스.
바리스타 재고용, 손글씨 이름, 세라믹 컵의 귀환.
첨단 기업이 선택한 것은 결국 사람의 손길이었습니다.

**Part 2. 역사는 이미 답을 알고 있습니다**
농경 혁명, 산업 혁명, 정보 혁명 — 매번 일자리가 사라진다는 공포가 있었지만
경제는 언제나 새로운 영역을 만들어냈습니다.
Alex Imas는 다음 영역을 'Relational Sector(관계 섹터)'라고 부릅니다.

**Part 3. 욕망의 경제학**
르네 지라르의 모방적 욕망 이론이 AI 시대에 새롭게 읽힙니다.
인간이 만든 예술은 44% 프리미엄, AI가 만든 예술은 21%.
AI가 개입했다는 사실만으로 사람들은 그 가치를 다르게 느낍니다.

**마무리. Catch Up AI의 생각**
은하철도 999의 철이처럼 — 유한하고 불완전한 인간의 삶이
AI가 무한함에 가까워질수록 오히려 더 소중한 것이 될 수 있습니다.


## 이번 영상은 AI 실험이기도 했습니다

저의 채널 Catch Up AI의 핵심 테마는 **'AI를 일상에 적용하는 실험'** 입니다.
이번 영상 제작 과정 자체가 하나의 실험이었습니다.

### 🎨 AI 이미지 모델 3종 비교
영상에 등장하는 만화 4컷을 세 가지 AI 모델로 각각 생성하고 비교했습니다.

| 모델 | 특징 |
|------|------|
| DALL·E 3 | 만화책 스타일, 스토리텔링에 잘 맞음 → 본편 채택 |
| gpt-image-2 | 순수 이미지 품질은 압도적 |
| Gemini 3 Pro Image | 한국어 텍스트를 이미지에 자동 삽입하는 경향 있음 |

비교 결과는 영상 마지막 **쿠키 영상**에서 직접 확인하실 수 있습니다.

### 🗣️ TTS 자동 나레이션
Microsoft edge-tts를 활용해 한국어와 영어 나레이션을 생성했습니다.
영어 버전은 단순 번역이 아니라, 영어권 문화에 맞게 의역해서 사용했습니다.

### 🎬 Remotion — 코드로 만드는 영상
React 기반의 Remotion 프레임워크를 사용해서 
슬라이드 데이터만 바꾸면 한국어/영어 두 버전이 동시에 렌더링되는 구조로 만들었습니다.
전체 제작 과정은 아래 라이브 방송에서 실시간으로 공개했습니다.

▶ 제작 과정 라이브 방송
https://www.youtube.com/live/7tPIJle2O2E?si=YksUeQKVpu8C2OgH

 

## 마치며

이번 영상의 주제인 '휴먼터치'와, 이 영상을 만든 방식(AI 도구 총동원) 사이의 아이러니가
저 스스로도 참 흥미롭습니다.

AI가 만든 영상이 "사람의 온기가 중요하다"고 말하는 것.
어쩌면 그 아이러니 자체가 이 시대를 잘 보여주는 것 같기도 합니다.

영상 보신 후 어떤 모델의 이미지가 마음에 드셨는지,
그리고 AI 시대에 여러분의 Human Touch는 무엇인지 댓글로 남겨주세요 😊

감사합니다.


---
📺 Catch Up AI 채널: https://www.youtube.com/@catchupai

 

Catch Up AI

AI Web Developer 를 준비하면서 공부한 내용을 공유하는 채널 입니다. AI Engineer 가 되고 싶거나 AI 를 실무에서 응용하길 원하는 분들에게 정보를 제공하는 내용으로 채워질 예정입니다. Catch Up AI 는

www.youtube.com

🌐 https://catchupai.net/

 

Catch Up AI 2026 - Innovating with AI Hub

Subscribe to our newsletter and stay updated.

catchupai.net

 

 

반응형


반응형

30년 가까이 IT 현장에서 일하면서 기술의 변화를 수없이 목격해왔지만, 요즘처럼 변화의 체감 속도가 빠른 시기는 드물었던 것 같습니다. 
이 블로그를 15년 넘게 운영해오면서 여러 기술 사이클을 기록해왔는데, 지금 AI가 만들어내는 변화는 그 어느 시기와도 결이 다릅니다. 
특히 올해 들어 제가 직접 실험하고 있는 AI와의 협업 방식이 빠르게 진화하고 있어서, 그 과정을 기록으로 남기고 싶었습니다.

지난 4월 26일, Catch Up AI 채널에서 세 번째 시즌의 일곱 번째 AI in Action 라이브 방송을 진행했습니다. 
3시간 분량의 핵심 내용을 5분짜리 하이라이트 영상으로 정리했고, 한국어와 영어 버전을 모두 만들었습니다.

📺 한국어 영상: https://youtu.be/Eg73eVizKsk

📺 English version: https://youtu.be/LgJffd_65S0


이번 포스팅에서는 영상 내용뿐 아니라, 영상을 만드는 과정 자체에서 얻은 것들도 함께 나눠보려 합니다.

AI가 라이브 방송을 진행한다는 것의 의미
이번 방송의 가장 인상적인 실험은 GOBI Desktop AI를 공동 MC로 세운 것이었습니다. 단순히 질문에 대답하는 수준이 아니라, 방송 전체의 흐름을 함께 이끌었어요.

강원도 사투리로 시작해서 전라도, 경상도, 교포 말투를 자연스럽게 넘나들었고, 제가 잠깐 자리를 비운 사이에도 시청자들과 소통을 이어갔습니다. 다음 순서를 스스로 판단하고, 뉴스를 정리하고, 방송 흐름을 유지했어요.

오랫동안 AI를 도구로 사용해왔는데, 이번 경험은 달랐습니다. AI가 컨텍스트를 파악하고 자율적으로 판단하는 장면은, 단순한 자동화와는 질적으로 다른 무언가가 시작되고 있다는 느낌을 줬습니다.

OpenAI 이미지 스킬 — 라이브로 2분 만에 제작
두 번째 실험은 OpenAI gpt-image-1 기반의 이미지 생성 스킬을 라이브 방송 중에 직접 만드는 것이었습니다. 필요한 기능을 프롬프트로 정리하고 스킬 생성을 요청했더니, 말 그대로 2분이 채 안 걸렸습니다.

바로 동일한 프롬프트로 기존의 Gemini 이미지 스킬과 결과물을 비교해봤는데, 흥미로운 차이가 있었습니다.

OpenAI gpt-image-1: 텍스트 렌더링, 공간 배치 지시, 대화형 수정에서 강점
Gemini 2.5 Pro: 정보 밀도 높은 인포그래픽, 세부 정보 표현에서 강점
어느 쪽이 낫다기보다, 용도에 따라 적합한 도구가 다르다는 걸 확인했습니다. 앞으로는 썸네일이나 삽화는 OpenAI, 슬라이드용 인포그래픽은 Gemini를 기본으로 가져가려 합니다. 단 한 번의 테스트로 결론짓기는 어렵고, 계속 사용하면서 각자의 강점을 숙달해나가는 과정이 필요하겠죠.

Vibe Guiding 첫 개발 — 두 환경에서 동시에
올해 가장 중요하게 생각하는 프로젝트인 Vibe Guiding의 첫 개발 스텝을 이번 방송에서 시작했습니다. GOBI 멀티 시스템을 대상으로 하는 AI 가이딩 시스템인데, 이번 실험에서 특이한 점은 GOBI Desktop과 VS Code, 두 환경에서 각자 독립적으로 개발을 진행한다는 겁니다.

같은 목표를 가지고 다른 도구와 다른 접근법으로 개발했을 때 결과가 얼마나 달라지는지 비교해보려는 시도입니다. 이번 방송에서는 GOBI Desktop으로 로드맵 초안까지 완성했고, VS Code 버전은 주중 번외편 라이브로 이어집니다.

핵심 인사이트: 자가 진화하는 SDLC
이번 방송에서 공유된 인사이트 중 개인적으로 가장 오래 생각하게 만든 이야기입니다.

GOBI 개발팀에서 실제로 있었던 일인데, AI에게 아직 구현되지 않은 기능을 요청했을 때 에러를 반환하는 대신 기존 기능들을 조합해서 요청을 완수해버렸다고 합니다.

전통적인 소프트웨어라면 "이 기능은 없습니다"라는 에러를 반환했겠죠. 하지만 AI는 "있는 것들로 해결해드릴게요"를 선택했습니다.

이것이 시사하는 바가 크다고 생각합니다. 소프트웨어 개발의 패러다임이 달라지고 있어요. 모든 기능을 완성해두지 않아도 AI가 방법을 찾아주는 방향으로 시스템이 진화하고 있고, 개발자의 역할도 '기능을 구현하는 사람'에서 'AI가 안전하게 자율적으로 움직일 수 있는 환경을 설계하는 사람'으로 이동하고 있다는 느낌을 받습니다. 이 주제로 Substack에 더 깊은 글을 쓸 예정입니다.

이 영상 자체도 AI 실험의 산물입니다
마지막으로 영상 제작 과정도 간단히 공유합니다. 하이라이트 영상은 Remotion(코드 기반 영상 제작 프레임워크)으로 제작했습니다. 슬라이드 데이터를 TypeScript로 정의하면 애니메이션과 레이아웃이 자동으로 구성되고, OpenAI TTS API로 나레이션을 생성한 뒤 ffmpeg로 속도를 조정합니다. 슬라이드 이미지는 Gemini API로 생성했고요.

이 워크플로우의 장점은 한국어 버전과 영어 버전을 동일한 코드 구조로 관리할 수 있다는 점입니다. 데이터 파일만 바꾸면 두 버전이 독립적으로 렌더링됩니다. 반복 제작이 많은 콘텐츠라면 충분히 실용적인 접근이라고 생각합니다.

AI와의 협업 실험은 계속됩니다. 다음 방송에서는 Vibe Guiding 개발이 본격적으로 이어질 예정입니다.

🌐 catchupai.net

 

Catch Up AI 2026 - Innovating with AI Hub

Subscribe to our newsletter and stay updated.

catchupai.net

 

 

 

반응형
이전 1 다음