GPU 없이 25MB로 구현하는 사람의 목소리: KittenTTS 아키텍처 딥다이브
최근 사이드 프로젝트로 라즈베리파이 5 기반의 완전 오프라인 홈 어시스턴트를 구축하면서, 제가 마주한 가장 크고 단단한 벽은 다름 아닌 TTS(Text-to-Speech) 엔진이었습니다. 현업에서 10년 넘게 온갖 시스템을 뜯어보고 연결해 본 저에게도 로컬 음성 합성의 세계는 녹록지 않았죠. STT(음성 인식)는 Whisper의 양자화 버전을 쓰면 그...
최근 사이드 프로젝트로 라즈베리파이 5 기반의 완전 오프라인 홈 어시스턴트를 구축하면서, 제가 마주한 가장 크고 단단한 벽은 다름 아닌 TTS(Text-to-Speech) 엔진이었습니다. 현업에서 10년 넘게 온갖 시스템을 뜯어보고 연결해 본 저에게도 로컬 음성 합성의 세계는 녹록지 않았죠. STT(음성 인식)는 Whisper의 양자화 버전을 쓰면 그...
Link: arXiv:2603.24329 Date: 2026-03-29 요즘 로보틱스나 3D 가상 환경에 LLaVA나 GPT-4V를 통째로 얹어서 자율 에이전트(Autonomous Agent)를 만드는 게 유행이죠. 데모 영상 보면 그럴싸합니다. “사과 집어줘” 하면 잘 집으니까요. 그런데 조금만 환경이 동적으로 변하거나 다른 에이전트가 개입하면 어...
현업에서 10년 넘게 코드를 만지며 수많은 오픈소스를 뜯어봤지만, 최근처럼 ‘비전 AI’ 생태계가 실시간(Real-time) 영역으로 무섭게 침투하는 걸 보면 경외감과 피로감이 동시에 몰려옵니다. 프로젝트를 진행하며 최신 트렌드를 따라잡는 것도 벅찬데, 하루가 다르게 쏟아지는 새로운 툴들은 우리를 끊임없이 시험에 들게 하죠. 과거 영상 딥페이크 기술...
안녕하세요, 10년 차 개발자이자 기술의 이면을 들여다보길 좋아하는 탐험가입니다. 최근 X(트위터)나 레딧을 보면 온통 ‘바이브 코딩(Vibecoding)’ 이야기뿐입니다. Cursor를 켜거나 Claude Code에 대고 ‘유저 인증 붙인 To-Do 앱 만들어줘’라고 치면 눈앞에서 코드가 뚝딱 완성되는 시대죠. 처음엔 다들 환호했습니다. ‘이제 개발...
[Paper] UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience [ID] 2603.24533 [Date] March 2026 [Authors] UI-Voyager Team 모바일 GUI 에이전트 개발해보신 분들은 알 겁니다. 라벨링 노가다가 얼마나 사람 피 말리게 하는지요. 화...
[Paper] [2603.22918] EVA: Efficient Reinforcement Learning for End-to-End Video Agent [Github] https://github.com/wangruohui/EfficientVideoAgent 비디오 데이터를 MLLM(Multimodal LLM)에 던져넣을 때 우리가 겪는 환장할 노릇...
🛡️ 통제 불능의 AI 에이전트에 목줄을 채우다: Cisco DefenseClaw 딥다이브 안녕하세요. 현업에서 산전수전 다 겪으며 코드를 짜고, 새로운 기술이 나오면 밤을 새워가며 뜯어보길 즐기는 10년 차 개발자입니다. 최근 1~2년 사이 우리 생태계는 정말 미친 듯한 속도로 변하고 있죠. 특히 작년(2025년) 11월, Peter Steinb...
요즘 백엔드 개발자들과 커피 한잔하며 이야기하다 보면, 백이면 백 나오는 하소연이 있습니다. “LLM 연동하는 거, 진짜 지뢰밭이에요.” 초기에는 그저 OpenAI API 키 하나 발급받아서 chat/completions 엔드포인트를 찌르면 끝나는 줄 알았죠. 하지만 프로덕션 환경은 그렇게 호락호락하지 않습니다. OpenAI가 갑자기 502 에러를 ...
[Metadata] Paper: CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents (arXiv:2603.24440) Date: March 2026 AI 에이전트 개발하다 보면 빡치는 순간이 한두 번이 아니죠. 특히 UI 조작 에이전트(Compute...
[Paper Metadata] Project Page: https://shandaai.github.io/wildworld-project/ ArXiv ID: 2603.23497 Authors: Shanda AI, etc. 요즘 쏟아지는 비디오 생성 AI들, 겉보기엔 정말 화려하죠? 텍스트 몇 줄 치면 영화 같은 장면이 뚝딱 나옵니다. 근...