🚀 GPU 메모리가 줄줄 샌다고요? vLLM과 PagedAttention이 LLM 서빙의 판을 엎은 진짜 이유
🔥 The Hook & TL;DR: 왜 우리는 vLLM에 열광하는가? 솔직히 까놓고 얘기해 봅시다. 사내에서 PoC 단위로 LLM 띄울 때는 다들 행복합니다. 7B, 13B 모델 하나 올려놓고 “와, 대답 잘하네요!” 하며 박수 치죠. 그런데 이걸 실제 프로덕션에 올리고, 동시 접속자가 10명, 50명, 100명으로 늘어나는 순간 인프라팀에 ...
