KV 캐시 단편화 - 하루 한 AI

vLLM은 왜 빠른가 — PagedAttention을 OS 페이징으로 이해하기

vLLM이 왜 빠른지 PagedAttention 원리를 OS 가상 메모리·페이징 비유로 직관적으로 풀었다. KV 캐시 단편화 60~80%를 4% 미만으로 줄이는 구조와 continuous batching, 그리고 vLLM vs Ollama 목적 차이까지.