Claude 200K, Gemini 1M이 왜 갑자기 비싸지는지 KV 캐시의 메모리 구조로 풀었다. 컨텍스트 윈도우와 KV 캐시 크기가 어떻게 연결되는지, GQA·PagedAttention·RadixAttention이 이 문제를 어떻게 다르게 푸는지 한국어로 정리한다.
SGLang은 왜 빠른가 — RadixAttention과 prefix 공유의 직관
SGLang이 왜 vLLM 다음으로 주목받는지 RadixAttention 원리를 한국어 직관으로 풀었다. 접두사 트리로 KV를 공유해 CoT·multi-turn에서 prefix를 재계산하지 않는 구조와, PagedAttention과 어떻게 짝을 이루는지 — 6.4배의 비교 대상까지.