학습 - 하루 한 AI

로컬AI, 학습2026년 06월 03일2026년 06월 03일

KV 캐시가 뭐길래 — 긴 컨텍스트가 빠르게 비싸지는 이유

Claude 200K, Gemini 1M이 왜 갑자기 비싸지는지 KV 캐시의 메모리 구조로 풀었다. 컨텍스트 윈도우와 KV 캐시 크기가 어떻게 연결되는지, GQA·PagedAttention·RadixAttention이 이 문제를 어떻게 다르게 푸는지 한국어로 정리한다.

로컬AI, 학습2026년 05월 29일2026년 06월 02일

M3 Pro에서 vLLM 돌려보기 — Mac 3경로와 솔직한 한계 (2026)

M3 Pro 36GB 맥북에서 vLLM을 띄우는 세 경로(CPU backend·vllm-metal·Docker Model Runner)와 단일 스트림 실측, 그리고 왜 혼자 쓰면 Ollama가 더 빠른지까지 정리한 운영자 실측 노트.

로컬AI, 학습2026년 05월 27일2026년 06월 03일

vLLM은 왜 빠른가 — PagedAttention을 OS 페이징으로 이해하기

vLLM이 왜 빠른지 PagedAttention 원리를 OS 가상 메모리·페이징 비유로 직관적으로 풀었다. KV 캐시 단편화 60~80%를 4% 미만으로 줄이는 구조와 continuous batching, 그리고 vLLM vs Ollama 목적 차이까지.

로컬AI, 학습2026년 05월 21일2026년 06월 02일

Ollama로 M3 Pro 맥북에 로컬 LLM 띄우기 — 30분 실측 가이드

M3 Pro 36GB 맥북에서 Ollama로 Llama 3.1 8B를 30분 안에 띄운 운영자 실측 가이드. 설치·Metal GPU 확인·tokens/sec 측정·MLX 함정·36GB 메모리로 가능한 한계까지 1인칭으로 정리했다. (2026-05-21 측정)

Back To Top