Claude API 비용 완벽 가이드 2026: 토큰 단가·캐싱·배치 할인 한 번에

Claude API 비용은 2026년 4월 기준 입력 1M 토큰당 Haiku 4.5 $1, Sonnet 4.6 $3, Opus 4.7 $5에서 시작한다. 그런데 이 표면 단가만 보면 손해다. Prompt Caching의 cache hit 0.1x(=90% 할인)와 Batch API 50% 할인이 stack 가능하기 때문에, 같은 작업을 절반 아래 비용으로 운용할 수 있다. 이 글은 단가표·계산 공식·시나리오 4개·Pro 손익분기점·한국 결제 실무까지 토큰 단위로 정리한 클로드 API 비용 가이드다. 모든 수치는 공식 가격 페이지 2026-04-26 확인일 기준이다.

TL;DR

  • Opus 4.7 $5/$25, Sonnet 4.6 $3/$15, Haiku 4.5 $1/$5 (per 1M tokens, input/output)
  • Prompt Caching hit는 base input의 0.1x(=90% 할인), Batch API는 50% 할인. 두 할인 stack 가능
  • Pro 구독($17~20/월)과 API는 별도 결제. Pro 구독자도 API는 따로 청구된다
  • Opus 4.7은 새 토크나이저로 같은 텍스트 토큰 +35%까지 늘 수 있어 단가만 비교하면 함정

1. 2026-04 단가 한눈에 — 3모델 input/output 표

검색자가 가장 먼저 보는 표부터 박는다. 공식 표기 그대로 $X / MTok (MTok = Million Tokens).

모델Base InputCache HitOutput
Claude Opus 4.7$5 / MTok$0.50 / MTok$25 / MTok
Claude Sonnet 4.6$3 / MTok$0.30 / MTok$15 / MTok
Claude Haiku 4.5$1 / MTok$0.10 / MTok$5 / MTok

Cache write 단가(5분 1.25x / 1시간 2x)는 H2 4 Prompt Caching에서 다룬다.

그림 1. claude.com/pricing의 Model pricing 표

1M context 표준화: Pricing 문서는 *”Opus 4.7, Opus 4.6, and Sonnet 4.6 include the full 1M token context window at standard pricing”*이라고 명시한다. 본 글의 3모델은 200k 초과 premium 없이 1M까지 동일 단가다.

Opus 4.7 토크나이저 함정: 공식 원문은 “This new tokenizer may use up to 35% more tokens for the same fixed text”. 같은 한국어 문서를 Opus 4.7로 보내면 토큰이 최대 35% 더 잡혀 단가 비교만으로는 함정.

커뮤니티 보고 — “단가 동결, 청구서 인상” Opus 4.7 출시 직후 비용 분석 매체 Finout은 *”if you already run Opus 4.6 workloads, your most likely outcome is a cost increase between 0% and 35% per request on the same prompts, driven entirely by the tokenizer change”*라고 정리했다. Agent Wars“new tokenizer silently inflates your API bill” 식으로 같은 지점을 지목한다. Hacker News에선 “Pro 가입했는데 페이지 4번 만들어보고 한도 도달”, *”Max 5x인데 5시간 한도가 2시간 만에 끝났다”*는 보고가 다수. 단가 변경은 없지만 같은 작업의 청구·한도는 더 빨리 닳는다는 게 사용자 체감의 일관된 결론이다. 다수 커뮤니티 보고이며 콘텐츠 종류에 따라 1.0~1.35배 폭이 갈린다는 점은 함께 둔다.

어느 모델이 자기 작업에 맞는지는 Claude Opus vs Sonnet vs Haiku 차이 정리 별도 글에서 다뤘다.


2. 토큰이란 무엇이고, 한국어는 왜 더 비싼가

토큰은 모델이 읽고 쓰는 최소 단위다. 영어는 보통 4자/토큰. 한국어는 글자 1 = 약 2~3 토큰이 통상 실측치이지만 콘텐츠에 따라 다르고 공식이 한국어 비율을 미공개로 두었으므로 정확값은 Token Counting API로 측정해야 한다.

POST /v1/messages/count_tokens 호출은 무료다 (Token Counting 문서 원문 “Token counting is free to use”). 큰 입력을 보내기 전 토큰 수를 미리 재서 견적 정확도를 올릴 때 쓴다.

curl https://api.anthropic.com/v1/messages/count_tokens \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{"model":"claude-sonnet-4-6","messages":[{"role":"user","content":"..."}]}'

응답은 {"input_tokens": 14} 형태다. count_tokens에 cache_control을 붙여도 캐싱은 동작하지 않는다 — 실제 메시지 생성 호출에서만 캐시가 적용된다.


3. 계산 공식 — 입력·출력 단가를 곱하면 끝

모든 시나리오의 베이스가 되는 한 줄 공식.

월 비용(USD)
  = (월 입력 토큰 / 1,000,000) × 모델 input 단가
  + (월 출력 토큰 / 1,000,000) × 모델 output 단가

예: Sonnet 4.6에 입력 1M, 출력 0.2M 토큰을 보내면 1×$3 + 0.2×$15 = $6. 캐싱·배치를 적용하면 위 공식의 input·output 자리에 multiplier(0.1x, 0.5x 등)가 곱해진다. 다음 두 섹션이 그 배율을 정리한다.


4. Prompt Caching — write 1.25x/2x, hit 0.1x로 90% 절감

반복 시스템 프롬프트·코드 컨텍스트가 있는 워크로드에서 가장 큰 절감 도구다.

Cache 동작Multiplier지속 시간
5분 cache write1.25x base input5분
1시간 cache write2x base input60분
Cache hit (read)0.1x base input (= 90% 할인)위와 동일

Pricing 문서가 손익분기점을 명시한다: “caching pays off after just one cache read for the 5-minute duration (1.25x write), or after two cache reads for the 1-hour duration (2x write)”. 5분 TTL은 1회만 재사용해도 흑자, 1시간 TTL은 2회 재사용에서 흑자다.

모델별 최소 캐싱 토큰 — 못 채우면 캐싱이 아예 작동하지 않는다:

  • Opus 4.7 / 4.6 / 4.5: 4,096 토큰
  • Sonnet 4.6: 2,048 토큰
  • Haiku 4.5: 4,096 토큰 (Haiku 3.5는 2,048 — 마이그레이션 함정)

다른 제약: 요청당 최대 4 breakpoints, tools·system prompts·images·tool_choice 변경 시 cache invalidate. 이 multiplier는 Batch API 할인과 stack 가능하다 — 다음 섹션이 그 케이스다.

그림 2. Prompt Caching 공식 문서의 multiplier·TTL 섹션


5. Batch API — 50% 할인, 24시간 보장, 캐싱과 stack

비실시간 작업이라면 Batch API가 단순하고 강력하다. 핵심 사실 네 가지:

  1. “All usage is charged at 50% of the standard API prices” — input·output 모두 50% (Batch 문서)
  2. 대부분 1시간 내 완료, 24시간 만료 보장(실시간 응답 불가)
  3. 100,000 requests / 256 MB 한도, 결과는 29일간 다운로드 가능
  4. 모든 active 모델 지원, 캐싱과 stack 가능(1시간 TTL 캐시 권장)
모델Batch inputBatch output
Opus 4.7$2.50 / MTok$12.50 / MTok
Sonnet 4.6$1.50 / MTok$7.50 / MTok
Haiku 4.5$0.50 / MTok$2.50 / MTok

단점은 Zero Data Retention 비대상이라는 점이다. 보안 민감 데이터는 표준 호출이 안전하다.

그림 3. Batch Processing 문서의 50% 할인 명시 영역


6. 실전 시뮬레이션 4개 — 코드 분석 / 챗봇 / 문서 요약 / 복잡 추론

산식은 모두 H2 3 공식에 캐싱·배치 multiplier만 곱한 결과다. 단가는 2026-04-26 기준.

6-1. 시나리오 A — 코드 분석 (Sonnet 4.6 + 5분 캐시): 월 약 $112

가정: 입력 평균 50,000 tokens(코드베이스 + 시스템 프롬프트), 출력 2,000 tokens, 일 50회, 30일.

Cache write : 40,000 × $3.75 / 1M × 30회   = $4.50
Cache hit   : 40,000 × $0.30 / 1M × 1,470회 = $17.64
일반 입력   : 10,000 × $3    / 1M × 1,500회 = $45.00
출력        :  2,000 × $15   / 1M × 1,500회 = $45.00
합계 = $112.14 / 월 (캐시 없이 $270 대비 약 58% 절감)

5분 TTL이라 호출 간격이 5분 이내일 때만 hit. 실제 hit rate는 60~80%가 통상.

6-2. 시나리오 B — 챗봇 (Haiku 4.5 + 시스템 프롬프트 캐시): 월 약 $189

가정: 시스템 프롬프트 8,000 tokens(캐싱, Haiku 4.5 최소 4,096 충족), 사용자 입력 평균 500, 출력 1,000, 일 1,000회, 30일.

Cache write : 8,000 × $1.25 / 1M × 30회     = $0.30
Cache hit   : 8,000 × $0.10 / 1M × 29,970회 = $23.98
일반 입력   :   500 × $1    / 1M × 30,000회 = $15.00
출력        : 1,000 × $5    / 1M × 30,000회 = $150.00
합계 = $189.28 / 월 (캐시 없이 $405 대비 약 53% 절감)

트래픽이 5분 안에 몰리지 않으면 1시간 TTL(write 2x)이 hit rate가 더 안정적이다.

6-3. 시나리오 C — 문서 요약 대량 (Haiku 4.5 + Batch 50% + 1h 캐시 stack): 월 약 $17.50 / 캐시 stack 시 약 $15.26

가정: 평균 입력 30,000 tokens, 출력 1,000 tokens, 1,000건 batch.

Batch만:
  입력 : 30,000 × $0.50 / 1M × 1,000 = $15.00
  출력 :  1,000 × $2.50 / 1M × 1,000 = $2.50
  합계 = $17.50 (정확히 50% 절감)

Batch + 1h 캐시 stack (공통 지시 5,000 tokens 캐싱):
  Cache write : 5,000 × $2 × 0.5 / 1M × 1     = $0.01
  Cache hit   : 5,000 × $0.10 × 0.5 / 1M × 999 = $0.25
  개별 입력  : 25,000 × $0.50 / 1M × 1,000     = $12.50
  출력       :  1,000 × $2.50 / 1M × 1,000     = $2.50
  합계 ≈ $15.26 (일반 호출 $35 대비 약 56% 절감)

Pricing 문서가 *”These multipliers stack with other pricing modifiers, including the Batch API discount and data residency”*라고 명시한 이중 할인 케이스다.

6-4. 시나리오 D — 복잡 추론 소량 (Opus 4.7 직접): 월 $30~40

가정: 입력 5,000 tokens, 출력 3,000 tokens, 일 10회, 30일.

베이스 (캐시 미적용):
  입력 : 5,000 × $5  / 1M × 300 = $7.50
  출력 : 3,000 × $25 / 1M × 300 = $22.50
  합계 = $30.00 / 월

Opus 4.7 토크나이저 보정 (+35% 가정):
  토큰 5,000 → 6,750, 3,000 → 4,050
  합계 ≈ $40.50 / 월

Opus 4.7 캐싱은 입력 4,096 토큰 이상에서 작동한다. 5,000은 충족하나 시스템 프롬프트가 짧으면 미적용 가능.

6-5. 4개 요약

시나리오모델월 비용한 줄
A 코드 분석Sonnet 4.6 + cache약 $112일 50회 코드 어시스턴트
B 챗봇Haiku 4.5 + cache약 $189일 1,000회 채팅
C 문서 요약 대량Haiku 4.5 Batch (+캐시 stack)$17.50 (~$15.26)1,000건 배치
D 복잡 추론 소량Opus 4.7$30~40일 10회 reasoning

사용 패턴에 따라 Claude API 비용은 월 $15 ~ $200+ 범위에서 움직인다. Claude Code도 API 모드로 쓰면 위 단가가 그대로 적용된다.


7. Pro 구독 vs API — 손익분기점은 어디인가

Claude Pro는 $20/월(연간 결제 시 환산 $17/월)이다. 그런데 Help Center는 분명히 *”A paid Claude subscription enhances your chat experience but doesn’t include access to the Claude API or Console”*라고 못박았다. Pro·Max·Team·Enterprise 모두 chat·Claude Code 한정이고, API 키 사용은 console.anthropic.com에서 별도 가입·별도 결제다.

Pro $20을 API 토큰으로 환산하면 대략:

  • Haiku 4.5 input 기준 ≈ 20M tokens
  • Sonnet 4.6 input 기준 ≈ 6.7M tokens
  • Opus 4.7 input 기준 ≈ 4M tokens
  • 출력은 위의 1/5 분량(출력 단가가 5배)

월 1~2시간 가벼운 챗 사용이면 Pro가 압도적으로 싸다. 자체 앱·자동화·SDK 호출이 들어오는 순간부터 API가 정답이다.

한 달 통짜로 굴려본 사례는 아니지만 갈림 지점을 보여주는 단편이 하나 있다. 2026년 2월 며칠간 자동화 스크립트 두 개를 Sonnet 4.5로 돌려봤더니 Usage 대시보드 기준 input 약 16만·output 약 5만 토큰이 찍혔고, 그 기간 단가 환산 청구서는 약 $1.3 수준이었다(그림 4). 같은 호출 패턴을 Pro에서 돌렸다면 자동화가 한도를 갉아먹어 사람이 끼는 작업이 한도 회복까지 멈췄을 것이다. 사용량 절댓값보다 자동화 자유도 — 그게 옮길 이유였다. 단편이라 본격 운용 청구서는 사용 패턴에 따라 달라진다는 점은 미리 둔다.

그림 4. 콘솔 Usage 대시보드 — 필자의 2026-02 단편 API 사용 기록 (Sonnet 4.5, n=1)

Pro 한도 도달 시 자동 API fallback은 없다 — 막히면 그냥 막히고 청구는 별개다.


8. 한국에서 결제·환율·세금 — 무엇이 가능하고 무엇이 미공개인가

한국 사용자가 실무에서 부딪히는 항목을 짧게 정리한다.

  • 결제 카드: 신용/직불카드만 공식 지원. 해외결제 가능 비자/마스터/AMEX 권장. 일부 prepaid·gift card는 거절 사례 있음.
  • 카카오페이·네이버페이·페이팔: Pro 정책상 PayPal·암호화폐·은행이체·카카오페이·네이버페이 모두 미지원이다. API 결제는 현재 신용카드 위주이며, 그 외 수단 지원 여부는 콘솔에서 직접 확인을 권장한다.
  • prepaid credits: 신규 가입자는 콘솔 “Buy credits” → 즉시 사용. 크레딧 1년 만료, 환불 불가, 만료 연장 불가.
  • 환율: USD 청구 → 카드사 환율 + 해외결제 수수료(보통 1~3%)가 별도. 인보이스에는 USD만 표시된다.
  • 부가세 / 세금계산서: 공식 미공개. 사업자라면 콘솔 빌링에서 세금계산서 옵션을 확인하거나 회계 부서에 사전 확인을 권장한다.
  • 무료 크레딧: 신규 가입 $5 / claim 후 14일이 통상이지만 정책 변동이 잦다. 가입 시 console.anthropic.com 배너에서 직접 확인. Haiku 입력 약 5M tokens 또는 Opus 입력 약 1M tokens 분량 — PoC 1~2일치.

9. 비용 절감 베스트 프랙티스

실제 운영에서 비용을 깎는 항목을 체크리스트로 박아둔다.

  1. 작업 난이도에 맞는 모델 — 단순 분류·추출은 Haiku, 복잡 추론만 Opus(단가 5배 차이)
  2. 반복 시스템 프롬프트는 Prompt Caching 필수 (90% 절감)
  3. 비실시간 일괄 작업은 Batch API 50% + 1h 캐시 stack
  4. max_tokens 명시 — 출력 단가가 입력의 5배다. 무한 길이 응답 방지
  5. Haiku 에스컬레이션 패턴 — 1차 Haiku 분류 → 어려운 케이스만 Sonnet/Opus 라우팅
  6. 호출 전 Token Counting API(무료) 로 토큰 사전 측정
  7. inference_geo 기본값 유지 — US-only는 1.1x premium, 한국 사용자가 켤 이유 없음

시스템 프롬프트가 길고 호출이 잦은 워크로드라면 cache_control 한 줄로 두 번째 호출부터 입력 비용이 0.1x까지 떨어진다. Haiku 4.5는 4,096 최소 토큰을 넘겨야 적용되니, 시스템 프롬프트 분량을 캐시 임계까지는 채우는 편이 손익분기상 유리하다.


10. 자주 묻는 질문 (FAQ)

Claude API는 한 달에 얼마나 나오나요?

사용 패턴에 따라 다르다. 본문 시뮬레이션 4개 기준으로 코드 어시스턴트 약 $112, 챗봇 약 $189, 문서 요약 배치 약 $17.50, 복잡 추론 $3040이다. 통상 **월 $15$200+ 범위**로 움직인다.

Claude Pro 구독자는 API를 무료로 쓸 수 있나요?

아니다. Pro·Max·Team·Enterprise는 chat·Claude Code 한정이며 API 키는 console.anthropic.com에서 별도 가입·별도 결제다. 공식이 *”subscription doesn’t include access to the Claude API or Console”*로 명시한다.

Prompt Caching은 어떻게 적용하면 비용이 얼마나 줄어드나요?

Cache write는 5분 TTL 1.25x / 1시간 TTL 2x, cache hit는 base input의 0.1x(=90% 할인). 공식 손익분기점은 5분 TTL 1회, 1시간 TTL 2회 재사용에서 흑자다. 반복 시스템 프롬프트라면 거의 항상 이득.

Batch API 할인은 누구나 받을 수 있나요?

가능하다. 모든 active 모델에서 input·output 50% 할인이 적용된다. 단 24시간 처리 보장(실시간 응답 불가)이고 ZDR 비대상이라 보안 민감 데이터는 주의.

Token Counting API는 무엇이고 왜 써야 하나요?

POST /v1/messages/count_tokens로 호출 전 입력 토큰 수를 측정하는 무료 엔드포인트. 견적 정확도와 예산 초과 방지용. 캐싱은 실제 메시지 생성 호출에서만 동작한다.

한국에서 Claude API를 신용카드로 결제할 수 있나요?

가능하다. 해외결제 가능한 비자/마스터/AMEX가 필요하며 USD 청구·환율·해외결제 수수료(보통 1~3%)는 카드사 정산 시점에 반영된다. 카카오페이·네이버페이·PayPal은 현재 미지원이며 콘솔에서 직접 확인을 권장한다.

토큰 100만 개 쓰면 모델별로 얼마인가요?

1M tokens 기준 입력+출력은 Haiku 4.5 $1+$5, Sonnet 4.6 $3+$15, Opus 4.7 $5+$25. cache hit는 입력의 0.1x, Batch는 50%를 곱하면 된다. Opus 4.7은 동일 텍스트가 +35%까지 토큰을 더 쓸 수 있어 단가만으로는 함정.


11. 다음 걸음

다음 걸음 셋 중 하나 — (1) Token Counting API로 자기 콘텐츠 토큰 수를 직접 재 본다, (2) 콘솔 가입 후 $5 무료 크레딧으로 시나리오 A·B 중 가까운 쪽을 1일치만 돌려본다, (3) 반복 시스템 프롬프트가 있다면 cache_control 한 줄부터 붙여본다.


관련 글

AI 시대 살아남아보기
Posts created 8

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Related Posts

Begin typing your search term above and press enter to search. Press ESC to cancel.

Back To Top