캐싱에 또 당했네 또 당했어...클로드 API를 걷어낸 이유 : 클리앙

며칠 전 클로드는 캐싱 요금에 주의하지 않으면 파산한다는 글을 적었는데, 며칠 만에 그 사실을 알고도 당해서 클로드 API를 걷어내게 되어 글을 적습니다.

이것은 클로드의 Ai들을 API호출시의 문제로 개별플랜으로 이용시에는 해당되지 않습니다.

뭘 당했나?

11월중순까지의 메인은 클로드 MAX x20($200)플랜이었고, 11월 중순부터 여러 Ai들에 대한 API호출을 본격적으로 쓰기 시작했습니다. 그런데 11월28일에 간단한 테스트에 대해 30여분 만에 $10이 증발하는 경험을 하고는 캐싱정책을 확인해서 캐싱 관련 프로그램을 작성하여 적용해서 사용을 했습니다.

image (6).jpg

12월16일에 클로드의 장점인 서브에이전트 호출과 스킬 펑션을 다른 Ai들에서도 범용으로 사용할 수 있도록 구현하는 작업이 있었고, 그로인해 모델별로 큰 부하를 걸어서 테스트를 수행했습니다.

그리고 잠시후 앤트로픽에서 따릉~ 친절한 안내가 옵니다. 네 충전액이 바닥났어!

image (7).jpg

역시 클로드는 자동 충전으로 사용하면 파산한다는 사실을 재확인 합니다. (일반 플랜에서도 사용량 부족시 자동충전 버튼을 켜두시면 마찬가지 사태가 발생합니다.)

타사와의 비교를 해보겠습니다.(2025년 12월 기준)

구분	Anthropic (Claude)	OpenAI (GPT-5.2 / o3)	Google (Gemini 2.0/3.0)
캐싱 방식	수동 (Explicit)	완전 자동 (Implicit)	자동 + 수동 (하이브리드)
초기 비용	25% 더 비쌈 (Surcharge)	추가 비용 없음	추가 비용 없음
유지 시간	5분 (지나면 삭제됨)	약 1시간 (자동 관리)	약 1시간 ~ 무제한
할인율	90% (조건부)	50~90% (자동)	무료 ~ 대폭 할인
일반평가	"쓰기 까다로운 예민한 천재"	"그냥 되는 놈"	"가성비 괴물"

앤트로픽의 API호출시 실제 가격을 보겠습니다.

Model pricing

The following table shows pricing for all Claude models across different usage tiers:

Model	Base Input Tokens	5m Cache Writes	1h Cache Writes	Cache Hits & Refreshes	Output Tokens
Claude Opus 4.5	$5 / MTok	$6.25 / MTok	$10 / MTok	$0.50 / MTok	$25 / MTok
Claude Opus 4.1	$15 / MTok	$18.75 / MTok	$30 / MTok	$1.50 / MTok	$75 / MTok
Claude Opus 4	$15 / MTok	$18.75 / MTok	$30 / MTok	$1.50 / MTok	$75 / MTok
Claude Sonnet 4.5	$3 / MTok	$3.75 / MTok	$6 / MTok	$0.30 / MTok	$15 / MTok
Claude Sonnet 4	$3 / MTok	$3.75 / MTok	$6 / MTok	$0.30 / MTok	$15 / MTok
Claude Sonnet 3.7 (deprecated)	$3 / MTok	$3.75 / MTok	$6 / MTok	$0.30 / MTok	$15 / MTok
Claude Haiku 4.5	$1 / MTok	$1.25 / MTok	$2 / MTok	$0.10 / MTok	$5 / MTok
Claude Haiku 3.5	$0.80 / MTok	$1 / MTok	$1.6 / MTok	$0.08 / MTok	$4 / MTok
Claude Opus 3 (deprecated)	$15 / MTok	$18.75 / MTok	$30 / MTok	$1.50 / MTok	$75 / MTok
Claude Haiku 3	$0.25 / MTok	$0.30 / MTok	$0.50 / MTok	$0.03 / MTok	$1.25 / MTok

동작은 어떻게 되는가?

5분짜리와 한시간 짜리로 입력이 가능한데, 5분의 경우 120% 가격을 지불하고 입력하며, 한시간 짜리는 200% 가격을 내고 등록해야 합니다. 그리고 이후 재입력을 하면 캐싱 해둔 내용분에 대해서 90% 할인을 적용합니다.

이 캐시는 정해진 시간 내에 호출이 없으면 날아갑니다. 따라서 제대로 쓰려면 캐시 등록을 한 후에는 4분30초 정도마다 핑이라도 한 번씩 날리도록 자동화를 해둬야만 최대한 이용을 할 수 있습니다. 앤트로픽을 하드하게 쓰는 개발자들은 심폐소생 스크립트를 씁니다.

[Heartbeat 스크립트]

로직: 백그라운드에서 4분 30초마다 앤트로픽 API에 아주 짧은 요청(예: "ping")을 자동으로 보냄.
- 효과: 내가 딴짓을 해도 캐시가 죽지 않고 계속 살아있음.
- 비용: 캐시를 유지하기 위한 'Read 비용'이 조금씩 계속 발생.

ANTHROPIC_API_KEY가 설정된 상태에서 Anthropic.messages.create()를 타는 모든 호출에

- cache_control(ttl="5m") 강제

- anthropic-beta: prompt-caching-2024-07-31

- 4분30초 keepalive 적용

그럼에도 선등록비가 크기 때문에 10회 재호출 해야 78%, 20회 재호출시 84% 전후의 할인율에 도달하게 됩니다. 구글과 오픈AI의 캐싱 기능은 cli종료시 레포트가 나오는데 구글의 경우 91~96%의 히트율을 보입니다.

사실 지금까지 앤트로픽의 MAX x20 플랜을 통해서 사용한 금액을 생각하면 API 에서 2회, 월렛기능 테스트에 1회 총 $30 정도를 예상하지 못 하고 당한것으로 큰 금액은 아닙니다만, API를 이용해서 연관된 서비스를 제공할 경우에는 단 한 번의 실수가 회사에 큰 손해를 입힐 수 있어서 남겨둘 수가 없다고 판단, 자동 캐싱이 적용되기 전까지는 클로드 전체 모델을 프로젝트에서 배제하기로 결정했습니다.

조사해보니 레딧 등에서도 원성이 자자해서 조만간 자동캐싱을 지원해주지 않나 기대는 하고 있습니다.

제미나이 3.0의 조사 보고

2025년 12월 현재 개발자 커뮤니티에서 매우 보편적이고 타당한 감정입니다. 실제로 레딧(Reddit)과 해커뉴스(Hacker News) 등지에서 "앤트로픽의 캐싱 정책은 설계 결함 수준이다"라는 성토가 이어지고 있습니다.

검색된 팩트와 여론을 종합하여 현재 상황을 정리해 드립니다.

1. 개발자 커뮤니티의 실제 반응: "가스라이팅 당하는 기분"

커뮤니티(r/ClaudeAI, r/LocalLLaMA 등)에서는 앤트로픽의 정책을 두고 **"기술적 오만(Technical Arrogance)"**이라 부르며 격앙된 반응을 보이고 있습니다.

"쓰기 비용 할증(1.25배)은 조삼모사다": 경쟁사(OpenAI, Google)는 캐싱을 '서비스 최적화'의 일환으로 보고 무료로 자동 적용해주는데, 앤트로픽만 이를 **"프리미엄 옵션 상품"**으로 팔고 있습니다. 처음에 웃돈을 얹어줘야 나중에 깎아준다는 논리는 2025년 시점에서 시대착오적이라는 평가가 지배적입니다.
"5분의 저주(TTL)": 5분이라는 짧은 수명은 인간의 대화 텀을 전혀 고려하지 않은 **"기계 중심적 사고"**의 결과물입니다. 화장실만 다녀와도 캐시가 날아가고, 다시 비싼 요금(Write 비용)을 내야 하는 구조 때문에 "사실상 할인을 안 해주겠다는 뜻 아니냐"는 비꼬는 반응이 많습니다.
구현의 복잡성: 코드를 한 줄도 안 건드려도 되는 경쟁사와 달리, cache_control을 수동으로 삽입하고 바이트(byte) 수를 계산해야 하는 방식은 개발자들에게 불필요한 기술 부채를 강요하고 있습니다.

사용기

서비스/SW 캐싱에 또 당했네 또 당했어...클로드 API를 걷어낸 이유 8

Model pricing

1. 개발자 커뮤니티의 실제 반응: "가스라이팅 당하는 기분"