
Claude를 매일 쓰는 사람이라면 4월 어느 날부터 같은 작업이 더 빨리 한도에 닿는 걸 느꼈을 거다. Opus 4.7이 정식 출시된 직후였다.
평소엔 큰 작업을 한 번에 굴리지 않는 편인데도 4.7 이후엔 한도가 가끔 답답하게 느껴졌다. 무엇이 바뀌었고, 어떻게 살아남았는지를 정리한다.
4.7 업데이트가 토큰을 더 먹는다

같은 프롬프트를 보내도 4.7부터 토큰이 더 빠지기 시작했다. 단순한 체감이 아니라 Anthropic 공식 문서가 인정한 변화였다.
Anthropic이 토크나이저를 바꿨다
Anthropic 공식 발표 페이지는 4.7의 새 토크나이저가 같은 텍스트를 처리할 때 1배에서 1.35배까지 더 많은 토큰을 쓴다고 명시했다 (출처: https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7).
토크나이저는 글자를 모델이 이해하는 단위로 쪼개는 부품이다. 단위가 잘게 쪼개지면 같은 글이라도 토큰 수가 늘어난다.
처음엔 내 프롬프트가 길어졌나 하고 의심했다. 다시 짧게 줄여도 결과는 같았다. 모델 자체가 더 잘게 자르는 거니 사용자가 줄일 도리가 없었다.
effort 기본값이 xhigh로 올라갔다
Claude Code v2부터 Opus 4.7의 기본 effort가 xhigh로 상향됐다는 보고가 Reddit r/ClaudeAI 가이드 글에 정리됐다. effort는 모델이 답을 만들 때 얼마나 깊이 생각할지 정하는 다이얼이다.
xhigh는 가장 깊이 생각하는 단계다. 더 좋은 답을 받는 대신 토큰을 더 쓴다. 4.6에서는 medium 정도가 기본이었다.
이전엔 안전했던 짧은 프롬프트도 xhigh가 붙으면 30~100% 더 토큰을 쓴다는 분석이 여러 커뮤니티에서 나왔다. 디폴트가 바뀐 것만으로 같은 일을 더 비싸게 하게 된 셈이다.
캐시 TTL이 1시간에서 5분으로 짧아졌다
4월 초부터 클로드 코드의 프롬프트 캐시 만료 시간이 1시간에서 5분으로 줄었다는 보도가 나왔다 (출처: xda-developers). 캐시는 같은 컨텍스트를 다시 보낼 때 비용을 깎아주는 메커니즘이다.
5분 안에 다음 호출이 안 들어오면 캐시는 사라진다. 다음 호출부터는 같은 컨텍스트를 다시 토큰으로 계산한다.
한 사용자가 한 달 805억 토큰 중 99.6%가 캐시 읽기였다는 사례를 공개했는데, 이 비중이 5분마다 깨지면 비용이 쉽게 몇 배가 된다. 이 변경은 공식 changelog에 크게 다뤄지지 않아 사용자들이 한참 뒤에 알아챘다.
Anthropic이 한도 버그를 패치했다
Opus 4.7이 출시된 다음 날 즈음, Anthropic은 quota 추적 버그를 발견하고 5시간/주간 한도를 reset 했다는 보도가 있었다. 일부 사용자의 한도가 잘못 차감된 사고였다.
이 패치는 토큰 소비 자체를 줄이는 건 아니었다. 잘못 차감된 사람들의 한도를 돌려준 한 번의 보정에 가깝다. 4.7이 토큰을 더 먹는 흐름은 그대로 남았다.
GitHub의 anthropics/claude-code 저장소에는 1M 컨텍스트에서의 과도한 토큰 사용과 Opus가 orchestrator로 돌 때 세션·주간 한도가 비정상적으로 빨리 닳는 issue가 올라와 있다.
Max 20x를 고려해야하나..?
4.7 이후 토큰이 더 빠지면서 고민이 더 많아 진다.. 한도가 모자라도 Max 20x로 업그레이드 전에 시도할 만한 우회 몇 가지가 있다.
effort를 medium을 사용한다
나는 항상 effort를 medium으로 쓰고 있다. xhigh의 답 품질이 분명 더 좋을거라 예상하지만, 한도를 통째로 갉아먹는 비용이 너무 컸다. medium은 4.6에서 익숙했던 깊이라 거리감이 작다.
설정은 모델 호출 옵션에서 바꾸거나, 클로드 코드 사용자라면 명령줄 플래그로 명시하면 된다.
```bash
# Claude Code 호출 시 effort 명시
claude --effort medium
```
이걸 적용하고부터 같은 작업의 토큰 소비가 떨어진것 처럼 느껴졌다. 답이 약간 짧아진 느낌은 있지만 작업 자체는 무리 없이 돌아간다.
Sonnet이 1차 처리하는 advisor 패턴
또 다른 우회는 Sonnet 4.6이 일단 답을 만들고, 정말 깊은 사고가 필요할 때만 Opus를 호출하는 패턴이다. Anthropic 커뮤니티가 advisor strategy 라고 부른다.
Sonnet은 토큰당 비용이 훨씬 싸다. 작업의 80%를 Sonnet이 끝내면 한도 압박이 줄어든다. Opus는 정말 어려운 단계에만 쓴다.
4.6으로 다운그레이드는 비공식이지만 가능하다
마지막은 명시적으로 4.6 모델을 호출하는 방법이다. Anthropic이 공식 권장하는 흐름은 아니라 표면에 잘 안 보인다. 일부 사용자는 4.6이 같은 작업을 더 적은 토큰으로 끝낸다는 결과를 공유했다.
API 호출에서 모델 이름을 `claude-opus-4-6`으로 적용하면 된다. 다만 4.7만 가진 task budgets 같은 새 기능은 못 쓴다. 억지로 해야 하는 우회라는 점은 감안해야 한다.
오토파일럿 한 번에 한도를 다 쓴 날

OMC 오토파일럿을 한 번 돌려봤다
평소엔 클로드를 대화로 띄워놓고 코드 한두 단계씩 묻는 식으로 쓴다. 에이전트를 줄줄이 돌려본 적은 거의 없었다.
그러다 OMC(oh-my-claudecode) 의 오토파일럿을 한 번 시험 삼아 돌려봤다. 한 줄짜리 아이디어를 넣으면 분석부터 코드 작성, 테스트까지 알아서 도는 흐름이다.
병렬로 여러 단계를 굴리는 구조라 토큰을 많이 쓴다는 건 알고 있었다. 그래도 4.6 시절 다른 사람들 후기를 보면 한 번 돌리는 정도는 한도가 견디는 분위기였다.
4.7 환경에서 돌린 그날, 시작한 지 얼마 안 돼 한도 알림이 떴다. 평소 며칠 분량을 한두 시간 만에 다 쓴 셈이었다.
작업이 그냥 멈춘다
한도에 닿으면 클로드는 다섯 시간 후 다시 시도하라는 메시지를 띄우고 멈춘다. 오토파일럿이 중간 단계에서 끊긴 채로 남아 있었다.
다른 도구로 옮겨갈지, 그냥 기다릴지 정해야 했다. 컨텍스트를 다시 만들어 새 도구에 넘기는 비용이, 한도 회복까지 기다리는 시간보다 비싸 보였다.
그날은 그냥 작업을 멈췄다. 이후로는 오토파일럿처럼 토큰을 한 번에 많이 먹는 흐름은 일단 보류하고, 익숙한 대화 위주로 돌아왔다. 자동화 단계를 내가 끊어 가며 쓰는 식이다.
항상 medium으로 써서 품질 차이는 잘 모르겠다
내 effort 설정은 처음부터 medium 이었다. 4.7로 올라온 뒤에도 그대로 둔 셈이다.
xhigh 가 어떤 답을 주는지 솔직히 비교해본 적이 없다. medium 으로 충분히 잘 풀린다고 느꼈고, 더 깊은 사고가 필요한 작업도 medium 답을 보고 추가로 묻는 식으로 풀어왔다.
그래서 디폴트가 xhigh 로 올라간 이번 변화가 나에겐 직접적인 영향이 작다. 다만 사용자가 모르는 사이 토큰 효율을 깎이는 흐름이라는 점은 짚고 가야 한다고 느꼈다. 자동값을 그대로 두는 사용자가 더 많을 테니, 결과적으로 한도 압박은 모두에게 미친다.
마치며
pus 4.7은 토크나이저 자체가 1~1.35배 더 토큰을 쓰고, 디폴트 effort가 한 단계 깊어졌고, 캐시는 더 빨리 사라진다. 같은 작업이 더 비싸진 셈이다.
그래도 나는 클로드 코드를 계속 쓴다. 레퍼런스가 충분하고 코드 작업에서 프론티어 모델이라는 자리는 지키고 있다. 다만 effort를 medium으로 쓰고 advisor 패턴을 더 쓰는 식으로 운용은 바꿨다.
기회가 되면 Codex Pro 도 한 달 정도 진지하게 써볼 생각이다. 비교해봐야 진짜 갈아탈 가치가 있는지 알 수 있다.
'AI > AI Trend' 카테고리의 다른 글
| 지피티 이미지 2.0 — 이미지 전반이 한 단계 올라왔다 (0) | 2026.04.26 |
|---|---|
| 클로드 프로·맥스5·맥스20, 클로드 코드 요금제 실전 정리 (0) | 2026.04.25 |
| GPT-5.5 출시, GPT 5.5가 바꾼 건 모델보다 일하는 방식이다 (0) | 2026.04.24 |
| 크롬 하나로 AI가 해결된다 — Gemini in Chrome 한국 상륙 (10) | 2026.04.23 |