Opus 4.7 이후 한도가 반나절 만에 끝났다 — Claude Code 토큰 소진 후기

Claude를 매일 쓰는 사람이라면 4월 어느 날부터 같은 작업이 더 빨리 한도에 닿는 걸 느꼈을 거다. Opus 4.7이 정식 출시된 직후였다.

평소엔 큰 작업을 한 번에 굴리지 않는 편인데도 4.7 이후엔 한도가 가끔 답답하게 느껴졌다. 무엇이 바뀌었고, 어떻게 살아남았는지를 정리한다.

4.7 업데이트가 토큰을 더 먹는다

같은 프롬프트를 보내도 4.7부터 토큰이 더 빠지기 시작했다. 단순한 체감이 아니라 Anthropic 공식 문서가 인정한 변화였다.

Anthropic이 토크나이저를 바꿨다

Anthropic 공식 발표 페이지는 4.7의 새 토크나이저가 같은 텍스트를 처리할 때 1배에서 1.35배까지 더 많은 토큰을 쓴다고 명시했다 (출처: https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7).

토크나이저는 글자를 모델이 이해하는 단위로 쪼개는 부품이다. 단위가 잘게 쪼개지면 같은 글이라도 토큰 수가 늘어난다.

처음엔 내 프롬프트가 길어졌나 하고 의심했다. 다시 짧게 줄여도 결과는 같았다. 모델 자체가 더 잘게 자르는 거니 사용자가 줄일 도리가 없었다.

effort 기본값이 xhigh로 올라갔다

Claude Code v2부터 Opus 4.7의 기본 effort가 xhigh로 상향됐다는 보고가 Reddit r/ClaudeAI 가이드 글에 정리됐다. effort는 모델이 답을 만들 때 얼마나 깊이 생각할지 정하는 다이얼이다.

xhigh는 가장 깊이 생각하는 단계다. 더 좋은 답을 받는 대신 토큰을 더 쓴다. 4.6에서는 medium 정도가 기본이었다.

이전엔 안전했던 짧은 프롬프트도 xhigh가 붙으면 30~100% 더 토큰을 쓴다는 분석이 여러 커뮤니티에서 나왔다. 디폴트가 바뀐 것만으로 같은 일을 더 비싸게 하게 된 셈이다.

캐시 TTL이 1시간에서 5분으로 짧아졌다

4월 초부터 클로드 코드의 프롬프트 캐시 만료 시간이 1시간에서 5분으로 줄었다는 보도가 나왔다 (출처: xda-developers). 캐시는 같은 컨텍스트를 다시 보낼 때 비용을 깎아주는 메커니즘이다.

5분 안에 다음 호출이 안 들어오면 캐시는 사라진다. 다음 호출부터는 같은 컨텍스트를 다시 토큰으로 계산한다.

한 사용자가 한 달 805억 토큰 중 99.6%가 캐시 읽기였다는 사례를 공개했는데, 이 비중이 5분마다 깨지면 비용이 쉽게 몇 배가 된다. 이 변경은 공식 changelog에 크게 다뤄지지 않아 사용자들이 한참 뒤에 알아챘다.

Anthropic이 한도 버그를 패치했다

Opus 4.7이 출시된 다음 날 즈음, Anthropic은 quota 추적 버그를 발견하고 5시간/주간 한도를 reset 했다는 보도가 있었다. 일부 사용자의 한도가 잘못 차감된 사고였다.

이 패치는 토큰 소비 자체를 줄이는 건 아니었다. 잘못 차감된 사람들의 한도를 돌려준 한 번의 보정에 가깝다. 4.7이 토큰을 더 먹는 흐름은 그대로 남았다.

GitHub의 anthropics/claude-code 저장소에는 1M 컨텍스트에서의 과도한 토큰 사용과 Opus가 orchestrator로 돌 때 세션·주간 한도가 비정상적으로 빨리 닳는 issue가 올라와 있다.

Max 20x를 고려해야하나..?

4.7 이후 토큰이 더 빠지면서 고민이 더 많아 진다.. 한도가 모자라도 Max 20x로 업그레이드 전에 시도할 만한 우회 몇 가지가 있다.

effort를 medium을 사용한다

나는 항상 effort를 medium으로 쓰고 있다. xhigh의 답 품질이 분명 더 좋을거라 예상하지만, 한도를 통째로 갉아먹는 비용이 너무 컸다. medium은 4.6에서 익숙했던 깊이라 거리감이 작다.

설정은 모델 호출 옵션에서 바꾸거나, 클로드 코드 사용자라면 명령줄 플래그로 명시하면 된다.

```bash
# Claude Code 호출 시 effort 명시
claude --effort medium
```

이걸 적용하고부터 같은 작업의 토큰 소비가 떨어진것 처럼 느껴졌다. 답이 약간 짧아진 느낌은 있지만 작업 자체는 무리 없이 돌아간다.

Sonnet이 1차 처리하는 advisor 패턴

또 다른 우회는 Sonnet 4.6이 일단 답을 만들고, 정말 깊은 사고가 필요할 때만 Opus를 호출하는 패턴이다. Anthropic 커뮤니티가 advisor strategy 라고 부른다.

Sonnet은 토큰당 비용이 훨씬 싸다. 작업의 80%를 Sonnet이 끝내면 한도 압박이 줄어든다. Opus는 정말 어려운 단계에만 쓴다.

4.6으로 다운그레이드는 비공식이지만 가능하다

마지막은 명시적으로 4.6 모델을 호출하는 방법이다. Anthropic이 공식 권장하는 흐름은 아니라 표면에 잘 안 보인다. 일부 사용자는 4.6이 같은 작업을 더 적은 토큰으로 끝낸다는 결과를 공유했다.

API 호출에서 모델 이름을 `claude-opus-4-6`으로 적용하면 된다. 다만 4.7만 가진 task budgets 같은 새 기능은 못 쓴다. 억지로 해야 하는 우회라는 점은 감안해야 한다.

오토파일럿 한 번에 한도를 다 쓴 날

OMC 오토파일럿을 한 번 돌려봤다

평소엔 클로드를 대화로 띄워놓고 코드 한두 단계씩 묻는 식으로 쓴다. 에이전트를 줄줄이 돌려본 적은 거의 없었다.

그러다 OMC(oh-my-claudecode) 의 오토파일럿을 한 번 시험 삼아 돌려봤다. 한 줄짜리 아이디어를 넣으면 분석부터 코드 작성, 테스트까지 알아서 도는 흐름이다.

병렬로 여러 단계를 굴리는 구조라 토큰을 많이 쓴다는 건 알고 있었다. 그래도 4.6 시절 다른 사람들 후기를 보면 한 번 돌리는 정도는 한도가 견디는 분위기였다.

4.7 환경에서 돌린 그날, 시작한 지 얼마 안 돼 한도 알림이 떴다. 평소 며칠 분량을 한두 시간 만에 다 쓴 셈이었다.

작업이 그냥 멈춘다

한도에 닿으면 클로드는 다섯 시간 후 다시 시도하라는 메시지를 띄우고 멈춘다. 오토파일럿이 중간 단계에서 끊긴 채로 남아 있었다.

다른 도구로 옮겨갈지, 그냥 기다릴지 정해야 했다. 컨텍스트를 다시 만들어 새 도구에 넘기는 비용이, 한도 회복까지 기다리는 시간보다 비싸 보였다.

그날은 그냥 작업을 멈췄다. 이후로는 오토파일럿처럼 토큰을 한 번에 많이 먹는 흐름은 일단 보류하고, 익숙한 대화 위주로 돌아왔다. 자동화 단계를 내가 끊어 가며 쓰는 식이다.

항상 medium으로 써서 품질 차이는 잘 모르겠다

내 effort 설정은 처음부터 medium 이었다. 4.7로 올라온 뒤에도 그대로 둔 셈이다.

xhigh 가 어떤 답을 주는지 솔직히 비교해본 적이 없다. medium 으로 충분히 잘 풀린다고 느꼈고, 더 깊은 사고가 필요한 작업도 medium 답을 보고 추가로 묻는 식으로 풀어왔다.

그래서 디폴트가 xhigh 로 올라간 이번 변화가 나에겐 직접적인 영향이 작다. 다만 사용자가 모르는 사이 토큰 효율을 깎이는 흐름이라는 점은 짚고 가야 한다고 느꼈다. 자동값을 그대로 두는 사용자가 더 많을 테니, 결과적으로 한도 압박은 모두에게 미친다.

마치며

pus 4.7은 토크나이저 자체가 1~1.35배 더 토큰을 쓰고, 디폴트 effort가 한 단계 깊어졌고, 캐시는 더 빨리 사라진다. 같은 작업이 더 비싸진 셈이다.

그래도 나는 클로드 코드를 계속 쓴다. 레퍼런스가 충분하고 코드 작업에서 프론티어 모델이라는 자리는 지키고 있다. 다만 effort를 medium으로 쓰고 advisor 패턴을 더 쓰는 식으로 운용은 바꿨다.

기회가 되면 Codex Pro 도 한 달 정도 진지하게 써볼 생각이다. 비교해봐야 진짜 갈아탈 가치가 있는지 알 수 있다.

'AI > AI Trend' 카테고리의 다른 글

지피티 이미지 2.0 — 이미지 전반이 한 단계 올라왔다 (0)	2026.04.26
클로드 프로·맥스5·맥스20, 클로드 코드 요금제 실전 정리 (0)	2026.04.25
GPT-5.5 출시, GPT 5.5가 바꾼 건 모델보다 일하는 방식이다 (0)	2026.04.24
크롬 하나로 AI가 해결된다 — Gemini in Chrome 한국 상륙 (10)	2026.04.23

4.7 업데이트가 토큰을 더 먹는다

Anthropic이 토크나이저를 바꿨다

effort 기본값이 xhigh로 올라갔다

캐시 TTL이 1시간에서 5분으로 짧아졌다

Anthropic이 한도 버그를 패치했다

Max 20x를 고려해야하나..?

effort를 medium을 사용한다

Sonnet이 1차 처리하는 advisor 패턴

4.6으로 다운그레이드는 비공식이지만 가능하다

오토파일럿 한 번에 한도를 다 쓴 날

OMC 오토파일럿을 한 번 돌려봤다

작업이 그냥 멈춘다

항상 medium으로 써서 품질 차이는 잘 모르겠다

마치며

'AI > AI Trend' 카테고리의 다른 글

티스토리툴바