GPT-5.5 출시, 무엇이 바뀌었나

OpenAI 가 2026년 4월 23일 GPT-5.5 를 공개했다. (출처)공식 블로그는 이 모델을 “지금까지 가장 똑똑하고 직관적인 모델” 이라 소개한다. 그런데 글을 끝까지 읽어 보면 이번 릴리스의 실제 무게 중심은 조금 다른 쪽에 있다. 답을 빨리 주는 AI 에서, 맡긴 일을 끝까지 처리하는 AI 로 넘어가는 한 걸음이다. 숫자 0.1 의 문제가 아니라 사용 방식의 방향 전환이다. 비서에게 할 일을 한두 개 시키던 단계에서, 업무 리스트를 통째로 넘기고 돌아오는 단계로 옮겨가는 느낌이다.

콘텐츠

GPT-5.5 점수도 좋지만, 토큰도 적게 쓴다

속도는 그대로, 토큰은 덜 쓴다

OpenAI 는 GPT-5.5 가 GPT-5.4 와 동일한 응답 속도를 유지하면서 같은 Codex 작업에 훨씬 적은 토큰(AI 가 글을 처리하는 최소 단위, 단어보다 조금 더 잘게 쪼갠 조각)을 쓴다고 밝혔다. 큰 모델일수록 느려지기 마련인데 이번엔 그 공식을 피했다. API 비용이 쌓이는 입장에서 토큰 절감은 벤치 점수 몇 %p 상승보다 체감이 크다.

실제로 써 보면 이전 버전이 내놓던 “먼저 전제를 정리해 보면…” 식 도입부가 줄고, 묻는 말에 바로 본론으로 들어가는 빈도가 늘었다. 답이 짧아지고 밀도는 올라간 느낌이다. 돈을 내고 쓰는 개발자뿐 아니라 ChatGPT 안에서 쓰는 일반 사용자도 응답이 덜 장황해졌다는 걸 곧 느끼게 될 것이다.

터미널 워크플로우에서 현재 최고 점수를 찍었다

에이전틱 코딩(AI 가 스스로 계획하고 터미널·파일 같은 도구를 써서 코드를 끝까지 고쳐내는 방식) 벤치에서 숫자 차이가 크게 벌어졌다. Terminal-Bench 2.0 에서 82.7% 를 기록했고, GPT-5.4 가 75.1%, Claude Opus 4.7 이 69.4%, Gemini 3.1 Pro 가 68.5% 였다. 복잡한 명령줄 작업을 스스로 계획하고 도구를 쓰고 결과를 검증하는 흐름을 측정하는 벤치다. 어려운 수학에서도 차이가 또렷하다. FrontierMath Tier 4 에서 35.4% 로 GPT-5.4 의 27.1% 대비 8%p 이상 올랐고, Opus 4.7 의 22.9% 를 앞섰다. OpenAI 는 Artificial Analysis Coding Index 에서 “경쟁 프런티어 모델의 절반 비용으로 같은 수준 지능” 을 낸다고 덧붙였다. 다만 SWE-Bench Pro 는 58.6% 로 점수 자체가 폭발적이진 않다. 이미 포화에 가까운 벤치가 있다는 신호다. 벤치마다 강점이 다르다는 걸 감안해서 봐야 한다.

Codex 는 이제 세금 서류 2만 장을 읽는다

이번 릴리스에서 가장 실감 나는 부분은 공식 블로그의 Knowledge work 섹션이다. OpenAI 가 자사 팀의 실제 사용 사례를 숫자로 공개했다.

재무팀은 Codex 로 24,771건의 K-1 세금 양식(71,637페이지)을 검토했고 작년 대비 2주 분 작업을 단축했다. 마케팅·GTM 팀의 한 직원은 주간 보고서 생성을 자동화해 매주 5~10시간을 벌었다.

커뮤니케이션 팀은 6개월치 강연 요청 데이터를 분석하고 위험도 점수 체계를 만든 뒤, 저위험 요청을 자동 처리하는 슬랙 에이전트를 검증했다. 이런 일을 처리하는 사람이 AI 회사의 엔지니어가 아니라 재무·홍보 담당자라는 점이 중요하다. 모델이 컴퓨터를 사람처럼 쓴다는 비전이 실험실 밖으로 나와 사내 업무 규칙이 됐다는 뜻이다.

사용자 후기

OpenAI 직원 85% 가 매주 Codex 를 쓴다

이번 블로그에서 의외로 인상적인 건 OpenAI 내부 사용 통계다.

소프트웨어 엔지니어링뿐 아니라 재무·커뮤니케이션·마케팅·데이터사이언스·제품관리까지 전사 기능이 Codex 를 일상 도구로 쓴다. AI 회사니 당연하다 싶지만 전사 85% 가 주간 단위로 쓴다는 수치는 한번 곱씹을 만하다.

도입 단계가 아니라 체화 단계라는 뜻이다. 이 숫자는 바깥 회사의 벤치마크가 된다. 일반 기업이 같은 수준으로 가려면 앞으로 몇 년이 걸릴지, 그동안 어떤 직군이 먼저 바뀔지 가늠하는 기준이 된다.

개발자들은 개념적 명료함을 말했다

파트너 개발자 인터뷰도 블로그에 여럿 실렸다. Every 의 대표 Dan Shipper 는 GPT-5.5 를 두고 “내가 써 본 첫 번째로 개념적 명료함을 갖춘 코딩 모델” 이라 평했다.

자기 앱의 복잡한 버그를 뛰어난 엔지니어가 손대야 했던 사례를 GPT-5.5 가 거의 같은 방향으로 고쳐냈다고 한다. MagicPath 의 대표 Pietro Schirano 는 수백 개 프런트엔드·리팩터 변경이 얽힌 브랜치를 한 번에 머지한 경험을 두고 “더 높은 지능과 일하는 느낌, 존중에 가까운 감정” 이라고 표현했다.

Cursor CEO Michael Truell 은 “task 를 일찍 멈추지 않고 더 오래 끌고 간다” 는 점을 꼽았다. 이런 발언이 전부 OpenAI 가 큐레이션한 결과라는 점은 감안해야 한다. 다만 공통된 키워드는 ‘더 오래, 더 스스로’ 였고, 이전 릴리스 반응과는 결이 분명히 다르다.

마치며

GPT-5.5 는 혁신보다 숙성이다. 바뀐 건 모델 하나가 아니라 ChatGPT 와 Codex 를 쓰는 경험 전체다. 버전 숫자에 흔들리지 말고, 내가 쓰는 장면에서 뭐가 달라졌는지부터 보면 된다.

다음에 ChatGPT 를 열 때 평소 반복하던 작업을 그대로 시켜 보자. 답이 짧아졌는지, 혼자 끝까지 끌고 가는지. 그게 본인 기준의 평가가 된다. 릴리스 노트를 읽는 시간보다, 실제로 맡겨 보는 10분이 훨씬 정직한 답을 준다.