GPT-5.5 출시, GPT 5.5가 바꾼 건 모델보다 일하는 방식이다

OpenAI 가 2026년 4월 23일 GPT-5.5 를 공개했다 (출처) 공식 블로그는 이 모델을 "지금까지 가장 똑똑하고 직관적인 모델" 이라 소개한다.

그런데 글을 끝까지 읽어 보면 이번 릴리스의 실제 무게 중심은 조금 다른 쪽에 있다. 답을 빨리 주는 AI 에서, 맡긴 일을 끝까지 처리하는 AI 로 넘어가는 한 걸음이다. 숫자 0.1 의 문제가 아니라 사용 방식의 방향 전환이다. 비서에게 할 일을 한두 개 시키던 단계에서, 업무 리스트를 통째로 넘기고 돌아오는 단계로 옮겨가는 느낌이다.

GPT-5.5 는 점수보다 맡기는 감이 달라졌다

속도는 그대로, 토큰은 덜 쓴다

OpenAI 는 GPT-5.5 가 GPT-5.4 와 동일한 응답 속도를 유지하면서 같은 Codex 작업에 훨씬 적은 토큰(AI 가 글을 처리하는 최소 단위, 단어보다 조금 더 잘게 쪼갠 조각)을 쓴다고 밝혔다.

큰 모델일수록 느려지기 마련인데 이번엔 그 공식을 피했다. API 비용이 쌓이는 입장에서 토큰 절감은 벤치 점수 몇 %p 상승보다 체감이 크다. 실제로 써 보면 이전 버전이 내놓던 "먼저 전제를 정리해 보면..." 식 도입부가 줄고, 묻는 말에 바로 본론으로 들어가는 빈도가 늘었다.

답이 짧아지고 밀도는 올라간 느낌이다. 돈을 내고 쓰는 개발자뿐 아니라 ChatGPT 안에서 쓰는 일반 사용자도 응답이 덜 장황해졌다는 걸 곧 느끼게 될 것이다

터미널 워크플로우에서 현재 최고 점수를 찍었다

에이전틱 코딩(AI 가 스스로 계획하고 터미널·파일 같은 도구를 써서 코드를 끝까지 고쳐내는 방식) 벤치에서 숫자 차이가 크게 벌어졌다. Terminal-Bench 2.0 에서 82.7% 를 기록했고, GPT-5.4 가 75.1%, Claude Opus 4.7 이 69.4%, Gemini 3.1 Pro 가 68.5% 였다.

복잡한 명령줄 작업을 스스로 계획하고 도구를 쓰고 결과를 검증하는 흐름을 측정하는 벤치다.

어려운 수학에서도 차이가 또렷하다. FrontierMath Tier 4 에서 35.4% 로 GPT-5.4 의 27.1% 대비 8%p 이상 올랐고, Opus 4.7 의 22.9% 를 앞섰다. OpenAI 는 Artificial Analysis Coding Index 에서 "경쟁 프런티어 모델의 절반 비용으로 같은 수준 지능" 을 낸다고 덧붙였다.

Codex 는 이제 세금 서류 2만 장을 읽는다

이번 릴리스에서 가장 실감 나는 부분은 공식 블로그의 Knowledge work 섹션이다. OpenAI 가 자사 팀의 실제 사용 사례를 숫자로 공개했다.

재무팀은 Codex 로 24,771건의 K-1 세금 양식(71,637페이지)을 검토했고 작년 대비 2주 분 작업을 단축했다. 마케팅·GTM 팀의 한 직원은 주간 보고서 생성을 자동화해 매주 5~10시간을 벌었다. 커뮤니케이션 팀은 6개월치 강연 요청 데이터를 분석하고 위험도 점수 체계를 만든 뒤, 저위험 요청을 자동 처리하는 슬랙 에이전트를 검증했다.

이런 일을 처리하는 사람이 AI 회사의 엔지니어가 아니라 재무·홍보 담당자라는 점이 중요하다. 모델이 컴퓨터를 사람처럼 쓴다는 비전이 실험실 밖으로 나와 사내 업무 규칙이 됐다는 뜻이다.

요금제 안에서 바로 쓸 수 있다, API 는 아직

GPT-5.5 는 출시 당일부터 Plus·Pro·Business·Enterprise 사용자가 ChatGPT 와 Codex 에서 바로 쓸 수 있다. GPT-5.5 Pro 는 Pro·Business·Enterprise 플랜 한정으로 ChatGPT 에서 제공된다.

API 는 26년 4월 24일 기준 아직 열리지 않았고 OpenAI 는 "안전·보안 요건을 파트너와 협의 중이며 곧 공개" 라고 적었다. 사이버 보안 악용 가능성 검증에 공을 들였다는 설명도 따라붙는다. CyberGym 벤치에서 81.8% 로 Opus 4.7 의 73.1% 를 앞섰다. API 가 늦는 건 이 부분과 무관하지 않아 보인다.

써 본 사람들이 뭐라고 했나

OpenAI 직원 85% 가 매주 Codex 를 쓴다

이번 블로그에서 의외로 인상적인 건 OpenAI 내부 사용 통계다. 소프트웨어 엔지니어링뿐 아니라 재무·커뮤니케이션·마케팅·데이터사이언스·제품관리까지 전사 기능이 Codex 를 일상 도구로 쓴다.

AI 회사니 당연하다 싶지만 전사 85% 가 주간 단위로 쓴다는 수치는 한번 곱씹을 만하다. 도입 단계가 아니라 체화 단계라는 뜻이다. 이 숫자는 바깥 회사의 벤치마크가 된다. 일반 기업이 같은 수준으로 가려면 앞으로 몇 년이 걸릴지, 그동안 어떤 직군이 먼저 바뀔지 가늠하는 기준이 된다.

개발자들은 '개념적 명료함' 을 말했다

파트너 개발자 인터뷰도 블로그에 여럿 실렸다. Every 의 대표 Dan Shipper 는 GPT-5.5 를 두고 "내가 써 본 첫 번째로 개념적 명료함을 갖춘 코딩 모델" 이라 평했다. 자기 앱의 복잡한 버그를 뛰어난 엔지니어가 손대야 했던 사례를 GPT-5.5 가 거의 같은 방향으로 고쳐냈다고 한다.

MagicPath 의 대표 Pietro Schirano 는 수백 개 프런트엔드·리팩터 변경이 얽힌 브랜치를 한 번에 머지한 경험을 두고 "더 높은 지능과 일하는 느낌, 존중에 가까운 감정" 이라고 표현했다. Cursor CEO Michael Truell 은 "task 를 일찍 멈추지 않고 더 오래 끌고 간다" 는 점을 꼽았다. 이런 발언이 전부 OpenAI 가 큐레이션한 결과라는 점은 감안해야 한다. 다만 공통된 키워드는 '더 오래, 더 스스로' 였고, 이전 릴리스 반응과는 결이 분명히 다르다.

하지만.. 너무 잦은 업데이트

솔직히 이번 공개를 보며 나는 가벼운 피로를 느꼈다. 5가 나온 지 얼마 안 된 기분인데 5.4 를 지나 벌써 5.5 다. 버전을 따라가다 보면 이번엔 뭐가 바뀌었는지 릴리스 노트만 훑고 끝나는 경우가 많다.

입문자에게는 이 버전 자체가 장벽이다. 다만 벤치보다 사용 사례를 앞세운 이번의 톤은 이전과 다르다. "숫자가 살짝 올랐다" 가 아니라 "세금 서류 2만 장을 맡겼다" 가 헤드라인이다. 이게 맞는 방향이다. AI 가 정말 일을 한다는 의미가 점수 싸움이 아니라 실제 업무 흐름에 들어가는 것이라는 걸, 적어도 이번 릴리스에서는 OpenAI 가 그렇게 말했다. 그래서 숫자에 무뎌진 사람도 이번만큼은 한 번 눈길을 줘도 괜찮다.

마치며

GPT-5.5 는 혁신보다 숙성이다. 바뀐 건 모델 하나가 아니라 ChatGPT 와 Codex 를 쓰는 경험 전체다. 버전 숫자에 흔들리지 말고, 내가 쓰는 장면에서 뭐가 달라졌는지부터 보면 된다.

다음에 ChatGPT 를 열 때 평소 반복하던 작업을 그대로 시켜 보자. 답이 짧아졌는지, 혼자 끝까지 끌고 가는지. 그게 본인 기준의 평가가 된다. 릴리스 노트를 읽는 시간보다, 실제로 맡겨 보는 10분이 훨씬 정직한 답을 준다.

'AI > AI Trend' 카테고리의 다른 글

클로드 프로·맥스5·맥스20, 클로드 코드 요금제 실전 정리 (0)	2026.04.25
크롬 하나로 AI가 해결된다 — Gemini in Chrome 한국 상륙 (10)	2026.04.23

GPT-5.5 는 점수보다 맡기는 감이 달라졌다

속도는 그대로, 토큰은 덜 쓴다

터미널 워크플로우에서 현재 최고 점수를 찍었다

Codex 는 이제 세금 서류 2만 장을 읽는다

요금제 안에서 바로 쓸 수 있다, API 는 아직

써 본 사람들이 뭐라고 했나

OpenAI 직원 85% 가 매주 Codex 를 쓴다

개발자들은 '개념적 명료함' 을 말했다

하지만.. 너무 잦은 업데이트

마치며

'AI > AI Trend' 카테고리의 다른 글

티스토리툴바