지피티 이미지 2.0, 한글이 안 깨지는 이미지 AI

지피티 이미지 2.0은 OpenAI가 2026년 4월 21일 공개한 3세대 이미지 생성 모델이다. 한국어를 포함한 비라틴 문자 렌더링 정확도가 99% 수준으로 올라갔고, 생성 전에 추론을 거치는 Thinking 모드가 처음 들어갔다. (출처)

회사에서 한글 카피가 들어간 이미지를 만들어야 할 일이 자주 생긴다. 그동안은 나노바나나로 뽑았다. 짧은 문구는 잘 그렸는데, 한 줄을 넘어가면 자모가 깨졌다. 결국 포토샵으로 다시 글자를 얹는 일이 반복됐다. 지피티 이미지 2.0이 그 갭을 정말 메웠는지 직접 확인해봤다.

그동안 한글이 깨졌던 진짜 이유

한글은 글자가 아니라 도형 조합이다

영어 알파벳은 26개의 독립된 모양이다. 한 글자가 한 형태로 끝난다. 한글은 다르다. 자음 19개, 모음 21개, 받침 27개가 한 음절 안에서 위·아래·옆으로 결합된다. 이론상 가능한 음절이 1만 1,172개다.

이미지 모델은 글자를 글자로 인식하지 않는다. 픽셀의 분포로 학습한다. 알파벳은 분포 패턴이 단순해서 잘 외운다. 한글은 같은 자음 ‘ㄱ’이 ‘가’에 들어갈 때와 ‘극’에 들어갈 때 위치도 크기도 다르다. 학습이 어렵다.

이 구조를 처음 알았을 때 좀 놀랐다. 단순히 데이터가 적어서가 아니라, 한글이라는 문자 체계 자체가 픽셀 모델에 까다로운 형태였던 거다.

학습 데이터의 편향

전 세계 웹 이미지 중 한글이 사용된 이미지의 비율은 한 자릿수다. 영어 텍스트가 들어간 이미지는 압도적으로 많다. 모델은 결국 데이터가 있는 만큼만 그린다. 한글처럼 자모가 복잡하게 결합하는 문자는 학습 데이터까지 적으니, 모양이 어긋나거나 자음 위치가 바뀌는 결과가 자연스럽게 따라붙었다.

이전 세대인 gpt-image-1.5는 GPT-4o에 이미지 기능을 추가한 구조였다. 텍스트 모델 위에 그리기 기능을 붙인 형태라, 한글 모양을 픽셀 수준에서 정밀하게 다듬기 어려웠다.

업무에서 나노바나나로 “오늘의 메뉴: 김치찌개, 된장국, 비빔밥”을 그리게 했더니 ‘김치찌개’까지는 그럭저럭 나왔는데 ‘된장국’에서 자음이 두세 개 뒤섞였다. 짧은 단어는 외워둔 패턴으로 그려내고, 긴 문장은 일반화 능력이 따라가지 못하는 거였다.

디퓨전 모델의 구조적 약점

대부분의 이미지 모델은 디퓨전 방식이다. 노이즈를 점점 걷어내며 그림을 만든다. 풍경이나 인물은 잘 어울리는데, 글자처럼 “정답이 있는” 대상엔 약하다. 한 픽셀만 흐트러져도 글자가 깨져 보인다.

영어는 26자라 약점이 잘 안 드러난다. 하지만 한글은 1만 자가 넘는다. 디퓨전이 약한 영역에 정확히 한글이 박혀 있었던 셈이다.

Thinking 모드가 한글을 살린 방식

그리기 전에 먼저 생각한다

지피티 이미지 2.0의 가장 큰 변화는 아키텍처다. 4o 기반에서 독립 모델로 수정했다. 여기에 o 시리즈의 추론 능력을 이미지에 처음 결합했다.

기존 방식은 프롬프트를 받자마자 바로 그렸다. 2.0은 다르다. 먼저 프롬프트 안에 어떤 요소들이 있는지 읽는다. 그다음 화면 안에서 글자와 그림이 어디에 놓일지 레이아웃을 짠다. 글꼴 크기와 비율, 색상 조합이 말이 되는지 검증하고, 다 그린 다음에는 의도대로 나왔는지 한 번 더 확인한다. 사람이 시안을 잡을 때 거치는 사고 절차를 그대로 모델 안에 넣은 셈이다.

이 방식이 한글에 특히 효과적인 이유가 있다. 글자 위치를 미리 계획하고 자모 조합을 검증하는 단계가 생기면서, 한 번에 다 그리려다 깨지는 실수가 줄어든다. 직접 써보니 한 문장이 두 줄로 줄바꿈되는 카피도 자간과 줄간격이 의도대로 나왔다.

텍스트 렌더링 정확도 99%

공식 벤치마크 기준 텍스트 정확도 99%. 수치가 크게 와닿지 않아서 직접 넣어봤다. ‘치킨과 맥주’, ‘노래방 24시’, ‘빈티지 의류’ 같은 간판 텍스트가 거리 풍경 안에서 한 글자도 안 틀리고 나왔다. 가격표 일곱 줄이 들어간 메뉴판 포스터도 정렬·자간·크기 위계가 다 맞았다. 1.5 때까지만 해도 메뉴 한 줄이면 자음 한두 개는 꼭 깨졌었는데, 그 단계를 넘었다.

LM Arena 1위, 그것도 큰 차이로

LM Arena 기준 Elo 점수 1,512 대 1,360, 242점 차이로 gpt-image-2가 앞선다. 이미지 아레나 역사상 최대 격차다. 블라인드 테스트라 결과가 더 신뢰가 간다. 평가자가 모델 이름을 모른 채 두 결과물 중 하나를 고르는 방식이라, 마케팅 효과가 끼어들 여지가 없다.

수치만 보면 그렇구나 싶지만, 242점이라는 격차가 어느 정도인지 감이 안 왔다. 보통 새 모델이 1위를 차지해도 격차는 50~100점 정도다. 이번 격차는 세대가 달라졌다는 뜻에 가깝다.

나노바나나 2 프로와의 한글 차이

한글 텍스트, 인포그래픽은 지피티 이미지 2.0 우위

한글 카피가 들어간 포스터, UI 시안, 인포그래픽 같이 글자가 정확해야 하는 작업은 지피티 이미지 2.0이 확실히 앞선다. 반대로 피부 결이 살아있어야 하는 인물 사진이나 영화 같은 분위기는 나노바나나 2 프로가 낫다. 한쪽이 다 이기는 게임이 아니라 용도가 갈리는 거다.

인물 사진과 비용 효율은 나노바나나가 낫다

화장품 광고 컨셉 컷이나 모델 비주얼은 여전히 나노바나나 2 프로 쪽이 자연스럽다. 피부 결, 조명, 시네마틱 분위기에서 점수가 높다. 가격도 더 싸다. 대량으로 시안을 뽑는 작업이라면 나노바나나 쪽이 효율적이다.

회사 일에서도 결국 둘 다 쓰게 됐다. 컨셉 탐색 단계에선 나노바나나로 빠르게 여러 안을 뽑고, 최종 시안의 한글 카피만 지피티 이미지 2.0으로 마무리한다. 탐색에 드는 비용은 싼 쪽으로 흡수하고, 클라이언트에게 나갈 결과물 품질은 비싼 쪽으로 보장하는 식이다. 이 조합이 지난 몇 주 사내 워크플로우로 굳어가는 중이다.

캐릭터 일관성과 워크스페이스 통합

같은 캐릭터가 여러 컷에 나와야 하는 스토리보드라면 선택이 또 갈린다. 나노바나나 2 프로는 최대 14장까지 레퍼런스를 받는다. 지피티 이미지 2.0은 한 프롬프트로 8장까지 일관성 있게 뽑는다. 시리즈물 8장 안에서 끝낼 작업이면 후자가 편하고, 그 이상으로 늘어나면 전자다.

Google Workspace나 Figma에 깊이 붙어 있는 팀은 나노바나나 2 프로의 통합 이점이 크다. ChatGPT 인터페이스에서 끝내고 싶다면 지피티 이미지 2.0이 자연스럽다.

마치며

지피티 이미지 2.0은 ChatGPT 무료 플랜에서도 기본 Instant 모드로 쓸 수 있다. 다만 하루 생성 횟수에 제한이 있고, Thinking 모드는 유료 구독자 전용이다. Thinking이 빠지면 한글 렌더링 정확도가 체감으로 떨어지니까, 실무에서 쓸 거면 사실상 유료 구독을 추천한다.

자주 쓰는 마케터·디자이너라면 Plus로 충분하다. 한 번에 8장 일관 생성, 웹 검색 연동까지 다 가능하다. Pro(월 $200)는 우선 접근권과 더 높은 한도를 주는데, 혼자 쓰는 사용자가 굳이 갈 비싼 돈 주고 할 이유는 없다. 가끔 이미지 한두 장 필요한 정도면 Plus가 가성비가 가장 좋다.

한글이 안 깨지는 첫 모델이라는게 가장 큰 변화다. 그동안 AI 이미지는 “예쁜 일러스트를 뽑는 장난감”에 가까웠는데, 한글 카피가 박힌 결과물이 첫 시안에 나오기 시작하면서 실무 도구로 넘어오는 중이다. 포토샵으로 다시 글자를 수정하던 시간이 줄어든다는 것만으로도 충분한 변화다.