챗GPT에 질문을 던지면 몇 초 안에 답이 온다. 그 사이에 내 질문은 인터넷을 건너 데이터센터의 GPU까지 갔다가, 토큰 단위로 쪼개지고, 다시 돌아온다. AI API 동작 원리를 알면 왜 느릴 때가 있고, 왜 그만큼 비용이 드는지 구조적으로 이해할 수 있다.
처음 API를 직접 호출했을 때, 응답이 돌아오기까지의 지연이 단순한 네트워크 문제가 아니라는 걸 알게 됐다. 토크나이징, GPU 추론, 스트리밍까지 그 뒤에 얼마나 긴 여정이 숨어 있는지 직접 겪고 나서야 이해했다. 이 글은 API로 AI 모델을 호출할 때 내부에서 일어나는 일을 단계별로 풀어낸다.
내 컴퓨터에서 AI가 돌아가지 않는 이유

챗GPT도 결국 서버에 있다
챗GPT, 클로드, 제미나이. 이 모델들은 전부 클라우드 데이터센터의 GPU에서 실행된다. 내 노트북이나 스마트폰에서 돌아가는 게 아니다.
이유는 단순하다. 모델이 너무 크다. GPT-5.5 같은 최신 모델은 파라미터가 수천억 개를 넘는 것으로 알려져 있다. 이 규모를 실행하려면 대규모 GPU 클러스터가 필요하고, 그걸 운영하는 데이터센터 인프라가 있어야 한다. 일반 사용자의 컴퓨터로는 감당할 수 없는 규모다.
그래서 AI 서비스는 클라우드에 모델을 올려놓고, 사용자가 네트워크를 통해 접근하는 구조를 쓴다. 내가 입력한 텍스트가 인터넷을 타고 서버로 가고, 서버에서 처리한 결과가 다시 돌아오는 것이다.
이 데이터센터 인프라를 확보하기 위한 경쟁도 치열하다. 앤트로픽은 2025년 구글과 TPU 100만 개 규모의 파트너십을 맺었고, 2026년 5월에는 스페이스X의 콜로서스 1 데이터센터를 통째로 임대하는 계약을 체결했다(출처). AI 모델을 돌리려면 그만큼 거대한 인프라가 필요하다는 뜻이다.API라는 연결 통로
API는 Application Programming Interface의 약자다. 내 프로그램이 AI 서버에 요청을 보내고 응답을 받는 통로다. HTTPS 요청으로 “이 질문에 답해줘”라고 보내면, 서버가 처리한 결과를 돌려보내준다.
API는 쓴 만큼 비용을 낸다. 토큰 단위로 과금되기 때문에 요청의 길이와 응답의 길이가 곧 비용이 된다. 이 과금 구조가 AI API의 핵심이고, 뒤에서 자세히 다룬다.
질문이 답이 되기까지, AI API 동작 원리 6단계 여정

입력에서 서버 도착까지
내가 API를 호출하면 첫 번째로 일어나는 일은 네트워크 전송이다. 내 텍스트가 HTTPS 요청에 담겨 AI 회사의 서버로 날아간다.
이 과정에서 물리적 거리가 속도에 영향을 준다. 서버가 미국에 있고 내가 한국에 있으면, 빛의 속도로도 왕복 100밀리초 이상이 걸린다. AI 회사들이 여러 리전에 서버를 두는 이유가 이것이다. 가까운 서버에서 처리하면 이 네트워크 지연, 즉 레이턴시가 줄어든다.
요청이 서버에 도착하면 인증 과정을 거친다. API 키로 “이 요청이 정당한 사용자에게서 온 것인지” 확인한다. 인증이 끝나면 본격적인 처리가 시작된다.
토크나이징에서 추론까지
서버에 도착한 텍스트는 곧바로 GPU로 가지 않는다. 먼저 토크나이저가 텍스트를 토큰으로 분해한다. 이 과정이 토크나이징이다.
토큰은 AI 모델이 이해하는 최소 단위다. 영어는 단어 하나가 대략 토큰 하나지만, 한국어는 다르다. “안녕하세요”라는 다섯 글자가 2~3개 토큰으로 쪼개질 수 있다. 같은 뜻이라도 한국어가 영어보다 토큰을 더 많이 쓰는 이유가 여기 있다. AI 토큰의 이 특성은 비용과 직결된다.
토크나이징이 끝나면 토큰 배열이 GPU로 들어간다. GPU는 이 토큰들을 모델에 통과시켜 다음에 올 토큰을 예측한다. 하나를 예측하면 그걸 다시 입력에 붙이고, 또 다음 토큰을 예측한다. 이 반복이 추론이다. 출력 토큰이 길어질수록 GPU가 일하는 시간도 비례해서 늘어난다.
스트리밍으로 돌아오는 응답
추론이 끝날 때까지 기다렸다가 한꺼번에 보내면 사용자는 긴 시간 동안 빈 화면을 봐야 한다. 그래서 대부분의 AI API는 스트리밍 방식을 쓴다.
GPU가 토큰을 하나 생성할 때마다 바로 네트워크로 내보낸다. SSE(Server-Sent Events)라는 기술을 써서 서버가 클라이언트로 데이터를 계속 밀어준다. 챗GPT에서 글자가 타이핑하듯 나타나는 게 바로 이 스트리밍 때문이다.
여기서 중요한 지표가 TTFT, 즉 Time To First Token이다. 요청을 보낸 시점부터 첫 번째 토큰이 돌아오는 데 걸리는 시간이다. 이 시간이 곧 사용자가 체감하는 “응답 시작 속도”다. 전체 응답이 다 오는 시간보다 TTFT가 사용자 경험에 더 큰 영향을 준다. 첫 글자가 빨리 뜨면 나머지가 좀 느려도 기다릴 수 있지만, 첫 글자까지 5초가 걸리면 응답이 없다고 느낀다.
느린 이유, 비싼 이유는 전부 토큰에 있다

입력 토큰과 출력 토큰의 가격 차이
AI API의 과금은 토큰 단위다. 그런데 입력과 출력의 단가가 다르다. 대부분의 모델에서 출력 토큰이 입력 토큰보다 3~5배 비싸다. 클로드 Sonnet 4.6 기준으로 입력은 100만 토큰당 3달러, 출력은 15달러로 5배 차이가 난다(출처).
이유가 있다. 입력 토큰은 한 번에 병렬로 처리할 수 있다. 내가 보낸 텍스트를 GPU가 동시에 읽는다. 하지만 출력 토큰은 하나씩 순서대로 생성해야 한다. 앞 토큰이 있어야 다음 토큰을 예측할 수 있기 때문이다. GPU 점유 시간이 더 길어지니까 단가도 높다.
이 구조를 이해하면 비용을 줄이는 방법도 보인다. 프롬프트를 길게 쓰는 것보다, 불필요하게 긴 응답을 요청하는 게 비용에 더 큰 영향을 준다. “간결하게 답해줘”라는 한 줄이 실제로 비용을 아끼는 셈이다.
같은 질문인데 왜 가격이 다른가
같은 질문을 해도 어떤 모델을 쓰느냐에 따라 가격이 수십 배 차이 난다. 작은 모델은 싸고 빠르지만 정확도가 떨어진다. 큰 모델은 정확하지만 느리고 비싸다.
컨텍스트 길이도 비용에 영향을 준다. API는 호출할 때마다 독립적인 요청이다. 이전 대화를 이어가려면 개발자가 직접 이전 메시지를 요청에 포함시켜야 한다. 대화 10턴을 이어가는 앱이라면, 10번째 요청에는 앞의 9턴이 전부 입력 토큰으로 들어간다. 대화가 길어질수록 한 번의 호출에 드는 토큰 수가 급격히 늘어나는 구조다.
최근에는 thinking 토큰이라는 변수도 생겼다. 모델이 답을 내기 전에 내부적으로 “생각”하는 과정에서 토큰을 소비한다. 이 토큰은 응답에 보이지 않지만 출력 토큰으로 과금된다. 복잡한 질문일수록 thinking 토큰이 많아져서, 짧은 답이 나와도 비용이 높을 수 있다.
구조를 알면 비용이 보인다
AI API의 동작 원리는 결국 한 줄로 요약된다. 내 텍스트가 네트워크를 타고 서버에 도착하면, 토큰으로 쪼개져서 GPU를 거치고, 다시 토큰 단위로 돌아온다. 이 전체 과정에서 토큰 수가 속도와 비용을 결정한다.
이 구조를 알면 AI 서비스를 쓸 때 판단이 달라진다. 비용이 높으면 입력 컨텍스트가 너무 긴 건 아닌지, 출력 토큰을 불필요하게 많이 요청한 건 아닌지 점검할 수 있다. 응답이 느리면 서버 리전이나 모델 선택을 재검토할 수 있다. AI를 잘 쓰는 건 좋은 질문을 하는 것만이 아니다. 질문이 어떤 경로를 거쳐 답이 되는지 아는 것도 포함된다.