AI 트랜스포머가 바꾼 판, 만드는 AI에서 쓰는 AI로

트랜스포머는 2017년 구글 브레인이 발표한 딥러닝 아키텍처다. 이 구조 하나가 GPT, Claude, Gemeni 등 현재 주요 AI 모델의 기반이 됐다. 트랜스포머 이전에도 딥러닝은 있었지만, AI를 쓰는 방식 자체를 바꾼 건 트랜스포머 이후의 일이다.

나는 트랜스포머 이전 시대에 모델을 직접 학습시켜 본 경험이 있다. 데이터를 모으고, 전처리하고, 학습 파이프라인을 짜고, 파인튜닝까지 거쳐야 겨우 쓸 만한 모델이 나왔다. 지금은 API 하나 호출하면 된다. 이 차이가 어디서 왔는지 따라가 본다.

트랜스포머 이전, AI는 직접 만드는 것이었다

데이터를 직접 모아야 했다

2017년 이전의 딥러닝은 지도 학습이 중심이었다. 이미지 분류를 하려면 수만 장의 사진에 라벨을 붙여야 했다. 번역 모델을 만들려면 한국어-영어 병렬 말뭉치를 수십만 쌍 확보해야 했다. 데이터가 곧 성능이었고, 데이터 수집이 프로젝트의 절반을 차지했다.

좋은 알고리즘보다 좋은 데이터셋이 더 중요하던 시대였다. 논문에서도 모델 구조보다 어떤 데이터를 얼마나 모았는지가 핵심 기여로 인정받는 경우가 많았다.

RNN과 LSTM의 한계

자연어 처리에는 RNN과 LSTM이 주로 쓰였다. 이 모델들은 단어를 순서대로 하나씩 처리한다. “나는 어제 서울에서 부산까지 KTX를 타고 갔다”라는 문장이 있으면, “나는”을 읽고, “어제”를 읽고, 순차적으로 끝까지 간다.

문제는 두 가지였다. 문장이 길어지면 앞쪽 정보가 희미해진다. “나는”이라는 주어가 문장 끝에 도달할 때쯤이면 이미 흐려져 있다. 이걸 장기 의존성 문제라고 부른다. 그리고 순차 처리 구조 때문에 GPU를 여러 장 쓰더라도 병렬 학습이 어려웠다. 학습 속도에 구조적 한계가 있었다.

Pre-Train 모델이 있어도 파인튜닝은 필수

프리트레인된 모델이 아예 없었던 건 아니다. Word2Vec이나 GloVe 같은 단어 임베딩이 있었다. 단어를 벡터로 변환해 의미 관계를 수치화하는 기술이다. 하지만 이걸 가져다 쓰려면 내 데이터에 맞춰 추가 학습, 즉 파인튜닝을 해야 했다.

범용 모델이라는 개념 자체가 성립하지 않았다. 감성 분석 모델, 번역 모델, 질의응답 모델을 각각 따로 만들어야 했다. 하나의 모델이 여러 태스크를 처리한다는 건 상상하기 어려운 일이었다.

AI 트랜스포머의 핵심, 어텐션 메커니즘

셀프 어텐션이라는 새로운 방식

트랜스포머의 핵심은 셀프 어텐션이다. RNN처럼 단어를 하나씩 순서대로 읽지 않는다. 문장 전체를 한꺼번에 입력받고, 각 단어가 다른 모든 단어와 얼마나 관련 있는지 점수를 매긴다.

“은행에서 돈을 찾았다”라는 문장을 생각해 보자. “은행”이 금융 기관인지 강가 둔덕인지는 주변 단어에 달려 있다. RNN은 앞에서부터 순서대로 읽으며 문맥을 쌓아간다. 트랜스포머는 “돈”이라는 단어와 “은행”의 관계를 직접 계산한다. 어떤 단어가 중요한지, 어떤 문맥과 연결되는지를 동시에 판단하는 것이다.

병렬 처리와 스케일의 시작

순차 처리가 사라지면서 GPU 병렬 연산이 가능해졌다. 같은 데이터를 학습하는 데 RNN 대비 훨씬 짧은 시간이 걸린다. 이 속도 차이가 모델 크기를 키우는 문을 열었다. 파라미터 수억 개짜리 모델을 학습할 수 있게 됐고, 나중에는 수천억 개까지 확장됐다. 트랜스포머와 GPU의 궁합이 이후 AI 시장의 판을 바꾸는 출발점이 된 셈이다.

Attention Is All You Need

2017년 구글 브레인 연구원 8명이 발표한 논문 제목이다. 이전까지 어텐션은 RNN을 보완하는 보조 장치였다. 이 논문은 어텐션만으로 모델 전체를 구성할 수 있다는 걸 증명했다. RNN도 CNN도 필요 없다. 어텐션이 전부다.

이 논문의 공동 저자 8명은 이후 모두 구글을 떠나 각자 AI 스타트업을 창업했다. 코히어, 캐릭터AI, 에센셜AI 등이 여기서 나왔다. 트랜스포머라는 하나의 아키텍처가 산업 전체의 기반이 된 것이다.

스케일이 만든 변화, 만드는 AI에서 쓰는 AI로

Scaling Law와 창발적 능력

AI 트랜스포머 이후 업계는 단순한 방향으로 움직이기 시작했다. 더 큰 모델, 더 많은 데이터, 더 많은 GPU, 더 긴 학습. 이걸 계속 밀어붙였더니 성능이 실제로 계속 올라갔다. 2020년 OpenAI 연구팀은 모델 크기와 데이터, 연산량을 늘리면 성능도 일정하게 올라간다는 관찰을 논문으로 발표했다. 이걸 Scaling Law라고 부른다.

그리고 예상하지 못했던 현상이 나타나기 시작했다. 모델이 일정 규모를 넘어서자 코드 생성, 번역, 요약, 추론 같은 능력이 갑자기 등장했다. 학습 데이터에 명시적으로 가르치지 않은 능력이 규모가 커지면서 저절로 나타난 것이다. 2022년 구글 연구팀은 이런 현상을 창발적 능력이라는 개념으로 정리했다.

빅테크가 모델을 만들고 API로 제공한다

트랜스포머 구조 위에 대규모 데이터를 학습시킨 모델이 나오기 시작했다. GPT, Claude, Gemeni가 대표적이다. 이 모델들의 공통점은 범용성이다. 번역, 요약, 코딩, 질의응답을 하나의 모델이 처리한다. 특정 태스크를 위해 별도 모델을 만들 필요가 줄었다.

이 규모의 모델을 학습시키려면 수천 대의 GPU와 막대한 비용이 든다. GPT-3의 학습 비용만 해도 약 50억 원으로 추정됐고, 이후 모델들은 이보다 훨씬 큰 규모로 커졌다. 개인이나 중소기업이 감당할 수 있는 규모가 아니다. 자연스럽게 모델 제작은 빅테크의 몫이 됐고, 나머지는 API를 통해 그 모델을 가져다 쓰는 구조가 만들어졌다.

사용자는 프롬프트를 쓴다

모델을 직접 만들지 않아도 된다. API를 호출하거나, 챗 인터페이스에 프롬프트를 입력하면 된다. 데이터 수집, 전처리, 학습, 배포라는 파이프라인 전체가 사라졌다. AI를 쓰기 위한 진입 장벽이 극적으로 낮아졌다.

예전이라면 고객 문의를 자동 분류하려면 문의 데이터 수천 건을 라벨링하고, 분류 모델을 학습시키고, 서버에 배포해야 했다. 지금은 프롬프트에 “이 문의를 환불, 배송, 제품불량 중 하나로 분류해줘”라고 쓰면 끝이다. 프롬프트 안에 예시 몇 개를 넣어주면 별도 학습 없이 패턴을 파악한다. 이걸 few-shot 러닝, 또는 인컨텍스트 러닝이라고 부른다.

AI를 쓰는 시대일수록 구조를 알아야 한다

트랜스포머가 가져온 변화는 기술 구조의 변화만이 아니다. AI를 둘러싼 역할 분담이 달라졌다. 모델을 만드는 쪽과 쓰는 쪽이 명확히 나뉘었다. 만드는 쪽에서는 아키텍처 설계, 대규모 학습 인프라, 데이터 큐레이션이 핵심이다. 쓰는 쪽에서는 프롬프트 설계, 모델 선택, 결과 검증이 중요해졌다.

이 변화가 좋기만 한 건 아니다. 모델의 작동 원리를 모르면 결과를 검증하기 어렵다. 환각 현상이 대표적이다. 모델이 그럴듯하지만 틀린 답을 내놓을 때, 트랜스포머가 왜 그런 출력을 만드는지 구조적으로 이해하면 프롬프트를 고쳐서 더 나은 결과를 뽑을 수 있다. 예전에는 텐서플로우 코드를 짤 줄 알아야 AI를 쓸 수 있었다. 지금은 자연어로 지시할 수 있으면 된다. 하지만 그 자연어를 잘 쓰려면 결국 AI가 어떻게 동작하는지 아는 사람이 유리하다.