RAG의 시작 청킹, 그냥 자르면 안되는 이유 3가지

청크의 장단점

RAG에서 청킹(Chunking)은 문서를 검색 단위로 자르는 작업이다. 청크 경계가 의미를 끊으면 임베딩 벡터가 어긋나고 LLM 이 받는 문맥도 같이 망가진다. 지금은 고정 길이를 시작으로 Late Chunking 까지가 실무 표준으로 굳어져있다. 나는 PDF로 RAG 시스템을 처음 만들 때 청크 크기를 1024 토큰으로 두고 시작했다. 답변이 자꾸 어긋나기에 검색 결과를 확인해보니 표 한가운데가 잘려 있었다. 청크 한 … 더 읽기