RAG의 시작 청킹, 그냥 자르면 안되는 이유 3가지

청크의 장단점

RAG에서 청킹(Chunking)은 문서를 검색 단위로 자르는 작업이다. 청크 경계가 의미를 끊으면 임베딩 벡터가 어긋나고 LLM 이 받는 문맥도 같이 망가진다. 지금은 고정 길이를 시작으로 Late Chunking 까지가 실무 표준으로 굳어져있다. 나는 PDF로 RAG 시스템을 처음 만들 때 청크 크기를 1024 토큰으로 두고 시작했다. 답변이 자꾸 어긋나기에 검색 결과를 확인해보니 표 한가운데가 잘려 있었다. 청크 한 … 더 읽기

광고 차단 알림

광고 클릭 제한을 초과하여 광고가 차단되었습니다.

단시간에 반복적인 광고 클릭은 시스템에 의해 감지되며, IP가 수집되어 사이트 관리자가 확인 가능합니다.