N-gram 이해하기
·
AI/Natural Language Processing
N-gram이란?n-gram은 텍스트나 시퀀스에서 연속적으로 나타나는 n개의 항목(단어, 문자 등)을 의미한다. n-gram은 한 단어 이상의 단어 시퀀스를 분석 대상으로 한다. 예를 들어, "I love programming"이라는 문장에서 2-gram(bigram)은 "I love", "love programming" 등이 된다. n-gram은 텍스트의 구조와 패턴을 파악하는 데 유용하여 자연어 처리에서 많이 사용된다. n의 크기에 따라 unigram(1-gram), bigram(2-gram), trigram(3-gram) 등으로 나타낼 수 있다. 마르코프 가정n-gram에서 중요한 개념 중 하나는 마르코프 가정이다. 마르코프 가정은 주어진 시퀀스에서 다음 상태나 사건의 확률이 오직 현재 상태에만 의..