Mistral 7B는 약 73억개의 파라미터를 가진 Large Language Model(LLM)으로 Llama2 13B보다 벤치마크 테스트에서 뛰어난 성능을 보입니다. Mistral 7B는 다른 LLM에 비해 상대적으로 크기가 작으며, 오픈 소스이고 접근성이 용이하여 파인 튜닝이 쉽다는 장점이 있습니다. 이제 Mistral 7B를 Alpaca, S...
해당 게시물은 Torch Vision의 객체 감지 미세조정 튜토리얼을 참고하여 작성되었습니다. Pytorch에서 제공하는 Coco 데이터로 사전 훈련된 FasterRCNN을 활용하여 보행자 감지(detection) 및 분할(segmentation)을 위해 Penn-Fudan 데이터로 파라미터 튜닝을 진행합니다. Penn-Fudan 데이터는 345개의 ...
RAG(Retrieval-Augmented Generation)는 LLM (Large Language Model)를 더 효과적으로 활용하는 방법론이다. RAG는 사전 훈련된 LLM의 장점을 외부 지식과 결합하여 제공한다. 기본 아이디어는 특정 질문이나 주제에 대한 응답을 생성할 때, 모델이 실시간으로 외부 지식을 참조하여 더 정확하고 풍부한 정보를 제...
해당 쿡북은 LangChain Cookbook Part 2 - Use Cases를 한글로 번역한 것이며 LangChain Conceptual Documentation를 기반으로 작성 되었습니다. 목표: ELI5예제와 코드를 통해 LangChain의 구성 요소와 사용 사례에 대한 기본적인 이해를 제공합니다. LangChain의 기본 원칙에 대한 소개...
차원 축소는 데이터의 차원을 줄여서 데이터를 간결하게 만드는 기술이다. 시각화, 데이터 축소, 노이즈 제거, 성능 향상 및 계산 시간 감소를 위해 사용한다. 대표적인 차원 축소 알고리즘으로는 PCA, t-SNE, LDA가 있으며, 각 알고리즘은 장점과 단점이 있다. 차원 축소는 머신 러닝 모델의 성능에 긍부적 적인 영향을 미치며, 특성 선택과 차원 축...
해당 쿡북은 langchain-tutorials-LangChain Cookbook Part 1 - Fundamentals를 한글로 번역한 것이며 LangChain Conceptual Documentation을 기반으로 작성 되었습니다. 목표: ELI5예제와 코드를 통해 LangChain의 구성 요소와 사용 사례에 대한 기본적인 이해를 제공합니다. 사...
나는 현명한 소비자가 되기 위해 항상 최적의 가격과 가성비 있는 상품을 찾는 데 큰 관심을 가지고 있다. 이러한 관심은 소비 습관을 개선하고 특별한 노하우를 가지게 되는데 큰 도움을 주었다. 데이터 사이언티스트로서 이 노하우를 활용하여 대표적인 특가 정보 커뮤니티인 ‘뽐뿌’의 특가 데이터를 분석하려고 한다. ‘뽐뿌’는 연간 약 2만 5천개의 특가 게시...
특가 정보에 관심이 많은 사람으로써 특가 데이터 분석을 위해 뽐뿌의 특가 게시판을 크롤링 하여 특가 데이터를 확보하였고, 그 데이터를 전처리하였다. 특가 데이터 분석은 1)데이터 확보(크롤링) 2)데이터 전처리 3)특가 데이터 분석 4)카테고리 예측 모델링순으로 진행된다. 1. 개요 데이터 분석을 시작하기 전에, 정확한 데이터 분석을 위해 전처리...
1. N-gram이란? n-gram은 텍스트나 시퀀스에서 연속적으로 나타나는 n개의 항목(단어, 문자 등)을 의미한다. n-gram은 한 단어 이상의 단어 시퀀스를 분석 대상으로 한다. 예를 들어, “I love programming”이라는 문장에서 2-gram(bigram)은 “I love”, “love programming” 등이 된다. n-g...
1. 워드 임베딩이란? 텍스트 데이터를 자연어 처리나 기계 학습 알고리즘에 사용할 수 있는 형태로 변환하는 기법 중 하나임. 워드 임베딩의 핵심 아이디어는 단어의 의미는 주변 단어에 의해 결정된다는 분포 가설(distributional hypothesis)에 기반한다. 워드 임베딩을 통해, 각 단어는 고차원 공간에 벡터로 표현된다. 벡터 공간에서는 ...