Mistral 7B 파인튜닝(Fine Tuning)하기
·
AI/Large Language Model
Mistral 7B는 약 73억개의 파라미터를 가진 Large Language Model(LLM)으로 Llama2 13B보다 벤치마크 테스트에서 뛰어난 성능을 보입니다. Mistral 7B는 다른 LLM에 비해 상대적으로 크기가 작으며, 오픈 소스이고 접근성이 용이하여 파인 튜닝이 쉽다는 장점이 있습니다. 이제 Mistral 7B를 Alpaca, Stack Overflow, 의료 및 Quora 데이터 세트의 데이터가 혼합되어 있는 Gath baize 데이터셋을 통해 파인튜닝 해봅니다.해당 블로그는 Mistral-7B Fine-Tuning: A Step-by-Step Guide를 참조하여 작성하였습니다. 원본 코드, Huggingface1. 패키지 설치 및 로드# !pip install -q -U bits..
워드 임베딩 - Word2Vec 이해하기
·
AI/Natural Language Processing
워드 임베딩이란?텍스트 데이터를 자연어 처리나 기계 학습 알고리즘에 사용할 수 있는 형태로 변환하는 기법 중 하나임. 워드 임베딩의 핵심 아이디어는 단어의 의미는 주변 단어에 의해 결정된다는 분포 가설(distributional hypothesis)에 기반한다. 워드 임베딩을 통해, 각 단어는 고차원 공간에 벡터로 표현된다. 벡터 공간에서는 의미상 유사한 단어들이 서로 가깝게 위치하게 되며 이러한 벡터 표현은 단어 간의 유사도를 계산하거나, 단어 사이의 관계를 파악하는 데 사용될 수 있다.Word2VecWord2Vec은 구글이 개발한 단어 임베딩 기법으로 주변 단어의 유사성을 이용하여 각 단어에 대한 벡터를 학습한다. Word2Vec에는 Continuous Bag of Words(CBOW) 모델과 Ski..
Sympy를 사용한 함수, 행렬의 미분과 적분 - 3
·
Data Science/Statistics & Math
행렬 미분행렬을 입력이나 출력으로 가지는 함수를 미분벡터 x -> 스칼라 f행렬 x -> 스칼라 f스칼라 x -> 벡터 f벡터 x -> 행렬 f벡터 x -> 벡터 f벡터 x -> 행렬 f스칼라를 벡터로 미분그레디언트 벡터 : 스칼라를 벡터로 미분하는 경우 경과를 열벡터로 표시퀴버 플롯 : 컨투어 플롯 위에 그레디언트 벡터를 화살표로 나타낸 플롯그레디언트 벡터의 그기는 기울기를 의미하며, 벡터의 크기가 클수록 함수 곡면의 기울기가 커진다.그레디언트 벡터의 방향은 함수 곡면의 기울기가 가장 큰 방향, 즉 단위 길이당 함수값(높이)이 가장 크게 증가하는 방향을 가리킨다.그레디언트 벡터의 방향은 등고선 방향과 직교한다. 행렬 미분 법칙선형 모형선형 모형을 미분하면 그레디언트 벡터는 가중치다/li>이차형식이차형식..