뽐뿌 특가 데이터 전처리 하기
·
Data Science/Data Engineering
특가 정보에 관심이 많은 사람으로써 특가 데이터 분석을 위해 뽐뿌의 특가 게시판을 크롤링 하여 특가 데이터를 확보하였고, 그 데이터를 전처리하였다. 특가 데이터 분석은 1)데이터 확보(크롤링) 2)데이터 전처리 3)특가 데이터 분석 4)카테고리 예측 모델링순으로 진행된다.1. 개요개요소제목데이터 분석을 시작하기 전에, 정확한 데이터 분석을 위해 전처리 과정이 필요하다. 데이터 분석가 업무의 80%는 데이터 전처리라는 우스갯소리를 할 정도로 굉장히 많은 시간이 들어가고 많은 고민을 하는것이 데이터 전처리 과정이다. 이번 뽐뿌 특가 데이터 분석에도 데이터 전처리는 빠질수 없는 과정으로 분석을 진행하기 용이하기 데이터 전처리를 진행했다.데이터 전처리 과정데이터 전처리는 아래의 3개 과정을 통해 진행되었다.특성..
뽐뿌 특가 게시판 크롤링하기
·
Data Science/Data Engineering
특가 정보에 관심이 많은 사람으로써 특가 데이터 분석을 위해 뽐뿌의 특가 게시판을 크롤링 하여 특가 데이터를 확보하였다. 특가 데이터 분석은 1)데이터 확보(크롤링) 2)데이터 전처리 3)특가 데이터 분석 4)카테고리 예측 모델링순으로 진행 된다.개요대부분의 사람들은 현명한 소비를 하기 위해 노력한다. 인터넷이 발달하기 전에는 '발품'을 팔아가며 같은 가격이라면 더 좋은 품질의 상품을, 혹은 같은 상품이라면 더 저렴하게 구매하기 위해 노력했다. 인터넷과 물류 유통의 발달로 이제는 '발품'을 넘어 인터넷상에서 더 저렴한 제품을 찾는 '손품'을 파는 사람이 늘어나기 시작했다. 이러한 틈새를 노려 각종 커뮤니티에는 사용자 유입을 위해 '특가를 공유 하는 게시판'을 운영중이다. '뽐뿌'도 이러한 커뮤니티 중 하..
Sympy를 사용한 함수, 행렬의 미분과 적분 - 3
·
Data Science/Statistics & Math
행렬 미분행렬을 입력이나 출력으로 가지는 함수를 미분벡터 x -> 스칼라 f행렬 x -> 스칼라 f스칼라 x -> 벡터 f벡터 x -> 행렬 f벡터 x -> 벡터 f벡터 x -> 행렬 f스칼라를 벡터로 미분그레디언트 벡터 : 스칼라를 벡터로 미분하는 경우 경과를 열벡터로 표시퀴버 플롯 : 컨투어 플롯 위에 그레디언트 벡터를 화살표로 나타낸 플롯그레디언트 벡터의 그기는 기울기를 의미하며, 벡터의 크기가 클수록 함수 곡면의 기울기가 커진다.그레디언트 벡터의 방향은 함수 곡면의 기울기가 가장 큰 방향, 즉 단위 길이당 함수값(높이)이 가장 크게 증가하는 방향을 가리킨다.그레디언트 벡터의 방향은 등고선 방향과 직교한다. 행렬 미분 법칙선형 모형선형 모형을 미분하면 그레디언트 벡터는 가중치다/li>이차형식이차형식..
Sympy를 사용한 함수, 행렬의 미분과 적분 - 2
·
Data Science/Statistics & Math
적분부정적분정확하게 미분과 반대되는 개념, 즉 만 미분도함수 -> 함수를 도출해내는 작업편미분의 부정적분편미분을 한 도함수에서 원래의 함수를 찾는 작업다차 도함수와 다중적분미분을 여러번 한 결과로 나온 다차 도함수로부터 원래의 함수를 찾아내려면 여러번 적분을 하는 다중적분이 필요Sympy를 이용한 부정적분import sympysympy.init_printing(use_latex='mathjax')x = sympy.symbols('x')f = x * sympy.exp(x) + sympy.exp(x)sympy.integrate(f)x, y = sympy.symbols('x y')f = 2 * x + ysympy.integrate(f, x)symyp.integrate()로 부정적분함정적분독립변수x가 어떤 구간..
Sympy를 사용한 함수, 행렬의 미분과 적분
·
Data Science/Statistics & Math
예측 모형의 성능성능함수 : 모수를 결정하여 성능을 측정하는 함수손실함수 : 오차(e)가 가장 작아지는 함수목적함수 : 최적화의 대상이 되는 모든 함수 (성능, 손실, 오차)최적화 : 목적 함수를 가장 크거나 작게 만드는 함수미분 : 입력값이 변했을때 출력값이 어떻게 변하는지 확인하는 행위기울기x와 y의 증감에 대한 민감도수치 미분수치적으로 대략적인 기울기from scipy.misc import derivativeprint(derivative(f, 0, dx=1e-6))print(derivative(f, 1, dx=1e-6))1.000000000001-2.000000000002scipp.misc의 derivative() 로 사용미분어떤 함수로부터 그 함수 기울기를 출력하는 새로운 함수를 만들어내는 작업도..