업비트 크롤링 (Crawling)
·
Data Science/Data Engineering
업비트 크롤링개요2017년 11월쯤 부터 가상화폐의 투자가 인기몰이를 하여, 많은 사람들이 투자를 하였고 2017년 12월에는 자고 일어나면 모든 가상화폐들이 약 2배 이상 올랐던 적이 있었다.그 당시엔 가상화폐에 투자하지 않으면 바보라는 소리가 나올정도로 엄청난 투자효과를 가져왔었고, 결국엔 1 비트코인은 중형차 한대 가격까지 오르게 된다.하지만 2018년 1월쯤부터 가격은 폭락하기 시작, 많은 사람들이 엄청난 손해를 보게 되었으며, 그때부터 소위 '존버'라는 단어가 유행되기 시작했다.그 당시 많은 손해를 본 사람중 한명으로써 비트코인의 가격을 조금이라도 예측할 수 있었다면 (물론 힘들겠지만) 최소한 엄청난 손해는 보지 않았을 것으로 생각하였다.일단 데이터부터 있어야, 무언가를 예측해볼수 있을것으로 판..
아나콘다 가상환경 주피터랩에서 쉽게 쓰기
·
Data Science/Data Engineering
파이썬을 사용하여 개발이나 데이터분석을 진행한다면 필수로 셋팅하는것 중에 하나가 가상환경 일것이다. 요즘은 도커를 많이 사용하지만, 아직 나는 도커가 익숙하지 않기에 프로젝트를 할때마다 매번 가상환경을 셋팅한다. 하지만 문제점이 하나 있는데 가상환경에 매번 주피터랩을 설치해야 한다는 것이다. 각 가상환경에 주피터랩을 설치하면 가상환경별로 버전이 달라서 프로젝트를 진행할때 마다 분석이나 주피터랩의 UIUX 변화와 셋팅을 다시 해줘야하는데 이게 너무 싫다. 물론 도커를 쓰며 되지만 앞에서 이야기했다 싶이 난 아직 도커를 잘 모른다. (배울 생각은 하지않고..) 그래서 주피터 환경은 base의 셋팅을 쓰면서 커널만 새로 생성된 가상환경을 사용하는법을 소개한다. 가상환경을 구성하는 방법은 여러개가 있는데 이번에..
뽐뿌 특가 데이터 전처리 하기
·
Data Science/Data Engineering
특가 정보에 관심이 많은 사람으로써 특가 데이터 분석을 위해 뽐뿌의 특가 게시판을 크롤링 하여 특가 데이터를 확보하였고, 그 데이터를 전처리하였다. 특가 데이터 분석은 1)데이터 확보(크롤링) 2)데이터 전처리 3)특가 데이터 분석 4)카테고리 예측 모델링순으로 진행된다.1. 개요개요소제목데이터 분석을 시작하기 전에, 정확한 데이터 분석을 위해 전처리 과정이 필요하다. 데이터 분석가 업무의 80%는 데이터 전처리라는 우스갯소리를 할 정도로 굉장히 많은 시간이 들어가고 많은 고민을 하는것이 데이터 전처리 과정이다. 이번 뽐뿌 특가 데이터 분석에도 데이터 전처리는 빠질수 없는 과정으로 분석을 진행하기 용이하기 데이터 전처리를 진행했다.데이터 전처리 과정데이터 전처리는 아래의 3개 과정을 통해 진행되었다.특성..
뽐뿌 특가 게시판 크롤링하기
·
Data Science/Data Engineering
특가 정보에 관심이 많은 사람으로써 특가 데이터 분석을 위해 뽐뿌의 특가 게시판을 크롤링 하여 특가 데이터를 확보하였다. 특가 데이터 분석은 1)데이터 확보(크롤링) 2)데이터 전처리 3)특가 데이터 분석 4)카테고리 예측 모델링순으로 진행 된다.개요대부분의 사람들은 현명한 소비를 하기 위해 노력한다. 인터넷이 발달하기 전에는 '발품'을 팔아가며 같은 가격이라면 더 좋은 품질의 상품을, 혹은 같은 상품이라면 더 저렴하게 구매하기 위해 노력했다. 인터넷과 물류 유통의 발달로 이제는 '발품'을 넘어 인터넷상에서 더 저렴한 제품을 찾는 '손품'을 파는 사람이 늘어나기 시작했다. 이러한 틈새를 노려 각종 커뮤니티에는 사용자 유입을 위해 '특가를 공유 하는 게시판'을 운영중이다. '뽐뿌'도 이러한 커뮤니티 중 하..