업비트 크롤링 (Crawling)
·
Data Science/Data Engineering
업비트 크롤링개요2017년 11월쯤 부터 가상화폐의 투자가 인기몰이를 하여, 많은 사람들이 투자를 하였고 2017년 12월에는 자고 일어나면 모든 가상화폐들이 약 2배 이상 올랐던 적이 있었다.그 당시엔 가상화폐에 투자하지 않으면 바보라는 소리가 나올정도로 엄청난 투자효과를 가져왔었고, 결국엔 1 비트코인은 중형차 한대 가격까지 오르게 된다.하지만 2018년 1월쯤부터 가격은 폭락하기 시작, 많은 사람들이 엄청난 손해를 보게 되었으며, 그때부터 소위 '존버'라는 단어가 유행되기 시작했다.그 당시 많은 손해를 본 사람중 한명으로써 비트코인의 가격을 조금이라도 예측할 수 있었다면 (물론 힘들겠지만) 최소한 엄청난 손해는 보지 않았을 것으로 생각하였다.일단 데이터부터 있어야, 무언가를 예측해볼수 있을것으로 판..
Keybert와 kiwi형태소분석기를 사용하여 키워드추출 하기
·
AI/Natural Language Processing
들어가며# !pip install keybert# !pip install kiwipiepyKeyBert라는 키워드 추출 Bert 있어 간략히 소개 하려고 한다.KeyBert에 대한 자세한 내용은 https://maartengr.github.io/KeyBERT/ 참조데이터 소개from keybert import KeyBERTfrom kiwipiepy import Kiwifrom transformers import BertModeltext="""김영하가 『살인자의 기억법』 이후 9 년 만에 내놓는 장편소설 『작별인사』는 그리 멀지 않은 미래를 배경으로, 별안간 삶이 송두리째 뒤흔들린 한 소년의 여정을 좇는다. 유명한 IT 기업의 연구원인 아버지와 쾌적하고 평화롭게 살아가던 철이는 어느날 갑자기 수용소로 끌려..
아나콘다 가상환경 주피터랩에서 쉽게 쓰기
·
Data Science/Data Engineering
파이썬을 사용하여 개발이나 데이터분석을 진행한다면 필수로 셋팅하는것 중에 하나가 가상환경 일것이다. 요즘은 도커를 많이 사용하지만, 아직 나는 도커가 익숙하지 않기에 프로젝트를 할때마다 매번 가상환경을 셋팅한다. 하지만 문제점이 하나 있는데 가상환경에 매번 주피터랩을 설치해야 한다는 것이다. 각 가상환경에 주피터랩을 설치하면 가상환경별로 버전이 달라서 프로젝트를 진행할때 마다 분석이나 주피터랩의 UIUX 변화와 셋팅을 다시 해줘야하는데 이게 너무 싫다. 물론 도커를 쓰며 되지만 앞에서 이야기했다 싶이 난 아직 도커를 잘 모른다. (배울 생각은 하지않고..) 그래서 주피터 환경은 base의 셋팅을 쓰면서 커널만 새로 생성된 가상환경을 사용하는법을 소개한다. 가상환경을 구성하는 방법은 여러개가 있는데 이번에..
Pytorch를 사용하여 CIFAR10 이미지 분류기 만들기 (w. Vgg16)
·
AI/Computer Vision
CIFAR-10 이미지 분류기 만들기합성곱 신경망(Convolution Neural Network)을 사용하여 성능이 향상된 이미지 분류기 생성 (w.Vgg16)개요 및 결론 요약개요CNN을 활용하여 직접 이미지 분류기를 만들어 성능을 확인하고, Pre-trainded된 모델을 Fine Tunning하여 성능을 비교하여 얼마나 차이나는지 확인함.Simple Convolution Neural Network를 생성하여 CIFAR-10 이미지 데이터를 구별하는 분류기를 생성하여 성능을 확인함.Pre Trained된 VGG16를 CIFAR-10 데이터로 Fine Tunning 후 성능을 직접 구축한 Simple CNN 대비 얼마나 성능이 좋아졌는지 확인함.두 모델은 모두 같은 하이퍼파라미터와 손실 함수를 사용하..
뽐뿌 특가 데이터 분석 하기
·
Data Science/Data Analysis
나는 현명한 소비자가 되기 위해 항상 최적의 가격과 가성비 있는 상품을 찾는 데 큰 관심을 가지고 있다. 이러한 관심은 소비 습관을 개선하고 특별한 노하우를 가지게 되는데 큰 도움을 주었다. 데이터 사이언티스트로서 이 노하우를 활용하여 대표적인 특가 정보 커뮤니티인 '뽐뿌'의 특가 데이터를 분석하려고 한다. '뽐뿌'는 연간 약 2만 5천개의 특가 게시물이 공유되며, 수많은 소비자들이 정보 교환의 장으로 이용하는 대표적인 커뮤니티이다. 특가 게시물은 많이 등록되지만 그 중 유용한 특가는 소비자의 선택(조회, 추천, 댓글의 수)을 받아 인기/핫 게시물 (이하 인기 게시물)이라고 볼 수 있다. 이는 해당 제품이 매력적인 특가이기 때문에 대다수의 소비자에게 선택 받았다는 것을 의미하기 때문이다. 그래서 이번 분..