리스크 컨설턴트 성장기
프로필 배경
프로필 로고

리스크 컨설턴트 성장기

    • 분류 전체보기 (157)
      • About. (1)
      • Risk Management (1)
        • Credit Risk (1)
      • Data Science (46)
        • python (41)
        • R (2)
        • SQL (2)
        • SAS (0)
      • STAT & MATH (3)
        • calculus (3)
      • Jay's Project (19)
        • wanted 채용 공고 분석 (8)
        • 포켓몬 소드&실드 리뷰 분석 (6)
        • 교보문고 책 추천시스템 구현 (5)
      • Algorithm (0)
      • Archive (8)
      • TIL (42)
      • Code Cloud (34)
        • python (34)
        • R (0)
      • Trouble Shooting (3)
      • 일상 (0)
  • mode_edit_outline글작성
  • settings환경설정
  • 홈
  • 태그
  • 방명록
[교보문고 베스트셀러 분석 / 추천시스템] 0. 프로젝트 개요

[교보문고 베스트셀러 분석 / 추천시스템] 0. 프로젝트 개요

프로젝트 개요 주제 : 코로나 시대 베스트셀러 특성 분석 / 교보문고 베스트 셀러 데이터를 활용한 추천시스템 구현 기여도 : 20% (총원 5명) 담당 부분 : 데이터 수집 (크롤링 코드 개발), 시각화 및 데이터 분석, 추천시스템 (CBF, CF) 프로젝트 진행기간 : 2022/02/09 ~ 2022/02/14 결과 : 추천시스템 프로젝트 발표회 2등 (데이터 분석 부트캠프 과정) 상세 내용 코로나시대 분야별 베스트셀러 분석 및 시각화 책 추천시스템 구현 : CBF (Contents Base Filtering), CF (Collaborative Filtering) Workflow 프로젝트 기획 코로나 시대 출판시장의 트렌드 및 특성 분석 교보문고 분야별 베스트셀러의 키워드 분석을 통한 인사이트 도출 책..

  • format_list_bulleted Jay's Project/교보문고 책 추천시스템 구현
  • · 2022. 7. 21.
  • textsms

[python] 버전 확인

1. python 버전확인 # sys 라이브러리 사용 import sys sys.version # 명령어 !python --version 2. 라이브러리 버전확인 import pandas pandas.__version__

  • format_list_bulleted Code Cloud/python
  • · 2022. 7. 20.
  • textsms
[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 5. 감성분석

[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 5. 감성분석

본 프로젝트의 마지막 단계는 리뷰 데이터의 감성 분석이다. 현재 데이터셋은 긍정과 부정이 극단적으로 나뉘어있는 형태이므로 감성 분석의 데이터로 적합하다. kaggle이나 dacon competition에서의 분류 알고리즘의 정확도를 높이기보다는 직접 기획부터 수집, 전처리, 분석까지 마친 데이터에 머신러닝을 통한 감성분석을 적용하는 것에 의의를 두었다. 데이터셋 전처리 이전 포스팅에서 중앙값을 기준으로 긍정과 부정으로 분류하였다. 머신러닝 알고리즘을 적용하기 전 사전 단계로 긍정, 부정 상태를 데이터에 인코딩하고 train, test 데이터셋으로 나누는 작업을 진행한다. 데이터셋 인코딩 df_pos = pd.read_csv('df_pos.csv',encoding='utf-8') # 긍정 데이터셋 df_p..

  • format_list_bulleted Jay's Project/포켓몬 소드&실드 리뷰 분석
  • · 2022. 7. 19.
  • textsms
[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 4. 데이터 시각화

[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 4. 데이터 시각화

데이터 수집과 전처리를 통해 본격적으로 시각화와 분석을 위한 데이터셋을 구축했다. 이번에는 파이썬 라이브러리를 통해 EDA와 시각화를 진행해본다. 이번 시각화에서는 matplotlib과 seaborn을 주로 사용하였으며 분석 파트에선 nltk를 이용한 분석을 진행하였다. import matplotlib.pyplot as plt import seaborn as sns from nltk.stem.porter import PorterStemmer from nltk.tokenize import wordpunct_tokenize from nltk.corpus import stopwords import nltk nltk.download('punkt') 데이터 시각화 Count plot plt.figure(figsi..

  • format_list_bulleted Jay's Project/포켓몬 소드&실드 리뷰 분석
  • · 2022. 7. 19.
  • textsms
[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 3. 데이터 전처리

[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 3. 데이터 전처리

지난 포스트까지 크롤링 코드를 통해 타겟 데이터를 수집하고 전처리를 위한 데이터 프레임을 구성하였다. 이번 포스팅에서는 전처리 이슈를 파악하고 해결하는 과정을 담아보려고 한다. 데이터 전처리 데이터 분석이든 ML이나 DL을 활용한 인공지능 관련 프로젝트든 가장 기본이 되는 재료는 데이터이다. data-driven한 프로젝트에서 본격적으로 분석하고 알고리즘을 적용하기 이전에 목적에 맞게 데이터를 가공하는 과정이 필요하다. 전처리 이슈는 수집된 raw 데이터를 직접 살펴보면서 체크한다. 기획 단계에서부터 타겟 데이터의 raw 데이터 특성을 파악하면 수집하는 단계에서 상당 부분을 미리 처리 할 수도 있을 것 같다. 또한 이슈 탐색에 공을 들이면 실제로 전처리를 수행하는 과정이 좀 더 명확해지는 것 같다. 전처..

  • format_list_bulleted Jay's Project/포켓몬 소드&실드 리뷰 분석
  • · 2022. 7. 18.
  • textsms
[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 2. 데이터 수집

[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 2. 데이터 수집

데이터 분석 프로젝트의 두번째 단계는 타겟 데이터의 수집이다. 현업에서는 주로 DB에서 SQL등의 데이터베이스 언어를 통해 데이터를 불러오지만 타겟 데이터가 수집되어 있지 않은 경우에는 직접 크롤링을 통해 데이터를 확보해야 한다. 본 프로젝트는 메타크리틱에서 유저 리뷰를 크롤링한다. 메타크리틱 웹 페이지의 포켓몬 소드 항목이다. 왼쪽에는 유저가 매긴 평점이 나타나고 아이디와 리뷰 내용이 표시되어 있다. 본 프로젝트의 경우 리뷰에 대한 분석과 감성분석을 목적으로 하기 때문에 사용자 아이디를 제외한 평점과 리뷰 내용을 크롤이 해야 한다. (만약 사용자 아이디에 따른 추천시스템 프로젝트를 목표로 한다면 아이디 항목을 통해 구현해 볼 수 있을 것이다.) 크롤링 작업의 경우 웹 페이지 마다 접근 방법이 상이할 수..

  • format_list_bulleted Jay's Project/포켓몬 소드&실드 리뷰 분석
  • · 2022. 7. 18.
  • textsms
[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 1. 프로젝트 기획

[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 1. 프로젝트 기획

메타크리틱 (Metacritic) 메타크리틱은 영화, 게임, TV 프로그램 등에 대한 평점을 제공하는 사이트이다. 평론가 평점부터 사용자의 코멘트, 평점까지 제공하기 때문에 다양한 분야에 걸쳐 전문가와 일반 유저의 의견을 파악할 수 있다. 주로 영화나 게임(영어권 사이트이기 때문에 주로 비디오게임)의 평점에서 공신력이 있다고 생각된다. 필자의 경우 영화를 좋아하고 취미가 비디오 게임이므로 자연스럽게 해당 사이트에서 평점과 의견을 찾아 보곤했지만 예상외로 게임에 관심이 별로 없는 경우에는 메타크리틱 사이트를 모르는 경우도 있었다. 영미권에서 훨씬 더 유명하고 활발히 운영되는 사이트이므로 일반 유저들의 리뷰데이터를 수집할 수있는 좋은 창구가 되고 있다. 위의 화면은 닌텐스 스위치 플랫폼의 게임에 대한 메타크..

  • format_list_bulleted Jay's Project/포켓몬 소드&실드 리뷰 분석
  • · 2022. 7. 17.
  • textsms

TypeError: __init__() got an unexpected keyword argument 'size'

https://taepseon.tistory.com/165 TypeError: __init__() got an unexpected keyword argument 'size' from gensim.models import Word2Vec corpus = [sent.strip().split(" ") for sent in train_txt] model = Word2Vec(corpus, size = 40, workers = 4, sg=1) from gensim.models import Word2Vec corpus = [sent... taepseon.tistory.com

  • format_list_bulleted Trouble Shooting
  • · 2022. 6. 16.
  • textsms

UnicodeDecodeError:'utf-8' codec can't decode byte 0xbc in position 0: invalid start byte

https://zephyrus1111.tistory.com/39 [오류 해결] UnicodeDecodeError : 'utf-8' codec can't decode byte 0xbc in position 0: invalid start byte 안녕하세요~ 꽁냥이에요. Pandas에서 read_table, read_csv, read_excel과 같이 데이터를 읽어오는 함수를 사용할 때 간혹 아래와 같은 오류가 발생합니다. UnicodeDecodeError : 'utf-8' codec can't decode byte.. zephyrus1111.tistory.com

  • format_list_bulleted Trouble Shooting
  • · 2022. 6. 16.
  • textsms

[python] map 함수 사용법과 예제

[python] 파이썬 map 함수 사용법과 예제 안녕하세요. BlockDMask입니다. 오늘은 파이썬 map 함수에 대한 이야기를 해보려 합니다. 1. 파이썬 map 함수 설명과 사용법 2. 파이썬 map 함수 예제 1. map 함수 설명과 사용법 1-1) 파이썬 맵 함수 blockdmask.tistory.com

  • format_list_bulleted Data Science
  • · 2022. 6. 16.
  • textsms
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • ···
  • 16
  • »
공지사항
전체 카테고리
  • 분류 전체보기 (157)
    • About. (1)
    • Risk Management (1)
      • Credit Risk (1)
    • Data Science (46)
      • python (41)
      • R (2)
      • SQL (2)
      • SAS (0)
    • STAT & MATH (3)
      • calculus (3)
    • Jay's Project (19)
      • wanted 채용 공고 분석 (8)
      • 포켓몬 소드&실드 리뷰 분석 (6)
      • 교보문고 책 추천시스템 구현 (5)
    • Algorithm (0)
    • Archive (8)
    • TIL (42)
    • Code Cloud (34)
      • python (34)
      • R (0)
    • Trouble Shooting (3)
    • 일상 (0)
최근 글
인기 글
최근 댓글
태그
  • #파이썬
  • #selenium
  • #머신러닝
  • #gridsearch
  • #그리드서치
  • #seaborn
  • #시각화
  • #matplotlib
  • #Okt
  • #책 분석
  • #키워드 픽
  • #CBF
  • #어간추출
  • #decisionclassfier
  • #추천시스템
  • #텍스트데이터분석
  • #데이터분석
  • #리뷰분석
  • #Wanted
  • #크롤링
  • #nlp
  • #리뷰데이터
  • #wordcloud
  • #자연어처리
  • #감성분석
  • #KoNLPy
  • #데이터분석가
  • #Crawling
  • #sklearn
  • #python
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바