Day 39

TIL 015

데이터 분석 부트캠프 39일차

추천시스템 구현 팀 프로젝트

크롤링 코드 작성

  • 크롤링 자동화 코드 완성 및 배포 → 약 400권, 18만건 리뷰 수집 완료
  • 크롤링 데이터 합치기 → merge, concat
  • 머신러닝을 위한 전처리

추천시스템 구현

  1. CBF - 초기 성능이 굉장히 떨어짐 : 극복!
  • 도서별 키워드가 굉장히 많고 세부적이라 중복되는 키워드가 많지 않음 → 영화의 장르와 달리 중첩되지 않는다
  • 키워드를 보다 상위 개념으로 다시 라벨링하는 작업 가능
  • 책별 카테고리 (소설, 에세이 등) 를 키워드에 추가하는 방식을 선택
  • 키워드가 중첩되는 책들은 성능이 매우 우수 (EX : 베이커리, 한국소설)
  1. CF : 성능 우수함
  • 리뷰 및 평점 데이터가 18만건이라 비교적 잘 나오는듯
  • 평점 데이터의 분포가 고점으로 skewed 한 점이 아쉬움
  • 평점을 가중평균한 결과가 오히려 성능이 떨어지는 문제 발생
  1. MF : 성능 우수함 : 크게 차이점은 보이지 않음

'TIL' 카테고리의 다른 글

Day 41  (0) 2022.02.15
Day 40  (0) 2022.02.14
Day 38  (0) 2022.02.14
Day 37  (0) 2022.02.14
Day 36  (0) 2022.02.08