TIL 015
데이터 분석 부트캠프 39일차
추천시스템 구현 팀 프로젝트
크롤링 코드 작성
- 크롤링 자동화 코드 완성 및 배포 → 약 400권, 18만건 리뷰 수집 완료
- 크롤링 데이터 합치기 → merge, concat
- 머신러닝을 위한 전처리
추천시스템 구현
- CBF - 초기 성능이 굉장히 떨어짐 : 극복!
- 도서별 키워드가 굉장히 많고 세부적이라 중복되는 키워드가 많지 않음 → 영화의 장르와 달리 중첩되지 않는다
- 키워드를 보다 상위 개념으로 다시 라벨링하는 작업 가능
- 책별 카테고리 (소설, 에세이 등) 를 키워드에 추가하는 방식을 선택
- 키워드가 중첩되는 책들은 성능이 매우 우수 (EX : 베이커리, 한국소설)
- CF : 성능 우수함
- 리뷰 및 평점 데이터가 18만건이라 비교적 잘 나오는듯
- 평점 데이터의 분포가 고점으로 skewed 한 점이 아쉬움
- 평점을 가중평균한 결과가 오히려 성능이 떨어지는 문제 발생
- MF : 성능 우수함 : 크게 차이점은 보이지 않음