[교보문고 베스트셀러 분석 / 추천시스템] 2. 데이터 수집
타겟 데이터 본 프로젝트는 교보문고의 분야별 베스트셀러에 대한 분석과 추천시스템 구현을 목적으로 한다. 따라서 프로젝트에 필요한 타겟 데이터는 다음과 같다. 교보문고 분야별 베스트 셀러의 정보 (목록, 출판사 등) 해당 도서의 키워드 (일본소설, 치유, 사회문제, 대화) 해당 도서 평점과 평점에 참여한 유저의 정보 해당 도서의 리뷰 (추후의 NLP 적용를 위한 플러스 알파) 교보문고는 분야별 베스트셀러 목록을 excel 파일로 제공한다. 따라서 베스트셀러의 데이터를 일일이 크롤링 해야하는 수고를 덜어 작업이 훨씬 순조로웠다. 베스트셀러 도서의 키워드 역시 제공한다. 키워드픽이라는 항목으로 도서의 분류, 혹은 내용에 대한 키워드를 선정하여 고객들이 구매 전 미리 알아볼 수 있도록 했다. 미리 실물 책을 읽..