이번 프로젝트는 추천시스템 구현을 목적으로 수행한 팀 프로젝트이다. 별도의 포스팅으로 다루겠지만 추천시스템은 데이터 사이언스 기술이 본격적으로 알려지기 전에도 흔하게 찾아볼 수 있는 기술이었는데 주로 온라인 쇼핑 등에서 쉽게 볼 수 있었다. 구매자의 이력을 파악하여 비슷한 종류의 제품을 추천해주는 방식이 일반적이었다.
하지만 데이터 시대에 이르러 추천시스템의 위력이 대중들에게 강력하게 인식된 계기는 유투브, 그리고 넷플릭스와 같은 OTT 서비스일 것이다. '유투브 알고리즘'은 하나의 용어이자 밈으로 까지 쓰여서 늦은 밤 불면증의 주범이 되거나 혹은 관련도가 전혀 없는 영상을 추천해 실소를 자아내고 있다. 요새는 전보다 훨씬 성능이 좋은 것 같긴 하지만.
주제 선정
데이터 분석 부트캠프에서 머신러닝에 접어들어 수행했던 팀 프로젝트로 교보문고 책 추천시스템 구현 프로젝트를 포스팅한다. 앞서 언급한 것 처럼 드라마, 게임, 웹툰, 제품 등의 여러가지 주제로 추천시스템을 구현할 수 있으나 의외로 데이터의 특성에 따라 성능은 천차만별일 수 있다.
우선 데이터의 양이 많아야 한다. 충분하지 못한 양의 데이터는 추천 결과물의 차이점이 뚜렷이 나타나지 않고 알고리즘에 적용해도 유사도가 너무 극단적으로 나타날 수 있다.
데이터의 특성에 따라 추천 알고리즘을 다르게 적용해야 한다. 본 프로젝트에서 적용한 CBF, CF는 필자와 같은 입문자도 쉽게 적용할 수 있는 아주 초기의 알고리즘이지만 데이터의 특성과 일치하면 아주 강력한 추천 성능을 보여주기도 한다. 각각의 컨턴츠 항목에 초점을 맞춘 CBF, 추천받는 대상인 사용자에 초점을 맞춘 CF 모두 적용해 볼 수있는 데이터를 대상으로 프로젝트를 기획했다.
영상물이나 제품과 비교하여 책은 감성적인 부분이 더욱 도드라지는 매체라고 생각한다. 소설, 자기계발서와 같은 카테고리가 존해하면서 동시에 '어떤 책을 읽고 싶은가?' 하는 자신도 잘 모르는 질문에 답해줄 수 있는 추천시스템을 구현해보고 싶었다. 동시에 코로나 시대에 오히려 각광을 받고 있는 출판시장에서 나도 몰랐던 독서의 재미를 찾아줄 수 있는 프로젝트를 기획하였다.
코로나 시대의 출판시장
출판업계, 지난해 매출액 전년 대비 6.1% 증가
기사내용 요약 출협 '2021년 출판시장 통계' 발간 [서울=뉴시스]신재우 기자 = 대한출판문화협회는 지난 2일 '2021년 출판시장 통계'를 발간했다. 이 자료는 지난 한 해 72개 출판 관련 기업과 주요
n.news.naver.com
본 프로젝트는 2021년 3월에 진행하였던 프로젝트로 코로나가 종식되어 가는 현재의 엔데믹 시기와는 거리가 있음을 밝혀둔다. 기사에 따르면 2021년 출판업계는 매출액이 전년 대비 6.1% 증가하였고 이는 오프라인 서점보다 온라인 시장이 견인한 결과이다. COVID blue 라는 용어가 등장할 만큼 팬데믹이 장기화됨에 따라 피로감과 우울감을 호소하는 사람들이 많아졌고 이에 따라 출판 업계가 반사이익을 봤다고 할 수 있다.
데이터 분석가로서 팬데믹의 출판시장 데이터 분석으로도 프로젝트를 진행할 수 있겠지만 본 프로젝트는 베스트셀러의 키워드에 대한 분석과 추천시스템 구현을 목표로 하였다. 이후에 관심 산업군에 대해 시장 분석과 리포트 작성을 주제로 토이프로젝트를 진행할 예정이다.
데이터 선정 : 교보문고 베스트셀러
특히 교보문고는 국내 서점 시장에서 선두를 달리고 있는 업계리더이며 2021년 영업이익 1위로 파악되었다. 따라서 출판시장의 대표성을 가지는 데이터로 교보문고 베스트셀러 목록과 리뷰가 적합하다고 판단된다. 또한 교보문고에는 klover라는 일종의 회원 커뮤니티 성격의 평점과 리뷰를 제공하기 때문에 추천시스템에 적용하기도 용이하였다.
교보문고도 이미 추천서비스를 제공하고 있다. 회원 맞춤, 작가, 키워드, 스펙 비교 등의 여러가지 테마로 추천시스템을 적용하고 있다. DB 측면에서 교보문고의 서비스를 따라갈 수는 없겠지만 raw data에 알고리즘을 적용하는 실습 프로젝트로서는 매우 적합한 대상이라 할 수 있겠다.
'Jay's Project > 교보문고 책 추천시스템 구현' 카테고리의 다른 글
[교보문고 베스트셀러 분석 / 추천시스템] 4. 추천시스템 (CBF) (0) | 2022.07.25 |
---|---|
[교보문고 베스트셀러 분석 / 추천시스템] 3. 베스트셀러 분석 (0) | 2022.07.23 |
[교보문고 베스트셀러 분석 / 추천시스템] 2. 데이터 수집 (0) | 2022.07.21 |
[교보문고 베스트셀러 분석 / 추천시스템] 0. 프로젝트 개요 (0) | 2022.07.21 |