타겟 데이터 본 프로젝트는 교보문고의 분야별 베스트셀러에 대한 분석과 추천시스템 구현을 목적으로 한다. 따라서 프로젝트에 필요한 타겟 데이터는 다음과 같다. 교보문고 분야별 베스트 셀러의 정보 (목록, 출판사 등) 해당 도서의 키워드 (일본소설, 치유, 사회문제, 대화) 해당 도서 평점과 평점에 참여한 유저의 정보 해당 도서의 리뷰 (추후의 NLP 적용를 위한 플러스 알파) 교보문고는 분야별 베스트셀러 목록을 excel 파일로 제공한다. 따라서 베스트셀러의 데이터를 일일이 크롤링 해야하는 수고를 덜어 작업이 훨씬 순조로웠다. 베스트셀러 도서의 키워드 역시 제공한다. 키워드픽이라는 항목으로 도서의 분류, 혹은 내용에 대한 키워드를 선정하여 고객들이 구매 전 미리 알아볼 수 있도록 했다. 미리 실물 책을 읽..
지난 포스팅에서 채용 공고들 각각의 URL을 수집하였다. 이번에는 채용 공고들을 클릭하고 들어가면 볼 수 있는 Job description을 구체적으로 수집해본다. 마찬가지로 selenium을 이용하여 크롤링하며 기본적인 진행과정은 전 단계와 동일하다. 수집한 채용 공고의 개별 URL 접속 import sys import os import pandas as pd import numpy as np from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys import chromedriver_autoinstaller import time from tqdm import tqd..
이 프로젝트는 웹 사이트에서 데이터를 수집하므로 크롤링을 통해 데이터셋을 구축한다. 웹 사이트 크롤링이면 우선적으로 목표로 하는 웹 사이트의 구성을 살펴보고 접근 방법을 결정하는 것이 효율적이다. 본인도 이 프로젝트에서 마음이 앞서 무작정 크롤링이 시도하다가 스트레스만 받고 결과적으로 비효율적인 방식으로 시간을 허비하기도 했다. 채용 공고 크롤링을 위해 우선 원티드의 웹 화면 구성을 살펴보자 화면 구성 살펴보기 원티드 홈페이지에 접속하여 '데이터 분석가'로 검색한 결과이다. 61개의 포지션 채용 공고가 검색되었으며 한 줄에 4개씩 채용공고 타이틀, 회사명, 지역, 그리고 오른쪽 상단의 하트표시로 구직자가 찍어놓은 관심 수를 보여준다. 이제 구체적으로 수집하고 싶은 목표데이터에 접근하는 방법을 생각해보자 ..
지난 번 네이버 블로그 크롤링과 유사하게 네이버에서 키워드 검색 후 관련 뉴스 기사 크롤링을 실습해 본다. 마찬가지로 처음에는 자동검색을 통해 url들을 수집한 뒤 pandas로 데이터프레임화 한 후 csv로 저장한다. 그 다음 csv를 로드한 뒤 url을 하나씩 열어 기사 본문과 댓글, 좋아요 등의 감정 수집까지 진행한다. 역시나 처음에는 전체 구조를 for문으로 만들기 전에 하나의 기사로 코드를 실험한다. 0. 라이브러리 & 모듈 - Selenium ActionChains : 여러 개의 동작을 체인으로 묶어서 저장하고 실행한다. - re : 정규표현식을 사용할 수 있는 모듈 # 라이브러리 import import pandas as pd import numpy as np from selenium imp..
첫번째 크롤링 예제이다. 네이버 블로그에 검색어 입력 후에 나오는 블로그들을 크롤링하고 저장해본다. 검색어를 입력하고 스크롤까지 누르기 때문에 Selenium 모듈을 사용한다. (사실 selenium만 배운상태...) selenium의 장점은 다음 블로그를 참조하였다. https://www.hanumoka.net/2020/07/05/python-20200705-python-selenium-install-start/ Selenium 설치하기 및 크롤링 예제 들어가기python으로 크롤링을 할 때, 크롤링 대상인 웹 페이지에 동적인 동작을 곁들여서 크롤링을 할 수 있게 도와주는 라이브러리가 있는데, 그것이 selenium 이다. selenium 장점 웹 드라이버를 사 www.hanumoka.net 0. 모듈..