기술 스택 분석에 이어 한글 명사만 추출하여 데이터 분석가 채용 공고에 빈출한 키워드는 무엇인지 분석해 본다. 각각의 용어로서 고유명사로 쓰인 알파벳과 달리 한글은 명사를 직접 형태소 분석기를 통해 추출하고 결과를 탐색하여 불용어 사전까지 작성해야 한다. 분류(Classification)과 같은 머신러닝을 적용하지 않는 프로젝트이며 기술 스택이나 분석 방법과 같은 영어로 된 용어말고 어떤 키워드들이 빈출하는 지 알아보기 위한 과정이다. 따라서 형태소 분석기를 이용하며 명사만을 가져오는 것을 목적으로 한다. 0. 모듈 & 라이브러리 #### konlpy 설치 (jpype, java_home 환경변수 설정, 시스템파일 수정), wordcloud 설치 과정은 따로 기재하지 않았습니다. ##### import ..
지금 까지 크롤링부터 데이터 전처리, 시각화에 이르기까지 많은 과정을 거쳐왔다. 이제 최종으로 시각화된 자료를 바탕으로 데이터를 분석하는 단계이다. 본 프로젝트는 목표는 채용 플랫폼 원티드에서 데이터 분석가 채용 공고들을 분석하여 '데이터 분석가'로 취업하려면 어떤 역량을 갖춰야 하는 지 알아보는 것이다. 드디어 정제된 데이터와 시각화 결과들로 필요 기술 스택과 업무들을 영어 키워드로 알아 볼 수 있게 되었다. 수집한 채용 공고는 총 58개이다. 두루뭉술하게 데이터 역량을 갖춘 사람이 아닌 회사별로 데이터 분석가 포지션을 특정하여 올린 공고들이다. 따라서 데이터 셋이 조금 작더라도 질적인 측면에서 보다 목적적합하다고 판단된다. 위의 barplot을 살펴보면 크게 기술 스택과 분석 방법으로 나뉘어 있음을 ..
저번 포스팅까지 정규표현식과 nltk tokenizer를 이용하여 전처리를 완료했다. 또한 빈도 수 분석을 위해 Counter 함수로 빈도수를 체크하고 각 항목을 딕셔너리 형태로 저장하였다. 이제 전처리가 완료된 데이터를 시각화하여 분석을 진행한다. 현직 데이터 분석가에 따르면 실제로 시각화 과정이 다른 팀과의 협업, 혹은 프레젠테이션 과정에서 상당히 중요하다고 한다. 모두가 데이터와 분석 방법론에 대한 지식을 갖춘 것은 아니다. 다른 부서, 혹은 의사 결정자에게 공들인 프로젝트를 알기 쉽게 설명하기 위해서는 다양한 시각화 방법을 익혀야 하며 전략적으로 사용할 수 있어야 한다. 개인적인 toy project가 아니라 실제 비즈니스 의사결정에 데이터 기반 인사이트를 제공하기 위해서 분석 과정과 결과를 효과..
지금까지 selenium을 이용하여 원티드에서 공고들을 크롤링하였고 주요업무, 자격요건, 우대사항 등으로 나누어 데이터 프레임으로 저장하였다. 우선, 프로젝트의 목적인 데이터 분석가 직무의 요구 스택들을 알아보기 위하여 수집된 데이터를 전처리하는 과정이 필요하다. 데이터 전처리는 수집된 데이터에서 어떤 요소를 활용하고 어떻게 적용할 지에 따라서 달라진다. 예를들어 머신러닝이나 딥러닝 등을 적용하는 경우에는 알고리즘에 맞게 데이터를 전처리 하며 텍스트 분석을 목적으로 하는 경우에 텍스트 안에서 세부적으로 어간추출이나 불용어 사전 작성 등의 과정이 있다. 이 프로젝트에서 첫번 째로는 기술 스택을 알아보는 목적이므로 이에 따라 어떤 데이터 전처리 이슈가 발생하고 해결방법은 어떠했는 지 정리해 본다. 0. 모듈..
지난 포스팅에서 채용 공고들 각각의 URL을 수집하였다. 이번에는 채용 공고들을 클릭하고 들어가면 볼 수 있는 Job description을 구체적으로 수집해본다. 마찬가지로 selenium을 이용하여 크롤링하며 기본적인 진행과정은 전 단계와 동일하다. 수집한 채용 공고의 개별 URL 접속 import sys import os import pandas as pd import numpy as np from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys import chromedriver_autoinstaller import time from tqdm import tqd..
이 프로젝트는 웹 사이트에서 데이터를 수집하므로 크롤링을 통해 데이터셋을 구축한다. 웹 사이트 크롤링이면 우선적으로 목표로 하는 웹 사이트의 구성을 살펴보고 접근 방법을 결정하는 것이 효율적이다. 본인도 이 프로젝트에서 마음이 앞서 무작정 크롤링이 시도하다가 스트레스만 받고 결과적으로 비효율적인 방식으로 시간을 허비하기도 했다. 채용 공고 크롤링을 위해 우선 원티드의 웹 화면 구성을 살펴보자 화면 구성 살펴보기 원티드 홈페이지에 접속하여 '데이터 분석가'로 검색한 결과이다. 61개의 포지션 채용 공고가 검색되었으며 한 줄에 4개씩 채용공고 타이틀, 회사명, 지역, 그리고 오른쪽 상단의 하트표시로 구직자가 찍어놓은 관심 수를 보여준다. 이제 구체적으로 수집하고 싶은 목표데이터에 접근하는 방법을 생각해보자 ..
채용 플랫폼 원티드(wanted) 원티드는 원티드랩이라는 스타트업에서 운영중인 채용 플랫폼이다. 2015년 부터 운영을 시작하였으며 우리가 흔히 알고있는 네이버/카카오/우아한 형제들 등의 기업부터 초기 단계의 스타트업까지 IT 관련 채용이 주를 이루는 플랫폼이다. 다른 유명 채용 플랫폼과 비교하여 전체적인 UI가 상당히 깔끔하고 세부 공고에서도 일정한 형식으로 작성되어 있어 알아보기 쉽다. 현재 링크드인, 점핏 등과 함께 IT 분야 대표 채용 플랫폼으로 손 꼽히고 있다. 분석 대상 선정 : 왜 원티드인가? 원티드에는 다른 채용 플랫폼과 비교했을 떄 구체적으로 '데이터 분석가' 포지션으로 채용을 원하는 공고가 많았다. 데이터 분석 능력을 요구하는 다양한 직무의 채용 공고들이 아닌 명확히 데이터 분석 직무로..
기업들은 어떤 사람을 데이터 분석가로 채용할까? 데이터 분석 직무로 취업을 준비하고 있다. 이 때문에 아주 자연스럽게 첫 프로젝트로 채용 공고 분석을 떠올리게 되었다. 교육과정이 지나고 점점 시야가 넓어 질수록 데이터 분석의 매력에 빠져 들고 있다. 이 분야는 일종의 종합예술이다. 기획단계부터 수집, 전처리, 모델링과 머신러닝, 비즈니스 창출에 이르기까지 수 많은 지식과 기술들이 다방면으로 요구된다. 이 때문에 혼자서는 모든 것을 해낼 수 없다. 팀 단위로 문제를 해결하며 협업할 수있는 자세와 집단지성의 활용, 의사소통능력이 중요하다. 하지만 결국 취업을 위해서는 기업들이 가장 필요로 하는 능력을 우선적으로 준비해야 할 것이다. 배워야 할 것은 너무 많고 상대적으로 취업을 준비할 수 있는 시간은 너무 적..