Jay's Project/wanted 채용 공고 분석

[wanted 채용 공고 분석] 6. 기술 스택 분석(3) - 결과 분석

jay3108 2022. 1. 16. 14:49

지금 까지 크롤링부터 데이터 전처리, 시각화에 이르기까지 많은 과정을 거쳐왔다. 이제 최종으로 시각화된 자료를 바탕으로 데이터를 분석하는 단계이다. 본 프로젝트는 목표는 채용 플랫폼 원티드에서 데이터 분석가 채용 공고들을 분석하여 '데이터 분석가'로 취업하려면 어떤 역량을 갖춰야 하는 지 알아보는 것이다. 드디어 정제된 데이터와 시각화 결과들로 필요 기술 스택과 업무들을 영어 키워드로 알아 볼 수 있게 되었다. 

 

word cloud
seaborn barplot

수집한 채용 공고는 총 58개이다. 두루뭉술하게 데이터 역량을 갖춘 사람이 아닌 회사별로 데이터 분석가 포지션을 특정하여 올린 공고들이다. 따라서 데이터 셋이 조금 작더라도 질적인 측면에서 보다 목적적합하다고 판단된다. 위의 barplot을 살펴보면 크게 기술 스택과 분석 방법으로 나뉘어 있음을 알 수 있다.

 

결과분석


 

가장 많이 출현한 기술 스택은 SQL 이다. SQL(Structured Query Language) 은 관계형 데이터베이스 관리 시스템(RDBMS)의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어이다.  현재 많은 수의 데이터베이스 관련 프로그램들을 SQL을 표준으로 채택하고 있다. 데이터 분석을 위해서는 우선적으로 데이터가 있어야 한다. DB engineer나 data engineer 가 아니더라도 분석를 위해서 DB에 접근하여 필요한 데이터를 정리하고 선별하여 가져오는 역량이 가장 요구됨을 알 수 있다. 현재 SQL 은 공부하지 못했다. 부트캠프 커리큘럼에서 SQL을 다루는 단계로 들어가면 무엇보다도 심도 있는 공부와 정리가 필요할 것이다. 

 

두번째로는 Python이다. 데이터 분석에 필요한 언어로는 크게 R과 Python이 사용된다. 통계학을 전공하였기 때문에 학부생 때 R은 익혀놓은 상태이다. 물론 데이터 사이언스를 위한 것은 아니었지만 통계분석 도구로 사용할 수 있는 역량은 갖추고 있다. 따라서 현재 공부하고 있는 Python을 기반으로 데이터 분석 공부를 하는 것이 바람직할 것이다.

 

다음으로는 tableau 이다. tableau 는 대표적인 대화형 데이터 시각화 툴이다. 데이터 시각화 툴 시장에서 글로벌하게 높은 시장 점유율을 기록하고 있는 만큼 실제 채용 공고에서도 시각화 툴로 tableau를 가장 많이 요구하였다. 엑셀과 유사한 형태로 피벗테이블과 피벗차트를 유용하게 쓸 수 있다. 디자인 측면에서도 강점을 가진다.

데이터 분석가는 결국에 누군가에게 분석 결과를 설명해야 한다. 이 때문에 시각화 전용 툴 또한 능숙하게 다룰 수 있는 역량이 필요하다. (너무나 해야 할 것이 많다.........) 아쉽게도 수료생 신분이라 무료로 이용할 수 없기 때문에 딥러닝까지 한번 개략적으로 공부한 뒤에 한 달 동안 유료로 사용하면서 집중적으로 공부할 생각이다.

이 밖에 데이터 시각화 툴로는 google data studio, Microsoft Power BI, FineRepot 등이 있다. 이중 google data studio는 google data analytics 와 연동할 수 있기 때문에 한번 공부해 볼 필요가 있을 것 같다. 위의 차트에서 14번 출현한 google 키워드는 실제도 데이터스튜디오와 데이터애널리틱스의 앞글자만 토큰화되어 빈출된 것이다.

 

BI(Business Intelligence)는 데이터를 수집, 정리, 분석하고 활용하여 효율적인 의사 결정을 돕는 기술을 일컫는다. BI의 대략적인 개념과 데이터 분석에 주로 이용되는 BI tools에  대해서는 별도로 포스팅하여 공부하는 시간을 갖도록 한다.

 

Apache Spark 는 bigdata 분야에서 주로 사용되는 오픈 소스 분산 처리 시스템이다. 메모리 내 처리를 지원하여 빅데이터를 분석하는 애플리케이션의 성능을 향상시키는 오픈 소스 병렬 처리 프레임워크라고 한다. data engineer 에서 주로 사용되는 것으로 단어를 들어본 수준에 그쳤다. 아직 어떻게 쓰이는 지 잘 모르겠다. 참고한 블로그를 첨부한다.

 

[Spark] Apache Spark(아파치 스파크)란?

빅데이터 빅데이터 빅데이터.... 뉴스에서고, 채용공고에서고 연일 화두에 오르는 키워드이다. 특히 이 글을 보는 당신이 컴공이라면, 마치 족쇄마냥 우리의 진로를 고민하게 만드는 단어일 것

artist-developer.tistory.com

 

LTV(Life Time Value) 는 고객 평생 가치, 고객 생애 가치로 최근 마케팅에서 화두가 되고 있는 용어이다. 고객과 회사의 관계를 통해 (고객관계 지속 기간동안) 회사가 얻을 수 있는 수입의 가치를 말하며 신규 고객을 확보하거나 기존 고객을 유지하고자 할 때 얼마나 비용을 들이는 게 적절한 지 손익분석할 때 주로 사용된다. 마케팅을 위해 데이터 분석을 하는 경우 상당히 중요한 개념으로 파악된다. 차후의 프로젝트에서 ltv를 염두에 둔 마케팅 관련 프로젝트를 진행하는 것도 좋을 것 같다.

 

고객 생애 가치를 계산해봅시다 (feat. 스타벅스) - HelloDigital

성장하는 회사라면 고객생애가치(CLTV)를 반드시 측정해야 합니다. 신규 고객의 획득보다는 기존 고객의 유지(리텐션, Retention)가 훨씬 효율적이기 때문입니다. 이게 무슨 이야기인지 궁금하신 분

www.hellodigital.kr

 

redash 역시 데이터 조회, 시각화와 관련한 BI tool의 일종이다. 클라우드 베이스 bi 라고 하며 배우기 쉽고 가격이 저렴한 강점이 있다고 한다. 일단은 태블로 먼저 공부하자

 

빈출된 test는 3순위와 관련된 A/B test의 결과로 해석된다. A/B test와 그 밖의 cohort , funnel, aarrr 등에 대해서는 별도 항목으로 포스팅하여 구체적으로 정리하고자 한다.

 

raw, insight의 단어를 보면 결국 기업들은 데이터 분석가에게 raw data를 수집, 가공하여 데이터 기반의 유의미한 비즈니스 insight 를 제공할 수 있는 역량을 요구하고 있음을 알 수 있다. 각각의 산업별로 도메인 지식(domain knowledge)을 바탕으로 프로젝트 기획, rawdata 단계의 데이터 수집과 가공, 분석을 위한 전처리, 머신러닝과 딥러닝 알고리즘의 적용, 이 과정에서의 시각화, 이 모든 과정의 결과로 데이터에 기반한 insight를 도출하고 설명할 수 있는 사람은 데이터 분석가로 채용하고자 하는 것이다. 

 

 

정리


어느 분야가 아니겠냐만은 데이터 사이언스에 대해 알면 알수록 얼마나 모르고 있는 지를 알게 되는 것 같다. 고작 프로그래밍 기초와 라이브러리들을 활용할 수 있는 수준이다. 관심 분야의 도메인 지식도 부끄러울 정도이다. 머신러닝과 딥러닝 알고리즘에 대한 심도깊은 이해는 지금부터 시작이다. 각종 BI tool은 또 어떠한가. 공부해야 할 분석 방법론도 산더미이다. 

그러나 조급함은 금물이다. 데이터 분석으로 진로를 정하였고 언제가는 부끄럽지않게 직업으로 데이터 사이언스를 하고 있다고 말하고 싶다. 서두르지 말고 하루하루 성실하게 공부하고 정리하고 프로젝트를 진행하다보면 기회가 올 것이다. 무엇을 모르는지, 무엇을 공부해야 하는지 알게 된 것만으로 정말로 큰 수확이며 의미있는 프로젝트였다.

 

프로젝트의 초기 구상은 여기까지 였으나 수집한 데이터가 아까워서 한글로도 텍스트 키워드 분석을 진행하였다. 앞의 과정은 모두 동일하고 토큰화를 위한 전처리 부분에서만 조금 차이가 있을 것이다.