Day 29

 

데이터 분석 부트캠프


파이썬 머신러닝 완벽 가이드 ch3. 평가

  • 정확도(Accuracy) : 레이블 값이 불균형한 불포를 가질 때, ML 모델의 적합한 평가 지표가 될 수 없음
  • 오차행렬(Confusion Matrix) : 정확도 개념의 한계
  • 정밀도(Precision) : TP/(FP + TP) →  임계값이 낮을수록 높아진다 
  • 재현율(Recall) : TP/(FN + TP) →임계값이 높을수록 높아진다
  • F1 스코어 : 정밀도와 재현율의 trade-off 관계의 절충 지표 → 두 값이 비슷할 떄 높은 F1 스코어 기록
  • ROC곡선, AUC 스코어 : ML 이진 분류 모델의 예측 성능 평가 시 중요한 지표 (1에 가까울수록 좋음)

분류 실습 : 산탄데르 은행 만족도 예측 

  • 트리 기반 모델 사용 : XGBoost 와 LightGBM
  • gridsearchCV로 하이퍼 파라미터 튜닝 보다 전처리, feature engineering 하는 것이 더 중요할 때가 많음!!
  • 특히 고성능의 알고리즘을 사용할수록 하이퍼 파라미터 튜닝으로 인한 성능 개선에 한계를 보일 때가 많음
  • 주말에 Kaggle, Dacon 우수 코드에서 전처리와 feature engineering 부분을 공부해보자

 

개인 공부


오늘로 해서 머신러닝의 분류, 회귀까지 아주 간략하고도 빠르게 수업을 들었다. (공부는 아니고...)

책에서 배운 코드를 그대로 포스팅할 수도 없고 공부도 그닥 되지 않으니 새로운 데이터를 구해 적용하고 변형해보는 방식으로 복습할 계획이다. 분류 공부에 필요한 데이터셋을 데이콘 와인 품질 예측 대회에서 구하였고 이 데이터셋을 기본으로 DecisionTree, 앙상블(Randomforest), logisticregression, XGBoost, LightGBM 등의 모델에 적용, 비교해보는 토이 프로젝트를 해보려고 한다. 포스팅하고 유투브 자료도 찾아보면서 다시공부! 

 

 

오늘 본 영상 자료


안될과학은 정말 간략하면서 쉽게, 핵심만 잘 알려준다. 어찌나 그리 전달력이 좋으신지. 

 

실무에서는 모델링 보다 엔지니어링 요소들이 더 많이 필요하다. 데이터 사이언티스트는 정제된 데이터 안에서 역량을 발휘하지만 다수의 기업들은 로그 발생부터 수집, DB 구축까지 그 전 단계가 더 중요하다. 데이터 사이언티스트 입장에서도 초기에 원하는 방식으로 로그 데이터를 발생시키거나 프로젝트 기획 단계부터 백엔드 지식을 알고 있으면 성과를 내기 쉽다. 백엔드 지식을 갖춘 데이터 사이언티스트가 경쟁력 있을 것! (근데 나는 데분가도 아직 못되었은데....!?)

 

'TIL' 카테고리의 다른 글

Day 32  (0) 2022.01.27
Day 30  (0) 2022.01.26
Day 28  (0) 2022.01.20
Day 27  (0) 2022.01.19
Day 26  (0) 2022.01.19