TIL

Day 35

jay3108 2022. 2. 8. 23:53

TIL 011

데이터 분석 부트캠프 35일차

1. 구매 요인 분석 (Decision Tree)

  • 판매 여부 예측 및 각 변수의 영향도 확인

  • Decision Tree Logistic Regression
    비모수 모델 (비선형 관계도 됨) 모수 모델 (선형 관계만)
    Feature power 부실
    (feature importance 있긴 함)
    Feature power 잘 나타냄
    (Coefficient, p-value, R-square)
    범주형 변수 그대로 사용 가능 (그래도 하는게 좋음) 범주형 변수 원핫 인코딩 필요
  • 피쳐의 특정 항목을 하나로 나타내는 방법 : 고민 해결!!

# Black 종류를 하나로 통합시켜줄 함수 작성 (A)
def black(x):
    if x == 'Midnight Black':
        return 'Black'
    elif x == 'Aura Black':
        return 'Black'
    elif x == 'Prism Black':
        return 'Black'
    else:
        return x    
# Black 종류를 하나로 통합시켜줄 함수 작성 (B)
def black(x):
    if (x == 'Midnight Black') | (x == 'Aura Black') | (x == 'Prism Black'):        
        return 'Black'
    else:
        return x    
# Black 종류를 하나로 통합시켜줄 함수 작성 (C)
def black(x):
    if x in ['Midnight Black','Aura Black','Prism Black']:        
        return 'Black'
    else:
        return x    
  • 익명함수 : lambda()

    • 단일문으로 표현되는 익명 함수

    • 실제 함수를 사용하는 것이 명확하나 많은 작은 함수를 정의하고 이를 호출해서 얻은 값을 저장할 때 유용!

    • data['color'] = data['color'].apply(lambda x: black(x))

2. 추천시스템 : CBF 장르 기반 영화추천

이미지 160

  • 초창기에는 CBF, KNN 방식이 주로 이용되었으나 최근에는 MF가 주를 이루고 있음

  • 하지만 서비스 하는 아이템의 특성에 따라 추천시스템도 달라짐

  • CBF : 사용자가 특정 아이템을 매우 선호하는 경우 그 아이템과 비슷한 컨텐츠를 가진 다른 아이템을 추천하는 방식

  • CBF 장르 기반 영화 추천 실습 : github

  • from ast import literal_eval # 문자열 파싱 라이브러리 -> 문자열을 딕셔너리/리스트로 바꿔줌
  • 문서의 유사도를 측정하는 방법들

    1. 거리기반 : 유클리디안 유사도
    2. 각도기반 : 코사인 유사도 , 자카드 유사도, 피어슨 유사도

개인 공부

1. 영상자료

[혼술talk] 야근하고 온 개발자의 주절주절. 왜 못하니!! 그거할줄 알았으면 여기 안있죠..