TIL
Day 35
jay3108
2022. 2. 8. 23:53
TIL 011
데이터 분석 부트캠프 35일차
1. 구매 요인 분석 (Decision Tree)
판매 여부 예측 및 각 변수의 영향도 확인
Decision Tree Logistic Regression 비모수 모델 (비선형 관계도 됨) 모수 모델 (선형 관계만) Feature power 부실
(feature importance 있긴 함)Feature power 잘 나타냄
(Coefficient, p-value, R-square)범주형 변수 그대로 사용 가능 (그래도 하는게 좋음) 범주형 변수 원핫 인코딩 필요 피쳐의 특정 항목을 하나로 나타내는 방법 : 고민 해결!!
# Black 종류를 하나로 통합시켜줄 함수 작성 (A)
def black(x):
if x == 'Midnight Black':
return 'Black'
elif x == 'Aura Black':
return 'Black'
elif x == 'Prism Black':
return 'Black'
else:
return x
# Black 종류를 하나로 통합시켜줄 함수 작성 (B)
def black(x):
if (x == 'Midnight Black') | (x == 'Aura Black') | (x == 'Prism Black'):
return 'Black'
else:
return x
# Black 종류를 하나로 통합시켜줄 함수 작성 (C)
def black(x):
if x in ['Midnight Black','Aura Black','Prism Black']:
return 'Black'
else:
return x
익명함수 : lambda()
단일문으로 표현되는 익명 함수
실제 함수를 사용하는 것이 명확하나 많은 작은 함수를 정의하고 이를 호출해서 얻은 값을 저장할 때 유용!
data['color'] = data['color'].apply(lambda x: black(x))
2. 추천시스템 : CBF 장르 기반 영화추천
초창기에는 CBF, KNN 방식이 주로 이용되었으나 최근에는 MF가 주를 이루고 있음
하지만 서비스 하는 아이템의 특성에 따라 추천시스템도 달라짐
CBF : 사용자가 특정 아이템을 매우 선호하는 경우 그 아이템과 비슷한 컨텐츠를 가진 다른 아이템을 추천하는 방식
CBF 장르 기반 영화 추천 실습 : github
from ast import literal_eval # 문자열 파싱 라이브러리 -> 문자열을 딕셔너리/리스트로 바꿔줌
문서의 유사도를 측정하는 방법들
- 거리기반 : 유클리디안 유사도
- 각도기반 : 코사인 유사도 , 자카드 유사도, 피어슨 유사도