TIL

Day 26

jay3108 2022. 1. 19. 09:28

인코딩

레이블(Lable) 인코딩 : 각각의 레이블 별로 인코딩 → 수학 = 0 , 과학 = 1, 영어 = 2

- scikit-learn에서의 인코딩

원-핫(One-Hot) 인코딩

- 피처 값의 유형에 따라 새로운 피처를 추가해 고윳 값에 해당하는 컬럼에만 1을 주고 나머지는 0으로 인코딩하는 방법

과목 과목 과목 과목
수학 1 0 0
과학 0 1 0
영어 0 0 1

- 판다스 get_dummies() 를 이용한 원-핫 인코딩

- scikit-learn에서의 원-핫 인코딩

 

피처 스케일링

표준화 : 피쳐 각각이 평균 0, 분산 1인 가우시안 정규분포로 변환 → StandardScaler

정규화 : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환 → MinMaxScaler