BoW : 텍스트를 수치 특성 벡터로 표현하는 모델
bag = count.fit_transform(docs) #BoW 모델의 어휘사전을 구축하고 docs의 각 문자를 희소한 특성 벡터로 변환
# tf(t,d) : d 문서에 등장한 t 단어의 횟수
# 특벙 벡터에 나타나는 단어 빈도의 순서는 어휘사전의 알파벳 순서를 따름
tf-idf : 특성 벡터에서 자주 등장하는 단어의 가중치를 낮추는 기법 (자주 등장하는 단어는 오히려 유용x)
'Archive' 카테고리의 다른 글
주피터 노트북 티스토리에 올리기 (0) | 2022.01.20 |
---|---|
티스토리 수식 입력 (0) | 2022.01.13 |
csv 파일 불러올 때 Unamed 0 제거 (0) | 2022.01.05 |
CSS (0) | 2021.12.29 |
html 태그 정리 (1) (0) | 2021.12.28 |