Archive
BoW (Bag of Words)
jay3108
2022. 1. 7. 09:07
BoW : 텍스트를 수치 특성 벡터로 표현하는 모델
bag = count.fit_transform(docs) #BoW 모델의 어휘사전을 구축하고 docs의 각 문자를 희소한 특성 벡터로 변환
# tf(t,d) : d 문서에 등장한 t 단어의 횟수
# 특벙 벡터에 나타나는 단어 빈도의 순서는 어휘사전의 알파벳 순서를 따름
tf-idf : 특성 벡터에서 자주 등장하는 단어의 가중치를 낮추는 기법 (자주 등장하는 단어는 오히려 유용x)