Archive

BoW (Bag of Words)

jay3108 2022. 1. 7. 09:07

BoW : 텍스트를 수치 특성 벡터로 표현하는 모델

bag = count.fit_transform(docs) #BoW 모델의 어휘사전을 구축하고 docs의 각 문자를 희소한 특성 벡터로 변환

# tf(t,d) : d 문서에 등장한 t 단어의 횟수
# 특벙 벡터에 나타나는 단어 빈도의 순서는 어휘사전의 알파벳 순서를 따름

 

tf-idf  : 특성 벡터에서 자주 등장하는 단어의 가중치를 낮추는 기법 (자주 등장하는 단어는 오히려 유용x)