BoW (Bag of Words)

BoW : 텍스트를 수치 특성 벡터로 표현하는 모델

bag = count.fit_transform(docs) #BoW 모델의 어휘사전을 구축하고 docs의 각 문자를 희소한 특성 벡터로 변환

# tf(t,d) : d 문서에 등장한 t 단어의 횟수
# 특벙 벡터에 나타나는 단어 빈도의 순서는 어휘사전의 알파벳 순서를 따름

 

tf-idf  : 특성 벡터에서 자주 등장하는 단어의 가중치를 낮추는 기법 (자주 등장하는 단어는 오히려 유용x)

 

'Archive' 카테고리의 다른 글

주피터 노트북 티스토리에 올리기  (0) 2022.01.20
티스토리 수식 입력  (0) 2022.01.13
csv 파일 불러올 때 Unamed 0 제거  (0) 2022.01.05
CSS  (0) 2021.12.29
html 태그 정리 (1)  (0) 2021.12.28