TIL 24

데이터 분석 부트캠프 45일차

자연어 : 사람들이 일상적으로 쓰는 언어
NLP(Natural Language Processing)
- NLU : 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정
- NLG : 컴퓨터가 이해할 수 있는 값을 사람이 이해하도록 바꾸는 과정

Traditional NLP (전통적 통계기간 자연어 처리)

NLP with Deep Learning (딥러닝 기반 자연어 처리)

통계 기반 nlp딥러닝 기반 nlp

NLPOther Fields (CV, 음성인식)

Discrete value 를 다룸 (단어, 문장)	continuous value를 다룸(이미지, 음성)
분류 문제로 접근할 수 있음	문제에 따라 접근 방식이 다름
샘플의 확률값을 구할 수 있음 <br />(문장에서 이 단어가 나올 확률 드을 통해 자연스스러운 문장 찾기 가능)	샘플의 확률값을 구할 수 없음<br />(연속 변수는 구간이 주어져야 확률값 계산 가능)
문장생성(NLG) <br />auto-regressive한 속성을 지님<br />GAN 적용 불가	이미지 생성<br /> auto-regressive 속성 없음<br /> GAN 적용 가능

도메인 지식
- 언어적인 지식 필요 : 한국어, 영어는 어떤 언어적 특성을 가지는가
- 어떤 텍스트를 분석할 것인가
Nasty Preprocesiing
- 자연어 처리는 전처리가 매우 지저분하다 (이모티콘, 특수문자) : 단순하고 반복적인 과정이지만 미세한 차별화 포인트를 집중할 수 있는 부분이다.
- Task에 따른 정제(normalization) 과정 필요

Ambiguity (모호성)
- 중의성로 인한 모호성 → 해당 단어의 주변 단어를 확인해서 중의성 해소 (word sense)
- 문장 내 정보 부족 → 추가적인 정보 제공으로 모호성 해소
Paraphrase (다른 말로 바꾸어 표현한 문장 : 의역)
- 수 많은 표현 형식으로 비슷한 의미의 단어들이 존재하는 paraphrase 문제가 존재
Discrete, not continuous (이산값)
- <u>one-hot 인코딩 값이 매우 sparse : 유사도, 모호성 표현이 불가능 / cv에서의 이미지 등은 유사</u>
- '파랑'과 '핑크' 중 '빨강'에 가까운 단어는 무엇인가? , 계층적 구조를 가지는 어휘체계는 어떻게 표현하는가
- 딥러닝 에서는 이 문제를 <b>word-embedding </b>으로 해결!!!

딥러닝 이전 : 전형적인 NLP application (여러 단게의 sub-module) , traditional SMT
Sequence-to-Sequence 이전 : 문장이 주어지면 숫자표 변환 (단순 벡터 변환)
- Word Embedding(word2vec)
- Text Classification with CNN
Sequence-to-Sequence with Attention 이후 : seq2seq 모델에 attention이 더해셔 text to text 가능해짐
- Beyond 'text to numeric'
- Beyond 'text to numeric'
Era of Attention : Attention 원리를 응용한 Transformer 기반의 여러 서비스들이 등장
- Transformer by End-to-End Attention
- GPT-2, BERT, TRANSFORMER XL 모두 Attention 원리 기반
Pretraining and Fine-tuning : BERTology → Big language models mainly based on Transformer
- GPT 1,2,3,4 (Open AI)