본문 바로가기

NLP

[weekly-NLP]8

google Assistant NLP팀의 computational linguist이신 박지호님의 위클리 NLP(week 5)를 읽고 정리한 내용이다.

 

jiho-ml

 

jiho-ml

구글 컴퓨터 언어학자가 쓰는 머신 러닝, 자연어 처리 (NLP), 딥러닝 (deep learning) 블로그

jiho-ml.com

용어 정리

 

 

자연어 처리 Natural Language Processing (NLP)

 

 

 

 

 

(week8)//

 

 

 

spam detection 스팸 감지모델

data가 존재하는 경우
binary classification으로의 접근
일반 메일(negative, 0)
스팸 메일(positive, 1)

->data에 정답(label)이 존재하는 것 = supervised learning 지도학습

data가 존재하지 않는 경우
1. 직접 메일 분류 human annotation or data labeling 
이는 통계모델학습이 될 수준의 규모가 될 때 까지 사람이 직접 학습 data를 생성

실제로 labeling과정 머신러닝 모델 개발에 가장 큰 비용과 시간이 소요됨

2. anomaly detection
data자체를 보기때는데 label이 따로 요구x.
data에 따라서 성능차이가 많이 날 수 있다는 가능성을 갖음
이렇게 label을 필요로 하지 않는 것에 대해서  unsupevised learning 비지도학습이라고 함

 

 

 

 

 

 

예시)

접근 방향(binary classification)

'NLP' 카테고리의 다른 글

[weekly-NLP]7  (0) 2022.06.04
[weekly-NLP]6  (0) 2022.06.04
[weekly-NLP]5  (0) 2022.05.11
[weekly-NLP]3, 4  (0) 2022.05.11