google Assistant NLP팀의 computational linguist이신 박지호님의 위클리 NLP(week 5)를 읽고 정리한 내용이다.
jiho-ml
구글 컴퓨터 언어학자가 쓰는 머신 러닝, 자연어 처리 (NLP), 딥러닝 (deep learning) 블로그
jiho-ml.com
용어 정리
자연어 처리 Natural Language Processing (NLP)
(week8)//
spam detection 스팸 감지모델
data가 존재하는 경우
binary classification으로의 접근
일반 메일(negative, 0)
스팸 메일(positive, 1)
->data에 정답(label)이 존재하는 것 = supervised learning 지도학습
data가 존재하지 않는 경우
1. 직접 메일 분류 human annotation or data labeling
이는 통계모델학습이 될 수준의 규모가 될 때 까지 사람이 직접 학습 data를 생성
실제로 labeling과정 머신러닝 모델 개발에 가장 큰 비용과 시간이 소요됨
2. anomaly detection
data자체를 보기때는데 label이 따로 요구x.
data에 따라서 성능차이가 많이 날 수 있다는 가능성을 갖음
이렇게 label을 필요로 하지 않는 것에 대해서 unsupevised learning 비지도학습이라고 함
예시)
접근 방향(binary classification)
'NLP' 카테고리의 다른 글
[weekly-NLP]7 (0) | 2022.06.04 |
---|---|
[weekly-NLP]6 (0) | 2022.06.04 |
[weekly-NLP]5 (0) | 2022.05.11 |
[weekly-NLP]3, 4 (0) | 2022.05.11 |