본문 바로가기

NLP

[weekly-NLP]6

google Assistant NLP팀의 computational linguist이신 박지호님의 위클리 NLP(week 6)를 읽고 정리한 내용이다.

 

jiho-ml

 

jiho-ml

구글 컴퓨터 언어학자가 쓰는 머신 러닝, 자연어 처리 (NLP), 딥러닝 (deep learning) 블로그

jiho-ml.com

용어 정리

 

 

자연어 처리 Natural Language Processing (NLP)

 

 

 

 

 

 

 

(week6)//문서분류,linear regression, sigmoid function, logistic regression classifier

 

 

문서 분류 document (text) classification

 

문서 분류 모델(Logistic regression classifier)은 linear regression + sigmoid function를 통해 만들어진다.

 

linear regression

머신러닝에서 가장 간단한 모델로, 여러 (x,y)가 주어졌을대 가장 fit한 직선을 찾는 알고리즘이다.

- x : N차원의 vector

- y : 한개의 scalar value

linear regression은 회귀 (regression)로서 sigmoid(logistic)함수를 통해 분류(classification)모델이 된다.

 

sigmoid(logistic)함수

sigmoid함수는 input(x축)의 숫자를 0과1사이(y)로 눌러 넣는다는 특징을 갖는다.

 

 

따라서 linear regression이 sigmoid함수를 사용함으로 binary classification모델이 된다. => logistic regression classifier

 

 

 


 

 

문서 분류 예시

 

 

1. (문자열, 0)  or (문자열, 1)로 구성된 학습을 위한 데이터 셋(수백~수백만 개)존재한다.

 

 

2. vectorize : 문자열을 tf -idf BoW vector로 변환

더보기

logistic regression 모델은 x가 n차원의 vector이어야하는데 현재는 문자열이므로 vectorize를 진행.

 

 

3.  학습 진행

tf -idf BoW vector ->각 열이 하나의 feature로 취급된다.

vocabulary의 숫자(N)에 따라서 각문장은 Nx1 column vector로 표현되는데, logistric regression은 N차원의 x를 주어진 y value에 잘 맞는 직선으로 찾는 과정이다.

 

 

4. 학습 완료 후 검증

 새로운 input(문장) 을 검증셋(evaluation set)으로 삼아 (string, float)형태의 결과를 도출시킨다.

 실수 : 점수 및 확률을 의미하는 0(부정 평가)~1(긍정 평가)사이의 실수로, probability score로 불린다.

 

최종결정은 보통 0.5이하인경우 부정, 나머지는 긍정으로 판단한다.

이후 정확도 계산과정을 거친다.

 

 

 

 

 


 feature importance 

긍정,부정 감성분석(sentiment analysis) 모델 학습시 중요히 보는 단어를 feature importance한다.

y예측값을 계산할 때, =  x에서 각 행(feature)에게 주는 가중치(weight) 계산한 것으로 알수있다.

 

 

 

'NLP' 카테고리의 다른 글

[weekly-NLP]7  (0) 2022.06.04
[weekly-NLP]8  (0) 2022.05.29
[weekly-NLP]5  (0) 2022.05.11
[weekly-NLP]3, 4  (0) 2022.05.11