[cs224n] 2강 내용 정리

728x90

💡 주제 : Word vectors and Word Senses

📌 핵심

Task : 단어 임베딩 - Word2vec (2강) , Glove (3강)

📌 목차 정리

1. 최적화

Gradient Descent
Stochastic Gradient Descent
- 학습 데이터 중에서 랜덤하게 샘플을 한개씩 뽑아 gradient 를 계산한 후 업데이트 하는 방식
- 계산량이 적음 & 학습이 빠름 & local min 에 빠지지 않고 학습될 수 있음
- word vector 가 sparse 해짐 → 불필요한 계산 발생

2. Word2vec 의 계산 효율성 높이기 (SGD 외)

Negative Sampling
- 등장 배경 : softmax 를 출력층에서 계산할 때, 전체 단어를 대상으로 벡터 내적과 exp 계산을 취해주어야 함 → 연산량 증가
- 해결 아이디어 : parameter 를 갱신시킬 negative sample 을 뽑는 것 (즉, 일부 단어만을 가지고 계산) ➕ 마지막 단계를 이진분류 binary logistic regression 문제로 변환 ( 주변 단어들을 긍정 - positive , 랜덤으로 샘플링 된 단어들을 부정 - negative 로 레이블링 )

- 👀 Negative sample : 사용자가 지정한 윈도우 사이즈 내에 등장하지 않는 단어

Subsampling
- is, the, a 와 같이 자주 등장하는 단어는 적게 등장하는 단어들보다 정보의 가치가 떨어지므로, 말뭉치에 자주 등장하는 단어는 학습량을 확률적으로 감소시키는 기법
- f(wi) : (해당 단어 빈도/단어 전체 수)

Hirerachical softmax

3. Word prediction Methods

Count based vs Direct Prediction

4. Glove : global vectors for word representation

⭐ Direct Prediction과 count based 방식을 합친 워드 벡터화 방식

⭐ co-occurence Matrix

💨 유사한 쓰임/의미를 보유한 단어들끼리는 비슷한 벡터 구성을 보유하게 된다. 비슷한 단어들은 비슷한 환경/문맥에서 사용되므로 비슷한 단어들과 인접하게 된다.

💨 그러나 sparse 행렬을 형성하게 되는 + 단어의 수가 증가할 수록 행렬 차원이 커지는 단점이 존재 → SVD 차원축소

💨 높은 동시등장 count 를 가지는 행렬 값을 중심으로 차원을 축소한다.

⭐ co-occurence probabilities

P( k | i ) : 동시등장 행렬로부터 특정 단어 i 의 전체 등장 횟수를 카운트하고, 특정 단어 i 가 등장했을 때 어떤 단어 k 가 등장한 횟수를 카운트하여 계산한 조건부 확률

⭐ objective function

임베딩된 두 단어벡터 중심단어와 주변단어 벡터의 내적이 corpus 전체에서의 동시에 등장하는 확률의 로그값이 되도록 임베딩 벡터를 만든다.

◾ Wi : 중심단어 i 의 임베딩 벡터

◾ Wj : 주변 단어 k 의 임베딩 벡터

◾ P(i|j) : 중심단어 i 가 등장했을 때 윈도우 내 주변 단어 j 가 등장할 확률

모델 등장 motivation
목적 함수 유도
다른 모델과의 관계
계산 복잡도

⭐ 장단점

동시등장 확률의 개념을 도입 → Global statistical information 의 효율적인 사용이 가능 , 그러나 메모리 cost 는 높음
빠른 학습속도, Big, Small corpus 에 대해서 성능이 좋음
Polysemous word (다의어) 문제 해결 X

⭐ Hyperparameter

from glove import Corpus, Glove 
corpus = Corpus() 


# 훈련 데이터로부터 Glove 에서 사용할 동시 등장 행렬 생성 
corpus.fit(result, window = 5) 

glove = Glove(no_components = 30, learning_rate=0.05, alpha = 0.75, max_count=100, max_loss = 10.0, random_state = None)

Parameter	내용
no_components	word vector 의 차원 크기 설정
learning_rate	학습속도 설정 (SGD estimation 시 사용)
Alpha, max_count	weight 부여할 때 사용
random_state	최적화시 초기화 때 사용되는 상태

⭐ 시각화

5. word vectors 평가방식

Extrinsic vs Intrinsic

⭐ intrinsic : 올바르게 task 를 해결했는지 확인하는 방법. word vector analogy

⭐ Extrinsic : 실제 시스템에서 사용해서 성능을 확인하는 방법. Named Entity Recognition (NER)

→ 두 평가방식 모두 Glove 모델에서 꽤 좋은 성능 결과를 보임

6. Word senses and Word sense ambiguity

동일한 단어의 서로 다른 의미를 표현하는 방법
Multiple sensors for a word (clustering - re labeling)
Weighted average

📌 실습코드

basic : https://wikidocs.net/22885

05) 글로브(GloVe)

글로브(Global Vectors for Word Representation, GloVe)는 카운트 기반과 예측 기반을 모두 사용하는 방법론으로 2014년에 미국 스탠포드대 ...

wikidocs.net

한국어 : https://lovit.github.io/nlp/representation/2018/09/05/glove/

GloVe, word representation

GloVe 는 Word2Vec 과 더불어 자주 이용되는 word embedding 방법입니다. Word2Vec 과의 차이점에 대하여 알아보고, Python 의 구현체인 glove_python 의 특징에 대해서도 살펴봅니다. 그리고 glove_python 을 이용하

lovit.github.io

LSTM, Glove 를 활용한 감정분석 _ IMDB 영화 데이터 : https://ichi.pro/ko/lstm-mich-glove-imbeding-eul-sayonghan-gamjeong-bunseog-168372289928846

LSTM 및 GloVe 임베딩을 사용한 감정 분석

감정 분석은 웹 사이트의 고객 기반에 대한 유용한 통찰력을 제공하여 의사 결정 과정을 돕는 많은 조직과 회사에 중요한 도구로 부상했습니다. 오늘 저는 LSTM 및 GloVe Word Embeddings를 사용하여 간

ichi.pro

👀 kaggle 코드에서 glove 를 라이브러리를 활용하지 않고 아래의 형태로 가져오는 방식 이해해보기 : https://lsjsj92.tistory.com/455

glove_dir = '../input/glove-global-vectors-for-word-representation/'
embedding_index = {}

f = open(os.path.join(glove_dir,'glove.6B.50d.txt'))
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:],dtype='float32')
    embedding_index[word] = coefs
f.close()

print('found word vecs: ',len(embedding_index))

728x90

'1️⃣ AI•DS > 📗 NLP' 카테고리의 다른 글

[cs224n] 6강 내용 정리 (0)	2022.03.24
[cs224n] 5강 내용 정리 (0)	2022.03.22
[cs224n] 4강 내용 정리 (0)	2022.03.18
NLP deep learning (0)	2022.03.15
[cs224n] 3강 내용 정리 (0)	2022.03.14

Getting better

[cs224n] 2강 내용 정리

💡 주제 : Word vectors and Word Senses

📌 핵심

📌 목차 정리

4. Glove : global vectors for word representation

📌 실습코드

'1️⃣ AI•DS > 📗 NLP' 카테고리의 다른 글

댓글

티스토리툴바

[cs224n] 2강 내용 정리

💡 주제 : Word vectors and Word Senses

📌 핵심

📌 목차 정리

4. Glove : global vectors for word representation

📌 실습코드

'1️⃣ AI•DS > 📗 NLP' 카테고리의 다른 글

관련글

댓글

티스토리툴바