[cs224n] 9강 내용 정리

728x90

📑 9장. NLP 연구 전반, CS224N 프로젝트

1️⃣ Starting Research

✨ SQuAD

스탠포드 대학의 NLP 그룹에서 크라우드 소싱을 통해 만든 위키피디아 아티클에 대한 107,785개의 질문-대답 데이터셋이다. 한국에는 KorQuAD 가 있다.
지문(Context) - 질문(Question) - 답변 (Answer) 으로 이루어진 데이터셋 형태이다. 질문의 답변 여부에 따라 70만건은 정답이 있는 데이터셋, 30만건은 정답이 없는 데이터셋으로 구성되어 있다.

✨ 연구의 시작은

1. 논문을 열심히 읽는다.

2. NLP 논문에 대한 ACL Anthology 참고

3. 주요 ML 컨퍼런스들의 논문 참고 : NeurlPS, ICML, ICLR

4. 기존 프로젝트 참조

✨ NLP 연구에서 가장 중요한 것은 데이터

1. 최소 1만개의 레이블된 데이터가 필요

2. 실행 가능한, 적절한 Task 를 찾는 것도 중요하다. 물론 자동화된 metric 평가지표도 있어야 한다.

3. 공개되고 잘 관리된 dataset 활용하기

✨ 데이터 찾기

1. Linguistic Data Consortium

◽ http://catalog.ldc.upenn.edu/

◽ https://linguistics.stanford.edu/resources/resources-corpora

2. Machine Translation

◽ http://statmt.org

3. Dependency parsing

◽ https://universaldependencies.org

4. 캐글, 논문에 쓰인 데이터, NLP dataset github

◽ https://machinelearningmastery.com/datasets-natural-language-processing/

◽ https://github.com/niderhoff/nlp-datasets

2️⃣ Review of gated neural sequence models

✨ GRU

RNN 을 이해하는 것은 중요!
기울기 소실 문제 👉 역전파를 위해 shortcut connection 을 만들거나 adaptive 하게 만들 수 있다.

3️⃣ MT 기계번역 topics

✨ Word generation problem

해결책

Hierarchical softmax
Large vocabulary set 을 몇개의 모델들로 나누어 train 한 후 알맞은 번역 고르기
Attention 사용하기
Word pieces, char models 사용하기

✨ Evaluation

◽ 수동

Adaquacy and fluency
오류분석
번역 순위 메기기

◽ 자동

BLEU

4️⃣ Research Evaluation

✨ NLP 연구 방법 예시

1. 연구 Task 결정 👉 2. Dataset 을 정하기 👉 3. 평가 metric 을 정하기 👉 4. Basline 정하기 👉 5. NN 모델 실행 👉 6. test set 으로 결과 도출하기 👉 7. 다른 방법 시도해보기

✨ 주의사항

1. 훈련/튜닝/Dev/테스트 데이터셋

◽ Tuning set 에서 하이퍼 파라미터 튜닝을 한다.

◽ Dev set 에서 훈련이 잘 되었는지 확인

◽ 마지막에만 Test set 을 쓴다. 모든 데이터셋들은 독립적이어야 한다.

2. 오버피팅 주의, Learning rate 주의

◽ 훈련을 많이하면 오버피팅이 발생할 수 있다.

◽ 적절한 학습률을 설정해주어야 한다.

✨ 연구방법론

1. 한단계씩 연구해라

◽ 처음에는 아주 간단한 모델부터 시작하고, 잘 작동하면 점차 추가한다.

◽ 데이터셋도 처음에는 아주 작은 데이터셋부터 시작하라

2. 데이터셋의 크기를 점점 더 키우자

◽ 데이터셋을 키우면서 100% 가까운 정확도가 나오는게 좋다. 개선이 안된다면 모델을 바꿔야 함

◽ 오류분석을 진행하여 하이퍼파라미터 튜닝에 신경쓰자

✨ RNN 학습 방법

1. LSTM 이나 GRU 를 써보자

2. orthogonal 하게 recurrent matrices 를 초기화하자

3. 다른 metrices 들은 sensible scale 로 만들자

4. forget gate bias 를 1로 두자

5. adaptive learning rate 을 사용하자

6. clip the norm of the gradient (1~5가 적당한 threshold)

7. dropout 을 vertically 하게 적용하거나 baysiean dropout 을 사용하자

8. 학습은 인내심을 가지고 기다리자 ^!^

728x90

'1️⃣ AI•DS > 📗 NLP' 카테고리의 다른 글

텍스트 분석 ① (0)	2022.05.14
[cs224n] 10강 내용 정리 (0)	2022.05.13
[cs224n] 8강 내용 정리 (0)	2022.05.09
[cs224n] 7강 내용 정리 (0)	2022.04.21
[cs224n] 6강 내용 정리 (0)	2022.03.24

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Getting better

[cs224n] 9강 내용 정리

📑 9장. NLP 연구 전반, CS224N 프로젝트

1️⃣ Starting Research

✨ SQuAD

✨ 연구의 시작은

✨ NLP 연구에서 가장 중요한 것은 데이터

✨ 데이터 찾기

2️⃣ Review of gated neural sequence models

3️⃣ MT 기계번역 topics

4️⃣ Research Evaluation

'1️⃣ AI•DS > 📗 NLP' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[cs224n] 9강 내용 정리

📑 9장. NLP 연구 전반, CS224N 프로젝트

1️⃣ Starting Research

✨ SQuAD

✨ 연구의 시작은

✨ NLP 연구에서 가장 중요한 것은 데이터

✨ 데이터 찾기

2️⃣ Review of gated neural sequence models

3️⃣ MT 기계번역 topics

4️⃣ Research Evaluation

'1️⃣ AI•DS > 📗 NLP' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역