본문 바로가기

1️⃣ AI•DS176

[cs224n] 14강 간단 내용정리 📌 핵심 Task : Transformer, Self - Attention ✅ Self Attention 🔹 Seq2Seq learning NMT, QA, Summarization 가변 길이의 data 를 고정 크기의 vector 또는 matrix 로 표현하는 과정이 필수적 🔹 기존 RNN 계열 모델의 한계점 RNN 계열의 모델은 병렬화가 불가능 long-term dependency 를 잘 반영하지 못함 : LSTM, GRU 도 입력 시퀀스가 굉장히 긴 경우에 이를 잘 반영하지 못함 🔹 CNN 모델의 한계점 CNN 은 병렬 처리가 가능하지만 long-term dependency 를 위해 다수의 레이어가 필요하다 🔹 Self attention 병렬화가 가능하고 각 토큰이 최단거리로 연결되기 때문에 long.. 2022. 7. 18.
[cs224n] Future NLP (2021 version) 📌 참고 자료 : https://www.youtube.com/watch?v=dZi6INuLyOQ 1️⃣ GPT-3 ① GPT-1 📌 https://velog.io/@stapers/GPT-1-Languageunderstandingpaper Semi-supervised : Unsupervised pre-training + supervised fine-tuning 1. Pre-train 👉 Unsupervised : Transformer decoder 를 이용해 대량의 레이블이 없는 코퍼스로 LM 을 사전학습 2. Finetune 👉 supervised : pretrain 된 모델을 task 에 맞게 input 과 label 로 구성된 코퍼스에 대해 지도학습을 진행 ✔ Improving Language und.. 2022. 7. 18.
[cs224n] 18강 내용정리 💡 주제 : Tree Recursive Neural Networks, Constituency Parsing, and Sentiment 📌 핵심 Task : TreeRNN 을 활용한 문장 구조 분석 구조적으로 문장을 나누고 각 단어의 조합이 나타내는 의미를 찾아 문장 전체의 의미 파악하기 Simple Tree RNN, SU-RNN, MV-RNN , RNTN TreeRNN 은 현실적으로 사용하기 힘들다고 함 → GPU 연산이 어려움 + 데이터 구축의 어려움 요즘 NLP 에선 TreeRNN 이 아닌 LSTM, CNN, Transformer 등 contextual language model 의 성능이 더 좋음 물리학, 프로그래밍 언어 번역 등 다른 영역에서 적용이 시도되고 있는 상황이다. 1️⃣ Composit.. 2022. 7. 18.
[cs224n] 15강 내용정리 💡 주제 : NLG 📌 핵심 Task : NLG - Natural language generation text summarization 1️⃣ LM and decoding algorithms ① NLG task ✔ NLP = NLU + NLG : 자연어의 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일 👉 NLU : 자연어를 기계가 이해할 수 있는 형태로 변환하는 NLP 분야 👉 NLG : 시스템 계산 결과를 자연어로 자동 생성하는 NLP 분야 ✔ NLG = 새로운 text 를 만들어 내는 모든 task 를 의미한다. ◽ Task : 기계번역, 텍스트 요약, 채팅, 스토리텔링, QA 등이 있다. ✔ 좋은 NLG 기준 ◽ 적절성 : 생성된 문장이 모호하지 않고 원래의 input text 와 의미가 일치해.. 2022. 7. 4.
[cs224n] 13강 내용정리 💡 주제 : Contextual Word Representations and Pretraining 📌 핵심 Task : Word representation (Word embedding) , pre-training ELMO, Transforemr, BERT 1️⃣ Reflections on word representations 1. Word representation ✔ word embedding ◽ 워드 임베딩을 통해 단어를 벡터로 표현하여 컴퓨터가 이해할 수 있도록 자연어를 변환해준다. ◽ Word2Vec, GloVe, fastText 등을 학습 2. Pre-trained word vectors 사전 훈련된 단어 벡터 모델이 학습한 Vocabulary 에서 각 단어마다 매칭되는 word vector 가.. 2022. 7. 4.
[인공지능] 딥러닝 모델 경량화 📌 경량화 : 딥러닝 모델 사이즈를 줄이기 모델 경량화는 하드웨어와 연관이 많이 되어있음 딥러닝 모델의 크기는 계속 커지고 있기 때문에 하드웨어에서 잘 동작시키기 위해서 관련 연구가 필요함 📌 Ever Increasing Model Size 모델 크기가 커지는 이유는 정확도 때문 → 모델의 크기가 커질 수록 representation power 가 증가 📌 Downside 모델 크기를 늘려 정확도를 증가시키는 것은 2가지 단점을 불러일으킨다. 연산량 증가 메모리 점유율 증가 : 메모리에 모델 파라미터를 올려서 구동 (저장) → 메모리가 작은 휴대폰, 임데디드 시스템에서는 거대한 AI 를 동작시키기 어려움 메모리 bandwidth 증가 : 메모리로부터 CPU 또는 GPU 로 데이터를 전송해야 하는데, 이때.. 2022. 6. 21.
[인공지능] Federated Learning , Distributed Learning Summary ✨ Federated learning ◾ Exploits huge amount of data across clients ◾ data is non-IID ◾ Brief indroduction of FedAvg ✨ Distributed learning ◾ Make training Faster ◾ Data evenly distributed ◾ data parallel : Forward pass, Backward pass , Weight update 👉 Communication : Allreduce - ring reduction, One-host reduction ◾ Model parallel 👉 inter-layer parallel (pipeline) : sub-minibatches, inter.. 2022. 6. 15.
[인공지능] Meta learning , Transfer learning Summary ✨ Meta learning ◾ Few-shot learning ✨ Transfer learning : knowledge 를 전달 ◾ Fine-Tuning → dataset 이 부족한 경우 ◾ Knowledge distillation → 모델 경량화를 하고자 하는 경우 ◾ Domain adaptation → 같은 도메인에 있지만, 학생 도메인의 데이터셋이 부족한/레이블이 없는 경우 ◾ Inductive/unsupervised → 다른 task 를 수행하기 위해 1️⃣ Meta learning ① Meta learning 기계가 아는지 모르는지 구분이 가능하다. 🔘 learning to learn ◾ 메타학습은 여러가지 task 에 대해서 일반화될 수 있는 모델을 학습하는 것을 목표로 한다 .. 2022. 6. 14.
[인공지능] Reinforcement Learning Summary ✨ Reinforcement Learning ◾ Any algorithms that solves MDP ◾ Learning to choose optimal action A → ㅠ* ◾ By learning evaluation functions like V(S), Q(S,A) ✨ Key ✔ next state function 을 알고있다면 ◾ use dynamic programming to learn ܸV(S) ◾ once learned, choose action At that maximizes V(S_t+1) ✔ 미로 찾기처럼 next state function 을 모른다면 ◾ Learn Q(St, At) = E[ V(S_t+1) ] ◾ 학습하기 위해 St x At → S_t+1 을 시도 .. 2022. 6. 14.
[인공지능] GNN Summary ✨ Idea for deep learning for graphs ◾ Multiple layers of embedding transformation ◾ At every layer, use the embedding at previous layer as the input ◾ ⭐⭐ Aggregation of neighbors ✨ Graph convolutional network ◾ Mean aggregaton → permutation invariant/equivariant ✨ Applications of GNNs ◾ Node-Level ◾ Edge-Level ◾ Graph-Level ⭐ GNN is general architecture ◾ CNN and Transformer can be viewe.. 2022. 6. 14.
728x90