1️⃣ AI•DS/📒 Deep learning25 [인공지능] Reinforcement Learning Summary ✨ Reinforcement Learning ◾ Any algorithms that solves MDP ◾ Learning to choose optimal action A → ㅠ* ◾ By learning evaluation functions like V(S), Q(S,A) ✨ Key ✔ next state function 을 알고있다면 ◾ use dynamic programming to learn ܸV(S) ◾ once learned, choose action At that maximizes V(S_t+1) ✔ 미로 찾기처럼 next state function 을 모른다면 ◾ Learn Q(St, At) = E[ V(S_t+1) ] ◾ 학습하기 위해 St x At → S_t+1 을 시도 .. 2022. 6. 14. [인공지능] GNN Summary ✨ Idea for deep learning for graphs ◾ Multiple layers of embedding transformation ◾ At every layer, use the embedding at previous layer as the input ◾ ⭐⭐ Aggregation of neighbors ✨ Graph convolutional network ◾ Mean aggregaton → permutation invariant/equivariant ✨ Applications of GNNs ◾ Node-Level ◾ Edge-Level ◾ Graph-Level ⭐ GNN is general architecture ◾ CNN and Transformer can be viewe.. 2022. 6. 14. [인공지능] 추천시스템 1️⃣ 추천시스템 ① 추천 시스템 🔘 정의 information filtering technique : 어떠한 사람이 관심있을 것 같은 것들을 제공하도록 정보를 filtering 하는 기법 🔘 활용 ⭐ 이커머스, 광고, (유튜브 영상) 추천 비슷한 취향 similar taste 을 가진 사람들이 봤던 것을/구매했던 것을 광고/추천목록으로 보게됨 ⭐ 추천시스템에 딥러닝 네트워크를 활발하게 사용하고 있다 🔘 구조 Candidate generation : 유저의 취향을 고려하여 거대한 corpus (유저, 방대한 비디오 클립 등) 로부터 추천 후보군을 산출한다. Scoring : 후보군 중에서 유저가 실제로 볼법한 추천 게시물을 다시 선택하기 위해 정확한 선택 요소들을 점수화한다. Re-ranking : 싫어.. 2022. 6. 13. [인공지능] GAN 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. 1️⃣ Generative model 👀 CNN, RNN 이미 있는 데이터 분포를 잘 추출하는 네트워크 P(Y|X) 👉 데이터 각각을 잘 구분하는 확률 분포를 추출 discriminative model 👀 생산적 적대 신경망 GAN data instance 를 새로 생성하는 네트워크 데이터를 만드는 작업 다양한 응용분야에 적용될 수 있음 ① So far we've learn 🔘 Discriminative model 지금까지 DNN, CNN, RNN 등 주어진 데이터 분포를 잘 구분하기 위해 설계한 모델들을 배웠음 ② Generative model VS Discriminative model 🔘 Discriminative model 다른 종류.. 2022. 6. 13. [인공지능] Transformer Models 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. ➕ https://ratsgo.github.io/nlpbook/docs/language_model/transformers/ Transformers pratical tips for Natural Language Processing ratsgo.github.io Summary ✨ Transformer 기계 번역(machine translation) 등 시퀀스-투-시퀀스(sequence-to-sequence) 과제를 수행하기 위한 모델 ◾ Attention is all you need : Encoder + Decoder block ◾ encoder 부분에서 병렬적으로 문장의 모든 단어를 동시에 처리한다. ◾ 속도가 빠르고 모든 맥락을 전부 at.. 2022. 6. 11. [인공지능] NLP 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. Recap ✨ RNN, LSTM ◾ RNN → gradient vanishing problem → LSTM 1️⃣ NLP ① Natural language processing ◼ NLP : 컴퓨터로 인간의 언어를 사용하는 것 ◼ Natural language ◼ example 💨 machine translation 💨 Sentiment classification 💨 Spam filtering 💨 Chat-bot 👉 많은 NLP 응용은 language model 을 기반으로 하고 있다. ② Language model (1) language model ◼ 연속된 단어에 대한 확률분포를 할당하여 언어 모델을 생성한다. ◼ 일련의 단어 배열이 있.. 2022. 6. 10. [인공지능] RNN 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. Intro ✨ sequential data, temporal data 와 같이 데이터가 시간상에 순서가 있는 경우 RNN 은 좋은 성능을 발휘한다. ◾ language : 시간 상에서 단어들이 배열된다 (speech, text) ◾ video : 이미지가 시간 상에서 sequential 하게 존재한다. ✨ spatial data → 이미지 data 를 처리하는데 CNN 모델이 좋은 성능을 발휘한다. 2D, 3D conv 자체가 주변의 공간상에 있는 픽셀들의 정보를 가져오는 것이기 때문이다. ✨ 단일한 RNN, LSTM 모델모단 Attention 을 사용한 RNN, LSTM 모델이 사용되고 있다. 1️⃣ RNN ① Neural Network.. 2022. 6. 7. [인공지능] Regularization 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. 1️⃣ Regularization ① Loss function (1) Cross Entropy loss function 분류문제에서 많이 사용되는 비용함수 ti 와 oi 의 거리를 측정하여 두 값이 다를수록 즉, 거리가 멀수록 loss 가 증가한다. 두 값의 차이가 1에 가까울수록 즉 error 가 존재할 때 loss 가 증가하고 차이가 0에 가까울수록 loss 가 낮아진다. ◾ ti : ground truth label ◾ oi : NN output ◾ C : number of class 👀 엔트로피가 높다 = NN 의 예측이 불확실하다. 👀 엔트로피가 낮다 = NN 의 예측이 확실하다. (2) Entropy 확률변수의 불확실성 확률변수.. 2022. 4. 26. [인공지능] 다양한 CNN 모델 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. 🏆 ImageNet Competition 기존에는 전통적인 ML 로 문제를 해결하다가, AlexNet 의 등장으로 CNN 이 해당 대회에서 획기적인 성능을 보임 👻 CONV 연산 기본 (in 3D conv) input channel = filter channel filter 의 개수 = output channel Output feature map 의 크기 구하는 공식 W2 = (W1 - F + 2P) / S +1 H2 = (H1 - F + 2P) / S +1 Maxpooling 연산 결과 (W1 - Ps) / S + 1 Ps 는 pooling size 1️⃣ AlexNet * CNN 파트에 각 layer 별 연산과정이 정리되어 있습니다. .. 2022. 4. 26. [인공지능] Training CNN 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. 1️⃣ 복습 ① FC backpropagation 👉 dy(L) 에서 dz(L+1) 이 삽입되는 부분 이해할 것! 💨 dy(L) = (0-0t) * f'(zk) * W = dz(L+1) * W 💨 dz(L+1) = (0-0t) * f'(zk) = dy(L+1) * f'(zk) 💨 최종 끝단 layer dy(L+1) = dC/dy(L+1) = d {1/2*(0-0t)^2} / dy(L+1) = d {1/2*(0-0t)^2} / d0t = (0-0t) 👻 by chain rule activation gradient : dL / dy(L) = local gradient * weight local graidnet : dL / dz(L) weigh.. 2022. 4. 26. 이전 1 2 3 다음 728x90