1️⃣ AI•DS176 텍스트 분석 ① 📌 파이썬 머신러닝 완벽가이드 공부 내용 정리 📌 실습 코드 https://colab.research.google.com/drive/1UzQNyu-rafb1SQEDcQCeCyYO54ECgULT?usp=sharing 08. 텍스트 분석.ipynb Colaboratory notebook colab.research.google.com 1️⃣ 텍스트 분석의 이해 👀 개요 💡 NLP 와 텍스트 마이닝 ✔ NLP 인간의 언어를 이해하고 해석하는데 중점을 두고 발전 텍스트 마이닝을 향상하게 하는 기반 기술 기계번역, 질의응답 시스템 등 ✔ 텍스트 마이닝 비정형 텍스트에서 의미있는 정보를 추출하는 것에 중점 1. 텍스트 분류 : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법 ex. 신문 기사 카테고리 분.. 2022. 5. 14. [cs224n] 10강 내용 정리 💡 주제 : Question Answering 📌 핵심 Task : QA 질문 응답, reading comprehension, open-domain QA SQuAD dataset BiDAF , BERT 1️⃣ Introduction 1. Motivation : QA ✔ QA 와 IR system 의 차이 ◽ IR = information retrieval 정보검색 💨 QA : Query (specifit) → Answer : 문서에서 정답 찾기 ex. 우리나라 수도는 어디야? - 서울 💨 IR : Query (general) → Document list : 정답을 포함하고 있는 문서 찾기 ex. 김치볶음밥은 어떻게 만들어? - 유튜브 영상 리스트, 블로그 리스트 👉 최근에는 스마트폰, 인공지능 스피커 기.. 2022. 5. 13. [cs224n] 9강 내용 정리 📑 9장. NLP 연구 전반, CS224N 프로젝트 1️⃣ Starting Research ✨ SQuAD 스탠포드 대학의 NLP 그룹에서 크라우드 소싱을 통해 만든 위키피디아 아티클에 대한 107,785개의 질문-대답 데이터셋이다. 한국에는 KorQuAD 가 있다. 지문(Context) - 질문(Question) - 답변 (Answer) 으로 이루어진 데이터셋 형태이다. 질문의 답변 여부에 따라 70만건은 정답이 있는 데이터셋, 30만건은 정답이 없는 데이터셋으로 구성되어 있다. ✨ 연구의 시작은 1. 논문을 열심히 읽는다. 2. NLP 논문에 대한 ACL Anthology 참고 3. 주요 ML 컨퍼런스들의 논문 참고 : NeurlPS, ICML, ICLR 4. 기존 프로젝트 참조 ✨ NLP 연구에서 가.. 2022. 5. 9. [cs224n] 8강 내용 정리 💡 주제 : Seq2Seq , Attention, 기계번역 📌 핵심 Task : machine translation 기계번역 Seq2Seq Attention 기계번역은 대표적인 Seq2Seq 형태의 활용 예제 중 하나이고, attention 이라는 방법론을 통해 성능이 개선되었다. 1️⃣ Machine Translation 1. 기계번역 ✔ 정의 입력으로 들어온 Source language 를 target language 형태로 번역하는 Task ✔ 역사 ➰ 1950's : The early history of MT 러시아어를 영어로 번역하는 등의 군사 목적으로 개발되기 시작하였다. Rule-based 의 번역 시스템으로 같은 뜻의 단어를 대체하는 단순한 방식을 사용했다. ➰ 1990s - 2010s :.. 2022. 5. 9. [05. 클러스터링] K-means, 평균이동, GMM, DBSCAN 1️⃣ K-means clustering 👀 개요 💡 k-means clustering ✔ 군집화에서 가장 일반적으로 사용되는 알고리즘 ✔ Centroid = 군집 중심점 이라는 특정한 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. 1. k 개의 군집 중심점을 설정 2. 각 데이터는 가장 가까운 중심점에 소속 3. 중심점에 할당된 데이터들을 대상으로 평균값을 구하고 그것을 새로운 중심점으로 설정 4. 각 데이터는 새로운 중심점을 기준으로 다시 가장 가까운 중심점에 소속됨 👉 중심점의 이동이 더이상 없을 때까지 반복 💡 장단점 💨 장점 ✔ 일반적인 군집화에서 가장 많이 활용되는 알고리즘 ✔ 알고리즘이 쉽고 간결함 💨 단점 ✔ 거리기반 알고리즘으로 속성의 개수가 많으면 군집화 .. 2022. 5. 7. [인공지능] Regularization 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. 1️⃣ Regularization ① Loss function (1) Cross Entropy loss function 분류문제에서 많이 사용되는 비용함수 ti 와 oi 의 거리를 측정하여 두 값이 다를수록 즉, 거리가 멀수록 loss 가 증가한다. 두 값의 차이가 1에 가까울수록 즉 error 가 존재할 때 loss 가 증가하고 차이가 0에 가까울수록 loss 가 낮아진다. ◾ ti : ground truth label ◾ oi : NN output ◾ C : number of class 👀 엔트로피가 높다 = NN 의 예측이 불확실하다. 👀 엔트로피가 낮다 = NN 의 예측이 확실하다. (2) Entropy 확률변수의 불확실성 확률변수.. 2022. 4. 26. [인공지능] 다양한 CNN 모델 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. 🏆 ImageNet Competition 기존에는 전통적인 ML 로 문제를 해결하다가, AlexNet 의 등장으로 CNN 이 해당 대회에서 획기적인 성능을 보임 👻 CONV 연산 기본 (in 3D conv) input channel = filter channel filter 의 개수 = output channel Output feature map 의 크기 구하는 공식 W2 = (W1 - F + 2P) / S +1 H2 = (H1 - F + 2P) / S +1 Maxpooling 연산 결과 (W1 - Ps) / S + 1 Ps 는 pooling size 1️⃣ AlexNet * CNN 파트에 각 layer 별 연산과정이 정리되어 있습니다. .. 2022. 4. 26. [인공지능] Training CNN 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. 1️⃣ 복습 ① FC backpropagation 👉 dy(L) 에서 dz(L+1) 이 삽입되는 부분 이해할 것! 💨 dy(L) = (0-0t) * f'(zk) * W = dz(L+1) * W 💨 dz(L+1) = (0-0t) * f'(zk) = dy(L+1) * f'(zk) 💨 최종 끝단 layer dy(L+1) = dC/dy(L+1) = d {1/2*(0-0t)^2} / dy(L+1) = d {1/2*(0-0t)^2} / d0t = (0-0t) 👻 by chain rule activation gradient : dL / dy(L) = local gradient * weight local graidnet : dL / dz(L) weigh.. 2022. 4. 26. [06. 차원축소] PCA, LDA, SVD, NMF 01. 차원축소 👀 개요 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것 PCA, LDA, SVD, NMF 알고리즘 차원이 큰 경우 차원이 작은 경우 sparse 한 구조 👉 예측 신뢰도 하락 시각화가 가능해 직관적으로 데이터를 해석하는 것이 가능해진다. 피처별 상관관계가 높을 수 있음 👉 다중 공선성 문제로 예측 성능 저하 학습에 필요한 처리 능력을 줄일 수 있다. 📌 피처 선택 vs 피처 추출 피처 선택 : 특정 피처에 종속성이 강한 불필요한 피처를 아예 제거하여 데이터의 특징을 잘 나타내는 주요한 피처만 선택하는 방식 피처 추출 : 기존 피처를 저차원의 중요 피처로 압축해서 추출 👉 단순한 압축이 아닌, 피처를 함축적으로 더 잘 설명할 수 있는 .. 2022. 4. 24. [인공지능] CNN 📌 교내 '인공지능' 수업을 통해 공부한 내용을 정리한 것입니다. 1️⃣ CNN ① Architecture 👀 Convolution Neural Network 이미지 인식, 이미지 분류에서 좋은 성능을 보이는 모델이다. CNN 은 전결합 구조가 아니다 👉 시냅스 연결 개수가 적다 👉 weight 개수가 적다 💨 연산량이 적다 FC layer 보다 더 효과적으로 feature extraction 을 진행하고 이미지 데이터에 대해 좋은 성능을 보인다. ② ImageNet competition 👀 ImageNet 데이터셋 명칭으로 14000만개의 이미지 데이터셋이다. 1000개의 사물 종류에 대한 이미지가 담겨져 있다. 이미지 속에 존재하는 각 사물의 이름을 얼마나 잘 맞추는가에 관한 학술대회 ILSVRC 에.. 2022. 4. 23. 이전 1 ··· 13 14 15 16 17 18 다음 728x90