본문 바로가기

분류 전체보기328

[cs224n] 12강 내용정리 💡 주제 : Subword Models 📌 핵심 Task : Character level models BPE, WordPiece model, SentencePiece model, hybrid models 1️⃣ Linguistic Knowledge 1. 언어학 개념 정리 ✔ 음운론 Phonology ◽ 언어의 '소리' 체계를 연구하는 분야 → 사람의 입으로 무한의 소리를 낼 수 있지만, 언어로 표현될 때는 연속적인 소리가 범주형으로 나눠져서 인식된다. ✔ 형태론 Morphology ◽ 최소한의 의미를 가지는 구조 ◽ 단어의 어형 변화를 연구하는 문법의 한 분야 → 작은 단위의 단어들이 모여 하나의 의미를 완성 👉 형태소 단위의 단어들을 딥러닝에 사용하는 경우는 거의 없다. 단어를 형태소 단위로 쪼개는 과.. 2022. 5. 23.
[cs224n] 11강 내용 정리 💡 주제 : ConvNets for NLP 📌 핵심 Task : sentence classification CNN, 2014 논문, 2017 논문 1️⃣ CNN 1. RNN 의 문제 ✔ Prefix context 를 모두 포함 ◽ the, of .. 와 같은 prefix context 없이 phrase 를 잡아내지 못한다. ◽ 이전 토큰들에 대해 연산을 모두 진행한 후 다음 토큰에 대해 연산을 진행한다. ✔ Last hidden state 에 의미가 축약됨 ◽ softmax 가 마지막 step 에서만 계산되므로 마지막 단어에 영향을 많이 받는다 👉 단점을 보완하기 위해 LSTM, GRU, Attention 같은 모델들이 등장 2. CNN for text ✔ main Idea What if we compu.. 2022. 5. 19.
텍스트 분석 ② 📌 파이썬 머신러닝 완벽가이드 공부 내용 정리 📌 실습 코드 https://colab.research.google.com/drive/1aMlFfX927tDFnPUisw2M3tB6NwGy5c7q?usp=sharing 08. 텍스트 분석(2).ipynb Colaboratory notebook colab.research.google.com 1️⃣ 문서 군집화 💡 문서 군집화 ✔ 개념 비슷한 텍스트 구성의 문서를 군집화 하는 것 텍스트 분류 기반의 문서 분류는 사전에 target category 값이 필요하지만, 이 없이도 비지도 학습 기반으로 동작 가능하다. 1. 텍스트 토큰화 & 벡터화 2. 군집화 알고리즘 적용 : Kmeans 3. cluster_centers_ 로 군집별 핵심 단어 추출하기 ✔ 실습 - .. 2022. 5. 17.
[개인 프로젝트] 시계열 이상치 탐지 스터디 ③ - Prophet 📌 교내 융합소프트웨어프로젝트 수업에서 진행한 개인 데이터 분석 프로젝트에 대한 시리즈 글 입니다. 📌 서치한 자료들을 참고하여 프로젝트 데이터에 적용해 실습을 진행해보았습니다. 개인적으로 의문점이 들었던 부분은 이모지로 체크해두었기 때문에 해당 게시물은 참고용으로만 보아주시면 좋을 것 같습니다. 시계열 데이터 분석 기본 모델 👀 정상성 ◽ 정상 프로세스 : 시간에 관계 없이 평균과 분산이 일정한 시계열 데이터 ◽ 비정상 프로세스 : 시간에 관계 없이 평균과 분산이 일정하지 않은 시계열 데이터 👉 가로축을 현재 데이터와의 시점 차이로 y 축을 ACF 로 시각화할 때 특정 패턴이 없으면 정상 프로세스로 간주한다. ◾ AC autocorrelation : 자기 자신의 데이터와의 관계를 의미 👀 시계열 기본 .. 2022. 5. 16.
텍스트 분석 ① 📌 파이썬 머신러닝 완벽가이드 공부 내용 정리 📌 실습 코드 https://colab.research.google.com/drive/1UzQNyu-rafb1SQEDcQCeCyYO54ECgULT?usp=sharing 08. 텍스트 분석.ipynb Colaboratory notebook colab.research.google.com 1️⃣ 텍스트 분석의 이해 👀 개요 💡 NLP 와 텍스트 마이닝 ✔ NLP 인간의 언어를 이해하고 해석하는데 중점을 두고 발전 텍스트 마이닝을 향상하게 하는 기반 기술 기계번역, 질의응답 시스템 등 ✔ 텍스트 마이닝 비정형 텍스트에서 의미있는 정보를 추출하는 것에 중점 1. 텍스트 분류 : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법 ex. 신문 기사 카테고리 분.. 2022. 5. 14.
[cs224n] 10강 내용 정리 💡 주제 : Question Answering 📌 핵심 Task : QA 질문 응답, reading comprehension, open-domain QA SQuAD dataset BiDAF , BERT 1️⃣ Introduction 1. Motivation : QA ✔ QA 와 IR system 의 차이 ◽ IR = information retrieval 정보검색 💨 QA : Query (specifit) → Answer : 문서에서 정답 찾기 ex. 우리나라 수도는 어디야? - 서울 💨 IR : Query (general) → Document list : 정답을 포함하고 있는 문서 찾기 ex. 김치볶음밥은 어떻게 만들어? - 유튜브 영상 리스트, 블로그 리스트 👉 최근에는 스마트폰, 인공지능 스피커 기.. 2022. 5. 13.
[개인 프로젝트] 시계열 이상치 탐지 스터디 ② 📌 교내 융합소프트웨어프로젝트 수업에서 진행한 개인 데이터 분석 프로젝트에 대한 시리즈 글 입니다. 📌 https://aifactory.space/competition/detail/2052 를 공부한 내용을 정리하였습니다. 시계열 데이터 이상징후 감지 딥러닝 모델 입문+실전+해커톤 무료 온라인 세미나 aifactory.space * 정리된 내용에 활용된 모든 이미지는 해당 강의 영상에 나와있는 이미지 입니다. 문제가 될 시 게시물을 삭제조치하도록 하겠습니다. 1️⃣ 통신사의 AI 기술 및 해커톤 소개 📌 통신산업 + AI 💨 네트워크 구조 : 유선망, 무선망 💨 네트워크 구축과 운용은 어떻게 이루어지는가 → 가전제품 구매방식과 유사하다 설계 , 구축, 구성, 관리의 4단계 과정으로 정의된다. 기존에는 운.. 2022. 5. 11.
[cs224n] 9강 내용 정리 📑 9장. NLP 연구 전반, CS224N 프로젝트 1️⃣ Starting Research ✨ SQuAD 스탠포드 대학의 NLP 그룹에서 크라우드 소싱을 통해 만든 위키피디아 아티클에 대한 107,785개의 질문-대답 데이터셋이다. 한국에는 KorQuAD 가 있다. 지문(Context) - 질문(Question) - 답변 (Answer) 으로 이루어진 데이터셋 형태이다. 질문의 답변 여부에 따라 70만건은 정답이 있는 데이터셋, 30만건은 정답이 없는 데이터셋으로 구성되어 있다. ✨ 연구의 시작은 1. 논문을 열심히 읽는다. 2. NLP 논문에 대한 ACL Anthology 참고 3. 주요 ML 컨퍼런스들의 논문 참고 : NeurlPS, ICML, ICLR 4. 기존 프로젝트 참조 ✨ NLP 연구에서 가.. 2022. 5. 9.
[cs224n] 8강 내용 정리 💡 주제 : Seq2Seq , Attention, 기계번역 📌 핵심 Task : machine translation 기계번역 Seq2Seq Attention 기계번역은 대표적인 Seq2Seq 형태의 활용 예제 중 하나이고, attention 이라는 방법론을 통해 성능이 개선되었다. 1️⃣ Machine Translation 1. 기계번역 ✔ 정의 입력으로 들어온 Source language 를 target language 형태로 번역하는 Task ✔ 역사 ➰ 1950's : The early history of MT 러시아어를 영어로 번역하는 등의 군사 목적으로 개발되기 시작하였다. Rule-based 의 번역 시스템으로 같은 뜻의 단어를 대체하는 단순한 방식을 사용했다. ➰ 1990s - 2010s :.. 2022. 5. 9.
[개인 프로젝트] 시계열 이상치 탐지 스터디 ① 📌 교내 융합소프트웨어프로젝트 수업에서 진행한 개인 데이터 분석 프로젝트에 대한 시리즈 글 입니다. 👀 이상치 탐색 개요 01. 이상치 탐색의 개념 📌 이상치 통계학 측면에서 이상치는 관측치들이 주로 모여있는 곳에서 멀리 떨어져 있는 관측치로 정의됨 이상치 탐색은 탐색 영역에 따라 Outlier detection, Noise detection, Anomaly detection, Novelty detection, Fraud detection, Instrusion detection 등 다양한 용어로 사용된다. 📌 이상치의 구분 비합리적인 이상치 : 입력 오류 등 자료의 오염으로 인해 발생한 이상치 합리적인 이상치 : 정확하게 측정은 되었으나 다른 자료들과 전혀 다른 경향이나 특성을 보이는 이상치를 말한다. .. 2022. 5. 9.
728x90