본문 바로가기

1️⃣ AI•DS176

데이터마이닝 Preprocessing ① 1. GOAL of the course • 데이터마이닝의 기본 개념들 • 데이터 전처리 (data preprocessing) • Association, correlation, and frequent pattern analysis • Classification • Cluster and outlier analysis • Data Mining: Industry efforts and social impacts 2. Technology Trend • Explosive growth of data : from terabytes to petabytes ↪ Big data, Internet of Things, Web2.0, Scientific simulation • Motivation of Data Mining ↪ In.. 2023. 3. 15.
계량경제학 스터디 CH1,2 정리 👀 계량경제학 개인 공부용 포스트 글 입니다. Ch1. Introduction and Motivation ① Econometrics is a quantitative and statistical analysis of economics. Statistical methods are used to analysis information in economic data. ▸ Econometric analysis : Estimation, Testing hypothesis ② Econometric model consists of a systematic part and a random error ▸unobservable errors, e ③ Types of Data • Time series data : 일정 시간 간격으로.. 2023. 3. 13.
[cs224w] Frequent Subgraph Mining with GNNs 1️⃣ 12강 복습 🔹 Main Topic : Subgraph Mining - Identifying and Counting Motfits in Networks • Subgraph 와 motifs 는 그래프 구조에 대한 인사이트를 얻게 해주는 요소이다. • 특정 그래프들 사이에서 Subgraph Isomorphism 관계에 있는지 예측하는 Task 에 대해 신경망을 활용한다. • Subgraph 관계를 판별하는 방법 : Order embedding 🔹 Subgraph and Motifs • Building Blocks of Networks → Subgraph (=Mofits) 는 네트워크의 function 이나 behavior 과 같은 요소를 결정한다. 이를 통해 그래프가 어떻게 작동하는지 알 수 있고, .. 2023. 1. 27.
[cs224w] Theory of Graph Neural Networks 1️⃣ 9강 복습 🔹 Main Topic : GNN 의 표현능력과 범위 • Expressive power : 어떻게 서로다른 그래프 구조를 구별하는가 (node 와 graph structure 를 어떻게 구분하는가) • Maximally expressive GNN model : 표현력을 어디서 극대화 시킬 수 있을까 🔹 GNN model ① GCN : mean pool ② GraphSAGE : max pool • Local Neighborhood Structure : 모든 노드가 같은 feature 를 가지고 있는 그래프에서 서로다른 노드를 구별하는 방법 (same color - same feature 로 간주) ↪ 기준1 : different node degree ↪ 기준2 : different nei.. 2023. 1. 6.
[딥러닝 파이토치 교과서] 자연어처리를 위한 임베딩 더보기 👀 임베딩 • 임베딩 : 사람의 언어를 컴퓨터가 이해할 수 있는 언어 (숫자) 형태인 벡터로 변환한 결과 • 임베딩의 역할 ↪ 단어 및 문장 간 관련성 계산 ↪ 의미적 혹은 문법적 정보의 함축 (ex. 왕-여왕, 교사-학생) ① 희소표현 기반 임베딩 : 원핫인코딩 • Sparse representation : 대부분의 값이 0으로 채워져 있는 경우로 대표적인 방법이 원핫인코딩 • 원핫인코딩 : 단어 N 개를 각각 N 차원의 벡터로 표현하는 방식 from sklearn import preprocessing label_encoder = preprocessing.LabelEncoder() onehot_encoder = preprocessing.OneHotEncoder() a = label_encoder.. 2022. 12. 30.
[CS224W] Graph Neural Network 1️⃣ 6강 복습 🔹 Main Topic : Graph Neural Networks ① 복습 : Node embedding • 그래프에서 유사한 노드들이 함수 f 를 거쳐 d 차원으로 임베딩 되었을 때, 임베딩 공간 내에서 가까이 위치하도록 만드는 것 ↪ Encoder : 각 노드를 저차원 벡터로 매핑 ↪ Similarity function : 원래 그래프 내에서의 노드 간 유사도와 임베딩 공간에서 노드 벡터의 내적값이 유사하도록 만드는 함수 • Shallow Encoding (embedding lookup) : 임베딩 행렬에서 노드의 임베딩 벡터를 각 칼럼에 담아, 단순히 벡터를 읽어오는 방식 → 🤨 노드 간에 파라미터를 공유하지 않기 때문에 노드의 개수가 증가할 수록 행렬의 크기가 계속 늘어나게 되며.. 2022. 11. 24.
[CS224W] Message Passing and Node classification 1️⃣ 5강 복습 🔹Main Topic : Node classification • 몇개의 노드에 레이블이 주어질 때, 다른 모든 노드의 레이블을 예측하는 node classification Task 👉 Semi supervised node classification : 라벨링된 노드와 그렇지 않은 노드를 동시에 사용하는 분류문제 • Message Passing 방법을 통해 노드 간의 correlation (dependencies) 을 가정하여 레이블을 예측한다. • correlation : 비슷한 노드는 직접적으로 연결되어 있거나 근접한 위치에 존재한다는 의미로, 주변 노드가 같은 레이블에 속할 때 상관관계가 존재한다고 말할 수 있다. • Applications : 문서 분류, 품사태깅, link pre.. 2022. 11. 17.
[딥러닝 파이토치 교과서] 7장 시계열 I 1️⃣ 시계열 문제 🔹 시계열 분석이란 ↪ 시간에 따라 변하는 데이터를 사용해 추이를 분석하는 것으로 주가/환율변동, 기온/습도변화 등이 대표적인 시계열 분석에 해당한다. ↪ 추세파악, 향후전망 예측에 시계열 분석을 사용한다. 🔹 시계열 형태 ↪ 데이터 변동 유형에 따라 구분할 수 있다. 불규칙변동 예측 불가능하고 우연적으로 발생하는 변동. 전쟁, 홍수, 지진, 파업 등 추세변동 GDP, 인구증가율 등 장기적인 변화 추세를 의미한다. 장기간에 걸쳐 지속적으로 증가, 감소하거나 일정 상태를 유지하려는 성격을 띈다. 순환변동 2~3년 정도의 일정한 기간을 주기로 순환적으로 나타나는 변동 계절변동 계절적인 영향과 사회적 관습에 따라 1년 주기로 발생하는 것을 의미 🔹 시계열 데이터 ↪ 규칙적 시계열 vs 불규.. 2022. 11. 10.
[CS224W] PageRank 1️⃣ PageRank Citation Ranking 논문 🔹 Summary • 자신의 검색어와 가장 잘 어울리는 페이지를 찾기위한 PageRank • 얼마나 많은 사이트들이 참조했는지 + 참조한 사이트들의 영향력은 어떻게 되는지 = Relative importance of Web pages • PageRank : 웹 페이지들의 순위를 매기는 알고리즘 from link structure (backlinks) ↪ helps search engines and users quickly make sense of the vast heterogeneity of the WWW ↪ Applications : Search, browsing, traffic estimation ↪ 각 페이지의 rank 는 고르게 분배된다... 2022. 11. 2.
[CS224W] 1강 Machine Learning With Graphs 1️⃣ Why Graphs 🔹 Graph • Graphs are a general language for describing and analyzing entities with relations/interactions • 엔티티의 관계와 상호작용을 분석하고 묘사할 수 있는 언어 🔹 Many Types of Data are Graphs • 많은 데이터가 네트워크 형태로 이루어져 있음 🔹 네트워크 vs 그래프 • 네트워크 ( = Natural Graph) social network : 사회 연결망 communication and transaction : 전자기기, 휴대폰, 금융거래 Biomedicine : 유전자, 단백질 상호작용을 통한 생명 조절 Brain connection : 수십억 뉴런들 사이의 연결성.. 2022. 10. 11.
728x90