본문 바로가기

1️⃣ AI•DS176

데이터마이닝 Classification (decision tree) 1. Basic Concepts ① Definition • Classification task • Given a collection of records (training set), we find a model for the class attribute as a function of the values of other attributes. Each record contains a set of attributes, and one of the attributes is the class. • Previously unseen records (test set) should be assigned a class as accurately as possible ↪ A test set is used to determine .. 2023. 4. 15.
대체로 해롭지 않은 계량경제학 정리 - Part1 👀 계량경제학 개인 공부용 포스트 글 입니다. Part1. 준비단계 ① 장. 질문에 대한 질문 • 관심의 대상이 되는 관계 (relationship of interest) : 과연 무엇이 관심의 대상이 되는 인과관계인가 • 이상적인 실험 (ideal experiment) : 관심의 대상이 되는 인과효과를 도출하기 위해 가장 이상적으로 사용될 수 있는 실험 • 식별전략 (identification strategy) : 연구자가 관측자료 (즉, 무작위 실험을 통하지 않고 만들어진 자료) 를 사용해 진짜 실험에 근사하는 방법을 설명하기 위해 식별 전략이라는 용어를 사용했다. • 추론방법 (the mode of inference) : 어떤 통계적 추론 방식인가 ② 장. 이상적인 실험 • 가장 신뢰할만하고 영향력.. 2023. 4. 11.
계량경제학 스터디 CH11,12,13,14,15정리 👀 계량경제학 개인 공부용 포스트 글 입니다. CH11. Endogeneity and Instrumental variables estimation ① Linear Regression with the random regressors • E(ei | xi) = 0 의 의미는 같은말로 Cov(e,x) = 0 : e 와 x의 공분산이 0 (상관관계가 없다) • 내생성과 외생성 ↪ 내생성 : x 와 e 가 상관관계가 있다. ↪ 외생성 : x와 e 가 상관관계가 없다. E(xe) = 0 ② When x and e are correlated (the case of endogeneity) • x와 e가 연관되어있을 때 : 내생성 • 예시1. 내생성 • 예시2. 외생성 • 예시3. 내생성 • 예시4. 내생성 : simu.. 2023. 4. 9.
Difference-in-Difference (DiD) 👀 계량경제학 개인 공부용 포스트 글 입니다. ① 이중차분 등장배경 • 두 개의 프로모션의 성과 (매출액) 가 있을 때, 프로모션 A에 대해 평가를 진행해보고자 한다. 이때 2가지 접근이 가능할 것이다. 1. 2019년 7월의 시점에서 프로모션 B와 비교해볼 때, A가 10억이 많다. B에 비해 A의 성과가 높았다고 말할 수 있다. 2. 2018년 7월과 2019년 7월을 비교했을 때, A의 효과가 40억 떨어졌다. A의 효과가 작년보다 좋지 않았다고 보고할 수 있다. 💡 정보가 2개의 차원으로 주어졌을 때, 어떻게 해석해야 좋을까 ⇨ 이중차분법 ! ② 이중차분 개념 • DID 는 특정 사건 전후로 treatment group 과 control group 의 차이를 비교 (시간의 흐름에 따른 변화량을 비.. 2023. 4. 3.
계량경제학 스터디 CH7,8,9,10정리 👀 계량경제학 개인 공부용 포스트 글 입니다. Ch7. Nonlinear relationship ① Polynomials • Polynomials are useful to capture relationships that are curved. ⇨ examples (1) Cost functions (2) Wage function ② Nonlinear relations • GDP 는 exponential 한 추이를 보인다. 그러나 log 를 씌우면 linear 한 관계를 보일 수 있다. ③ Use of Dummy variables • nonlinear 한 관계를 만드는 가장 간단한 방법은 dummy (binary) 변수를 찾는 것이다. • Intercept dummy : 절편에 영향을 주는 더미변수 • Slo.. 2023. 3. 31.
데이터마이닝 Association analysis 1. Basic Concepts ① Overview • Motivation : finding inherent regularities in data ↪ 함께 구매되는 상품이 무엇이 있을까 ↪ PC 를 사고난 직후에 구매하는 상품은 뭐가 있을까 ↪ 새로운 약에 민감한 DNA는 어떤 종류가 있을까 ↪ 웹문서를 자동으로 분류할 수 있을까 ⇨ 연관된 규칙을 찾아보자 • Application ↪ Basket data analysis, cross-marketing, catalog design, sale campaign analysis, Web log (click stream) analysis, and DNA sequence analysis ② Association Rule Mining • Given a set of .. 2023. 3. 29.
데이터마이닝 Preprocessing ③ 1. Data Cleaning ① Data quality → preprocess 를 하는 이유 • Accuracy, Completeness, Consistency, Timeliness, Believability, Interpretability ② Data Cleansing • Data in the real world is dirty • Incomplete, Noisy, Inconsistent, Intentional ③ Incomplete: lacking attribute values, lacking certain attributes of interest or containing only aggregate data ex. missing data ↪ 센서기기가 고장났거나, 정보가 쉽게 모이지 않거나, 아이들.. 2023. 3. 29.
Choosing sequential testing framework - comparisons and discussions https://engineering.atspotify.com/2023/03/choosing-sequential-testing-framework-comparisons-and-discussions/ Choosing Sequential Testing Framework — Comparisons and Discussions - Spotify Engineering Choosing Sequential Testing Framework — Comparisons and Discussions - Spotify Engineering engineering.atspotify.com ▢ Sequential testing • Sequential testing 이란 A/B 테스트를 하는 동안 데이터가 발생했을 때, 순차적으로 모니터링.. 2023. 3. 26.
계량경제학 스터디 CH3,4,5,6 정리 👀 계량경제학 개인 공부용 포스트 글 입니다. Ch3. Interval estimation and hypothesis testing in a Linear Regression Model ① Interval estimation • 95% confidence interval for the paramter β2 • σ^2을 모른다면 → t-test • Confidence interval (CI) : 신뢰구간은 좁을수록 좋다. 더 정확한 추론을 할 수 있기 때문! ↪ t 분포는 대칭적이기 때문에 CI 또한 대칭적이다. ↪ 유의성 α 는 가설검정을 위해 주어진다. • 표준오차 se 와 표준편차의 차이 ↪ 두 값 모두 분산에 sqrt 를 씌운 형태이지만 ↪ 표준오차는 estimate 한 값을 포함하고, 표준편차는 데.. 2023. 3. 19.
데이터마이닝 Preprocessing ② 1. Types of data sets • Relational Records ↪ collections of records, each of which consists of a fixed set of attributes • Data matrix: record data ↪ If the data objects have the same fixed set of numeric attributes, the data objects can be thought of as points in a multi-dimensional space, where each dimension represents a distinct attribute ↪ m by n matrix, m rows, n columns • Document data: r.. 2023. 3. 15.
728x90