본문 바로가기

1️⃣ AI•DS176

[industry] 인과추론에서 도메인의 역할과 교란변수 보정 출처 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① 도메인과 인과추론 ◯ 인과추론은 도메인에 상당 부분 의존하는 방법론이다. Outcome 과 treatment 그리고 confounder (교란변수) 를 파악하는데 있어 도메인 지식은 필수다. ◯ data-driven 하게 변수 간 그래프 구조를 식별하기 위한 시도로 causal discovery 라는 방법이 있다. 그러나 이 방법도 제약이 없으면 작동하기 어렵고, 변수 간의 모든 조합을 고려하는 것은 계산량이 너무 많다. ◯ 인과추론 : 실험/처치/행동/정책이 가져온 효과를 정량적으로 분석 → 변수들 간의 모든 관계를 알 필요는 없다. treatment 를 추정할 때 교란변수를 보정 (모형에 추가) 했다는 사실이 중요.. 2023. 6. 15.
Uplift modeling 참고 아티클1 참고 아티클2 • 업리프트 모델은 treatment 반응으로 얻을 수 있는 점진적 가치 ( incremental value ) 를 예측한다. https://pylift.readthedocs.io/en/latest/index.html Welcome to pylift’s documentation! — pylift 0.1.3 documentation Welcome to pylift’s documentation! pylift is an uplift library that provides, primarily, (1) fast uplift modeling implementations and (2) evaluation tools. While other packages and more exact meth.. 2023. 6. 6.
[industry] 프로덕트 애널리틱스에서의 인과추론의 활용 사례와 향후 과제 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① 프로덕트 애널리틱스 소개와 인과추론의 중요성 ◯ Product : 재화, 서비스, 아이디어, 제품 ◯ Product Analytics • 데이터를 통해 사용자와 프로덕트 상호작용을 이해하는 과정 • 유사 개념 ↪ Mobile and Web Analytics (구글애널리틱스와 비슷한 개념) : 마케팅 비용, SEO, 페이지 단위지표 분석 ↔ Product Analytics : 행동 데이터와 더 깊은 레벨의 데이터 탐색 ↪ Marketing Analytics : Traffic, Acquisition ⇨ where : 유저들이 어디에서 왔는가에 대해 대답 ↔ Product Analytics : Engagement, Retenti.. 2023. 6. 1.
계량경제학 스터디 Lecture 8. Regression Discontinuity 👀 계량경제학 개인 공부용 포스트 글입니다. ※ 참고 블로그1 ※ 참고 블로그2 ※ 참고 블로그3 0. Brief review • 무작위에 준하는 방법 (Quasi-experiment) • RD 는 처치가 특정 제약조건이나 자격 하에 정해지는 경우에 사용된다. • RD 에서 중요한 가정은 처치가 오로지 배정 변수에 의해 결정된다는 것이다. ↪ Running variable 배정변수 : 처치를 결정하는 변수 ↪ Treatment variable 처치변수 : 처치 여부 변수 ↪ Bandwidth : 배정변수 전후로 얼마까지 인과효과 추정에 활용할 것인지의 너비 • ex. 음주가 사망에 영향을 미치는 인과관계를 확인하기 위해, 캐나다에서 시행한 법적 최소 음주 연령 제도에 초점을 맞춰 분석한 사례 : 음주 허.. 2023. 5. 25.
계량경제학 강의_한치록_특수주제들 17장 👀 계량경제학 개인 공부용 포스트 글입니다. 17. 이항반응모형 ① 선형확률모형 • 종속변수가 이진적인 경우 예시 : 종교여부 = β0 + β1•여성 + β2•log(소득) + u ↪ u는 오차항으로서 설명변수들이 주어졌을 때 0평균을 갖는다 하자 ↪ E(u|여성, 소득) = 0 이라고 가정하자 • 어떤 변수가 0 또는 1의 값을 가질 때 이 변수의 평균은 변수가 1의 값을 가질 확률과 동일하다. ↪ E(y) = p(y=1) ↪ P(종교여부 = 1 | 여성,소득) = β0 + β1•여성 + β2•log(소득) + u ↪ β1 : 여성이 종교를 가질 확률과 소득이 동일한 남성이 종교를 가질 확률의 차이 ↪ β2 : 동일한 성별에서 소득이 1% 높을 때 종교를 가질 확률(%) 이 평균 얼마만큼 증가하는지를 .. 2023. 5. 25.
계량경제학 강의_한치록_내생적인 설명변수 16장 👀 계량경제학 개인 공부용 포스트 글입니다. 16. 도구변수 추정 ① 자료에 의한 모수의 식별 • y = β0 + β1•x1 + β2•x2 + u 이고, x1과 x2가 외생적이면, β0, β1,β2 는 E(u) = 0 , E(x1•u) = 0 , E(x2•u) = 0 에 대응하는 방정식에 의해, 결정될 모수가 3개 & 방정식 3개 이므로 세 모수들은 관측변수들의 분포 (평균, 분산, 공분산) 에 의해 식별된다 (identified). 즉, β0, β1,β2 는 유일하다. • x2 가 내생적이면 문제가 된다. E(x2•u) ≠ 0 이므로 β0, β1,β2 를 만족시키는 경우가 무한히 많아진다. 세 모수들을 정확히 식별하려면 별도의 방정식이 최소한 하나 더 필요하다. 이 추가 방정식들을 추가적 도구변수들이 .. 2023. 5. 24.
계량경제학 강의_한치록_내생적인 설명변수 15장 👀 계량경제학 개인 공부용 포스트 글입니다. 15. 확률적인 설명변수 ① 확률적인 설명변수 • 앞서 설명변수 표본값 고정의 가정을 도입해 OLS를 설명했지만, 실제로 많은 변수들은 통제된 상태에서 생성되지 않는다. • 현실에서 경제 데이터의 표본은 몇몇 인구학적 변수를 제외하면 통제된 방식으로 추출되지 않는 것이 보통이다. • 설명변수의 표본값들은 고정되지 않고 확률적이다. ② 횡단면 자료에서 설명변수 확률성 • 횡단면 자료에서는 관측치 간에 서로 독립이라 가정한다. 이러한 경우 설명변수 확률성의 종류는 다음과 같다. 1. 설명변수들과 오차항은 확률적으로 독립 2. 설명변수는 외생적 : E(ui | Xi) = 0 3. 설명변수는 내생적 : E(Xi∙ui) ≠ 0 ⑴ 설명변수와 오차항이 독립 • 설명변수와.. 2023. 5. 24.
계량경제학 강의_한치록_가정의 현실화 14장 👀 계량경제학 개인 공부용 포스트 글입니다. 14. 오차의 자기상관 ① 클러스터로 묶이는 자료 • 가령, 여러 가구들에 소속된 개인들로 구성된 데이터라면, 가구라는 클러스터로 구성되어 있을 수 있으며, 동일 클러스터에 속하는 사람들은 동일한 경험을 공유할 것으로 보이며, 오차항에 공통의 요소가 포함될 것이다. 동일 가구 내의 개인들의 오차항은 서로 연관되어 있을 가능성이 높다. • 이처럼 오차항이 클러스터 내에서는 임의로 연관되어 있고, 클러스터 간에는 서로 독립인 상황이 있을 수 있다. 이럴 때, 동분산과 독립추출을 가정한 통상적인 표준오차를 구하거나 독립추출만을 가정하는 HC 표준오차를 구하면 잘못된 추론을 할 수 있다. • 클러스터 구조를 감안해 분산을 추정해야 하며, 이 경우 분산 추정량을 clu.. 2023. 5. 23.
계량경제학 강의_한치록_가정의 현실화 13장 👀 계량경제학 개인 공부용 포스트 글입니다. 13. 이분산 ① 오차의 이분산 • 표본추출 반복시행 시 u1,u2,...,un 의 분산이 서로 간에 달라서 동일분산 가정이 위배될 때 오차가 이분산적이라고 한다 : var(u | X1,...,Xk) 가 X1,..,Xk 에 의존함 • ex. 교육수준이 높은 사람의 임금 분산은 교육수준이 낮은 사람들의 임금 분산보다 클 것이다. • 다른 가정들이 모두 만족되고 오차항이 이분산적이라면 최소제곱 추정량은 여전히 unbiased 이다. 그러나 t검정과 F검정이 타당하지 않게 된다. 표본의 크기가 아무리 커도 이 문제는 해결되지 않는다. 또한 오차항이 이분산적이면 OLS 추정량이 BLUE 가 아니게 되며 OLS 추정량보다 더 효율적인 선형 비편향 추정량이 존재할 수 있.. 2023. 5. 22.
계량경제학 강의_한치록_가정의 현실화 12장 👀 계량경제학 개인 공부용 포스트 글입니다. ◯ OLS 추정량의 표집분포에 기초한 파라미터 참값에 대한 추론 • 가정 ① 비특이성 : 비특이성 가정이 위배되면 OLS 추정량은 유일하지 않다. 다만 위배하는 경우는 거의 발생하지 않는다. ② 설명변수 표본값 고정 : 편의를 위한 것으로, 일정 범위 내에서 이 가정은 쉽게 완화시킬 수 있다. ③ 오차평균0 : OLS 추정량이 편향되지 않기 위한 필수적인 가정 ④ 동일분산, 독립추출 : 가우스 마코프 정리에 중요하지만 OLS 추정량은 이것들 없이도 비편향이다. 그러나 검정을 위해서는 필요한 가정이다. ⑤ 정규분포 : 정규분포 가정으로 t 통계량과 F 통계량은 각각 정확히 t분포와 F분포를 갖는다. 12장~14장은 이러한 가정에 대해 자세히 검토해보고자 한다. .. 2023. 5. 22.
728x90