본문 바로가기

1️⃣ AI•DS176

[개념] Part ① : 데이터 분석 기초 - ⑵ Basic of data analytics 보호되어 있는 글 입니다. 2023. 7. 15.
[개념] Part ① : 데이터 분석 기초 - ⑴ 현업에서 데이터분석 보호되어 있는 글 입니다. 2023. 7. 14.
[The Brave and True] 12. Doubly Robust Estimation 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 • Doubly robust estimator = 선형회귀 + 경향점수 • 둘 중 하나가 불완전해도 적당한 추정치를 얻을 수 있다. ① Introduction ◯ Doubly Robust Estimation • E[Y|T=1] - E[Y|T=0] | X 를 추정하기 위해 선형회귀, Propensity score weighting 방법을 배웠다. • 이 둘을 결합해서 사용하는 방법이 Doubly Robust Estimation 이다. ◯ 예제 • chapter 11 예제와 동일 • 분석하기 전에 범주형 변수들을 dummy 처리한다. categ = ["ethnicity", "gender", "school_urbanicit.. 2023. 7. 14.
[The Brave and True] 11. Propensity score 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ※ 정리 1 ※ 정리 2 📜 정리 • 성향점수 = Treatment 를 받을 확률 • 성향점수가 있다면 Confounder 를 직접 제어할 필요가 없으며, 성향점수를 통제하는 것만으로 충분하다. ① Example ◯ 주제 • 학생들이 학교에서 성장 마인드셋에 대한 세미나를 참여하고 교육을 받은 학생들이 학업적으로 어떠한 성취가 있었는지 측정하기 위해 세미나 수업을 받은 학생들의 대학생활을 추적한다. ◯ 데이터셋 • school_achievement : 표준화된 성취도 (표준화 됨 = 변수가 표준편차로 측정됨) • success_expect : 자기개발 성공 기대도 (미래 성공에 대한 자체 기대 평가) → 무작위 할당 이전에 측.. 2023. 7. 13.
[The Brave and True] 10. Matching 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ※ 정리 📜 정리 • 회귀 : 데이터를 셀로 분할하고, 각 셀에서 ATE 를 계산한 다음, 셀의 ATE 를 전체 데이터셋에 대한 단일 ATE 로 결합하는 것 • 매칭 estimator ① What is Regression Doing After All? ◯ 회귀분석 • 회귀분석을 적용하면 Treatment group 과 Control group 을 비교할 때, 추가적인 변수들을 제어할 수 있다. 즉, X를 통제함으로써 ATE 를 식별할 수 있다 : (Y0, Y1) ⊥ T | X ⇨ 조건부 독립성 가정 • 회귀분석과 Matching 은 functional form 을 가정하느냐 안 하느냐의 차이만 존재한다. ② The Subcla.. 2023. 7. 11.
[The Brave and True] 9. Non Compliance and LATE 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 도구변수로 추정하는 ATE 는 LATE 이다. • compiler에 대한 LATE 이다. ① Heterogeneous ◯ 도구변수에 대한 반응 종류 • Compliers, Never Takers, Always Takers, Defieres • ex. 신약 효과 테스트를 위해 피실험자는 약물 또는 위약을 할당받는다. Compliers 약물 또는 위약을 거부감 없이 복용하는 집단 Never Takers 할당 받은 약의 복용(Treatment)을 거부 또는 받지 않는 사람 (어떠한 약을 할당받아도 복용하지 않을 사람) Always Takers 약 할당과 별개로 항상 진짜 약물을 복용하는 사람들 Defieres 통제에 할당되.. 2023. 7. 4.
[The Brave and True] 8. Instrumental variables 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 도구변수 • Treatment 변수와 상관관계가 있으면서, Treatment 를 통해서만 결과변수에 영향을 주는 것 • 2SLS 를 사용해 인과효과를 추정 • 약한 도구변수라면 추정이 어려울 수 있다. • 2SLS 는 일관성이 있긴 하지만, 여전히 인과효과를 추정하는데 있어선 편향된 방법이다. ① Going Around Omitted variable bias ◯ Instrumental variables • OVB(Omitted Variable Bias) 를 다루는 방법 중 하나는 생략된 변수를 모델에 추가하는 것이다. 그러나 생략된 변수를 항상 얻을 수 있는 것은 아니기 때문에 문제가 된다. • 도구변수의 아이디어는 .. 2023. 7. 3.
인과추론의 데이터 과학 - 머신러닝의 해석 가능성과 인과추론 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① Value of Causality • 인과성은 actionable 한 전략을 제공한다. 상관성은 action 으로 이어지기가 어렵다 (e.g. 초콜릿 소비가 많을수록 노벨상 수상자가 많다는 상관관계) • 그러나 실제로 인과성을 도출해내는 것은 매우 어려움 (Prediction 도 마찬가지) ↪ 실제 세상은 매우 복잡하며 dynamic 한 system 으로 동작한다. 하지만 분석을 할 때는 이런 dynamic 한 특성을 없애고 static 한 가정에서 진행하기 때문에 관점이 제한적일 수 있다. • 또한 데이터가 완전하지 않다. (imperfect and proxy - e.g. 행복지수) • 비즈니스는 Causal law 를 .. 2023. 6. 29.
[The Brave and True] 7. Beyond Confounders 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 ① 포함해야 되는 변수 • Treatment 를 예측하지 않더라도 Outcome 에 대해 좋은 예측을 하는 변수 (⁂ Y를 예측하면 분산이 낮아지고 인과관계를 추정할 때 통계적으로 유의한 결과가 나타날 가능성이 높아지기 때문) • 교란 요인 ② 포함시키면 안되는 변수 • Treatment 를 예측하지만 Outcome 을 예측하지 않는 변수 (⁂ treatment의 변동성을 줄여 인과효과를 찾기 어렵게 만들기 때문) • Treatment 와 outcome 사이의 매개변수 • Treatment 와 outcome 의 공통효과인 변수 ① Good controls ◯ 통제변수 • 통제변수가 Confounder 인 경우 모형에 .. 2023. 6. 29.
[The Brave and True] 6. Grouped and Dummy Regression 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① 그룹화된 데이터를 사용한 회귀 ◯ 이분산성 • 분산이 낮은 영역과 높은 영역을 동시에 갖는 현상, 즉 변수의 모든 값에서 분산이 일정하지 않은 경우다. • 분산이 달라지는 가장 일반적인 이유는 그룹화된 데이터 때문이다. ◯ smf.ols 와 smf.wls 차이 • smf.ols : OLS 회귀모델을 구축하는데 사용된다. • smf.wls : 최소자승법의 변형으로 잔차의 가중치를 고려해 모델을 적합시킨다. 가중치는 각 데이터 포인트의 중요도를 나타내며, 특정 데이터 포인트에 더 큰 가중치를 부여해 모델이 해당 포인트에 더 적합하게 만든다. 오차의 분산이 다른 경우나 이상치에 덜 민감한 모델을 구축하고자 할 때 유용하다. ◯ .. 2023. 6. 28.
728x90